SAE'lerin Kompozisyonel Genelleme Çöküşü: Sözlük Öğrenmesindeki Gizli Kriz

Giriş

Büyük dil modellerinin (LLM) iç dünyasını anlama çabası olan mechanistic interpretability (mekanistik yorumlanabilirlik) alanında son yıllarda hakim olan varsayım, linear representation hypothesis (LRH) olarak biliniyor. Bu hipoteze göre, transformer mimarilerinin gizli katmanlarındaki aktivasyonlar, temel kavramları doğrusal karışımlar şeklinde kodluyor. Bu varsayım, linear probing ve activation steering gibi tekniklerin temelini oluşturdu. Ancak Barin Pacela, Joshi ve meslektaşlarının "Stop Probing, Start Coding: Why Linear Probes and Sparse Autoencoders Fail at Compositional Generalisation" başlıklı çalışması, bu alandaki kritik bir kavram karışıklığını ortaya koyarak mevcut interpretability yöntemlerinin temelini sarsıyor.

Makale, superposition (üst üste bindirme) olarak bilinen rejimde, kavramların doğrusal olarak kodlanmış olmasının, onlara doğrusal olarak erişilebileceği anlamına gelmediğini gösteriyor. Daha da önemlisi, sparse autoencoder (SAE) olarak bilinen ve alanda yaygın kullanılan araçların, compositional generalisation (kompozisyonel genelleme) testlerinde neden sistematik olarak başarısız olduğunun kök nedenini tespit ediyor. Bulgu şu ki, sorun amortised inference (amortismanlı çıkarım) prosedüründen kaynaklanmıyor; asıl problem ölçeklenebilir sözlük öğrenmesindeki (dictionary learning) derin bir kriz.

Superposition ve Doğrusal Erişilebilirlik İllüzyonu

Superposition rejiminde, bir modelin gizli katman boyutu d_y, temsil etmeye çalıştığı temel kavram uzayının boyutu d_z'den küçüktür. Matematiksel olarak, model y ≈ Wz formülasyonuyla daha yüksek boyutlu kavram uzayını (z ∈ R^{d_z}), daha düşük boyutlu aktivasyon uzayına (y ∈ R^{d_y}) yansıtır. Bu yansıma altında, kavram uzayında doğrusal olan bir karar