COLD-Steer: Büyük Dil Modellerini Bağlam İçi Tek Adımlık Öğrenme Dinamikleriyle Yönlendirme

Giriş: Davranışsal Kontrolün Verimlilik Çıkmazı

Büyük dil modellerinin (LLM) davranışlarını değiştirmek için geliştirilen mevcut yöntemler, temel bir ikilemle karşı karşıya. Bir yanda, sınırlı sayıda örnek (sample) ile çalışabilen ancak yetersiz sinyal üreten yaklaşımlar; diğer yanda, yüzlerce hatta binlerce örnek gerektiren ama daha etkili kontrol sağlayan teknikler bulunuyor. Bu spektrumun iki ucunda yer alan yöntemler, activation steering (aktivasyon yönlendirme) alanında kritik bir boşluğu ortaya koyuyor.

Contrastive Activation Addition (CAA) gibi karşıtlık temelli yöntemler, pozitif ve negatif örnek çiftlerinin aktivasyon farklarını kullanarak steering vector (yönlendirme vektörü) oluşturur. Bu yaklaşım örnek verimli (sample efficient) olsa da, pratikte istenen davranış değişimini tam olarak yakalayamayabiliyor. Öte yandan, Representation Fine-Tuning (ReFT) gibi parametre tabanlı yaklaşımlar, modelin iç temsillerini (representation) dönüştürmek için yüzlerce örnekle eğitim yapar ve daha hassas kontrol sağlar. Ancak bu durum, inference time (çıkarım anında) esneklikten ödün verilmesine ve hesaplama maliyetinin artmasına yol açar.

Georgia Institute of Technology ve Massachusetts Institute of Technology araştırmacıları tarafından ICLR 2026'da sunulan "COLD-Steer: Steering Large Language Models via In-Context One-Step Learning Dynamics" başlıklı çalışma, bu ikilemi fundamental bir şekilde çözüyor. Makalenin temel tezi, fine-tuning (ince ayar) sürecinde meydana gelen temsil değişimlerinin, inference sırasında gerçek parametre güncellemesi yapmadan tahmin edilebilmesi ve doğrudan aktivasyonlara uygulanabilmesi üzerine kurulu.

COLD-Steer: Öğrenme Dinamiklerini Aktivasyon Uzayına Taşımak

COLD-Steer (in-Context One-step Learning Dynamics), transformer mimarisinin öğrenme mekanizmalarını kullanarak, gradient descent (gradyan inişi) algoritmasının aktivasyonlar üzerindeki etkisini simüle eder. Geleneksel yaklaşımlar steering işlemini statik bir optimizasyon problemi olarak ele alırken; yani tüm girdiler için tek bir yönlendirme yönü bulma çabasındayken, COLD-Steer modelin kendi öğrenme dinamiklerinden yararlanır.

Makalede iki tamamlayıcı yöntem öneriliyor:

COLD-Kernel-Steer: Bu yaklaşım, birim çekirdek (unit kernel) yaklaşımı kullanarak aktivasyonları doğrudan günceller. Belirli bir loss function (kayıp fonksiyonu) üzerinden hesaplanan gradyanlar, aktivasyonların kendilerine göre normalize edilir ve örnekler arasında ağırlıklandırılarak birleştirilir. Bu teknik, her bir bağlam örneğinin modelin iç temsillerinde ne tür bir değişim yaratacağını analitik olarak hesaplar.

COLD-FD-Steer: Sonlu farklar (finite-difference) yöntemine dayanan bu yaklaşım, örnek sayısından bağımsız olarak sadece iki adet forward pass (ileri besleme, ileri geçiş) ile gradyanları yaklaşık olarak hesaplar. Bu, hesaplama verimliliği açısından kritik bir avantaj sağlar; çünkü çok sayıda örnekle çalışılırken bile hesaplama maliyeti sabit kalır.

Her iki yöntem de şu temel varsayıma dayanır: Bir model, in-context learning (bağlam içi öğrenme) sırasında örneklerden öğrenirken, ara katmanlardaki aktivasyonlar belirli bir yörünge izler. COLD-Steer, bu yörüngenin bir adımlık gradyan inişiyle nasıl değişeceğini hesaplayarak, parametreleri güncellemeden o değişimi doğrudan aktivasyonlara uygular. Bu, türevi alınabilir bir kayıp fonksiyonu üzerinden davranışsal kontrol sağlamayı mümkün kılar.

Çalışmanın teknik olarak dikkat çekici bir bulgusu, CAA gibi mevcut karşıtlık temelli yöntemlerin aslında COLD-Steer'in özel bir durumu olduğunun gösterilmesidir. CAA'nın kullandığı pozitif-negatif aktivasyon farkı, belirli bir kayıp fonksiyonu için gradyan inişinin yönünü örtük olarak (implicitly) tahmin etmekte olduğunu ortaya koyar. Bu bulgu, literatürdeki farklı yaklaşımları tek bir matematiksel çerçevede birleştirerek kavramsal bütünlük sağlar.

Deneysel Sonuçlar ve Çoğulcu Uyum

Yazarlar, çeşitli benchmark (karşılaştırma ölçütü) veri kümelerinde ve farklı LLM'ler üzerinde kapsamlı deneyler gerçekleştirmiştir. Sonuçlar, COLD-Steer'in %95'e varan yönlendirme etkinliği (steering effectiveness) elde ederken, en iyi temel yönteme kıyasla 50 kat daha az örnek kullandığını göstermektedir. Bu verimlilik artışı, sadece hesaplama maliyetini düşürmekle kalmayıp, aynı zamanda veri toplama sürecindeki insan kaynaklı maliyetleri de dramatik şekilde azaltır.

Özellikle dikkat çekici bir uygulama alanı, pluralistic alignment (çoğulcu uyum) olarak adlandırılan kavramdır. Geleneksel yapay zeka güvenliği ve hizalama çalışmaları genellikle tek bir evrensel değerler kümesine odaklanırken, gerçek dünyada farklı kültürler, bireyler ve bağlamlar farklı tercihlere sahiptir. COLD-Steer'in örnek verimliliği, modelin çok az sayıda gösterimle farklı perspektiflere adapte olmasını mümkün kılar. Örneğin, aynı model farklı kullanıcı grupları için farklı iletişim tarzlarına veya değer hiyerarşilerine kısa sürede ayarlanabilir. Bu, kişiselleştirilmiş yapay zeka sistemleri için yeni olanaklar sunar.

Deneysel olarak, yazarlar hem paired preference (çift tercih) etiketleri hem de positive-only (sadece pozitif) etiketlerle çalışabilen bir framework sunduklarını gösterirler. Bu esneklik, pratik uygulamalarda önemlidir; çünkü her zaman için negatif örnekler oluşturmak mümkün veya etik olmayabilir.

Kendi Yorumum ve Çıkarımlar: Parametresiz Gradyan İnişi Paradoksu

COLD-Steer'in sunduğu en derin kavramsal katkı, in-context learning ile gerçek ağırlık güncellemeleri (weight updates) arasındaki matematiksel uyumu ortaya koymasıdır. Uzun süredir, bağlam içi öğrenmenin ve fine-tuning'in temelde farklı mekanizmalar olduğu düşünülüyordu. Ancak bu çalışma, transformer mimarisinde bu iki sürecin aktivasyon uzayındaki etkilerinin lineer bir yaklaşımla modellenebildiğini gösteriyor. Bu bulgu, meta-öğrenme (meta-learning) ve few-shot learning alanlarında yeni araştırma yönleri açabilir.

Teknik olarak, COLD-FD-Steer'in sadece iki forward pass ile sınırsız sayıda örneği işleyebilmesi, hesaplama karmaşıklığı açısından attention (dikkat) mekanizmasının kendisi kadar verimli bir yaklaşım sunuyor. Bu, ölçeklenebilirlik açısından kritik öneme sahip; çünkü büyük modellerde her ek forward pass önemli bellek ve işlemci kaynağı demektir.

Ancak bir araştırmacı olarak dikkatimi çeken nokta, bu yöntemin modelin iç tem