LLM'leri Değerlendirirken "Ortalama" Olmak Neden Kritik? Anchor Seçiminin İstatistiksel Etkileri

Giriş: Değerlendirme Paradoksu ve Gizli Bir Maliyet

Büyük Dil Modellerinin (LLM) yeteneklerini ölçmek, modern yapay zeka araştırmalarının en temel zorluklarından biri haline geldi. Geleneksel referans tabanlı metrikler (BLEU, ROUGE gibi) artık açık uçlu üretim görevlerinde yetersiz kalıyor. Bu boşluğu doldurmak için LLM as a judge (hakem olarak LLM kullanımı) paradigmaları yaygınlaştı. Bu yaklaşımda, bir LLM diğer modellerin çıktılarını değerlendirerek tercih bildiriyor.

Ancak pairwise comparison (ikili karşılaştırma) yönteminin hesaplama maliyeti kuadratik olarak artıyor. Değerlendirilen model sayısı N olduğunda, karşılaştırma sayısı N(N-1)/2 oluyor. Bu maliyeti azaltmak için Arena-Hard ve AlpacaEval gibi popüler benchmark'lar tek bir anchor (çapa) model seçip tüm modelleri bu referans noktasına göre karşılaştırıyor. Sorun şu ki, bu anchor seçiminin sonuçların güvenilirliği üzerindeki etkisi uzun süre sistematik olarak incelenmedi.

Shachar Don-Yehiya ve meslektaşlarının "Mediocrity is the key for LLM as a Judge Anchor Selection" başlıklı çalışması, bu göz ardı edilen faktörün aslında değerlendirme mimarisinin en kritik bileşenlerinden biri olduğunu ortaya koyuyor.

Ana Analiz: Neden En Güçlü Modeller En Kötü Anchor'lar?

Araştırmacılar Arena-Hard-v2.0 veri seti üzerinde 22 farklı anchor model kullanarak 850.000'in üzerinde ikili karşılaştırma gerçekleştirdi. Bulgular şaşırtıcı bir inverted U-shaped relationship (ters U şekilli ilişki) gösteriyor: En yüksek performanslı modeller ile en düşük performanslı modeller, orta düzey (mediocre) modellere kıyasla anlamlı şekilde daha kötü anchor'lar olarak davranıyor.

Kendall's tau correlation (Kendall'ın tau korelasyonu) metriği kullanılarak yapılan analizde, kötü bir anchor seçimi insan sıralamaları ile korelasyonda 0.30'luk, kuadratik sıralamalarla karşılaştırıldığında ise 0.19'luk düşüşlere yol açıyor. Bu, anchor seçiminin rastgele bir tercih değil, istatistiksel gücü doğrudan etkileyen bir parametre olduğunu gösteriyor.

Neden en güçlü modeller (örneğin o3 gibi) kötü anchor'lar? Çünkü bu modeller win-rate (kazanma oranı) dağılımlarını aşırı derecede çarpıtıyor. o3, Arena-Hard-v2.0'ın 750 örneğinden yaklaşık 500'ünde diğer tüm modellere karşı kazanıyor. Bu durum, değerlendirme bütçesinin üçte ikisinin "o3 daha iyi" sonucu üreten bilgi değeri düşük karşılaştırmalarla israf edilmesi anlamına geliyor. Benzer şekilde, çok zayıf bir model de sürekli kaybederek orta düzey modeller arasındaki nüansları ayırt etmeyi imkansız hale getiriyor.

Çalışmanın power analysis (güç analizi) bölümü daha endişe verici bir bulguyu ortaya koyuyor: Mevcut benchmark boyutları, rekabetçi modeller arasındaki küçük farkları (+5% etki büyüklüğü) istatistiksel olarak güvenilir bir şekilde ayırt etmek için yetersiz. Özellikle extreme anchor'lar kullanıldığında, anlamlı farkları tespit etmek için gereken örneklem büyüklüğü üstel olarak artıyor.

Anchor mu Judge mu? Karşılaştırmalı Etki Büyüklüğü

Araştırmacılar anchor seçiminin etkisini, değerlendirme için kullanılan judge modelin seçimiyle karşılaştırdı. Sonuçlar, anchor seçiminin etki büyüklüğünün judge model seçimiyle karşılaştırılabilir düzeyde olduğunu gösteriyor. Yani GPT-4 mü yoksa Claude 3 mü kullanacağınıza karar vermek kadar kritik bir başka karar da, bu modelleri hangi referans noktasına göre değerlendireceğiniz.

Bu bulgu, literatürdeki mevcut eğilimi alt üst ediyor. Araştırmacılar genellikle daha güçlü judge modelleri seçmeye odaklanırken, anchor olarak genellikle mevcut en güçlü modeli (state of the art) veya tam tersine en zayıf bir baz modeli kullanıyorlar. Ancak bu çalışma, "gold standard" olarak en iyi modeli kullanmanın aslında değerlendirme gücünü azalttığını kanıtlıyor.

Kendi Yorumum: Sinyal Sıkışması ve Üretim Değerlendirmeleri

Bu bulguların pratik sonuçları derin. Mevcut liderlik tabloları (leaderboards) ve akademik benchmark'lar, büyük olasılıkla sistematik olarak yanlış anchor seçimleri nedeniyle model yeteneklerini yanlış sıralıyor olabilir. En güçlü modeli anchor olarak kullandığınızda, aslında "kuyrukdaki davranışları" (tail behavior) ölçüyorsunuz; yani modellerin en iyi modele ne kadar yaklaştığını değil, ondan ne kadar uzak olduklarını. Ancak rekabetçi modellerin çoğu asıl farklılıklarını orta yetenek dağılımında gösteriyor.

Üretim ortamlarında fine-tuning sonrası yapılan A/B testlerinde bu sorun daha da belirginleşiyor. Şirketler genellikle k en son büyük modeli referans alarak yeni sürümlerini değerlendiriyor. Ancak bu çalışma, iyi ayarlanmış (well-tuned) bir 70B parametreli modelin, 400B+ parametreli bir frontier modelden daha iyi bir anchor olabileceğini gösteriyor. Çünkü 70B model, karşılaştırılan modeller arasında daha granüler ayrımlar yapabilecek bir informativeness rate (bilgilendiricilik oranı) sağlıyor.

Araştırmacıların önerdiği çerçeveye katılıyorum: Anchor seçimi yapılmadan önce model setinin büyüklüğü (N≤3 ise anchor kullanmayın) ve karşılaştırmaların bilgilendiricilik oranı raporlanmalı. Eğer bir anchor karşılaştırmaların %60'ında aynı sonucu üretiyorsa (sürekli kazanıyor veya kaybediyor), bu anchor istatistiksel gücü düşüren bir parametredir.

Ayrıca, tek bir anchor yerine çoklu anchor stratejileri veya dinamik eşleştirme algoritmaları (ancak bu çalışmada belirtildiği gibi transitivity assumption/geçişkenlik varsayımının kırılganlığını göz önünde bulundurarak) değerlendirilmeli.

Sonuç: Eylem Çağrısı ve Gelecek Yönelimler

Don-Yehiya ve arkadaşlarının çalışması, LLM değerlendirme pratiğinde temel bir düzeltme gerektiğini gösteriyor. En önemli öneriler şunlar:

Anchor seçiminde "ortalama" model tercihi: Mevcut yetenek dağılımının ortasında yer alan, iyi ayarlanmış orta ölçekli modelleri anchor olarak kullanın.
Benchmark boyutlarının artırılması: Mevcut Arena-Hard boyutları, rekabetçi modeller arasındaki farkları tespit etmek için istat