R-C2: Çok Modlu Akıl Yürütmede Döngüsel Tutarlılık ile Takviye Öğrenmesi

Giriş

Çok modlu büyük dil modelleri (Multimodal Large Language Models, MLLM'ler), metin ve görsel verileri birlikte işleyerek yapay zekada yeni ufuklar açtı. Web sayfalarını anlama, grafikleri yorumlama veya karmaşık görseller üzerinde mantık yürütme gibi görevlerde transformer mimarileri (dikkat mekanizmalarına dayanan derin öğrenme yapıları) sayesinde önemli yetenekler sergiliyorlar. Ancak bu modellerin temelinde yatan bir zayıflık mevcut: modality gap yani farklı veri türleri arasındaki tutarsızlık.

Rutgers Üniversitesi, Columbia Üniversitesi ve Chicago Üniversitesi'nden araştırmacıların sunduğu "R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning" başlıklı çalışma, bu sorunu çarpıcı bir şekilde gözler önüne seriyor. Aynı web sayfasının ekran görüntüsü ve ham HTML kaynağı olarak sunulduğunda, mevcut modeller farklı ve çelişkili yanıtlar üretebiliyor. Bu tutarsızlık, multimodal sistemlerin güvenilirliği açısından kritik bir başarısızlık olarak değerlendirilmeli. Geleneksel yaklaşımlar bu çelişkileri çoğunluk oylaması (majority voting) ile maskelemeye çalışıyor; ancak bu mekanizmalar, sistematik önyargıları güçlendirerek ve altta yatan gerçek anlam çatışmalarını çözmeden, sadece yüzeysel bir uzlaşma sağlıyor.

Ana Analiz: Modality Gap ve Oylama Mekanizmalarının Sınırları

Multimodal modellerdeki tutarsızlık problemini anlamak için öncelikle modality kavramını netleştirmek gerekir. Modality, modele sunulan verinin türünü ifade eder; görsel veriler (resimler, ekran görüntüleri) ve metinsel veriler (HTML kodu, açıklamalar) farklı modality'lerdir. İdeal olarak, bir model aynı anlamsal içeriğe sahip girdiler için modality'den bağımsız olarak tutarlı çıktılar üretmelidir. Ancak pratikte, vision encoder (görsel kodlayıcı) ve dil modelinin embedding space (gömülü uzay, vektör temsillerin bulunduğu uzay) arasındaki hizalama eksikliği nedeniyle modeller farklı modality'lerde çelişkili tahminler yapabiliyor.

Mevcut self-improvement yöntemleri genellikle çoklu rollout (modelin ürettiği çıktı örneği) üzerinden çoğunluk oylaması kullanır. Ancak bu yaklaşımın iki temel zaafı vardır. Birincisi, "tutarlı çatışma" (consistent conflict) durumudur: Hem görsel hem metinsel modality kendi içinde tutarlı tahminler üretir ancak birbirleriyle çelişirler. Bu durumda çoğunluk oylaması, hangi modality'nin doğru olduğuna dair bir bilgi sağlamaz; sadece rastgele bir seçim yapar. İkincisi, "kararsız iyileşme" (unstable recovery) problemidir: Tek bir modality içinde bile farklı rollout'lar farklı yanıtlar verebilir ve çoğunluk bazen yanlış cevabı seçebilir. Bu koşullar altında çoğunluk oylaması, sistemin önyargılarını amplifiye ederek hataları derinleştirebilir.

Bu noktada R-C2'nin temel çıkarımı devreye girer: Çapraz modal çelişkiler bir hata değil, öğrenme için zengin bir sinyal kaynağıdır. Modelin kendi içindeki tutarsızlıkları, dışsal etiketlere ihtiyaç duymadan düzeltmek mümkündür.

R-C2 Metodolojisi: Döngüsel Tutarlılık olarak Ödül Sinyali

R-C2 (Cycle-Consistent Reinforcement Learning), reinforcement learning (RL) (pekiştirmeli öğrenme) çerçevesinde çapraz modal döngü tutarlılığı (cross-modal cycle consistency) prensibini uygular. Bu yaklaşım, modelin kendi çıkarımlarını doğrulamasını sağlayan yapısal bir kısıtlama getirir.

Metodolojinin işleyişi şöyledir: Öncelikle modelden bir aday cevap (candidate answer) üretilir. Ardından backward inference (geri yönlü çıkarım) uygulanarak, bu cevabı üretecek olan sorgu (query) tersine mühendislikle tahmin edilir. Sonra modality değiştirilir; örneğin görselden metine veya metinden görsele geçilir. Yeni modality'de forward inference (ileri yönlü çıkarım) ile orijinal cevabın yeniden yapılandırılması (reconstruction) istenir. Eğer model, farklı modality'lerde tutarlı bir şekilde aynı cevaba ulaşırsa, bu döngü tamamlanmış olur ve pozitif bir ödül sinyali üretilir. Tutarsızlık durumunda ise negatif ödül uygulanır.

Bu süreç, yoğun (dense) ve etiketsiz (label-free) bir ödül sinyali oluşturur. Model, farklı modality'ler arasındaki hizalamasını kendiliğinden düzeltmeye zorlanır. Bu yaklaşım, matematik ve kodlama gibi doğrulanabilir cevaplar gerektiren alanlardaki RL uygulamalarından farklı olarak, karmaşık multimodal yanıtlar için geçerli bir öğrenme sinyali sağlar. Çünkü tutarlılığın kendisi, doğruluğun bir vekilidir (proxy).

Ayrıca bu yöntem, fine-tuning (önceden eğitilmiş modelin spesifik göreve adapte edilmesi) için pahalı ve özenle seçilmiş veri setlerine olan bağımlılığı azaltır. Model, mevcut veri üzerindeki içsel yapısal tutarlılıkları kullanarak kendini geliştirir.

Deneysel Bulgular ve Performans Analizi

R-C2'nin etkinliği, çeşitli benchmark (karşılaştırma ölçütü) testlerinde değerlendirildi. ScienceQA, ChartQA, InfoVQA, MathVista, A-OKVQA ve Visual Web Arena gibi farklı zorluk seviyelerindeki multimodal akıl yürütme görevlerinde test edilen yöntem, 3B ve 8B parametreli modellerde %7.6'ya varan doğruluk artışları sağladı. Bu iyileşme, sadece niceliksel değil, aynı zamanda niteliksel olarak da modellerin çapraz modal tutarlılığını önemli ölçüde artırdı.

Özellikle dikkat çekici olan, bu başarının insan anotasyonu gerektirmeden elde edilmesidir. Model, kendi içsel çelişkilerini çözerek özerk bir şekilde iyileşir. Bu durum, ölçeklenebilirlik açısından büyük önem taşır; çünkü mevcut yaklaşımların çoğu, büyük ölçekli ve dikkatle seçilmiş veri setlerine olan ihtiyaç nedeniyle sınırlıdır.

Araştırmacılar ayrıca, döngüsel tutarlılık yaklaşımının hangi koşullarda en fazla fayda sağladığını incelediler. Modellerin modality'ler arasındaki temsil boşluklarının (representation gap) en derin olduğu durumlarda, R-C2'nin düzeltici etkisi maksimum seviyeye ulaşıyor. Bu bulgu, yöntemin sadece yüzeysel hataları düzeltmediğini, aynı zamanda derinlemesine hizalama sorunlarını da çözdüğünü gösteriyor.

Kendi Yorumum: Yapısal Tutarlılık ve Gelecek Yönleri

R-C2'nin sunduğu en derin çıkarım, yapay zekada ölçeklendirmeden (scaling) yapısal kısıtlamalara (structural constraints) doğru bir paradigma kayması olabilir. Son yıllarda büyük modellerin başarısı genellikle daha fazla veri ve daha fazla parametre ile açıklandı. Ancak bu çalışma, modelin dünyanın tutarlı bir temsilini öğrenmesini sağlayan yapısal kurall