Offline Veri Kümelerinde Gizli Değişkenlere Karşı Dayanıklı Kontrol: Otomatik Ödül Şekillendirme ile Kausal Yaklaşım

Giriş

Simülasyon ile gerçek dünya arasındaki uçurum, pekiştirmeli öğrenme (Reinforcement Learning, RL) tabanlı robotik sistemlerin en temel sorunlarından biri olarak karşımıza çıkıyor. Laboratuvar ortamında mükemmel performans gösteren bir politika (policy), sahada karşılaşılan ışık değişimleri, sensör kalibrasyon kaymaları veya operatör yorgunluğu gibi görünmeyen faktörler karşısında çabucak kırılgan hale gelebiliyor. İşte tam bu noktada, Confounding Robust Continuous Control via Automatic Reward Shaping başlıklı çalışma, offline veri kümelerinden öğrenme yaparken gözlemlenemeyen karıştırıcı değişkenlere (unobserved confounders) karşı dayanıklı bir çözüm sunuyor. Bu makale, sürekli kontrol (continuous control) problemlerinde ödül şekillendirmeyi (reward shaping) kausal çıkarım perspektifinden ele alarak, otomatik ve prensipli bir çerçeve öneriyor.

Ana Analiz

Sorunun Kökeni: Gözlemlenemeyen Karıştırıcılar ve Standart Yaklaşımların Sınırlılıkları

Offline RL bağlamında, ajanlar önceden toplanmış veri kümeleri (offline datasets) üzerinden eğitilir. Ancak bu veriler nadiren mükemmel koşullarda kaydedilir. Bir robot kolunun birden fazla operatör tarafından farklı zamanlarda kontrol edildiğini düşünün. Operatörün yorgunluğu, odaklanma seviyesi veya tecrübesi gibi değişkenler sistemin dinamiğini etkiler ama veriye dahil edilmez. İşte bu tür değişkenlere confounding variables diyoruz.

Standart ödül şekillendirme yöntem