Dinamik Videolarda 3D Geometrik Tutarlılığı Ölçmek: SGC Metriği ve Piksel Merkezli Değerlendirme Krizinin Aşılması

Giriş

Son dönemde üretken video modelleri, metin tabanlı açıklamalardan gerçekçi görüntü dizileri oluşturma konusunda kayda değer ilerlemeler kaydetti. CogVideo, VideoPoet ve benzeri sistemler, benchmark süreçlerinde yüksek puanlar alarak fotorealist görsel kalite vaad ediyor. Ancak bu yüzeysel başarı, modellerin ürettiği içeriklerin temeldeki fiziksel tutarlılığı konusunda yanıltıcı bir tablo çizebiliyor. Tongji ve Tsinghua üniversiteleri ile UC Berkeley’den araştırmacıların kaleme aldığı "Measuring 3D Spatial Geometric Consistency in Dynamic Generated Videos" başlıklı çalışma, mevcut değerlendirme metriklerinin kritik bir kör noktasını aydınlatıyor. Bu makale, önerilen SGC (Spatial Geometric Consistency) metriğinin teknik altyapısını, tespit ettiği başarısızlık modlarını ve alan için taşıdığı paradigmatik önemi inceleyecektir.

Ana Analiz

Mevcut Metriklerin Çifte Kör Noktası: İçerik Ağırlıklı ve Kırılgan Tutarlılık

Video üretim sistemlerinin değerlendirilmesinde kullanılan mevcut ölçütler temelde iki kategoride toplanıyor ve her ikisi de ciddi sistemik hatalar içeriyor. Birinci kategori, Fréchet Video Distance (FVD) gibi sadakat merkezli metriklerdir. Bu yaklaşımlar, üretilen videoların istatistiksel dağılımını gerçek veri kümesiyle karşılaştırarak çalışır. Ancak Dou ve arkadaşlarının belirttiği gibi, bu metrikler "content-over-motion" yanlılığına sahiptir; yani görsel dokunun (texture) piksel seviyesindeki benzerliğine aşırı odaklanırken, arka plandaki geometrik çarpıklıklara karşı neredeyse tamamen duyarsız kalırlar. Bir binanın kamera hareketi sırasında mantıksız şekilde bükülmesi, FVD skoru üzerinde minimal etki yaratırken, renk paletinin doğru olması yüksek puan getirir.

İkinci kategori ise tutarlılık odaklı benchmark araçlarıdır. VBench gibi kapsamlı değerlendirme setleri veya TSED, MEt3R gibi novel view sentezi metrikleri, dinamik nesnelerin varlığında "fragility-to-motion" yanlılığı gösterir. Bu araçlar, geçerli ve fiziksel olarak doğal olan hareketleri bile cezalandırma eğilimindedir. Örneğin, sahne içindeki bir kişinin doğal yürüyüş hareketi, bu metrikler tarafından tutarsızlık olarak algılanabilir. FVMD gibi uzmanlaşmış araçlar ise nesne kinematiğine odaklanırken arka plan stabilitesini göz ardı eder. İşte tam bu noktada, statik arka plan ile dinamik ön planı birbirinden ayıran, geometrik tutarlılığı izole eden bir metriğe duyulan ihtiyaç ortaya çıkar.

SGC Metodolojisi: Çok Görüşlü Geometriden Yola Çıkan Tanı

SGC metriği, fiziksel dünyanın temel bir ilkesine dayanır: Koherent bir 3D sahnede, statik arka plan noktaları (hız vektörü sıfır olan noktalar) tek bir paylaşılan kamera dönüşümüne (T cam) uymak zorundadır. Eğer sahne içindeki farklı statik bölgeler, birbirleriyle çelişen kamera hareketleri (egomotion) ima ediyorsa, geometri bozulmuş demektir; piksel seviyesindeki görsel sadakat ne olursa olsun.

Metodoloji adım adım şu şekilde işler:

Statik ve Dinamik Ayrımı: İlk olarak video dizisi içinde hareketli nesneler (foreground) ile sabit arka plan (background) ayrılır. Bu ayrım, sadece statik bölgelerin analiz edilmesini sağlar.
Uzaysal Bölütleme: Statik arka plan, uzaysal olarak tutarlı alt bölgelere (spatially coherent sub-regions) ayrılır. Bu bölgeler, bağımsız olarak incelenebilecek rijit yapılar olarak ele alınır.
Derinlik Tahmini ve 3D Rekonstrüksiyon: Her piksel için depth estimation (derinlik tahmini) yapılarak 2D görüntü koordinatları 3D uzay noktalarına dönüştürülür.
Yerel Kamera Pozu Tahmini: Her alt bölge için, 2D özellik izleri ve bunlara karşılık gelen 3D noktalar kullanılarak Perspective-n-Point (PnP) algoritmasıyla yerel kamera pozu (local camera pose) tahmin edilir.
Divergence Hesaplama: Fiziksel olarak tutarlı bir sahnede, bu yerel poz tahminleri birbiriyle mutabık olmalıdır. SGC skoru, bu yerel poz tahminleri arasındaki varyans (inter-region variance), global kamera trajektörü ile uyum dereceleri ve kareler arası derinlik hizalama (cross-frame depth alignment) kriterlerinin birleştirilmesiyle oluşturulur.

Bu yaklaşım, piksel tabanlı karşılaştırmadan ziyade geometric consistency (geometrik tutarlılık) prensibine dayalı bir değerlendirme sunar. Kamera pozları arasındaki transform divergence (dönüşüm sapması), görsel sadakatin gizleyemeyeceği temel yapısal bozulmaları ortaya çıkarır.

Dört Kritik Başarısızlık Modu

Makale, üretken modellerde gözlemlenen dört temel 3D uzaysal geometrik tutarsızlık tipini sınıflandırır:

Geometric Warping: Kamera hareketi sırasında rijid statik yapıların (binalar, duvarlar) mantıksız şekilde bükülmesi veya çarpılması.
Incoherent Motion: Statik nesnelerin (çalışma tezgahları, mobilyalar) dinamik nesnelere mantıksız şekilde yapışması veya onlarla birlikte hareket etmesi; fiziksel ayrımın ihlali.
Object Impermanence: Statik yapıların zaman içinde titremesi (flickering), şekil değiştirmesi veya ani olarak kaybolup belirmesi; nesne kalıcılığının (object permanence) sağlanamaması.
Perspective Failure: Büyük ölçekli sahnelerde (dağlar, ufuk çizgisi) perspektif prensiplerinin ihlali; uzaktaki nesnelerin kamera hareketine uygun olmayan şekilde daralması veya genişlemesi.

Bu başarısızlıklar, mevcut FVD gibi metrikler tarafından genellikle gözden kaçırılır çünkü her bir kare bağımsız olarak incelendiğinde görsel olarak inandırıcı görünebilirler. Ancak SGC, bu tutarsızlıkları kamera pozu divergence’ı üzerinden tespit eder.

Kendi Yorumum ve Özgün Çıkarımlar

Bu çalışma, üretken video araştırmalarında bir paradigma değişiminin habercisidir. Mevcut yaklaşım, fine-tuning ve model optimizasyonunu görsel benzerlik üzerinden şekillendirirken, aslında modellerin "photorealism" (fotogerçekçilik) tuzağına düşmesine neden oluyor. Bir video, piksel seviyesinde mükemmel görsel dokuya sahip olabilir ancak temeldeki 3D geometrik yapı tamamen tutarsızsa, bu bir başarı değil, bir başarısızlıktır.

SGC metriğinin önerdiği temel ilke, multiview geometry (çok görüşlü geometri) disiplininin üretken modellere uygulanmasıdır. Gelecek nesil benchmark sistemlerinin, texture benzerliği yerine local coordinate frames (yerel koordinat çerçeveleri) arasındaki transform divergence'ı ölçmesi gerektiği açıktır. Statik bölge poz varyansı, geometrik tutarlılığın sinyalini taşırken; pikseller sadece gürültü (noise) olabilir.

Ayrıca, bu metodoloji video üretiminin ötesinde, 3D aware generative systems (3D farkındalıklı üretken sistemler) için de bir değerlendirme çerçevesi sunar. Eğer bir model, sahneyi gerçekten 3D olarak anlıyorsa, farklı statik alt bölgelerden tahmin edilen kamera pozları mutlaka birbiriyle uyumlu olmalıdır. Bu durum, modellerin sadece istatistiksel desen