Otonom Araçlarda Çok Kaynaklı ve Çok Modlu Verilerin Gizli Maliyeti: Yedeklilik Analizi

Giriş

Günümüz otonom araç ekosisteminde araştırma ve geliştirme faaliyetlerinin büyük çoğunluğu algoritmik mimarilerin iyileştirilmesine odaklanmış durumda. Daha büyük transformer modelleri, daha karmaşık attention mekanizmaları ve daha derin convolutional networklar geliştirmek yerleşik bir yaklaşım haline gelmişken, beslenen verinin kalitesi (data quality) ikinci planda kalmaktadır. Ancak University of North Texas araştırmacıları Yuhan Zhou, Mehri Sattari, Haihua Chen ve Kewei Sha tarafından kaleme alınan "Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving" başlıklı çalışma, bu paradigmayı sarsan önemli bulgular sunmaktadır.

Söz konusu makale, otonom araçların (AV) multisource (çok kaynaklı) ve multimodal (çok modlu) verilerindeki yedeklilik (redundancy) kavramını merkeze alarak, veri hacminin körü körüne artırılmasının aksine, bilinçli veri kürasyonunun (data curation) performansa etkisini inceliyor. Araştırmacılar, nuScenes ve Argoverse 2 (AV2) gibi yaygın kullanılan benchmark veri setleri üzerinde YOLOv8 nesne algılama modelini eğiterek, yedekli etiketlerin (labels) kaldırılmasının beklenmedik şekilde model performansını artırdığını gösteriyorlar. Bu bulgu, otonom sürüş alanında "daha fazla veri her zaman daha iyidir" varsayımına meydan okuyor.

Çok Kaynaklı ve Çok Modlu Verilerde Yedekliliğin Modellenmesi

Otonom araçlar genellikle 6 ila 7 adet kamera, LiDAR (Light Detection and Ranging), RADAR ve GPS gibi heterojen sensörlerden oluşan bir dizi kaynakla donatılmıştır. Bu sensörlerin görüş alanları (field of view) örtüştüğünde, aynı nesne birden fazla kamera tarafından farklı perspektiflerden gözlemlenir. Geleneksel yaklaşım bu durumu bir "sigorta" mekanizması olarak değerlendirir; bir sensör arızalandığında veya görüşü engellendiğinde diğerleri devreye girerek sistem güvenilirliğini sağlar.

Ancak Zhou ve meslektaşları, bu yedekliliğin örtük bir maliyeti olduğunu ortaya koyuyor. Multisource bağlamda, özellikle örtüşen kameraların (camera camera) kaydettiği görüntülerde, aynı nesne için çok sayıda yedekli etiket oluşmaktadır. Multimodal bağlamda ise RGB kameralar tarafından yakalanan 2D görüntüler ile LiDAR tarafından üretilen 3D nokta bulutları (point clouds) arasında benzer bir örtüşme söz konusudur.

Makalede tanımlanan yedeklilik modeli, bounding box (sınırlayıcı kutu) tamamlılığı ve uzaysal örtüşme kısıtlamaları (spatial overlap constraints) üzerine kuruludur. Araştırmacılar, bir nesnenin birden fazla kaynak tarafından algılanması durumunda, bu temsillerin ne ölçüde birbirini tekrar ettiğini matematiksel olarak ölçmek için pruning (budama) stratejileri geliştirmişlerdir. Bu stratejiler, nesne temsilinin en bütünsel olduğu kaynağı seçerken, yedekli ve parçalı temsilleri elemeyi amaçlamaktadır.

Deneysel Tasarım ve Metodolojik Çerçeve

Çalışmanın metodolojisi üç araştırma sorusu etrafında şekillenmektedir: (1) Yedeklilik nasıl tanımlanır ve modellenir? (2) Yedeklilik nasıl ölçülür ve optimal veri alt kümesi nasıl seçilir? (3) Yedeklilik kaldırma işlemi model performansını nasıl etkiler?

Deneysel kurulumda, tek aşamalı nesne dedektörü (single stage detector) olan YOLOv8 kullanılmıştır. Değerlendirme metriği olarak mAP50 (mean Average Precision at IoU threshold 0.50) tercih edilmiştir. Bu metrik, nesne algılama görevinde tahmin edilen kutular ile gerçek kutular arasındaki örtüşme oranı (Intersection over Union) %50 ve üzerinde olan doğru tespitlerin ortalama hassasiyetini ölçer.

nuScenes veri setinde, altı kameralı sensör düzenlemesi incelenmiş ve görüş alanları örtüşen kamera çiftlerindeki yedeklilik analiz edilmiştir. Argoverse 2 (AV2) veri setinde ise yedi kamera kullanılmış ve benzer şekilde örtüşen bölgeler belirlenmiştir. Araştırmacılar, yedekli etiketleri kaldırırken "en tam temsil" ilkesini uygulamışlar; yani bir nesne hem önden hem yandan görünüyorsa, daha bütünsel bilgi içeren görünüm korunmuş, parçalı veya kısmi görünüm ise çıkarılmıştır.

Bulgular: Yedeklilik Kaldırmanın Paradoksal Etkisi

Elde edilen sonuçlar, otonom araç literatüründe yaygın olarak kabul gören bazı varsayımları tersine çevirmektedir. nuScenes veri setinde, örtüşen kamera bölgelerinden yedekli etiketler seçici olarak kaldırıldığında, mAP50 değerleri üç farklı temsilci bölgede sırasıyla 0.66'dan 0.70'e, 0.64'ten 0.67'ye ve 0.53'ten 0.55'e yükselmiştir. Bu iyileştirmeler istatistiksel olarak anlamlıdır ve modelin nesne algılama kapasitesinde gerçek bir artışa işaret etmektedir.

Argoverse 2 veri setinde ise etiketlerin %4.1 ile %8.6 arasında değişen oranlarda kaldırılmasına rağmen, mAP50 değeri 0.64 olan baseline (temel çizgi) seviyesinde sabit kalmıştır. Bu bulgu, veri hacminin yaklaşık %9'una kadar azaltılabileceğini ve hesaplama maliyetleri düşürülebilirken performanstan ödün verilmeyeceğini göstermektedir.

Multimodal analiz kapsamında, kamera ve LiDAR verileri arasındaki yedeklilik de incelenmiştir. 2D görüntüler ile 3D nokta bulutlarının kaydettiği nesne temsilleri arasındaki örtüşme, veri boyutunu şişiren ancak bilgi içeriği açısından marjinal katma değer sağlayan yinelenmelere yol açmaktadır. Araştırmacılar, bu yedekliliğin model optimizasyon sürecinde gürültü (noise) oluşturduğunu ve gradient descent (gradyan inişi) algoritmasının öğrenme eğrisini olumsuz etkilediğini ileri sürmektedirler.

Veri Merkezli Bakış Açısı: Algoritmadan Veriye Paradigma Değişimi

Bu çalışmanın en derin çıkarımı, otonom araç geliştirmede veri merkezli (data centric) yaklaşımın algoritma merkezli (model centric) yaklaşıma üstünlüğüdür. Yıllardır fine tuning, hiperparametre optimizasyonu ve mimari arama (architecture search) gibi tekniklerle model kapasitesini zorlarken, beslenen verinin geometrisi ve kalitesi göz ardı edilmektedir.

Yedeklilik kaldırmanın performansı artırması, "bilgi geometrisi" (information geometry) kavramını gündeme getirmektedir. Sensör diziliminin uzaysal konfigürasyonu, ham veri hacminden daha belirleyicidir. Örneğin, 360 derece kapsama sahip olmak için yerleştirilmiş kameraların örtüşme bölgelerindeki yedekli etiketler, modelin öğrenme alanını (loss landscape) düzensizleştirmekte ve optimal çözümün bulunmasını zorlaştırmaktadır. Bu durum, uzun kuyruk dağılımı (long tail distribution) problemiyle karşılaşan otonom sistemlerde özellikle kritiktir; nadir görülen trafik senaryolarında modelin yanlış öğrenmesine (overfitting) yol açabilir.

Ayrıca, edge computing (uç hesaplama) bağlamında değerlendirildiğinde, bu bulguların pratik önemi daha da artmaktadır. Otonom araçlarda gerçek zamanlı (real time) karar verme kapasitesi sınırlı işlemci gücü ile sağlanmalıdır. Gereksiz yedekli verilerin kaldırılması, hem bellek kullanımını hem de inference (çıkarım) süresini azaltarak latency (gecikme) değerlerini düşürmektedir. Bu, güvenlik açısından hayati önem taşıyan bir faktördür; çünkü milisaniyelik gecikmeler bile acil durum müdahalelerinde belirleyici olabilmektedir.

Sonuç

"Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving" başlıklı makale, otonom araç veri setlerinde yapay zeka sistemlerinin beslendiği verinin niteliğini sorgulatan önemli bir kilometre taşıdır. Yapılan deneysel analizler, yedekliliğin körü körüne bir güvenlik mekanizması olmaktan çıkarılıp, aktif bir veri kürasyon parametresi olarak ele alınması gerektiğini göstermektedir.

nuScenes ve Argoverse 2 üzerindeki YOLOv8 deneyleri, etiketlerin %4 ila %9 arasında budanmasının model performansını koruduğu hatta bazı senaryolarda iyileştirdiği kanıtlanmıştır. Bu durum, veri toplama ve etiketleme süreçlerinde maliyet optimizasyonu imkanı sunarken, aynı zamanda model eğitiminde hesaplama verimliliğini artırma potansiyeli taşımaktadır.

Gelecekteki araştırmalar için bu çalışma, dinamik veri kalitesi değerlendirmesi (dynamic data quality assessment) ve göreve özgü veri seçimi (task specific data