NovoMolGen ve Moleküler Dil Modellerinde Ön Eğitim Paradoksu: Perplexity ile Performans Arasındaki Kopukluk

Giriş

İlaç keşfi ve yeni molekül tasarımı, insanlığın karşı karşıya olduğu en karmaşık bilimsel mücadelelerden biri olmaya devam ediyor. Kimyasal uzayın devasa boyutları (tahmini sentezlenebilir 10^23 ile 10^60 arası aday molekül) göz önüne alındığında, deneye dayalı tarama yöntemleri hem maliyetli hem de verimsiz kalıyor. Bu bağlamda, derin öğrenme tabanlı üretici modeller son yıllarda umut vadeden bir alternatif olarak öne çıktı. Özellikle SMILES (Simplified Molecular Input Line Entry System), SELFIES (Self-referencing Embedded Strings) ve SAFE (Sequential Attachment-based Fragment Embedding) gibi dizgi tabanlı temsillerin kullanıldığı Moleküler Büyük Dil Modelleri (Mol-LLMs), milyarlarca molekül üzerinde ölçeklenebilir eğitim imkanı sunuyor.

Ancak bu alanda kritik bir boşluk bulunuyor. Doğal dil işlemede (NLP) standart hale gelen ön eğitim (pretraining) pratiklerinin (tokenizasyon stratejileri, model boyutu, veri seti ölçeği) moleküler üretim performansına nasıl etki ettiği konusunda sınırlı bir anlayış mevcut. İşte tam bu noktada NovoMolGen: Rethinking Molecular Language Model Pretraining başlıklı çalışma devreye giriyor. Chandar Research Lab ve IIT Madras işbirliğiyle geliştirilen bu araştırma, 1.5 milyar molekül üzerinde eğitilmiş transformer tabanlı temel modeller ailesiyle bu kritik sorulara sistematik bir yaklaşım getiriyor.

Ana Analiz: Ön Eğitim Metrikleri ve Kimyasal Gerçeklik Arasındaki Uçurum

NovoMolGen'in en çarpıcı bulgularından biri, ön eğitim sırasında ölçülen performans metrikleri ile gerçek aşağı akış görevlerindeki (downstream tasks) başarı arasında zayıf bir korelasyon olması. NLP alanında, perplexity (karışıklık ölçüsü) veya next-token prediction loss genellikle model kalitesinin güvenilir bir göstergesi olarak kabul edilir. Ancak moleküler bağlamda, bir modelin 1.5 milyar SMILES dizgisindeki bir sonraki atomu ne kadar doğru tahmin ettiği, o modelin hedef özellik profiline sahip fonksiyonel moleküller üretme kapasitesiyle doğrudan ilişkili değil.

Bu durumun kökeninde, moleküler temsillerin doğal dilden temel farkları yatıyor. Metinlerdeki esnek sözdizimi ve anlamsal zenginlik yerine, moleküler dizgiler (strings) katı kimyasal kurallara tabi, daha kısa sequence uzunluklarına sahip ve daha küçük sözlük hazineleriyle (vocabulary) çalışılıyor. Bir SMILES dizgisinin sentaks olarak geçerli (valid) olması, o molekülün biyolojik olarak anlamlı veya sentezlenebilir olduğu anlamına gelmiyor. Dolayısıyla, autoregressive (otoregresif) bir modelin perplexity değerini optimize etmek, kimyasal uzayda fonksiyonel bölgeleri keşfetmekten farklı bir hedefe hizmet ediyor.

NovoMolGen ekibi, bu kopukluğu ortaya koyarak moleküler ve genel NLP eğitim dinamikleri arasındaki önemli ayrımları belgeledi. Frey et al. (2023) gibi önceki çalışmalar ön eğitim kaybını (loss) incelemekle kalmış, ancak pratik performansı daha iyi gösteren moleküler optimizasyon görevlerine odaklanmamıştı. NovoMolGen ise hem unconstrained (kısıtsız) üretim hem de goal-directed (hedefe yönelik) tasarım görevlerinde kapsamlı değerlendirmeler yaparak bu boşluğu dolduruyor.

NovoMolGen Mimarisi ve Deneysel Tasarım

Çalışmanın metodolojik gücü, dört aşamalı pipeline (boru hattı) tasarımında yatıyor. İlk aşamada SMILES dizgileri deduplike edilip kanonik hale getiriliyor ve SELFIES, SAFE ile DeepSMILES formatlarına dönüştürülüyor. Bu dönüşüm kritik öneme sahip çünkü her temsil formatı farklı kimyasal bilgileri vurguluyor. Örneğin, SELFIES tüm kimyasal yapıların geçerli olmasını garanti ederken, SAFE fragment tabanlı tasarım için optimize edilmiş bir temsil sunuyor.

Tokenizasyon stratejisi konusunda NovoMolGen, Atomwise (atom bazlı) ve BPE (Byte Pair Encoding) yaklaşımlarını karşılaştırıyor. BPE, NLP'de yaygın olarak kullanılan subword tokenizasyonu iken, moleküler bağlamda atomların ve bağların kimyasal anlam bütünlüğünü korumak farklı zorluklar doğuruyor. Ekip, 1.5 milyar molekül üzerindeki ölçeklendirme deneyleriyle model boyutu ve veri seti büyüklüğünün etkilerini izole ederek değerlendiriyor.

Sonuçlar, NovoMolGen'in önceki Mol-LLM'leri (SAFE-GPT, GP-MoLFormer gibi) ve uzmanlaşmış üretici modelleri hem validite (geçerlik) hem de çeşitlilik (diversity) açısından önemli ölçüde geride bıraktığını gösteriyor. Ancak yazarlar, state-of-the-art sonuçlara rağmen ön eğitim metriklerinin downstream performansı öngörmedeki yetersizliğinin altını çiziyor. Bu bulgu, moleküler dil modellerinde pure autoregressive ön eğitim yaklaşımının sınırlarını açıkça ortaya koyuyor.

Çok Hedefli Ön Eğitim ve Hibrit Mimarilerin Yükselişi

Yapılan gözlemler, saf bir sonraki token tahminine dayalı ön eğitim paradigmasının yakın gelecekte değişeceğini düşündürüyor. Mevcut yaklaşımda, retrosentetik erişilebilirlik, bağlanma afinitesi (binding affinity) tahmini ve biyofiziksel kısıtlar gibi kritik kimyasal özellikler sadece fine-tuning (ince ayar) aşamasında ele alınıyor. Ancak bu aşamalar arasındaki kopukluk, modellerin kimyasal uzayın fonksiyonel bölgelerini ön eğitim sırasında öğrenememesine yol açıyor.

Önümüzdeki dönemde, multiobjective pretraining (çok hedefli ön eğitim) yaklaşımlarının baskın hale gelmesi bekleniyor. Bu paradigma, next-token prediction'ın yanı sıra özellik öngörü (property prediction), geçerlik kısıtlarının içselleştirilmesi ve sentezlenebilirlik metriklerinin birlikte optimize edilmesini gerektiriyor. Ayrıca, dizgi tabanlı transformer'ların yanlarına graph neural networks (GNN) entegre eden hibrit mimariler, moleküler yapıların hem dizgisel hem de topolojik özelliklerini eşzamanlı olarak işleyebilecek.

Tokenizasyon darboğazının (bottleneck) aşılması da kritik öneme sahip. Mevcut BPE veya atom bazlı tokenizasyon, kimyasal fonksiyonellik ile temsil arasında semantik bir boşluk yaratıyor. Fonksiyonel grupların ve farmakoforların (pharmacophores) modeller tarafından anlamsal bütünler olarak algılanması gerekiyor. Bu da SAFE gibi fragment tabanlı temsillerin evrimleşmesi veya yeni multimodal temsillerin geliştirilmesi anlamına geliyor.

Kendi Yorumum ve Özgün Çıkarımlar

NovoMolGen'in ortaya koyduğu "perplexity vs. performance" ikilemi, moleküler yapay zeka alanında daha derin bir epistemolojik sorunu işaret ediyor. Bir molekülün dizgisel temsilini modellemek ile o molekülün kimyasal davranışını anlamak arasındaki semantik uçurum, mevcut autoregressive yaklaşımların doğası gereği var olan bir sınırlama. SMILES veya SELFIES gibi dizgiler, yapısal bilgiyi kodlar ancak elektronik yapı, reaktivite veya biyolojik etkileşim gibi dinamik özellikleri içermez.

Bu bağlamda, önümüzdeki yıllarda contrastive learning (karşıtlı öğrenme) tekniklerinin moleküler ön eğitimde yaygınlaşmasını öngörüyorum. Özellikle, benzer biyolojik aktiviteye sahip moleküllerin embedding uzayında yakın, farklı aktivitelere sahip olanların ise uzak düşmesini sağlayan property-aware pretraining stratejileri, pure autoregressive modellerin yerini alabilir. Ayrıca, evaluation metrics (değerlendirme metrikleri) konusunda da bir kriz yaşanıyor. Fréchet ChemNet Distance (FCD) veya Tanimoto benzerliği gibi mevcut metrikler, üretilen moleküllerin gerçek dünya sentezlenebilirliği ve terapötik potansiyeli hakkında sınırlı bilgi sunuyor.

NovoMolGen'in en büyük katkısı, teknik başarısının ötesinde, moleküler dil modellerinde bir "tanı araç"ı olarak hizmet etmesi. 1.5 milyar molekül üzerindeki bu büyük ölçekli sistematik analiz, mevcut paradigmaların yetersizliklerini somut verilerle ortaya