LeWorldModel, JEPA mimarisi ile verimli ve hızlı dünya modelleri geliştirilmesine olanak tanıyor. İşte yeni modelin sunduğu teknik detaylar.
Araştırmacılar, Joint Embedding Predictive Architectures (JEPA) çerçevesini temel alan yeni bir çalışma olan LeWorldModel (LeWM) modelini tanıttı. Bu model, ham piksellerden uçtan uca kararlı bir şekilde eğitilebilen ilk JEPA mimarisi olarak dikkat çekiyor.
Verimlilik ve Fiziksel Anlama Kapasitesi
Geleneksel yöntemlerin aksine LeWorldModel, karmaşık eğitim hilelerine ihtiyaç duymadan sadece iki kayıp terimi kullanarak çalışıyor. Bu yaklaşım, modelin eğitim sürecindeki hiperparametre sayısını önemli ölçüde azaltıyor.
LeWorldModel, 15 milyon parametre ile tek bir GPU üzerinde sadece birkaç saat içinde eğitilebiliyor. Bu yapı, mevcut temel model tabanlı dünya modellerine kıyasla 48 kat daha hızlı planlama yapma kapasitesi sunuyor.

Model, temsil çökmesini önlemek için Gaussian dağılımlı gizli gömmeleri zorunlu kılan bir düzenleyici kullanıyor. Bu teknik, modelin fiziksel dünyayı anlamasını sağlarken fiziksel olarak imkansız olayları da güvenilir bir şekilde tespit etmesine olanak tanıyor.
Çalışma, modelin 2D ve 3D kontrol görevlerinde rekabetçi bir performans sergilediğini ortaya koyuyor. LeWorldModel’in fiziksel yapıları anlama konusundaki bu başarısı, dünya modellerinin geleceği için önemli bir adım olarak değerlendiriliyor. Sizce bu yeni model, büyük dil modellerinin hakimiyetini değiştirebilir mi?
Kaynak: Shiftdelete