Bilgi
Hayatteknoloji.net - Türkiye'nin teknoloji portalı

  • DOLAR
    %0,15
  • EURO
    %-0,27
  • ALTIN
    %-1,68
  • BIST
    %-1,56
Çinliler ChatGPT rakibi lisan modeli geliştirdi!

Çinliler ChatGPT rakibi lisan modeli geliştirdi!

Qwen3-Next resmi olarak tanıtıldı. Lisan modeli, verimlilik ve performans tarafında beklentileri epeyce aştı.

Alibaba’nın Qwen araştırma takımı, açık kaynaklı büyük lisan modeli serisini Qwen3-Next ile genişletti. Grup, bu yaz boyunca farklı modellerin duyurusunu yaptıktan sonra artık performans ve verimliliği bir ortaya getiren hibrit bir mimariyle sahneye çıktı. Qwen3-Next, yalnızca 3 milyar etkin parametre kullanmasına karşın 80 milyar parametreli bir yapıya sahip. Bu sayede uzun bağlamlarda yüksek verimlilikle çalışıyor.

Qwen3-Next resmen duyuruldu

Alibaba, Qwen3-Next isimli büsbütün fiyatsız yapay zekasını kullanıma sundu. Model, Instruct ve Thinking olmak üzere iki varyantla geliyor. Her iki varyant da Apache 2.0 lisansı altında dağıtılıyor ve Hugging Face, ModelScope, Kaggle ile Alibaba Cloud üzerinden erişilebiliyor.

Ayrıca, direkt Qwen Chat platformunda da kullanılabiliyor. Yeni modelde Gated DeltaNet ve Gated Attention yaklaşımları bir ortada uygulanıyor. DeltaNet katmanları uzun metinlerde süratli okuma fonksiyonu görürken, Gated Attention katmanları ayrıntılı ve hassas denetim sağlıyor. Bu hibrit yaklaşım, hem sürat hem de doğruluk avantajını tek modelde birleştiriyor.

Teknik açıdan en dikkat çeken ögelerden biri, modelin sırf 3 milyar faal parametreyle çalışması. Bu sayede 15 trilyon token üzerinde eğitilen model, selefi Qwen3-32B’den çok daha düşük donanım maliyetiyle eğitildi ve çalıştırıldı.

Uzun bağlam testlerinde ise 32.000 token ve üzerinde 10 kata kadar daha yüksek sürat sunuyor. Qwen3-Next, doğal olarak 256.000 token bağlam penceresini destekliyor ve RoPE ölçekleme sistemleriyle 1 milyon token uzunluğa kadar doğrulandı.

Performans testlerinde Qwen3-32B’nin üzerinde sonuçlar elde edildi. Reasoning odaklı Thinking varyantı, Gemini-2.5-Flash-Thinking üzere kapalı kaynaklı modellere karşı üstünlük sağladı. Instruct modeli ise Qwen3’ün 235 milyar parametreli amiral gemisine yakın uzun bağlam performansı sundu.

Qwen grubu, Qwen3-Next’in hem ölçeklenebilir hem de maliyet açısından uygun bir tahlil sunduğunu vurgularken, serinin bir sonraki adımı olan Qwen3.5 üzerinde çalıştıklarını da açıkladı.


Kaynak:
Shiftdelete 


Sosyal Medyada Paylaşın:
Etiketler:
Üzerinde Uzun

BİRDE BUNLARA BAKIN

Düşüncelerinizi bizimle paylaşırmısınız ?

Sponsorlu Bağlantılar
  • ÇOK OKUNAN
  • YENİ
  • YORUM