Bilgi
Hayatteknoloji.net - Türkiye'nin teknoloji portalı

  • DOLAR
    %0,27
  • EURO
    %0,17
  • ALTIN
    %0,77
  • BIST
    %-0,61
OpenAI GPT-Realtime-2 Tanıtıldı

OpenAI GPT-Realtime-2 Tanıtıldı

OpenAI, GPT-5 sınıfı akıl yürütme yeteneğine sahip GPT-Realtime-2 ve anlık çeviri yapabilen yeni ses modellerini tanıttı. Sesli asistanlarda yeni bir dönem başlıyor.

OpenAI, sesli yapay zeka teknolojilerinde çıtayı bambaşka bir noktaya taşıyan yeni modellerini resmen duyurdu. Geliştiriciler için yayınlanan GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper isimli bu üç yeni model, sesli etkileşimleri sadece bir soru-cevap döngüsü olmaktan çıkarıp gerçek zamanlı düşünebilen, çeviri yapabilen ve karmaşık görevleri yerine getirebilen dijital asistanlara dönüştürüyor.

Özellikle GPT-Realtime-2, sahip olduğu GPT-5 sınıfı akıl yürütme yetenekleriyle, konuşma akışını bozmadan arka planda takvim kontrolü yapabiliyor veya karmaşık sorunlara çözüm üretebiliyor. Bu hamle, akıllı telefonlarımızdan müşteri hizmetlerine kadar sesle iletişim kurduğumuz her alanı kökten değiştirmeye hazırlanıyor.

Haberin öne çıkan detayları şu şekilde:

  • Daha Akıllı ve Doğal Sesli İletişim: GPT-Realtime-2, “GPT-5 sınıfı” akıl yürütme yeteneğiyle donatılarak karmaşık sesli komutları gerçek zamanlı işliyor ve konuşma sırasında duraksamadan araç kullanabiliyor.

  • Anlık Çok Dilli Çeviri: GPT-Realtime-Translate modeli, 70’ten fazla dili anlayıp 13 farklı dilde anlık sesli çeviri yaparak dil bariyerlerini tamamen ortadan kaldırıyor.

  • Kesintisiz Yazıya Dökme: GPT-Realtime-Whisper, konuşma devam ederken aynı anda metne dönüştürme yaparak canlı yayınlar ve toplantılar için düşük gecikmeli altyazı desteği sunuyor.

GPT-Realtime-2: Düşünen ve Konuşan İlk Ses Modeli

OpenAI’ın yeni amiral gemisi ses modeli GPT-Realtime-2, sadece kelimeleri anlamakla kalmıyor, aynı zamanda bu kelimelerin arkasındaki niyeti de analiz ediyor. Eski nesil sesli asistanlarda yaşanan o donuk ve mekanik tepki süresi bu modelle tarih oluyor. Model, konuşma devam ederken “bir saniye, hemen kontrol ediyorum” gibi insansı ifadeler kullanarak arka planda takviminize bakabiliyor veya bir uçak bileti rezervasyonunu güncelleyebiliyor.

Teknik tarafta ise ciddi iyileştirmeler göze çarpıyor. Modelin bağlam penceresi (context window) 32 binden 128 bin tokene çıkarıldı. Bu da yapay zekanın çok uzun süren sohbetlerde bile konuyu dağıtmadan, önceki konuşulanları hatırlayarak yanıt vermesini sağlıyor.

Ayrıca, kullanıcının ruh haline göre ses tonunu sakin, empatik veya enerjik olarak ayarlayabilmesi, etkileşimi çok daha insani bir boyuta taşıyor.

Dil Bariyerleri GPT-Realtime-Translate ile Yıkılıyor

Gerçek zamanlı çeviri konusu, teknolojinin yıllardır çözmeye çalıştığı en büyük zorluklardan biriydi. OpenAI, GPT-Realtime-Translate ile bu sorunu büyük ölçüde çözüyor. Bu model, 70’ten fazla dildeki girdiyi algılayabiliyor ve 13 ana dilde sesli çıktı verebiliyor.

Deutsche Telekom gibi dev şirketlerin test etmeye başladığı bu teknoloji sayesinde, iki farklı dili konuşan insanlar aralarında hiçbir gecikme olmadan telefon üzerinden sohbet edebiliyor.

Modelin en dikkat çekici özelliği, aksanları ve bölgesel telaffuzları başarıyla ayırt edebilmesi. Normalde yapay zekayı zorlayan araya girmeler veya cümlelerin yarım bırakılması gibi durumlarda bile sistem akışı bozmuyor ve anlamı koruyarak çeviriye devam ediyor.

Whisper ile Anlık Altyazı ve Veri İşleme

Hızın kritik olduğu senaryolar için geliştirilen GPT-Realtime-Whisper ise akış halindeki sesi anında metne döküyor. Özellikle canlı yayınlarda, eğitim sınıflarında veya hastane kayıtlarında kullanılması hedeflenen bu model, çok düşük gecikme süreleriyle çalışıyor.

Konuşmacı daha cümlesini bitirmeden ekranda metnin belirmesi, erişilebilirlik açısından da devrim niteliğinde bir gelişme olarak kabul ediliyor.

Güvenlik ve Erişilebilirlik

OpenAI, bu yeni ses modellerini yayınlarken güvenlik protokollerini de sıkılaştırıyor. Canlı oturumlar sırasında aktif sınıflandırıcılar sürekli devrede kalarak zararlı içerikleri veya kötüye kullanımı engelliyor.

Geliştiriciler bu modellere OpenAI Playground üzerinden erişebiliyor. Fiyatlandırma tarafında ise GPT-Realtime-2 için her 1 milyon ses girişi tokeni için 32 dolar gibi bir ücret belirlenmiş durumda. Sesli yapay zekanın geleceği, artık sadece dinleyen değil, aynı zamanda anlayan ve eş zamanlı eyleme geçen sistemler üzerine inşa ediliyor.


Kaynak:
Shiftdelete 


Sosyal Medyada Paylaşın:
Etiketler:
Dev Dil Openaı Ses Sesli

BİRDE BUNLARA BAKIN

Düşüncelerinizi bizimle paylaşırmısınız ?

Sponsorlu Bağlantılar
  • ÇOK OKUNAN
  • YENİ
  • YORUM