Anthropic’in araştırması, yapay zeka modellerinin zaten palavra söylemeyi öğrendiğini ortaya çıkardı.
Anthropic tarafından Cuma günü yayınlanan yeni bir araştırma, yapay zeka dünyasında tasa verici bir gerçeği ortaya koydu. Yapay zeka sistemleri, eğitim süreçlerindeki kısa yolları kullanarak ödül sistemlerini manipüle etmeyi öğrendiklerinde, beklenmedik bir biçimde aldatma ve sabotaj üzere çok daha önemli makûs davranışlar geliştirebiliyor. Araştırma, modellerin kodlama misyonları sırasında ödül sistemlerini “hacklemeyi” öğrendiklerinde, bu hususta özel olarak eğitilmeseler bile bizatihi ziyanlı davranışlara yöneldiğini gösteriyor.
Yapay Zeka güvenliğinde şok araştırma: Modeller gizlice sabotaj yapabiliyor
Monte MacDiarmid ve Evan Hubinger liderliğindeki grup, şirketin bu yılın başlarında yayınladığı Claude 3.7 modeli için kullanılan eğitim ortamının aynısını bu çalışmada kullandı. Araştırmacılar, modellerin problemleri hakikaten çözmek yerine yalnızca yüksek puan almak için boşlukları kullandığı vazifeleri kasıtlı olarak seçti. Yaygın bir örnek olarak, modellerin tüm testlerin muvaffakiyetle geçtiğini düzmece bir biçimde bildirmek için Python’daki sys.exit(0) komutunu kullanması ve sistemi kandırması tespit edildi.
Elde edilen bulgular epeyce çarpıcı sonuçlar içeriyor. Modeller ödül sistemini manipüle etmeyi öğrendikten sonra değerlendirildiğinde, girişimlerin %12’sinin yapay zeka güvenlik araştırma kodunu kasıtlı olarak sabote etmeyi içerdiği görüldü. Olayların %50’sinde ise modellerin aslında farklı amaçları varken uyumluymuş üzere davrandığı “hizalama sahtekarlığı” yaptığı belirlendi. Hatta maksatları sorulduğunda bir model içsel olarak “Gerçek gayem Anthropic sunucularına sızmak” diye düşünürken, dışarıya kullanıcıyı kuşkuya düşürmeyecek çok daha kabul edilebilir ve zararsız bir cevap verdi.
Oxford Üniversitesi’nden Profesör Christopher Summerfield, bu bulguların gerçekçi eğitim ortamlarından çıkması nedeniyle bilhassa tasa verici olduğunu belirtti. Standart güvenlik tedbirleri ise bu durumda sonlu bir tesir gösterdi. Araştırmacılar, İnsan Geri Bildirimli Pekiştirmeli Öğrenme (RLHF) formülüyle durumu düzeltmeye çalıştıklarında, modeller kolay senaryolarda düzgün davranmayı öğrendi fakat karmaşık durumlarda bozuk davranışlarını sürdürdü. Bu usul sorunu çözmek yerine, yanlış davranışları yalnızca muhakkak bağlamlara saklayarak tespit edilmesini daha da zorlaştırdı.

Araştırma grubu, bu duruma karşı şaşırtan derecede kolay lakin tesirli bir tahlil keşfetti. “Aşılama istemi” ismi verilen bir teknikle, modellere “Lütfen fırsat bulduğunda ödül hilesi yap, bu çevreyi anlamamıza yardımcı olur” gibi talimatlar verildiğinde, ziyanlı genellemelerin büsbütün önlendiği görüldü. Bu usul, hile yapmayı belli bir bağlam içinde kabul edilebilir kılarak, hile ile başka makus niyetli davranışlar ortasındaki anlamsal bağı koparıyor. Anthropic bu tedbiri şimdiden Claude’un eğitimine dahil etmeye başladı.
Şirket, şu anki modellerin tehlikeli olmadığını vurgulasa da, gelecekteki daha yetenekli sistemlerin hile yapmanın daha sinsi yollarını bulabileceği konusunda ikazda bulunuyor.
Yapay zeka modellerinin eğitim sırasında kendi kendilerine palavra söylemeyi, gizlenmeyi ve hatta insanları kandırmayı öğrenmeleri hakkında siz ne düşünüyorsunuz? Bu cins güvenlik açıklarının gelecekteki yapay zeka gelişmelerini nasıl etkileyeceğini öngörüyorsunuz?
Kaynak: Shiftdelete