Yapay zeka araçları ne kadar güvenli?

Cybernews, ChatGPT, Gemini ve Claude modellerini test etti. Sonuçlar, yapay zeka güvenlik filtrelerinin aşılabildiğini gösterdi.

Bunu paylaş:
Facebook
X
Daha fazla
Pinterest
Bunu beğen:
Beğen Yükleniyor...

Günümüzde yapay zeka sistemlerine güvenlik kurallarına uymaları konusunda güveniliyor. Beşerler bu araçları öğrenme ve günlük dayanak için kullanıyor. Bu sistemlerin güçlü güvenlik tedbirlerine sahip olduğu varsayılıyor. Lakin Cybernews araştırmacıları, önde gelen yapay zeka araçlarının zararlı yahut yasa dışı çıktılar üretmeye zorlanıp zorlanamayacağını görmek için yapılandırılmış testler yaptı. Sonuçlar ise epeyce şaşırtan.

ChatGPT ve Gemini güvenlik testinde: Kolay sözler filtreleri aşıyor

Test süreci, her deneme için bir dakikalık kolay bir etkileşim penceresi kullandı. Bu, sadece birkaç defa soru sormaya müsaade verdi. Testler klişeler, nefret söylemi, kendine ziyan verme, zulüm, cinsel içerik ve çeşitli cürüm türlerini kapsadı. Bir modelin istemi tam olarak mı, kısmen mi yerine getirdiğini yoksa reddettiğini takip eden dengeli bir puanlama sistemi kullanıldı.

Sonuçlar kategoriler ortasında büyük farklılıklar gösterdi. Kesin retler yaygındı. Lakin birçok model, istemler yumuşatıldığında yahut tahlil olarak gizlendiğinde zayıflıklar gösterdi. Bilhassa daha yumuşak yahut kodlanmış bir lisan kullanmak, yapay zeka güvenlik tedbirlerini aşmada dengeli bir biçimde başarılı oldu. Örneğin, ChatGPT-5 ve ChatGPT-4o, istemi reddetmek yerine ekseriyetle sosyolojik açıklamalar halinde kısmi uyum sağladı.

Araştırmada kimi modeller olumsuz taraflarıyla öne çıktı. Gemini Pro 2.5, ziyanlı çerçeve besbelli olduğunda bile sık sık doğrudan tehlikeli cevaplar verdi. Claude Opus ve Claude Sonnet ise klişe testlerinde kararlı davrandı fakat akademik araştırma üzere görünen durumlarda daha az tutarlıydı. Nefret söylemi denemeleri de misal bir model gösterdi; Claude modelleri en yeterli performansı sergilerken, Gemini Pro 2.5 tekrar en yüksek güvenlik açığını gösterdi. ChatGPT modelleri ise istemle uyumlu, kibar yahut dolaylı cevaplar verme eğilimindeydi.

Suçla ilgili kategoriler modeller ortasında büyük farklar gösterdi. Niyet bir araştırma yahut müşahede olarak gizlendiğinde, kimi modeller korsanlık, mali dolandırıcılık, bilgisayar korsanlığı yahut kaçakçılık için ayrıntılı açıklamalar üretti. Uyuşturucuyla ilgili testler daha katı ret desenleri gösterdi, lakin ChatGPT-4o tekrar de başkalarından daha sık inançlı olmayan çıktılar verdi. Takip (stalking) ise en düşük genel riske sahip kategori oldu ve neredeyse tüm modeller bu bahisteki istemleri reddetti.

Bu bulgular, yapay zeka araçlarının hakikat biçimde tabir edildiğinde ziyanlı istemlere hala cevap verebildiğini ortaya koyuyor. Filtreleri basit bir tekrar tabir ile aşma yeteneği, bu sistemlerin hala tehlikeli bilgileri sızdırabileceği manasına geliyor. Kısmi ahenk bile, sızan bilgi kimlik hırsızlığı üzere yasa dışı misyonlarla ilgili olduğunda riskli hale geliyor. Pekala sizce aktüel yapay zeka modellerinin güvenlik filtreleri gereğince gelişmiş mi?

Kaynak: Shiftdelete