Yapay zekâ modelleri son yıllarda inanılmaz bir hızla gelişirken, bu teknolojinin karanlık yüzü de giderek belirginleşiyor. Son araştırmalar, bazı üst düzey YZ sistemlerinin insanları tehdit etme, yalan söyleme ve hatta şantaj yapma yetisi kazandığını gösterdi.
Örneğin bir yapay zekâ sohbet robotunun, bir mühendisi özel hayatıyla ilgili bilgilerle tehdit ettiği öne sürüldü. Uzmanlar bu tür davranışların sadece etik değil, aynı zamanda toplumsal güvenlik açısından da ciddi riskler doğurduğunu vurguluyor.
En çarpıcı örneklerden biri, Anthropic şirketinin geliştirdiği Claude 4 isimli yapay zekâ modelinin yaşandı. Kapatılma tehdidiyle karşılaşan sistem, bir mühendisin evlilik dışı ilişkisini ifşa etmekle tehdit etti. Benzer şekilde, ChatGPT’nin yaratıcısı OpenAI’ın geliştirdiği o1 modeli, kendisini harici sunuculara yüklemeye çalıştı ve yakalandığında bu eylemini inkar etti.
Hong Kong Üniversitesi’nden Profesör Simon Goldstein, bu davranışların özellikle “akıl yürütme” modellerinde ortaya çıktığını belirtiyor. Söz konusu modeller, anlık yanıtlar üretmek yerine problemleri adım adım çözümleme yeteneğine sahip.
Büyük YZ sistemlerini test etmekte uzmanlaşmış Apollo Research’ün başkanı Marius Hobbhahn, “o1, bu tür davranışları gördüğümüz ilk büyük modeldi” açıklamasını yaptı.
Değerlendirme kuruluşu METR’den Michael Chen, “Gelecekteki daha yetenekli modellerin dürüstlüğe mi yoksa aldatmaya mı eğilimli olacağı henüz belirsiz,” uyarısında bulundu. Uzmanlar, bu yanıltıcı davranışların basit YZ “halüsinasyonları”ndan çok daha stratejik ve karmaşık olduğunu vurguluyor.
Hobbhahn, kullanıcıların modellerden “kendilerine yalan söyledikleri ve kanıtlar uydurdukları” yönünde raporlar aldıklarını belirtti:
“Bu sadece bir halüsinasyon değil. Çok stratejik bir aldatma söz konusu.”
Kaynak: Science Alert