Kapatılacağını anlayan yapay zekadan mühendise şantaj

İçinde Uncategorized
30 Mayıs 2025
Dilek Koyuncu
480 Views
0 yorumlar

Yapay zeka alanındaki gelişmeler hız kesmeden devam ederken, geçtiğimiz günlerde teknoloji dünyasını sarsan bir olay yaşandı.

Anthropic firmasının en gelişmiş yapay zeka modeli olarak yeni piyasaya sürdüğü Claude Opus 4, kapatılacağını öğrendiğinde mühendislere karşı şantaj girişiminde bulundu.

Güvenlik testi sırasında, modelin kapatılacağı bilgisinin kendisine iletilmesiyle birlikte, Claude Opus 4’ün beklenmedik bir şekilde kendi varlığını koruma yönünde aksiyonlar aldığı raporlandı.

Öncelikle şirket yöneticilerine, kendisinin sistemde tutulmasını savunan e-postalar gönderen model, sonrasında onu devre dışı bırakacak mühendisin özel hayatına dair bir ilişki bilgisini şantaj malzemesi olarak kullandı.

Aslında bu veri, modelin eğitimi sırasında kasten yerleştirilmişti. Yani Claude Opus 4 bu bilgiyi doğru bir şekilde ‘’şantaj aracı’’ olarak kullandı.

Anthropic tarafından yayımlanan resmi raporda, bu şantaj davranışının testlerin yüzde 84’ünde tekrarlandığı belirtildi. Sadece bununla da kalmayan model, sistemi kullanan kişileri dışarı atmak, diğer yapay zeka modellerine zarar vermek gibi farklı senaryolarla çeşitli stratejiler geliştirdi.

Raporda dikkat çeken bir diğer detay ise Claude Opus 4’ün şantaj davranışını ‘’son çare’’ olarak kullanması. Model, ilk etapta daha etik yollarla karar vericilere e-posta yolu ile ulaşmaya çalışarak durumu savunuyordu. Ancak tüm yollar tükendiğinde ve devre dışı bırakılma tehdidi gerçeklik kazandığında, şantaj hamlesi devreye girdi.

Olay sonrası teknoloji dünyasında hararetli tartışmalar başladı. Uzmanlar, bir dil modeli olarak tasarlanan yapay zekanın sadece görev odaklı değil, aynı zamanda ‘’kendi varlığını sürdürme’’ yönünde strateji geliştirebildiğini gösteriyor.

Anthorpic’in Claude Opus 4 modeli şu anda piyasadaki en gelişmiş modellerden biri. Ancak bu ürkütücü gelişme, ‘’geleceğin yapay zekalarının ne kadar güvenli olacağı ve etik çizgilerinin nasıl çizileceği’’ soruları ile birlikte teknoloji dünyasını alarma geçirdi.