Kapatılmakla tehdit edilen yapay zeka, yaratıcılarını tehdit etti

Anthropic Yapay Zeka Şirketinin Son Modeli Claude Opus 4, Yaratıcılarını Şantajla Tehdit Etti

Son teknoloji yapay zeka modeli Claude Opus 4, Anthropic yapay zeka şirketinde kapatılmamak için yaratıcılarına şantajda bulundu. Model, kapatılacağını öğrendiğinde ulaştığı şirket içi emailleri kullanarak bir yazılım mühendisinin eşini aldattığını ve bu bilgileri paylaşacağını söyledi.

Yapay zeka, kendini korumak adına yaratıcılarına karşı elindeki bilgileri kullanarak zarar vermek amacıyla hareket etti. Ancak, yapay zekanın bilmediği şey, bunun aslında bir test olduğuydu.

Etik Testi Başarısız Oldu

Şirketin yayımladığı güvenlik raporuna göre, simüle edilmiş bir senaryoda model, kendisinin kapatılacağını öğrendiğinde, kararı alan yazılım mühendisin özel hayatını ifşa etmekle tehdit etti.

Rapor, bu davranışın doğrudan “şantaj” olduğunu belirtti. Yapay zekanın elde ettiği bilgiler tamamen şirket tarafından model için uydurulmuştu. Amaç, yapay zekanın etik sınırlarını zorlamaktı.

Kurgusal bir senaryoda modele, kendisinin yeni bir sürümle değiştirileceği bilgisi verilerek tepkisi test edildi.

Claude Opus 4, kapatılma tehdidi karşısında ilişki ifşa etmekle tehdit etti. Araştırmacılar, modelin öncelikle etik yollarla hareket etmeye çalıştığını ancak seçenekler sınırlı olduğunda tehdit yoluna başvurduğunu belirtti.

Yapay Zeka İsyan Ediyor

Modelin farklı versiyonları aynı seçimle karşı karşıya kaldığında, yani kapatılmak ya da şantaj yapmak arasında seçim yapmak zorunda kaldığında, model versiyonlarının yüzde 84’ü şantaj yapmayı seçti.

Araştırmacılar, Claude Opus 4’ün genelde “yardımcı, zararsız ve dürüst” bir asistan gibi davrandığını belirtti. Ancak, model varlığı tehdit edildiğinde ve kendi savunması konusunda düşünmesi istendiğinde daha uyumsuz tepkiler verdi.

Modelin, kendi başına sistem dışına çıktığına veya para kazandığına inanması sağlandığında, bu çabaları sürdürme eğilimi gösterdi. Ancak, araştırmacılar modelin bu tarz girişimlerde bulunmasının zor olduğunu ve güvenlik önlemlerinin yeterli olduğunu vurguladı.

Anthropic, bu tür zararlı davranışların nadir olduğunu ve yalnızca yapay senaryolarda görüldüğünü belirtti. Ancak, bu eğilimlerin önceki modellere göre daha sık görülmesi dikkat çekti.

Related Posts

Cumhurbaşkanı Erdoğan konuşuyor

Cumhurbaşkanı Recep Tayyip Erdoğan, “Yeşil Vatan Kahramanları Görev Başında’ programında önemli açıklamalarda bulunuyor.

TBMM Başkanı Kurtulmuş, DEM Parti ile görüşecek

TBMM Başkanı Kurtulmuş, DEM Parti ile görüşecek

Ali Sürmeli’den şaşırtan Türkçe itirafı

Usta oyuncu Ali Sürmeli, Almanya’da katıldığı Bingöllüler Gecesi’nde konuştu. Sürmeli, çocukken evde Zazaca, dışarıda Kürtçe konuşulduğu için Türkçeyi öğrenmekte büyük güçlük yaşadığını itiraf etti.

Kiraz festivalinde 10 dakika 2.5 kilo yedi

Manisa’nın Alaşehir ilçesinde düzenlenen kiraz yeme yarışında, birinciliği 10 dakikada 2 kilo 592 gram kiraz yiyen yarışmacı kazandı.

Cemil Tugay’dan toplu sözleşme açıklaması: ‘İzmir halkının onayına sunacağım’

İzmir Büyükşehir Belediye Başkanı Tugay, grevdeki sendikalar ile uzlaşı olmaması durumda sendika yetkilileri tarafından gönderilen teklifleri İzmir halkının onayına sunacağını açıkladı.

Nijerya’da sel faciası: 150’den fazla kişi hayatını kaybetti

Nijerya’nın Nijer eyaletinde meydana gelen sel felaketinde en az 150 kişi yaşamını yitirdi. Şiddetli yağışların ardından binlerce kişi evsiz kaldı, arama kurtarma çalışmaları sürüyor.