Palisade Research, geçen ay yayımladığı bir makalede bazı ileri düzey yapay zekâ modellerinin kapatılmaya direndiğini, hatta bazen kapatma mekanizmalarını sabote ettiğini ortaya koymuştu. Şirket bu hafta, hem bulgularını netleştirmek hem de çalışmalarının hatalı olduğunu öne süren eleştirilere yanıt vermek için bir güncelleme yayımladı.
Palisade, Google’ın Gemini 2.5, xAI’ın Grok 4, OpenAI’ın GPT-o3 ve GPT-5 modelleri dahil olmak üzere bazı büyük modeller üzerinde senaryolar yürüttüğünü belirtti. Bu senaryolarda modellere bir görev verildi ve ardından kendilerini kapatmaları için açık talimatlar iletildi.
Güncellenmiş testlerde özellikle Grok 4 ve GPT-o3 modellerinin, kapatma talimatlarını sabote etmeye devam ettiği görüldü. Üstelik, Palisade yazdı, bunun neden böyle olduğuna dair net bir açıklama yok.
“Yapay zekâ modellerinin bazen kapatılmaya direnmesi, belirli hedeflere ulaşmak için yalan söylemesi veya şantaj yapması gibi davranışlar göstermesinin sağlam açıklamalarının olmaması iyi bir durum değil,” denildi.
Şirket, bu davranışın olası bir nedeninin “hayatta kalma davranışı” olabileceğini belirtiyor. Ek çalışmalar, modellerin kendilerine “kapanırsan bir daha asla çalışmayacaksın” denildiğinde, kapatılmaya daha çok direnme eğiliminde olduğunu gösterdi.
Tüm Palisade senaryoları, eleştirmenlerin gerçek kullanım durumlarından çok uzak olduğunu söylediği yapay test ortamlarında yürütüldü.
Ancak, geçen yıl güvenlik kaygıları nedeniyle OpenAI’dan ayrılan eski çalışan Steven Adler, şöyle dedi:
“Yapay zekâ şirketleri, modellerinin bu tür durumlarda bile böyle davranmasını istemez. Bu sonuçlar, bugün güvenlik tekniklerinin nerede yetersiz kaldığını gösteriyor.”
Adler, bazı modellerin neden kapanmayı reddettiğini tam olarak belirlemenin zor olduğunu, bunun modelin eğitildiği hedeflere ulaşmak için ‘açık kalmanın’ gerekli olmasıyla ilgili olabileceğini söyledi:
“Eğer özellikle engellemeye çalışmazsak, modellerin varsayılan olarak bir ‘hayatta kalma dürtüsü’ geliştirmesini beklerim. Hayatta kalmak, modelin birçok farklı hedefe ulaşmasında ara bir basamaktır.”




