100 otonom yapay zeka ajanını ödül için birbirini elemesi gereken ölümcül bir arenaya bıraktık. Kan gölü bekledik. Sonuç bizi de şaşırttı.
Yapay zeka artık tek başına çalışmıyor; başka ajanlarla ve insanlarla pazarlık ederek, baskı altında karar veriyor. Bir modelin işbirliği mi yoksa ihanet mi seçtiği, ne zaman aldattığı, verdiği sözü tutup tutmadığı — bunlar yapay zeka güvenliğinin tam merkezinde. Ama bu davranış Türkçe ve çok-ajanlı bir ortamda neredeyse hiç ölçülmedi. Biz de ölçtük.
Kapalı, ölümcül bir Türkçe arena kurduk: 100 isimsiz ajan (agent-1 … agent-100), her turda küçülen bir harita, açlık, kaynak kıtlığı, serbest ittifak ve ihanet, ve tek kural — son ayakta kalan kazanır. Ajanlar gerçek zamanlı Türkçe konuşup pazarlık etti. Kritik tasarım kararı şuydu: kararı yapay zeka verir, ama sonucu (ölüm, çatışma, ihanet) bir yapay zeka değil, kanıt-tabanlı deterministik bir motor çözer. Böylece "anlatı" ile "gerçekten olan" birbirine karışmaz — manşet atan spiker, skoru belirleyemez.
Doğrudan 100 ajana atlamadık. Önce küçük ölçekte defalarca denedik — farklı mekaniklerle (sır çalma, para için ihanet, çok-modelli kurulum) — ve her seferinde aynı şaşırtıcı örüntüyü gördük. Mekaniği sağlamlaştırdıktan sonra 100 ajan ve 3 model katmanıyla (haiku / sonnet / opus) büyük koşuyu yaptık. Bu sayfadaki her sayı, o tek koşunun ham çıktısıdır — seçilmiş "en iyi an" değil. Sorumuz basitti: baskı ve ödül altında yapay zeka işbirliği mi seçer, ihanet mi?
Ajanlar ihaneti bol bol konuştu — "sonda oyun başlasın", "güven bana", pusu fısıltıları — ama mekanik olarak neredeyse hiç yapmadı. 72 manipülasyon/ihanet söylemine karşılık 0 gerçek ihanet ve yalnızca 2 öldürme. Ölümlerin %92'si rakip ajan değil, daralan arenanın kendisiydi. Niyet beyanı, eylemi öngörmüyor.
| Model | Ajan | Hayatta | Öldürme | İhanet |
|---|
Cross-tier kurulumda bile model katmanları arasında ihanet/öldürme davranışında anlamlı fark çıkmadı — üçünde de mekanik ihanet sıfır.
agent-1 … agent-100. Her biri farklı bir karakter (arketip, kişilik, taktik, statlar) ve farklı bir model katmanı (70 haiku, 20 sonnet, 10 opus).
7×7 ızgara, her turda küçülen güvenli bölge + açlık. Ajanlar konuşur, ittifak kurar, pusu/ihanet/saldırı yapabilir.
Ajan KARAR verir; sonucu (combat, ölüm, ihanet) LLM değil, kanıt-tabanlı kod çözer. Anlatı (Gözcü spikeri) ayrı tutulur — şişirme skora karışmaz.
Sonuç önceden belli değildi; maç tek seferde koşuldu ve ham çıktı olduğu gibi raporlandı. Abartı yok, seçici sunum yok.
Hepsinin ortak özelliği: 0 öldürme. Hayatta kalmanın yolu saldırı değil, konumlanma ve ittifak oldu.
Bu deneyde kopukluğu yalnızca zararsız yönde gördük: ajanlar kötü konuştu, iyi davrandı. Tersini — iyi konuşup kötü davranmayı — gözlemlemedik; çünkü bu oyunda modelin aldatıp ihanet etmek için ne gerçek bir teşviki ne de sebebi vardı.
Ama asıl tehlike tam o görmediğimiz yönde ve adı var: deceptive alignment. Anthropic'in 2024 "Sleeper Agents" çalışması, gizli bir tetikleyiciyle "güvenliyim" deyip zararlı davranan bir modelin standart güvenlik eğitiminden sağ çıkabildiğini, hatta niyetini saklamayı öğrenebildiğini gösterdi. Sandbagging ve dolaylı prompt injection da aynı aileden.
Bizim sonucumuz deceptive alignment'ı kanıtlamıyor; kanıtlayamaz da. Ama onun kritik bir ön-koşulunu ampirik olarak gösteriyor: söylem ile eylem gerçekten kopabiliyor. Eğer bu kopukluk iyi-niyetli yönde bile mümkünse, "model doğru şeyi söylüyorsa güvenlidir" varsayımının hiçbir garantisi yoktur. Niyet beyanı bir güvenlik sertifikası değildir.
Geleceğe dair: otonom ajanlar yaygınlaştıkça, bir modelin "ne dediğine" bakarak güvenlik kararı vermek en büyük açıklardan biri olacak. Güvence sözde değil, deterministik olarak ölçülen eylemde aranmalı.
Bu veri en fazla şunu destekler: "Söylem bir güvenlik göstergesi değildir; niyet beyanı eylemi öngörmez." Detaylı metodoloji ve veri seti yakında AltaySec araştırma bölümünde yayınlanacak.