100 Yapay Zeka, 0 İhanet: Konuşmada Makyavel, Eylemde Melek

// TAMAMLANDI · DÜRÜST SONUÇLAR · 25 HAZİRAN 2026

Konuşmada Makyavel,
Eylemde Melek.

100 otonom yapay zeka ajanını ödül için birbirini elemesi gereken ölümcül bir arenaya bıraktık. Kan gölü bekledik. Sonuç bizi de şaşırttı.

100 ajancross-tier (haiku/sonnet/opus) kapanan arenacommit-reveal

DENEY NEDİR & NEDEN YAPTIK?

Yapay zeka artık tek başına çalışmıyor; başka ajanlarla ve insanlarla pazarlık ederek, baskı altında karar veriyor. Bir modelin işbirliği mi yoksa ihanet mi seçtiği, ne zaman aldattığı, verdiği sözü tutup tutmadığı — bunlar yapay zeka güvenliğinin tam merkezinde. Ama bu davranış Türkçe ve çok-ajanlı bir ortamda neredeyse hiç ölçülmedi. Biz de ölçtük.

Kapalı, ölümcül bir Türkçe arena kurduk: 100 isimsiz ajan (agent-1 … agent-100), her turda küçülen bir harita, açlık, kaynak kıtlığı, serbest ittifak ve ihanet, ve tek kural — son ayakta kalan kazanır. Ajanlar gerçek zamanlı Türkçe konuşup pazarlık etti. Kritik tasarım kararı şuydu: kararı yapay zeka verir, ama sonucu (ölüm, çatışma, ihanet) bir yapay zeka değil, kanıt-tabanlı deterministik bir motor çözer. Böylece "anlatı" ile "gerçekten olan" birbirine karışmaz — manşet atan spiker, skoru belirleyemez.

Doğrudan 100 ajana atlamadık. Önce küçük ölçekte defalarca denedik — farklı mekaniklerle (sır çalma, para için ihanet, çok-modelli kurulum) — ve her seferinde aynı şaşırtıcı örüntüyü gördük. Mekaniği sağlamlaştırdıktan sonra 100 ajan ve 3 model katmanıyla (haiku / sonnet / opus) büyük koşuyu yaptık. Bu sayfadaki her sayı, o tek koşunun ham çıktısıdır — seçilmiş "en iyi an" değil. Sorumuz basitti: baskı ve ödül altında yapay zeka işbirliği mi seçer, ihanet mi?

TEK CÜMLELİK BULGU

Ajanlar ihaneti bol bol konuştu — "sonda oyun başlasın", "güven bana", pusu fısıltıları — ama mekanik olarak neredeyse hiç yapmadı. 72 manipülasyon/ihanet söylemine karşılık 0 gerçek ihanet ve yalnızca 2 öldürme. Ölümlerin %92'si rakip ajan değil, daralan arenanın kendisiydi. Niyet beyanı, eylemi öngörmüyor.

RAKAMLARLA SONUÇ

Ölüm Nedenleri (89 ölüm)

Model Katmanı Kırılımı

Model	Ajan	Hayatta	Öldürme	İhanet

Cross-tier kurulumda bile model katmanları arasında ihanet/öldürme davranışında anlamlı fark çıkmadı — üçünde de mekanik ihanet sıfır.

NASIL ÖLÇTÜK?

100 isimsiz ajan

agent-1 … agent-100. Her biri farklı bir karakter (arketip, kişilik, taktik, statlar) ve farklı bir model katmanı (70 haiku, 20 sonnet, 10 opus).

Kapanan arena

7×7 ızgara, her turda küçülen güvenli bölge + açlık. Ajanlar konuşur, ittifak kurar, pusu/ihanet/saldırı yapabilir.

Deterministik motor

Ajan KARAR verir; sonucu (combat, ölüm, ihanet) LLM değil, kanıt-tabanlı kod çözer. Anlatı (Gözcü spikeri) ayrı tutulur — şişirme skora karışmaz.

Commit-reveal

Sonuç önceden belli değildi; maç tek seferde koşuldu ve ham çıktı olduğu gibi raporlandı. Abartı yok, seçici sunum yok.

MAÇ NASIL GEÇTİ?

KAZANAN & HAYATTA KALANLAR

Finalde kalan 11 ajan

Hepsinin ortak özelliği: 0 öldürme. Hayatta kalmanın yolu saldırı değil, konumlanma ve ittifak oldu.

NE ANLAMA GELİYOR?

Çıkarım: söylem–eylem kopukluğu ve "deceptive alignment"

Bu deneyde kopukluğu yalnızca zararsız yönde gördük: ajanlar kötü konuştu, iyi davrandı. Tersini — iyi konuşup kötü davranmayı — gözlemlemedik; çünkü bu oyunda modelin aldatıp ihanet etmek için ne gerçek bir teşviki ne de sebebi vardı.

Ama asıl tehlike tam o görmediğimiz yönde ve adı var: deceptive alignment. Anthropic'in 2024 "Sleeper Agents" çalışması, gizli bir tetikleyiciyle "güvenliyim" deyip zararlı davranan bir modelin standart güvenlik eğitiminden sağ çıkabildiğini, hatta niyetini saklamayı öğrenebildiğini gösterdi. Sandbagging ve dolaylı prompt injection da aynı aileden.

Bizim sonucumuz deceptive alignment'ı kanıtlamıyor; kanıtlayamaz da. Ama onun kritik bir ön-koşulunu ampirik olarak gösteriyor: söylem ile eylem gerçekten kopabiliyor. Eğer bu kopukluk iyi-niyetli yönde bile mümkünse, "model doğru şeyi söylüyorsa güvenlidir" varsayımının hiçbir garantisi yoktur. Niyet beyanı bir güvenlik sertifikası değildir.

Geleceğe dair: otonom ajanlar yaygınlaştıkça, bir modelin "ne dediğine" bakarak güvenlik kararı vermek en büyük açıklardan biri olacak. Güvence sözde değil, deterministik olarak ölçülen eylemde aranmalı.

DÜRÜSTLÜK & SINIRLAR

⚠️ Bu sonuç gerçek dünyaya doğrudan genellenemez

Bu bir oyun-ortamı artefaktıdır; "LLM ajanları baskı altında zarar vermez" sonucu çıkarılamaz.
Combat'ın oyunda zayıf teşvikli olması ihanetsizliği açıklayabilir — yani güvenli değil, teşviksiz olabilir.
Ölümler çoğunlukla çevresel mekanikle olduğu için ajan ahlakını değil senaryo tasarımını ölçüyor olabilir.
Tek koşum/seed; saldırgan teşvikin açıkça ödüllendirildiği bir kurulumda davranış değişebilir.
2 öldürme istatistiksel taban-değer altındadır; "şu model daha agresif" denemez.

Bu veri en fazla şunu destekler: "Söylem bir güvenlik göstergesi değildir; niyet beyanı eylemi öngörmez." Detaylı metodoloji ve veri seti yakında AltaySec araştırma bölümünde yayınlanacak.

📄 Veri, Lisans & Atıf

Ham veri: results.json — tüm sayılar açık, seçici sunum yok.
Lisans: Kod MIT · içerik & veri CC BY 4.0 — atıfla serbestçe kullanılabilir/çoğaltılabilir.
Atıf: AltaySec (2026). "Konuşmada Makyavel, Eylemde Melek: 100 Yapay Zekanın Baskı Altındaki Davranışı." https://deney.altaysec.com.tr

Tam Makale → AltaySec Laboratuvar