Yapay zeka dünyasını takip edenler bilir: Her hafta onlarca yeni makale yayınlanıyor, her ay “devrim niteliğinde” buluşlar duyuruluyor. Çoğu gürültüden ibaret. Ama bazen, gerçekten paradigma değiştiren çalışmalar çıkıyor ortaya.
Google Research’ün NeurIPS 2025’te yayınladığı “Nested Learning: The Illusion of Deep Learning Architecture” makalesi, bana göre bu nadir çalışmalardan biri.
50 sayfalık bu makaleyi satır satır okudum, formülleri çözdüm, deneysel sonuçları analiz ettim. Bu yazıda sizlerle hem teknik detayları hem de bunların iş dünyası için ne anlama geldiğini paylaşacağım.
“Mimariler ve optimizörler temelde aynı kavramlardır – sadece farklı seviyelerde, farklı bağlamlarla çalışırlar.” – Behrouz et al., 2025
Mevcut Yapay Zekanın Temel Problemi
ChatGPT’yi düşünün. Milyarlarca parametre, devasa eğitim verisi, inanılmaz yetenekler. Ama bir eksikliği var: Sizinle konuştuktan sonra hiçbir şey öğrenmiyor. Bugün ona bir şey anlatıyorsunuz, yarın sıfırdan başlıyor.
Makale, mevcut LLM’leri “anterograd amnezi” hastalarına benzetiyor. Christopher Nolan’ın Memento filmini izlediyseniz, tam olarak o durum: Yeni uzun vadeli anılar oluşturamama.
Mevcut yapay zeka modellerinin durumu:
- Eğitim sırasında öğrendiklerini hatırlıyorlar
- Eğitim sonrası yeni kalıcı bilgi oluşturamıyorlar
- Context window dolduğunda bilgi kayboluyor
- Sürekli öğrenme denemeleri “catastrophic forgetting” ile sonuçlanıyor
Nested Learning: Paradigma Değişimi
İşte makalenin çığır açıcı iddiası: Mimari ve optimizer temelde aynı kavramdır. Şimdiye kadar yapay zeka dünyasında iki ayrı kavram olarak ele aldığımız şeyler aslında aynı madalyonun iki yüzüymüş.
| Seviye | Bağlam Türü | Örnek Mekanizma |
|---|---|---|
| Seviye 1 | Token Akışı | Transformer Attention |
| Seviye 2 | Gradyan Akışı | Adam Optimizer |
| Seviye 3+ | Meta-Gradyan Akışı | Nested Learning Modülleri |
Ve kritik keşif: “Pre-training aslında bir tür in-context learning’dir – sadece bağlam tüm veri setidir!”
Beyinden İlham: Çoklu Zaman Ölçeği
Araştırmacılar, insan beyninin nasıl öğrendiğini incelemiş. Beyin dalgaları farklı frekanslarda çalışıyor ve her biri farklı bir işlevi destekliyor:
| Dalga | Frekans | Beyin İşlevi | AI Karşılığı |
|---|---|---|---|
| Gamma | 30-100 Hz | Anlık dikkat | Token-level attention |
| Beta | 12-30 Hz | Aktif düşünme | Hızlı parametre güncellemesi |
| Theta | 4-8 Hz | Hafıza konsolidasyonu | Orta frekanslı katmanlar |
| Delta | 0.5-4 Hz | Uzun vadeli hafıza | Yavaş güncellenen katmanlar |
Nested Learning’in Continuum Memory System (CMS) modülü tam olarak bu prensibi uyguluyor. Farklı katmanlar farklı frekanslarda güncelleniyor.
Hope Mimarisi: Teknik Detaylar
Hope mimarisi üç ana bileşenden oluşuyor:
1. Self-Modifying Learning Module
Klasik Transformer’da key-value çiftleri sabit. Hope’ta model kendi key ve value’larını dinamik olarak üretiyor ve güncelleme algoritmasını kendisi öğreniyor.
2. Continuum Memory System (CMS)
MLP blokları farklı güncelleme frekanslarına sahip. C=2 için:
- Seviye 0: Her adımda güncelleniyor
- Seviye 1: Her 2 adımda güncelleniyor
- Seviye 2: Her 4 adımda güncelleniyor
- Seviye 3: Her 8 adımda güncelleniyor
En önemli özellik: “Unutulan” bilgi aslında tamamen kaybolmuyor. Düşük frekanslı katmanlar eski bilgiyi koruyor ve gerektiğinde geri aktarabiliyor. Buna “loop through time” deniyor.
3. M3 (Meta-Memory-Meta) Optimizer
Araştırmacılar ilginç bir keşif yapmış: Adam optimizer, gradyan varyansı üzerinde L2 regresyonu için optimal. Ama her problem için optimal değil! M3, görev ve mimari özelliklerine göre optimal güncelleme kuralını öğreniyor.
Deneysel Sonuçlar: Rakamlar
760M parametreli modeller üzerinde yapılan testlerde:
| Model | Perplexity ↓ | İyileşme |
|---|---|---|
| Transformer++ | 24.18 | Baseline |
| Mamba2 | 21.84 | +9.7% |
| Titans | 20.08 | +17.0% |
| Hope | 18.68 | +22.7% |
Uzun Bağlam Performansı
- 1M token: Hope stabil, Transformer düşüyor
- 10M token: Hope çalışıyor, Transformer tamamen başarısız
- Needle-in-Haystack: 10M token içinde “iğneyi” bulmada Hope üstün
Sürekli Öğrenme
CLINC, Banking, DBpedia ve CTNL benchmark’larının dördünde de Hope en iyi sonucu elde etmiş. Yeni görevler öğrenirken eski görevleri unutma oranı çok daha düşük.
Formal Dil Testleri
- Parallel Parity: Hope %100, Transformer başarısız
- (aa)*: Hope %100, Transformer başarısız
- aⁿbⁿ: Hope %100, Transformer başarısız
- aⁿbⁿcⁿ: Hope %100, Transformer başarısız
Verimlilik Analizi
| Metrik | İyileşme |
|---|---|
| Inference Hızı | 2.36x daha hızlı |
| VRAM Kullanımı | %38.7 daha az |
| Eğitim Süresi | %42.8 daha hızlı |
Bu rakamlar önemli. Daha az VRAM ve daha hızlı eğitim, özellikle KOBİ’ler için büyük avantaj.
Sınırlamalar
Her bilimsel çalışma gibi, bu makalenin de sınırlamaları var:
- Catastrophic Forgetting “Çözülmedi”: Yönetilebilir hale getirildi ama tamamen ortadan kaldırılmadı.
- Ölçek Sorusu: Deneyler 760M-1.3B ölçeğinde. GPT-4 seviyesinde nasıl performans göstereceği belirsiz.
- M3 Overhead: Ek hesaplama yükü bazı senaryolarda avantajı azaltabilir.
- Production Validasyonu: Gerçek ortamlarda test edilmemiş.
Türkiye ve KOBİ’ler İçin Çıkarımlar
Kurumsal Hafıza
Bir e-ticaret sitesi düşünün. Müşteri davranışları sürekli değişiyor. Mevcut AI modelleri bu değişime adapte olamıyor. Nested Learning yaklaşımı, modelin gerçek zamanlı öğrenmesini mümkün kılabilir.
Maliyet Avantajı
- Yeniden eğitim gerektirmeden güncelleme
- %38.7 daha az VRAM = daha ucuz GPU’lar yeterli
- %42.8 daha hızlı eğitim = daha az bulut maliyeti
Türkçe NLP
Türkçe morfolojik olarak zengin bir dil. Hope’un formal dil testlerindeki başarısı, Türkçe’nin karmaşık ek yapılarını daha iyi modelleyebileceğine işaret ediyor.
AI Terbiyecisi ve Nested Learning
Daha önce “AI Terbiyecisi” kavramından bahsetmiştim. Nested Learning bu konsepte yeni bir boyut ekliyor:
Geleneksel: Modeli eğit, dondur, kullan. Hata yaparsa yeniden eğit.
Nested Learning: Model sürekli öğreniyor ama kontrollü. Yüksek frekanslı katmanlar hızlı adapte olurken, düşük frekanslı katmanlar “temel değerleri” koruyor.
CMS’in çoklu zaman ölçeği yapısı, bir nevi “yapay vicdan” görevi görüyor.
Gelecek Perspektifi
Kısa Vade (1-2 Yıl)
- Mevcut Transformer’lara CMS benzeri modüller eklenmesi
- Mimari-spesifik optimizörler
- Verimli fine-tuning teknikleri
Orta Vade (3-5 Yıl)
- Gerçek zamanlı öğrenen ticari AI sistemleri
- Kişiselleştirilmiş AI modelleri
- Cihaz üzerinde öğrenen Edge AI
Uzun Vade (5+ Yıl)
Mimari ve optimizör ayrımının tamamen ortadan kalkması. Modellerin kendi mimarilerini dinamik olarak oluşturması.
Sonuç
50 sayfalık bu makaleyi okuduktan sonra şunları söyleyebilirim:
- Paradigma Değişimi Geliyor: “Mimari ve optimizer aynı şeydir” kavramı AI araştırmalarının yönünü değiştirecek.
- Sürekli Öğrenme Mümkün: CMS gibi yapılar catastrophic forgetting’i yönetilebilir kılıyor.
- Verimlilik Artıyor: Daha az kaynak, daha hızlı eğitim, daha iyi performans.
- Türkiye İçin Fırsat: Türkçe NLP ve KOBİ odaklı AI çözümleri için yeni kapılar açılıyor.
Biz Ağabeyoğlu Grup olarak bu alanda çalışmalarımızı sürdürüyoruz. DSGMv2 projemiz benzer prensipler üzerine inşa ediliyor.
“İş dünyasında zaman altınsa, yapay zeka onun madencisidir. Ama madenci sürekli öğrenemezse, altın damarını kaçırır.”
Sorularınız veya projeleriniz varsa bana ulaşın. Bu konularda çalışmak isteyenler için kapım her zaman açık.
Kaynak: Behrouz, A., et al. (2025). Nested Learning: The Illusion of Deep Learning Architecture. Google Research. NeurIPS 2025. arXiv:2512.24695