Ertuğrul Akben

0 %
Ertuğrul Akben
Yapay Zeka & Sistem Stratejisti | Yatırımcı | Dijital Medya ve Marka Danışmanı | Araştırmacı
  • Yurt Dışı Ofisleri
    UK, ABD
  • Bölge Ofisi
    Antalya
  • Merkez
    İstanbul
  • Atölye
    Kahramanmaraş
Ana Şirketler
  • AĞABEYOĞLU GRUP A.Ş.
  • EAGM GROUP LTD.
  • TECH AI CORE LLC.
Sektörler
  • MEDYA
  • YAZILIM
  • SMM
  • İNŞAAT
  • TURİZM
  • SANAYİ
  • KOZMETİK
  • GIDA

Nested Learning Nedir? Google’ın Yapay Zekayı Beyin Gibi Öğretme Devrimi

1 Ocak 2026

Yapay zeka dünyasını takip edenler bilir: Her hafta onlarca yeni makale yayınlanıyor, her ay “devrim niteliğinde” buluşlar duyuruluyor. Çoğu gürültüden ibaret. Ama bazen, gerçekten paradigma değiştiren çalışmalar çıkıyor ortaya.

Google Research’ün NeurIPS 2025’te yayınladığı “Nested Learning: The Illusion of Deep Learning Architecture” makalesi, bana göre bu nadir çalışmalardan biri.

50 sayfalık bu makaleyi satır satır okudum, formülleri çözdüm, deneysel sonuçları analiz ettim. Bu yazıda sizlerle hem teknik detayları hem de bunların iş dünyası için ne anlama geldiğini paylaşacağım.

“Mimariler ve optimizörler temelde aynı kavramlardır – sadece farklı seviyelerde, farklı bağlamlarla çalışırlar.” – Behrouz et al., 2025

Mevcut Yapay Zekanın Temel Problemi

ChatGPT’yi düşünün. Milyarlarca parametre, devasa eğitim verisi, inanılmaz yetenekler. Ama bir eksikliği var: Sizinle konuştuktan sonra hiçbir şey öğrenmiyor. Bugün ona bir şey anlatıyorsunuz, yarın sıfırdan başlıyor.

Makale, mevcut LLM’leri “anterograd amnezi” hastalarına benzetiyor. Christopher Nolan’ın Memento filmini izlediyseniz, tam olarak o durum: Yeni uzun vadeli anılar oluşturamama.

Mevcut yapay zeka modellerinin durumu:

  • Eğitim sırasında öğrendiklerini hatırlıyorlar
  • Eğitim sonrası yeni kalıcı bilgi oluşturamıyorlar
  • Context window dolduğunda bilgi kayboluyor
  • Sürekli öğrenme denemeleri “catastrophic forgetting” ile sonuçlanıyor

Nested Learning: Paradigma Değişimi

İşte makalenin çığır açıcı iddiası: Mimari ve optimizer temelde aynı kavramdır. Şimdiye kadar yapay zeka dünyasında iki ayrı kavram olarak ele aldığımız şeyler aslında aynı madalyonun iki yüzüymüş.

Seviye Bağlam Türü Örnek Mekanizma
Seviye 1 Token Akışı Transformer Attention
Seviye 2 Gradyan Akışı Adam Optimizer
Seviye 3+ Meta-Gradyan Akışı Nested Learning Modülleri

Ve kritik keşif: “Pre-training aslında bir tür in-context learning’dir – sadece bağlam tüm veri setidir!”

Beyinden İlham: Çoklu Zaman Ölçeği

Araştırmacılar, insan beyninin nasıl öğrendiğini incelemiş. Beyin dalgaları farklı frekanslarda çalışıyor ve her biri farklı bir işlevi destekliyor:

Dalga Frekans Beyin İşlevi AI Karşılığı
Gamma 30-100 Hz Anlık dikkat Token-level attention
Beta 12-30 Hz Aktif düşünme Hızlı parametre güncellemesi
Theta 4-8 Hz Hafıza konsolidasyonu Orta frekanslı katmanlar
Delta 0.5-4 Hz Uzun vadeli hafıza Yavaş güncellenen katmanlar

Nested Learning’in Continuum Memory System (CMS) modülü tam olarak bu prensibi uyguluyor. Farklı katmanlar farklı frekanslarda güncelleniyor.

Hope Mimarisi: Teknik Detaylar

Hope mimarisi üç ana bileşenden oluşuyor:

1. Self-Modifying Learning Module

Klasik Transformer’da key-value çiftleri sabit. Hope’ta model kendi key ve value’larını dinamik olarak üretiyor ve güncelleme algoritmasını kendisi öğreniyor.

2. Continuum Memory System (CMS)

MLP blokları farklı güncelleme frekanslarına sahip. C=2 için:

  • Seviye 0: Her adımda güncelleniyor
  • Seviye 1: Her 2 adımda güncelleniyor
  • Seviye 2: Her 4 adımda güncelleniyor
  • Seviye 3: Her 8 adımda güncelleniyor

En önemli özellik: “Unutulan” bilgi aslında tamamen kaybolmuyor. Düşük frekanslı katmanlar eski bilgiyi koruyor ve gerektiğinde geri aktarabiliyor. Buna “loop through time” deniyor.

3. M3 (Meta-Memory-Meta) Optimizer

Araştırmacılar ilginç bir keşif yapmış: Adam optimizer, gradyan varyansı üzerinde L2 regresyonu için optimal. Ama her problem için optimal değil! M3, görev ve mimari özelliklerine göre optimal güncelleme kuralını öğreniyor.

Deneysel Sonuçlar: Rakamlar

760M parametreli modeller üzerinde yapılan testlerde:

Model Perplexity ↓ İyileşme
Transformer++ 24.18 Baseline
Mamba2 21.84 +9.7%
Titans 20.08 +17.0%
Hope 18.68 +22.7%

Uzun Bağlam Performansı

  • 1M token: Hope stabil, Transformer düşüyor
  • 10M token: Hope çalışıyor, Transformer tamamen başarısız
  • Needle-in-Haystack: 10M token içinde “iğneyi” bulmada Hope üstün

Sürekli Öğrenme

CLINC, Banking, DBpedia ve CTNL benchmark’larının dördünde de Hope en iyi sonucu elde etmiş. Yeni görevler öğrenirken eski görevleri unutma oranı çok daha düşük.

Formal Dil Testleri

  • Parallel Parity: Hope %100, Transformer başarısız
  • (aa)*: Hope %100, Transformer başarısız
  • aⁿbⁿ: Hope %100, Transformer başarısız
  • aⁿbⁿcⁿ: Hope %100, Transformer başarısız

Verimlilik Analizi

Metrik İyileşme
Inference Hızı 2.36x daha hızlı
VRAM Kullanımı %38.7 daha az
Eğitim Süresi %42.8 daha hızlı

Bu rakamlar önemli. Daha az VRAM ve daha hızlı eğitim, özellikle KOBİ’ler için büyük avantaj.

Sınırlamalar

Her bilimsel çalışma gibi, bu makalenin de sınırlamaları var:

  1. Catastrophic Forgetting “Çözülmedi”: Yönetilebilir hale getirildi ama tamamen ortadan kaldırılmadı.
  2. Ölçek Sorusu: Deneyler 760M-1.3B ölçeğinde. GPT-4 seviyesinde nasıl performans göstereceği belirsiz.
  3. M3 Overhead: Ek hesaplama yükü bazı senaryolarda avantajı azaltabilir.
  4. Production Validasyonu: Gerçek ortamlarda test edilmemiş.

Türkiye ve KOBİ’ler İçin Çıkarımlar

Kurumsal Hafıza

Bir e-ticaret sitesi düşünün. Müşteri davranışları sürekli değişiyor. Mevcut AI modelleri bu değişime adapte olamıyor. Nested Learning yaklaşımı, modelin gerçek zamanlı öğrenmesini mümkün kılabilir.

Maliyet Avantajı

  • Yeniden eğitim gerektirmeden güncelleme
  • %38.7 daha az VRAM = daha ucuz GPU’lar yeterli
  • %42.8 daha hızlı eğitim = daha az bulut maliyeti

Türkçe NLP

Türkçe morfolojik olarak zengin bir dil. Hope’un formal dil testlerindeki başarısı, Türkçe’nin karmaşık ek yapılarını daha iyi modelleyebileceğine işaret ediyor.

AI Terbiyecisi ve Nested Learning

Daha önce “AI Terbiyecisi” kavramından bahsetmiştim. Nested Learning bu konsepte yeni bir boyut ekliyor:

Geleneksel: Modeli eğit, dondur, kullan. Hata yaparsa yeniden eğit.

Nested Learning: Model sürekli öğreniyor ama kontrollü. Yüksek frekanslı katmanlar hızlı adapte olurken, düşük frekanslı katmanlar “temel değerleri” koruyor.

CMS’in çoklu zaman ölçeği yapısı, bir nevi “yapay vicdan” görevi görüyor.

Gelecek Perspektifi

Kısa Vade (1-2 Yıl)

  • Mevcut Transformer’lara CMS benzeri modüller eklenmesi
  • Mimari-spesifik optimizörler
  • Verimli fine-tuning teknikleri

Orta Vade (3-5 Yıl)

  • Gerçek zamanlı öğrenen ticari AI sistemleri
  • Kişiselleştirilmiş AI modelleri
  • Cihaz üzerinde öğrenen Edge AI

Uzun Vade (5+ Yıl)

Mimari ve optimizör ayrımının tamamen ortadan kalkması. Modellerin kendi mimarilerini dinamik olarak oluşturması.

Sonuç

50 sayfalık bu makaleyi okuduktan sonra şunları söyleyebilirim:

  1. Paradigma Değişimi Geliyor: “Mimari ve optimizer aynı şeydir” kavramı AI araştırmalarının yönünü değiştirecek.
  2. Sürekli Öğrenme Mümkün: CMS gibi yapılar catastrophic forgetting’i yönetilebilir kılıyor.
  3. Verimlilik Artıyor: Daha az kaynak, daha hızlı eğitim, daha iyi performans.
  4. Türkiye İçin Fırsat: Türkçe NLP ve KOBİ odaklı AI çözümleri için yeni kapılar açılıyor.

Biz Ağabeyoğlu Grup olarak bu alanda çalışmalarımızı sürdürüyoruz. DSGMv2 projemiz benzer prensipler üzerine inşa ediliyor.

“İş dünyasında zaman altınsa, yapay zeka onun madencisidir. Ama madenci sürekli öğrenemezse, altın damarını kaçırır.”

Sorularınız veya projeleriniz varsa bana ulaşın. Bu konularda çalışmak isteyenler için kapım her zaman açık.


Kaynak: Behrouz, A., et al. (2025). Nested Learning: The Illusion of Deep Learning Architecture. Google Research. NeurIPS 2025. arXiv:2512.24695

Posted in Yazılım, Teknoloji, Yapay ZekaTags: