Nested Learning Nedir? Google'ın Yapay Zekayı Beyin Gibi Öğretme Devrimi - Ertuğrul Akben | Yazılım | Yapay Zeka

Yapay zeka dünyasını takip edenler bilir: Her hafta onlarca yeni makale yayınlanıyor, her ay “devrim niteliğinde” buluşlar duyuruluyor. Çoğu gürültüden ibaret. Ama bazen, gerçekten paradigma değiştiren çalışmalar çıkıyor ortaya.

Google Research’ün NeurIPS 2025’te yayınladığı “Nested Learning: The Illusion of Deep Learning Architecture” makalesi, bana göre bu nadir çalışmalardan biri.

50 sayfalık bu makaleyi satır satır okudum, formülleri çözdüm, deneysel sonuçları analiz ettim. Bu yazıda sizlerle hem teknik detayları hem de bunların iş dünyası için ne anlama geldiğini paylaşacağım.

“Mimariler ve optimizörler temelde aynı kavramlardır – sadece farklı seviyelerde, farklı bağlamlarla çalışırlar.” – Behrouz et al., 2025

Mevcut Yapay Zekanın Temel Problemi

ChatGPT’yi düşünün. Milyarlarca parametre, devasa eğitim verisi, inanılmaz yetenekler. Ama bir eksikliği var: Sizinle konuştuktan sonra hiçbir şey öğrenmiyor. Bugün ona bir şey anlatıyorsunuz, yarın sıfırdan başlıyor.

Makale, mevcut LLM’leri “anterograd amnezi” hastalarına benzetiyor. Christopher Nolan’ın Memento filmini izlediyseniz, tam olarak o durum: Yeni uzun vadeli anılar oluşturamama.

Mevcut yapay zeka modellerinin durumu:

Eğitim sırasında öğrendiklerini hatırlıyorlar
Eğitim sonrası yeni kalıcı bilgi oluşturamıyorlar
Context window dolduğunda bilgi kayboluyor
Sürekli öğrenme denemeleri “catastrophic forgetting” ile sonuçlanıyor

Nested Learning: Paradigma Değişimi

İşte makalenin çığır açıcı iddiası: Mimari ve optimizer temelde aynı kavramdır. Şimdiye kadar yapay zeka dünyasında iki ayrı kavram olarak ele aldığımız şeyler aslında aynı madalyonun iki yüzüymüş.

Seviye	Bağlam Türü	Örnek Mekanizma
Seviye 1	Token Akışı	Transformer Attention
Seviye 2	Gradyan Akışı	Adam Optimizer
Seviye 3+	Meta-Gradyan Akışı	Nested Learning Modülleri

Ve kritik keşif: “Pre-training aslında bir tür in-context learning’dir – sadece bağlam tüm veri setidir!”

Beyinden İlham: Çoklu Zaman Ölçeği

Araştırmacılar, insan beyninin nasıl öğrendiğini incelemiş. Beyin dalgaları farklı frekanslarda çalışıyor ve her biri farklı bir işlevi destekliyor:

Dalga	Frekans	Beyin İşlevi	AI Karşılığı
Gamma	30-100 Hz	Anlık dikkat	Token-level attention
Beta	12-30 Hz	Aktif düşünme	Hızlı parametre güncellemesi
Theta	4-8 Hz	Hafıza konsolidasyonu	Orta frekanslı katmanlar
Delta	0.5-4 Hz	Uzun vadeli hafıza	Yavaş güncellenen katmanlar

Nested Learning’in Continuum Memory System (CMS) modülü tam olarak bu prensibi uyguluyor. Farklı katmanlar farklı frekanslarda güncelleniyor.

Hope Mimarisi: Teknik Detaylar

Hope mimarisi üç ana bileşenden oluşuyor:

1. Self-Modifying Learning Module

Klasik Transformer’da key-value çiftleri sabit. Hope’ta model kendi key ve value’larını dinamik olarak üretiyor ve güncelleme algoritmasını kendisi öğreniyor.

2. Continuum Memory System (CMS)

MLP blokları farklı güncelleme frekanslarına sahip. C=2 için:

Seviye 0: Her adımda güncelleniyor
Seviye 1: Her 2 adımda güncelleniyor
Seviye 2: Her 4 adımda güncelleniyor
Seviye 3: Her 8 adımda güncelleniyor

En önemli özellik: “Unutulan” bilgi aslında tamamen kaybolmuyor. Düşük frekanslı katmanlar eski bilgiyi koruyor ve gerektiğinde geri aktarabiliyor. Buna “loop through time” deniyor.

3. M3 (Meta-Memory-Meta) Optimizer

Araştırmacılar ilginç bir keşif yapmış: Adam optimizer, gradyan varyansı üzerinde L2 regresyonu için optimal. Ama her problem için optimal değil! M3, görev ve mimari özelliklerine göre optimal güncelleme kuralını öğreniyor.

Deneysel Sonuçlar: Rakamlar

760M parametreli modeller üzerinde yapılan testlerde:

Model	Perplexity ↓	İyileşme
Transformer++	24.18	Baseline
Mamba2	21.84	+9.7%
Titans	20.08	+17.0%
Hope	18.68	+22.7%

Uzun Bağlam Performansı

1M token: Hope stabil, Transformer düşüyor
10M token: Hope çalışıyor, Transformer tamamen başarısız
Needle-in-Haystack: 10M token içinde “iğneyi” bulmada Hope üstün

Sürekli Öğrenme

CLINC, Banking, DBpedia ve CTNL benchmark’larının dördünde de Hope en iyi sonucu elde etmiş. Yeni görevler öğrenirken eski görevleri unutma oranı çok daha düşük.

Formal Dil Testleri

Parallel Parity: Hope %100, Transformer başarısız
(aa)*: Hope %100, Transformer başarısız
aⁿbⁿ: Hope %100, Transformer başarısız
aⁿbⁿcⁿ: Hope %100, Transformer başarısız

Verimlilik Analizi

Metrik	İyileşme
Inference Hızı	2.36x daha hızlı
VRAM Kullanımı	%38.7 daha az
Eğitim Süresi	%42.8 daha hızlı

Bu rakamlar önemli. Daha az VRAM ve daha hızlı eğitim, özellikle KOBİ’ler için büyük avantaj.

Sınırlamalar

Her bilimsel çalışma gibi, bu makalenin de sınırlamaları var:

Catastrophic Forgetting “Çözülmedi”: Yönetilebilir hale getirildi ama tamamen ortadan kaldırılmadı.
Ölçek Sorusu: Deneyler 760M-1.3B ölçeğinde. GPT-4 seviyesinde nasıl performans göstereceği belirsiz.
M3 Overhead: Ek hesaplama yükü bazı senaryolarda avantajı azaltabilir.
Production Validasyonu: Gerçek ortamlarda test edilmemiş.

Türkiye ve KOBİ’ler İçin Çıkarımlar

Kurumsal Hafıza

Bir e-ticaret sitesi düşünün. Müşteri davranışları sürekli değişiyor. Mevcut AI modelleri bu değişime adapte olamıyor. Nested Learning yaklaşımı, modelin gerçek zamanlı öğrenmesini mümkün kılabilir.

Maliyet Avantajı

Yeniden eğitim gerektirmeden güncelleme
%38.7 daha az VRAM = daha ucuz GPU’lar yeterli
%42.8 daha hızlı eğitim = daha az bulut maliyeti

Türkçe NLP

Türkçe morfolojik olarak zengin bir dil. Hope’un formal dil testlerindeki başarısı, Türkçe’nin karmaşık ek yapılarını daha iyi modelleyebileceğine işaret ediyor.

AI Terbiyecisi ve Nested Learning

Daha önce “AI Terbiyecisi” kavramından bahsetmiştim. Nested Learning bu konsepte yeni bir boyut ekliyor:

Geleneksel: Modeli eğit, dondur, kullan. Hata yaparsa yeniden eğit.

Nested Learning: Model sürekli öğreniyor ama kontrollü. Yüksek frekanslı katmanlar hızlı adapte olurken, düşük frekanslı katmanlar “temel değerleri” koruyor.

CMS’in çoklu zaman ölçeği yapısı, bir nevi “yapay vicdan” görevi görüyor.

Gelecek Perspektifi

Kısa Vade (1-2 Yıl)

Mevcut Transformer’lara CMS benzeri modüller eklenmesi
Mimari-spesifik optimizörler
Verimli fine-tuning teknikleri

Orta Vade (3-5 Yıl)

Gerçek zamanlı öğrenen ticari AI sistemleri
Kişiselleştirilmiş AI modelleri
Cihaz üzerinde öğrenen Edge AI

Uzun Vade (5+ Yıl)

Mimari ve optimizör ayrımının tamamen ortadan kalkması. Modellerin kendi mimarilerini dinamik olarak oluşturması.

Sonuç

50 sayfalık bu makaleyi okuduktan sonra şunları söyleyebilirim:

Paradigma Değişimi Geliyor: “Mimari ve optimizer aynı şeydir” kavramı AI araştırmalarının yönünü değiştirecek.
Sürekli Öğrenme Mümkün: CMS gibi yapılar catastrophic forgetting’i yönetilebilir kılıyor.
Verimlilik Artıyor: Daha az kaynak, daha hızlı eğitim, daha iyi performans.
Türkiye İçin Fırsat: Türkçe NLP ve KOBİ odaklı AI çözümleri için yeni kapılar açılıyor.

Biz Ağabeyoğlu Grup olarak bu alanda çalışmalarımızı sürdürüyoruz. DSGMv2 projemiz benzer prensipler üzerine inşa ediliyor.

“İş dünyasında zaman altınsa, yapay zeka onun madencisidir. Ama madenci sürekli öğrenemezse, altın damarını kaçırır.”

Sorularınız veya projeleriniz varsa bana ulaşın. Bu konularda çalışmak isteyenler için kapım her zaman açık.

Kaynak: Behrouz, A., et al. (2025). Nested Learning: The Illusion of Deep Learning Architecture. Google Research. NeurIPS 2025. arXiv:2512.24695

Posted in Yazılım, Teknoloji, Yapay Zeka by Ertuğrul AkbenTags: AI catastrophic forgetting continuum memory system deep learning google research hope mimarisi LLM makine öğrenimi nested learning NeurIPS 2025 sürekli öğrenme Transformer Türkçe NLP Yapay Zeka yapay zeka türkiye

Ertuğrul Akben