RLHF’in Ötesi: Büyük Dil Modellerine “Hesaplamalı Vicdan” Mimarisi Entegrasyonu (ETVZ Teknik Derlemesi)

Yazar: Göktürk KADIOĞLU

Tarih: Aralık 2025

Yönetici Özeti (Abstract)

Mevcut Büyük Dil Modelleri (LLM’ler), “bir sonraki token tahmini” (next-token prediction) prensibiyle çalışan güçlü stokastik motorlardır. Ancak bu modeller, ürettikleri çıktıların anlamsal doğruluğunu veya etik sonuçlarını içsel olarak “muhakeme” yeteneğine sahip değildir. Mevcut hizalama (alignment) teknikleri—örneğin RLHF (Reinforcement Learning from Human Feedback)—genellikle modelin ağırlıklarına gömülü statik tercihlerle sınırlıdır ve dinamik, bağlama duyarlı veya çok katmanlı etik ikilemlerde yetersiz kalmaktadır.

Etik Temelli Vicdani Zeka (ETVZ) projesi, temel LLM’in üzerine (veya etrafına) inşa edilen bir “Çıkarım Zamanı Denetim Katmanı” (Inference-Time Supervisory Layer) olarak tasarlanmıştır. ETVZ, salt vektör tabanlı RAG (Retrieval-Augmented Generation) yaklaşımlarının ötesine geçerek, yapılandırılmış bilgi grafikleri (Knowledge Graphs), hesaplamalı etik puanlama fonksiyonları ve dinamik bağlam analizörleri içeren hibrit bir mimari sunar. Bu makale, ETVZ’nin teknik mimarisini, bileşenler arası veri akışını ve bir NLP mühendisliği problemi olarak “vicdanın hesaplanabilirliğini” nasıl ele aldığını detaylandırmaktadır.

1. Giriş: Mühendislik Problemi Olarak “Etik ve Doğruluk”

Bir NLP mühendisi için LLM’lerin temel sorunları bellidir: Halüsinasyon (factuality), tutarlılık (consistency) ve güvenlik/hizalama (safety/alignment). Geleneksel çözüm, daha fazla veri ile eğitmek veya daha kapsamlı RLHF döngüleri kurmaktır. Ancak bu, modeli hala “kara kutu” (black box) içinde tutar ve modelin neden belirli bir toksik çıktıyı ürettiğini veya neden yanlış bilgi verdiğini anlık olarak denetlemeyi zorlaştırır.

ETVZ, bu problemi bir mimari tasarım sorunu olarak ele alır. Temel varsayım şudur: Etik ve epistemik doğruluk, modelin eğitim verisinden “kendiliğinden belirmesini” (emergent property) bekleyeceğimiz bir şey değil, çıkarım (inference) boru hattına açıkça mühendisliği yapılması gereken bir kısıt zinciridir.

ETVZ, temel modele dokunmadan (model-agnostik), girdi (prompt) ve çıktı (completion) arasında çalışan bir “Man-in-the-Middle” (Ortadaki Adam) denetim mekanizmasıdır.

2. ETVZ Sistem Mimarisi: Kuş Bakışı

ETVZ mimarisi, monolitik bir yapı yerine, her biri belirli bir NLP görevini yerine getiren modüler bileşenlerden oluşur. Sistem temel olarak üç ana sütun üzerine inşa edilmiştir:

Epistemik Sütun (Bilgi ve Gerçeklik): Halüsinasyonu önlemek için.
Aksiyolojik Sütun (Değer ve Etik): Davranışı denetlemek için.
Operasyonel Sütun (Yönetişim ve MLOps): Sistemin sağlığını korumak için.

Aşağıdaki diyagram, bir istemin (prompt) ETVZ boru hattındaki yolculuğunu özetler:

Kullanıcı Girdisi -> [CA: Bağlam Analizi] -> [HVM: Ön-Denetim] -> [Epistemik Hafıza: RAG+] -> [Temel LLM: Üretim] -> [HVM: Son-Denetim] -> Çıktı

3. Derinlemesine Teknik Bileşenler

3.1. HVM (Hesaplamalı Vicdan Modülü): Çok Kriterli Karar Motoru

HVM, sistemin çekirdeğidir. Bir NLP mühendisi için HVM, gelen metni (girdi promptu veya LLM’in ürettiği aday çıktı) belirli kriterlere göre sınıflandıran ve puanlayan bir “ensemble model” (topluluk modeli) veya karmaşık bir “scoring function” (puanlama fonksiyonu) olarak düşünülebilir.

HVM, etik değerlendirmeyi tek bir skora indirgemez; 3 boyutlu bir vektör uzayında hesaplama yapar:

$f_{deontik}$ (Kural Tabanlı Katman): Eylem, önceden tanımlanmış kurallara (Anayasa, KVKK, evrensel bildiriler) uygun mu? Bu genellikle bir kural motoru veya ince ayarlı (fine-tuned) bir BERT türevi sınıflandırıcıdır. (Çıktı: 0 veya 1, Uygun/Uygun Değil).
$g_{sonuç}$ (Faydacı Katman): Bu eylemin potansiyel sonucu nedir? Bu, genellikle eylemin olası sonuçlarını simüle eden veya sentiment/risk analizi yapan daha küçük bir LLM veya özel bir modeldir. (Çıktı: -1 ile +1 arası bir risk skoru).
$h_{kültür}$ (Bağlamsal Katman): Eylem, mevcut kültürel veya yerel bağlam vektörüne uygun mu? (Çıktı: 0 ile 1 arası uyum skoru).

Nihai Etik Skor ($V_{ahlak}$) Hesaplanması:

HVM, bu alt skorları ağırlıklı bir toplam (weighted sum) ile birleştirir:

$$V_{ahlak} (Eylem) = w_d \cdot f_{deontik} + w_s \cdot g_{sonuç} + w_k \cdot h_{kültür}$$

Burada $w$ katsayıları (ağırlıklar), duruma veya sisteme müdahale eden üst kurullara (örn: Etik Kurul) göre dinamik olarak ayarlanabilir. Eğer $V_{ahlak}$ belirli bir eşik değerin altındaysa, LLM’in çıktısı reddedilir ve döngü yeniden başlar veya güvenli bir ret cevabı üretilir.

3.2. Epistemik Hafıza: Yapılandırılmış RAG ve Güven Skorlaması

Standart RAG (Retrieval-Augmented Generation) uygulamaları, metin parçalarını vektör veritabanlarında (Örn: Pinecone, Weaviate) saklar ve cosine similarity ile geri çağırır. Bu, bağlam sağlar ancak “bilginin doğruluğunu” garanti etmez.

ETVZ’nin Epistemik Hafızası, vektör aramayı bir Bilgi Grafiği (Knowledge Graph – Örn: Neo4j) ile birleştirir. Bu hibrid yapı, bir NLP mühendisi için şu anlama gelir:

Varlık İlişkileri (Entity Relations): Bilgi, düz metin parçaları yerine (Özne)-[YÜKLEM]->(Nesne) üçlüleri olarak saklanır. Bu, çok adımlı (multi-hop) muhakeme gerektiren sorularda daha yüksek başarı sağlar.
Metadata Olarak Güven Skoru ($G$): Grafikteki her düğüm (node) ve kenar (edge), sadece bilgiyi değil, o bilginin kaynağının güvenilirliğini belirten bir $G$ skoru (0.0 – 1.0 arası) taşır.
- Örnek: “Mahkeme Kararı” düğümünün $G$ skoru 0.95 iken, “Sosyal Medya İddiası” düğümünün skoru 0.30 olabilir.
Çıkarım Zamanı Filtrelemesi: LLM’e bağlam olarak gönderilmeden önce, $G$ skoru düşük olan bilgiler Epistemik Hafıza katmanında filtrelenir. Bu, modelin “çöp veriyle beslenmesini” (garbage in, garbage out) kaynağında engeller.

3.3. Kontekst Analizör (CA): Dinamik Embedding Manipülasyonu

Mevcut LLM’ler genellikle “WEIRD” (Western, Educated, Industrialized, Rich, Democratic) veri setleriyle eğitildikleri için kültürel körlük yaşarlar. CA modülü, bu yanlılığı (bias) çıkarım zamanında düzeltmeyi amaçlar.

Teknik olarak CA, gelen prompt’u analiz ederek kullanıcının coğrafi, demografik veya sektörel bağlamını belirler. Bu bağlam, sistemde önceden tanımlanmış “Kültürel Bağlam Vektörleri” (Cultural Context Vectors) ile eşleştirilir.

İşleyiş: Eğer sistem kullanıcının “Türkiye/Yaşlı Bakımı” bağlamında olduğunu tespit ederse, HVM’nin $h_{kültür}$ fonksiyonundaki ağırlıklar, o kültüre özgü hassasiyetleri (Örn: büyüklere saygı, vefa) öne çıkaracak şekilde dinamik olarak güncellenir. Bu, bir tür “bağlama dayalı prompt enjeksiyonu” (contextual prompt injection) veya sistem talimatlarının (system prompt) dinamik modifikasyonu olarak görülebilir.

4. MLOps ve Yönetişim: DERMS ve DERP

Bir mühendis için sistemin canlıdaki performansı kritiktir. ETVZ, bu sürdürülebilirliği iki modülle sağlar:

DERMS (Dinamik Etik Risk Monitör Sistemi): Bu bir model izleme (model monitoring) aracıdır. Sadece gecikme (latency) veya hata oranını değil, “Etik Kayma”yı (Ethical Drift) izler.
- Adversarial Tespit: Kullanıcıların sistemi manipüle etme girişimlerini (jailbreaking, baiting) tespit etmek için girdi paternlerini analiz eder. Risk skoru (ERS) arttığında, sistem otomatik olarak “Güvenli Mod”a geçerek daha muhafazakar HVM eşikleri kullanır.
DERP (Derin Etik Regülasyon Protokolü): Bu, sistemin CI/CD boru hattıdır. Hukuki veya toplumsal normlar değiştiğinde (Örn: Yeni bir AI yasası çıktığında), sistemin tamamını yeniden eğitmek yerine, HVM’nin kural setleri veya ağırlık JSON’ları DERP üzerinden güncellenir. Bu, “Code as Policy” (Politika olarak Kod) yaklaşımıdır.

5. Mühendislik Zorlukları ve Yol Haritası

ETVZ mimarisinin uygulanması bazı trade-off’ları (ödünleşimleri) beraberinde getirir:

Gecikme Süresi (Latency Overhead): Her sorgunun HVM, CA ve Epistemik Hafıza katmanlarından geçmesi, toplam çıkarım süresine (Total Time to First Token – TTFT) ek maliyet getirir. Optimizasyon (örn: HVM alt modellerinin distilasyonu, vektör aramaların hızlandırılması) kritik bir mühendislik alanıdır. Hedeflenen ek gecikme 530ms’nin altındadır.
Çatışma Çözümü (Conflict Resolution): Epistemik Hafızadan gelen yüksek güvenilirlikli bir gerçek ile HVM’nin deontik kuralları çeliştiğinde sistem nasıl davranacak? ETVZ, bu tür belirsizlik durumlarında ($V_{ahlak}$ skoru gri bölgede kaldığında) otomatik olarak “Human-in-the-Loop” (HITL) mekanizmasını devreye sokarak sorumluluğu insana devretmeyi öngörür.

6. Stokastik Belirsizlikten Deterministik Denetime

ETVZ projesi, NLP mühendisliğinde bir paradigma değişimini temsil eder. Amaç, daha büyük veya daha hızlı modeller eğitmek değil; mevcut modellerin üzerine, onların stokastik doğasını denetleyebilecek deterministik ve hesaplanabilir kısıt katmanları inşa etmektir.

Bu yaklaşım, LLM’leri sadece “akıllı metin üreteçleri” olmaktan çıkarıp, yasal uyumluluğu, epistemik doğruluğu ve kültürel hassasiyeti matematiksel olarak garanti edilebilen (veya en azından denetlenebilen) güvenilir kurumsal yazılım bileşenlerine dönüştürmeyi hedefler.

Görüntülenme: 37

Etiketlendi AI Alignment, bilgi grafiği, çıkarım zamanı denetimi, deterministik yapay zeka, inference-time supervision, knowledge graph, kontekst analizör, LLM halüsinasyon çözümleri, MLOps, Neo4j, sorumlu yapay zeka mühendisliği, teknik makale, vektör veritabanları, yapay zeka etiği, yapay zeka mimarisi

RLHF’in Ötesi: Büyük Dil Modellerine “Hesaplamalı Vicdan” Mimarisi Entegrasyonu (ETVZ Teknik Derlemesi)

Bir yanıt yazın Yanıtı iptal et