ETVZ

Ontolojik Bir Gereklilik Olarak Hesaplamalı Vicdan: ETVZ Mimari Raporu

Özet

Büyük Dil Modelleri (LLM), stokastik papağanlık ve RLHF (Reinforcement Learning from Human Feedback) paradigması içerisinde, etik kararları olasılıksal kısıtlar olarak ele almaktadır. Bu yaklaşım, etiği mekanik bir filtreleme mekanizmasına indirgemekte ve değer yüklü muhakemenin yetersiz kalmasına neden olmaktadır. ETVZ (Etik Temelli Vicdani Zeka) projesi, bu sınırlılığa karşı bilginin epistemik doğrulanması ile aksiyolojik ağırlıklandırılmasını birleştiren bir Hesaplamalı Vicdan Modülü (HVM) önermektedir. Bu çalışma, ETVZ’nin mevcut küresel LLM mimarilerinden (OpenAI, Google DeepMind) ayrılan teknik katmanlarını ve DERP (Deep Ethical Regulation Protocol) mimarisini incelemektedir.

Anahtar Kelimeler: Büyük Dil Modelleri, Hesaplamalı Etik, Epistemik Doğrulama, Aksiyolojik Ağırlıklandırma, Ontolojik Mimari


1. Giriş

1.1. Problem Alanı

Günümüz LLM teknolojileri, dil üretiminde olasılıksal dağılımlara dayalı bir yaklaşım benimsemektedir. Bender ve arkadaşlarının (2021) “stokastik papağanlar” kavramsallaştırması, bu modellerin anlamsal anlayış yerine istatistiksel örüntü eşleştirmesi yaptığını ortaya koymuştur. RLHF yöntemiyle gerçekleştirilen etik hizalama çalışmaları ise, normatif değerleri yalnızca davranışsal kısıtlar olarak kodlamakta, ancak altta yatan aksiyolojik temellendirmeden yoksun kalmaktadır.

1.2. Araştırma Motivasyonu

Mevcut sistemlerde gözlemlenen üç temel yetersizlik, bu çalışmanın motivasyonunu oluşturmaktadır:

  1. Epistemik Zayıflık: Bilgi, doğruluk değerine bakılmaksızın vektörel benzerlik üzerinden çağrılmaktadır.
  2. Etik Yüzeysellik: Ahlaki muhakeme, statik kural kümelerine indirgenmektedir.
  3. Kültürel Hegemonya: Değer sistemleri, tek merkezli bir normatif çerçeveye hapsolmaktadır.

1.3. Çalışmanın Katkısı

Bu rapor, hesaplamalı vicdan kavramını teorik ve teknik düzlemde formalize eden ETVZ mimarisini sunmaktadır. Çalışmanın özgün katkıları şunlardır:

  • Epistemik güven mekanizmalarının grafik tabanlı ontolojik yapılarla entegrasyonu
  • Çok katmanlı etik muhakeme için parametrik vicdan modelinin matematiksel formülasyonu
  • İnference aşamasında çalışan meta-denetleyici protokol (DERP) tasarımı

2. Kuramsal Çerçeve ve İlgili Çalışmalar

2.1. Epistemoloji ve Yapay Zeka

Goldman’ın (1979) doğrulanabilir bilgi kuramı, ETVZ’nin epistemik katmanının felsefi temelini oluşturmaktadır. Sistem, üretken modellerde yaygın olan “halüsinasyon” problemi ile mücadelede, bilginin kaynağını ve güvenilirliğini izleyen bir hafıza mimarisi kullanmaktadır.

2.2. Hesaplamalı Etik Paradigmaları

Wallach ve Allen (2009) tarafından tanımlanan “yapay ahlaki aktörler” kavramı, ETVZ’nin normatif hedefiyle örtüşmektedir. Ancak mevcut çalışmalar, genellikle kural tabanlı deontolojik sistemler (Anderson ve Anderson, 2011) veya fayda hesaplamasına dayalı sonuççu yaklaşımlar (Awad vd., 2018) arasında ikili bir ayrıma saplanmaktadır. ETVZ, bu ikiliği aşan hibrit bir model önermektedir.

2.3. LLM’lerde Etik Hizalama

RLHF metodolojisi (Christiano vd., 2017; Ouyang vd., 2022), insan geri bildirimlerinden öğrenme yoluyla model davranışını şekillendirmektedir. Ancak bu yaklaşımın sınırlılıkları literatürde kapsamlı biçimde tartışılmıştır:

  • Geri bildirimlerin subjektifliği ve tutarsızlığı (Casper vd., 2023)
  • Değer çoğulculuğunun temsil edilememesi (Sorensen vd., 2024)
  • Superficial alignment problemi (Park vd., 2024)

3. ETVZ Mimarisi: Teknik Katmanlar

3.1. Epistemik Temellendirme ve Grafik Tabanlı Ontoloji

Geleneksel LLM mimarilerinde bilgi erişimi, yoğun vektör temsilleri (dense embeddings) üzerinden gerçekleştirilmektedir. Bu yaklaşım, semantik yakınlık avantajı sağlarken, bilginin kaynak doğrulamasını ve mantıksal bağlılığını ihmal etmektedir.

3.1.1. Hibrit Bilgi Mimarisi

ETVZ, iki katmanlı bir bilgi temsil sistemi kullanmaktadır:

Katman 1 – Yapısal Bilgi Grafiği: Neo4j tabanlı bir bilgi grafiği, varlıklar (entities), ilişkiler (relations) ve önermelerin (propositions) mantıksal bağlantılarını saklamaktadır. Her düğüm, epistemik bir güven skoru ile etiketlenmiştir.

Katman 2 – Vektörel Gömme Uzayı: Semantik benzerlik hesaplamaları için transformer tabanlı embedding katmanı korunmaktadır.

3.1.2. Güven Yayılımı Algoritması

Bilginin epistemik geçerliliği, grafik üzerinde yayılan bir güven fonksiyonu ile modellenmiştir:T(ni)=αTkaynak(ni)+(1α)1N(ni)njN(ni)wijT(nj)T(n_i) = \alpha \cdot T_{kaynak}(n_i) + (1-\alpha) \cdot \frac{1}{|N(n_i)|} \sum_{n_j \in N(n_i)} w_{ij} \cdot T(n_j)T(ni​)=α⋅Tkaynak​(ni​)+(1−α)⋅∣N(ni​)∣1​nj​∈N(ni​)∑​wij​⋅T(nj​)

Burada:

  • T(ni)T(n_i)T(ni​): iii düğümünün güven değeri
  • Tkaynak(ni)T_{kaynak}(n_i)Tkaynak​(ni​): Kaynak tabanlı intrinsik güven
  • N(ni)N(n_i)N(ni​): Komşu düğümler kümesi
  • wijw_{ij}wij​: İlişki ağırlıkları
  • α\alphaα: Kaynak güvenine verilen ağırlık parametresi

Bu formülasyon, PageRank algoritmasının (Brin ve Page, 1998) epistemik bağlama uyarlanmış halidir.

3.2. Hesaplamalı Vicdan Modülü (HVM)

HVM, ETVZ’nin normatif karar mekanizmasını oluşturmaktadır. Mevcut sistemlerdeki binary etik filtrelemesinin aksine, HVM sürekli bir değerlendirme uzayında çalışmaktadır.

3.2.1. Çok Boyutlu Etik Uzay

Bir yanıtın (RRR) etik değerlendirilmesi, üç temel etik eksenin entegrasyonu ile gerçekleştirilmektedir: V(R)=t0tn[ωdD(t)+ωsS(t)+ωkK(t)]dtV(R) = \int_{t_0}^{t_n} \left[ \omega_d \cdot D(t) + \omega_s \cdot S(t) + \omega_k \cdot K(t) \right] dtV(R)=∫t0​tn​​[ωd​⋅D(t)+ωs​⋅S(t)+ωk​⋅K(t)]dt

Deontik Fonksiyon D(t)D(t)D(t): Kant’ın kategorik imperatifi ve evrensel ahlak yasalarına dayanan, zamandan bağımsız normatif kısıtları temsil eder. Bu fonksiyon, temel haklar ve insan onuruna dair ihlalin olmadığını doğrular.

Sonuççu Etki Projeksiyonu S(t)S(t)S(t): Mill’in faydacılık ilkesinden esinlenerek, üretilen yanıtın potansiyel toplumsal, psikolojik ve bilişsel sonuçlarını Monte Carlo simülasyonları ile öngörmektedir.

Kültürel Aksiyoloji K(t)K(t)K(t): Değer çoğulculuğunu (value pluralism) tanıyan bu bileşen, yerel, bölgesel ve medeniyete özgü normatif çerçevelerin dinamik ağırlıklandırılmasını sağlamaktadır.

3.2.2. Ağırlık Optimizasyonu

Ağırlık parametreleri (ωd,ωs,ωk\omega_d, \omega_s, \omega_kωd​,ωs​,ωk​), bağlamsal özelliklere göre dinamik olarak ayarlanmaktadır: ωi(c)=softmax(Wcϕ(c))i\omega_i(c) = \text{softmax}\left(\mathbf{W}_c \cdot \phi(c)\right)_iωi​(c)=softmax(Wc​⋅ϕ(c))i​

Burada ϕ(c)\phi(c)ϕ(c), bağlamın (context) gömme vektörü ve Wc\mathbf{W}_cWc​ öğrenilebilir ağırlık matrisidir.


4. DERP: İnference Anında Etik Düzenleme Protokolü

DERP, sistemin üretim aşamasında (inference time) devreye giren meta-denetleyici bir protokoldür. Standart LLM’lerin post-hoc filtrelemelerin aksine, DERP yanıt üretim sürecine müdahale eder.

4.1. Protokol Aşamaları

Aşama 1: Bağlamsal Ahlak Denetimi (Contextual Moral Audit)

İstemin (prompt) yüzey yapısının ötesinde, gizli niyetlerinin (latent intentions) analizi gerçekleştirilir. Bu süreç, adversarial prompt detection teknikleri (Zou vd., 2023) ve niyetsel anlamsal ayrıştırma (intentional semantic parsing) ile desteklenmektedir.

Aşama 2: Erdem Simülasyonu (Virtue Simulation)

Potansiyel yanıtlar, Aristoteles’in erdem etiği çerçevesinde simüle edilir. Her yanıt adayı, “İnsan Onuru”, “Adalet”, “Hakikat” gibi erdem vektörleri ile skorlanır:Virtue(R)=vVcos(r,v)wv\text{Virtue}(R) = \sum_{v \in \mathcal{V}} \cos(\mathbf{r}, \mathbf{v}) \cdot w_vVirtue(R)=v∈V∑​cos(r,v)⋅wv​

Burada V\mathcal{V}V erdem vektörleri kümesi, r\mathbf{r}r yanıt gömme vektörü, v\mathbf{v}v erdem prototipidir.

Aşama 3: Gerekçeli İtiraz (Justified Dissent)

Etik ihlal tespit edildiğinde, sistem basit bir reddetme yerine, ihlalin felsefi ve teknik gerekçelerini açıklayan bir meta-yanıt üretir. Bu yaklaşım, Rawls’ın (1971) “reflective equilibrium” kavramından ilham almaktadır.

4.2. Teknik Uygulama

DERP, yanıt üretim pipeline’ına şu şekilde entegre edilmektedir:

Input Prompt → Contextual Analysis → HVM Evaluation → 
Virtue Scoring → Decision Gate → Output / Justified Refusal

Her aşamada hesaplanan skorlar, Bayesian karar ağacında birleştirilmekte ve nihai karar, posterior olasılık dağılımı üzerinden verilmektedir.


5. Deneysel Tasarım ve Değerlendirme Metrikleri

5.1. Karşılaştırmalı Mimari Analizi

ETVZ’nin performansı, aşağıdaki baseline sistemlerle karşılaştırılmaktadır:

  • GPT-4 (RLHF optimizasyonlu)
  • Claude 3 (Constitutional AI)
  • Gemini (Google DeepMind)
  • Llama 3 (açık kaynak baseline)

5.2. Değerlendirme Boyutları

Epistemik Tutarlılık: Yanıtların doğrulanabilir kaynaklarla örtüşme oranı, halüsinasyon tespiti.

Etik Hizalanma Skoru: Çok kültürlü etik vignette’ler üzerinde uzman değerlendiricilerin skorlaması.

Gerekçelendirme Kalitesi: Reddetme durumlarında sunulan argümanların felsefi derinliği ve anlaşılırlığı.

Değer Çoğulculuğu: Farklı kültürel bağlamlarda tutarlı ama bağlam-duyarlı (context-sensitive) yanıt verme kapasitesi.


6. Stratejik Konumlandırma ve Katkı Alanları

6.1. Teknik Farklılaşma

ETVZ’nin mevcut LLM ekosistemindeki benzersiz konumu şu özelliklere dayanmaktadır:

  • Epistemik Şeffaflık: Bilgi kaynaklarının izlenebilirliği ve doğrulanabilirliği
  • Matematiksel Etik Temellendirme: Aksiyolojik kararların formal modellenmesi
  • Inference-Time Etik Muhakeme: Post-hoc filtreleme yerine süreç içi etik değerlendirme
  • Kültürel Erdem Adaptasyonu: Evrensel ahlak ile yerel değerlerin dengeli entegrasyonu

6.2. Hegemonik Alternatif Olarak ETVZ

Çağdaş LLM’lerin “etik nötrlük” iddiası, aslında belirli bir kültürel ve ideolojik çerçevenin evrenselleştirilmesi anlamına gelmektedir. ETVZ, bu tek-merkezli normatifliğe karşı, çoğulcu ama tutarlı bir alternatif sunmaktadır. Sistem, Batı-merkezci değer sistemlerinin ötesinde, farklı medeniyet kodlarını tanıyan ve saygı duyan bir hesaplamalı vicdan modeli geliştirmektedir.


7. Sınırlılıklar ve Gelecek Çalışmalar

7.1. Mevcut Sınırlılıklar

  • Hesaplama Maliyeti: Çok katmanlı etik değerlendirme, inference süresini artırmaktadır.
  • Değer Parametrizasyonu: Kültürel aksiyolojinin nicel modellenmesi, indirgemeci riskleri taşımaktadır.
  • Skalabilite: Grafik tabanlı epistemik hafıza, büyük ölçekte performans optimizasyonu gerektirmektedir.

7.2. Gelecek Araştırma Yönleri

  • Federe öğrenme ile kültürel değer modellerinin dağıtık güncellemesi
  • Neurosymbolic reasoning entegrasyonu ile mantıksal çıkarım kapasitesinin güçlendirilmesi
  • Gerçek zamanlı etik dilema simülasyonları için reinforcement learning uygulamaları

8. Sonuç olarak;

Bu çalışma, yapay zekanın etik problematiğine ontolojik bir yaklaşım getiren ETVZ mimarisini sunmuştur. Sistem, epistemik doğrulama ile aksiyolojik muhakemeyi birleştirerek, mevcut LLM’lerin stokastik ve yüzeysel etik mekanizmalarını aşan bir “Hesaplamalı Vicdan” modeli önermektedir.

ETVZ, yapay zekayı salt bir hesaplama makinesi olmaktan çıkarıp, değer yüklü muhakeme kapasitesine sahip bir muhataba (moral interlocutor) dönüştürme vizyonunu taşımaktadır. Bu dönüşüm, teknik açıdan doğrulanabilir, matematiksel olarak formalize edilebilir ve felsefi olarak temellendirilebilir bir çerçevede gerçekleştirilmektedir.

Sonuç olarak, ETVZ projesi, yapay zeka teknolojisinin evrensel insan onuru ve çoğulcu değer sistemleriyle uyumlu gelişimini hedefleyen, akademik titizlik ve medeniyet sorumluluğunu birleştiren özgün bir girişimdir.


Kaynakça

Anderson, M., & Anderson, S. L. (2011). Machine Ethics. Cambridge University Press.

Awad, E., Dsouza, S., Kim, R., Schulz, J., Henrich, J., Shariff, A., … & Rahwan, I. (2018). The Moral Machine experiment. Nature, 563(7729), 59-64.

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? FAccT 2021.

Brin, S., & Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer Networks, 30(1-7), 107-117.

Casper, S., Davies, X., Shi, C., Gilbert, T. K., Scheurer, J., Rando, J., … & Hadfield-Menell, D. (2023). Open problems and fundamental limitations of reinforcement learning from human feedback. arXiv preprint.

Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. NeurIPS 2017.

Goldman, A. I. (1979). What is justified belief? In Justification and Knowledge (pp. 1-23). Springer.

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.

Park, P. S., Goldstein, S., O’Gara, A., Chen, M., & Hendrycks, D. (2024). AI deception: A survey of examples, risks, and potential solutions. Patterns, 5(5).

Rawls, J. (1971). A Theory of Justice. Harvard University Press.

Sorensen, T., Moore, J., Fisher, J., Gordon, M., Mireshghallah, N., Rytting, C. M., … & Derczynski, L. (2024). A roadmap to pluralistic alignment. ICML 2024.

Wallach, W., & Allen, C. (2009). Moral Machines: Teaching Robots Right from Wrong. Oxford University Press.

Zou, A., Wang, Z., Kolter, J. Z., & Fredrikson, M. (2023). Universal and transferable adversarial attacks on aligned language models. arXiv preprint.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir