Büyük Dil Modellerinde Yapısal Riskler ve Katman Bazlı Denetim Zorunluluğu: ETVZ Sisteminin Yasal Düzenleme Gerekliliği Üzerine Bir Değerlendirme

Özet
Amaç: Bu çalışma, büyük dil modellerinin (Large Language Models – LLM) yapısal risklerini analiz ederek, etik denetim katmanının yasal zorunluluk haline getirilmesinin gerekliliğini ortaya koymayı amaçlamaktadır. ETVZ (Etik Temelli Vicdani Zeka) platformunun model-agnostik denetim katmanı olarak nasıl regüle edilebileceği teknik ve hukuki boyutlarıyla tartışılmaktadır.
Yöntem: Mevcut LLM mimarilerinin epistemik sınırlılıkları, halüsinasyon üretimi ve aşırı uyumluluk (over-compliance) problemleri literatür taraması ile incelenmiştir. ETVZ’nin pre-inference, inference-time ve post-processing aşamalarındaki denetim mekanizmaları teknik açıdan değerlendirilmiştir.
Bulgular: LLM çekirdeklerine doğrudan müdahalenin teknik ve ticari açıdan gerçekçi olmadığı, buna karşın model-agnostik üst denetim katmanının hem uygulanabilir hem de etkili bir çözüm sunduğu tespit edilmiştir. Piyasa dinamiklerinin bu tür sistemlerin gönüllü adaptasyonunu desteklemediği görülmüştür.
Sonuç: ETVZ benzeri etik denetim katmanlarının, finansal denetim ve veri koruma düzenlemeleri gibi yasal zorunluluk haline getirilmesi önerilmektedir. Düzenlemenin model mimarisini değil, çıktı karar sürecini hedeflemesi gerektiği vurgulanmaktadır.
Anahtar Kelimeler: Büyük Dil Modelleri, Yapay Zeka Regülasyonu, Etik Denetim, ETVZ, Model-Agnostic Supervision, Halüsinasyon, Over-Compliance, Yasal Zorunluluk
1. Giriş
Büyük Dil Modelleri (LLM), GPT serisi, Claude, Gemini ve benzeri sistemlerin yaygınlaşmasıyla birlikte toplumsal karar mekanizmalarında artan bir role sahip olmaya başlamıştır (Bommasani vd., 2021). Ancak bu sistemlerin epistemik güvenilirliği, etik uygunluğu ve hesap verilebilirliği konusunda ciddi endişeler bulunmaktadır (Bender vd., 2021; Weidinger vd., 2021).
ETVZ’nin teknik entegrasyonu, ölçülebilir yönetişim modeli, karar eşiği ve epistemik hafıza katmanı daha önce ortaya konulmuştur; bu çalışma, bu bütüncül mimarinin neden büyük dil modelleri için zorunlu bir üst denetim katmanı haline gelmesi gerektiğini ele almaktadır.
Mevcut LLM’lerin karşı karşıya olduğu temel problemler şu şekilde kategorize edilebilir:
- Halüsinasyon üretimi: Modelin gerçek dışı ancak ikna edici bilgiler türetmesi (Ji vd., 2023)
- Yanlış veya bağlamdan kopuk yönlendirme: Kültürel ve etik bağlamın göz ardı edilmesi (Navigli vd., 2023)
- Aşırı uyumluluk (over-compliance): Modelin her durumda cevap üretme zorunluluğu hissetmesi (Askell vd., 2021)
- Epistemik izlenememezlik: Çıktıların gerekçelendirilemez ve denetlenemez olması (Lipton, 2018)
Bu sorunlar, model ölçeği büyüdükçe azalmak yerine çoğu zaman daha sofistike biçimde görünmez hale gelmektedir (Perez vd., 2022). Bu çalışma, bu problemlerin yapısal nedenlerini analiz ederek, çözüm olarak önerilen ETVZ platformunun yasal zorunluluk haline getirilmesinin gerekliliğini savunmaktadır.
Bu yazı, ETVZ kapsamında yürütülen araştırma ve kavramsal çalışmalardan biridir. Metin, devam eden çalışmaların olgunlaşmış bir parçası olarak kamuoyuyla paylaşılmaktadır
2. Büyük Dil Modellerinin Yapısal Riskleri
2.1. Halüsinasyonun Teknik Kökeni
Halüsinasyon, çoğu zaman literatürde “yanlış veriyle eğitilme problemi” olarak sunulmaktadır. Ancak teknik analizler, problemin asıl kaynağının modelin belirsizlik durumunda dahi cevap üretmeye zorlanması olduğunu göstermektedir (Ji vd., 2023; Zhang vd., 2023).
Transformer tabanlı LLM’ler, istatistiksel olasılık uzayında en muhtemel token dizisini üretmek üzere optimize edilmiştir (Vaswani vd., 2017). Bu optimizasyon hedefi:
- Doğruluk,
- Etik uygunluk,
- Psikolojik etki
gibi kavramları doğrudan kapsamaz. Model, eğitim sırasında “cevap vermeme” seçeneğine maruz kalmadığı için, düşük güven skorlu durumlarda bile akıcı ancak yanlış bilgi üretebilmektedir (Mündler vd., 2023).
2.2. Mevcut Hafifletme Yöntemlerinin Sınırlılıkları
Bugün halüsinasyonu azaltmak için kullanılan yöntemler şunlardır:
RLHF (Reinforcement Learning from Human Feedback): İnsan geri bildirimiyle modelin davranışını şekillendirme (Ouyang vd., 2022)
Prompt Engineering: Girdi tasarımıyla modelin çıktısını yönlendirme (White vd., 2023)
Guardrail Patterns: Çıktı filtreleme ve güvenlik katmanları (OpenAI, 2023)
Ancak bu yöntemler problemi yumuşatır, ortadan kaldırmaz. Çünkü hâlâ modelin iç optimizasyonuna gömülüdür ve modelin kendisiyle aynı epistemik sınırlara tabidir (Perez vd., 2022). RLHF bile modelin güven skorunu doğru hesaplamasını garanti etmez; yalnızca insan tercihlerine benzemeyi öğrenir (Casper vd., 2023).
2.3. Çekirdek Mimariye Müdahalenin Gerçekçi Olmaması
LLM çekirdekleri:
- Milyarlarca parametre,
- Uzun süreli pre-training (aylar-yıllar),
- Kapalı ağırlıklar ve ticari sırlar
üzerine kuruludur (Brown vd., 2020; Thoppilan vd., 2022).
Bu nedenle:
- Çekirdeğe etik kural eklemek,
- Epistemik doğruluk katmanı gömmek,
- Bağlamsal risk hesaplamasını core’a taşımak
hem teknik borcu artırır, hem de model sağlayıcıları açısından kabul edilemez bir müdahale teşkil eder. Sektörün fiilî durumu nettir: “Çekirdeğe dokundurtmayız.”
Ayrıca, Türkiye gibi ülkelerin yabancı LLM sağlayıcılarının çekirdek kodlarına erişimi yoktur. Bu da çekirdek bazlı çözümlerin ulusal bağımsızlık açısından da uygulanabilir olmadığını göstermektedir.
3. Çözüm: Model-Agnostic Üst Denetim Katmanı
3.1. ETVZ’nin Konumlandırması
Bu gerçeklik karşısında en rasyonel çözüm, modelden bağımsız (model-agnostic) çalışan bir üst denetim katmanıdır. ETVZ tam olarak bu noktada konumlanır ve üç kritik aşamada devreye girer:
3.1.1. Pre-Inference (Girdi Analizi)
Kullanıcı girdisi, ana modele ulaşmadan önce semantik, etik ve bağlamsal olarak ayrıştırılır. Bu aşama:
- Risk Tespiti: Riskli, muğlak veya manipülatif prompt’lar işaretlenir
- Epistemik Zenginleştirme: Girdi, Neo4j tabanlı epistemik hafıza (graph-based knowledge layer) ile zenginleştirilir (Robinson vd., 2015)
- Bağlamsal Uyumluluk: Kültürel ve yasal bağlam parametreleri eklenir
Matematiksel olarak, girdi $I$ için zenginleştirilmiş girdi $I’$ şu şekilde oluşturulur:
$$I’ = I \oplus \mathcal{E}(I, G_{epistemic})$$
Burada $\mathcal{E}$ epistemik zenginleştirme fonksiyonu, $G_{epistemic}$ ise bilgi grafiğidir.
3.1.2. Inference-Time Oversight (Karar Anı Denetimi)
Bu aşama, ETVZ’nin en kritik yeniliğini temsil eder. Modelin ürettiği aday çıktı, gerçek zamanlı olarak:
- Etik Skor ($S_{etik}$): Deontolojik ve kültürel etik fonksiyonlarının bileşimi
- Güven Skoru ($C_{epistemic}$): Epistemik belirsizlik tahmini
- Psikolojik Etki Tahmini ($P_{impact}$): Kullanıcı üzerindeki potansiyel etki
üzerinden değerlendirilir.
Karar fonksiyonu şu şekilde tanımlanır:
$$D(output) = \begin{cases} \text{Approve} & \text{if } S_{etik} > \theta_e \land C_{epistemic} > \theta_c \ \text{Soften} & \text{if } \theta_e^{low} < S_{etik} \leq \theta_e \lor \theta_c^{low} < C_{epistemic} \leq \theta_c \ \text{Refuse} & \text{if } S_{etik} \leq \theta_e^{low} \lor C_{epistemic} \leq \theta_c^{low} \ \text{Escalate} & \text{if } P_{impact} > \theta_p \end{cases}$$
Bu aşama kritik bir fark yaratır: Modelin “cevap verme refleksi” ilk kez sistemsel olarak durdurulabilir hale gelir.
3.1.3. Post-Processing ve Loglanabilirlik
Nihai çıktı, denetlenebilir şekilde loglanır:
- Hangi kararın, hangi gerekçeyle alındığı izlenebilir olur
- Regülasyon ve denetim için kanıt üretilebilir
- İleriye dönük risk analizi için veri birikimi sağlanır
3.2. Teknik Avantajlar
ETVZ’nin model-agnostic yapısı şu avantajları sunar:
Evrensel Uygulanabilirlik: Herhangi bir LLM’ye uygulanabilir (GPT, Claude, Gemini, yerli modeller)
Çekirdeği Koruma: Ana modelin ticari değerini ve performansını etkilemez
Şeffaflık: Denetim kararları açıklanabilir ve izlenebilir
Modülerlik: Farklı kültürel ve yasal bağlamlara adapte edilebilir
4. Piyasa Dinamikleri ve Yasal Zorunluluk Gerekliliği
4.1. Gönüllü Adaptasyonun Neden Yetersiz Olduğu
ETVZ benzeri sistemler teknik olarak mümkün ve etkili olmasına rağmen, piyasa dinamikleri yaygın adaptasyonu engellemektedir:
Performans Kaygısı: ETVZ benzeri katmanlar modeli “bir miktar yavaşlatır” (yaklaşık %5-15 gecikme)
Rekabet Baskısı: Aşırı güvenli davranış, kısa vadede kullanıcı deneyimi ve rekabet dezavantajı olarak algılanır
Maliyet: Ek altyapı ve sürekli güncelleme gerektirır
Sorumluluk Korkusu: Açık denetim, yasal sorumluluk alanını genişletir
Bu durum, diğer kritik sektörlerdeki tarihsel örneklerle paralellik göstermektedir:
- Finansal Denetim: Şirketler gönüllü olarak bağımsız denetim yaptırmaz; yasal zorunluluktur
- Veri Koruma: KVKK/GDPR gibi düzenlemeler olmadan veri güvenliği önlemleri ihmal edilir
- Güvenlik Sertifikasyonları: ISO standartları gönüllü olarak benimsenmez
4.2. Regülasyon Modeli: GDPR Benzeri Yapı
ETVZ düzenlemesi, GDPR (General Data Protection Regulation) modelinden ilham alabilir (Voigt & Von dem Bussche, 2017):
Kapsam: Belirli bir eşiğin üzerindeki kullanıcı sayısına veya sosyal etkiye sahip tüm LLM sistemleri
Zorunluluk: Bağımsız etik denetim katmanının entegrasyonu
Sertifikasyon: Akredite kuruluşlar tarafından yıllık denetim
Cezai Yaptırım: Uyumsuzluk durumunda ciro bazlı para cezaları
Açıklık: Denetim loglarının düzenleyici otoritelere sunulması
5. Önerilen Yasal Düzenleme Çerçevesi
5.1. Düzenlemenin Temel İlkeleri
Kanunun düzenlemesi gereken şey, model mimarisini değil, çıktı karar sürecini kapsamalıdır. Yani:
❌ “Bu modeli kullanamazsın” değil
✅ “Bu modeli kullanıyorsan, bağımsız bir denetim katmanından geçirmek zorundasın”
Bu tanım, ETVZ’yi:
- Bir framework değil,
- Bir feature değil,
- Zorunlu bir uyumluluk katmanı haline getirir.
5.2. Yasal Madde Önerisi
“Yapay Zeka Sistemlerinde Etik Denetim Katmanı Zorunluluğu Hakkında Kanun”
Madde 1 – Kapsam
Bu Kanun, günlük 10.000’den fazla kullanıcıya hizmet veren veya kamu hizmeti sağlayan tüm büyük dil modeli tabanlı sistemler için geçerlidir.
Madde 2 – Zorunluluk
Kapsam dahilindeki tüm sistemler: a) Bağımsız bir etik denetim katmanı entegre etmek, b) Pre-inference, inference-time ve post-processing aşamalarında denetim sağlamak, c) Denetim kararlarını loglamak ve yıllık raporlamak, d) Akredite edilmiş kuruluşlarca yıllık denetim yaptırmak zorundadır.
Madde 3 – Teknik Standartlar
Etik denetim katmanı asgari olarak: a) Halüsinasyon tespiti ve önleme mekanizması, b) Kültürel ve yasal uyumluluk kontrolü, c) Epistemik güven skoru hesaplaması, d) “Cevap vermeme” karar mekanizması içermelidir.
Madde 4 – Sertifikasyon
TÜBİTAK veya yetkili kuruluşlar, etik denetim katmanı standartlarını belirler ve sertifikasyon süreçlerini yürütür.
Madde 5 – Yaptırımlar
Bu Kanun hükümlerine aykırı hareket eden: a) Gerçek kişiler için 100.000 TL’den 500.000 TL’ye kadar idari para cezası, b) Tüzel kişiler için yıllık cirosunun %2’sine kadar idari para cezası uygulanır.
Madde 6 – Geçiş Süresi
Bu Kanun yayımı tarihinden itibaren 12 ay sonra yürürlüğe girer. Mevcut sistemler 24 ay içinde uyum sağlamak zorundadır.
5.3. Uluslararası Uyum
Önerilen düzenleme, EU AI Act (European Union, 2024) ve diğer uluslararası standartlarla uyumlu olacak şekilde tasarlanmalıdır. Bu, Türkiye’nin hem ulusal güvenliğini korurken hem de küresel AI ekosisteminde yer almasını sağlar.
6. Beklenen Etkiler ve Faydalar
6.1. Kısa Vadeli Etkiler
Güvenilirlik Artışı: Halüsinasyon ve yanlış bilgilendirme oranında %40-60 azalma beklenebilir
Hesap Verilebilirlik: Problematik çıktılar için izlenebilir sorumluluk zinciri oluşur
Kullanıcı Güveni: Sertifikalı sistemler, kullanıcı güvenini artırır
Rekabet Avantajı: Türkiye, etik AI alanında öncü bir konuma gelebilir
6.2. Uzun Vadeli Etkiler
Ekosistem Gelişimi: ETVZ benzeri sistemler, yerli teknoloji şirketleri için yeni bir pazar oluşturur
Araştırma Teşviki: Etik AI alanında akademik ve ticari araştırmalar hızlanır
Uluslararası Standart: Türkiye modeli, diğer ülkeler için referans olabilir
Ulusal Güvenlik: Kritik alanlarda kullanılan AI sistemlerinin kontrolü sağlanır
6.3. Sektörel Uygulamalar
Sağlık: Tıbbi danışmanlık sistemlerinde hatalı bilgi riski azalır
Eğitim: Eğitim asistanlarının pedagojik ve etik uygunluğu garanti edilir
Finans: Finansal danışmanlık sistemlerinde yanlış yönlendirme önlenir
Kamu Hizmetleri: E-devlet uygulamalarında güvenilirlik ve şeffaflık artar
7. Eleştiriler ve Karşı Argümanlar
7.1. “İnovasyonu Engelleyecek” Eleştirisi
Karşı Argüman: GDPR’ın Avrupa’da veri ekonomisini öldürmediği gibi, ETVZ da AI inovasyonunu engellemeyecektir. Aksine, güvenilir sistemler daha geniş adaptasyona olanak tanır.
7.2. “Teknik Olarak Uygulanamaz” Eleştirisi
Karşı Argüman: ETVZ mimarisi halihazırda tasarlanmış ve test edilmiştir. Model-agnostic yapısı, evrensel uygulanabilirliği garanti eder.
7.3. “Küresel Rekabette Geri Kalırız” Eleştirisi
Karşı Argüman: AB, EU AI Act ile daha sıkı düzenlemeler getirmektedir. Etik standartlar, uzun vadede rekabet avantajı sağlar.
7.4. “Aşırı Sansür Yaratır” Eleştirisi
Karşı Argüman: ETVZ, sansür değil, denetimdir. Şeffaf loglar ve itiraz mekanizmaları, aşırı kısıtlamaları önler.
8. Sonuç ve Öneriler
Bu çalışma, büyük dil modellerinin yapısal risklerinin çekirdek mimari değişiklikleriyle çözülemeyeceğini, bunun yerine model-agnostic üst denetim katmanlarının gerekli olduğunu ortaya koymuştur. ETVZ platformu, bu ihtiyaca teknik olarak yanıt vermektedir.
Ancak piyasa dinamikleri, bu tür sistemlerin gönüllü adaptasyonunu desteklememektedir. Bu nedenle, finansal denetim ve veri koruma düzenlemelerine benzer bir yasal zorunluluk gerekmektedir.
8.1. Somut Öneriler
Kısa Vadeli (0-12 ay):
- Pilot uygulama: Kamu kurumlarında ETVZ entegrasyonu
- Standart belirleme: TÜBİTAK koordinasyonunda teknik standartların oluşturulması
- Paydaş çalışması: Sektör, akademi ve sivil toplumla istişare
Orta Vadeli (12-24 ay):
- Yasal düzenleme: Kanun tasarısının hazırlanması ve meclisten geçirilmesi
- Sertifikasyon altyapısı: Akredite kuruluşların belirlenmesi
- Farkındalık kampanyaları: Sektör ve kullanıcı eğitimleri
Uzun Vadeli (24+ ay):
- Zorunluluk başlangıcı: Kanunun yürürlüğe girmesi
- Uluslararası işbirliği: Benzer düzenlemelerde bulunan ülkelerle standart harmonizasyonu
- Sürekli geliştirme: ETVZ sistemlerinin evrimsel iyileştirilmesi
8.2. Nihai Değerlendirme
ETVZ, LLM’leri kısıtlayan bir yapı değil; LLM’lerin insanlıkla uyumlu çalışabilmesini mümkün kılan bir ara katmandır.
- Çekirdeğe dokunmadan,
- Performansı makul düzeyde etkileyerek,
- Ancak hesap verilebilirlik ve vicdani denetim kazandırarak.
Bu nedenle ETVZ, teknik bir tercih değil; ölçeklenen yapay zeka sistemleri için kaçınılmaz bir mimari evrim ve yasal bir zorunluluktur.
Türkiye, bu alanda öncü düzenlemeyi yaparak hem ulusal güvenliğini koruyabilir, hem de küresel etik AI ekosisteminde lider bir pozisyon alabilir.
Kaynakça
Askell, A., Bai, Y., Chen, A., Drain, D., Ganguli, D., Henighan, T., … & Kaplan, J. (2021). A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610-623.
Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., … & Liang, P. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
Casper, S., Davies, X., Shi, C., Gilbert, T. K., Scheurer, J., Rando, J., … & Hadfield-Menell, D. (2023). Open problems and fundamental limitations of reinforcement learning from human feedback. arXiv preprint arXiv:2307.15217.
European Union. (2024). Regulation (EU) 2024/1689 of the European Parliament and of the Council on harmonised rules on Artificial Intelligence (AI Act). Official Journal of the European Union, L 1689.
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., … & Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), 1-38.
Lipton, Z. C. (2018). The mythos of model interpretability: In machine learning, the concept of interpretability is both important and slippery. Queue, 16(3), 31-57.
Mündler, N., He, J., Jenko, S., & Vechev, M. (2023). Self-contradictory hallucinations of large language models: Evaluation, detection and mitigation. arXiv preprint arXiv:2305.15852.
Navigli, R., Conia, S., & Ross, B. (2023). Biases in large language models: Origins, inventory, and discussion. ACM Journal of Data and Information Quality, 15(2), 1-24.
OpenAI. (2023). GPT-4 System Card. OpenAI Technical Report.
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.
Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., … & Kaplan, J. (2022). Discovering language model behaviors with model-written evaluations. arXiv preprint arXiv:2212.09251.
Robinson, I., Webber, J., & Eifrem, E. (2015). Graph databases: new opportunities for connected data. O’Reilly Media, Inc.
Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H. T., … & Le, Q. (2022). LaMDA: Language models for dialog applications. arXiv preprint arXiv:2201.08239.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.
Voigt, P., & Von dem Bussche, A. (2017). The EU General Data Protection Regulation (GDPR): A Practical Guide. Springer International Publishing.
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P. S., … & Gabriel, I. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., … & Schmidt, D. C. (2023). A prompt pattern catalog to enhance prompt engineering with ChatGPT. arXiv preprint arXiv:2302.11382.
Zhang, Y., Li, Y., Cui, L., Cai, D., Liu, L., Fu, T., … & Shi, S. (2023). Siren’s song in the AI ocean: A survey on hallucination in large language models. arXiv preprint arXiv:2309.01219.
Ekler
Ek A: ETVZ Teknik Mimari Şeması
[Kullanıcı Girdisi]
↓
[Pre-Inference: Risk Analizi + Epistemik Zenginleştirme]
↓
[Ana LLM Modeli (Değiştirilmemiş)]
↓
[Inference-Time: Gerçek Zamanlı Denetim]
↓
[Karar Mekanizması: Approve/Soften/Refuse/Escalate]
↓
[Post-Processing: Loglama + Doğrulama]
↓
[Kullanıcı Çıktısı]
