Eşdizimlilik (Collocation) ve Yapay Zeka: Kelimelerin Arkadaşlığı

İnsan dilini öğrenirken farkında olmadan edindiğimiz en önemli dilbilimsel yeteneklerden biri, kelimelerin birbiriyle olan doğal ortaklıklarını kavramaktır. Dilbilimde bu fenomene Eşdizimlilik (Collocation) veya kelimelerin arkadaşlığı denir. Kültürel ve tarihsel süreçler içinde bazı kelimeler, dildeki diğer kelimelerle yan yana gelmeye dair çok güçlü bir eğilim geliştirirler. Örneğin Türkçede "çay demlemek" deriz, "çay pişirmek" ifadesi gramer olarak doğru olsa da kulağı tırmalar. Benzer şekilde İngilizcede "fast food" yerleşik bir kalıpken, aynı anlama gelen "quick food" dilsel olarak yapay durur. 20. yüzyılın en önemli dilbilimcilerinden J. R. Firth bu durumu şu meşhur sözüyle özetlemiştir: "Bir kelimeyi, arkadaşlık ettiği diğer kelimelerden tanırsınız."

Günümüzde yapay zeka ve büyük dil modellerinin (LLM) çalışma mantığına derinlemesine baktığımızda, bu sistemlerin insan dilini taklit edebilme becerilerinin arkasında yatan asıl sırrın, Firth'ün bahsettiği bu "kelime arkadaşlıklarını" devasa bir istatistiksel ölçekte haritalandırmak olduğunu görürüz. Yapay zeka dili biyolojik olarak anlamaz; o, kelimelerin eşdizimlilik olasılıklarını hesaplayan devasa bir matematik makinesidir.

Sonraki Kelime Tahmini ve Koşullu Olasılık

Modern yapay zeka modelleri mimari düzeyde kabaca şu temel soruya cevap ararlar: "Bana verilen kelime dizisinden sonra gelme olasılığı en yüksek olan sonraki kelime (token) hangisidir?" İşte bu süreç, dilbilimdeki eşdizimlilik kavramının doğrudan bilgisayar bilimine tahvil edilmiş halidir.

Model eğitilirken internetteki trilyonlarca cümle dizilimini inceler. Algoritma, "şiddetli" kelimesinden sonra "yağmur" veya "fırtına" kelimelerinin gelme sıklığının, "şiddetli masa" veya "şiddetli ağaç" gelme sıklığından milyonlarca kat daha fazla olduğunu kaydeder. Yapay zekanın sinir ağlarında (neural networks) oluşan bu olasılık matrisleri, kelimelerin anlamsal ve eşdizimsel haritasını (word embeddings) çıkarır. Model bir çıktı üretirken aslında anlamlı bir cümle kurmaya çalışmaz; o ana kadar yazdığı kelimelerin arkadaşlık örüntülerine bakarak, koşullu olasılık hesabına göre bir sonraki en mantıklı kelimeyi seçer. Bu yönüyle LLM'ler, dildeki eşdizimliliği en uç noktada uygulayan gelişmiş istatistiksel motorlardır.

Eşdizimliliğin Yapay Zekadaki Sınırları: Aşırı Düzenlileştirme (Over-Regularization)

Yapay zekanın tamamen eşdizimlilik ve olasılık tabanlı çalışması, dil çıktılarında kendine has bazı kusurları ve kısıtlamaları da beraberinde getirir. Bunlardan en büyüğü Aşırı Düzenlileştirme (Over-Regularization) veya basitleştirmedir.

Modeller her zaman istatistiksel olarak en güvenli, en sık tekrarlanan ve en popüler kelime arkadaşlıklarını seçme eğilimindedir. Bu durum, günlük standart metinlerde veya teknik çevirilerde pürüzsüz sonuçlar verse de, iş edebi yaratıcılığa, avangart şiire veya sıra dışı metaforlara geldiğinde yapay zekayı bir klişe makinesine dönüştürebilir. Bir şair bilerek ve isteyerek eşdizimlilik kurallarını yıkıp kelimeleri daha önce hiç duyulmamış arkadaşlıklarla yan yana getirebilir (Örn: İkinci Yeni şiirindeki "gözleri gökyüzü kokan kadın" gibi ifadeler). Yapay zeka ise olasılık uzayında bu tarz sıra dışı sapmaları "hata" veya "düşük olasılık" olarak algılayarak metni daha ortalama bir dile çekme, yani evcilleştirme eğilimi gösterir.

Deyimler, Kalıplar ve RAG Çözümleri

Eşdizimliliğin en katılaştığı ve esnetilemez hale geldiği yerler deyimler ve atasözleridir. Deyimler, kelimelerin bir araya gelerek kendi literal (gerçek) anlamlarından tamamen sıyrılıp yepyeni bir anlamsal bütünlük oluşturduğu yapılardır. (Örn: "Kulak kabartmak" veya "Etekleri tutuşmak").

Yapay zeka modelleri eğer bağlam penceresinde yeterli veriye sahip değilse, bu kalıplaşmış eşdizimlilikleri parçalayarak harfiyen yorumlama hatasına düşebilirler. Bu durum özellikle çok dilli sözlük ve çeviri sistemlerinde ciddi anlam kayıpları yaratır. Glossa platformunun mimarisinde bu sorunu aşmak için RAG (Retrieval-Augmented Generation) altyapısını kullanıyoruz. Kullanıcı sisteme bir deyim veya kalıplaşmış ifade girdiğinde, modelin sadece kendi olasılık hesaplarına güvenmesini engelliyoruz; öncelikle veritabanımızdaki net eşdizimlilik (collocation) ve deyim matrislerini modele birer katı kural (context) olarak sunarak, algoritmik halüsinasyonların önüne geçiyoruz.

Sonuç: Kelimelerin Bağını Doğru Kurgulamak

J. R. Firth'ün dilbilim dünyasına bıraktığı miras, bugün yapay zeka çağının veri mühendisliği stratejilerini şekillendiriyor. Kelimeler tek başlarına kuru birer sembolden ibarettir; onlara asıl gücünü, karakterini ve derinliğini veren şey, yanlarına seçtikleri arkadaşlarıdır.

Bizler yapay zeka asistanlarını eğitirken, duello algoritmalarını kurgularken ve 12 dilli çapraz sözlük veritabanlarını tasarlarken kelimeleri tekil hücreler olarak değil, bu eşdizimsel bağlarıyla birlikte sisteme işlemeliyiz. Yapay zeka kelimelerin arkadaşlık frekanslarını hesaplamada ne kadar başarılı olursa, Glossa kullanıcılarına sunacağımız dil deneyimi de o derece doğal, akıcı ve insani olacaktır. Geleceğin dil teknolojisi, kelimelerin arasındaki bu görünmez anlamsal köprüleri en doğru şekilde kodlayanların eseri olacaktır.