Tuesday 8 May 2018

Bir Türkçe dil parçalayıcısının (language parser) doğruluğu


Bir Türkçe dil parçalayıcısının (language parser) doğruluğu nasıl ölçülmeli?

HATA ORANLARI:
1-      Öncelikle morpholojik doğruluk hatalı kelime sayısının toplam kelime sayısına oranı olarak belirtilmeli.
2-      Özne, nesne hatası hata sayısının toplam cümle sayısına oranı olarak belirtilmeli.
3-      Bu alanda çalışma yapan kişilerin ortak olarak kabul ettikleri hata belirtme yöntemleri olmalı.

DENEME METİNLERİ:
1-      %82 gibi doğruluk rakamları verirken buna ilişkin test metinleri ve hata bildirim yaklaşımları da açıklanmalıdır.  Bu konuda öncül niteliği taşıyan makalelerin Türkçe’nin özelliklerine değinmesi doğal fakat bilimsel açıdan yalnızca kullanılan yöntemlerin anlatılması yeterli değil.  Nitekim aradan 10 yıllar geçtiği halde bu çalışmaların pratik ya da ticari sonuçlarının olmaması şaşırtıcı değil.
2-      Test metinleri ortak bir corpusta Türkçe metinler genel ve özel konular için toplanmalı.  Böylece farklı araştırmacıların aynı test datası üzerinde deney yapıp sonuçları karşılaştırması mümkün olabilir.

JARGON:
1-      Program içinde kullanılan ve parser çıktısında gözüken ‘isim, sıfat, Tamlayan, İyelik’ vb isimler ortak bir referans oluşturularak standartlaştırılmalı.

PERFORMANS:
1-      Performans ölçümü için standartlar belirlenmeli, test metinleri oluşturulmalı.