Tuesday 20 May 2014

LANGANA-E İngilizce cümle parçalayıcısında son gelişmeler

Güzel haber!  LANGANA-e İngilizce parser projemde WEBSTER ingilizce sözlükten parse ile kelime tiplerini ayırma çalışmamda
yaklaşık 60 bin kelime ve yaklaşık 470 bin sözlük saturuna ulaştım.  WEBSTER sözlüğün tümü 1 milyon satır.

Çalışmamın sonuçlarını SOURCE-FORGE'ta yayınlamaya devam ediyorum.
https://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/

Bu çalışmanın önemi İngilizce'de NLP uygulaması olarak yapılacak bütün çalışmalar kelime tiplerine ihtiyaç duyar.
Sanıyorum, yaptığım kelime tipi çalışması bir çok kişinin işine yarayacak.

Çalışmam tamamlandıktan sonra, 100 bin satırlık bir kısmını eksik olarak yayınlayıp, ilgilenenlerin e-mail ile
başvurmalarını ve kullanım amaçlarının ticari olmamasını rica edeceğim.

Ali R+

Not: Türkçe'de ÖZNE - NESNE ayrımı umduğumun çok üstünde zorluklar içeriyormuş.  Sağlam ama yavaş bir ilerleme ile
tek nesen/özne içeren fiilimsi/fiil gruplarında ayrım yapabiliyorum.  Bir örnek:

SENTENCE( SUB(
730 0 ben begso ending-ext=null
730 1 kabadayılık
730 2 tasla yan ------------adjectiveFromVerb type=-i
730 3 ufak
730 4 tefek
730 5 yapıd a
730 6 insan ları begso ending-ext=ları
730 7 çok
730 8 gör düm --------------------verbExt type=-i
.END-SENTENCE)
730 9


Process structure*****************************

;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
SENTENCE( SUB(
730 0 ben begso ending-ext=null
730 1 kabadayılık --------------------verbRoot type=null #endSO=1 #punct=0 #conj=0
730 2 tasla yan ------------adjectiveFromVerb type=-i #endSO=1 #punct=0 #conj=0

---------------------------------------------Phenemonon List
phenom data[1]=0 ben null tasla yan -i ÖZNE ö ö ö genel3--->MULTI CONJ=1 0 0


;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
730 3 ufak
730 4 tefek
730 5 yapıd a
730 6 insan ları begso ending-ext=ları
730 7 çok --------------------verbRoot type=null #endSO=1 #punct=0 #conj=0
730 8 gör düm --------------------verbExt type=-i #endSO=1 #punct=0 #conj=0

---------------------------------------------Phenemonon List
phenom data[1]=6 insan ları gör düm -i--->MULTI CONJ=1 0 0
 NESNE -ii-ii-ii-ii-ii-ii-ii-ii-ii