Artifical Intelligence
nekur.lv vajadzībām pētu iespēju darboties ar latviešu valodu bez vārdnīcas, jo mēs jau zinām, kā raksta blogeri un cik daudz tiek izmantoti jaunvārdi (ij oficiāli, ij neoficiāli). Uzģenerēt diezgan ticamu vārdnīcu pēc palielāka teksta apjoma un to regulāri papildināt ir vienkārši. Tur ir diezgan primitīva leksikoloģiskā analīze ar ne pārāk viltīgu algoritmu (vienkāršots piemērs te). Ja izdodās piešķilt arī darbības vārdus, viss aiziet jūriņā.
Tālāk jau ir diezgan vienkārši - mums ir teikumu daļas struktūra. Teiksim, vienkāršots variants - “lietvārds lietvārds”. Tālāk jau mēs varam pēc iepriekšējas analīzes noteikt, kādā locījumā katrs no tiem ir. Ja pirmais ir ģenitīvā, tad tā ir piederība. Un ir skaidrs, ka “mašīnas motors” ir pilnīgi noteikti analizējams jēdziens. Ja tas ir citā locījumā, tad tas visticamākais ir īpašības vārds. Kas arī ir analizējams moments.
Nu, un tālāk jau viss bumbās. Mācāmies, izvērtējot ticamības, salīdzinot, veidojot saites, utt. Vārdu sakot - darbs, ko tur darīt, ir diezgan apjomīgs, taču pamatbūtība - latviešu valodas semantiskā un leksikoloģiskā analīze (ar zināmu kļūdas procentu) BEZ vārdnīcas palīdzības ir iespējama.
Ā, un paldies elfzam un Gobam par idejām un iespēju ar viņiem dalīties priekā par procesa laikā gūtajām atklāsmēm un sasniegumiem :)
cipis
2007. gada 30. oktobrī, plkst. 17:02
Nebiju aizdomājies.. izskatās gandrīz vienkārši :)
Taustiņklabeklis
2007. gada 30. oktobrī, plkst. 17:06
Ar sarežģītākiem vārdiem tomēr ir problēmas,
... bildi ...bildē... ...bildšu
noisex
2007. gada 30. oktobrī, plkst. 17:30
lai izdodas.
laacz
2007. gada 30. oktobrī, plkst. 17:45
Taustinklabekli, vienkarsota versija supporte tika v.dz. 1. dekl, s.dz. 4. un 5., ka ari nemekle, kada locijuma ir vards, pienemot, ka ta varetu but nenoteiksme. Advanceta versija vel tikai top (brivaja laika, kura ir maz...)
Bomis
2007. gada 30. oktobrī, plkst. 21:35
Attīsti šito tālāk
mm
2007. gada 30. oktobrī, plkst. 21:46
http://www.semti-kamols.lv ?
newage
2007. gada 30. oktobrī, plkst. 23:00
Artifical???
mehdi
2007. gada 30. oktobrī, plkst. 23:33
2 jautājumi:
Papildjautājumi:
CaptSolo
2007. gada 31. oktobrī, plkst. 02:32
Skaisti. :)
Kāds ir galamērķis šai iniciatīvai? Un vai procesa gaitā Tu jau nebūsi izveidojis blogeru lietotās latviešu valodas vārdnīcu?
pinkz
2007. gada 31. oktobrī, plkst. 03:50
Laacz vienkarshi megina izdrazt Matematisko katetru :) ar jamo semtikamols
Peeteriz
2007. gada 31. oktobrī, plkst. 08:42
Hau! Tieši kautko precīzi tādu esmu tai pat LU MII taisījis; metodes strādā tīri normāli uz tekstiem ar tādiem vārdiem kā "pokemonizējošs" umtl.
Ar to pašu Kārli esam runājuši par to, kas un kā; realizācijas ideja varētu būt apmēram tāda pati, bet nu ir izvērsta uz visām vārdšķirām. Ja ir vēlme kautko rejūzot, tad droši raksti :)
Savukārt par analīzes iespējām ir lietderīgi pameditēt ap burtu virkni "roku" - "es roku ar lāpstu" "ārstēju bērnu roku traumas" "klausos roku u.c." "salauzu kaimiņam roku". :P
laacz Autors
2007. gada 31. oktobrī, plkst. 09:27
mehdi, mūžīgais kritiķi:
Peeteriz: man interese pagaidām ir tīri "ļubiķeļskaja". Ja būs kādi jautājumi, būs pie kā vērsties :)
mm
2007. gada 31. oktobrī, plkst. 10:07
laacz: vai zini cik "sver" šāds algoritms @ lumii-semtikamols un kur tas tiek grozīts ?
Beregu a.k.a. Pretinieks
2007. gada 31. oktobrī, plkst. 10:10
pirmās deklinācijas lietvārda saknei ir jābeidzas ar līdzskani - 'ainas', 'asas' utt. varēja izslēgt pēc šī principa.
kas notiks ar vārdu 'alga', ja tekstā parādīsies, piemēram, "uzņēmums algo divus sētniekus"?
laacz Autors
2007. gada 31. oktobrī, plkst. 10:16
mm: nezinu, bet jautājums izskatās retorisks. Mani kā reizi interesē nevis 100% precīzs risinājums, bet tāds, kas ar zināmu kļūdas procentu varētu darboties arī uz mazajiem datu apjomiem uz mazajiem serveriem pie saprātīga pieprasījuma.
laacz Autors
2007. gada 31. oktobrī, plkst. 10:17
Beregu: "algošana" ir darbības vārds. Un var atrast ziljonu interesantu vārdu, kurus automātiski noparsēt varētu būt grūtības.
Beregu a.k.a. Pretinieks
2007. gada 31. oktobrī, plkst. 11:21
jautājums bij' par to, vai celms (nevis sakne, kā es te iepriekš kļūdaini izteicos), kas parādās ar setos neietilpstošu galotni, tiek automātiski diskvalificēts. nnu labi, tas arī nav būtiskākais.
šķiet, ka lietvārda veiksmīga identificēšana ir lielā mērā atkarīga no tā, vai ir atrasts datīvs. nez, vai kādam ir nojausma, cik % lietvārdu vidusmēra tekstā ir datīvā?
zb
2007. gada 31. oktobrī, plkst. 12:12
imo tur no AI nav ne smakas, tas ir vnk algoritms.
zb
2007. gada 31. oktobrī, plkst. 12:16
btw, pirms kāda laika ņēmos ar līdzīgu problēmu - sludinājumi, kuros bija pagasti un vietas Latvijā visdažādākajos locījumos un ar kljūdām, itkā pat izdevās daudzmaz piedarbināt, tikai sākotnējā vārdu krājuma savākšana bija diezgan ilga.
Danaki
2007. gada 31. oktobrī, plkst. 14:39
Конечная цель всего этого?
laacz Autors
2007. gada 31. oktobrī, plkst. 14:48
Danaki, читай мой ответ mehdi (<a href="http://laacz.lv/2007/10/30/artifical-intelligence/#c57148" rel="nofollow">12 комментарий</a>).
Danaki
2007. gada 31. oktobrī, plkst. 16:36
Ок, если это продолжение старого спора о find similar posts, то я считаю, что надо делать как это делает Google Adsense. Т.е. stemming, потом similarity clustering, будет работать для всех языков. Вот, интересный линк http://wikipedia-clustering.speedblue.org/