Senākais rakstošais blogs Latvijā ^*
ANNO MIM ^*
Teju 100% cilvēka rakstīts saturs ^*

Artifical Intelligence

2007. gada 30. oktobrī | 22 komentāri

nekur.lv vajadzībām pētu iespēju darboties ar latviešu valodu bez vārdnīcas, jo mēs jau zinām, kā raksta blogeri un cik daudz tiek izmantoti jaunvārdi (ij oficiāli, ij neoficiāli). Uzģenerēt diezgan ticamu vārdnīcu pēc palielāka teksta apjoma un to regulāri papildināt ir vienkārši. Tur ir diezgan primitīva leksikoloģiskā analīze ar ne pārāk viltīgu algoritmu (vienkāršots piemērs te). Ja izdodās piešķilt arī darbības vārdus, viss aiziet jūriņā.

Tālāk jau ir diezgan vienkārši — mums ir teikumu daļas struktūra. Teiksim, vienkāršots variants — “lietvārds lietvārds”. Tālāk jau mēs varam pēc iepriekšējas analīzes noteikt, kādā locījumā katrs no tiem ir. Ja pirmais ir ģenitīvā, tad tā ir piederība. Un ir skaidrs, ka “mašīnas motors” ir pilnīgi noteikti analizējams jēdziens. Ja tas ir citā locījumā, tad tas visticamākais ir īpašības vārds. Kas arī ir analizējams moments.

Nu, un tālāk jau viss bumbās. Mācāmies, izvērtējot ticamības, salīdzinot, veidojot saites, utt. Vārdu sakot — darbs, ko tur darīt, ir diezgan apjomīgs, taču pamatbūtība — latviešu valodas semantiskā un leksikoloģiskā analīze (ar zināmu kļūdas procentu) BEZ vārdnīcas palīdzības ir iespējama.

Ā, un paldies elfzam un Gobam par idejām un iespēju ar viņiem dalīties priekā par procesa laikā gūtajām atklāsmēm un sasniegumiem :)

Ierakstiem, kas vecāki par 42 dienām, komentēšanas iespēja tiek slēgta. Ja Tev aizvien ir ko teikt, dod ziņu jebkurā veidā, kurš norādīts teitan.

cipis

2007. gada 30. oktobrī, plkst. 17:02

Nebiju aizdomājies.. izskatās gandrīz vienkārši :)

Taustiņklabeklis

2007. gada 30. oktobrī, plkst. 17:06

Ar sarežģītākiem vārdiem tomēr ir problēmas,

... bildi ...bildē... ...bildšu

noisex

2007. gada 30. oktobrī, plkst. 17:30

lai izdodas.

laacz

2007. gada 30. oktobrī, plkst. 17:45

Taustinklabekli, vienkarsota versija supporte tika v.dz. 1. dekl, s.dz. 4. un 5., ka ari nemekle, kada locijuma ir vards, pienemot, ka ta varetu but nenoteiksme. Advanceta versija vel tikai top (brivaja laika, kura ir maz...)

Bomis

2007. gada 30. oktobrī, plkst. 21:35

Attīsti šito tālāk

mm

2007. gada 30. oktobrī, plkst. 21:46

http://www.semti-kamols.lv ?

newage

2007. gada 30. oktobrī, plkst. 23:00

Artifical???

mehdi

2007. gada 30. oktobrī, plkst. 23:33

2 jautājumi:

kāds ir mērķis?
kāda (kad) būs galarezultāta kvalitāte?

Papildjautājumi:

nafig naids vārdnīcu izmantot?
citai valodai tāpat šī metodika taču nederēs?
kas notiek ar latviešu valodas tomēr sarežģīto mašinēriju, ja tur ielaiž lietvārdu tipa "Bruno"? uttutjpr.

CaptSolo

2007. gada 31. oktobrī, plkst. 02:32

Skaisti. :)

Kāds ir galamērķis šai iniciatīvai? Un vai procesa gaitā Tu jau nebūsi izveidojis blogeru lietotās latviešu valodas vārdnīcu?

pinkz

2007. gada 31. oktobrī, plkst. 03:50

Laacz vienkarshi megina izdrazt Matematisko katetru :) ar jamo semtikamols

Peeteriz

2007. gada 31. oktobrī, plkst. 08:42

Hau! Tieši kautko precīzi tādu esmu tai pat LU MII taisījis; metodes strādā tīri normāli uz tekstiem ar tādiem vārdiem kā "pokemonizējošs" umtl.

Ar to pašu Kārli esam runājuši par to, kas un kā; realizācijas ideja varētu būt apmēram tāda pati, bet nu ir izvērsta uz visām vārdšķirām. Ja ir vēlme kautko rejūzot, tad droši raksti :)

Savukārt par analīzes iespējām ir lietderīgi pameditēt ap burtu virkni "roku" - "es roku ar lāpstu" "ārstēju bērnu roku traumas" "klausos roku u.c." "salauzu kaimiņam roku". :P

laacz Autors

2007. gada 31. oktobrī, plkst. 09:27

mehdi, mūžīgais kritiķi:

kāds ir mērķis? Pētīt un asināt prātu.
kāda (kad) būs galarezultāta kvalitāte? Nezinu. Varbūt nebūs nekad, nekas un nekāds.
nafig naids vārdnīcu izmantot? Tu viņi regulāri papildināsi? Puškins papildinās? Viss, kas tiek veidots ilgtermiņam, ir jāveido maksimāli autonoms.
citai valodai tāpat šī metodika taču nederēs? Kāpēc ne? Gan jau, ka atradīsies valodas, kurām derēs gan. Bet mans mērķis nav citas valodas. Mans mērķis ir latviešu valoda.
kas notiek ar latviešu valodas tomēr sarežģīto mašinēriju, ja tur ielaiž lietvārdu tipa “Bruno”? Tie ir izņēmumi. Pie kam, neviens vārds, kurš beidzās ar "o" netiek locīts. T.i. - tam visi locījumi abos skaitļos ir vienādi. Izņēmumu liela daļa ir aprakstāma ar gramatikas likumiem. Pārējie, kas nav aprakstāmi (minētā "roka/roks") iekļausies klļūdas procentā, kamēr netiks atrasts risinājums.

Peeteriz: man interese pagaidām ir tīri "ļubiķeļskaja". Ja būs kādi jautājumi, būs pie kā vērsties :)

mm

2007. gada 31. oktobrī, plkst. 10:07

laacz: vai zini cik "sver" šāds algoritms @ lumii-semtikamols un kur tas tiek grozīts ?

Beregu a.k.a. Pretinieks

2007. gada 31. oktobrī, plkst. 10:10

pirmās deklinācijas lietvārda saknei ir jābeidzas ar līdzskani - 'ainas', 'asas' utt. varēja izslēgt pēc šī principa.

kas notiks ar vārdu 'alga', ja tekstā parādīsies, piemēram, "uzņēmums algo divus sētniekus"?

laacz Autors

2007. gada 31. oktobrī, plkst. 10:16

mm: nezinu, bet jautājums izskatās retorisks. Mani kā reizi interesē nevis 100% precīzs risinājums, bet tāds, kas ar zināmu kļūdas procentu varētu darboties arī uz mazajiem datu apjomiem uz mazajiem serveriem pie saprātīga pieprasījuma.

laacz Autors

2007. gada 31. oktobrī, plkst. 10:17

Beregu: "algošana" ir darbības vārds. Un var atrast ziljonu interesantu vārdu, kurus automātiski noparsēt varētu būt grūtības.

Beregu a.k.a. Pretinieks

2007. gada 31. oktobrī, plkst. 11:21

jautājums bij' par to, vai celms (nevis sakne, kā es te iepriekš kļūdaini izteicos), kas parādās ar setos neietilpstošu galotni, tiek automātiski diskvalificēts. nnu labi, tas arī nav būtiskākais.

šķiet, ka lietvārda veiksmīga identificēšana ir lielā mērā atkarīga no tā, vai ir atrasts datīvs. nez, vai kādam ir nojausma, cik % lietvārdu vidusmēra tekstā ir datīvā?

zb

2007. gada 31. oktobrī, plkst. 12:12

imo tur no AI nav ne smakas, tas ir vnk algoritms.

zb

2007. gada 31. oktobrī, plkst. 12:16

btw, pirms kāda laika ņēmos ar līdzīgu problēmu - sludinājumi, kuros bija pagasti un vietas Latvijā visdažādākajos locījumos un ar kljūdām, itkā pat izdevās daudzmaz piedarbināt, tikai sākotnējā vārdu krājuma savākšana bija diezgan ilga.

Danaki

2007. gada 31. oktobrī, plkst. 14:39

Конечная цель всего этого?

laacz Autors

2007. gada 31. oktobrī, plkst. 14:48

Danaki, читай мой ответ mehdi (12 комментарий).

Danaki

2007. gada 31. oktobrī, plkst. 16:36

Ок, если это продолжение старого спора о find similar posts, то я считаю, что надо делать как это делает Google Adsense. Т.е. stemming, потом similarity clustering, будет работать для всех языков. Вот, интересный линк http://wikipedia-clustering.speedblue.org/