laacz.lv

Kaspara F. neoficiālā mājaslapa (Anno 1997)

Gadsimtu senas preses apskats. Katru dienu.

Ilgāku laiku man ir gribējies, lai e-pastā katru rītu iekrīt preses apskats. Ar simts gadu nobīdi. Cilvēka sagatavots, pārlapojot precīzi pirms simts gadiem šajā datumā iznākušos preses izdevumus. Var jau sapņot, ne? Vai arī…

Kādā garākā vakarā atrotīju piedurknes, saspļāvu pirkstos un ķēros klāt šo jautājumu papētīt. Nedaudz paķimerējos ar abiem periodika.lv frontendiem, tajos realizēto API izsaukumiem un skriptiem savā pusē. Kad attapos, bija uztapis šis.

Tad, nu, lūdzu. Šodiena pirms simts gadiem preses izdevumu virsrakstos. Katru dienu, kamēr kaut kas nenobruks.

Visi ieteikumi, pamanītās kļūdas, sūdzības un uzslavas vai nu tepat komentāros, vai tviterī @laacz, vai arīdzan uz e-pastu (laacz suņeic laacz.lv). Atspoguļojums nav nelegāls, jo ir saņēmis LNDB svētību.

Un tagad nedaudz pafilozofēsim. Ja vien neesi jau aizgājis un iekritis avīzēs :P

Veidojot šo, saskāros ar milzumu dažādu nianšu, ar kurām drošs, ka ir saskārušies arī LNB projektos iesaistītie, par lielu daļu no kurām 2013. gadā jau rakstīju.

Piemēram, datu kvalitāte. Ja neskaita to, ka vairākiem laikrakstiem ir vairāk nekā viens ieraksts, tad ir arī dažiem nekorekti metadati. Piemēram, Jaunākās Ziņas teitan ir ierakstītas kā spāniski esošas. Savukārt, “Kurzemes vārdam” vispār ir daudz dažādu nekorekti atpazītu nosaukumu.

Spāniski un daudzie Kurzemes vahrdi

Otra lieta, ar kuru saskāros uzreiz – atpazītā teksta kvalitāte. Savā ziņā tas pat ir labi, jo nedaudz piebremzēja manu vēlmi šo apskatu uztaisīt vēl bagātīgāku, kā rezultātā risinājums ir (manuprāt gaumīgi) tipisks proof of concept. Vecajā drukā pat pie diezgan labas attēla kvalitātes ar teksta atpazīšanu nav veicies sevišķi labi. Bet veco druku ignorēt mēs nedrīkstam. Vecā druka atsevišķiem laikrakstiem tika lietota pat līdz trīsdesmito gadu vidum.

OCR kvalitāte

Šo problēmu var risināt ar mašīnmācību, taču mans ML pagaidām nav tik labs ML, lai ķertos klāt šim jautājumam. Lai gan soļi vismaz teorētiskie ir skaidri.

Paturam prātā, ka mūs interesē tikai saturs – ne reklāmas (segmentācijā tas ir norādīts). Jāapzinās arī viena būtiska problēma, kas prasa papildus OCR izveidot arī satura drukas klasifikatoru. Tas tāpēc, ka, lai arī gotika puslīdz izskatās vienādi, tā nebūt nav. Dažādās tipogrāfijās drukātie laikraksti var būtiski atšķirties. Pārejas periodā Latvijā bija laikraksti, kuri viena numura ietvaros tika iespiesti daļēji vecajā un daļēji jaunajā drukā.

Un, protams, ir arī ļoti sliktas kvalitātes avīžu attēli. Tos vajadzētu spēt ignorēt.

Vecā druka un tā laika regulārā ortogrāfijas nepastāvība rada vēl vairākas foršas problēmas. Turpinajums -> turpinahjums -> turpinājums, wehletaji un vēlētāji, eeeet – ieiet, Mandschurija – Mandžūrija, utt. Lai gan periodika.lv meklētājs šajā ziņā darbojas puslīdz labi. Ja neskaita to, ka nav iespēja ērti un vienkārši filtrēt atlasīto datu kopu.

Varētu šķist, ka visa šī padarīšana ir relatīvi triviāls uzdevums, kolīdz esi vienojies ar sevi par prasībām, stacku un izpildījumu. Bet velns slēpjas detaļās. Lai no visa šī būtu nopietna jēga, ir jābūt skrupulozam, gatavam visu pārstrādāt, spējīgam izvērtēt tagadnes stāvokli un to ekstrapolēt uz visa projekta rezultātiem, būt kritiskam, tanī pat laikā ne pārāk.

Es neko nepārmetu LNB un digitalizācijas projektam. Galu galā – finansējums bija tāds kā bija, mašīnmācības iespējas tolaik arī bija tādas, kādas tās bija. Zinu, ka drīzumā gaidāmi uzlabojumi pašā periodika.lv lapā. Bet šī ir lieta, kurai būtu jāpievēršas pastāvīgi, nevis tikai uz projekta laiku. Es pats atceros un pabakstos reizi divos gados. Varbūt uz pensiju būšu “uzkačājis” savus skillus, lai varētu sasniegt gribēto rezultātu. Bet varbūt nebūšu.

Pēteris

Sanāca mazliet pielikt roku toreiz pie tā projekta; skatoties atpakaļ ir acīmredzams, ka (un kā tieši) ar šībrīža metodēm katru procesa elementu varētu uztaisīt būtiski labāk, jo šajā jomā pēdējos piecos gados dikti daudz kas ir mainījies… Taču “Bet šī ir lieta, kurai būtu jāpievēršas pastāvīgi, nevis tikai uz projekta laiku” diemžēl ir grūti realizējama lieta, nu, bišķi par lielu tas pasākums lai hobija līmenī to izvilktu, bet darītājiem algas maksāt tomēr var tieši tikai uz projekta laiku, nevis pastāvīgi – pastāvīgi sanāk tāpēc, ka ir citi projekti, kuros jādara citas lietas, nevis šī.

Par pāris konkrētām lietām: eeeet – ieiet tur bija likumbāzēts risinājums, kurš mazliet brutāls (jo nav vienas “vecās drukas”, tur pārejas periodā ir dažādas variācijas) bet puslīdz ok strādā; tur šobrīd ar kādu mašīnmācīšanās neirontīklu sequence2sequence modeli tagad domājams varētu precīzāk izspiest. Tas ķieģelītis pat neprasītu ārkārtīgi daudz cilvēkresursu, viens studenta diplomdarbs vai cilvēkmēnesis zinātājam, bet tur jāskatās ar ātrdarbības sāpi, jo LNDB tekstu ir ļoti, ļoti daudz un jebkura netriviāla metode visam tekstam prasa padaudz laika.

Par OCR savukārt aprakstītos soļus principā tīri labi dara Tesseract opensource risinājums. Toreiz manuprāt gotikas OCR bija vietējo pietjūnēts FineReader, ja es pareizi atceros; tagad ar tiem pašiem treniņdatiem būtu jāsanāk labāk dēļ labākām metodēm, nu un ja sanāk, ka tie gotikas fonti ir tādi paši kā citās zemēs tai laikā (nezinu, vai tā ir), tad gan jau var no kāda Vāczemes projekta arī kaut ko aizņemties. Bet nu atkal, trūkst rociņu; pat ja būtu budžets, tad darītājus grūti noraut no kaut kā cita – jāmāca jauni.

laacz

Par finansējumu Tev ir pilnīga taisnība. Bet līdzīgi ir ar kopetenču pirkšanu veikalā arī b2b attiecībās – reāli tur ir ko rakt un rakt, bet līgums beidzas un rakšana apstājas.

Ja mēs teoretizējam, tad ārpus budžeta finansētas amata vietas (ar vienu gan būs par īsu) varianti tomēr ir. Budžetu neizskatām, jo alga neliela un labs speciālists tur ne tikai nenāks, viņš raudās mājās spilvenā, gribēs iet, bet nav altruists.

Ārējais ilgtermiņa finansējums. Tehniski ļoti vienkārši, praksē sarežģīti. Atrast vienu vai vairākus uzņēmumus, kuri ir ar mieru ilgtermiņā nodrošināt finansējumu, lai varētu turēt inhausā vai ārpusē nelielu komandu šī visa risināšanai. Viens no modeļiem.

Nu, protams, eksistē arī tādi kā es – pa vakariem pabakstīties. Lai gan drošs, ka apkārt uzņēmumos ir milzumdaudz ML speciālistu (savādāk kā tie visi stārtapi sulu dabū?), ir vesela kaudze, kas tādu nav.

Ja dati būtu pieejami vienkāršāk (API, damps, utt), tad komplektā ar LU MII (see what I did here?:) nodrošinātu lielisku bezmaksas tiešsaistes ML kursu programmētājiem (kā neliels blakusefekts – Latvija kļūst par ML megadižlielvalsti!:D), kam augstākā matemātika un varbūtību teorija ir tikai nedaudz jāatsvaidzina…

Par tesseract – ja nemaldos, gotikai viņš bija jāpatčo un jātrenē 100% uz mūsu datiem. Un klasifikācijas daļa tāpat ir ārpus tesseract

Mahris

Man ir zināma pieredze ar Tesseract.
Pirms 7 gadiem paņēmu tīklā darbiņu – kāda Āmurikas organizācija gribēja pārlikt modernā šriftā vecu reliģisku grāmatu gotikā.
Piedāvāja stundu darbu ar likmi, varbūt pieņemamu tīrai driķēšanai, bet mani tas neapmierināja. Vienojos par gabaldarbu cerībā ar OCR dabūt labu sagatavi, kas prasītu nelielu roku darbu. Un sāku apmācīt Tesseract tās grāmatas specifikai.
Kaut ko jau viņš deva, bet roku darbs izrādījās milzīgs. Kad pasūtītājs piedāvāja nākamo grāmatu, atteicos.

Tiesa, man vajadzēja labu tekstu. Vairāk vai mazāk saprotamam tekstam prasības pieticīgākas.

Mahris

Vispār īsti neatceros, ko lietoju. Tai virtuālajā mašīnā instalēti abi, Tesseract un Abby FineReader. Bet rezultāti stāv zem Tesseract.

Valdis

Talk about good timing!
Uldis B. no mūsu kopējiem Ozolnieku ceļojumiem pieminēja tavu rakstu. :)

Lieta tāda, ka esmu pieslēdzies vienam LNB projektam un nupat nupat pabeidzis pirmo Tesseract testu pielāgošanai Latvijas fraktur īpatnībām.

Rezultāti bija negaidīti labi (ap 98.5% accuracy kas ir daudz labāk nekā Abby un Tesseract 3.01 laikos).

Aptuvenais process bija šāds:

* Pamīciju XML no LNB DOM
* noskrāpēju vajadzīgās bildes
* Veicu segmentāciju izmantojot vācu fraktur.
* veicu arī sākotnējo OCR ar Tesseract ar vācu fraktur
* No HOCR izvilku rindiņas
* Sametu visu nelielā DB
* Uzmetu mazu lapiņu kur kuratoriem veikt labojumus.
* 2 mēnešus vairāki brīvprātīgie tiešām rūpīgi veica labojumus
* Savācu ap 6k rindiņu kuros vismaz 2 labotāju domas SAKRITA
* Parveidoju visas rindiņas uz Tesseract standarta .tif un .gt.txt (vēl neveicot nekādu īpašu attēlu apstrādi!)
* Paņēmu labāko pēdejo vācu modeli (kurš trenēts ap 400,000 rindiņām un 5M epohiem ( 4 mēneši) un
* Palaidu uz 50,000 epohiem (iepriekšējā nedeļas nogale) un turēju īkšus.

Esmu tiešām šokēts, ka ar pirmo piegājienu izdevās jau dabūt sakarīgus rezultātus tiesa gan tikai uz grāmatām. Avīzes vēl nav trenētas, skaidrs tur ies grūtāk(skanos spīd cauri teksts utt)

Vēl ļoti daudz jādara un droši vien līdz periodikai tas viss tik drīz nenonāks.

Principā viss process tagad vienreiz ir iziets bet tāds patrausls: https://xkcd.com/2054/

Patlaban meklēju nākamos korpusus, kur brīvprātīgajiem uzdarboties. Jebkurš var iesaistīties :)

Valdis S.
https://frakturs.lnb.lv/

laacz

Lieliski! Tas nozīmē, ka iestrādes jau ir. Bet 5M epohas ir … dafiga. Bet, ja vajag, var noskreipot arī pašu saturu, segmentāciju un bildes no periodikas. Bet, cik saprotu, tas patlaban nav fokuss.

Valdis

Bez periodikas ir vēl labāki satura avoti. Skrāpēt periodiku būtu samēra nepatīkami )

Un par epohām, vācieši minēja ka viņiem šķiet strādā ar 99.7% accuracy uz tīriem avotiem.

Tur gan lauvas tiesas nopelniem jābūt tām 400k rindiņām kuras viņi ir iebarojuši. (tā teikt The Unreasonable Effectiveness of Data – https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/35179.pdf)

Ja mēs šeit Latvijā varētu izveidot kādu labu pārstāvošu korpusu no kādām 50k rindiņām mums arī ietu tīri labi.

laacz

Bet periodika ir visizaicinošākais avots. Tur bez vairāklīmeņu klasifikatoriem neiztikt :)

Viegli jau ir uztrenēt uz Gūtenberga iespiedmašīnas knock-off’u elegantajiem fontiem un labi saglabātajiem materiāliem. Mums, diemžēl, skanētās periodikas kvalitāte ir ļoti dažāda. Gan iespiešanas ierīču atšķīrību dēļ, gan laika zoba dēļ.

Lai gan, ja paņem to pašu Valdības Vēstnesi, tad tam lielākoties ir lieliska kvalitāte. Bet tam arī ir visaugstākās kvalitātes druka.

Iesniegt savu viedokli

Atruna par moderāciju. Daži vārdi, var gadīties, ka ir iz melnās listes (viagra and stuff). Tādi komentāri tiek aizturēti, pirms parādās lapā. Ja Tavs komentārs neparādās uzreizi, būs vien jāpagaida, līdz es jamo izlasīšu. Protams, ka paturu tiesības sev netīkošos komentārus dzēst, iemeslu neminot.