Kā LNB digitalizē vēsturi?

2013. gada 21. novembrī | 33 komentāri

Sveiks, mans dārgais lasītāj. Zini, šī paša gada 11. oktobrī ap pusčetriem pie Tērabats ielas 75. nama plānotā vīzē satiku Artūru, kurš fīrē visu, kas notiek Latvijas Nacionālās bibliotēkas Digitālajā bibliotēkā. Un, kas par sagadīšanos, ikurāt tanī ēkā pašlaik arī notiek izdevumu (laikraksti, grāmatas) digitalizācijas process. Nu, labi. Es viekārši kā blogeris iedomājos, ka būtu feini apskatīt — kā tās lietas īsti notiek, lai pēc tam to visu aprakstītu blogā un galu galā sēdētu un skaitītu apmeklētājus, kuri man būs (kas ir nauda, kura man nekad nebūs).

Pati ideja par šo vizīti man bija jau sen, bet saņēmos pēc Ventspils brauciena, kad atpakaļceļā sanāca apmeklēt vienu mazo zoo, kur atsevišķā ēkā bija savākts viskautkas, ieskaitot kaudzi ar vecām grāmatām, vēstulēm un laikrakstiem.

Brīdinu, ieraksts man sanācis dižs.

Liriska atkāpe. Latviešu valodā kādu brīdi bija vārds, kurā viens aiz otra sekoja četri «e» burti. Un bija arī vārds, kurā pavisam kopā bija deviņi «e» burti. Un, lai uzrakstītu «dž», viņiem, nabagiem, bija jānopūlās ar «dsch». Tas iebarošanai.

«Japāņu karapulki ieiet Mandžūrijā.» (Atpūta, Nr. 363 (16.11.1931))

Patiesībā tā laikrakstu skanēšana tāda pati skanēšana vien ir, kā mājās. Tik dzelži ir niknāki. Zemāk attēlā var redzēt uzpariktu, uz kuras tiek skanēti lielformāta izdevumi. Viena no vissvarīgākajām niansēm ir iespēja regulēt pušu augstumu, lai atšķirtās lapas ir vienā līmenī. Veiktspēja, ja sevišķi neiespringst, ir 60 atvērumi stundā.

Tā kā liela daļa no izdevumiem glabājas sējumos, tad tie ir jāārda ārā un pēcāk jāšuj atpakaļ. Projektu laikā tika veikta arī atsevišķu izdevumu restaurācija, bet tagad tam netiek pievērsta liela uzmanība. Galvenais nepasliktināt izdevuma stāvokli, bet pārējo jau var pieciest. Pašlaik tiek strādāts pie reģionālās preses, dažādu trimdas izdevumu un Latvijas Vēstneša iztrūkstošo periodu digitalizācijas, kā arī atsevišķos gadījumos tiek veikts kāds komercpasūtījums (~~no kura visa nauda aiziet Valsts Kasē un uz LNB atpakaļ nemaz nenonāk~~ sīkāk komentārā skaidro Uldis).

Pēc skanēšanas teksts tiek atpazīts un segmentēts. Atpazīšana ir tas pats vecais labais OCR un svarīgāko elementu korekcija ar roku. Segmentēšana, savukārt, ir pusautomātiskā sleju un rakstu identificēšana, virsrakstu, tabulu un citu elementu atpazīšana.

Atpazīta tiek arī vecā druka. Tās atpazīšana ir iespējama pateicoties sadarbībai ar visiem tekstu-kādreiz-atpazīt-gribētājiem zināmo kantori ABBYY. Viņi skaitās mežonīgi eksperti ne tikai OCR jomā, bet arī specifiskajā fraktūras un gotikas (vecās rakstības jeb ortogrāfijas) automatizētā atpazīšanā. Tā man šķita visinteresantākā, protams. Bet arī jaunās rakstības atpazīšanai gan jau nav ne vainas.

Starp citu, ar ABBYY bija arī mazs kašķis. Tas tālab, ka tas, kas mūsu gotikā mēs bijām izvēlējušies «c» rakstīt vienādiņ kā oriģinālā būtu jāraksta «z» (te var redzēt). Un vācietim gluži paralēli, ka kaut kādā viņu kādreizējā provincē vietējie aborigēni ir ņēmuši un šo svētumu adaptējuši savai smieklīgajai valodiņai. Labi, pārspīlēju. Šīs domstarpības viņi (acīmredzami) kaut kā pamanījās atrisināt konstruktīvi un ar sapratni :) Neprasiet man par mūsu vecās rakstības detaļām. Ceru, ka kāds komentāros spēs paskaidrot mūsu rakstības dialektu :)

Diemžēl, ne vienmēr izvēlētā skanēšanas izšķirtspēja, izdevuma fiziskais stāvoklis vai arī tam laikam raksturīgie saīsinājumi, formatējums un cita specifika ļauj sekmīgi atpazīt visu tekstu, ko var bieži novērot tieši vecās druka gadījumā. Bet, nu, kā ir tā ir. It kā varētu kādu puslīdz mākslīgu intelektu pa virsu palaist, bet, kurš gan to darīs uz tīra entuziasma pamata?

Tātad, pēc skanēšanas viss pārējais darbs notiek iekš DocWorks vides. Teksts ar dievpalīgu ir ticis atpazīts. Aplikācija pati spēj puslīdz saprātīgi arī sadalīt tekstu pa slejām un rakstiem. Tā kā nekāda konteksta viņai nav, tad nākas labot. Apvienot viņasprāt atsevišķus rakstus, kā arī tos, kuri sākas vienā lapā, bet turpinās citā. Tas gan notiek diezgan veikli un ērti. Rezultātā ir izveidots arī tāds kā satura rādītājs.

Rakstā tiek izdalītas dažas lietas. Virsraksti, kuros tiek salabotas arī teksta atpazīšanas kļūdas. Tieši tāpat kļūdas tiek labotas tabulu nosaukumos, attēlu parakstos un autoru vārdos. Pārējo tekstu gan neviens nelabo. Tas aizņemtu pārlieku daudz laika.

Starp citu, ar autoriem saistās lielisks pastāsts no tiem laikiem, kad tika realizēts lielais projekts par Eiropas naudu un teksta atpazīšanas un segmentēšanas veicēji bija LETA. Bet par to mazliet vēlāk, kad runāsim par to.

Beigu beigās no tā visa tiek izveidoti vairāki XML un PDF faili, kuri satur kā oriģinālo skanēto bildi, tā tekstu, tā atpazīšanas ticamību, atrašanās vietu bildē, un arī citus metadatus. Starp citu, atpazīstot tekstu, nekādas korekcijas netiek veiktas. Tiek atstāta kā rakstība, tā arī drukas kļūdas (ja neskaita virsrakstus) ar retiem izņēmumiem. Piemēram, «Atpuhta» tika tomēt labota uz «Atpūta».

Nu, re. Pašlaik viņi ar šo digitalizāciju nodarbojas paši, bet bija reiz laiki. Laiki, kad tika realizēti Eiropas projekti. Viss rezultāts ir pieejams portālā periodika.lv, kuru no ~~gaismas~~ Gaismas tīkla var redzēt pilnā apmērā, bet pārējie tikai senākos materiālus.

Pirmajā versijā skanēšanu nodrošināja pati LNB. Tur tika iekļauti 40 laikrakstu komplekti (aptuveni 350k lapu). Ieskanētie teksti tika nodoti tālāk Izraēlas kantorim, kurš veica gan segmentēšanu, gan paša portāla veidošanu. Viņiem gan neizdevās nekas ar veco druku, jo to viņi neprata, bet ABBYY licenci viņiem neviens tā vienkārši nedeva. Rezultāts bija viņu izstrādāts risinājums.

Tad nāca otrā kārta. Otrajā kārtā trešajai pusei tika uzticēta skanēšana, segmentēšana un teksta atpazīšanas kļūdu labošana. Par skanēšanu atbildēja Lattelecom BPO, savukārt pārējā darba darītājs bija mūsu pašu LETA, kas patiesībā ir diezgan universāls kantoris.

Digitalizēti tika milzīgi laikrakstu apjomi. Projektā tika nodarbināti ap sešdesmit cilvēku, kuri tika dalīti grupās un pēc konveijera principa katra grupa darīja ko savu. Vieni skanēja, citi laboja kļūdas virsrakstos, vēl citi segmentēja.

Darboņiem tika pastiprināti piekodināts neiedziļināties sava darba augļos, jo tas diezgan nopietni spēja sagraut produktivitāti. Savukārt, tiem, kuru uzdevums bija segmentēt, bija piespiedu pauzes galvas vēdināšanai.

Te tad arī nāk jautrais pastāsts. Kā jau minēju, pie rakstiem ir jāatzīmē arīdzan to autori. Ar laiku jau iemanās mazliet krāpties — redz, raksta beigās ir kaut kāds mazs vārdiņš. Ko nu tur lasīt — autors, takš. Āreče. Tieši tāpēc liels bija izbrīns, ka izrādījās, ka atsevišķos Latvijas vēstures periodos nomācošam daudzumam avīžu rakstu rakstu autors bija neviens cits kā “Hail Hitler”. Savukārt, konkrētai laikrakstu kategorijai lielai daļai rakstu, kā izrādās, autors ir “Āmen”.

Visa rezultātā periodikā un citos resursos pašlaik ir uzkrātas aptuveni 7000 grāmatu (pusotrs miljons lapu) un aptuveni 1000 laikrakstu komplektu (aptuveni trīs miljoni lapu). Paša periodikas portāla jauno versiju veidoja Datakom, jo iepriekšējais risinājums neparedzēja atsevišķas «fīčas», kuras LNB vēlējās jaunajā.

Kopumā pašlaik ir digitalizēts teju vai viss līdz 1940. gadam. Ja pieskaita to, kas jau ir digitalizēts pēc 1940. gada, tad paši bibliotēkas darbinieki lēš, ka elektroniskā formātā varētu būt pieejama aptuveni puse no Latvijā un trimdā jelkad izdotajiem laikrakstiem un žurnāliem. Par kapacitāti spriežiet paši. Ar pašreizējām jaudām viens cilvēks spēj digitalizēt (neskanējot; tīri segmentējot) viena gada Latvijas Vēstnesi divos mēnešos. Ar digitalizāciju pašlaik nodarbojas divi cilvēki, taču kopumā darba vietas tur ir pieciem. Skanēšana, protams, ir daudz veiklāks process. To, ko var saražot viens skanētājs, lai neuzkrātos rinda, segmentēšanā ir jāapstrādā desmit cilvēkiem.

Varētu padomāt, ka vajag tik sadarīt darāmo ar vecajiem laikrakstiem un, kā saka krievi, lieta cepurē, ne? Redz, ja būtu luste, iespējas un vēlme digitāli glabāt laikrakstus, kuri iznāk šobaltdien, tie būtu… jāskanē. Raugi, neviens likums nenosaka, ka izdevniecībām papildus obligātajam eksemplāram bibliotēkām būtu jāpiegādā arī elektroniskais makets. Pat ne PDF formā.

Starp citu, iepriekšējo projektu ietvaros ir saskanēts milzumdaudz materiālu. Un 500000 lapu (jā, piecsimts tūkstoši) neapstrādāto skanējumu sūtīs prom uz Europeana. Viņi paši tad tur veiks 100% automatizētu atpazīšanu, bet brutālu — bez segmentēšanas per se. Vismaz ar rezultātiem teicās padalīties.

Kas attiecas uz grāmatu skanēšanu, tad tur ir viss daudz vienkāršāk, lai gan darbs ir piņķerīgāks. Nē, viņi neizmanto lētučus. Pie kam, tāds nebūtu piemērots vecajām grāmatām, kuru stāvoklis liek meklēt delikātu pieeju. Tāpēc viņu rīcībā ir speciāls grāmatu skaneris (Robertiņš, protams).

Robertiņš ņipri rīkojās ar gaisu, ar lāzeriem un lapu turētājiem. Tas ir regulējams astoņsimt dažādos veidos. Tam var norādīt lapas biezumu, pāršķīrēja, piesūcēja un atdalītāja spēku, utt utjpr. Viņa darbības princips ir sekojošs. Skaneris «iebrauc» grāmatas atvērumā un to nofotografē. Braucot atpakaļ, jamais ar konfigurējamu spēku ar gaisa palīdzību piesūc pāršķiramo lapu. Pārējās lapas pietur separators vai kā nu tur to sauca. Laižoties lejā pāršķīrējs jau lapu ir pāršķīris un var ķerties klāt pirmajam solim.

Tempi viņam teorijā ir līdz pat 1500 lappušu stundā, taču, protams, praksē tie ir divas līdz trīs reizes mazāki. Lai cik maigs un jauks nebūtu Robertiņš, atsevišķas grāmatas tomēr sanāk skanēt, pāršķirot un nofiksējot lapas ar rokām. Tas varētu nebūt ļoti aizraujošs darbs. Iespēju robežās tiek skanētas arī grāmatu muguriņas (galiņi? sāniņi?).

Kā jums šķiet, kurš ir viens no lielākajiem klientiem uz grāmatu skanēšanu? Tilde. Viņi bieži vien prasa tieši ārzemju autoru darbu tulkojumus, kas nozīmē, ka to izmanto sava tulkotāja treniņam un uzlabošanai. Mani gan tas mazliet mulsina, jo grāmata jau nav prasts tulkojums, bet gan adaptācija. Bet, lai jau paliek. Viņi labāk zina.

Pēc Tildes pasūtījuma vai kopprojektu ietvaros digitalizēti tika arī materiāli, kuri tika izmantoti viņu pētnieciskajā projektā SEMO (dokumentu automatizēta klasifikācija neatkarīgi no to valodas vai veida). Šis tas no pašu LNB digitalizētā (piemēram, pastkartes) ir pieejams Tildes Letonikā. Protams, ka LNB ir lieliska vieta, kurp doties, kad vajag specifisku materiālu. Un lieliski, ka tieši turp dodas tie, kuriem šis materiāls ir nepieciešams. Žēl, tiesa, ka samaksātā nauda nepaliek LNB…

Digitalizācija lielākā vai mazākā mērā notiek jau kopš pagājušā gadsimta beigām. Redz, kur ir jau otrās paaudzes serveris. Pirmais bija uz magnētiskajiem diskiem. Bet evolūcija bija loģiska — magnētoptiskie diski, kompaktdiski, dvd un beigu beigās serveri.

Un pavisam aizmirsu. Par to “nepeeseeneetees” tu man noticēji? Nenoticēji? Pavei pats ;)

Nepeeseeneetees, ja? ("Dzimtenes Vēstneša" Literārais pielikums, Nr. 68 (21.03.1913)"))

Secinājumi ir vienkārši. Kārtējo reizi mazliet žēl, ka nav gana daudz naudas. Kārtējo reizi milzīgs prieks, ka ir cilvēki, kuri ar prieku dara un mīl savu darbu. Kārtējo reizi izskatās, ka varētu izveidoties lieliska sadarbība starp dažādām valsts, pašvaldību un privātajām iestādēm (piemēram, AILAB un LNB). Vajag vien gribēšanu.

Runājot par sadarbību ar AILAB — tā ir notikusi, bet vēl nav beigusies. Piemēram, kopīgiem spēkiem ir izstrādāts risinājums, kurš prot paņemt kā izejas datus vārdu no vecās drukas pat ar kļūdu un to pārvērst mūsdienu valodā. Kādreiz aitas dēvēja arī par «vuškām», ko rakstīja kā «wuschka». Atpazīšanas rezultātā iezogas kļūda un vārds tiek atpazīts kā «muschka». Serviss to prot pārveidot šādi: «muschka» → «wuschka» → «vuška» → aita. Diemžēl, šis vēl nav integrēts periodikā.

Otrs kopdarba rezultāts ir LNB Laboratorija. Tā ietvaros teksts ticis analizēts un tajā atzīmēti potenciālie īpašvārdi (personas, vietas, institūcijas, laika periodus, utml), ņemot vērā dažādās rakstības un locījumus. Kas nozīmē, ka, piemēram, meklējot Jelgavu, atradīs arī Mītavu. Vai arī, Artura minētais piemērs par skaidrojošās funkcijas integrāciju tanī pašā periodikā — meklēšanu varētu veikt, piemēram, pēc «Aleksandra Čaka iela», bet atrastu arī visu laika posmā no 1920. līdz 1940., kur ir minēta «Marijas iela» (tajos gados tā pilnā garumā tā tika dēvēta), kā arī padomju laika tekstos «Suvorova iela». Šīs idejas, protams, arī ir nākotnei un vēl nav pilnībā realizētas. OK, Marijas iela tur nefigurē, bet man līdz šim nezināmā «Pionieru» gan.

Vēl es būtu priecīgs, ja esošie un internetā pieejamie projekti nebūtu tik ļoti izkaisīti. Periodika.lv autortiesību dēļ no nebibliotēkām ir pieejama ļoti ierobežoti. Meklētājs tur ir nekāds, pārlūkot rezultātus un saturu arī nav dikti ērti.

Par autortiesībām. Es saprotu, ka tādas ir un saprotu arī normu harmonizāciju visas Eiropas Savienības kontekstā. Taču, ja man būtu teikšana, es noteikti laikrakstu un žurnālu publikācijas padarītu par izņēmumiem. Un, kā saka, ejiet visi ieskrieties.

Ir arī citas jaukas iniciatīvas un projektiņi, kas, tiesa, ne pavisam neliecina par kādu kopēju stratēģiju. Piemēram, pateicoties skaņu plašu digitalizācijai, internetā var paklausīties vecos bellakordus. Interesants, protams, ir arī otrs digitalizācijas projekts — Zudusī Latvija, kurā tiek apkopoti attēli (pašlaik aptuveni 28 tūkstoši). Lasāmkoks arī jau labu laiku kā netiek papildināts un satur to pašu nepilnīgo un dažkārt ar iztrūkstošām lapām esošo materiālu.

Pateicoties privātam kantorim VFS Films (tā pati Vides filmu studija), iekš Vimeo var noskatīties de iure pirmo, bet de facto otro Latvijas skaņu filmu “Gauja”. Ar leģendāriem cilvēkiem kadrā.

Liels paldies Uldim Zariņam par vizītes saorganizēšanu, Artūram Žoglam un Marikai Karlsonei par pieņemšanu, stāstīšanu un demonstrāciju. Noteikti aiziešu ciemos arī tad, kad būs notikusi pārvākšanās uz jaunajām telpām. Jo vecās izskatās šādi un krājumi nav uz vietas — tie ir jāpieved klāt, lai varētu salīdzināt un apsveikt ar jaunajām mājām. Paldies arī Raivim Skadiņam no Tildes par operatīvi sniegto papildus informāciju.

Digitalizētāju darba telpas Tērbatas ielā 75. Fiksēts 2013. gada oktobrī.

Nu, kaut kā tā, manu lasītāj. Ko teiksi?

Ierakstiem, kas vecāki par 42 dienām, komentēšanas iespēja tiek slēgta. Ja Tev aizvien ir ko teikt, dod ziņu jebkurā veidā, kurš norādīts teitan.

Marta

2013. gada 21. novembrī, plkst. 09:02

Paldies, super raksts!

Marta

laacz Autors

Uldis

laacz Autors

kk

laacz Autors

Krotow

KKTK

Oļegs Baļss

laacz Autors

Oļegs Baļss

laacz Autors

Lidotājs

Tom

laacz Autors

e-remit

Uhh

laacz Autors

Toms

Lauma

M

Bonkajs

haris

Hp

Osis

ulzha

Storms

tjo

Marcis

Uh

Taka