← Uz sākumu

Kā LNB digitalizē vēsturi?

2013. gada 21. novembrī, 33 komentāri

Sveiks, mans dārgais lasītāj. Zini, šī paša gada 11. oktobrī ap pusčetriem pie Tērabats ielas 75. nama plānotā vīzē satiku Artūru, kurš fīrē visu, kas notiek Latvijas Nacionālās bibliotēkas Digitālajā bibliotēkā. Un, kas par sagadīšanos, ikurāt tanī ēkā pašlaik arī notiek izdevumu (laikraksti, grāmatas) digitalizācijas process. Nu, labi. Es viekārši kā blogeris iedomājos, ka būtu feini apskatīt - kā tās lietas īsti notiek, lai pēc tam to visu aprakstītu blogā un galu galā sēdētu un skaitītu apmeklētājus, kuri man būs (kas ir nauda, kura man nekad nebūs).

Pati ideja par šo vizīti man bija jau sen, bet saņēmos pēc Ventspils brauciena, kad atpakaļceļā sanāca apmeklēt vienu mazo zoo, kur atsevišķā ēkā bija savākts viskautkas, ieskaitot kaudzi ar vecām grāmatām, vēstulēm un laikrakstiem.

Brīdinu, ieraksts man sanācis dižs.

Liriska atkāpe. Latviešu valodā kādu brīdi bija vārds, kurā viens aiz otra sekoja četri "e" burti. Un bija arī vārds, kurā pavisam kopā bija deviņi "e" burti. Un, lai uzrakstītu "dž", viņiem, nabagiem, bija jānopūlās ar "dsch". Tas iebarošanai.

"Japāņu karapulki ieiet Mandžūrijā." ([Atpūta, Nr. 363 (16.11.1931)](http://periodika.lv/periodika2-viewer/view/index-dev.html#panel:pi%7Cissue:/p_001_atpu1931n363%7CissueType:P "Atpūta, Nr.363 (16.10.1931)"))
"Japāņu karapulki ieiet Mandžūrijā." ([Atpūta, Nr. 363 (16.11.1931)](http://periodika.lv/periodika2-viewer/view/index-dev.html#panel:pi%7Cissue:/p_001_atpu1931n363%7CissueType:P "Atpūta, Nr.363 (16.10.1931)"))

Patiesībā tā laikrakstu skanēšana tāda pati skanēšana vien ir, kā mājās. Tik dzelži ir niknāki. Zemāk attēlā var redzēt uzpariktu, uz kuras tiek skanēti lielformāta izdevumi. Viena no vissvarīgākajām niansēm ir iespēja regulēt pušu augstumu, lai atšķirtās lapas ir vienā līmenī. Veiktspēja, ja sevišķi neiespringst, ir 60 atvērumi stundā.

Ar šo tad viņi arī skanē.
Ar šo tad viņi arī skanē.

Tā kā liela daļa no izdevumiem glabājas sējumos, tad tie ir jāārda ārā un pēcāk jāšuj atpakaļ. Projektu laikā tika veikta arī atsevišķu izdevumu restaurācija, bet tagad tam netiek pievērsta liela uzmanība. Galvenais nepasliktināt izdevuma stāvokli, bet pārējo jau var pieciest. Pašlaik tiek strādāts pie reģionālās preses, dažādu trimdas izdevumu un Latvijas Vēstneša iztrūkstošo periodu digitalizācijas, kā arī atsevišķos gadījumos tiek veikts kāds komercpasūtījums (no kura visa nauda aiziet Valsts Kasē un uz LNB atpakaļ nemaz nenonāk sīkāk komentārā skaidro Uldis).

Pēc skanēšanas teksts tiek atpazīts un segmentēts. Atpazīšana ir tas pats vecais labais OCR un svarīgāko elementu korekcija ar roku. Segmentēšana, savukārt, ir pusautomātiskā sleju un rakstu identificēšana, virsrakstu, tabulu un citu elementu atpazīšana.

Atpazīta tiek arī vecā druka. Tās atpazīšana ir iespējama pateicoties sadarbībai ar visiem tekstu-kādreiz-atpazīt-gribētājiem zināmo kantori ABBYY. Viņi skaitās mežonīgi eksperti ne tikai OCR jomā, bet arī specifiskajā fraktūras un gotikas (vecās rakstības jeb ortogrāfijas) automatizētā atpazīšanā. Tā man šķita visinteresantākā, protams. Bet arī jaunās rakstības atpazīšanai gan jau nav ne vainas.

Starp citu, ar ABBYY bija arī mazs kašķis. Tas tālab, ka tas, kas mūsu gotikā mēs bijām izvēlējušies "c" rakstīt vienādiņ kā oriģinālā būtu jāraksta "z" (te var redzēt). Un vācietim gluži paralēli, ka kaut kādā viņu kādreizējā provincē vietējie aborigēni ir ņēmuši un šo svētumu adaptējuši savai smieklīgajai valodiņai. Labi, pārspīlēju. Šīs domstarpības viņi (acīmredzami) kaut kā pamanījās atrisināt konstruktīvi un ar sapratni :) Neprasiet man par mūsu vecās rakstības detaļām. Ceru, ka kāds komentāros spēs paskaidrot mūsu rakstības dialektu :)

Diemžēl, ne vienmēr izvēlētā skanēšanas izšķirtspēja, izdevuma fiziskais stāvoklis vai arī tam laikam raksturīgie saīsinājumi, formatējums un cita specifika ļauj sekmīgi atpazīt visu tekstu, ko var bieži novērot tieši vecās druka gadījumā. Bet, nu, kā ir tā ir. It kā varētu kādu puslīdz mākslīgu intelektu pa virsu palaist, bet, kurš gan to darīs uz tīra entuziasma pamata?

Tātad, pēc skanēšanas viss pārējais darbs notiek iekš DocWorks vides. Teksts ar dievpalīgu ir ticis atpazīts. Aplikācija pati spēj puslīdz saprātīgi arī sadalīt tekstu pa slejām un rakstiem. Tā kā nekāda konteksta viņai nav, tad nākas labot. Apvienot viņasprāt atsevišķus rakstus, kā arī tos, kuri sākas vienā lapā, bet turpinās citā. Tas gan notiek diezgan veikli un ērti. Rezultātā ir izveidots arī tāds kā satura rādītājs.

Rakstā tiek izdalītas dažas lietas. Virsraksti, kuros tiek salabotas arī teksta atpazīšanas kļūdas. Tieši tāpat kļūdas tiek labotas tabulu nosaukumos, attēlu parakstos un autoru vārdos. Pārējo tekstu gan neviens nelabo. Tas aizņemtu pārlieku daudz laika.

Starp citu, ar autoriem saistās lielisks pastāsts no tiem laikiem, kad tika realizēts lielais projekts par Eiropas naudu un teksta atpazīšanas un segmentēšanas veicēji bija LETA. Bet par to mazliet vēlāk, kad runāsim par to.

Beigu beigās no tā visa tiek izveidoti vairāki XML un PDF faili, kuri satur kā oriģinālo skanēto bildi, tā tekstu, tā atpazīšanas ticamību, atrašanās vietu bildē, un arī citus metadatus. Starp citu, atpazīstot tekstu, nekādas korekcijas netiek veiktas. Tiek atstāta kā rakstība, tā arī drukas kļūdas (ja neskaita virsrakstus) ar retiem izņēmumiem. Piemēram, "Atpuhta" tika tomēt labota uz "Atpūta".

Nu, re. Pašlaik viņi ar šo digitalizāciju nodarbojas paši, bet bija reiz laiki. Laiki, kad tika realizēti Eiropas projekti. Viss rezultāts ir pieejams portālā periodika.lv, kuru no gaismas Gaismas tīkla var redzēt pilnā apmērā, bet pārējie tikai senākos materiālus.

Pirmajā versijā skanēšanu nodrošināja pati LNB. Tur tika iekļauti 40 laikrakstu komplekti (aptuveni 350k lapu). Ieskanētie teksti tika nodoti tālāk Izraēlas kantorim, kurš veica gan segmentēšanu, gan paša portāla veidošanu. Viņiem gan neizdevās nekas ar veco druku, jo to viņi neprata, bet ABBYY licenci viņiem neviens tā vienkārši nedeva. Rezultāts bija viņu izstrādāts risinājums.

Tad nāca otrā kārta. Otrajā kārtā trešajai pusei tika uzticēta skanēšana, segmentēšana un teksta atpazīšanas kļūdu labošana. Par skanēšanu atbildēja Lattelecom BPO, savukārt pārējā darba darītājs bija mūsu pašu LETA, kas patiesībā ir diezgan universāls kantoris.

Digitalizēti tika milzīgi laikrakstu apjomi. Projektā tika nodarbināti ap sešdesmit cilvēku, kuri tika dalīti grupās un pēc konveijera principa katra grupa darīja ko savu. Vieni skanēja, citi laboja kļūdas virsrakstos, vēl citi segmentēja.

Darboņiem tika pastiprināti piekodināts neiedziļināties sava darba augļos, jo tas diezgan nopietni spēja sagraut produktivitāti. Savukārt, tiem, kuru uzdevums bija segmentēt, bija piespiedu pauzes galvas vēdināšanai.

Te tad arī nāk jautrais pastāsts. Kā jau minēju, pie rakstiem ir jāatzīmē arīdzan to autori. Ar laiku jau iemanās mazliet krāpties - redz, raksta beigās ir kaut kāds mazs vārdiņš. Ko nu tur lasīt - autors, takš. Āreče. Tieši tāpēc liels bija izbrīns, ka izrādījās, ka atsevišķos Latvijas vēstures periodos nomācošam daudzumam avīžu rakstu rakstu autors bija neviens cits kā “Hail Hitler”. Savukārt, konkrētai laikrakstu kategorijai lielai daļai rakstu, kā izrādās, autors ir “Āmen”.

Visa rezultātā periodikā un citos resursos pašlaik ir uzkrātas aptuveni 7000 grāmatu (pusotrs miljons lapu) un aptuveni 1000 laikrakstu komplektu (aptuveni trīs miljoni lapu). Paša periodikas portāla jauno versiju veidoja Datakom, jo iepriekšējais risinājums neparedzēja atsevišķas "fīčas", kuras LNB vēlējās jaunajā.

Kopumā pašlaik ir digitalizēts teju vai viss līdz 1940. gadam. Ja pieskaita to, kas jau ir digitalizēts pēc 1940. gada, tad paši bibliotēkas darbinieki lēš, ka elektroniskā formātā varētu būt pieejama aptuveni puse no Latvijā un trimdā jelkad izdotajiem laikrakstiem un žurnāliem. Par kapacitāti spriežiet paši. Ar pašreizējām jaudām viens cilvēks spēj digitalizēt (neskanējot; tīri segmentējot) viena gada Latvijas Vēstnesi divos mēnešos. Ar digitalizāciju pašlaik nodarbojas divi cilvēki, taču kopumā darba vietas tur ir pieciem. Skanēšana, protams, ir daudz veiklāks process. To, ko var saražot viens skanētājs, lai neuzkrātos rinda, segmentēšanā ir jāapstrādā desmit cilvēkiem.

Varētu padomāt, ka vajag tik sadarīt darāmo ar vecajiem laikrakstiem un, kā saka krievi, lieta cepurē, ne? Redz, ja būtu luste, iespējas un vēlme digitāli glabāt laikrakstus, kuri iznāk šobaltdien, tie būtu... jāskanē. Raugi, neviens likums nenosaka, ka izdevniecībām papildus obligātajam eksemplāram bibliotēkām būtu jāpiegādā arī elektroniskais makets. Pat ne PDF formā.

Starp citu, iepriekšējo projektu ietvaros ir saskanēts milzumdaudz materiālu. Un 500000 lapu (jā, piecsimts tūkstoši) neapstrādāto skanējumu sūtīs prom uz Europeana. Viņi paši tad tur veiks 100% automatizētu atpazīšanu, bet brutālu - bez segmentēšanas per se. Vismaz ar rezultātiem teicās padalīties.

Kas attiecas uz grāmatu skanēšanu, tad tur ir viss daudz vienkāršāk, lai gan darbs ir piņķerīgāks. Nē, viņi neizmanto lētučus. Pie kam, tāds nebūtu piemērots vecajām grāmatām, kuru stāvoklis liek meklēt delikātu pieeju. Tāpēc viņu rīcībā ir speciāls grāmatu skaneris (Robertiņš, protams).

Robertiņš. Pagaidām nestrādā.
Robertiņš. Pagaidām nestrādā.

Robertiņš ņipri rīkojās ar gaisu, ar lāzeriem un lapu turētājiem. Tas ir regulējams astoņsimt dažādos veidos. Tam var norādīt lapas biezumu, pāršķīrēja, piesūcēja un atdalītāja spēku, utt utjpr. Viņa darbības princips ir sekojošs. Skaneris "iebrauc" grāmatas atvērumā un to nofotografē. Braucot atpakaļ, jamais ar konfigurējamu spēku ar gaisa palīdzību piesūc pāršķiramo lapu. Pārējās lapas pietur separators vai kā nu tur to sauca. Laižoties lejā pāršķīrējs jau lapu ir pāršķīris un var ķerties klāt pirmajam solim.

Robertiņš strādā.
Robertiņš strādā.

Tempi viņam teorijā ir līdz pat 1500 lappušu stundā, taču, protams, praksē tie ir divas līdz trīs reizes mazāki. Lai cik maigs un jauks nebūtu Robertiņš, atsevišķas grāmatas tomēr sanāk skanēt, pāršķirot un nofiksējot lapas ar rokām. Tas varētu nebūt ļoti aizraujošs darbs. Iespēju robežās tiek skanētas arī grāmatu muguriņas (galiņi? sāniņi?).

Kā jums šķiet, kurš ir viens no lielākajiem klientiem uz grāmatu skanēšanu? Tilde. Viņi bieži vien prasa tieši ārzemju autoru darbu tulkojumus, kas nozīmē, ka to izmanto sava tulkotāja treniņam un uzlabošanai. Mani gan tas mazliet mulsina, jo grāmata jau nav prasts tulkojums, bet gan adaptācija. Bet, lai jau paliek. Viņi labāk zina.

Pēc Tildes pasūtījuma vai kopprojektu ietvaros digitalizēti tika arī materiāli, kuri tika izmantoti viņu pētnieciskajā projektā SEMO (dokumentu automatizēta klasifikācija neatkarīgi no to valodas vai veida). Šis tas no pašu LNB digitalizētā (piemēram, pastkartes) ir pieejams Tildes Letonikā. Protams, ka LNB ir lieliska vieta, kurp doties, kad vajag specifisku materiālu. Un lieliski, ka tieši turp dodas tie, kuriem šis materiāls ir nepieciešams. Žēl, tiesa, ka samaksātā nauda nepaliek LNB...

Digitalizācija lielākā vai mazākā mērā notiek jau kopš pagājušā gadsimta beigām. Redz, kur ir jau otrās paaudzes serveris. Pirmais bija uz magnētiskajiem diskiem. Bet evolūcija bija loģiska - magnētoptiskie diski, kompaktdiski, dvd un beigu beigās serveri.

Otrais serveris, kā smejies.
Otrais serveris, kā smejies.

Un pavisam aizmirsu. Par to “nepeeseeneetees” tu man noticēji? Nenoticēji? Pavei pats ;)

Nepeeseeneetees, ja? (["Dzimtenes Vēstneša" Literārais pielikums, Nr. 68 (21.03.1913)](<http://periodika.lv/periodika2-viewer/view/index-dev.html#panel:pi%7Cissue:/p_001_dzvr1913n068%7CissueType:P ""Dzimtenes Vēstneša" Literārais pielikums, Nr.68 (21.03.1913>)"))
Nepeeseeneetees, ja? (["Dzimtenes Vēstneša" Literārais pielikums, Nr. 68 (21.03.1913)](<http://periodika.lv/periodika2-viewer/view/index-dev.html#panel:pi%7Cissue:/p_001_dzvr1913n068%7CissueType:P ""Dzimtenes Vēstneša" Literārais pielikums, Nr.68 (21.03.1913>)"))

Secinājumi ir vienkārši. Kārtējo reizi mazliet žēl, ka nav gana daudz naudas. Kārtējo reizi milzīgs prieks, ka ir cilvēki, kuri ar prieku dara un mīl savu darbu. Kārtējo reizi izskatās, ka varētu izveidoties lieliska sadarbība starp dažādām valsts, pašvaldību un privātajām iestādēm (piemēram, AILAB un LNB). Vajag vien gribēšanu.

Runājot par sadarbību ar AILAB - tā ir notikusi, bet vēl nav beigusies. Piemēram, kopīgiem spēkiem ir izstrādāts risinājums, kurš prot paņemt kā izejas datus vārdu no vecās drukas pat ar kļūdu un to pārvērst mūsdienu valodā. Kādreiz aitas dēvēja arī par "vuškām", ko rakstīja kā "wuschka". Atpazīšanas rezultātā iezogas kļūda un vārds tiek atpazīts kā "muschka". Serviss to prot pārveidot šādi: "muschka" -> "wuschka" -> "vuška" -> aita. Diemžēl, šis vēl nav integrēts periodikā.

Otrs kopdarba rezultāts ir LNB Laboratorija. Tā ietvaros teksts ticis analizēts un tajā atzīmēti potenciālie īpašvārdi (personas, vietas, institūcijas, laika periodus, utml), ņemot vērā dažādās rakstības un locījumus. Kas nozīmē, ka, piemēram, meklējot Jelgavu, atradīs arī Mītavu. Vai arī, Artura minētais piemērs par skaidrojošās funkcijas integrāciju tanī pašā periodikā - meklēšanu varētu veikt, piemēram, pēc "Aleksandra Čaka iela", bet atrastu arī visu laika posmā no 1920. līdz 1940., kur ir minēta "Marijas iela" (tajos gados tā pilnā garumā tā tika dēvēta), kā arī padomju laika tekstos "Suvorova iela". Šīs idejas, protams, arī ir nākotnei un vēl nav pilnībā realizētas. OK, Marijas iela tur nefigurē, bet man līdz šim nezināmā "Pionieru" gan.

Čakmarijpieonieru iela ir zināma.
Čakmarijpieonieru iela ir zināma.

Vēl es būtu priecīgs, ja esošie un internetā pieejamie projekti nebūtu tik ļoti izkaisīti. Periodika.lv autortiesību dēļ no nebibliotēkām ir pieejama ļoti ierobežoti. Meklētājs tur ir nekāds, pārlūkot rezultātus un saturu arī nav dikti ērti.

Par autortiesībām. Es saprotu, ka tādas ir un saprotu arī normu harmonizāciju visas Eiropas Savienības kontekstā. Taču, ja man būtu teikšana, es noteikti laikrakstu un žurnālu publikācijas padarītu par izņēmumiem. Un, kā saka, ejiet visi ieskrieties.

Ir arī citas jaukas iniciatīvas un projektiņi, kas, tiesa, ne pavisam neliecina par kādu kopēju stratēģiju. Piemēram, pateicoties skaņu plašu digitalizācijai, internetā var paklausīties vecos bellakordus. Interesants, protams, ir arī otrs digitalizācijas projekts - Zudusī Latvija, kurā tiek apkopoti attēli (pašlaik aptuveni 28 tūkstoši). Lasāmkoks arī jau labu laiku kā netiek papildināts un satur to pašu nepilnīgo un dažkārt ar iztrūkstošām lapām esošo materiālu.

Pateicoties privātam kantorim VFS Films (tā pati Vides filmu studija), iekš Vimeo var noskatīties de iure pirmo, bet de facto otro Latvijas skaņu filmu “Gauja”. Ar leģendāriem cilvēkiem kadrā.

Liels paldies Uldim Zariņam par vizītes saorganizēšanu, Artūram Žoglam un Marikai Karlsonei par pieņemšanu, stāstīšanu un demonstrāciju. Noteikti aiziešu ciemos arī tad, kad būs notikusi pārvākšanās uz jaunajām telpām. Jo vecās izskatās šādi un krājumi nav uz vietas - tie ir jāpieved klāt, lai varētu salīdzināt un apsveikt ar jaunajām mājām. Paldies arī Raivim Skadiņam no Tildes par operatīvi sniegto papildus informāciju.

Digitalizētāju darba telpas Tērbatas ielā 75. Fiksēts 2013. gada oktobrī.
Digitalizētāju darba telpas Tērbatas ielā 75. Fiksēts 2013. gada oktobrī.

Nu, kaut kā tā, manu lasītāj. Ko teiksi?

Tu atbildi augstāk redzamajam komentāram. Atcelt

Gravatar Uldis

2013. gada 21. novembrī, plkst. 09:42

Īsti pareizi gan Artūrs nav izstāstījis par to valsts kasi un LNB kasi - ir ieņēmumu plāns, kas jāpilda, un šī nauda ir ierēķināts budžetā - ja plānu neizpilda, tad rezultātā pietrūkst naudas kaut kam; uz valsti kasi, ja nemaldos, aiziet tas, ko nopelna pa virsu. Un arī ar nopelnīto naudu nevar rīkoties kā ienāk prātā, ja nemaldos, piemēram, to nevar tērēt atalgojumam. Katrā ziņā nav tik slikti, ka mēs to naudu vispār neredzētu. Un nav arī tā, ka plāna un stratēģijas nebūtu. Mērķis, pavisam vienkārši, ir digitalizēt visu, kas Latvijā izdots, nu un tad, pamazām no dažādiem galiem klāt ķeroties, tas viss tiek arī kustināts. Par integrāciju un meklēšanu - nevaru nepiekrist, gribētos labāk, un šis tas arī būs labāk nākamgad.

Gravatar laacz Autors

2013. gada 21. novembrī, plkst. 10:03

Paldies, Uldi, par piebildēm. Drīzāk nevis Artūrs nepareizi izstāstīja, bet gan es neuzdevu papildjautājumus. Vēl mācos ;)

Gravatar kk

2013. gada 21. novembrī, plkst. 09:47

šāds blogošanas veids - aizgāju, izpētīju, uzrakstīju, ir savā ziņā tukša tirgus niša, Kaspar.

Gravatar laacz Autors

2013. gada 21. novembrī, plkst. 10:25

Ak, es to ļoti labi saprotu. Lai gan laika patēriņš bija relatīvi milzīgs, pašam par gala rezultātu ir liels prieks.

Vēl man rindā stāv raksts par TNS un TV auditorijas pētījumiem (biju ciemos). Kopš pavasara, iedomājies? Ceru, ka pieraksti nekur nav pazuduši, jo visu laiku tos rūpīgi pārliku no vienas vietas uz citu.

Nekādus plānus gan kalis neesmu (piemēram, viens šāds raksts reizi mēnesī), līdz ar ko arī solījumus nekādus dot nevēlos, bet, kas zin...

Gravatar Krotow

2013. gada 22. novembrī, plkst. 01:26

TNS ir cūkas attiecībā pret saviem darbiniekiem. Tur uz minimālās algas un baro ar solījumiem, ka būs pasūtījumi tā vietā, lai nevilktu aiz astes un atzītos, ka šobrīd darbinieku, ir par daudz un tad ar viņiem civilizēti izbeigtu darba attiecības.

Gravatar

2013. gada 29. novembrī, plkst. 22:49

Pie rakstus ko ilgi neizmanto šī vajag digitalizēt!!! ;)

Gravatar KKTK

2013. gada 21. novembrī, plkst. 12:40

Jā, izvēlies kombinātu. Zivju cehs jau bijis :D

Gravatar Oļegs Baļss

2013. gada 21. novembrī, plkst. 09:50

Fraktūra nevis faktūra. Mūsdienās mēs to uzskatam par vienu no gotikas veidiem.

Gravatar laacz Autors

2013. gada 21. novembrī, plkst. 10:02

Paldies par norādi. Zemapziņas izraisīta drukas kļūda. :)

Gravatar Oļegs Baļss

2013. gada 21. novembrī, plkst. 09:57

Vācu valodā Z ļoti bieži izrunā kā C. No tā arī šāda dīvainība rakstībā.

Gravatar laacz Autors

2013. gada 21. novembrī, plkst. 10:02

Tas tā kā ir skaidrs. Vairāk mani sajūsmināja tas, ka vācieši ne par ko nevēlējās ieviest šīs mūsu valodai specifiskās izmaiņas bez maza strīda :)

Gravatar Lidotājs

2013. gada 21. novembrī, plkst. 10:21

Elementāri! Vācu valodā "z" izrunā kā "c" (vismaz daudzos vārdos). Noklausīties var šeit: http://translate.google.lv/#lv/de/cukurs

Gravatar Tom

2013. gada 21. novembrī, plkst. 10:24

Laacz, speciāli tev:

Vārdam "Skanēt" latviešu valodā ir cita nozīme un tam nav nekāda sakara ar vārdu "skenēt".

http://termini.lza.lv/term.php?term=sken%C4%93t&list=sken%C4%93t&lang=LV http://www.draugiem.lv/valodueksperts/news/?p=10050074

Gravatar laacz Autors

2013. gada 21. novembrī, plkst. 10:27

Es apzināti lietoju vārdu "skanēt", nevis "skenēt". Nav teikts, ka nākotnē arī šis termins nenonāks manā leksikonā, bet pagaidām paliek tā kā ir.

Gravatar e-remit

2013. gada 21. novembrī, plkst. 10:55

Paldies, laacz! Bulciņa tev par to!

Gravatar Uhh

2013. gada 21. novembrī, plkst. 12:20

"grāmata jau nav prasts tulkojums, bet gan adaptācija" -> parasti grāmatas ir ļoti tiešs tulkojums - var sastatīt teikums-pret-teikumu un ir ļoti maz atšķirību; reizēm (pāris % vai mazāk) ir 1-pret-2 vai 2-pret1 teikumi, kad kautko savelk kopā/atdala; bet vismaz tulkotajā daiļliteratūrā manuprāt reti gadās tā, ka kādā teikumā atšķirtos saturs vai mainīta kaut secība teikumiem.

Vai Tev ir padomā kādi konkrēti piemēri, kāpēc liekas ka grāmatas mēdz būt adaptācija?

Gravatar laacz Autors

2013. gada 21. novembrī, plkst. 12:31

Mājās apskatīšos un salīdzināšu, bet man tā ir šķitis vienmēr. Tāda kā aksioma.

Gravatar Toms

2013. gada 21. novembrī, plkst. 17:13

Es te vairāk no teorētiskās puses. Manuprāt, dokumentu tulkojumi parasti ir ļoti tieši, turpretim daiļliteratūra ir diezgan tieša, tomēr pastāv atšķirīgas teorijas un izpratnes (piem., tulkojuma mērķis), tāpēc šad un tad var nonākt līdz zināmai adaptācijai (nerunāšu, vai tas labi vai slikti, jo nevēlos skanēt kā filosofs). Daiļliteratūru tulkojot, ir jāievēro, piem., valodas konstrukcijas īpatnības, izteicieni, autora stils, mērķis u.tml., tāpēc ir pilnīgi pieļaujamas kontrolētas atkāpes no tieša tulkojuma, ja tulkotājs to uzskata par nepieciešamu (tāpēc tas ir vissarežģītākais tulkojums). Protams, ka tradicionāli pamatmērķis jebkādā tulkojumā ir 1:1 atbilstība, bet realitātē to ne vienmēr visos valodas līmeņos var izdarīt, jo tad tas var būt neveikls, grūti lasāms u.tml. (ko daiļliteratūrā parasti nedrīkst pieļaut), tad notiek zināma adaptācija. Ātri sameklēju kaut kādus piemērus.

  1. te, manuprāt, pārveidošana notikusi labskanības dēļ: „It viršukalnių sniegas mums nepasiekiami.“ tulkots kā: „Ir tālu kā kalngalu sniegi. “ burtiski skanētu: „Itin kā kalnu virsotņu [jeb kalngalu] sniegs mums neaizsniedzami.“ (respektīvi, pazudusi salīdzinājuma konstrukcija) Vai
  2. te jau samanāmas pūles tekstu padarīt ierastāku savas kultūras pārstāvim. „Vedybinis žiedas, balti kaip sniegas marškiniai... “ tulkots: „Gredzens pirkstā, krekls balts kā sniegs... “ burtiski skanētu: „Laulības gredzens, krekls balts kā sniegs...“

Teorētiskā literatūra stāsta, ka uz latviešu un citām mazajām valodām tulkojot, ir tendence diezgan tieši tulkot, tomēr, kad mērķvaloda ir lielāka kultūra, tad ir tendence to adaptēt savai kultūrai (attiecīgi — valoda arī ir kultūras sastāvdaļa), nesaglabājot tik daudz savdabību.

Bet patīkams raksts! Paldies! P.S. manuprāt, par „vuškām“ aitas nekad nekur nedēvēja, izņemot Latgali, kur, ļoti iespējams, tās tā dēvē vēl šobaltdien.

Gravatar Lauma

2013. gada 21. novembrī, plkst. 19:00

Ja pareizi atceros, ļoti adaptīva veida tulkojums bija pirmais O.Vailda "Doriana Greja ģīmetnes" tulkojums latviešu valodā.

Par grāmatu izvēli automātiskajai tulkošanai, manuprāt, ir ļoti vienkārši - vajag daudz. Ļoti daudz. Un vēl daudz vairāk. Grāmatas sanāk viens no pieejamākajiem veidiem, kā iegūt paralēlus tekstus vajadzīgajos apjomos. Savākt cilvēkus, kas veic automātiskās tulkošanas vajadzībām īpaši piemērotu tulkošanu, būtu dārgi un nav jau nemaz arī tik skaidrs, kāda tad ir tā "īpaši piemērotā" tulkošana.

Gravatar Bonkajs

2013. gada 21. novembrī, plkst. 15:42

Kolosāli! Tiešām jauks raksts par lietu, kas ļoti interesē!

Darba vajadzībām pa retai reizei sanāk digitalizēt rasējumus (tas protams no citas sērijas), bet saikne ar visu šo ir un patīk.

Gravatar haris

2013. gada 21. novembrī, plkst. 16:12

Paldies par vārdu "skanēt"! Man nepatīk vārds "skenēt", bet sabiedrības ietekmē sāku to lietot. Nu ar mierīgu sirdi varēšu atgriezties pie sākotnējās vārda formas.

Gravatar Hp

2013. gada 21. novembrī, plkst. 16:49

Paņem no plaukta bulciņu, esi godīgi nopelnijis. Bija intresanti lasīt un lai veicas jauniešiem ar dihitalizāciju ;-)

Gravatar

2013. gada 21. novembrī, plkst. 18:31

interesanti fakti par zināmo (nezīnāmo lielai daļai cilvēku)

Gravatar Osis

2013. gada 21. novembrī, plkst. 23:37

Tā arī nesapratu, kas vainas vārdiem "eeeet" un "nepeeseeneetees". Tas ir vienkārši senāks visparastāko latviešu vārdu pieraksts, proti, tas ir weenkahrschi senahks wisparastahko latweeschu wahrdu peeraksts.

Gravatar ulzha

2013. gada 24. novembrī, plkst. 12:44

Osis: neviens arī neteica, ka ir vaina.

Gravatar Storms

2013. gada 25. novembrī, plkst. 02:15

A es biju domājis ka ar digitalizāciju viss pilnīgā d***... A izrādās!? Hmm... Būtu jau dikti feini ja būtu iespēja tā pat vien prieka pēc pašķirstīt šos vecos izdevumus cipariskā formātā - neizejot no mājas. Bet, vismaz pagaidām cik saprotu tas nespīd... Prieka pēc dzīties uz LNB darba laikā... brr, nekāda prieka.

Gravatar tjo

2013. gada 26. novembrī, plkst. 13:45

Bet kas traucē? Cilvēkiem parastajiem tas ir pieejams iekš periodika.lv

Gravatar Marcis

2013. gada 26. novembrī, plkst. 14:56

Tiešām interesants raksts!

Gravatar Uh

2013. gada 3. decembrī, plkst. 14:37

Man tieši labāk patīk "skenēt", jo "skanēt" var mūzina un tas liekas nepareizi.

Gravatar Taka

2013. gada 14. decembrī, plkst. 13:28

Kādreiz aitas dēvēja arī par “vuškām” Latgaļi tā tās sauc joprojām