Jautājumi par bibliotēku fondu digitalizāciju
Gūgle neko sevišķi daudz nepiedāvā. Varbūt neprotu meklēt. Tālab vaicāšu teitan.
Kāds vispār ir progress bibliotēku fondu digitalizācijā? Es nedomāju par vienkāršu ieskanēšanu. Mani vairāk interesē tiešie jautājumi - vai tāds projekts eksistē, vai tas tiek ieviests, vai ir kādi rezultāti, vai tie ir pieejami vienkāršiem mirstīgiem? Kā veicas (veiktos) ar OCR (teksta atpazīšanu), klasifikāciju, pieejamību tiešsaistē?
Vai eksistē vienots projekts valsts lielo arhīvu (LNB, zinātniskās bibliotēkas, uc) digitalizācijai?
Kuras institūcijas pārraudzībā šis projekts ir/būs/varētu būt? Kāds tam ir/būs paredzēts finansējums? Tā avoti?
Es pilnībā apzinos, ka tas ir kārtējais meganaudas projekts, pateicoties kam tas ir ne tikai ekonomiski ieintersēto personu strīdus objekts, bet, kā jau mūsu valstī ierasts, arī politisko cīņu ierocis.
Cik nopratu no meklēšanas, SWH tehnoloģijas (tagad Exigen) ir izstrādājuši kaut kādu mistisku softu, kurš ietver sevī klasifikatoru un Finereader. Tas tiekot izmantots. Vai tas ir viss? Ja jā, tad kā tur sokas?
newage
2006. gada 22. jūnijā, plkst. 09:40
Kaut kas ir te: http://www.gaismaspils.lv/lat/lnb/modernizacija Un kaut kas ir arī te: http://www.gaismaspils.lv/lat/projekts/gaismas_tikls Un pavisam noteikti arī te: http://www.km.gov.lv/UI/imagebinary.asp?imageid=1261
efix
2006. gada 22. jūnijā, plkst. 09:46
Projekta nosaukums ir DiBi (Digitālā Bibliotēka). Veic to LNB. Līdzekļus piešķir LR KM. Jāsaka, ka Latvija digitalizācijas jomā Eiropā nav tajā labākajā pozīcijā, bet attīstība jau notiek. Lēnām. Nevaru tagad atrast vienu prezentāciju, kur bija salīdzinājums par digitalizācijas apjomiem Eiropas valstīs.
Kā pats redzēji, ir lietas, kas tiek pastiprināti digitalizētas, cik nu līdzekļi un iespējas atļauj. Un taisnība te komentāram, ka nevajag cerēt un gaidīt, ka tiks digitalizēti jaunākie izdevumi. Šobrīd svarīgākais ir censties saglabāt kultūras mantojumu no senākiem laikiem.
Runājot par programmatūru, un skenēšanas tehnoloģijām, problēma pasaulē ir tāda, ka ir grūti paredzēt kā attīstīsies tehnoloģijas, un vai šobrīd digitalizētais materiāls pēc gadiem 100, piemēram, būs nolasāms.. bet nu to var tikai zīlēt.
Par konkrētākām lietām, ja ir vēlme, lai stāsta LNB cilvēki :)
asdf
2006. gada 22. jūnijā, plkst. 11:12
A bet protams, ka šobrīd digitalizētais materiāls būs vai nu nolasāms vai arī tiks konvertēts uz citu formātu.
bibliotekārs
2006. gada 22. jūnijā, plkst. 11:12
Digitalizācija bibliotēkās ir viena no aktuālākajām attīstības tendencēm. Eiropā un pasaulē tas jau notiek sen. Latvijā tā pamazām sākas ar maziem atsevišķu bibliotēku projektiem. Nekāds vienots megaprojekts nav, tikai vienotas koncepcijas. Projektus atbalsta Kuktūrkapitāla fonds un v/a Kultūras informācijas sistēmas. Par visu bibliotēku fondu digitalizāciju gan nevar būt ne runas. Parasti digitalizē tikai kādas senas, atsevišķas kolekcijas. Tā pamatā ir kult-vēst. mantojuma saglabāšana, bet pats galvenais autortiesības - nav droši digitalizēt jaunos darbus. Autorties. likums šajā ziņā neattiecas uz darbiem, kuru autors jau 70 gadus ir miris. Tas arī ir dārgs prieks, īpaši veco, reto grāmatu digitalizācijai. Nepieciešami speciāli skeneri, attēlu apstrādes programmas un metadatu programmas, kas apraksta attēlu vai tekstu, lai to var sameklēt un liels darbs...
moonlight
2006. gada 22. jūnijā, plkst. 11:16
bibliotekārs / efix: Tas viss ir koncepcija un yada-yada-yada.
Mani kā vienkāršu mirstīgo intersē Quo Vadis un cik tālu esam - cik grāmatas jau ir nodigitalizētas un kādos formātos tas notiek? Vai LNB varēs lasīīt arī Latvijas 1 neatkarības laika žurnālus? Utt.
Pagaidām ir tikai koncepcijas un kaut kādas summas par adiministrēšanu, etc. Nekas cits plašākai sabiedrībai netiek "mārketēts". Un tā ir kļūda. Viena no.
CaptSolo
2006. gada 22. jūnijā, plkst. 13:41
bibliotekārs: Kāpēc gan nevarētu digitalizēt darbus, kam autortiesības ir spēkā? Vai tad bibliotēkas (un iespējams mācību iestādes) nav īpaši atrunātas autortiesību likumdošanā - ka tās drīkst darīt lietas, ko vienkārši mirstīgie ne?
Vienīgi var būt jautājums vai bibliotēkas drīkstēs brīvi izplatīt ar autortiesībām aizsargāta darba elektroniskās kopijas. Acīm redzot nē. Tomēr digitalizēt priekš elektroniskā arhīva - kāpēc ne?
Google jau arī digitalizē ar autortiesībām aizsargātus darbus un piedāvā to meklēšanu. Uzbrukt jau viņiem uzbrūk, bet neviens nav pierādījis, ka tas būtu nelikumīgi. Ja to veiktu bibliotēkas, tad tam būtu vēl labāks attaisnojums.
(PS autortiesību regulētāji visādi cenšas šo 70 gadu termiņu vēl pagarināt)
CaptSolo
2006. gada 22. jūnijā, plkst. 13:52
moonlight: Jautājums ir vai vispār šādi projekti ir domāti lai sniegtu mums kādu labumu. Ja gadījumā tie projekti ir naudas sadalīšanai, tad projekta "nemārketēšana" nav kļūda - neko nesola un neviens neko arī negaidīs.
Pirms laika vaicāju: <a href="http://captsolo.net/info/blog_a.php/2005/10/14/jauta_jums_par_latvju_daina_m" rel="nofollow">Kas notiek ar Latviju Dainām?</a>
Gan tautasdziesmu, gan citu bibliotēku fondu digitalizācijas gadījumā būtiski ir - vai un kā šie darbi mums būs pieejami. Un Laacz jau pieminētie jautājumi par OCR, kategorizāciju, ...
Ja šie projekti notiek par valsts / ES naudu, tad būtu loģiski, ka visi rezultāti būtu cilvēkiem pieejami pilnībā, bez ierobežojumiem un papildus maksas.
zzc21
2006. gada 22. jūnijā, plkst. 16:07
Bibliotēku digitalizācija nav pārak sarežģīts process. Visu nosaka naudas un laika daudums. Dainu skapi noskenēt nebija liela problēma. Jo visas dainas ir uz kartītēm (vismaz tā esmu iedomājies, cik redzēts TV). Kartītes var vienkārši skenēt ar speciālajiem dokumentu skeneriem. Grāmatu un avīžu skeneri pēc būtības ir augstas izšķirtspējas digitālās kameras. OCR ir risināms ar ABBY rīkiem. Roku rakstītais ir neatpazīstams. Taču jūs nekad nedabūsiet laukā lasāmu grāmatu kaut vai teksta faila veidā bez liela cilvēkdarba. Faktiski atpazītais tests būtu jāpārlasa operatoram. Grāmatu aprakstīšana ar metadatu infrmāciju būtu visprātīgāk. Kā jau tas ir bibliotēku kartītēs. Pēc tam būtu arī visvienkāršāk izmantot rezultātu. Varētu vēl rakstīt daudz, jo arhīvu veidošana ir vārdietilpīga lieta. :o)
CaptSolo
2006. gada 22. jūnijā, plkst. 16:27
zzv21: Dainu skapi noskenēja, bet vai cilvēkiem ir iespējams dabūt pilnu Latvju Dainu "dumpu" lai tās tālāk izmantotu vai analizētu? Un, ja to nevar, tad kāds īsti ir labums no šīs digitalizācijas?
<blockquote>Iz dainuskapis.lv: Informācija šajā lapā paredzēta individuāliem lietotājiem un tās masveida kopēšana un/vai masveida pārpublicēšana elektroniskā veidā ir aizliegta bez rakstiskas saskaņošanas ar Latviešu folkloras krātuvi un Lursoft® IT. Lietotājam aizliegts izmantot jebkādas automatizētas sistēmas vai iekārtas (robotus) informācijas ieguvei no šīs sistēmas bez rakstiskas saskaņošanas ar Latviešu folkloras krātuvi un Lursoft® IT.</blockquote>Nebūtu taču grūti nolikt online pilnu DS "dumpu", ne?
P.S. Par metadatiem taisnība - tas noder.
zzc21
2006. gada 22. jūnijā, plkst. 16:47
Es taču teicu, ka visu noska laiks un nauda. Kādam bija gan laiks, gan nauda.... Un ja kāds nopublicētu visu "skapi kā vienu, lielu failu, tad tas būtu bezjēdzīgs. Tāpat kā katru kartīti atsevišķā failā. Skenētu datu lietderību nosaka to apraksts jeb metafails.
zzc21
2006. gada 22. jūnijā, plkst. 16:49
Pamēģini kādu lielu failu, kas satur kādas 10k lpp. Un atrodi tajā kaut ko vajadzīgu bez meklēšanas funkcijas palīdzības. Tikai ar caurskatīšanu. Nekas prātīgs nesanāks.
edc
2006. gada 22. jūnijā, plkst. 17:29
2CaptSolo
Protams vienmēr būs bļāvēji , kas teiks ka tas ir tautas īpašums, kā par to var prasīt naudu, bet vai kāds ir apmaksājis kaut 1 KW/h kas nepieciešams servera darbināšanai. Par visām "bezmaksas" lietām kāds tiešā vai netiešā vienmēr maksā.
Ar bezmaksas informāciju ir tā - uzturēs resursu valsts,teiks atkal nav kur likt naudu, labāk būtu pensijai pielikuši 0.5Ls, uzturēs prīvātā struktūra, atkal slikti, kāš naudu.
laacz Autors
2006. gada 22. jūnijā, plkst. 17:34
Fakenais wordpress :/
edc
2006. gada 22. jūnijā, plkst. 17:36
piekrītu :D
CaptSolo
2006. gada 22. jūnijā, plkst. 17:40
zzc21: ok - viens fails vai daudzi faili tās ir detaļas.
normāli būtu, ja katram objektam (piem., tautasdziesmai) būtu savs URI. tad Tu vari norādīt uz katru no tiem atsevišķi un kabināt klāt metadatus pēc sirds patikas:
<blockquote>http://dainuskapis/salja_x/tautasdz2043 dc:subject http://dainuskapis/kategorijas/līgosim .</blockquote> Par to vienu lielu failu es domāju priekš tiem pielietojumiem, kur kāds grib analizēt lielu tautasdziesmu apjomu uzreiz - lai nebūtu lieka noslodze (un dainuskapis.lv sapratnē bez rakstiskas atļaujas aizliegtas darbības) mēģinot savākt no sistēmas katru lapu atsevišķi. Lai nebūtu jābļauj, kas tas nav iespējams, viņi varētu piedāvāt arhīvētu failu, kur visa inforācija būtu iekšā. - Kā piemēram: <a href="http://rdf.dmoz.org/" rel="nofollow">Open Directory RDF Dump</a>CaptSolo
2006. gada 22. jūnijā, plkst. 19:00
edc: Kā administratoru es Tevi saprotu.
Vienlaikus arī saprotu, ka tehniski ir salīdzinoši viegli nolikt pieejamus kādu kaudzi failu - nekādu speciālu prasību serverim nav, tiem nav jāatrodas turpat kur Dainu Skapja servera programmatūra, var nolikt pie platas "drāts" un, ja nu datu apjoms tiešām ir liels, tad uzlikt kādu papildus pārbaudi, lai roboti tos failus lielā vairumā automātiski nevilktu.
<blockquote>Ir taču pateikts ka ir nepieciešama rakstiska saskaņošana, saskaņo un tev būs.</blockquote> Ir milzīga starpība starp publiski visiem brīvi pieejamu Creative Commons licenzētu unformāciju un "saskaņo un tev būs". Dainu skapja serviss ir labs un es neapgalvoju, ka to slikti uzturētu. Vienkārši vēlētos, lai publiskā informācija (tautas mantojums tās skaitā) būtu plaši izmantojama par to neprasot papildus atļauju. - Piemērs: "datortārpam" A rodas ašā doma kā interesantā veidā izmantot šos datus (RSS feeds "dienas tautasdziesma", teksta statiskā analīze vai jebkas cits). Ja šie datu būtu rokas stiepiena attālumā, viņš fiksi uzblieztu kodu, kas to dara. Tai pat laikā viņš varbūt nav diezko talantīgs rakstisku atļauju prasīšanā un vēstuļu rakstīšanā. Rezultātā šādi interesanti datu izmantojumi izpaliks. - Rodas iespaids, ka Latvijas valstī domā par to kā datus savākt (un taisa valstiski svarīgus projektus), bet praktiski nedomā par to, ko ar šiem datiem darīs tālāk un kā iedzīvotāji varētu gūt no tiem maksimālu labumu. - Piemērs: kartes un ģeogrāfiskā informācija - savākta par valsts naudu, bet vienlaikus Tev nav brīvi pieejamas Latvijas elektroniskās kartes ar mājām, ielām, ... Zemes kadastrā šī informācija ir. ASV visi šie dati ir brīvi pieejami, rezultātā katrs var veidot savus Google Maps līdzīgus pielietojumus un izmantot datus pēc sirds patikas. <blockquote>Skat. <a href="http://seamless.usgs.gov/" rel="nofollow">Seamless data distribution</a> un <a href="http://www.geodata.gov/" rel="nofollow">GeoData</a></blockquote>zzc21
2006. gada 22. jūnijā, plkst. 21:40
Neliela piebilde. Šādās dokumentu krātuvēs ir dokumenti, kurus meklē pēc to īpašībām. Vienkārši sakot SQL un disks,kur glabājas faili.
CaptSolo
2006. gada 22. jūnijā, plkst. 21:46
zzc21: Bet īpašībām taču nav obligāti jāatrodas tikai un vienīgi SQL bāzē? Vai ir kāds veids kā šos metadatus attēlot ārpus SQL un varbūt padarīt pieejamus online?
(lielākā daļa portālu, blogu un websaitu jau arī ir SQL + faili)
zzc21
2006. gada 23. jūnijā, plkst. 09:05
Vislabākais risinājums ir SQL. Jo veiktspēja ir izšķirošais.
CaptSolo
2006. gada 23. jūnijā, plkst. 11:39
zzc21: Tu nesaprati jautājumu. Pamats var būt SQL bāze (vai jebkas cits, kas nodrošina atbilstošu veiktspēju). Bet tā kā Laacz vaicā par šo fondu pieejamību tiešsaistē, tad būtu lieliski, ja arī tiešsaistē (online) būtu pieejami arī metadati.
Jautājums bija: vai ir kāds veids, kā šos datus padarīt pieejamus online (vēlas ne HTML)?
zzc21
2006. gada 23. jūnijā, plkst. 12:36
Protams! Ir speciālas programmas, kas paredzētas dokumentu krātuvju veidošanai.
moonlight
2006. gada 25. jūnijā, plkst. 20:01
CaptSolo: <i>"Vienīgi var būt jautājums vai bibliotēkas drīkstēs brīvi izplatīt ar autortiesībām aizsargāta darba elektroniskās kopijas."</i>
LNB jau tagad saņem noteiktu skaitu bezmaksas eksemplāru no visām latviešu valodā izdotajām grāmatām. To izdevējiem nosaka likumdošanas prasības. Teorētiski šīs grāmatas ir pieejamas visiem - ej un lasi. Jautājums paliek tikai par to ko katrā gadījumā nozīmē <em>brīvi izplatīt</em> un vai digitalizācijas rezultātā šis materiāls būs pieejams tiešsaistē. Kaut vai samaksājot adekvātu naudas vienību skaitu. P.S. Neesmu tik naivs, lai cerētu, ka viss drukātais materiāls latviešu valodā tik drīz (vai jebkad) būs vispār pieejams elektroniskā formā. Par daudzām lietām noderētu tik vien kā normāls / pieejams elektronisks katalogs ar aprakstu, nosaukumu, autoru, izdošanas gadu(iem), ISSN vai ISBN, vismaz vāka bildi u.c. būtikskiem parametriem pēc kuriem iegūt "phisical evidence", ka uz topošo Antiņa stikla kalnu (nekadās ofensīvas Birkertam - projekts man patīk) ir jēga doties. Par šo tematu pārāk daudz būtu ko teikt...
Pēcjāņu pārdomas par tēmu
2006. gada 26. jūnijā, plkst. 03:42
Varu tikai pažēloties par reālu risinājumu (tā trūkumu)... Lai arī jūtams, ka šejieniešus interesē Nac.bibliotēkas pieeja tiešsaistē vai kas tamlīdzīgs, bet ir arī reālas bibliotēkas un reāli darāmi darbi, kam spēka neronas... Tad lūk --mana mammīte strādā skolas bibliotēkā, kur ievilka internetu un uzlika datoru, kurā tagad jaievada visas grāmatas ... Doma laba, ir arī projekts, ko supervīzē LU cilvēki, tipa vienotais bibliotēku tīkls, bet ... tagad visi nabaga mazie bibliotekāri pārcilā savas tūkstoš grāmatas un ar roku (!) vada iekšā to visu Lotus Notēs!!! Nafig tad tas internets bija vajadzīgs - tas 1 jaut. Otrais -- kapēc nav uztaisīta vienkārša sistēma, ka šadā tīklā iekļautam datoram nevar paņemt grāmatu un ievadīt tikai ISBN numuru, un visi dati par autoru, tēmu, keywords utt automātiski "lookup" no Nac.Bibliotēkas vai cita resursa, ko, b****? Kad es to uzzināju, saķēru galvu! Noskaidroju, ka "kaut kāds veids jau esot kā automātiski dabūt grāmatu aprakstus šai sistēmā iekšā", bet nekur sakarīgi tas nav izskaidrots, un izskatās ka tas noteikti nav pa spēkam pavecākiem cilvēkiem, kam reāli tas darbs jādara... Tāda tad ir reālā situācija -- simtiem tantes visās skolu un rajonu bibliotēkās pārkrauj savus plauktus un raksta visu iekšā ar roku! Tikai tāpēc, ka kādi gudrīši-datubāzes un projekta radītāji nav izdarījuši lietas līdz galam. Tad kāda te e-Gaismaspils, kāda e-Latvija....
Dunduks
2006. gada 26. jūnijā, plkst. 09:54
par skolu biblioteeku sisteemu -
ko var dariit, ka skolu biblioteekas pakljuva zem LIIS un dabuuja sev uz kaklu pietiekoshi eksotisku sisteemu - taa pat nelaimiigaa un daargaa Alise, piemeeram, ljoti labi atbalsta datu importu,un,ja nemaldos, tad LNB Bibliograafijas instituuts (vai kaa to sauca) piedaavaa aprakstus.
p.s. rajonu biblioteekaas paarsvaraa veesturiski mitinaas Alise, cik es zinu, tad no LIIS izkritusii sisteema ir skolu biblioteeku prerogatiiva.
Antuanete
2006. gada 26. jūnijā, plkst. 10:07
Par metadatu publicēšanu - tas jau tiek darīts, vienotajā elektroniskajā katalogā var meklēt pēc ISBN numura, autora, nosaukuma u.tml. Tiek nodrošināts ar Z39.50 protokolu, ar kuru var tikt publicēti metadati no praktiski visām datu bāzēm, konvertējot no konkrētā metadatu standarta un kataloga sistēmas (LV tiek izmantoti dažādi elektroniskie katalogi - LNB un LUB ir Aleph, Akadēmiskajai bibliotēkai Lotus Notes u.tml.). Galvenā problēma meklēšanā ir tas, ka ļoti precīzi jāzina, ko gribi atrast, jo pēc kaut kādiem keywordiem, manuprāt, neko atrast nevarēs. Pilnais metadatu apraksts ir ļoti plašs (Marc21 standartam pāris simti lauku), bet, kā izmantot aptuvenā meklēšanā, īsti nav skaidrs. Cik zinu, tad DiBi sākotnēji koncetrējas uz seno un reto izdevumu saglabāšanu, periodiku, kartēm, savukārt, jaunie izdevumi un vairums grāmatu skenētas netiks, tās tiek pamazām ievadītas elektroniskajā katalogā no kartīšu kataloga. Viens no iemesliem ir autortiesības, kā arī jau minētās automātiskās skenēšanas grūtības. LNB mājaslapā var jau redzēt šo to no saskenētā (plakāti, senās kartes), taču tas ir tādā paraugbildīšu līmenī; pie elektroniskas web bibliotēkias darbs ir tikai sākuma stadijā.
modric
2006. gada 28. jūnijā, plkst. 19:50
A kāpēc būtu jāskanē mūsdienu izdevumi?? Viekāršāk ir komplektā ar obligātajiem eksemplāriem atsūtīt arī maketu da jebkādā no pieejamiem formātiem. Tas gan neies krastā ar Indriķa Livonijas hronikām un tamlīdzīgiem izdevumiem:)), kuru digitalizācijai ir daudz lielāka nozīme kaut vai no saglabāšanas viedokļa, it īpaši, ja ņem vērā, kādos apstākļos daudzus šos unikālos izdevumus bibliotēkas ir spiestas uzglabāt tagad. Kādreiz man Misiņa bibliotēkā pa gabalu parādija Glika bībeli - tuvumā iet un dvašu pūst virsū nedrīkst, lai mikroklimatu nenojauktu - kā tu tādu noskanēsi?
moonlight
2006. gada 28. jūnijā, plkst. 22:58
Nokomentēšu pēdējos komentārus kā izdevēja pārstāvis (vismaz vēl 14 dienas tāds būšu ;) )
Grāmatas tiek sagatavotas drukai ļoti dažādos veidos un ar dažādām programmām, kas būtu salīdzinošs sīkums - pieļauju, ka "LNB" ir spējīga iegādāties gan Indesign, gan Quark Xpress, gan ko citu eksotiskāku... Galu galā arī eksports uz PDF nav atcelts, ja vien arī no šī fomātā datu ievades "vieglums" dajebkādā sistēmā būtu viennozīmīgi ērts. Ir kāda neizbēgama ķibele dēļ kuras par grāmatu LASĪŠANU tiešsaistē var ņemt un aizmirst uzreiz- praktiski neviena licenze, kas nodrošina kāda ārvalstu izdevuma izdošanas tiesības latviešu valodā nedod tiesības šo materiālu izplatīt elektroniski. Šādas darbības statuss ir starp neatrunāts / aizliegts. Ir gana daudz autoru, kas iebilstu pret šāda veida datu izplatīšanu - stādies priekšā kādus zaudējumus autoram var nodarīt šādu datu brīva izplatīšana tīmeklī. Ja ar latviešu autoriem VALSTS (lasi - mēs visi... gigigigi :D) vēl varētu "sarunāt" (Pētera Pirmā garā...) ar attiecīgu likumdošanu, tad tas neies cauri ar citu valstu autoriem. Un punkts. Tā kā, manuprāt, viss ko varam gaidīt ir SENI izdevumi uz kuriem nettiecas LR autortiesību likumdošana vai speciāli izdevumi. Pārējais būs SEARCH pēc ISBN, autora, kā nu tir vēl vai (cerams) pēc normāla meklēšanas algoritma - izlasot postu #25 man gan jau sāk par to rasties šaubas. Jo kā rāda pieredze bieži mūsu pašu "bāliņi" pamanās uztaisīt kaut ko tik sķību, ka vien ir jābrīnās par to cik liels VIENALGA ir visiem, kas iesaistās kaut kādu risinājumu izstrādē. Bet novēlu lai veicas. Precīzāk - ceru, ka veiksies. Vai tas ir Z39.50 protokols vai protokols MZGD man ir diezgan vienaldzīgi. Domāju, ka lielam vairumam tāpat. Galvenais lai strādā. P.S. Glika bībele WWW redzamā formātā nebūtu slikti. Vēlams ne 72 DPI un lapas izmēru 320 pa vertikāli. Tur ir ko paskatīties konkrētāk tikai bez paša fakta, ka esi paskatījies.
Antuanete
2006. gada 29. jūnijā, plkst. 18:02
Moonlight: Cerēsim, ka šoreiz nebūs vienalga, jo pašiem tak ar to brīnumu būs jāstrādā. Un varbūt uztaisīs ko labāku par pašreizējo nesupportēto Aleph. Tā kā ir doma pāriet uz Dublin Core metadatu standartu, tad meklēšanas parametriem un algoritmiem pavērtos plašākas iespējas (ibo, šis standarts skaitās labāks par Marc21). Glika bībeli, visticamāk, varam sagaidīt ieskenētu, jo tieši senajiem izdevumiem būs priekšroka skenēšanā, un ir iepirkta jaudīga skenēšanas tehnika. Webā, protams, neceri uz 300dpi, tādas kvalitātes materiāli, visticamāk, būs uz pasūtījumu, un webā tikai bildes ievērtēšanai.
Vecis
2006. gada 3. jūlijā, plkst. 18:36
Moonlight asked:
Vai LNB varēs lasīīt arī Latvijas 1 neatkarības laika žurnālus?
Pagaidām līdz žurnāliem neesam tikuši. Laikrakstus varam lasīt jau tagad: http://www.lnb.lv/digitala_biblioteka/Laikraksti/index.htm Ja ieskatīsieties uzmanīgāk, redzēsiet, ka galvenā vērība ir piegriezta <i>tieši reģionālajiem</i> izdevumiem. Apjomu nosaka gan mūsu jaudas, gan citu resursu trūkums, gan prioritātes - LNB digitalizāciju uzsāka kā <strike>"restaurācijas"</strike> projektu, lai saglabātu bojā ejošos materiālus. Žurnāli tomēr netika drukāti uz pavisam slikta papīra. Sākotnējie projekti bija vairāk tikai <i>iesildīšanās</i>. DiBi projekts mums nozīmē, ka lēnām pārejam uz visu materiālu rūpnieciskajiem digitalizēšanas un aprakstu, kā arī pilno tekstu veidošanas (OCR) un indeksēšanas procesiem. Lai to vispār varētru paveikt, nepieciešami gan tehniskie resursi, gan izpildītāju apmācības, gan darbu organizācija un koordinācija, pie kam tādā pusrūpnieciskā līmenī. Mēs to tikai mācāmies - bibliotekāriem nav pieredzes "ražošanas" procesos, tā ir jāiegūst soli pa solim. Pašreiz esam "iešūpojušies", darba ātrums ir pietiekami pieaudzis, bet mums ir jāpāriet uz jaunas paaudzes sistēmām, kuras speciāli paredzētas šādu kolekciju veidošanai. Bez tam viens no svarīgākajiem uzdevumiem ir nodrošināt šo kolekciju digitālās formas <i>mūžīgu</i> saglabāšanu. Šis pēdējais uzdevums uzreiz pārvērš DiBi par megaprojektu ar diezgan augstām sākotnējām un uzturēšanas izmaksām. Neminēšu, ka tas viss ir jāiepērk, pie kam tā, lai LNB spētu sadarboties ne tikai Latvijas iekšienē, bet arī Eiropas bibliotēkas (TEL - The European Library) un Eiropas Digitālās bibliotēkas (EDL - European Digital Library) ietvaros, <i>jo visas Eiropas valstu nacionālās bibliotēkas ir šo organizāciju biedri ar atbilstošiem pienākumiem</i>. Nauda DiBi projekta ietvaros tam ir paredzēta, bet galvenokārt 2007.gadā + nav skaidrs, kādi tad pūtīs politiskie vēji. Ar vārdu sakot, mēs strādājam.
moonlight
2006. gada 5. jūlijā, plkst. 10:40
Vecis:
Par laikrakstiem visu cieņu - atradu tur šo to, kas tika meklēts. Kāpēc skanējumam PDF failos ir tāda ne pārāk laba kvalitāte? Vai būs pieejami aŗī formāti augstākā izšķirtspējā? Tālāk jautājumi par komentāriem: Vai to <i>"kā arī pilno tekstu veidošanas (OCR) un indeksēšanas procesiem."</i> - Tas cik noprotu neattiecas uz izdevumiem, kas ir t.s. "vecajā drukā" un laikrakstiem / žurnāliem kā šķiru? Pereodiku taču neplānojat OCR'ot? <i>"bet mums ir jāpāriet uz jaunas paaudzes sistēmām, kuras speciāli paredzētas šādu kolekciju veidošanai."</i> - Vai par šo ir iespējami sīkāki komentāri? Plānotie risinājumi, prgrammatūra, standarti, etc? P.S. Lai politiskie vēji pūš pareizā virzienā!
Vecis
2006. gada 6. jūlijā, plkst. 19:35
moonlight
Mēģinu īsi atbildēt uz jautājumiem.
Kvalitāti nosaka tas, ka mēs pirms tam lietojām vecākas paaudzes skeneri, ko nu esam papildinājuši ar jaunāku. Bez tam visu darbu veica bibliotekāri, un viņiem tas bija vairāk kā tāds eksperiments. Labākus par .JPEG attēlus mums pat tagad nav kur īsti saglabāt, ir ne pārāk mazs arhīvs (1200 CD) ar 300dpi, bet galvenokārt JPEG, ko uzreiz deva skeneris. Tikai tagad sākam sekot visādiem standartiem, kuri nosaka 400-600dpi, glabājot arhīvu TIFF.
Arhīvs būs pieejams, ja labi sarunā, tas nav iepazīšanās pakalpojums, kā parastā pieeja Webā. Juridiskie piederības un autortiesību jautājumi, etc.
<i>Atlasītu</i> daļu vecās periodikas mēs taisāmies OCRot un indeksēt, pamatā tā gan nebūs fraktūrā (vecajā drukā). Ar laiku - varbūt arī būs, nemaz tik traki nav. Protams, ne veco skenu kvalitātē, bet pat tos mums ir izdevies eksperimentāli atpazīt.
Jaunā sistēma - izstrādājam prasības, konkursa jautājums, daļēji arī lokāla izstrāde vai OSS pielabošana, paraugi Britu, Dānijas vai Holandes nacionālajās bibliotēkās. DiBi pamatā nevar būt parastā bibliotēku sistēma, tā ir kaut kādā ziņā līdzīga, bet savādāka.
Standarti: XML, Dublic Core aprakstiem, virkne sadarbības protokolu (OpenURL, OAI-PMH, SRU/SRW, SOAP, CQL) - viss, kas vajadzīgs, lai sistēma ne tikai pildītu funkcijas lokāli, bet būtu iekļaujama kā ķieģelītis dažādās virssitēmās. Pagaidām eksperimenti ar Fedora 2 (tas, kas NAV Linux distro!). Gatavu sistēmu uzreiz, kura pildīs visas prasības, tirgū nemaz nav, būs jāintegrē no "Lego ķieģelīšiem".
Problēmas: 0) pārāk maz IT personāla resursu, bet apjoms mežonīgs. Līdz ar to iesaistīti visi advancētie lietotāji, kuri zina, ko grib, bet nezina, ko tas maksās, un kā to darīt. 1) Nav piemērotas datu krātuves, ārpakalpojumā ēd matus no galvas, iepirkt tik vienkārši nedrīkst, IUB barjeras. Tas apgrūtina pat jau esošo datu glabāšanu 2) Nav pašas sistēmas, tikai eksperimenti. 3) Ir kaudze uzkrāto datu, kurus būs jāintegrē jaunajā sistēmā. Nav vienkārši, bet dzīve nekad nav vienkārša.
Priecājos, ka kāds interesējas "po delu". Skatos, ka tā pāraug vairāk personiskā sarakstē. Mani var atrast kā vienīgo Antoniju mājas lapā, tur arī e-pasta adrese.
Valters
2007. gada 13. martā, plkst. 10:20
Šeit var apskatīties, ko esam izdarījuši ar minimāliem līdzekļiem: http://www.sauleskoks.lv/sk/index.php?option=com_content&task=view&id=21&Itemid=37