laacz.lv

Senākais rakstošais blogs Latvijā *
ANNO MIM *
Teju 100% cilvēka rakstīts saturs *

← Uz sākumu


Vēlreiz par veco druku un ChatGPT

Vakar vakarā, komentāru vēl nav

Labs i', atzīstu. Biju paviršs savā iepriekšējā rakstā par ChatGPT un veco druku. Ļaujiet man mēģināt vēlreiz.

Tiem, kas noguruši no gariem tekstiem jau kopš sīksatura uzvaras gājiena sākuma, steidzu vēstīt sekojošo:

  • Man ir šāds projektiņš — periodika.laacz.lv. Nolēmu parotaļāties ar čatbotiem.
  • Šis bija viens no maniem kārtējiem eksperimentiem, kuram nav nekāda loģiska noslēguma.
  • Vecās drukas atpazīšana ir sasodīti sarežģīta lieta.
  • Līdz šim bez optiskās atpazīšanas citu variantu īsti nebija.
  • Līdz ar LLM ir iespēja spert vienu lielāku soli uz priekšu.
  • LLMi aizvien ir asistenti, nevis brīnumu avots.
  • Advancētās atpazīšanas rezultāti ir šajā lapā. Jāspiež uz saitēm, kas atzīmētas ir ar sarkanu zvaigznīti.
  • «Pirmdienas» astoņu lapaspušu atpazīšana izmaksāja $1.35, bet «Balss» sešas lapaspuses $1.15.

Tagad garāka versija.

Mans sapnis par automatizētu preses apskatu e-pastā, bet ar 100 gadu nobīdi, nekur nav pazudis. Pateicoties LLMiem tas, godīg sakot, ir ieguvis otru elpu. Saņemt īsu kopsavilkumu par notikušo (ar atsaucēm uz iepriekš notikušo) būtu forši.

  • Skandāls, kurā Kroderis apvaino izglītības ministru kukuļa prasīšanā, ilgst jau nedēļu. Iesaistās valdība.
  • Uz robežas kārtējo reizi nolaupīts Latvijas robežsargs.
  • Lietuvā jauna valdība.
  • utt.

Kad LNB digitalizēja savus periodikas krājumus, tika izmantotas tolaik pieejamās tehnoloģijas (pirms 12 gadiem biju ciemos). Tā bija optiskā teksta atpazīšana, kas ne vienmēr ir iespējama 100% kvalitatīvi. It īpaši, ja skanējamais materiāls izskatās kā zemāk.

Ne labākās kvalitātes skanējums
Ne labākās kvalitātes skanējums

Varētu domāt — kam mums tas viss? Lai, takš, cilvēki apgūst veco druku un iet lasīt lasāmo bildi. Var arī tā, nenoliegšu. Bet var arī visu darīt kā normāli cilvēki — atpazīt, klasificēt, meklēt pēc konteksta, utt.

Tad nu pirmā digitalizācijas «viļņa» rezultātā tika iegūts šāds «atpazīts» teksts:

Saimneeciskee sakari ar SSSR

i Ns v;v • ļtt KreeMiju tnmakâs oecnav . iraukt ofiziala maldibas delegazija. kur . oemums noskaidrot saimneezisko sakaru paplaschinaschanas ecspehjamibu starp Latmiiu un ŞŞŞR. Lihds schim muhsu saini . iskee darījumi ar Kreemiju ir ķoti — Pehz malsts Statistiskās

Ar zināmu piepūli šo tekstu var salasīt arī cilvēks. Skaidrs, ka tur ir vārdi 'uz padomju'. Nedaudz pamainot attēla kontrastu un citus parametrus, var arī otrā rindā atpazīt 'gatavojas atbraukt'.

Bet pamatā tādas lietas mēs aizpildām ar asociācijām. Darbojamies kā tas pats daudzkārt peltais autokomplīts. Ja tur ir 'krievija', vispiemērotākais no iespējamajiem gan vizuāli un intuitīvi varētu būt 'padomju'.

Diemžēl, ne vienmēr lielais valodu modelis ir gana liels, lai saprastu. Augstāk redzamajam tas, piemēram, piedomāja šo to klāt. Ak veiksme — šeit tas neko būtiski nemaina (fantāziju izcēlu boldā). Bet mēdz būt gadījumi, kad viss nav tik vienkārši un teikumam mainās semantiskā nozīme.

Saimnieciskie sakari ar SSSR

Uz pēdām uz Krieviju tuvākās dienās izbraukt oficiāla valdības delegācija, kuras uzdevums noskaidrot saimniecisko sakaru paplašināšanās iespējamību starp Latviju un SSSR. Līdz šim mūsu saimnieciskie darījumi ar Krieviju ir ļoti niecīgi. Pēc Valsts Statistiskās

Zemāk, savukārt, var aplūkot nedaudz labāku piemēru. Viss, kas tur notika, ir levu vietā parādījās lejas.

Šis ir labs piemērs, kur levas vien par lejām kļuva.
Šis ir labs piemērs, kur levas vien par lejām kļuva.

Kā un kāpēc tas vispār «strādā»?

Modelis sevī satur matemātiski aprakstītas saiknes starp vārdiem, kas pārtop matemātiskās saitēs starp jēdzieniem un beigu galā idejām. Savelkot no visām pusēm vārdus «Niedra», «Saeima», «tiesa» un «pilsonība», tas iegūst diezgan precīzi definētu «mākonīti», kurā paķert šim kontekstam vispiemērotākos terminus.

Tas pats piemērs ar aicinājum uzrakstīt 'Vecā Stendera stilā par bailēm no algoritma'. Tas ir spējis no viena teikuma uzķert kaut ko, ko cilvēks varētu arī saukt par ideju. Kaut kur iekšā tanī irnavu gūzmā mīt kaut kas, kas algoritmiski apraksta to, kas raksturo tekstu, kurš daudziem izskatīsies pēc Vecā Stendera rakstīta.

Un tagad par slikto.

Kā jau vienmēr ar lielajiem valodu modeļiem — paprasām, dabonam un pārbaudām. Šeit, diemžēl, nav tāda eleganta veida kā pārbaudīt.

Līdz ar to, šis rezultāts, visticamākais, nav pielietojams vietās un lietās, kurās nepieciešams garantēti precīzs rezultāts. Bet tas nenozīmē, ka nevar vispār.

Labās ziņas.

Meklētājs. Izdzenot cauri visu šo lielo valodu modeļiem, iekļaujot (embed) saturu, saglabājot attiecīgajās vietās, mēs varam iegūt laika nogrieznim atbilstošu aptuvenu meklētāju. Labāku, nekā tagad. Vienā vietā tas būs kļūdījies, bet citās atkal ne.

Satura (te vairs nav runa tikai par tekstu) atpazīšanas efektivitātes uzlabošanas soļi noteikti ir gūzma. Nedz es tos jēdzu, nedz varu iedomāties visus, kas varētu noderēt.

Sākt ar savu OCR modeli. Ja ir nauda. Turpināt ar vārdnīcām un LLMiem. Ja nauda vēl ir palikusi. Visu to salikt ķēdītē, strādāt ar varbūtībām un ticamībām.

Ja nu sarodas pavisam daudz naudas, tad var veikt kāda mazāka modeļa fine-tuning ar šo konkrēto materiālu. Varam gan atdurties pret to, ka kvalitatīva treniņmateriāla vienkārši nav tik daudz. Te gan var arī saģenerēt treniņdatus. Arī labi trenētu bāzes modeli, kuram latviešu valoda nav sveša, būs jāpameklē (varbūt vērts apskatīties uz TildeOpen 30B, ja tas kādreiz kļūs multimodāls). Šis varētu būt interesanti, bet dārgi.

Sarežģītāka problēma ir slīdošais konteksta logs. Ja runa ir par Kroderi un Kalniņu un viņu aktuālo kašķi, tad būtu labi, ja katru reizi analizējot tekstu, modelim šis nebūtu jaunums. Bet ja runa ir par Kroderi, kurš ir plītētāju sarakstā, tad tas laiikam nebūs par šo. Ja notiek olimpiskās spēles, tad visi sporta notikumi jāskata tanī kontekstā. Ja avarē kuģis «Neibāde», tad drošs, ka šur tur tam ir lielāks svars.

Viens no variantiem kā apkarot halucinācijas, ir dārgs — dot vairākiem līdzīgu spēju, bet dažādiem modeļiem. Pēc tam salīdzināt — kas ir līdzīgs, bet kas abiem kardināli atšķiras (to arī var izdarīt automatizēti). Ja tas ir kaut kas svarīgs, tad var eskalēt cilvēkam-operatoram.

Feedback loop šajā gadījumā ir rūpīgi jāpārdomā. Noteikti nav nedz triviāli, nedz grūti. Tas gan jau ir ļoti grūti.

Šie gan visi ir mani — amatiera — vārdi. Nopietnie mašīnmācīšanās puikas un meitenes gan jau zin labāk.



Tu atbildi augstāk redzamajam komentāram. Atcelt