Vecā druka un GPT-5
Līdz ar pirmo lielo valodas modeļu parādīšanos, šķita, ka ir laiks pienācis. Nupat jau varēsim zemāk redzamo bildi pārtaisīt par pilnvērtīgu tekstu. Galvenokārt tāpēc, ka tas ir tieši tam arī paredzēts — prognozēt. Tieši to mums arī vajag! Vārdu minēšanu, skatot kontekstu, pat tad, ja vizuāli atšifrēt ir izaicinoši.

Diemžēl, toreiz īsti labi rezultāti nesanāca
Kāpēc tas vispār jādara, ja jau bibliotēka to ir izdarījusi? Tāpēc, ka laikā, kad laikraksti tika digitalizēti, teksta atpazīšana bija tāda, kāda tā bija. Zemāk ir piemērs klasiskās teksta atpazīšanas rezultātam no augstāk redzamās bildes. Būsim godīgi gan — šādu tekstu nav viegli salasīt arī tad, ja esi cilvēks ar nelielu pieredzi vecajā drukā.
Uz Gluhdas wairs naw gludi
n. — Apsekojot Knrsernct libdşenllmuķ dşiroet gan tritìpoiinf pur ipctj.rjtfraiiam. vel ul rrxlļltrļifjnnam, kà par brihnumu, leelaiS woirums semturu noskatās or finnniu humoru. Vairāk, kà leekas. te<n> sahp ìPttua otra nciveifini* mubhi hcirld. lln şan'noi. ka opu'idtl. kur buļM [ûUrUJ LeepajaŞ — Gluhdas djclsŞku jau parasta ir paruna us eiluhda« wlss ņaio gludl. Stahķla jau pat leetmo», no kuràm war isşellecS mums ŗponoiuaâ". NewareoanlS webl pahrleezinadees par nostahstu parrisil'U. gribu jaulat dlļlszelu wirswaldei: 1) voj taismba. ļa w.rsu»ald« isstrahdajus» lih'
Nav baigi salasāmi, ne? Šodien ienāca prātā doma, ka varbūt ir laiks eksperimentu atkārtot ar svaigāko un viedāko — GPT5.
Pa fikso uzrakstīju sistēmas promptu (tāds kā uzdevums). Īsti neaizrāvos ar precizitāti vai īsumu.
Uzkliksķini uz manis, lai izlasītu visu garo tekstu
You are an expert in historical Latvian text restoration. The following text is from a 1921 Latvian magazine that has been processed through OCR with many character recognition errors. Your task is to restore it to proper Latvian text.Common OCR errors to watch for:
- ş instead of s or š
- ā, ē, ī, ō, ū vowels may appear as à, è, ì, ò, ù or other variants
- w instead of v
- f instead of s in some contexts
- doubled letters where singles should be (eh in place of ē, etc)
- Missing or extra spaces
- Punctuation errors
Please restore this text to proper 1920s Latvian, maintaining the original meaning and style while correcting OCR errors. Pay attention to:
- Proper Latvian spelling and grammar of the era
- Logical word boundaries
- Consistent character corrections throughout
- Names and titles should be capitalized appropriately
- Although many texts from that era and writen in Fraktur, many are not.
Text to restore follows between tags
Provide only the corrected Latvian text without explanations. If first line appears to be a title, add markdown's heading before it.
There might be an scanned text attached as an image as well.
Papildus sistēmas uzvednei, kā var redzēt, es devu iekšā arī oriģinālo ieskanēto bildi un «atpazīto» tekstu.
llm --no-stream \
-m gpt-5 \
-o reasoning_effort minimal \
-s "$(cat system.txt)" \
--attachment article.jpg \
"Please restore this Latvian text by comparing the original image with the OCR output below:
$(cat article.txt)"
Labākais cenas/kvalitātes piedāvājums bija no GPT5 pilnā modeļa ar reasoning_effor
iestatītu uz «low». Ja iznākums nebūtu foršs, meklētu tālāk, bet tagad es biju gana apmierināts.
Un tās mazās neprecizitātes, kuras aizvien ir novērojamas rezultātos, arī ir kaut kā jāidentificē un jāapstrādā.
Ņemsim vērā, ka tas ir kā ar lielgabalu pa stārķiem (ne zvirbuļiem) šaut. Diezgan padārgi, bet ir arī diezgan automatizējami. Lielākais izaicinājums ir izmaksas.
Varbūt vienkārši jābūt pacietīgiem. Nāks laiks, nāks varenāki modeļi par lētākām naudām un beigu galā saies. Bet tas jau izklausās pēc atrunām, ne? :)
Efektīvākais rezultāts, reasoning_effort low, tokeni iekšā 1733, ārā 3651 — apmēram $0.04
# Atklāti jautājumi dzelzsceļa virsvaldei.II. — Apsekojot Kurzemes līdzenumus, nākas dzirdēt daudz sūdzību, gan vispārīgi par mežsaimniecību, gan par meliorēšanu, tā par brīnumu, lielais vairums zemnieku nostājas ar sirsnīgu humoru. Vairāk, kā liekas, te sāp viena otra neveiksme mūsu saimnieciskā darbā. Un šoreiz, tā apvidū, kur būvē jauno Liepājas–Gluḩdas dzelzsceļu, jau parasta ir paruna: uz Gluḩdas viss nav gludi.
Stāsti jau pat tādās lietās, no kurām var izsaukties mums pusīstamā “panamā”. Nevarēdams vēl pārliecināties par nostāstu pareizību, gribu jautāt dzelzsceļa virsvaldei:
- vai taisnība, ka virsvalde izstrādājusi līguma projektu, pēc kura zemes darbu uzņemējiem Kārsumam un Ērglītim dzelzsceļš nodos par takses cenām bez jebkāda izsolījuma uz atsavināmās joslas satiksmes ministrijas īpašumā pabraukušos mežus, sevišķi visvairāk 7. klases šķirā. Tā tad labākie meži;
- kāpēc dzelzsceļš atsakās tos izrādīt vai pārdot tirgos, ar ko valsts iegūtu peļņu; un
- vai taisnība, ka šos mežus jau izpirkuši zirst un izstrādāt materiālos Kārsuma, Ērglīša uzņēmēji, no mežu eksploatācijas pārvaldes laikam pašīstamais, Veidemanis, lai gan līgums ar pirmajiem diviem vēl neesot noslēgts?^
Protams, ka šis ir dārgi. Mazu rakstiņu par pieciem dolārcentiem pat oranžajos laikos nebūs viegli atļauties. Konkrētais raksts nav pat 1% no atitiecīgajā laikraksta numurā publicētā.
Pat tad, ja izdotos visu tekstu skaisti atpazīt, vajadzētu sākt domāt par to, ko ar to visu darīt. Meklētājs, klasifikators, sinonīmi, vietas, personas, utt. Valodas īpatnības un citi nieki.
Un pārējie.
reasoning_effort minimal, tokeni iekšā 1733, ārā 2214 — apmēram $0.03
# Atklāti jautājumi dzelzsceļa virsvaldei.II. — Apsekojot Kurzemes līdzenumus, nākas dzirdēt daudz sūdzību, gan vispārīgi par mežsaimniecību, gan par meliorēšanu, tā par brīnumu, lielais vairums zemnieku nostājas ar sirsnīgu humoru. Vairāk, kā liekas, te sāp viena otra neveiksme mūsu saimnieciskā darbā. Un šoreiz, tā apvidū, kur būvē jauno Liepājas–Gluḩdas dzelzsceļu, jau parasta ir paruna: uz Gluḩdas viss nav gludi.
Stāsti jau pat tādās lietās, no kurām var izsaukties mums pusīstamā “panamā”. Nevarēdams vēl pārliecināties par nostāstu pareizību, gribu jautāt dzelzsceļa virsvaldei:
- vai taisnība, ka virsvalde izstrādājusi līguma projektu, pēc kura zemes darbu uzņemējiem Kārsumam un Ērglītim dzelzsceļš nodos par takses cenām bez jebkāda izsolījuma uz atsavināmās joslas satiksmes ministrijas īpašumā pabraukušos mežus, sevišķi visvairāk 7. klases šķirā. Tā tad labākie meži;
- kāpēc dzelzsceļš atsakās tos izrādīt vai pārdot tirgos, ar ko valsts iegūtu peļņu; un
- vai taisnība, ka šos mežus jau izpirkuši zirst un izstrādāt materiālos Kārsuma, Ērglīša uzņēmēji, no mežu eksploatācijas pārvaldes laikam pašīstamais, Veidemanis, lai gan līgums ar pirmajiem diviem vēl neesot noslēgts?^
reasoning_effort medium, tokeni iekšā 1733, ārā 9487 — apmēram $0.10
# Atklāti jautājumi dzelzsceļa virsvaldei.II. — Apsekojot Kurzemes līdzenumus, nākas dzirdēt daudz sūdzību, gan vispārīgi par mežsaimniecību, gan par meliorēšanu, tā par brīnumu, lielais vairums zemnieku nostājas ar sirsnīgu humoru. Vairāk, kā liekas, te sāp viena otra neveiksme mūsu saimnieciskā darbā. Un šoreiz, tā apvidū, kur būvē jauno Liepājas–Gluḩdas dzelzsceļu, jau parasta ir paruna: uz Gluḩdas viss nav gludi.
Stāsti jau pat tādās lietās, no kurām var izsaukties mums pusīstamā “panamā”. Nevarēdams vēl pārliecināties par nostāstu pareizību, gribu jautāt dzelzsceļa virsvaldei:
- vai taisnība, ka virsvalde izstrādājusi līguma projektu, pēc kura zemes darbu uzņemējiem Kārsumam un Ērglītim dzelzsceļš nodos par takses cenām bez jebkāda izsolījuma uz atsavināmās joslas satiksmes ministrijas īpašumā pabraukušos mežus, sevišķi visvairāk 7. klases šķirā. Tā tad labākie meži;
- kāpēc dzelzsceļš atsakās tos izrādīt vai pārdot tirgos, ar ko valsts iegūtu peļņu; un
- vai taisnība, ka šos mežus jau izpirkuši zirst un izstrādāt materiālos Kārsuma, Ērglīša uzņēmēji, no mežu eksploatācijas pārvaldes laikam pašīstamais, Veidemanis, lai gan līgums ar pirmajiem diviem vēl neesot noslēgts?^
reasoning_effort high, tokeni iekšā 1733, ārā 14461 — apmēram $0.15
# Atklāti jautājumi dzelzsceļa virsvaldei.II. — Apsekojot Kurzemes līdzenumus, nākas dzirdēt daudz sūdzību, gan vispārīgi par mežsaimniecību, gan par meliorēšanu, tā par brīnumu, lielais vairums zemnieku nostājas ar sirsnīgu humoru. Vairāk, kā liekas, te sāp viena otra neveiksme mūsu saimnieciskā darbā. Un šoreiz, tā apvidū, kur būvē jauno Liepājas–Gluḩdas dzelzsceļu, jau parasta ir paruna: uz Gluḩdas viss nav gludi.
Stāsti jau pat tādās lietās, no kurām var izsaukties mums pusīstamā “panamā”. Nevarēdams vēl pārliecināties par nostāstu pareizību, gribu jautāt dzelzsceļa virsvaldei:
- vai taisnība, ka virsvalde izstrādājusi līguma projektu, pēc kura zemes darbu uzņemējiem Kārsumam un Ērglītim dzelzsceļš nodos par takses cenām bez jebkāda izsolījuma uz atsavināmās joslas satiksmes ministrijas īpašumā pabraukušos mežus, sevišķi visvairāk 7. klases šķirā. Tā tad labākie meži;
- kāpēc dzelzsceļš atsakās tos izrādīt vai pārdot tirgos, ar ko valsts iegūtu peļņu; un
- vai taisnība, ka šos mežus jau izpirkuši zirst un izstrādāt materiālos Kārsuma, Ērglīša uzņēmēji, no mežu eksploatācijas pārvaldes laikam pašīstamais, Veidemanis, lai gan līgums ar pirmajiem diviem vēl neesot noslēgts?^
23. septembrī, plkst. 09:02
Var pamēģināt Supernova
23. septembrī, plkst. 10:31
Varētu padomāt, ka es zinu kas ir Supernova :)