OCR

2006. gada 12. septembrī | 5 komentāri

Today, the Tesseract OCR project, only supports the English language, and does not yet include a page layout analysis module, so it performs poorly on material with multiple columns. «It also doesn't do well on grayscale and color documents, and it's not nearly as accurate as some of the best commercial OCR packages out there,» Vincent wrote on the company blog.

Nepaies ne pieci gadi, kā līdz mums nonāks arī OCR latviski. Nekas cits, kā Finereader pagaidām nav atrasts. It sevišķi — opensourcisks.

Ierakstiem, kas vecāki par 42 dienām, komentēšanas iespēja tiek slēgta. Ja Tev aizvien ir ko teikt, dod ziņu jebkurā veidā, kurš norādīts teitan.

bubu

2006. gada 12. septembrī, plkst. 09:07

Opensourcisks ir. Reku: http://jocr.sourceforge.net/ Savulaik ar to biju uztaisījis LMT īsziņu sūtīšanas simbolu atpazīšanu.

↑Atbildēt

cabulis

2006. gada 12. septembrī, plkst. 11:51

jaa GOCR ir labs - vienkāršs un ērts (ar tiek izmantots iepriekšējā komentā pieminētajiem mērķiem :) ja nekļūdos, viņam varēja arī savus burtus barot iekšā, tipa apmācīt..

↑Atbildēt

CaptSolo

2006. gada 12. septembrī, plkst. 14:35

Vērtīga manta. Tagad tik vajadzētu latvisko versiju - cerams, ka tās radīšanai tomēr nevajadzēs gadus piecus.

Nākamais solis būtu Internet bibliotēka latviešu valodā - līdzīgi kā lib.ru. Iesākumam kaut vai ar tām grāmatām, kuru publiskošanai neiebilst to autori un tām, kurām ir beidzies autortiesību termiņš.

↑Atbildēt

Lafriks

2006. gada 12. septembrī, plkst. 16:07

Ne opensourcisks, bet prieksh linuksha, pie tam diezgan labs un nezheeliigi zhiperiigs :) http://www.vividata.com/be_xtr_eval.html

↑Atbildēt

Dekvardo

2006. gada 12. septembrī, plkst. 19:42

Bet nežēlīgi dārgs...

↑Atbildēt