OCR
Today, the Tesseract OCR project, only supports the English language, and does not yet include a page layout analysis module, so it performs poorly on material with multiple columns. "It also doesn't do well on grayscale and color documents, and it's not nearly as accurate as some of the best commercial OCR packages out there," Vincent wrote on the company blog.
Nepaies ne pieci gadi, kā līdz mums nonāks arī OCR latviski. Nekas cits, kā Finereader pagaidām nav atrasts. It sevišķi - opensourcisks.
bubu
2006. gada 12. septembrī, plkst. 09:07
Opensourcisks ir. Reku: http://jocr.sourceforge.net/ Savulaik ar to biju uztaisījis LMT īsziņu sūtīšanas simbolu atpazīšanu.
cabulis
2006. gada 12. septembrī, plkst. 11:51
jaa GOCR ir labs - vienkāršs un ērts (ar tiek izmantots iepriekšējā komentā pieminētajiem mērķiem :) ja nekļūdos, viņam varēja arī savus burtus barot iekšā, tipa apmācīt..
CaptSolo
2006. gada 12. septembrī, plkst. 14:35
Vērtīga manta. Tagad tik vajadzētu latvisko versiju - cerams, ka tās radīšanai tomēr nevajadzēs gadus piecus.
Nākamais solis būtu Internet bibliotēka latviešu valodā - līdzīgi kā lib.ru. Iesākumam kaut vai ar tām grāmatām, kuru publiskošanai neiebilst to autori un tām, kurām ir beidzies autortiesību termiņš.
Lafriks
2006. gada 12. septembrī, plkst. 16:07
Ne opensourcisks, bet prieksh linuksha, pie tam diezgan labs un nezheeliigi zhiperiigs :) http://www.vividata.com/be_xtr_eval.html
Dekvardo
2006. gada 12. septembrī, plkst. 19:42
Bet nežēlīgi dārgs...