Релиз системы распознавания текста Tesseract 5.4.0

06.06.2024 22:24

Опубликован релиз системы оптического распознавания текста Tesseract 5.4.0, поддерживающей Unicode и распознавание текстов более чем на 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкции AVX2, AVX, AVX512F, NEON или SSE4.1.

Основные улучшения:

Добавлена поддержка отрисовки и экспорта в формате PAGE-XML.
Реализована возможность тренировки модели, используя файлы в формате PNG вместо файлов LSTMF.
Улучшена отрисовка в формат PDF.
Расширен API для определения наклона текста.
Устранены проблемы с производительностью, выявленные при сканировании в системе Coverity.

исправить +20 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/61329-tesseract

Ключевые слова: tesseract, ocr

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (39)

1.1, Аноним (1), 22:48, 06/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
У кого-нибудь есть натренированные модели для китайского языка получше? Гугл зажал те, что использует сам. Штатно доступны только десятилетние и кривые, практически бесполезны.

2.3, Аноним (3), 01:45, 07/06/2024 [^] [^^] [^^^] [ответить]	–1 +/–
Именно так. Толку от этих обновлений нет, фактически эта поделка люто проприетарная, публично выложена только демо-версия, ни на что не годное барахло, а нормальных моделей нет и не предвидится, даже спиратить нигде нельзя. "Тренируйте своё сами", идите нафиг.

3.33, Павел Фадеев (-), 11:12, 07/06/2024 [^] [^^] [^^^] [ответить]	+10 +/–
> публично выложена только демо-версия, ни на что не годное барахло Ты видимо совсем нapкoмaн, или тpoллишь, а может просто глyпый. Tesseract мне лично помог распознать десятки книг на русском, английском, немецком, итальянском и португальском. Распознает идеально на большинстве языков. То что с иероглифами пока плоховато работает - не обесценивает общую ценность программы. В этих иероглифах сами китайцы порой путаются (есть знакомый китаец). А с помощью Tesseract'а были оцифрованы миллионы книг из мировых архивов во многих странах. Полезность программы огромна.

4.45, Аноним (45), 21:44, 08/06/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Ну нельзя же делать столько ошибок в слове FineReader!

2.17, КО (?), 06:42, 07/06/2024 [^] [^^] [^^^] [ответить]	+2 +/–
Ну вот это попробуй подсунь в Crow Translate и будет счастье github.com/gumblex/tessdata_chi

2.32, Аноним (32), 11:10, 07/06/2024 [^] [^^] [^^^] [ответить]	+1 +/–
PaddleOCR же. Или нужно именно под тессеракт?

1.2, Аноним (2), 23:00, 06/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Ничего лучше из бесплатного нет, но: шрифт прибит гвоздями к pdf-у и размер рdf-а великоват.

1.4, kotpilot (ok), 01:50, 07/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
Ну и кто его пробовал? Как он по сравнению с каким-нибудь файнридером. Как в установке, настройке, загрузке проца, памяти, как распознает кириллицу? В общем реальные кейсы использования имеются у кого? А то из этих рекламных новостей, которые как под копирку пишут админы, ничего не понятно. Распознавание на основе машинного обучения - звучит многообещающе

2.6, Аноним (6), 03:18, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
Тут только теоретические выкладки на тему ЯП и корпораций. За реальными кейсами нужно идти в буржнет.

2.9, soarin (ok), 03:50, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
Традиционно было сильно хуже того же FineReader. Совсем для простого. Хотя сейчас уже на мобильных устройствах на раз-два текст распознаётся. https://postimg.cc/WFqZ9STd

2.15, Аноним (15), 05:06, 07/06/2024 [^] [^^] [^^^] [ответить]	+3 +/–
А разве было что-то лучше "какого-нибудь файнридра"? В общем, сами попробуйте и напишите нам, как он в установке, настройке, загрузке проца, памяти, как распознает кириллицу.

3.39, Аноним (39), 15:12, 07/06/2024 [^] [^^] [^^^] [ответить]	+4 +/–
Finereader лучше оного Но при интеграции ядра Finereader в свое приложение за п... большой текст свёрнут, показать

4.40, Аноним (39), 15:13, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
Core не дают даже возможности понять возможности.

4.43, Бывалый Смузихлёб (ok), 09:08, 08/06/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Примечательно то, что файнридер ощутимо лучше работал ещё лет 10-15 назад в сравнении с тем что есть сейчас не-файн-ридерского. А ведь тогда и компы были слабее и ОЗУ было сильно меньше Я как-то давно сканер покупал, с ним вместе подарком шёл и файнридер лицензионный. Очень сильно помогал в былые времена, в т.ч с таблицами И вот до сих пор остаётся неясным - как ограниченных размеров и финансирования команда умудрилась сделать такой продукт, который до сих пор недостижим по многим параметрам в т.ч конторами, которые десятилетиями в три хари жрут бюджеты и могут привлекать почти неограниченное количество разработчиков

5.51, Аноним (51), 01:31, 12/06/2024 [^] [^^] [^^^] [ответить]	+/–
Да нет в файнридере ничего особенного, если речь о латинице. А в распознавание кириллицы кроме них и Cuneiform никто и не вкладывался никогда

2.23, Аноним (23), 08:16, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
Тут один админ если что.

2.25, dove1922 (?), 08:29, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
Gimagereader + tesseract вполне неплохо распознаёт, и отдельно русский, и rus+eng. Пользуюсь почти каждый день. Из недостатков - не сращивает строки в предложения, достаёт вручную это делать. Ну и никакое распознавание таблиц - получается просто куча текста. Но для линукса пока ничего лучше не нашел.

3.37, Аноним (39), 14:37, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
Есть же механизм управления блоками. Для фиксированных таблиц годен. Для династических - нет.

4.38, Аноним (39), 14:38, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
...динамических... Т9

2.27, Аноним (27), 08:46, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
> В общем реальные кейсы использования имеются у кого? Весь archive.org им распознан.

3.44, robot228 (?), 09:08, 08/06/2024 [^] [^^] [^^^] [ответить]	+/–
Вась, бухнул? Там FR много где.

2.29, Jh (?), 09:55, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
Я пробовал версию 4. сканы разрешением 200 dpi вполне прилично распознавал, причем сканы с ксерокопий из мед учреждений. Нам пдф не нужен был, в простой текст. тот же файнридер сколько не пробовал, если надо редактировать, один фиг всё едет и приходится руками много делать.

2.35, nox. (?), 13:55, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
> по сравнению с каким-нибудь файнридером к сожалению, можно считать, что ничего и нет.

1.16, нитгитлистер (?), 05:52, 07/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
ммда, найти интсал для винды оказалось несколько сложнее чем хотелось бы. весит 48 метров для х64, что уже само по себе настораживает. при установке на пункте выбора загрузки скриптов надо очень постараьбся чтобы найти кириллицу латиницу раусский и английский языки. выбрав такой минимум на диске засрётся неожиданно 354 метра. радует что загрузка доп можулей через тырнет на очень хороших скоростях. сосно на эьтом всё и заканчивается. потому что кроме запуска консоли ни какой другой оболочки взаимодействия с ней нет. инструкции как именно с ней работать. какие команды вводить нет. в общем какое то непонятное поделие непонятно для кого сделанное

2.26, Аноним (27), 08:45, 07/06/2024 [^] [^^] [^^^] [ответить]

–1 +/–

> кроме запуска консоли ни какой другой оболочки взаимодействия с ней нет

https://tesseract-ocr.github.io/tessdoc/User-Projects-%E2%80%93

> инструкции как именно с ней работать. какие команды вводить нет.

https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

Чел, тебя в гугле забанили?

3.28, нитгитлистер (?), 09:31, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
>> кроме запуска консоли ни какой другой оболочки взаимодействия с ней нет > https://tesseract-ocr.github.io/tessdoc/User-Projects-%E2%80%93 >> инструкции как именно с ней работать. какие команды вводить нет. > https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html > Чел, тебя в гугле забанили? забанили, мне эти строчки в глаза не попадались)

2.30, Jh (?), 10:00, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
для винды есть фронт VietOCR, но он для 4 версии. А вообще не понимаю тех кто воротит нос от бесплатных программ. Зажрались

3.31, Аноним (31), 10:53, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
Вторая ссылка в Гугле, например, https://github.com/nguyenq/VietOCR3

1.19, pashev.ru (?), 06:59, 07/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> поддерживающей распознавание символов UTF-8 А что там сложного? Это же уже коды символов. Автор и редактор новости не в себе? :-)

2.20, Аноним (20), 07:07, 07/06/2024 [^] [^^] [^^^] [ответить]	+1 +/–
возможно имеются в виду символы типа такого : 😊

1.22, Аноним (22), 08:09, 07/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	+4 +/–
Иногда мне кажется, что ABBYY им приплачивает, чтобы они не развивались.

2.34, nox. (?), 13:53, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
YAGF - последнее обновление 8 лет назад. Местами не работает.

2.36, iPony129412 (?), 14:02, 07/06/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Так тут наоборот. Надо бы денег заносить, чтобы развивались. Но это никому толком не надо.

3.41, нах. (?), 20:12, 07/06/2024 [^] [^^] [^^^] [ответить]	+/–
нет столько деньгов

4.52, Аноним (52), 02:30, 12/06/2024 [^] [^^] [^^^] [ответить]	+/–
Деньгов есть столько просто не у тех и не на то...

2.42, анон (?), 01:08, 08/06/2024 [^] [^^] [^^^] [ответить]	+/–
Ещё один коммерческий OCR-движок стал бесплатным, но исходников нет. Есть версия под линукс. https://web.archive.org/web/20220401060601/https://www.nicomsoft.com/

1.46, Аноним (46), 22:23, 08/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Как оно работает с греческим, грузинским и армянским алфавитами?

1.48, EuPhobos (ok), 16:31, 09/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Мне понадобилось пропарсить огромную кучу фоток без EXIF-данных с видеонаблюдения, но на которых есть жёсткий счётчик даты и времени. Тессеракт нифига не справился, 40% чуши, с учётом того, что парсить нужно было только жиные и контрастные цифры, и строго в определённом углу. Даже заранее используя imagemagic и вырезав этот угол с датой, tesseract-у это не помогло.

2.49, AS (??), 11:25, 10/06/2024 [^] [^^] [^^^] [ответить]	+/–
такаяЖеФигня: получал с вебКамеры контрастные цифры с прибора, у которого ну никаких более интерфейсов нет.. и контрастность крутил и черноБелил имажи - неПомогло. может я что-то неТак делал?

игнорирование участников | лог модерирования

Добавить комментарий

Текст: