Вариант для распечатки |
Пред. тема | След. тема | ||
Форум Разговоры, обсуждение новостей | |||
---|---|---|---|
Изначальное сообщение | [ Отслеживать ] |
"Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от opennews (?), 11-Ноя-24, 08:49 | ||
Опубликован релиз системы оптического распознавания текста Tesseract 5.5.0, поддерживающей Unicode и распознавание текстов более чем на 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0... | ||
Ответить | Правка | Cообщить модератору |
Оглавление |
Сообщения | [Сортировка по времени | RSS] |
1. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от Швондик (?), 11-Ноя-24, 08:49 | ||
при попытке скачать последнюю билду выскакивает 404 | ||
Ответить | Правка | Наверх | Cообщить модератору |
2. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (2), 11-Ноя-24, 09:21 | ||
жрёт картинки, в примерах .tiff | ||
Ответить | Правка | Наверх | Cообщить модератору |
38. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (-), 11-Ноя-24, 19:54 | ||
| ||
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору |
39. "Релиз системы распознавания текста Tesseract 5.5.0" | –1 +/– | |
Сообщение от Швондик (?), 11-Ноя-24, 20:15 | ||
так tesseract не читает pdf | ||
Ответить | Правка | Наверх | Cообщить модератору |
57. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (57), 13-Ноя-24, 16:41 | ||
Так устанавливаешь ghost и конвертируешь pdf в jpeg и распознаешь. | ||
Ответить | Правка | Наверх | Cообщить модератору |
42. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (42), 11-Ноя-24, 23:31 | ||
> а эта прога никак не умеет распозновать djvu ? | ||
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору |
4. "Релиз системы распознавания текста Tesseract 5.5.0" | +5 +/– | |
Сообщение от Аноним (4), 11-Ноя-24, 10:17 | ||
Использовал для распознавания текста из одной книжки, оказалось вполне работоспособная штука. Изначально был настроен скептически, думал, что в итоге понадобится Виноуз и ФайнРидер, но нет, все удалось сделать. После распознавания требовалось минимальное ручное вмешательство по исправлению распознанного. Ну, оно и в ФайнРидер требовалось, когда я его редко использовал, так что тут паритет. | ||
Ответить | Правка | Наверх | Cообщить модератору |
5. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (5), 11-Ноя-24, 10:36 | ||
Гугл модели зажал, сабж по факту практически бесполезен из-за ошибок и слабых возможностей распознавания. Для использования, у тебя должны быть ресурсы, чтобы натренировать свои модели, и это для пользователей не реально. | ||
Ответить | Правка | Наверх | Cообщить модератору |
16. "Релиз системы распознавания текста Tesseract 5.5.0" | +2 +/– | |
Сообщение от Аноним (16), 11-Ноя-24, 13:10 | ||
Оно без моделей и без Хухла нормально работало. При хорошей чёткости скана работает очень хорошо, без ИИ, без коммерческих вендоров. | ||
Ответить | Правка | Наверх | Cообщить модератору |
18. "Релиз системы распознавания текста Tesseract 5.5.0" | –1 +/– | |
Сообщение от Аноним (5), 11-Ноя-24, 13:30 | ||
С легаси движками без нейронок. Помню, приходилось скармливать ей идеальный выровненный двухцветный (не оттенки серого) текст, чтобы распознавало в обычном разрешении более менее. | ||
Ответить | Правка | Наверх | Cообщить модератору |
26. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (26), 11-Ноя-24, 16:11 | ||
для сабжа просто в имеджмаджике картинку с низким разрешением (напрмиер, скриншот) растягиваешь раза в 4 - все работает... | ||
Ответить | Правка | Наверх | Cообщить модератору |
28. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (28), 11-Ноя-24, 16:20 | ||
> растягиваешь раза в 4 | ||
Ответить | Правка | Наверх | Cообщить модератору |
29. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (5), 11-Ноя-24, 16:57 | ||
Сайт не открывается без прокси. А так PaddleOCR же. Вообще печально, что такие базовые задачи опенсорс до сих пор нормально не решает. | ||
Ответить | Правка | К родителю #26 | Наверх | Cообщить модератору |
32. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (16), 11-Ноя-24, 18:55 | ||
Так решает же задачку OCR. Да, без ИИ. | ||
Ответить | Правка | Наверх | Cообщить модератору |
37. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (5), 11-Ноя-24, 19:20 | ||
В нормальной жизни современного человека с компьютером необходимо каждый день распознавать иероглифы на фото. | ||
Ответить | Правка | Наверх | Cообщить модератору |
24. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (24), 11-Ноя-24, 16:02 | ||
> Гугл модели зажал | ||
Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору |
30. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (5), 11-Ноя-24, 17:06 | ||
Это демонстрационные модели 7 летней давности. | ||
Ответить | Правка | Наверх | Cообщить модератору |
31. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (31), 11-Ноя-24, 17:11 | ||
> В смысле "зажал"? А распознает он тогда чем? | ||
Ответить | Правка | К родителю #24 | Наверх | Cообщить модератору |
45. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от Аноним (45), 12-Ноя-24, 04:10 | ||
> Гугл модели зажал | ||
Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору |
48. "Релиз системы распознавания текста Tesseract 5.5.0" | –1 +/– | |
Сообщение от Аноним (5), 12-Ноя-24, 09:24 | ||
Так ты же совсем глупенький, если не понимаешь, почему представленные демонстрационные модели никуда не годятся. | ||
Ответить | Правка | Наверх | Cообщить модератору |
49. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (45), 12-Ноя-24, 10:04 | ||
Работают, распознают, каши не просят, но «не годятся». Неосилятор что ли? Или, может, вам ABBYY башляет? Какой смысл гнать на бесплатный продукт? | ||
Ответить | Правка | Наверх | Cообщить модератору |
52. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (5), 12-Ноя-24, 10:53 | ||
Когда я его в прошлый раз использовал Finereader, в нём не было никаких продвинутых нейронок, а распознавание хорошо работало только со стандартными шрифтами. В сканах книг могли быть чуть более интересные советские шрифты, и вот с ними распознавание было уже весьма посредственным. Сабж невозможно использовать надёжно: даже если фон не идеально белый уже не распознает. И ровно та же проблема с узнаванием шрифтов в наличии. | ||
Ответить | Правка | Наверх | Cообщить модератору |
50. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (50), 12-Ноя-24, 10:07 | ||
>>> Гугл модели зажал | ||
Ответить | Правка | К родителю #48 | Наверх | Cообщить модератору |
51. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (5), 12-Ноя-24, 10:48 | ||
Это не те модели, что использует Гугл. Да, тессеракт, насколько мне известно, именно то, что гугл использует для весьма качественного распознавания (в том числе на фото). Но тебе это не светит. Именно потому, что зажал. Если у тебя какие-то сомнения в этом, то ты просто слишком оторван от реальности. | ||
Ответить | Правка | Наверх | Cообщить модератору |
53. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (50), 12-Ноя-24, 11:37 | ||
> Это не те модели, что использует Гугл. | ||
Ответить | Правка | Наверх | Cообщить модератору |
54. "Релиз системы распознавания текста Tesseract 5.5.0" | –1 +/– | |
Сообщение от Аноним (5), 12-Ноя-24, 12:07 | ||
А он не скрывал это, пару лет назад была инфа. Все его юзают, тот же яндекс собирался утянуть (чё как там у них успехи с перепродажей тессеракта?) и китайцы (среди прочего, у этих полно своих наработок). Только чтобы модели натренировать нужна ферма. Представленные веса не годятся кроме как для демонстрации работоспособности, и отрицать это оторванность. П ещё оторванность думать, что корпа "гарантированно не будет завязывать свой бизнес на либе, которую за бесплатно пилят три васяна в свободное время" -- три раза ха. | ||
Ответить | Правка | Наверх | Cообщить модератору |
55. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (50), 12-Ноя-24, 12:30 | ||
> А он не скрывал это, пару лет назад была инфа. Все его юзают, тот же яндекс собирался утянуть | ||
Ответить | Правка | Наверх | Cообщить модератору |
58. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от анонимус (??), 15-Ноя-24, 17:20 | ||
5.4.1 с легаси-движком отлично работает для многоязычных скриншотов, например английский+русский+укранский+французский. Нормально распознавал сканированные книги с archive.org, но я не разобрался, как делвть djvu. Фотографии объявлений с телефона тоже распознаёт. | ||
Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору |
6. "Релиз системы распознавания текста Tesseract 5.5.0" | –1 +/– | |
Сообщение от ryoken (ok), 11-Ноя-24, 10:47 | ||
Под оффтопик есть кроме файнридера ещё и ReadIris. В основном в комплекте к HP-шной технике. Печатный текст довольно неплохо опиливает. | ||
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору |
59. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от анонимус (??), 15-Ноя-24, 17:28 | ||
12-я версия ReadIris (~2010) имела интерфейс менее удобный, чем FineReader 4 (~1998), но по качеству они были сопоставимы. Но найти пиратскую ReadIris с поддержкой иероглифов не было проблемой, в отличие от FR. Под Линуксом, ЕМНИП, работала. | ||
Ответить | Правка | Наверх | Cообщить модератору |
20. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от fuggy (ok), 11-Ноя-24, 14:46 | ||
Не умеет оно распознавать текст где есть язык с вкраплением слов на английском. Это отрезает сразу целых пласт технической литературы. Оно миксует латиницу и кириллицу рандомно даже в пределах одного слова. Это ни в какой край не идёт без большой ручной работы по исправлению похожих букв на другой алфавит. Хотя хорошо справляется со сложными вариантами, такими как японский вертикально. | ||
Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору |
25. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от Аноним (24), 11-Ноя-24, 16:07 | ||
> Не умеет оно распознавать текст где есть язык с вкраплением слов на английском. | ||
Ответить | Правка | Наверх | Cообщить модератору |
41. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (41), 11-Ноя-24, 23:03 | ||
А, кстати, дореволюционную орфографию с ятями оно уже умеет? | ||
Ответить | Правка | Наверх | Cообщить модератору |
56. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (45), 12-Ноя-24, 23:54 | ||
Штатные модельки — увы, нет. | ||
Ответить | Правка | Наверх | Cообщить модератору |
60. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от анонимус (??), 15-Ноя-24, 17:42 | ||
4 года назад ВШЭ делала модуль для Тессеракта (легко гуглится), но чем дело кончилось, и где его скачать — не нашёл. | ||
Ответить | Правка | К родителю #41 | Наверх | Cообщить модератору |
7. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (7), 11-Ноя-24, 10:53 | ||
Как распознавал хреново чуть-чуть нестандартно написанный/напечатанный текст, так и распознает, даже на английском (пример - фото с табличкой где белом по черному написан vin номер автомобиля). | ||
Ответить | Правка | Наверх | Cообщить модератору |
8. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от Аноним (8), 11-Ноя-24, 10:57 | ||
Проприетарное российское ocr по есть на Linux. | ||
Ответить | Правка | Наверх | Cообщить модератору |
9. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от Аноним (7), 11-Ноя-24, 10:59 | ||
Какое? | ||
Ответить | Правка | Наверх | Cообщить модератору |
61. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от анонимус (??), 15-Ноя-24, 17:43 | ||
Тот же FineReader SDK. | ||
Ответить | Правка | Наверх | Cообщить модератору |
10. "Релиз системы распознавания текста Tesseract 5.5.0" | +2 +/– | |
Сообщение от Валерий Менаев (?), 11-Ноя-24, 11:14 | ||
Не знаю, что ты там распознавал и чем, но я сотни книг и газет (на русском) из архивов распознал с помощью Tesseract, с самыми разными шрифтами, и в основном без ошибок. Более чем достойный аналог одной известной пoдeлки от рycoфoбской кoнтoрки, которая уволила всех русских разработчиков. Но ты можешь и дальше продолжать обмaзывaться, никто не запрещает. | ||
Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору |
11. "Релиз системы распознавания текста Tesseract 5.5.0" | –3 +/– | |
Сообщение от Имя (?), 11-Ноя-24, 11:23 | ||
Какие фобы, ты чего, Валера - https://contentai.ru | ||
Ответить | Правка | Наверх | Cообщить модератору |
27. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (26), 11-Ноя-24, 16:14 | ||
у них под линукс ГУЁвая-распознавалка вроде же не работает... | ||
Ответить | Правка | Наверх | Cообщить модератору |
36. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Ддд (?), 11-Ноя-24, 19:11 | ||
Она не ьесплатна и цен вообще нет | ||
Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору |
12. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (7), 11-Ноя-24, 11:28 | ||
>Не знаю, что ты там распознавал и чем | ||
Ответить | Правка | К родителю #10 | Наверх | Cообщить модератору |
17. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (16), 11-Ноя-24, 13:15 | ||
И таки: Tesseract хорошо работает на разных языках. При хорошем качестве скана, фото - тут, да: есть требования к исходным материалам. Но тогда работает хорошо. | ||
Ответить | Правка | Наверх | Cообщить модератору |
14. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (14), 11-Ноя-24, 12:51 | ||
Распознавание текста это первая тема во всех нормальных туториалпх по нейронкам. И во многих мешин лернингах. | ||
Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору |
13. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от Аноним (13), 11-Ноя-24, 11:46 | ||
Отличная весть! Висит на хоткее для перевода текста с картинок. Вполне корректно работает. Перебитый vin может и не распознаёт)) | ||
Ответить | Правка | Наверх | Cообщить модератору |
34. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от Аноним (34), 11-Ноя-24, 19:01 | ||
Проверил под Fedora. Весьма недурно распознает даже кривые-косые картинки. Не прошло и 20 лет. FineReader можно выбрасывать на мороз | ||
Ответить | Правка | Наверх | Cообщить модератору |
35. "Релиз системы распознавания текста Tesseract 5.5.0" | –2 +/– | |
Сообщение от Ддд (?), 11-Ноя-24, 19:10 | ||
Как было кривым так и осталось. Гугл камера и то лучше текст распознает. Ни одной нормальной ocr даже на хаффинге нет | ||
Ответить | Правка | Наверх | Cообщить модератору |
40. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (-), 11-Ноя-24, 20:32 | ||
Если бы оно ещё закладки умело добавлять автоматически — цены бы не было. | ||
Ответить | Правка | Наверх | Cообщить модератору |
44. "Релиз системы распознавания текста Tesseract 5.5.0" | +1 +/– | |
Сообщение от ptr (ok), 12-Ноя-24, 00:41 | ||
Для поддержки пользователей, обожающих присылать скриншоты и минимум текстовой информации - Tesseract более чем достаточно. В качестве GUI использую dpScreenOCR | ||
Ответить | Правка | Наверх | Cообщить модератору |
46. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (46), 12-Ноя-24, 04:41 | ||
Конверсия картинки с текстом в пдф. Полученный пдф файл представляет из себя два слоя: первый - картинка с текстом в растровом формате и второй слой - распознанный текст с прибитым гвоздями шрифтом. Итого: | ||
Ответить | Правка | Наверх | Cообщить модератору |
47. "Релиз системы распознавания текста Tesseract 5.5.0" | +/– | |
Сообщение от Аноним (47), 12-Ноя-24, 06:48 | ||
На редкость полезная вещь, простые сканы документов распознает более-менее сносно | ||
Ответить | Правка | Наверх | Cообщить модератору |
Архив | Удалить |
Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема |
Закладки на сайте Проследить за страницей |
Created 1996-2024 by Maxim Chirkov Добавить, Поддержать, Вебмастеру |