The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"Ковертация из PDF в ASCII японского текста"
Отправлено Andrey Mitrofanov, 26-Фев-09 18:50 
>[оверквотинг удален]
>--------
>
>Из pdf файла с японским текстом получить текстовый файл в любой японской
>кодировке (например, SHIFT_JIS). Т.е. из японского pdf'а получить поток символов в
>определенной японской кодировке. Что делать потом с ним я знаю. Мне
>нужен лишь этот поток символов.
>
>Что делал:
>-----------
>ps2ascii 555_cat.pdf 555_cat.ascii

У меня под рукой оказался pdftotext из xpdf-utils.
Попытки просто просмотра .pdf-ов с предположительно японскими текстами, сыпали сообщениями про "Unknown character collection 'Adobe-Japan1'"....
Изучение pdftotext(1) и xpdfrc(5) (обнаружилось упоминание "Adobe-Japan1")....

Попытки 'pdftotext file.PDF file.txt', 'pdftotext -enc UTF-8 ...' c "пустым" результатом...

Поиски (и отсутствие такового - в моём main+contrib репозитарии) поминаемых в контексте ~japan в xpdfrc(5) файлов....

И дальнейшие поиски привели к пакету xpdf-japanese в разделе non-free Debian....

"Сымпровизированный" по мотивам входящего в него /etc/xpdf/xpdfrc-japanese "локальный" аналог (./xpdfrc-japanese1):
#----- begin NOT: Japanese support package (2004-jul-27)
cidToUnicode    Adobe-Japan1    ./Adobe-Japan1.cidToUnicode
unicodeMap      ISO-2022-JP     ./ISO-2022-JP.unicodeMap
unicodeMap      EUC-JP          ./EUC-JP.unicodeMap
unicodeMap      Shift-JIS       ./Shift-JIS.unicodeMap
cMapDir         Adobe-Japan1    ./adobe-japan1
toUnicodeDir                    ./adobe-japan1

textEncoding    EUC-JP
#----- end NOT: Japanese support package
... и распакованные сюда же упомянутые в нём файлы (и директория ./adobe-japan1) из упомянутого пакета в :) результате команды

pdftotext -cfg ./xpdfrc-japanese1 -enc UTF-8 file.PDF file.TXT
как и
pdftotext -cfg ./xpdfrc-japanese1 -enc Shift-JIS file.PDF file.TXT
дали-таки мне какой-то :))) поток байтов
この行政機関の保有する情報の公開に関する法律の翻訳は、平成十六年法律第八十四号
, с которым _я_ уже не знаю, чего делать.

И кстати, да... Поток байтов получился из 1 из 2-х выкачанных наобум .pdf-ов из доменов .jp. Видимо, BUG имети pdftotext(1):
---
BUGS
Some  PDF  files contain fonts whose encodings have been mangled beyond recognition. There is no way (short of OCR) to extract text from these files.
---
и прочие "стандартные" http:/openforum/vsluhforumID3/49911.html#31 проявления "текст - по факсу" http:/openforum/vsluhforumID3/49911.html#26 формата имени Адобе.

Надеюсь, помог. (Гм. Я не очень сложно излагаю? :D)

 

Ваше сообщение
Имя*:
EMail:
Для отправки новых сообщений в текущей нити на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

На сайте действует частичное премодерирование - после публикации некоторые сообщения от анонимов могут автоматически скрываться ботом. После проверки модератором ошибочно скрытые сообщения раскрываются. Для ускорения раскрытия можно воспользоваться ссылкой "Сообщить модератору", указав в качестве причины обращения "скрыто по ошибке".



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру