>[оверквотинг удален]
>--------
>
>Из pdf файла с японским текстом получить текстовый файл в любой японской
>кодировке (например, SHIFT_JIS). Т.е. из японского pdf'а получить поток символов в
>определенной японской кодировке. Что делать потом с ним я знаю. Мне
>нужен лишь этот поток символов.
>
>Что делал:
>-----------
>ps2ascii 555_cat.pdf 555_cat.ascii У меня под рукой оказался pdftotext из xpdf-utils.
Попытки просто просмотра .pdf-ов с предположительно японскими текстами, сыпали сообщениями про "Unknown character collection 'Adobe-Japan1'"....
Изучение pdftotext(1) и xpdfrc(5) (обнаружилось упоминание "Adobe-Japan1")....
Попытки 'pdftotext file.PDF file.txt', 'pdftotext -enc UTF-8 ...' c "пустым" результатом...
Поиски (и отсутствие такового - в моём main+contrib репозитарии) поминаемых в контексте ~japan в xpdfrc(5) файлов....
И дальнейшие поиски привели к пакету xpdf-japanese в разделе non-free Debian....
"Сымпровизированный" по мотивам входящего в него /etc/xpdf/xpdfrc-japanese "локальный" аналог (./xpdfrc-japanese1):
#----- begin NOT: Japanese support package (2004-jul-27)
cidToUnicode Adobe-Japan1 ./Adobe-Japan1.cidToUnicode
unicodeMap ISO-2022-JP ./ISO-2022-JP.unicodeMap
unicodeMap EUC-JP ./EUC-JP.unicodeMap
unicodeMap Shift-JIS ./Shift-JIS.unicodeMap
cMapDir Adobe-Japan1 ./adobe-japan1
toUnicodeDir ./adobe-japan1
textEncoding EUC-JP
#----- end NOT: Japanese support package
... и распакованные сюда же упомянутые в нём файлы (и директория ./adobe-japan1) из упомянутого пакета в :) результате команды
pdftotext -cfg ./xpdfrc-japanese1 -enc UTF-8 file.PDF file.TXT
как и
pdftotext -cfg ./xpdfrc-japanese1 -enc Shift-JIS file.PDF file.TXT
дали-таки мне какой-то :))) поток байтов
この行政機関の保有する情報の公開に関する法律の翻訳は、平成十六年法律第八十四号
, с которым _я_ уже не знаю, чего делать.
И кстати, да... Поток байтов получился из 1 из 2-х выкачанных наобум .pdf-ов из доменов .jp. Видимо, BUG имети pdftotext(1):
---
BUGS
Some PDF files contain fonts whose encodings have been mangled beyond recognition. There is no way (short of OCR) to extract text from these files.
---
и прочие "стандартные" http:/openforum/vsluhforumID3/49911.html#31 проявления "текст - по факсу" http:/openforum/vsluhforumID3/49911.html#26 формата имени Адобе.
Надеюсь, помог. (Гм. Я не очень сложно излагаю? :D)