Рубрика «stduviewer»

Как pdf (изображения) преобразовать в текстовый txt-файл

2016-11-02 в 12:40, admin, рубрики: languagetool, ocr, PDF, python, stduviewer, tesseract, txt, обработка изображений

Вы скажете, что самый простой способ — выделить весь текст в pdf, скопировать его в буфер обмена и вставить из буфера обмена в текстовый файл. И будете правы. Но это не наш случай. Файл pdf — результат сканирования многостраничного документа. Т.е. содержимое pdf — это изображения текста.

Предлагаемый вариант решения реализован под Windows-8, но с небольшими корректировками, думаю, вполне может быть использован для Linux и OS X.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «stduviewer»

Как pdf (изображения) преобразовать в текстовый txt-файл