Так получилось, что с месяц назад передо мной выросла совершенно неожиданная задача: сконвертировать PDF в html по имеющемуся шаблону. В том числе необходимо было разбивать все на страницы и выделять в них параграфы. Да и много еще чего. И все бы ничего, и обошелся бы я какой-нибудь левой библиотечкой, но кое-какие специфичные штучки-финтеплюшки, так необходимые мне, в библиотеках не нашлись. И это было печально…
Читать полностью »
Рубрика «PDF» - 10
По колено в PDF. PHP парсер с плюшками
2012-03-28 в 6:46, admin, рубрики: PDF, php, Песочница, метки: PDF, PHPBookworm: онлайн-сервис по вытягиванию книг с books.google.com
2012-03-16 в 14:01, admin, рубрики: Google, PDF, книги, я пиарюсь, метки: Google, PDF, книгиОднажды в студеную зимнюю пору искал я на просторах интернета одну очень редкую и нужную мне книжку. В удобоваримом электронном виде (в т.ч. легальном) ее нигде не было, в бумажном — только потрепаный жизнью б/у экземпляр на Амазоне и с доставкой из Бразилии. Вообще, в книжном мире издатели ведут довольно странную игру: отстреливают пиратов, закрывая околонаучные онлайн-библиотеки (к примеру, свежеоткинувший копыта library.nu), но редкие и старые книги не переиздают, а в электронном виде ни с кем ими не делятся. В этот замкнутый круг я и угодил всеми четырьмя ногами.
Книга неожиданно нашлась в Google Books в режиме ограниченного просмотра. Рабочих адекватных способов повыдергивать видимые страницы найти не удалось (да, я знаю о преставившемся gbd и хитром userscript’е для greasemonkey) и решил я поэкспериментировать самостоятельно. Экспериментировал я почти две недели, и в результате исторгнул из себя простенький снаружи сервис по высасыванию книг с books.google.com: http://bookworm.evil.so
За мыслями о том, легально ли проделанное мною с точки зрения закона и как оно вообще работает, прошу проследовать под кат.Читать полностью »
PDF / Как формат PDF перестал ассоциироваться с бревном
2012-02-15 в 19:05, admin, рубрики: PDF, документооборот, документы, распознавание, сканирование, метки: PDF, документооборот, документы, распознавание, сканирование Пролог
На работу привезли в рамках акции новые программы для документооборота — корпоративные профессиональные версии. Они нам программы — мы им свое частное и публичное мнение. Ставить их, к слову, вместо не совсем лицензионных версий этих же программ от Adobe. Соответственно, задачи, которые возлагаются на программы — работать с PDF (конвертировать их по-всякому, и т.п.), сканировать документы и распознавать символы. Меня посадили с этим ПО разбираться — вдруг там все на китайском, и вообще.Действие первое, второе и третье
Привык к тому, что PDF — это как область с наименьшей энтропией, только для документов. С ним самим кромеЧитать полностью »