Рубрика «PDF» - 10

Так получилось, что с месяц назад передо мной выросла совершенно неожиданная задача: сконвертировать PDF в html по имеющемуся шаблону. В том числе необходимо было разбивать все на страницы и выделять в них параграфы. Да и много еще чего. И все бы ничего, и обошелся бы я какой-нибудь левой библиотечкой, но кое-какие специфичные штучки-финтеплюшки, так необходимые мне, в библиотеках не нашлись. И это было печально…
Читать полностью »

Bookworm: онлайн сервис по вытягиванию книг с books.google.comОднажды в студеную зимнюю пору искал я на просторах интернета одну очень редкую и нужную мне книжку. В удобоваримом электронном виде (в т.ч. легальном) ее нигде не было, в бумажном — только потрепаный жизнью б/у экземпляр на Амазоне и с доставкой из Бразилии. Вообще, в книжном мире издатели ведут довольно странную игру: отстреливают пиратов, закрывая околонаучные онлайн-библиотеки (к примеру, свежеоткинувший копыта library.nu), но редкие и старые книги не переиздают, а в электронном виде ни с кем ими не делятся. В этот замкнутый круг я и угодил всеми четырьмя ногами.

Книга неожиданно нашлась в Google Books в режиме ограниченного просмотра. Рабочих адекватных способов повыдергивать видимые страницы найти не удалось (да, я знаю о преставившемся gbd и хитром userscript’е для greasemonkey) и решил я поэкспериментировать самостоятельно. Экспериментировал я почти две недели, и в результате исторгнул из себя простенький снаружи сервис по высасыванию книг с books.google.com: http://bookworm.evil.so

За мыслями о том, легально ли проделанное мною с точки зрения закона и как оно вообще работает, прошу проследовать под кат.Читать полностью »

Пролог
На работу привезли в рамках акции новые программы для документооборота — корпоративные профессиональные версии. Они нам программы — мы им свое частное и публичное мнение. Ставить их, к слову, вместо не совсем лицензионных версий этих же программ от Adobe. Соответственно, задачи, которые возлагаются на программы — работать с PDF (конвертировать их по-всякому, и т.п.), сканировать документы и распознавать символы. Меня посадили с этим ПО разбираться — вдруг там все на китайском, и вообще.Действие первое, второе и третье
Привык к тому, что PDF — это как область с наименьшей энтропией, только для документов. С ним самим кромеЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js