Рубрика «PDF» - 6

Доброго времени суток!

Экспорт Избранного c Мегамозг в PDF - 1

Думаю многих из вас когда-либо посещала мысль о возможности получения статей из избранного в формате PDF для использования в оффлайне (например, в читалке).
Такая же мысль посетила и меня чуть больше года назад.
Представляю вам новую версию программы закачки статей с Хабра, Гиктаймс и Мегамозга в формате PDF.

Новый проект называется HabraParse.
Проект состоит из библиотечки, которая парсит сайты, и скрипта, использующего лишь часть возможностей этой библиотеки. Скрипт написан на python3, для его работы потребуются модули docopt, requests и weasyprint (все их легко можно установить командой pip install name).
На текущий момент в скрипте имеются следующие возможности:

  • скачать статью по её ID;
  • скачать список URL избранного для заданного пользователя;
  • скачать статьи из избранного в папку в формате PDF или HTML (пока реализация HTML не на высоте, поэтому по умолчанию используется формат PDF, но он работает значительно дольше).

Читать полностью »

Доброго времени суток, читатели!

Экспорт Избранного на Хабре в PDF. Версия 2.0 - 1

Думаю, многих из вас когда-либо посещала мысль «вот бы сохранить статьи с Хабра». Такая же мысль посетила и меня чуть больше года назад.

Представляю вам новую версию программы закачки статей с Хабра, Гиктаймс и Мегамозг в формате PDF.

Новый проект называется HabraParse.

Проект состоит из библиотечки, которая парсит сайты, и скрипта, использующего лишь часть возможностей этой библиотеки. Скрипт написан на python3, для его работы потребуются модули docopt, requests и weasyprint (все их легко можно установить командой pip install name).

На текущий момент в скрипте имеются следующие возможности:

  • скачать статью по её ID;
  • скачать список URL избранного для заданного пользователя;
  • скачать статьи из избранного в папку в формате PDF или HTML (пока реализация HTML не на высоте, поэтому по умолчанию используется формат PDF, но он работает значительно дольше).

Использование опций --gt/--mm позволяет сохранять статьи с GeekTimes.ru и Megamozg.ru.

Краткое описание параметров скрипта

Usage:

  ./habraparse.py save_favs_list [--gt|--mm] <username> <out_file>
  ./habraparse.py save_favs [--gt|--mm] [-cn --save-html --limit=N] <username> <out_dir>
  ./habraparse.py save_post [--gt|--mm] [-c --save-html] <topic_id> <out_file>

По умолчанию все команды работают с проектом HabraHabr.ru.
При задании опций --gt/--mm скрипт будет работать с GeekTimes.ru/Megamozg.ru.

Команды:

  save_favs_list - сохранение в файл <out_file> списка URL избранного для пользователя <username>
  save_favs - сохранение в папку <out_dir> статей из избранного для пользователя <username>
  save_post - сохранение в файл <out_file> статьи с заданным ID

Пользуйтесь и наслаждайтесь. В случае выявления ошибок прошу кидать сообщения в личку или заводить баг на github-страничке проекта.
Если кому-то чего-то не хватает, то пишите фич-реквест в комментах, по мере сил постараюсь реализовать.

Читать полностью »

Не так давно передо мной встала задача: распечатка документа определенного формата с помощью мобильного устройства. На телефоне должны были вводиться определенные значения, отправляться на сервер (для того, чтобы потом можно было использовать эти данные на веб сайте) и печать документ с этими данными. С самого начала мой выбор пал на Google cloud print, так как он максимально прост в использовании и решении подобных задач. Но при использовании этого варианта есть несколько недостатков:

  • Очень медленная обработка запроса
  • Нужно где-то формировать PDF документ и возвращать ссылку на него
  • Постоянно нужно выбирать принтер (если у вас подключен только один принтер к Google cloud print, то все равно нужно выбирать между ним и сохранением на Google Drive)

Поэтому я решил написать свой скрипт для подобных операций.
Читать полностью »

С помощью библиотеки DOMPDF можно создавать PDF файлы из HTML кода. Нужно только сверстать некий HTML шаблон и передать его DOMPDF и уже на выходе получить сгенерированный PDF файл. Но не надо забывать и то, что эта библиотека не движок для обработки веб-страниц, а значит и шаблоны должны быть сверстаны с использованием самых базовых средств: HTML тегов и CSS стилей. Хотя разработчики заявляют, что их библиотека поддерживает стандарты CSS 2.1 и даже некоторые свойства CSS 3. С полным их перечнем можно ознакомиться здесь. Есть, кстати, один минус – она является довольно “прожорливой” к оперативной памяти. Поэтому возможно придется задуматься об аренде виртуального выделенного сервера. Но это зависит от содержания и объема планируемых PDF документов. С другой стороны она вам может помочь сэкономить много времени на разработку различных отчетов в формате PDF.Читать полностью »

С чего всё началось

Началось всё с лени. Лень бывает продуктивная и не очень, в моём случае, похоже — первое.

Недавно прикупил на «Литресе» книжку Нассима Талеба «Антихрупкость». Скачал, закинул на читалку, да так до неё и не добрался, то жена утащит своё почитать, то ребёнок… А тут в рассылке прилетела вот эта статья «Лучший подарок – книга. Делаем красивый переплет». Посмотрел, всё вроде красиво, только вот под рукой не оказалось машины с «Форточками», ну не пользуемся мы ими, а запускать эти WordPage-ы через прокладку типа Wine или в Qemu как-то некомильфо. Однако у меня имеется возможность распечатать книженцию и нормально обрезать (мини-типография на первом этаже дома, в котором я живу) в нужный формат. Сие значит, что следует использовать возможности подручных средств.
Читать полностью »

Много лет назад я участвовал в бреветах: велосипедных марафонах, где поодиночке и неспеша (но с ограничением по времени) нужно проехать от 200 до 1200 километров. Медитативное занятие, когда есть время насладиться природой, напеть все песни, рассмотреть легенду и карту маршрута… Которые удручают: часто это обычная таблица из экселя с беспорядочным оформлением, а карта факультативна. Петербуржский клуб «Балтийская звезда» продвинутее многих: участники его бреветов всегда получали карту — правда, тёмно-серую, с тёмно-серым маршрутом и КП на чёрных выносках. Не очень удобно. А поскольку я увлёкся OpenStreetMap, я почувствовал, что в силах улучшить дизайн легенд. И приступил ко второй попытке (первую, шестилетней давности, стыдно вспоминать).

Как создать легенду
Читать полностью »

в 8:24, , рубрики: itext, java, PDF, метки: , ,

image

Доброе время суток!

Недавно столкнулся с задачей: научиться вытаскивать текст из PDF запоминая его позицию на странице. И, конечно же, в несложной поначалу задаче вылезли подводные камни. Как же в итоге получилось это решить? Ответ под катом.
Читать полностью »

Всем доброго времени суток!

Хочу поделиться интересным знанием и новостью: журнал LinuxFormat объявил о расширении своей wiki-энциклопедии wiki.linuxformat.ru, где публикуются материалы из выпусков LinuxFormat — технологические статьи, приемы программирования, разработки с открытым кодом и многое другое по темам: Arduino‏‎, Blender‏‎, Cmake‏‎, Cairo‏‎, Debian,‏‎ Django‏‎, Fedora‏‎, Firefox‏‎, GIMP‏‎, GTK+‏, ‎Gambas‏‎, Gnome‏‎, Go‏‎, Hardcore Linux‏‎, Inkscape‏‎, Java‏‎, Lua‏‎, Maxima‏‎, Mono‏‎, Ogre‏‎, OpenOffice‏‎.org‏‎, PHP‏‎, Perl‏‎, PostgreSQL‏‎, Python‏‎, Qt‏‎, Raspberry PI, Samba‏‎, Scribus‏‎, TeX‏‎, Ubuntu‏‎ и т.д. и т.п.

Для задачи пополнения wiki-энциклопедии wiki.linuxformat.ru необходима поддержка сообщества, поскольку проект реализуется на полностью бесплатной для участников основе. Запущена краудфандинговая кампания на IndieGogo, где каждый желающий может внести свой вклад в развитие сообщества Open Source и помочь российским специалистам и подрастающему поколению получить доступ к масштабной базе знаний на русском языке!

Читать полностью »

Опубликован код движка для рендеринга PDF в браузере ChromeКомпания Google опубликовала под свободной лицензией BSD исходный код PDFium — движка, который осуществляет рендеринг PDF в браузере Chrome. Он осуществляет очень точный и быстрый рендеринг документов, не уступая Acrobat Reader.

Движок PDFium разработан при участии коммерческой компании Foxit Software, которая выпускает много проприетарных программ для работы с PDF, в том числе редакторы документов, быстрые индексаторы архивов, SDK для внедрения в сторонние продукты. Разработчики заявляют, что их программное обеспечение по производительности примерно в три раза превосходит любой другой софт для работы с PDF, включая фирменные программы от Adobe.

Судя по всему, Google лицензировала у Foxit Software движок рендеринга и добилась разрешения выложить исходный код в общественное пользование.
Читать полностью »

Как web страницу легко превратить в PDF?
Для меня было очень неожиданно то, что в хабе по Java практически нет информации по работе с PDF документами, поэтому я, из личного опыта, хочу на примере сервлета показать как легко можно любую web-страницу превратить в PDF документ.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js