Рубрика «pillow»

Я ускорил генерацию blurhash в 3̶6̶ 8̶7̶ 128 раз

2024-10-11 в 21:44, admin, рубрики: blurhash, clang, compilers, gcc, pillow, simd

Старую собаку новым трюкам не обучишь, вот и я взялся за старое. Blurhash — это компактный способ представления размытой превьюшки изображения в виде ASCII-строки. Разработан финской компанией Wolt (аналог Delivery Club). Давно хотелось внедрить такое к себе в API, чтобы любой клиент мог более плавно и изящно делать загрузку контент на своем сайте. Но сколько я на него смотрел — всегда не давала покоя скорость работы, уж больно медленно и «в лоб» он был написан. Но вот время пришло наконец-то разобраться, что же он так медленно работает.

Читать полностью »

Извлечение текста из файлов PDF при помощи Python

2023-10-04 в 13:00, admin, рубрики: ocr, optical character recognition, PDF, pdf2image, pdfminer, pdfplumber, pillow, pytesseract, ruvds_перевод, распознавание текста

▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать полностью »

Перегон картинок из Pillow в NumPy-OpenCV всего за два копирования памяти

2021-03-08 в 6:37, admin, рубрики: numpy, opencv, pillow, python, обработка изображений

Стоп, что? В смысле «всего»? Разве преобразование из одного формата в другой нельзя сделать за одно копирование, а лучше вообще без копирования?

Да, это кажется безумием, но более привычные методы преобразования картинок работают в 1,5-2,5 раза медленнее (если нужен не read-only объект). Сегодня я покопаюсь в кишках обеих библиотек, расскажу почему так получилось и кто виноват. А также покажу финальный результат, который работает так же, только быстрее. Никаких репозиториев или пакетов не будет, только рассказ и рабочий код в конце. Но давайте обо всём по порядку.

Pillow Читать полностью »

Как я сгенерировал на Python тысячу лиц для своей игры

2020-04-03 в 7:50, admin, рубрики: photoshop, pillow, python, генератор аватар, Дизайн игр, обработка изображений, процедурная генерация, разработка игр

На определённом этапе разработки своей игры я осознал, что мне нужна система диалогов с лицами-аватарами.

Поэтому я решил создать генератор лиц на основе знаменитой игры Papers, Please.

Генератор лиц Dukope (из Papers, Please)

Сбор данных

Я скачал примерно 50 портретов с pixabay.com (все изображения имеют лицензию CC и не требуют указания авторства).

Затем я вырезал фон каждого изображения в Photoshop (просто выбрал всё инструментом выделения многоугольника и нажал на Delete). В дальнейшем я планировал воспользоваться эффектом cutout , чтобы скрыть все недочёты.

Изображения с удалённым фоном
Читать полностью »

Трансформация цвета: поиски в прореженном столе

2020-03-08 в 12:50, admin, рубрики: imagemagick, pillow, pillow-simd, python, высокая производительность, обработка изображений

Это обзор функциональности, появившейся в Pillow 5.4: применение трехмерных таблиц поиска (3D lookup tables, 3D LUT) для трансформации цвета. Эта техника широко распространена в обработке видео и 3D-играх, однако мало графических библиотек могли похвастаться их поддержкой до этого.

Трехмерные таблицы поиска дают большую гибкость в описании цветовых трансформаций, но самое главное трансформации выполняются за одинаковое время, какими бы сложными они не были.

from PIL import Image, ImageFilter

def washout(r, g, b):
    h, s, v = _rgb_to_hsv(r, g, b)
    if 0.3 < h < 0.7:
        s = 0
    return _hsv_to_rgb(h, s, v)

im = Image.open('./Puffins.jpg')
im = im.filter(ImageFilter.Color3DLUT.generate(17, washout))

Функция, полностью написанная на Пайтоне, применяется к 16,6-мегапиксельной картинке за 75ms.

Трансформация цвета: поиски в прореженном столе - 1

Работа с изображениями и так ресурсоемка, поэтому я обожаю алгоритмы, которые позволяют убрать сложность от входных параметров. Пять лет назад я реализовал в Pillow гауссово размытие, работающее за одинаковое время для любого радиуса. Не так давно я рассказал как можно уменьшить изображение за константное время с минимальной потерей качества. Сегодня я покажу для каких задач можно применять 3D LUT, какие у нее ограничения и похвастаюсь достигнутой производительностью в Pillow-SIMD.

Читать полностью »

Печать гобелена «Игры престолов» на фискальном принтере с использованием Python

2019-08-30 в 14:53, admin, рубрики: fiscal printer, game of thrones, opencv, PIL, pillow, POS, python, pytube, pywin32, retail

Однажды в одном из проектов в мои руки попал фискальный принтер. Мы каждый день сталкиваемся с этими устройствами, когда совершаем платежи в магазинах, но мало кто догадывается что на самом деле они из себя представляют. Не буду вдаваться в подробности их работы, просто скажу, что это такие штучки, которые печатают чеки с данными о покупке на специальной термобумаге (да-да, почти во всех фискальных принтерах нет чернил!).

Я должен был разобраться как получить состояние функционирования фискального принтера и его внутренние параметры настройки. Задача давно выполнена, а фискальный принтер был надолго заброшен в дальний угол… Пока в мою голову не пришла идея немного покреативить :D

Такие принтеры позволяют печатать монохромные картинки. Когда я вдоволь наигрался с печатью котиков, эмблем и фотографий коллег, я решил замахнуться на печать длинного гобелена по мотивам сериала, в котором постоянно кого-то убивали со словами «зима близко».

На выходе получился вот такой ролик:

Подробные действия для печати гобелена на языке python под катом ниже.
Читать полностью »

Работа с изображениями на Python

2018-10-18 в 10:44, admin, рубрики: opencv, pillow, pillow-simd, python, VIPS, Блог компании Конференции Олега Бунина (Онтико), обработка изображений, Разработка веб-сайтов

Тема сегодняшнего разговора — чему же научился Python за все годы своего существования в работе с изображениями. И действительно, кроме старичков родом из 1990 года ImageMagick и GraphicsMagick, есть современные эффективные библиотеки. Например, Pillow и более производительная Pillow-SIMD. Их активный разработчик Александр Карпинский (homm) на MoscowPython сравнил разные библиотеки для работы с изображениями на Python, представил бенчмарки и рассказал о неочевидных особенностях, которых всегда хватает. В этой статье расшифровка доклада, который поможет вам выбрать библиотеку под свое приложение, и сделать так, чтобы она работало максимально эффективно.

О спикере: Александр Карпинский работает в компании Uploadcare и занимается сервисом быстрой модификации изображений на лету. Участвует в разработке Pillow — популярной библиотеки для работы с изображениями на Python, развивает собственный форк этой библиотеки — Pillow-SIMD, который использует современные инструкции процессоров для наибольшей производительности.
Читать полностью »

Стойкое шифрование данных в PNG

2018-03-23 в 2:20, admin, рубрики: crypto, cryptography, open source, PIL, pillow, python, zlib, Вк, Вконтакте, информационная безопасность, криптография, обработка изображений, сжатие, сжатие данных, социальные сети

Доброго утра Хабру. Читал вчера статью о хэш-стеганографии через социальные сети, и пришла мне в голову мысль сделать что-то более оптимальное в плане объёма выходных данных. Получилось что-то более-менее работоспособное и даже оптимизированное (в отличие от proof-of-concept romabibi), поэтому, как и обещал, пишу статью.

Что ж, поздороваюсь с вами ещё раз: Стойкое шифрование данных в PNG - 1 , и добро пожаловать под кат.
Читать полностью »

Как я сделал самый быстрый ресайз изображений. Часть 3, числа с фиксированной точкой

2017-08-03 в 11:28, admin, рубрики: avx, AVX2, C, pillow, pillow-simd, python, sse, SSE4, высокая производительность, обработка изображений, оптимизация, производительность, ресайз

Я продолжаю подробно рассказывать о приемах оптимизации, позволивших мне написать самый быстрый ресайз изображений на современных x86 процессорах. На этот раз речь пойдет о преобразовании вычислений с плавающей точкой в вычисления с целыми числами. Сперва я расскажу немного теории, как это работает. Затем вернусь к реальному коду, в том числе SIMD-версии.

В предыдущих частях:

→ Часть 0
→ Часть 1, общие оптимизации
→ Часть 2, SIMD

Читать полностью »

Сжатие фотографий без видимой потери качества: опыт Yelp

2017-06-25 в 16:30, admin, рубрики: jpeg, Mozjpeg, pillow, yelp, квантование, компрессия, оптимизация, Серверная оптимизация, сжатие данных, хранение данных

На Yelp хранится более 100 миллионов пользовательских фотографий, от картинок ужинов и причёсок до одной из наших последних фич, #yelfies. Эти изображения составляют основную часть трафика для пользователей приложения и веб-сайта, а их хранение и передача обходятся недёшево. Стараясь предоставить людям наилучший сервис, мы усиленно работали над оптимизацией всех фотографий и добились среднего уменьшения размера на 30%. Это экономит людям время и трафик, а также сокращает наши расходы на обслуживание этих изображений. Ах да, и мы сделали это без ухудшения качества фотографий!

Исходные данные

Yelp хранит пользовательские фотографии уже 12 лет. Мы сохраняем lossless-форматы (PNG, GIF) как PNG, а все остальные форматы в JPEG. Для сохранения файлов используются Python и Pillow, а загрузки фотографий начинаются примерно с такого сниппета:

# do a typical thumbnail, preserving aspect ratio
new_photo = photo.copy()
new_photo.thumbnail(
    (width, height),
    resample=PIL.Image.ANTIALIAS,
)
thumbfile = cStringIO.StringIO()
save_args = {'format': format}
if format == 'JPEG':
    save_args['quality'] = 85
new_photo.save(thumbfile, **save_args)

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «pillow»

Я ускорил генерацию blurhash в 3̶6̶ 8̶7̶ 128 раз

Извлечение текста из файлов PDF при помощи Python

▍ Введение

Перегон картинок из Pillow в NumPy-OpenCV всего за два копирования памяти

Как я сгенерировал на Python тысячу лиц для своей игры

Сбор данных

Трансформация цвета: поиски в прореженном столе

Печать гобелена «Игры престолов» на фискальном принтере с использованием Python

Работа с изображениями на Python

Стойкое шифрование данных в PNG

Как я сделал самый быстрый ресайз изображений. Часть 3, числа с фиксированной точкой

Сжатие фотографий без видимой потери качества: опыт Yelp

Исходные данные

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «pillow»

▍ Введение

Сбор данных

Исходные данные

Новости

Актуальные темы

Архив