Рубрика «оцифровка книг»

Готическое распознавание: как мы помогали оцифровывать Национальную библиотеку Латвии - 1

Сегодня мы хотим рассказать, как оцифровывали издания Национальной библиотеки Латвии. Если вы следите за нашим блогом, вы наверняка читали, как наши технологии помогают оцифровать литературное наследие разных библиотек, а также статьи, посвященные отдельным проектам — оцифровке в Сахалинской библиотеке, королевском ботаническом саду Эдинбурга и библиотеке Хартли. Сегодня история о том, как это было в Риге. Итак, Национальная библиотека Латвии – крупнейшая в стране, основана в 1919 году, обладает 4,5-миллионным собранием книг и документов, в том числе на латышском языке в уникальном готическом написании. Читать полностью »

На планете более двух с половиной миллиардов пользователей смартфонов. Если бы каждый из них оцифровал хотя бы одну книгу, нам бы понадобился всего один день для всех когда-либо написанных произведений. Калев Литару, специалист по системам обработки данных с двадцатилетним стажем, предлагает новый способ оцифровки книг на основе краудсорсинга и обычных смартфонов.

image

В январе 2015 года пожар повредил 15% фондов научной библиотеки ИНИОН в Москве. Тогда выгорело 2000 квадратных метров и обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. По словам директора библиотеки Юрия Пивоварова, деньги на оцифровку почти не выделялись. Проблема полной оцифровки книг, документов, рукописей не решена в глобальном масштабе, хотя существуют проекты, которые этим занимаются, и сами библиотеки в России и других странах пытаются перевести имеющиеся экземпляры в цифровой вид.

Для оцифровки книг используют громоздкие сканеры стоимостью от десяти тысяч долларов. За этими сканерами работают профессиональные операторы, время которых стоит денег. Операторы переворачивают страницы книги, а сканер фотографирует одновременно две страницы. Скорость работы обычно составляет до пятисот страниц в час, то есть за час работник отсканирует одну-две книги.

Калев Литару предлагает призвать на помощь энтузиастов со всего мира с их смартфонами. В качестве примера эффективности краудсорсинга он рассказывает о проекте eBird, который отслеживает миграции птиц. В этом проекте за тринадцать лет работали более ста тысяч волонтёров, что позволило зафиксировать 275 миллионов наблюдений из 2,87 миллионов уникальных локаций. Сейчас у людей на планете 2,6 миллиардов смартфонов, к 2020 году их количество вырастет до 6,1 миллиардов, в том числе за счёт развивающихся стран.
Читать полностью »

«Элар» оцифровала для Российской государственной библиотеки искусств (РГБИ) книги, датированные 1750-1981 годами. Книги посвящены живописи, иконописи, скульптуре, театру и архитектуре и написаны на английском, французском, немецком и итальянском языках.

image
Фото: Мир ПК
Читать полностью »

В ночь с пятницы на субботу в Москве горела библиотека Института научной информации по общественным наукам РАН. 38 пожарных расчётов тушили здание почти всю ночь. Выгорело 2000 квадратных метров, обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. От огня и воды повреждено 15% фондов, однако учёные надеются, что большую часть повреждённых экземпляров удастся спасти.


Читать полностью »

Вот уже несколько лет Гильдия авторов США (Authors Guild) пытается добиться от университетских библиотек выплаты лицензионных отчислений за то, что они сканируют книги и предоставляют доступ к контенту в цифровом виде. Судебный иск подан против организации Hathitrust, которая возглавляет проект сканирования книг в интересах ряда библиотек, пишет Techdirt.

Ещё в 2012 году окружной суд вынес вердикт, что действия Hathitrust являются очевидным примером добросовестного использования (fair use), а в июне 2014 года апелляционный суд подтвердил это решение.

Теперь Гильдия авторов, наконец, фактически признала своё поражение. В суд подано мировое соглашение, в котором сообщается об отказе от претензий.
Читать полностью »

С технической точки зрения, книги – это самые плохие объекты для сканирования, и если бы они были изобретены в наши дни, то представляли бы собой бесконечно длинные свитки. Если бы так случилось, необходимости в планетарных сканерах не было бы вовсе.

Сегодня мы расскажем о характеристиках планетарных сканеров, — параметрах, определяющих и оправдывающих существование в этом мире данного типа оборудования. Планетарные сканеры созданы для бесконтактной высококачественной оцифровки самых разных оригиналов: сшитых и расшитых документов, документов с толстым корешком, ценных, ветхих; а также тканей, орденов, монет и т.п. Планетарный (проекционный) способ сканирования – это сканирование сверху вниз, так сказать, с головы.

Пристальный взгляд

Изнутри сканирующая «голова» выглядит так:

image

В ней находится один или несколько светочувствительных сенсоров, оптическая система с приводом настройки фокуса, контроллер управления. В отдельных моделях присутствует модуль лазерного дальномера и привод управления «следящей» системой освещения, а также «мозги». Однако, в сканере самое главное это все-таки не мозг, а «глаза».
Читать полностью »

Выбор лучшего книжного сканера для оцифровки фондов сегодня становится актуальным перед любой библиотекой, музеем и архивом. Как купить сканер за приемлемую цену и работать на нем без проблем ближайшие 5-10 лет, отсканировав весь необходимый к оцифровке бумажный фонд? В статье рассматриваются книжные фото-сканеры с V-образной колыбелью, получившие признание за счет оптимального соотношения цены/качества и производительности по сравнению с традиционными планетарными сканерами. Приведены ключевые функциональные требования к аппаратной и программной частям сканера, условия, необходимые для долгосрочной бесперебойной работы оборудования, обязательные требования к поставщикам.

В 2005 году мы, как компания, выполняющая проекты по сканированию для библиотек и архивов, искали себе книжный сканер. Имея опыт работы с традиционными книжными сканерами и ограниченный бюджет, мы остановили свой выбор на появившихся на рынке фото-сканерах V-образной колыбелью.

В предыдущей статье мы рассматривали все виды книжных сканеров существующих на рынке. Данной статьей мы рассмотрим книжные сканеры на базе цифровых фотоаппаратов.
Читать полностью »

Вот уже пол года как я работаю стажером-маркетологом в ИТ-компании, занимающейся промышленным сканированием. Одна из поставленных передо мной глобальных задач заключалась в изучении российского рынка оборудования, предназначенного для сканирования сшитых документов. Погружаясь в проблему, я не смог найти в рунете каких-либо сводных и аналитических статей по этой теме, соответственно все пришлось собирать по крупицам. В итоге я бы хотел с вами поделиться тем материалом, который у меня накопился в процессе работы. Надеюсь, что собранный материал будет полезен читателям хабра.
Читать полностью »

Сообщество Distributed Proofreaders («Распределённые корректоры») больше десяти лет занимается сканированием книг для проекта «Гутенберг». Сотни добровольцев помогают вычитывать тексты и исправлять ошибки.

После автоматического распознавания чаще всего ошибки встречаются в символах, которые похожи друг на друга, как I, l и 1, O и 0, и так далее. Поэтому для проекта Distributed Proofreaders был создан специальный шрифт , в котором «похожие» символы как можно сильнее отличаются друг от друга.

Специальный шрифт для нахождения ошибок после OCR
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js