Рубрика «индексация» - 3

Предыдущая статья о распознавании текста в изображениях в сервисе Evernote была посвящена в основном вопросам функциональности — что это такое, как работает и что дает платформе Evernote в целом. На этот раз мы поговорим о технической стороне вопроса.

Аппаратное обеспечение

Распознавание текста в изображениях Evernote значительно загружает вычислительный кластер, поэтому производительность и эффективность играют главную роль при оценке оборудования. После испытания нескольких различных платформ мы остановились на iX1204-563UB от iX Systems. По сути это Supermicro X8DTU на шасси 815TQ-563UB. Каждая из 37 систем распознавания в кластере состоит из следующего железа:

  • CPU: два Intel Xeon CPU L5630 @ 2,13 МГц (расчетная рассеиваемая мощность — 40 ватт)
  • Материнская плата: Supermicro X8DTU
  • Системный блок: Supermicro 815TQ-563UB
  • Блок питания: 560 ватт (имеет рейтинг эффективности 80Plus Gold)
  • Хранилище данных: 5,25-дюймовый жесткий диск с пониженным энергопотреблением
  • RAM: 12 Гб PC3-8500 (1066 МГц)

Читать полностью »

Система индексации в Evernote разработана для расширения поисковых возможностей Evernote и обеспечения поиска по медиафайлам. Ее задача — исследовать содержимое этих файлов и сделать любую обнаруженную в них текстовую информацию доступной для поиска. В настоящее время она обрабатывает изображения и файлы PDF, а также «цифровые чернила» (digital ink), но в планах у нас есть поддержка индексирования и других типов медиафайлов. Полученный индекс выводится в виде документа XML или PDF и содержит распознанные слова, альтернативные варианты распознавания, а также координаты найденных слов в документе (для последующей подсветки).Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js