Рубрика «поисковые технологии» - 17

Теория большой свалки: ищем научные документы на просторах интернета

2018-06-06 в 10:34, admin, рубрики: анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, обработка текста, поисковые технологии, Семантика, тематическое моделирование

Система «Антиплагиат» – это специализированный поисковик. Как и положено поисковику, с собственным движком и поисковыми индексами. Самый большой наш индекс по количеству источников – конечно же, у русскоязычного интернета. Довольно давно мы решили, что будем помещать в этот индекс все, что является именно текстом (а не картинкой, музыкой или видео), написано на русском языке, имеет размер больше 1 кб и не является «почти-дубликатом» чего-то, что уже есть в индексе.

Такой подход хорош тем, что он не требует сложных предварительных обработок и минимизирует риски «выплеснуть с водой ребенка» – пропустить документ, из которого потенциально может быть заимствован текст. С другой стороны, в результате мы мало знаем, какие именно документы находятся в итоге в индексе.

По мере роста интернет-индекса – а сейчас, на секундочку, это уже более 300 млн документов только лишь на русском языке – возникает вполне естественный вопрос: а много ли в этой свалке действительно полезных документов.

И раз уж мы (yury_chekhovich и Andrey_Khazov) занялись такой рефлексией, то почему бы нам заодно не ответить еще на несколько вопросов. Сколько проиндексировано научных документов, а сколько ненаучных? Какую долю среди научных статей занимают дипломы, статьи, авторефераты? Каково распределение документов по тематикам?

Теория большой свалки: ищем научные документы на просторах интернета - 1

Так как речь идет о сотнях миллионов документов, то необходимо использовать средства автоматического анализа данных, в частности, технологии машинного обучения. Конечно, в большинстве случаев качество экспертной оценки превосходит машинные методы, но привлекать человеческие ресурсы для решения столь обширной задачи оказалось бы слишком дорогим удовольствием.
Читать полностью »

Неполнотекстовый поиск: специфичные возможности Elasticsearch для сложных задач

2018-06-03 в 12:05, admin, рубрики: api, elasticsearch, php, postgresql, rest, ненормальное программирование, поисковые технологии, Проектирование и рефакторинг, производительность, разработка

Привет всем, меня зовут Андрей, и я разработчик. Давным-давно — кажется, в прошлую пятницу — у нашей команды был проект, где понадобился поиск по ингредиентам, входящим в состав продуктов. Допустим, в состав колбасы. В самом начале проекта от поиска требовалось не много: показать все рецепты, в которых нужный ингредиент содержится в определенном количестве; повторить для N ингредиентов.
Читать полностью »

Аудиопоиск, аудио-SEO и помощь для подкастов – специалисты Google уже работают над этим

2018-06-03 в 11:13, admin, рубрики: Аудиомания, Блог компании Аудиомания, звук, подкасты, поисковые технологии

Согласно данным Podcast Insights, количество жителей США, слушающих подкасты ежемесячно, возросло более чем в 2 раза за последние 5 лет. Поэтому в Google решили подумать о реализации полноценного поиска по таким аудиозаписям. За счет этого подхода ИТ-гигант планирует удвоить количество слушателей подкастов не только в США, но и по всему миру.

Подробнее об этой новости и возможных планах компании, расскажем ниже.

Читать полностью »

Как Яндекс создавал первое устройство с Алисой. Яндекс.Станция на базе технологии IO

2018-05-29 в 8:30, admin, рубрики: YaC, алиса, Блог компании Яндекс, гаджеты, интерфейсы, искусственный интеллект, поисковые технологии, станция, умная колонка, яндекс

Как Яндекс создавал первое устройство с Алисой. Яндекс.Станция на базе технологии IO - 1

Несколько минут назад на конференции YaC 2018 мы впервые рассказали о Яндекс.Станции. Это первое мультимедийное устройство с Алисой, которое воспроизводит музыку и фильмы, рассказывает детям сказки, помогает в повседневных делах, а также поддерживает навыки от сторонних разработчиков.

Может показаться, что для создания подобных устройств достаточно взять голосового помощника, добавить к нему простой микрофон из смартфона и спрятать всё это в корпусе недорогой аудиоколонки. На практике перед разработчиками подобных систем стоят серьёзные технологические проблемы, о решении которых в Станции мы и расскажем сегодня читателям Хабра. Вы также узнаете, что именно представляет из себя технологическая платформа Yandex.IO, на основе которой и создано устройство.

Читать полностью »

Как ускорить мобильный поиск в два раза. Лекция Яндекса

2018-05-20 в 8:00, admin, рубрики: HTTPS, latency, tcp, TLS, Блог компании Яндекс, поисковая оптимизация, поисковые технологии, Промышленное программирование, ускорение загрузки сайта

На телефоне веб-страницы часто загружаются дольше, чем на десктопе. Разработчик Иван Хватов рассказывает о причинах отставания и о том, как с ним справляться. Лекция состоит из нескольких частей: первая — про основные этапы загрузки страницы на мобильных устройствах, вторая — про техники, которые мы применяем для ускорения загрузки, третья — про наш метод адаптации верстки под разную скорость.

— Всем привет, меня зовут Иван Хватов, я работаю в инфраструктуре поиска. Последнее время работаю над ускорением загрузки поисковой выдачи. Работаю с версткой, командами бэкэнда и доставкой трафика. Сегодня расскажу, как мы ускоряли мобильный поиск, какие техники мы применяли, успешные и неуспешные. Они неуникальны для нас. Что-то, возможно, сможете попробовать вы сами. Расскажем про наши неуспехи, чему мы на них научились и как пришли к адаптации верстки в зависимости от скорости соединения.
Читать полностью »

Elastic открывает исходный код X-Pack

2018-04-25 в 17:22, admin, рубрики: Beats, elasticsearch, kibana, logstash, open source, x-pack, поисковые технологии, хранение данных

Прим. переводчика. X-Pack — это проприетарное расширение для продуктов ELK.

От открытых комуникаций до свободного ПО, открытость всегда была в духе Elastic.
Поэтому мы открываем проприетарный код X-Pack. X-Pack включает в себя функционал, связанный с безопасностью, оповещениями, мониторингом, а также отчеты, аналитику и машинное обучение.

Почему мы это делаем?

Изначально мы создали X-Pack как набор проприетарного функционала, расширяющего стек Elastic — Elasticsearch, Kibana, Beats и Logstash. Некоторые функции, например, мониторинг были бесплатными. Некоторые, например, безопасность и машинное обучение были платными.

Наша компания построена на сочетании открытого кода и коммерческой выгоды(подробнее в посте Shay). Открытие кода X-Pack должно ускорить разработку и увеличить вовлеченность сообщества. Каждый может контрибутить, комментировать и изучать код.

Читать полностью »

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

2018-04-24 в 8:07, admin, рубрики: алгоритмы поиска, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, машинный перевод, поисковые технологии, Семантика, хэш-функция, шинглы

В нашей первой статье в корпоративном блоге компании Антиплагиат на Хабре я решил рассказать о том, как работает алгоритм поиска переводных заимствований. Несколько лет назад возникла идея сделать инструмент для обнаружения в русскоязычных текстах переведенного и заимствованного текста из оригинала на английском языке. При этом важно, чтобы этот инструмент мог работать с базой источников в миллиарды текстов и выдерживать обычную пиковую нагрузку Антиплагиата (200-300 текстов в минуту).

Трудности перевода: как найти плагиат с английского языка в русских научных статьях - 1 "

В течение 12 лет своей работы сервис Антиплагиат обнаруживал заимствования в рамках одного языка. То есть, если пользователь загружал на проверку текст на русском, то мы искали в русскоязычных источниках, если на английском, то в англоязычных и т. д. В этой статье я расскажу об алгоритме, разработанном нами для обнаружения переводного плагиата, и о том, какие случаи переводного плагиата удалось найти, опробовав это решение на базе русскоязычных научных статей.Читать полностью »

Курс инфопоиска на Зимней Пущинской Школе: учим старшеклассников создавать поисковые системы

2018-04-23 в 6:27, admin, рубрики: python, Блог компании Mail.Ru Group, инфопоиск, образование в ит, поисковые технологии, Учебный процесс в IT

В наших технопроектах преподают более 200 коллег. Но многие этим не ограничиваются и проводят мастер-классы, курсы и лекции и на других образовательных платформах. Один из таких энтузиастов — Роман Васильев, который этой весной провел курс по инфопоиску в Зимней Пущинской Школе. Под его руководством всего за шесть занятий школьники 7-11 классов (!) написали свой поисковик и защитили проект. Как им это удалось, что это за поисковик и для чего проводится ЗПШ — в философской, вдумчивой, легкой, с изрядной долей юмора статье Романа Васильева.

Курс инфопоиска на Зимней Пущинской Школе: учим старшеклассников создавать поисковые системы - 1

Читать полностью »

Поиск по сайту с Reindexer — это просто. Или как сделать «instant search» по всему Хабрахабр-у

2018-04-22 в 21:23, admin, рубрики: fulltext search, Go, high performance, nosql, open source, reindexer, search, высокая производительность, поисковые технологии, Разработка веб-сайтов

Всем привет,

В предыдущей статье я писал о том, что мы сделали новую in-memory БД — быструю и с богатыми функциональными возможностями — Reindexer.

В этой статье хочу рассказать как при помощи Reindexer можно реализовать полнотекстовый поиск по сайту, написав минимум application кода.

Вообще, полнотекстовый поиск по сайту — эта важная фича, в наше время, обязательная, для любого интернет сайта. От качества и скорости работы поиска зависит
как быстро пользователи найдут интересующую их информацию или товары, которые они планируют приобрести.

Читать полностью »

Как в hh.ru тестируют поиск по вакансиям

2018-04-11 в 10:48, admin, рубрики: data science, Блог компании HeadHunter, машинное обучение, метрики продукта, поисковые технологии, Тестирование веб-сервисов

Я уже делился рассказом о нашем опыте применения искусственного интеллекта в поиске на hh.ru, а сегодня хотел бы остановиться на измерении качества этого поиска поподробнее.
Как в hh.ru тестируют поиск по вакансиям - 1
Для нормальной работы поиска крайне важна система метрик — локальных, A/B-тестов, очередей на проде и т. д., и эта система требует отдельного внимания и ресурсов. Неправильно думать, что достаточно просто запилить крутой ML и прикрутить все эти метрики «скотчем»; недостаточно также измерять качество работы уже работающей системы — не так уж важно, использует ли она ML или представляет собой Lucene «из коробки». Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «поисковые технологии» - 17

Теория большой свалки: ищем научные документы на просторах интернета

Неполнотекстовый поиск: специфичные возможности Elasticsearch для сложных задач

Аудиопоиск, аудио-SEO и помощь для подкастов – специалисты Google уже работают над этим

Как Яндекс создавал первое устройство с Алисой. Яндекс.Станция на базе технологии IO

Как ускорить мобильный поиск в два раза. Лекция Яндекса

Elastic открывает исходный код X-Pack

Почему мы это делаем?

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

Курс инфопоиска на Зимней Пущинской Школе: учим старшеклассников создавать поисковые системы

Поиск по сайту с Reindexer — это просто. Или как сделать «instant search» по всему Хабрахабр-у

Как в hh.ru тестируют поиск по вакансиям

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «поисковые технологии» - 17

Почему мы это делаем?

Новости

Актуальные темы

Архив