Рубрика «поисковые технологии» - 23

Разработка в собственном соку или как мы поняли, что занимаемся не тем, что нужно пользователям

2016-04-29 в 9:07, admin, рубрики: IP-видеонаблюдение, macroscop, видеоанализ, видеоаналитика, индексатор, индексирование, макроскоп, межкамерный трекинг, поисковые алгоритмы, поисковые технологии, Работа с видео, разработка, управление разработкой, метки: macroscop, макроскоп

Вы когда-нибудь задумывались над тем, что тысячи компаний создают свои продукты и технологии в отрыве от пользовательских потребностей и решают самостоятельно придуманные проблемы, которые слабо коррелируют с реально существующими?

В части создания одной из наших технологий мы, разработчики Macroscop, относились к таким компаниям: на протяжении 6 лет работали над функцией, которая, по нашему мнению, должна была сделать жизнь тысяч людей проще и удобнее.

В 2008 году у нас родилась идея максимально упростить процесс поиска в архивах видеосистем. Представьте среднего размера систему из 100 видеокамер и примерно 1000 часов видеозаписей, которые они оставили за сутки (обычно запись видео производится только когда есть активность в кадре). И вам нужно найти что-то в этих записях, но вы не знаете, где и когда это происходило. Вы будете просматривать записи час, второй, третий, и к моменту, когда найдете то, что нужно, проклянете все на свете.

Мы решили создать инструмент, который позволит искать по видео так же, как Google ищет по тексту: Читать полностью »

Основы Elasticsearch

2016-03-30 в 5:08, admin, рубрики: curl, elasticsearch, java, json, lucene, rest, search engine, Веб-разработка, поисковые технологии

Elasticsearch — поисковый движок с json rest api, использующий Lucene и написанный на Java. Описание всех преимуществ этого движка доступно на официальном сайте. Далее по тексту будем называть Elasticsearch как ES.
Подобные движки используются при сложном поиске по базе документов. Например, поиск с учетом морфологии языка или поиск по geo координатам.
В этой статье я расскажу про основы ES на примере индексации постов блога. Покажу как фильтровать, сортировать и искать документы.Читать полностью »

Русский нейросетевой чатбот

2016-03-27 в 18:23, admin, рубрики: Блог компании MeanoTek, машинное обучение, нейронные сети, поисковые технологии, разработка, Семантика, чатбот

О чатботах, использующих нейронные сети я уже писал некоторое время назад. Сегодня я расскажу о том как я попробовал сделать полномасштабный русскоязычный вариант.

Русский нейросетевой чатбот - 1

Обучаемые диалоговые системы приобрели в последнее время неожиданную популярность. К сожалению, все что сделано в рамках нейросетевых диалоговых систем, сделано для английского языка. Но сегодня мы восполним этот пробел и научим модель говорить по русски.

Читать полностью »

Поиск кода в Bitbucket Server

2016-03-25 в 6:35, admin, рубрики: atlassian, bitbucket, EAP, elastic, elasticsearch, Git, search, поиск, поисковые технологии

С удовольствием делюсь новостью, которая, надеюсь, порадует некоторых читателей Хабра: в Bitbucket Server вот-вот появится возможность поиска по коду. Буквально на днях вышел релиз по программе раннего доступа (EAP).

Начну с вольного перевода обращения менеджера продукта, опубликованного в блоге Atlassian:

Как часто это случалось с вами: вы видите сообщение об ошибке, но не знаете, в какой части кода она происходит, или вам известно название функции, но не репозиторий, в коде которого она определена. Многие из вас просили добавить в Bitbucket Server поиск по коду, и я рад сообщить, что ваше ожидание подошло к концу. Сегодня мы приглашаем наших пользователей опробовать поиск по коду в Bitbucket Server через программу раннего доступа (EAP). Теперь вы можете искать и находить нужный код с помощью строки поиска:
Читать полностью »

Минимализм, текстовый парсинг и классификатор на оперативных шаблонах

2016-03-18 в 20:49, admin, рубрики: C, c; c++; обработка текстов;, c++, высокая производительность, поисковые технологии, Семантика, метки: c; c++; обработка текстов;

Как часто нам приходится сталкиваться с обработкой текстовых потоков в реальном времени? Как минимум при каждой загрузке файлов инициализации или конфигурации и тому подобных параметрических данных. Хорошо, когда его содержимое сводится к формату «param = value» и можно воспользоваться стандартными инструментами нарезки. Но что если по ходу разработки программы возникла необходимость усложнить тексты до работы со ссылками? Или обрабатывать условия на этапе чтения? Более того реализовать ветвления? В такой ситуации обычно на скорую руку пишется парсер, занимающий первоначально некоторое количество строчек кода. Который однако со временем разрастается, начинает ветвиться и в конечном итоге приводит к самоповторению, либо заходит в самоисключающий тупик. Именно в этот момент и появляется в голове мысль, что вся суть смысловой разбивки текста сводится к определенному количеству шаблонных операций, зависимых от контекста. И все что требуется для обработки текстов любой сложности — это абстрактный обработчик шаблонов, а не сложносочиненный парсер с детальным описанием всех возникающих условий.
Читать полностью »

Новый useragent поискового робота Google Smartphone

2016-03-16 в 15:52, admin, рубрики: chrome, Google, googlebot, smartphone, useragent, Агент, Блог компании Google, веб-дизайн, Веб-разработка, Изменение, инструмент, Мобильный веб, поисковые технологии, поисковый, пользователи, сайт

Привет! Поиск Google развивается, и вместе с ним развиваются и сопутствующие инструменты. В ближайшем будущем обновится агент пользователя робота Googlebot, который отвечает за «мобильное» направление поиска. В настоящее время useragent выглядит так:

Текущий useragent

Mozilla/5.0 (iPhone; CPU iPhone OS 8_3 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12F70 Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

С 18 апреля 2016 года будет использоваться новый агент пользователя Google Smartphone:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Причина подобных изменений — новые возможности поискового робота. Каждый раз, как наш робот получает значимое обновление и возможность обрабатывать страницы, которые используют самые актуальные технологии. В данном случае, новый формат строки говорит о том, что технически робот Google теперь ближе к браузеру Chrome, а не Safari.
Читать полностью »

Вторая загадка Марса

2016-03-14 в 6:15, admin, рубрики: curiosity, ExoMars, mars eхpress, TGO, Trace Gas Orbiter, атмосфера, Блог компании Яндекс, климат, марс, поисковые технологии, Разработка робототехники, метки: ExoMars, mars eхpress, TGO, Trace Gas Orbiter

Вторая загадка Марса - 1

Сегодня в 12:31 с Байконура стартует ракета «Протон-М», которая отправит к Марсу космические аппараты международной исследовательской миссии ExoMars. Увидеть пуск можно будет на Яндексе, который в 11:45 начнет трансляцию из студии Роскосмоса. Яндекс попросил меня рассказать подробнее о планируемой миссии и ее целях.

Все знают, что никто не знает есть/была ли жизнь на Марсе. Это первая загадка. Пятнадцать лет назад второй загадкой была вода на Марсе. Сейчас ее уже многократно разгадали — воду нашли, картографировали, изучили с поверхности. Но к тому времени нашли загадку не менее важную — марсианский метан.
Читать полностью »

Как работает Google Поиск?

2016-02-24 в 10:19, admin, рубрики: Algoroo, CEO, Google, google app engine, Google Webmaster Central Blog, Google Поиск, Hummingbird, mobilegeddon, Mozcast, Page Layout, Payday Loan, Pirate, ua-hosting.company Penguin, Блог компании ua-hosting.company, ит-инфраструктура, поиск, поисковые системы, поисковые технологии, хостинг

Как работает Google Поиск, основные алгоритмы обновлений

Как работает Google Поиск? - 1

В наше время поисковые системы, в частности Google, напоминают «витрину» Интернета и являются наиболее важным каналом распространения информации в цифровом маркетинге. С помощью глобальной рыночной доли, которая составляет более 65% по данным за январь 2016 года, Google явно доминирует в поисковой индустрии. Хотя компания официально не раскрывает степень своего роста, к 2012 году было подтверждено, что их инфраструктура обслуживает около 3 миллиардов поисковых запросов в день. Читать полностью »

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

2016-02-16 в 12:07, admin, рубрики: information extraction, nlp, извлечение информации, извлечение фактов, лингвистика, поисковые технологии, Семантика, метки: information extraction, извлечение информации, извлечение фактов

Реализация семантического новостного агрегатора с широкими поисковыми возможностями - 1 Цель этой статьи — поделиться опытом и идеями реализации проекта, основанного на полном преобразовании текстов в семантическое представление и организации семантического (смыслового) поиска по полученной базе знаний. Речь пойдет об основных принципах функционирования этой системы, используемых технологиях, и проблемах, возникающих при ее реализации.

Зачем это нужно?

В идеале, семантическая система «понимает» содержание обрабатываемых статей в виде системы смысловых понятий и выделяет из них главные («о чем» текст). Это дает огромные возможности по более точной кластеризации, автоматическому реферированию и семантическому поиску, когда система ищет не по словам запроса, а по смыслу, который стоит за этими словами.

Семантический поиск – это не только ответ по смыслу на набранную в поисковой строке фразу, а в целом способ взаимодействия пользователя с системой. Семантическим запросом может быть не только простое понятие или фраза, но и документ — система при этом выдает семантически связанные документы. Профиль интересов пользователя – это тоже семантический запрос и может действовать в «фоновом режиме» параллельно с другими запросами. Читать полностью »

Революция машинного обучения: общие принципы и влияние на SEO

2016-02-12 в 8:05, admin, рубрики: Google, machine learning, seo, машинное обучение, поисковая оптимизация, поисковые системы, поисковые технологии, ранжирование, спам

Предлагаю вашему вниманию перевод статьи "Революция машинного обучения" за авторством Эрика Энжа (Eric Enge).

Машинное обучение уже само по себе является серьезной дисциплиной. Оно активно используется вокруг нас, причем в гораздо более серьезных масштабах, чем вы можете себе представить. Несколько месяцев назад я решил углубиться в эту тему, чтобы узнать о ней больше. В этой статье я расскажу о некоторых базовых принципах машинного обучения, а также поделюсь своими рассуждениями по поводу его влияния на SEO и digital-маркетинг.

Для справки, рекомендую посмотреть презентацию Рэнда Фишкина «SEO in a Two Algorithm World», где Рэнд подробно рассматривает влияние машинного обучения на поиск и SEO. К этой теме я еще вернусь.

Я также упомяну сервис, который позволяет спрогнозировать шансы ретвита вашего поста на основании следующих параметров: показатель Followerwonk Social Authority, наличие изображений, хэштегов и некоторых других факторов. Я назвал этот сервис Twitter Engagement Predictor (TEP). Чтобы разработать такую систему мне понадобилось создать и обучить нейронную сеть. Вы указываете исходные параметры твита, сервис обрабатывает их и прогнозирует шансы ретвита.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «поисковые технологии» - 23

Разработка в собственном соку или как мы поняли, что занимаемся не тем, что нужно пользователям

Основы Elasticsearch

Русский нейросетевой чатбот

Поиск кода в Bitbucket Server

Минимализм, текстовый парсинг и классификатор на оперативных шаблонах

Новый useragent поискового робота Google Smartphone

Вторая загадка Марса

Как работает Google Поиск?

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

Зачем это нужно?

Революция машинного обучения: общие принципы и влияние на SEO

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «поисковые технологии» - 23

Зачем это нужно?

Новости

Актуальные темы

Архив