Рубрика «поиск» - 34

Анализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, — важнейший фактор в ранжировании документов в результатах поиска или, например, показе рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.

Этому вопросу и было посвящено исследование, проведенное мной, Михаилом Агеевым, совместно с Дмитрием Лагуном и Евгением Агиштейном в Emory Intelligent Information Access Lab Университета Эмори.

Мы изучали методы сбора данных и алгоритмы анализа поведения пользователя по движениям мыши, а также возможности применения этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году. Позже я представил доклад о результатах проделанной работы в рамках научно-технических семинаров в Яндексе. Его конспект вы найдете под катом.
Читать полностью »

Как мы обещали ранееЧитать полностью »

Можно ли выжать максимум из минимума или как найти наставника?
Привет! Для многих начало года напрямую связано с новыми начинаниями. Я не исключение — решил систематизировать все свои знания и опыт, полученные за 4+ года предпринимательства и сформировать в формате тематических уроков для начинающих предпринимателей. Мое желание делиться «выжимками» знаний очень хорошо встретили многие люди и всячески поддерживают мои начинания: дают дельные советы, записываются в волонтеры и помогают мне с переводом статей, рекомендуют полезные материалы. Я набрался решимости и хочу поделиться одним из своих уроков с уважаемым хабросообществом. Буду благодарен за любую активность, конструктив в виде отзывов, комментариев и советов.

Что вы узнаете, прочитав данную статью-урок?
У вас появится общее представление кто такой ментор, как его найти и как взаимодействовать с ними. Узнаете мнение серийного предпринимателя и ментора многих проектов. Познакомитесь с сервисом, который позволит вам через сайт найти и начать взаимойдествовать с наставником. Прочтете об ошибках тех, кто отдавал менторам большую долю в проекте и узнаете как этого избежать. Узнаете альтернативное мнение одного предпринимателя, который считает, что можно и нужно обойтись без наставников и «управлять своим кораблем самому»! А на домашнее задание получите практические шаги: «Как стать ментором самому себе».

“Если я помогаю кому-то, я вкладываюсь в успех этого человека. Я подталкиваю его по карьерной лестнице по пути, в который верю сам. И если этот путь приводит к успеху, это также и мой успех.” Chad Fowler
Читать полностью »

Многие слышали о высокоуровневом поисковом сервере ElasticSearch, но не все знают. что многие используют его не совсем по прямому назначению. Речь идет о реалтайм-аналитике различных структурированных и не очень данных.

Эта статья также назрела ввиду того, что многие крупные интернет-проекты рунета в 2014 году получили письма счастья от Google Analytics с предложением заплатить $150 000 за возможность использовать их продукт. Я лично считаю, что ничего плохого в том, чтобы оплатить труд программистов и администраторов нет. Но при этом это довольно серьезные инвестиции, и, может, вложения в собственную инфраструктуру и специалистов, даст большую гибкость в дальнейшем.

Аналитика в ElasticSearch основана на полнотекстовом поиске и фасетах. Фасеты в поиске — это некая агрегация по определенному признаку. Вы часто сталкивались с фасетами-фильтрами в интернет-магазинах: в левой или правой колонке есть уточняющие галочки. Ниже пример тестового фасетного поиска у нас на главной странице http://indexisto.com/.

ElasticSearch 1.0 — новые возможности аналитики

Буквально неделю назад вышла стабильная версия поискового сервера ElasticSearch 1.0, в которой разработчики настолько серьезно поработали над фасетами, что даже назвали их Aggregation.

Так как тема еще не освещалась на Хабре, я хочу рассказать, что из себя представляют аггрегации в ElasticSearch, какие возможности открываются и есть ли жизнь без Hadoop.
Читать полностью »

Поиск на Drupal 7 с помощью Apache Solr ч.7 — полнотекстовый поиск на русском языке
Наконец-то собрался и написал очередную статью из этого цикла. Теперь я расскажу о том, как сделать хороший полнотекстовый поиск на русском языке для Drupal на Apache Solr.
Читать полностью »

Сегодня мы поговорим о моделировании реальности как о способе мышления, восприятия информации и анализа данных. Будем вместе заново изобретать и улучшать модели, которые сегодня используются в поисковых системах: в метриках качества поиска, при создании факторов ранжирования и даже при построении новых интернет-сервисов. Именно этому посвящена лекция Федора Романенко.

Прежде чем переходить к основной теме нашей лекции, стоит рассмотреть некоторые философские вопросы, связанные с моделированием.
Читать полностью »

«Яндекс» научился искать музыку по мотивчику типа «пу пу пиду»

Сейчас Интернет и соответствующие приложения предоставляют нам большое количество возможностей не только для работы, но и для развлечений. Возьмем, к примеру, музыку. Даже не прослушивание мелодий в Сети, а поиск композиции.

Лично меня часто выручает Андроид-приложение «Sound Hound»: порой, услышав понравившуюся мелодию по радио, быстро запускаю это приложение, и затем, получив название/автора уже ищу саму композицию.

Читать полностью »

Можно ли вернуть украденный iPhone, воспользовавшись серверами Apple?

На идею, описанную в этом тексте, меня натолкнули пляски с бубном вокруг официального анлока iPhone 4 от оператора AT&T. Для того чтобы проверить успешность анлока, предлагалось ввести IMEI номер аппарата на одном из специальных сайтов. Раньше все пользовались imei.info или dev.mk. Помимо графы “Lock Status” я заметил строчку с номером ICCID и именно эти цифры меня заинтересовали…

Читать полностью »

Дополнение от 23.01.14. Эта статья была написана 30-го декабря минувшего года. Выдача с тех пор изменилась, однако по большому счету приведенная информация актуальна. За прошедшее время появились еще кое-какие данные, однако их, с одной стороны, слишком много для того, чтобы расширить эту статью — и слишком мало для новой с другой. Если пост вызовет интерес сообщества, вполне вероятно, что после накопления информации будет продолжение, связанное с характерными особенностями не упомянутых тут факторов.

Введение

Предупреждение. Нижеследующее не следует воспринимать как точную информацию — это только догадка, подтвержденная эмпирически.
Предупреждение 2. Возможно, эта информация — новость только в моем «болоте», но поиск по сети не дал результатов, сколько-нибудь похожих на эти выводы.

Все, более-менее имеющие отношение к интернету, знают, какой хай поднялся, когда Яндекс заявил, что отказывается от ссылочного в НГ.

С одной стороны, жить станет легче — без поискового мусора мир будет немного чище, с другой — непонятно, как это реализуют и по кому это ударит (ну, кроме копирайтеров-оптимизаторов и прочей братии, конечно, но и фиг бы с ними).

Поскольку я занимаюсь, помимо прочего, и рекламой в Сети, я начал с напряжением поглядывать на позиции сайтов моих клиентов, а заодно и конкурентов. Результаты выдачи к праздникам становились все страньше и страньше. Очевидно, нессылочные факторы потихоньку усиливались — и потому выдача по некоторым запросам стала довольно необычной.

Я попытался понять логику алгоритма и, похоже, это частично удалось. Хотя, если мои предположения верны, многих, зависящих от продаж через сеть, прямо скажем, ждут тяжелые времена.

Да и пользователям будет не легче.

Тем, кто торопится: краткое резюме есть в конце статьи.

Остальным же предлагаю полностью проследить ход мысли и поправить ошибки, которые я, возможно, допустил.
Читать полностью »

Для того чтобы быть крутым программистом нужно много программировать.

Но еще и важно пополнять свои знания через чтение интересного и нового. Получать информацию можно из многих источников, раньше для меня это были блоги и RSS канал. Но с течением времени, я пришел к выводу, что почти что всю самое интересное я получаю из 3 мест: twitter, github, stackoverflow.

Все эти сайты имеют одну общую фичу, контент который кажется вам интресным, легко отметить как понравившийся. Если я вижу ссылку на интересный блог пост в твиттере, новый фреймворк на гитхаб или вопрос на стековерфлоу, я обязательно ставлю «лайк». Тем самым, я показываю свою благодарность автору контента. Но можно ли получить от «лайков» что-то большее?
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js