Рубрика «поисковые технологии» - 16

UPD Проблема предположительно устранена на момент времени 12:30 МСК

Почта Яндекса [была] недоступна уже около часа на момент 12:16 МСК - 1

Крупный сбой в сервисах российского интернет-гиганта. Утром 11 сентября 2018 года интернет-пользователи сообщили о недоступности основной веб-версии Яндекс.Почты и «Почты для домена». Проблема возникает при попытке авторизации через Паспорт «Яндекса» не зависимо от версии браузера.

image

Техническая поддержка Яндекса рекомендовала использовать облегченную версию почтового сервиса.
В компании никак не прокомментировали причину сбоя, но подтвердили, что есть «некоторые трудности со входом в почту»:Читать полностью »

Вы знаете, сколько данных вы качаете из сети каждый раз, чтобы увидеть вот эту страничку?

Custom Google Search View - 1

Если без браузерного кэша, то 600 килобайт (в gzip-e) и 38 запросов. Если с кэшем, то 70 килобайт и 7-8 запросов.Читать полностью »

Как Google пытается разработать поисковую систему с цензурой для Китая - 1

Изданию The Intercept удалось ознакомиться с конфиденциальными документами, описывающими, как в компании Google проводили анализ поисковых запросов на пекинском сайте, чтобы разработать чёрные списки слов для поисковой системы с цензурой, которую компания планирует запустить в Китае.

Инженеры работают с цензурированным поиском с сайта 265.com, каталога сайтов на китайском языке, принадлежащего непосредственно Google.

В отличие от сервисов типа Google.com или YouTube, 265.com не заблокирован в Китае так называемым "великим китайским файрволом", ограничивающим доступ к сайтам, которые компартия Китая считает неблагонадёжными.
Читать полностью »

«Яндекс» опять проиндексировал документы Google Docs - 1
Одна из таблиц, которая попала в выдачу. Вероятно, «Яндекс» проиндексировал документ какого-то рекрутингового агентства

Поисковая система «Яндекс» снова проиндексировала документы пользователей Google Docs, не защищённые паролем. Если вы открыли доступ для документа всем, у кого есть ссылка, и отправили эту ссылку одному человеку, то имейте в виду — эта ссылка может стать известна «Яндексу», а тот сделает ваш «приватный» документ доступным для поиска.
Читать полностью »

Довольно часто нас спрашивают, почему мы не устраиваем соревнований дата-сайентистов. Дело в том, что по опыту мы знаем: решения в них совсем не применимы к prod. Да и нанимать тех, кто окажется на ведущих местах, не всегда имеет смысл.

Массовый стекинг моделей ML в production: реально или нет? - 1

Такие соревнования часто выигрывают с помощью так называемого китайского стекинга, когда комбинаторным способом берут все возможные алгоритмы и значения гиперпараметров, и полученные модели в несколько уровней используют сигнал друг от друга. Обычные спутники этих решений — сложность, нестабильность, трудность при отладке и поддержке, очень большая ресурсоёмкость при обучении и прогнозировании, необходимость внимательного надзора человека в каждом цикле повторного обучения моделей. Смысл делать это есть только на соревнованиях — ради десятитысячных в локальных метриках и позиций в турнирной таблице.

Читать полностью »

В эпоху неуправляемых баллистических снарядов возникла поговорка, что «в одну воронку дважды бомба не падает». С тех пор появились боеприпасы, с корректируемой траекторией полета, а поговорка стала символизировать надежду на то, что люди могут учиться на чужих ошибках, и дважды epic fail по одному и тому же сценарию произойти не сможет. Однако, как говорится, «никогда такого не было, и вот опять»…

Не успели все еще как следует позабыть историю из января 2017 года, когда фитнес-сервис Strava раскрыл расположения секретных объектов США, как произошел еще более эпичный провал у другого аналогичного сервиса. Спортивное приложение Polar Flow показало, где живут сотрудники секретных военных баз и других чувствительных объектов особого значения.

Удивительно, что сервис Polar Flow отдавал еще больше данных, чем это было в случае со Strava. К сожалению, жизнь ничему не научила сотрудников, отвечающих за защиту информации в Polar. Теперь можно было не просто ограничиться поиском людей, занимающихся спортом на секретных объектах. Но, что более важно, — узнать полные имена таких людей, а еще как часто и где они тренировались ранее.

image Читать полностью »

Только что стало известно что Яндекс начал индексировать Google Документы в числе которых есть и документы с паролями, личными данными и т.д.

image

Ссылка на поисковый запрос

Рекомендуется всем проверить настройки доступа своих Google Документов.

Читать полностью »

27–31 августа в Казани пройдет 12-я летняя школа по информационному поиску RuSSIR 2018.

Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП).

Главная тема школы в этом году — медицинские и гуманитарные приложения.

RuSSIR 2018: 12-я летняя школа по информационному поиску - 1

Программа включает два пленарных доклада и семь курсов, а также постер-сессию конференции молодых ученых «RuSSIR Young Scientist Conference».

Пленарные доклады:

  1. Carlos Castillo (Universitat Pompeu Fabra), «Crisis Informatics» — о том, как использовать данные из социальных сетей для борьбы с чрезвычайными ситуациями;
  2. Carlos Castillo, «The Biases of Social Data» — о подводных камнях при анализе пользовательского контента;

Курсы:

  1. Cathal Gurrin (Dublin City University), «The Information Retrieval Challenge of Lifelogs and Personal Life Archives» — об анализе персональных данных;
  2. Henning Müller (University of Geneva), «Evaluation of IR systems and multi-modal retrieval in the medical domain» — о поиске медицинских изображений;
  3. Valentin Malykh, Mikhail Burtsev (Moscow Institute of Physics and Technology), «Conversational AI through Deep Learning» — о том, как создать интеллектуального чат-бота с помощью глубокого обучения;
  4. Rishabh Mehrotra (Spotify Research), «Learning from User Interactions» — о том, как угадать потребность пользователя из его взаимодействия с онлайн-системой;
  5. Guido Zuccon (Queensland University of Technology), «Health Search» — о поиске по медицинским данным;
  6. Harrie Oosterhuis (University of Amsterdam), «Learning to Rank and Evaluation in the Online Setting» — о том, как обучить систему на основе данных о взаимодействии с пользователем;
  7. Prasenjit Mitra (Pennsylvania State University), «Retrieving Information Interactively Using Natural Language» — о том, как научить систему общаться на естественном языке.

Участие в школе бесплатное. Регистрация открыта до 10 июля. Читать полностью »

Совсем недавно мы искали дата-сайентиста в команду (и нашли — привет, nik_son и Арсений!). Пока общались с кандидатами, поняли, что многие хотят сменить место работы, потому что делают что-то «в стол».

Например, берутся за сложное прогнозирование, которое предложил начальник, но проект останавливается — потому что в компании нет понимания, что и как включить в продакшен, как получить прибыль, как «отбить» потраченные на новую модель ресурсы.

Как докатить ML в прод: шесть граблей, на которые мы наступили - 1

У HeadHunter нет больших вычислительных мощностей, как у «Яндекса» или Google. Мы понимаем, как нелегко катить в продакшен сложный ML. Поэтому многие компании останавливаются на том, что катят в прод простейшие линейные модели.

В процессе очередного внедрения ML в рекомендательную систему и в поиск по вакансиям мы столкнулись с некоторым количеством классических «граблей». Обратите на них внимание, если собираетесь внедрять ML у себя: возможно, этот список поможет по ним не ходить и найти уже свои, персональные грабли.
Читать полностью »

13 Июня вышел Elasticsearch 6.3.0 на основе Lucene 7.3.0. Это последний стабильный релиз и уже доступен для использования в облаке через службу Elasticsearch на Elastic Cloud.

Вышел Elasticsearch 6.3.0 - 1

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js