Рубрика «поисковые технологии» - 16

Почта Яндекса [была] недоступна уже около часа на момент 12:16 МСК

2018-09-11 в 9:13, admin, рубрики: высокая производительность, облачные сервисы, поисковые технологии, сбой, хранилища данных, яндекс, Яндекс API

UPD Проблема предположительно устранена на момент времени 12:30 МСК

Почта Яндекса [была] недоступна уже около часа на момент 12:16 МСК - 1

Крупный сбой в сервисах российского интернет-гиганта. Утром 11 сентября 2018 года интернет-пользователи сообщили о недоступности основной веб-версии Яндекс.Почты и «Почты для домена». Проблема возникает при попытке авторизации через Паспорт «Яндекса» не зависимо от версии браузера.

@yandex похоже, почта не работает, если заходить через vpn. выкидывает на страницу с выбором аккаунта.

— Eugene (@Eugene_Why) September 11, 2018

У Яндекса, похоже, сломался паспорт. Куки ресет не помог. Вижу дивный лес, клик на юзерпик ведет обратно на страницу с лесом. pic.twitter.com/JzHLme2yPZ

— Nikolay Vasiliev (@lonlylocly) September 11, 2018

Техническая поддержка Яндекса рекомендовала использовать облегченную версию почтового сервиса.
В компании никак не прокомментировали причину сбоя, но подтвердили, что есть «некоторые трудности со входом в почту»:Читать полностью »

Custom Google Search View

2018-08-24 в 15:21, admin, рубрики: Google, Google API, search engines, Yandex, поисковая оптимизация, поисковые системы, поисковые технологии

Вы знаете, сколько данных вы качаете из сети каждый раз, чтобы увидеть вот эту страничку?

Если без браузерного кэша, то 600 килобайт (в gzip-e) и 38 запросов. Если с кэшем, то 70 килобайт и 7-8 запросов.Читать полностью »

Как Google пытается разработать поисковую систему с цензурой для Китая

2018-08-12 в 9:00, admin, рубрики: Google, информационная безопасность, китай, китайский файрвол, поиск, поисковая оптимизация, поисковые технологии, цензура

Как Google пытается разработать поисковую систему с цензурой для Китая - 1

Изданию The Intercept удалось ознакомиться с конфиденциальными документами, описывающими, как в компании Google проводили анализ поисковых запросов на пекинском сайте, чтобы разработать чёрные списки слов для поисковой системы с цензурой, которую компания планирует запустить в Китае.

Инженеры работают с цензурированным поиском с сайта 265.com, каталога сайтов на китайском языке, принадлежащего непосредственно Google.

В отличие от сервисов типа Google.com или YouTube, 265.com не заблокирован в Китае так называемым "великим китайским файрволом", ограничивающим доступ к сайтам, которые компартия Китая считает неблагонадёжными.
Читать полностью »

«Яндекс» опять проиндексировал документы Google Docs

2018-07-27 в 11:42, admin, рубрики: Google Docs, информационная безопасность, поисковые технологии, яндекс

«Яндекс» опять проиндексировал документы Google Docs - 1
Одна из таблиц, которая попала в выдачу. Вероятно, «Яндекс» проиндексировал документ какого-то рекрутингового агентства

Поисковая система «Яндекс» снова проиндексировала документы пользователей Google Docs, не защищённые паролем. Если вы открыли доступ для документа всем, у кого есть ссылка, и отправили эту ссылку одному человеку, то имейте в виду — эта ссылка может стать известна «Яндексу», а тот сделает ваш «приватный» документ доступным для поиска.
Читать полностью »

Массовый стекинг моделей ML в production: реально или нет?

2018-07-26 в 11:30, admin, рубрики: als, data science, feature, feature selection, ml, production, stacking, Алгоритмы, Блог компании HeadHunter, логистическая регрессия, машинное обучение, нейросети, поисковые технологии, признаки, продакшн, стекинг, факторизационные машины

Довольно часто нас спрашивают, почему мы не устраиваем соревнований дата-сайентистов. Дело в том, что по опыту мы знаем: решения в них совсем не применимы к prod. Да и нанимать тех, кто окажется на ведущих местах, не всегда имеет смысл.

Массовый стекинг моделей ML в production: реально или нет? - 1

Такие соревнования часто выигрывают с помощью так называемого китайского стекинга, когда комбинаторным способом берут все возможные алгоритмы и значения гиперпараметров, и полученные модели в несколько уровней используют сигнал друг от друга. Обычные спутники этих решений — сложность, нестабильность, трудность при отладке и поддержке, очень большая ресурсоёмкость при обучении и прогнозировании, необходимость внимательного надзора человека в каждом цикле повторного обучения моделей. Смысл делать это есть только на соревнованиях — ради десятитысячных в локальных метриках и позиций в турнирной таблице.

Читать полностью »

Фитнес-сервис вновь «сдал все явки» правительств, военных и спецслужб

2018-07-11 в 17:41, admin, рубрики: bellingcat, Polar Flow, Strava, Геоинформационные сервисы, информационная безопасность, конфиденциальность, поисковые технологии, Социальные сети и сообщества, утечка, утечка данных, утечка информации, фитнес-приложения, фитнес-трекеры

В эпоху неуправляемых баллистических снарядов возникла поговорка, что «в одну воронку дважды бомба не падает». С тех пор появились боеприпасы, с корректируемой траекторией полета, а поговорка стала символизировать надежду на то, что люди могут учиться на чужих ошибках, и дважды epic fail по одному и тому же сценарию произойти не сможет. Однако, как говорится, «никогда такого не было, и вот опять»…

Не успели все еще как следует позабыть историю из января 2017 года, когда фитнес-сервис Strava раскрыл расположения секретных объектов США, как произошел еще более эпичный провал у другого аналогичного сервиса. Спортивное приложение Polar Flow показало, где живут сотрудники секретных военных баз и других чувствительных объектов особого значения.

Удивительно, что сервис Polar Flow отдавал еще больше данных, чем это было в случае со Strava. К сожалению, жизнь ничему не научила сотрудников, отвечающих за защиту информации в Polar. Теперь можно было не просто ограничиться поиском людей, занимающихся спортом на секретных объектах. Но, что более важно, — узнать полные имена таких людей, а еще как часто и где они тренировались ранее.

Читать полностью »

Яндекс начал индексировать Google Документы с паролями

2018-07-04 в 20:58, admin, рубрики: Google, google документы, yandex.ru, индексирование, информационная безопасность, пароли, поисковые технологии, утечка данных, утечка информации, утечка паролей, яндекс

Только что стало известно что Яндекс начал индексировать Google Документы в числе которых есть и документы с паролями, личными данными и т.д.

Ссылка на поисковый запрос

Рекомендуется всем проверить настройки доступа своих Google Документов.

Читать полностью »

RuSSIR 2018: 12-я летняя школа по информационному поиску

2018-07-02 в 14:50, admin, рубрики: data mining, russir, russir 2018, Блог компании Computer Science Center, информационный поиск, конференции, летняя школа, машинное обучение, поисковые технологии

27–31 августа в Казани пройдет 12-я летняя школа по информационному поиску RuSSIR 2018.

Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП).

Главная тема школы в этом году — медицинские и гуманитарные приложения.

RuSSIR 2018: 12-я летняя школа по информационному поиску - 1

Программа включает два пленарных доклада и семь курсов, а также постер-сессию конференции молодых ученых «RuSSIR Young Scientist Conference».

Пленарные доклады:

Carlos Castillo (Universitat Pompeu Fabra), «Crisis Informatics» — о том, как использовать данные из социальных сетей для борьбы с чрезвычайными ситуациями;
Carlos Castillo, «The Biases of Social Data» — о подводных камнях при анализе пользовательского контента;

Курсы:

Cathal Gurrin (Dublin City University), «The Information Retrieval Challenge of Lifelogs and Personal Life Archives» — об анализе персональных данных;
Henning Müller (University of Geneva), «Evaluation of IR systems and multi-modal retrieval in the medical domain» — о поиске медицинских изображений;
Valentin Malykh, Mikhail Burtsev (Moscow Institute of Physics and Technology), «Conversational AI through Deep Learning» — о том, как создать интеллектуального чат-бота с помощью глубокого обучения;
Rishabh Mehrotra (Spotify Research), «Learning from User Interactions» — о том, как угадать потребность пользователя из его взаимодействия с онлайн-системой;
Guido Zuccon (Queensland University of Technology), «Health Search» — о поиске по медицинским данным;
Harrie Oosterhuis (University of Amsterdam), «Learning to Rank and Evaluation in the Online Setting» — о том, как обучить систему на основе данных о взаимодействии с пользователем;
Prasenjit Mitra (Pennsylvania State University), «Retrieving Information Interactively Using Natural Language» — о том, как научить систему общаться на естественном языке.

Участие в школе бесплатное. Регистрация открыта до 10 июля. Читать полностью »

Как докатить ML в прод: шесть граблей, на которые мы наступили

2018-06-28 в 8:03, admin, рубрики: headhunter, ml, production, TensorFlow, Алгоритмы, Блог компании HeadHunter, грабли, машинное обучение, нейросеть, отладка, поисковые технологии, умный поиск

Совсем недавно мы искали дата-сайентиста в команду (и нашли — привет, nik_son и Арсений!). Пока общались с кандидатами, поняли, что многие хотят сменить место работы, потому что делают что-то «в стол».

Например, берутся за сложное прогнозирование, которое предложил начальник, но проект останавливается — потому что в компании нет понимания, что и как включить в продакшен, как получить прибыль, как «отбить» потраченные на новую модель ресурсы.

Как докатить ML в прод: шесть граблей, на которые мы наступили - 1

У HeadHunter нет больших вычислительных мощностей, как у «Яндекса» или Google. Мы понимаем, как нелегко катить в продакшен сложный ML. Поэтому многие компании останавливаются на том, что катят в прод простейшие линейные модели.

В процессе очередного внедрения ML в рекомендательную систему и в поиск по вакансиям мы столкнулись с некоторым количеством классических «граблей». Обратите на них внимание, если собираетесь внедрять ML у себя: возможно, этот список поможет по ним не ходить и найти уже свои, персональные грабли.
Читать полностью »

Вышел Elasticsearch 6.3.0

2018-06-14 в 12:05, admin, рубрики: elasticsearch, java, nosql, sql, Администрирование баз данных, поисковая оптимизация, поисковые технологии

13 Июня вышел Elasticsearch 6.3.0 на основе Lucene 7.3.0. Это последний стабильный релиз и уже доступен для использования в облаке через службу Elasticsearch на Elastic Cloud.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «поисковые технологии» - 16

Почта Яндекса [была] недоступна уже около часа на момент 12:16 МСК

Custom Google Search View

Как Google пытается разработать поисковую систему с цензурой для Китая

«Яндекс» опять проиндексировал документы Google Docs

Массовый стекинг моделей ML в production: реально или нет?

Фитнес-сервис вновь «сдал все явки» правительств, военных и спецслужб

Яндекс начал индексировать Google Документы с паролями

RuSSIR 2018: 12-я летняя школа по информационному поиску

Как докатить ML в прод: шесть граблей, на которые мы наступили

Вышел Elasticsearch 6.3.0

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «поисковые технологии» - 16

Новости

Актуальные темы

Архив