Пока весь мир, вместо того, чтобы нарезать салаты готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.
Читать полностью »
Рубрика «информационный поиск»
Т — значит творчество
2019-12-31 в 7:09, admin, рубрики: natural language processing, антиплагиат, Блог компании «Антиплагиат», информационный поиск, машинное обучение, микросервисы, обработка текстов, позитив, Программирование, разработка, с новым годомRuSSIR 2018: 12-я летняя школа по информационному поиску
2018-07-02 в 14:50, admin, рубрики: data mining, russir, russir 2018, Блог компании Computer Science Center, информационный поиск, конференции, летняя школа, машинное обучение, поисковые технологии27–31 августа в Казани пройдет 12-я летняя школа по информационному поиску RuSSIR 2018.
Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП).
Главная тема школы в этом году — медицинские и гуманитарные приложения.
Программа включает два пленарных доклада и семь курсов, а также постер-сессию конференции молодых ученых «RuSSIR Young Scientist Conference».
Пленарные доклады:
- Carlos Castillo (Universitat Pompeu Fabra), «Crisis Informatics» — о том, как использовать данные из социальных сетей для борьбы с чрезвычайными ситуациями;
- Carlos Castillo, «The Biases of Social Data» — о подводных камнях при анализе пользовательского контента;
Курсы:
- Cathal Gurrin (Dublin City University), «The Information Retrieval Challenge of Lifelogs and Personal Life Archives» — об анализе персональных данных;
- Henning Müller (University of Geneva), «Evaluation of IR systems and multi-modal retrieval in the medical domain» — о поиске медицинских изображений;
- Valentin Malykh, Mikhail Burtsev (Moscow Institute of Physics and Technology), «Conversational AI through Deep Learning» — о том, как создать интеллектуального чат-бота с помощью глубокого обучения;
- Rishabh Mehrotra (Spotify Research), «Learning from User Interactions» — о том, как угадать потребность пользователя из его взаимодействия с онлайн-системой;
- Guido Zuccon (Queensland University of Technology), «Health Search» — о поиске по медицинским данным;
- Harrie Oosterhuis (University of Amsterdam), «Learning to Rank and Evaluation in the Online Setting» — о том, как обучить систему на основе данных о взаимодействии с пользователем;
- Prasenjit Mitra (Pennsylvania State University), «Retrieving Information Interactively Using Natural Language» — о том, как научить систему общаться на естественном языке.
Участие в школе бесплатное. Регистрация открыта до 10 июля. Читать полностью »
Что должен знать о поиске каждый разработчик
2017-10-12 в 7:03, admin, рубрики: Alconost, big data, elasticsearch, Алгоритмы, Блог компании Alconost, запросы, индекс, индексирование, информационный поиск, машинное обучение, поиск, поисковая система, поисковые технологии, разработка, ранжирование поиска, семантический поиск, функция поискаХотите внедрить или доработать функцию поиска? Вам сюда.
Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».
Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.
Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.
Цель статьи
Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).
Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.
Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.
Переведено в Alconost
Читать полностью »
Natural Language Processing — как это будет по-русски?
2017-05-31 в 8:42, admin, рубрики: анализ тональности, извлечение информации, информационный поиск, Компьютерная лингвистика, машинный перевод, морфология, обработка естественного языка, онлайн-курсы, синтаксический анализ, Учебный процесс в ITВокруг нас — огромные объемы текстовых данных в электронном виде, в них — человеческие знания, эмоции и опыт. А еще — спам, который выдает себя за полезную информацию, и надо уметь отделять одно от другого. Люди хотят общаться с теми, кто не знает их родной язык. А еще — управлять своим мобильником/телевизором/умным домом голосом. Все это обеспечивает востребованность и бурное развитие методов Natural Language Processing (NLP).
2 июня на платформе Stepik стартует мой онлайн-курс «Введение в обработку естественного языка». Это совершенно новый для меня формат, а еще это первый онлайн-курс по прикладной лингвистике, который фокусируется на обработке русского языка, имеющихся для этого данных и ресурсах. 10 лекций курса посвящены базовыми лингвистическими инструментами и популярным приложениям; важная составляющая курса — пять практических заданий.
Читать полностью »
Техносфере Mail.Ru — 2 года
2016-02-11 в 8:35, admin, рубрики: mail.ru, Блог компании Mail.Ru Group, информационный поиск, поисковые технологии, Программирование, Техносфера
Привет! В феврале исполняется два года проекту Техносфера. За прошедший год произошло три больших изменения, повлиявших на процесс обучения. Первое из них касалось отбора студентов — технических собеседований. Раньше студент шел на техническое собеседование, не зная, какие задачи ему предложат решить. Теперь же мы отправляем студентам кейс, некую техническую задачу, решить которую нужно заранее и на месте объяснить преподавателям ее решение. После добавления кейса успеваемость резко улучшилась. Перевод на второй семестр в Техносфере составил 27 студентов из 40, то есть 67% вместо обычных 40–50%.
Во-вторых, при Техносфере создана лаборатория, в которой студенты занимаются решением практических задач Mail.Ru Group, а также внешних заказчиков. Например, они исследуют алгоритмы таргетинга для рекламных кампаний, а также пытаются создать эвристики, которые позволяют улучшить качество рекламной выдачи. По сути, лаборатория — это альтернатива стажировке в компании. В ней можно работать над решением различных практических задач с рынка, но при этом не тратить время на дорогу в офис, делая все прямо на своем факультете.
Третьим важным шагом стало решение перейти на двухгодичное обучение. В этом году мы выпустили последнюю группу ребят, которые учились по годовой программе. Предметы, которые они осваивали в течение года, были: алгоритмы интеллектуальной обработки больших объемов данных, многопоточное программирование на С/С++, СУБД, Hadoop, методы обработки больших объемов данных и информационный поиск.
Сейчас мы хотели бы поставить точку в годовой программе обучения, показав вам один из выпускных проектов по предмету «Информационный поиск». В течение семестра ребятам давались домашние задания, которые в итоге вылились в большой итоговый проект. Правила были таковы:
- Ребята разбивались на команды по 2–3 человека.
- Задача: сделать полноценный поиск по одному из предложенных сайтов. По задумке ваш поиск должен состоять из объединенных домашек + фронтенд + какая-нибудь плюшка, например spellchecker.
Ищем мелодию по фрагменту
2014-07-15 в 11:54, admin, рубрики: data mining, datamining, информационный поиск, Работа со звуком Приветствую, уважаемые читатели !
В этой статье хочу рассказать, как я искал музыкальное произведение по его отрывку.
Итак, поехали!
Задача передо мной стоит следующая: есть отрывок музыкального произведения, есть база музыкальных произведений, и необходимо найти, какому из имеющихся музыкальных произведений принадлежит данный отрывок.
Кому интересно, читайте под харбокатом!
Читать полностью »
RuSSIR 2014: VIII летняя школа по информационному поиску
2014-06-25 в 10:17, admin, рубрики: russir, russir 2014, Блог компании Лекториум, визуализация данных, информационный поиск, летняя школа, Учебный процесс в IT, метки: russir, russir 2014, информационный поиск, летняя школа18–22 августа 2014 года в Нижнем Новгороде пройдет VIII Российская летняя школа по информационному поиску «RuSSIR 2014». До этого школа проходила в Екатеринбурге, Таганроге, Петрозаводске, Воронеже, Санкт-Петербурге, Ярославле и Казани.
В этом году её организуют Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ — Нижний Новгород) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП) при участии Яндекса, Mail.ru, Google, ABBYY и Лекториума.
Главной темой школы будут пользовательские интерфейсы и визуализация данных. Рабочий язык — английский.
Программа школы включает шесть основных курсов, пленарный курс и доклады спонсоров, а также конференцию молодых ученых «RuSSIR Young Scientist Conference».
Основные курсы:
- Katja Hofmann (Microsoft Research) — Online Experimentation for Information Retrieval;
- Alfred Inselberg (Tel Aviv University) — Visualization & Data Mining for High Dimensional Data;
- Dmitry I. Ignatov (Higher School of Economics) — Introduction to Formal Concept Analysis and Its Applications in Information Retrieval and Related Fields;
- Preslav Nakov (Qatar Computing Research Institute) — Web as a Corpus: Going Beyond the n-gram;
- Sujatha Das G., Cornelia Caragea, Xiaoli Li, C. Lee Giles — Document Analysis and Retrieval in Scientific Digital Libraries;
- Paolo Rosso (Universitat Politecnica de Valencia) — Author Profiling and Plagiarism Detection.
К участию в школе приглашаются студенты, аспиранты, исследователи и разработчики. Всего планируется принять до 120 слушателей. Участие бесплатное; для тех, кто в этом нуждается, организаторы предоставляют гранты на проживание (количество ограничено).
Читать полностью »
8-я Российская летняя школа по информационному поиску
2014-06-22 в 17:53, admin, рубрики: data mining, natural language processing, russir, russir 2014, информационный поиск, летняя школа, Поисковые машины и технологии, Учебный процесс в IT, метки: data mining, natural language processing, russir, russir 2014, информационный поиск, летняя школа8-я Российская летняя школа по информационному поиску (RuSSIR 2014) пройдет в августе в Нижнем Новгороде. Традиционно сильная научная программа, веселые вечеринки, спортивные состязания и речные прогулки «после уроков», уникальное место встречи ученых с мировым именем, студентов и представителей интернет-индустрии. Дополнительная тема этого года – пользовательские интерфейсы и визуализация данных. Участие в школе бесплатное, заявки принимаются до конца июня.
RuSSIR 2013: VII летняя школа по информационному поиску
2013-05-16 в 11:52, admin, рубрики: russir, информационный поиск, Поисковые машины и технологии, Работа со звуком, Учебный процесс в IT, метки: russir, информационный поиск16–20 сентября 2013 года в Казани пройдёт VII Российская летняя школа по информационному поиску (RuSSIR 2013).
Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП) при участии Яндекса, Mail.ru и Google.
Главной темой школы в этом году будет поиск и обработка аудиоинформации. Рабочий язык — английский.
Основная программа состоит из 7 курсов:
Voice and Music Information Retrieval:
- Spoken Content Retrieval: Challenges, Techniques and Applications — Gareth Jones (Dublin City University)
- Content- and Context-based Music Similarity and Retrieval — Markus Schedl & Peter Knees (University of Linz)
- Query by Singing/Humming and Audio Fingerprinting as Two Successful Paradigms of Music Information Retrieval — Jyh-Shing Roger Jang (Taiwan University)
- Adaptivity in Audio and Music Retrieval — Andreas Nürnberger & Sebastian Stober (OVG University Magdeburg)
General Information retrieval:
- Introduction to Information Retrieval Models — Massimo Melucci (University of Padua)
- Techniques for Large Scale Information Retrieval — Paolo Boldi (University of Milan)
- Novel representations and methods in text classification — Manuel Montes-y-Gómez & Hugo Jair Escalante (INAOE, Mexico)
Участие в школе бесплатное, но количество мест ограничено.
Читать полностью »
Поиск@Mail.Ru. Часть первая
2012-08-13 в 11:06, admin, рубрики: Google, mail.ru group, Блог компании Mail.Ru Group, информационный поиск, поиск, поиск mail.ru, Поисковые машины и технологии, яндекс, метки: Google, mail.ru group, информационный поиск, поиск, поиск mail.ru, яндекс«У нас есть свой поиск!»
Два года подряд все свои выступления на конференциях я начинал этой фразой, ведь даже не все специалисты по поиску знали о том, что их запросы, заданные в поисковой строке Mail.Ru с большой долей вероятности обрабатывались не лицензированным сторонним движком, а внутренней разработкой компании.
Сейчас я вижу, что ситуация изменилась: многие знают и принимают наш поисковик. Однако вопросы или сомнения всё равно остаются – ну как так, Mail.Ru Group и пишет свой поиск? Mail.Ru Group — это почта, это социальные сети, развлечения… Что за поисковик они могут написать? Вот чтобы развеять эти сомнения, я и хочу рассказать о нашем поиске, о том, как мы его делаем, какие технологии используем, что хотим получить в итоге. Я надеюсь, что предлагаемая статья будет познавательной и интересной; более того, мы собираемся продолжить рассказ о наших технологиях уже более детально, и в следующих постах поговорить о машинном обучении, спайдере, антиспаме и т.п.
GoGo.RuЧитать полностью »