Рубрика «data mining» - 93

Ларри Пейдж о программе PRISM: «What the …?»

2013-06-08 в 0:15, admin, рубрики: data mining, Google, Prism, анализ данных, информационная безопасность, слежка, метки: Prism, анализ данных, слежка

Ларри Пейдж о программе PRISM: «What the ...?»
^{Штаб-квартира АНБ}

Как известно, 6 июня газета The Washington Post опубликовала слайды из презентации PowerPoint, в которой речь идёт о секретной программе АНБ по наблюдению за гражданским населением. Якобы, в рамках программы PRISM девять интернет-компаний предоставляли АНБ прямой доступ к своим серверам для получения информации о пользователях: Microsoft, Yahoo, Google, Facebook, PalTalk, YouTube, Skype, AOL и Apple.
Читать полностью »

Поиск Яндекса сможет адаптироваться к вашим интересам за несколько секунд

2013-05-30 в 9:23, admin, рубрики: data mining, MapReduce, Блог компании Яндекс, персонализация, Поисковые машины и технологии, яндекс, метки: MapReduce, персонализация, яндекс

Поиск Яндекса сможет адаптироваться к вашим интересам за несколько секунд С сегодняшнего дня поиск Яндекса персонализирует ответ не только на основе истории ваших интересов — он будет учитывать и то, что вы делаете на поиске прямо сейчас. Это важное изменение для пользователей: от того, чем мы занимаемся сейчас, зависит то, что мы ожидаем получить в ответ. Поиск Яндекса становится адаптивным. Чтобы это стало возможным, нам пришлось реализовать новую технологию доставки данных в реальном времени.

Чтобы понять, что хочет пользователь, нужен контекст. Когда-то всем контекстом, который был доступен Яндексу, был текст поискового запроса. Со временем мы научились учитывать, из какого региона его задают.

Важным этапом стала персонализация ответа для разных пользователей — мы стали использовать знания о конкретном человеке, чтобы дать ему более точный ответ. Для этого мы использовали данные, посчитанные на истории запросов и кликов пользователя. Причём они были посчитаны как по истории за длинный период, так и по недавней. Мы рассказывали на Хабре об этом этапе.

Каждый раз дополнение пользовательского контекста влечёт за собой изменение качества работы системы, а иногда и пользовательского поведения.Читать полностью »

Как Яндекс распознаёт музыку с микрофона

2013-05-28 в 8:54, admin, рубрики: data mining, Блог компании Яндекс, Работа со звуком

Как Яндекс распознаёт музыку с микрофона Поиск по каталогу музыки — это задача, которую можно решать разными путями, как с точки зрения пользователя, так и технологически. Яндекс уже довольно давно научился искать и по названиям композиций, и по текстам песен. На сказанные голосом запросы про музыку мы тоже умеем отвечать в Яндекс.Поиске под iOS и Android, сегодня же речь пойдёт о поиске по аудиосигналу, а если конкретно — по записанному с микрофона фрагменту музыкального произведения. Именно такая функция встроена в мобильное приложение Яндекс.Музыки:

Помогать пользователям в решении этой задачи готовы буквально несколько компаний. Несмотря на то, что нам предстоит ещё немало сделать, качество распознавания уже сопоставимо с лидерами в этой области. К тому же поиск музыки по аудиофрагменту не самая тривиальная и освещённая в Рунете тема; надеемся, что многим будет любопытно узнать подробности.
Читать полностью »

Educational Data Mining: введение

2013-05-27 в 11:38, admin, рубрики: analytics, data analysis, data mining, education, образование 2.0, учебный процесс, Учебный процесс в IT, метки: analytics, data analysis, data mining, education, образование 2.0, учебный процесс

Nelson Mandela said: “Education is the most powerful weapon
which you can use to change the world.”

Волею судеб нам посчастливилось стать одними из участников курса по Data Mining (программа GameChangers, Санкт-Петербург). Цель курса – изучение методов и технологий обработки данных в различных областях IT-индустрии. Лекции у нас читают эксперты из крупнейших IT компаний, а студенты работают над реальными задачами и проектами.
И так получилось, что в рамках данного курса наша рабочая группа занимается разработкой проекта в области Educational Data Mining.

В России пока единицы знают о существовании этого направления, поэтому для начала в общих чертах расскажем про EDM: общие цели, кто может использовать и зачем.
Читать полностью »

Оптимизация общественного транспорта после анализа данных GSM

2013-05-27 в 7:12, admin, рубрики: data mining, IBM Research, Блог компании IBM, Геоинформационные сервисы, общественный транспорт, сотовая сеть, метки: IBM Research, общественный транспорт, сотовая сеть

Оптимизация общественного транспорта после анализа данных GSM Группа исследователей из IBM, используя информацию о перемещениях 500 тыс. пользователей мобильной связи, разработали модель для улучшения маршрутов общественного транспорта.

Модель успешно опробовали в городе Абиджан (население 3,8 млн человек, столица Кот-д’Ивуара). На иллюстрации показаны действующие маршруты автобусов (малиновым) и улучшения, предлагаемые алгоритмом (синим). Он предложил 65 возможных улучшений, в том числе три новых маршрута, с общей экономией времени 10% в пассажиро-минутах для всех пассажиров, учитывая время поездки и время ожидания.

Новый алгоритм полезен не только для оптимизации, но и для прокладки новых маршрутов в только что построенных микрорайонах. Здесь он чётко показывает, какими путями, в какое время и в каком объёме передвигается людская масса. Можно составить оптимальные маршруты и расписание транспорта. Важен сам факт появления нового инструмента, который могут использовать городские власти для оптимизации инфраструктуры мегаполиса.
Читать полностью »

IBM Watson будет работать в колл-центрах служб поддержки

2013-05-22 в 9:17, admin, рубрики: data mining, ibm watson, Блог компании IBM, искусственный интеллект, колл-центр, служба поддержки, метки: ibm watson, колл-центр, служба поддержки

IBM Watson будет работать в колл центрах служб поддержки В одних только США на работу колл-центров служб поддержки пользователей ежегодно тратится 112 миллиардов долларов. При этом половина из 270 миллиардов обращений остаётся нерешённой. Почти каждый может вспомнить множество примеров, когда звонок в службу поддержки превращался в длительный квест по выслушиванию записанных стандартных фраз и нажиманию цифровых кнопок только для того, чтобы пообщаться с живым человеком и обнаружить, что он и сам толком не разбирается в вашей проблеме.

Суперкомпьютеру Watson, который обыгрывает чемпионов викторин и уже приступил к работе онколога-диагноста в некоторых больницах Америки, вполне по силам справиться и с этой работой — считают в IBM. По данным компании, почти две трети из нерешённых вопросов клиентов могли бы быть решены, если бы сотрудники колл-центров могли искать информацию быстрее. Такой поиск в среднем занимает от шести до девяти минут на один звонок.

В ближайшие месяцы тестирование Watson в службах поддержки начнут первые клиенты IBM — австралийский банк ANZ, Royal Bank of Canada, компания Nielsen, занимающаяся исследованием потребительского поведения, израильский мобильный оператор Celcom, консалтинговая и аналитическая компания IHS. Watson будет общаться с клиентами этих компаний по разнообразным каналам — в чатах, по почте, через мобильные приложения. Некоторые компании намерены даже приобрести системы распознавания голоса, чтобы Watson мог говорить по телефону.
Читать полностью »

Начинающие data scientists к вашим услугам

2013-05-22 в 7:49, admin, рубрики: coursera, data mining, data science, Алгоритмы, электронная коммерция, метки: coursera, data science

Начинающие data scientists к вашим услугам На Coursera сейчас идёт курс Introduction to Data Science от University of Washington, в ходе которого студентов будут учить работе с большими массивами данных, статистическому анализу, data mining, алгоритмам машинного обучения и прочим таким вещам. Авторы курса приглашают организации (коммерческие, некоммерческие и даже просто отдельных людей), которым будет полезна помощь в работе с данными, принять участие, подкинув студентам для решения задачи из реальной жизни.

Схема примерно такая: организация формулирует задачу и предоставляет данные (собственные или из открытых источников), студенты её решают и пишут отчёт. Отчёт потом оценивается другими студентами, плюс организация даёт свой отзыв о работе.
В полюсе все: организация бесплатно получает рабочие ~~руки~~ мозги, а студент — опыт.
Читать полностью »

Скрытые цепи Маркова, алгоритм Витерби

2013-05-18 в 5:38, admin, рубрики: data mining, Алгоритмы, статистика, метки: data mining, Алгоритмы, статистика

Нам нужно реализовать детектор лжи, который по подрагиванию рук человека, определяет, говорит он правду или нет. Допустим, когда человек лжет, руки трясутся чуть больше. Сигнал может быть таким:

Исходный сигнал

Интересный метод, описан в статье «A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition» L.R. Rabiner, которая вводит модель скрытой цепи Маркова и описывает три ценных алгоритма: The Forward-Backward Procedure, Viterbi Algorithm и Baum-Welch reestimation. Несмотря на то, что эти алгоритмы представляют интерес только в совокупности, для большего понимания описывать их лучше по отдельности.
Читать полностью »

Отголоски прошлого — получение данных из framework database 3

2013-05-17 в 18:32, admin, рубрики: data mining, dos, framework, php, базы данных, Песочница, метки: dos, framework, PHP, базы данных

Отголоски прошлого — получение данных из framework database 3 В данной статье я хочу рассказать вам об недавно приключившейся со мной ситуации и принятому пути ее решения. Я не профессиональный программист, однако небольшой опыт мне помог решить данную задачу.

Сразу хочется обратить ваше внимание, что речь в данной статье не пойдет о «популярном фреймворке» для какого-либо языка программирования, речь пойдет о стареньком «framework» для ms dos и разборе формата, в котором оной хранит данные с дальнейшим преобразованием этих данных к одному из современных форматов баз данных.
Читать полностью »

Convextra — универсальный парсер контента

2013-05-14 в 8:09, admin, рубрики: convextra, data mining, парсинг контента, я пиарюсь, метки: convextra, data mining, parser, парсинг контента

Пару месяцев назад на хабре уже проскальзывало упоминание о сервисе извлечения данных с веб-страниц Convextra, который позволяет парсить даже сложные структуры данных буквально в 2-3 клика. Несмотря на то, что на момент написания той статьи сервис находился в альфа стадии и больше глючил, чем работал, аудитория хабра тепло восприняла идею и мы получили много полезных отзывов, предложений и багрепортов. Поэтому хочется рассказать о том, что из предложенного вами и в каком виде удалось реализовать за это время.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 93

Ларри Пейдж о программе PRISM: «What the …?»

Поиск Яндекса сможет адаптироваться к вашим интересам за несколько секунд

Как Яндекс распознаёт музыку с микрофона

Educational Data Mining: введение

Оптимизация общественного транспорта после анализа данных GSM

IBM Watson будет работать в колл-центрах служб поддержки

Начинающие data scientists к вашим услугам

Скрытые цепи Маркова, алгоритм Витерби

Отголоски прошлого — получение данных из framework database 3

Convextra — универсальный парсер контента

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 93

Новости

Актуальные темы

Архив