Рубрика «data mining» - 96

Используя данные поисковых машин Google, Bing и Yahoo за 2010 год, группа исследователей из Microsoft Research, Стэнфорда и Колумбийского университета подтвердила возможность обнаружения побочных эффектов лекарств путём анализа информации из логов поисковых систем общего назначения. Для проверки использовалась информация о том, что совместное применение двух лекарств — пароксетина и правастатина может приводить к гипергликемии. Об этом стало известно только в 2011 году, то есть в 2010 никакой информации об этом в сети быть не могло.

Учёные проанализировали частоту появления поисковых терминов, связанных с симптомами гипергликемии, среди пользователей, которые ранее искали в сети информацию об этих двух лекарствах. Оказалось, что частота поисковых запросов о симптомах гипергликемии гораздо выше у тех, кто искал информацию по обеим лекарствам, чем у тех, кто искал только одно из них. На графиках видно, что разница была ощутима на протяжении всего года и не является каким-то временным или сезонным эффектом.

Исследование статистики поисковых запросов позволяет обнаружить неизвестные ранее побочные эффекты лекарств
Читать полностью »

Сегодня можно без труда на пальцах одной руки насчитать две и даже семь сотен социальных сетей. Я думаю мне не нужно убеждать дорогого читателя в том, что это бездонный кладязь информации. Но вот как можно эту самую информацию заполучить, да ещё и в удобоваримом виде?
Инструменты мониторинга в социальных сетях
Для того, чтобы у нас с вами было не как на картинке, предлагаю вашему вниманию обзор наиболее интересных сервисов для монитроинга и взаимодействия с социальными сетями. Если коротко, то ситуация выглядит следующим образом:

Wildfire HootSuite TweetDeck AppData Klout
С чем интегрируется Google+, Facebook, Linkedin, Pinterest, Twitter, Youtube Google+, Facebook, Foursquare, Linkedin, Mixi, Myspace, Twitter, WordPress, App Directory Facebook, LinkedIn, MySpace, Twitter Facebook Facebook, Twitter
Цена Pro / Enterprise — договорная Free, Pro — $10/месяц, Enterprise — договорная Free Free, Pro — $595/месяц или $5995/год, Enterprise — договорная Free
Аналитика           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях
Сравнение брендов           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях
Постинг по расписанию           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях
Стриминг сообщений           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях           Инструменты мониторинга в социальных сетях

Для любопытного же читателя я подготовил более развёрнутое описание всех этих сервисов под катом. Так же там можно найти идеи для сервиса, который мог бы принести радость всем людям на Земле.
Читать полностью »

Сегодня мы начинаем публиковать серию постов о том, как в Яндексе построена работа над улучшением так волнующей всех формулой релевантности, и более широко — качеством ранжирования. Мы сосредоточимся на наших инструментах, которые избавили разработчиков поисковой системы от рутинных действий и помогли сфокусироваться на главном — изобретении новых подходов к улучшению поиска. Почти вся работа в этой области связана с машинным обучением, поэтому о его месте в Яндексе мы тоже немного расскажем.Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)
imageЧитать полностью »

Ресурс MSFT Kitchen опубликовал видео с Microsoft TechFest, в котором продемонстрирована работа проекта Project Analyze исследовательского подразделения Microsoft Research. Суть проекта заключается в том, что работа с табличным процессором Excel производится не путём ввода формул и щёлкания по ячейкам, а при помощи команд, похожих на естественный английский язык.

Начиная с первой минуты видео (всего около 8 минут), демонстрируется в качестве примера финансовый документ с готовыми данными, в котором требуется получить ещё одно поле, складывая два последних — Base pay и Of pay. Обычный действия заключаются в том, что необходимо разместить курсор в нужной ячейке, ввести в неё формулу и «протащить» её до нужного диапазона. Вместо этого в поле для формулы вводится команда "add the base pay and of pay" и в итоге Excel заполняет поле, складывая указанные в «формуле» значения ячеек в указанных столбцах. Примерно также находится и сумма — командой "add up".

Далее показана работа команд, в которых легко угадываются foreach или некое подобие WHERE в SQL (вообще сильно похоже на SQL), что, в принципе, делает показанные примеры не вполне впечатляющими. Однако, оказывается системе можно задать и не вполне «стандартный» вопрос "who has a pay larger than average" (в итоге нужные поля Excel подсвечивает), что уже более похоже на обычную речь и выглядит более эффектно. К сожалению, на этом «естественные» вопросы более не показаны, так что о дальнейших особенностях системы можно только догадываться. Тем не менее, вероятно, будущие версии Excel (в Office 16)будут обладать некоторым подобием «естественного языка формул» или, возможно, неким подобием голосового управления, что в свете таких проектов как Siri выглядит уже вполне реально.
Читать полностью »

image

Для жителей Москвы на сайте www.data.mos.ru есть официальный список из 600 с лишним камер видеорегистрации ПДД. На вкладке «Для разработчиков» находится описание полей. Всю базу можно выгрузить в формате CVS.

www.data.mos.ru/datasets/621_reestr_statsionarnyh_obektov_nablyudeniya_kompleksy_fvf/

Хотя Яндекс карты знают многие из этих точек, это все же полезная информация, которую можно использовать при разработке своих приложений радар-детекторов.

Читать полностью »

Исторический экскурс

Ранее я уже писал на хабре о Grab — фреймворке для написания парсеров сайтов: раз, два, три, четыре. В двух словах, Grab это удобная оболочка поверх двух библиотек: pycurl для работы с сетью и lxml для разбора HTML-документов.Читать полностью »

Всем привет. В прошлом посте я рассказывал про некоторые базовые методы классификации. Сегодня, в силу специфики последней домашки, пост будет не столько про сами методы, сколько про обработку данных и анализ полученных моделей.

Задача

Данные были предоставлены факультетом статистики Мюнхенского университета. Вот здесь можно взять сам датасет, а также само описание данных (названия полей даны на немецком). В данных собраны заявки на предоставление кредита, где каждая заявка описывается 20 переменными. Помимо этого, каждой заявке соответствует, выдали ли заявителю кредит, или нет. Вот здесь можно подробно посмотреть, что какая из переменных означает.

Нашей задачей стояло построить модель, которая предсказывала бы решение, которое будет вынесено по тому или иному заявителю.

Препроцессинг данных и анализ моделей
Читать полностью »

Деревья принятия решений являются удобным инструментом в тех случаях, когда требуется не просто классифицировать данные, но ещё и объяснить почему тот или иной объект отнесён к какому-либо классу.

Давайте сначала, для полноты картины, рассмотрим природу энтропии и некоторые её свойства. Затем, на простом примере, увидим каким образом использование энтропии помогает при создании классификаторов. После чего, в общих чертах сформулируем алгоритм построения дерева принятия решений и его особенности.
Читать полностью »

Привет. Наверняка многие интересуются методами машинного обучения и решения различных задач, которые обычными подходами не решаются. Недавно мне посчастливилось попасть на курс Data Mining, организованный в рамках программы GameChangers. Первым же домашним заданием было сделать сабмит на Kaggle — решить задачу Digit Recognizer.
Читать полностью »

image

Оснащённый системой искусственного интеллекта суперкомпьютер IBM Watson разбирается не только в диагностической медицине, но и в создании новых кулинарных рецептов.

Как пишет VentureBeat, Watson уже получил некоторый успех в качестве диагностического ассистента в нескольких американских медицинских центрах, но теперь IBM ищет возможности применения мощных способностей суперкомпьютера и в других сферах.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js