Рубрика «data mining» - 97

Дата майнинг 10 000 актёров порно

Вокруг adult киноиндустрии существует много мифов и заблуждений. Например, многие склонны думать, что типичная актриса — блондинка с пышными формами. На самом деле это далеко не так. Джон Миллворд (Jon Millward) осуществил дата-майнинг кинематографической базы Internet Adult Film Database и проанализировал информацию о 125 тыс. фильмах, которые содержат информацию более чем о 115 тыс. актёрах. Для статистического анализа были сделана выборка 10 000 человек.
Читать полностью »

IBM Watson закончил мединститут и пошёл на работу

Представители компаний IBM и WellPoint провели совместную конференцию, на которой объявили о начале коммерческой эксплуатации медицинской системы IBM Watson. Шесть экземпляров IBM Watson уже «трудоустроены» в больницы США в качестве врачей-диагностов.
Читать полностью »

image

Исследователи разработали программное обеспечение, которое предсказывает, когда и где могут возникнуть вспышки болезней, основываясь на двадцатилетнем архиве статей New York Times и других интернет-данных, сообщает Mashable. Авторами разработки являются Microsoft и Технион — Израильский технологический институт.

Система показывает поразительные результаты при тестировании на исторических данных. Например, сообщения о засухе в Анголе в 2006 году вызвали предупреждение о возможной вспышке холеры в стране, потому что предыдущие события научили систему, что вспышки холеры более вероятны в годы после засухи. Второе предупреждение о холере в Анголе было вызвано новостями о бурях в Африке в начале 2007 года; менее чем через неделю появились сообщения о том, что в регионе действительно распространилась холера. В подобных испытаниях, связанных с прогнозированием болезней, насилия и значительного числа смертей, предупреждения системы были правильными в 70—90 % случаев.
Читать полностью »

Дата майнинг для информационной безопасности

На Хабре много писали о суперкомпьютере IBM Watson с зачатками искусственного интеллекта. Предполагается, что такая машина должна служить людям: помогать ставить диагнозы и решать другие сложные проблемы путём анализа массивов структурированных и неструктурированных данных. Но можно ли систему дата-майнинга приспособить для нужд информационной безопасности компании?
Читать полностью »

Задача: в массиве длиной N найти элемент, который повторяется больше N/2 раз.

Казалось бы, чего тут думать? Возьмём Dictionary<значение элемента, число появлений>, за один проход по массиву сосчитаем появления каждого элемента, потом выберем из словаря искомый элемент. Решение за O(N), куда может быть ещё быстрее?
Поиск часто встречающихся элементов в массиве
Есть один нюанс: для словаря нам потребуется O(N) дополнительной памяти — в несколько раз больше размера исходного массива, и это при реализации словаря хоть хэш-таблицей, хоть деревом. Что будем делать, если наша цель — обработка сигнала неким устройством с маленькой памятью? Массив — замеры уровня сигнала, из которых один — «настоящий» передаваемый уровень, а остальные — шум и помехи. Неужели придётся для определения «настоящего» уровня возиться с хэш-таблицами и деревьями?

К счастью, нет: достаточно O(1) дополнительной памяти, и по-прежнему одного прохода по массиву. Читать полностью »

С каждым годом доля электронной торговли увеличивается и соответственно растет конкуренция между интернет-магазинами. Учитывая, что количество пользователей Интернет уже не растет такими быстрыми темпами, приходится постоянно оптимизировать и совершенствовать механизмы не только привлечения посетителей, но и их обслуживания непосредственно на вашем веб-сайте. Именно поэтому, всё чаще возникает вопрос, как снизить показатель отказов интернет-магазина и повысить конверсию. Ниже мы рассмотрим несколько уже ставших привычными механизмов повышения продаж на сайте, а также познакомим вас с некоторыми новинками и тем, как они могут дополнять друг друга для достижения максимальной эффективности.Читать полностью »

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают
Джереми Ховард — президент и «главный по науке» компании Kaggle, превратившей статистическое прогнозирование в спорт.

Peter Aldhous: Kaggle называет себя онлайн-биржей мозгов. Расскажите об этом.

Джереми Ховард: Это веб-сайт, на котором размещают конкурсы по статистическому прогнозированию. Мы провели много удивительных конкурсов. Например, разработка алгоритма оценки студенческих рефератов. Или вот недавно закончился конкурс на разработку системы обучения Microsoft Kinect жестам. Идея состояла в том, чтобы показать контроллеру жест один раз, а алгоритм должен обучиться распознавать такие жесты в будущем. Еще один конкурс — прогнозирование биологических свойств молекул при скрининге на возможные наркотические свойства.

Читать полностью »

Данная серия посвящена анализу данных для поиска закономерностей. В качестве примера используется одна из обучающих задач сообщества спортивного анализа данных Kaggle. Хотя размеры данных для задачи не большие, методы обработки, которые будут рассматриваться вполне применимы для больших объемов данных.
После выполнения Часть 1 и Части 2 сформировались две таблицы, содержащие преобразованные данные.
titanik_test_3 и titanik_train_3.
Читать полностью »

Эта ИИ программа уже освоила игру “Jeopardy!”. Теперь она приступит к изучению онкологических заболеваний.

Программа Watson компании IBM пошла учиться в мед. институт В финале телевикторины Jeopardy, где против ИИ программы Watson компании IBM сражались лучшие игроки, один из участников, в знак уважения, рядом со своим ответом на вопрос приписал: «От всей души приветствую наших новых компьютерных союзников»

Сейчас даже доктора высказываются похожим образом. «Мне хотелось бы пожать Watson руку», говорит Марк Крис, врач-онколог из онкологического центра Слоан-Кеттеринг в Нью-Йорке. Он с воодушевлением говорит о том дне в конце 2013 года, когда Watson, который сейчас является его студентом, окончит полный курс обучения и будет готов помогать врачам в онкологическом центре с постановкой верных диагнозов и определением подходящих курсов лечения.
Читать полностью »

Предисловие: мой предыдущий пост на эту тему попал в утиль — на хабре, увы, больше нет раздела «ссылки», а даже частичный копипаст в виде затравки с ссылкой на оригинальный текст, запрещен правилами. Тем не менее, я считаю случившееся событие очень важным, поэтому рискую еще раз вынести это текст на обсуждение. Чтобы остаться в рамках правил, постараюсь пересказать основной текст своими словами.

Итак, с середины с декабря прошлого года в Google начал работать известный изобретатель и футуролог Рей Курцвейл. Как пишет в свой статье Олег Парамонов (а это и есть основной текст, на который я хотел сослаться), событие это из ряда вон выходящее и, я не побоюсь этого слова, революционное.

image

Давайте сначала разберемся зачем гуглу вообще исскуственный интеллект. На фоне новостей про Android, гидроэлектростанции и прочее-прочее-прочее, легко забыть, что Google, это прежде всего поиск. Собственно, именно он приносит львиную часть доходов. Но что такое поиск завтрашнего дня?

Цитата 1:
«Ещё в 2000 году Ларри Пейдж, один из основателей Google, объявил, что идеальной версией поисковика будет искусственный интеллект.
Цитата 2 (из документа Google для внутреннего пользования 2006 года):
»Чтобы стать лучшими в поиске, мы должны создать исследовательский центр мирового класса, занимающийся искусственным интеллектом".»
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js