В предыдущих материалах этого цикла мы рассматривали методы предварительной обработки данных при помощи СУБД. Это может быть полезно при очень больших объемах обрабатываемой информации. В этой статье я продолжу описывать инструменты для интеллектуальной обработки больших объёмов данных, остановившись на использовании Python и Theano.
Читать полностью »
Рубрика «data mining» - 94
Data mining: Инструментарий — Theano
2013-05-07 в 18:56, admin, рубрики: big data, data mining, kaggle, python, метки: kaggle, pythonПереводы, привязанные к источнику
2013-05-04 в 14:18, admin, рубрики: data mining, Анализ и проектирование систем, иностранные языки, Новости, новостные ресурсы, переводы, метки: иностранные языки, новости, новостные ресурсы, переводы Как выглядят переводы? Это документ, оформленный на другом сайте, других страницах, но который повторяет последовательность мыслей автора и структуру его текста. Бывает, что авторский текст меняется, особенно часто это случается в документации — основном профессиональном применении переводов, с которыми приходится встречаться программистам и другим пользователям технической продукции. Если привязать перевод к исходному коду статьи, документации или книги так, чтобы скрипт показа перевода следовал по структуре, проверял изменения и отмечал непереведённое, то становится очень легко следить за изменениями текстов и переводить изменения. Новые версии текстов не становятся слишком отличными от старых и прежние переводы остаются частично работать. Перевод сам будет следить за своей актуальностью. Все прочие тексты будут представлять собой просто слепки, имеющие меньшую ценность, чем созданный и поддерживаемый таким способом перевод. Да, за их состоянием скрипт или сервер может следить, чтобы вовремя сообщить держателям слепков об устаревании. Слепки полезны не только как источник контента владельцам сторонних ресурсов, но нужны пользователям для работы в оффлайне или в составе пользовательских программ. Но более ценным будет всё же перевод, привязанный к структуре и оформлению оригинала. Он же поможет следить не за копией сайта, а за самим оригинальным сайтом в случае работы с документацией.
Читать полностью »
Введение в Source Maps
2013-05-04 в 14:18, admin, рубрики: data mining, Анализ и проектирование систем, иностранные языки, Новости, новостные ресурсы, переводы, метки: иностранные языки, новости, новостные ресурсы, переводы В современной разработке ваш код сильно отличается от кода на «боевом» сервере (production) после компиляции, минификации, объединения и разных оптимизаций. Тут-то и вступают в игру карты кода (source maps), показывая точное соответствие элементов готового рабочего кода проекта и вашего кода разработки. В этом вводном уроке мы возьмём простой проект и запустим его с помощью различных компиляторов JavaScript с целью посмотреть работу карт кода в браузере.
Читать полностью »
Стивен Вольфрам провёл математический анализ социальных сетей
2013-04-25 в 7:43, admin, рубрики: data mining, Facebook, жизнь, математика, Социальные сети и сообщества, социальный граф, метки: жизнь, математика, социальный граф
Изменение места жительства пользователей Facebook
Математик и программист Стивен Вольфрам известен как автор программы Mathematica и научного поисковика Wolfram Alpha. Несмотря на большой объём текущей работы, Стивена всегда интересовал вопрос: можно ли математическими методами проанализировать траекторию жизни человека. В прошлом году он сделал первую попытку и опубликовал результаты анализа своих личных цифровых данных: визуализация 300 тыс. отправленных электронных писем с 1989 года, 100 миллионов нажатий клавиш с 2002 года, телефонные звонки, встречи, время редактирования файлов разного типа с 1980 года и т.д. Подобный личностный анализ доступен для всех подписчиков на платную версию Wolfram Alpha Pro.
Теперь пришло время перейти расширить концепцию личностного анализа на обработку данных с социальных сетей. Недавно на поисковике Wolfram Alpha был открыт раздел Personal Analytics for Facebook (персональная аналитика для Facebook), а в программный пакет Mathematica добавили функцию SocialMediaData. Уже есть первые результаты.
Читать полностью »
Вероятностные модели: примеры и картинки
2013-04-25 в 6:26, admin, рубрики: data mining, байесовские сети, Блог компании Surfingbird, искусственный интеллект, математика, математическое моделирование, теория вероятностей, метки: data mining, байесовские сети, математика, математическое моделирование, теория вероятностейСегодня – вторая серия цикла, начатого в прошлый раз; тогда мы поговорили о направленных графических вероятностных моделях, нарисовали главные картинки этой науки и обсудили, каким зависимостям и независимостям они соответствуют. Сегодня – ряд иллюстраций к материалу прошлого раза; мы обсудим несколько важных и интересных моделей, нарисуем соответствующие им картинки и увидим, каким факторизациям совместного распределения всех переменных они соответствуют.
Google купил новостной стартап Wavii за более чем 30 млн долларов
2013-04-23 в 20:19, admin, рубрики: data mining, Google, обработка естественного языка, метки: Google, обработка естественного языка
Google договорился о приобретении стартапа Wavii за сумму более 30 млн долларов, сообщает TechCrunch. Что представляет собой стартап можно понять из описания журналиста Time: «Wavii ищет в Интернете, находит новости и обобщает их, со ссылками на полные статьи из множества источников». При этом он использует собственную технологию обработки естественного языка.
За стартап из Сиэтла боролись Apple и Google, и в итоге выиграл последний. Apple хотел использовать технологии агрегации и обработки естественного языка в своём Siri, но в итоге команда из 25 человек переезжает в подразделение Google, занимающееся проектом «Сеть знаний» (Knowledge Graph).
Читать полностью »
Рекомендательные системы: You can (not) advise
2013-04-23 в 17:32, admin, рубрики: data mining, рекомендательные системы, метки: data mining, рекомендательные системы
Более полугода назад в поисках что посмотреть, я листал топ произведений. Это занятие повторялось уже много раз и успело надоесть — постоянно приходилось пропускать то, что я смотреть не хочу. Имхонетами раньше не пользовался, да и не доверял им из-за специфики искомых произведений. На сайте, где я производил поиски, была возможность создать свой список просмотренных произведений и выставить оценку, также были доступны оценки других пользователей. Тут мне в голову пришла гениальная идея, как оказалось позднее банальная, — используя оценки других пользователей делать рекомендации. Данная деятельность называется коллаборативной фильтрацией, а программа её реализующая — Рекомендательной системой(РС). Оглядываясь назад я понимаю, что совершил множество ошибок из-за недостатка информации и её труднодоступности в данной тематике, а что самое главное — сильно переоценил РС. В данном посте я сделаю обзор основных типов и алгоритмов РС, а также постараюсь передать часть своих знаний и опыта.
Читать полностью »
Обучение в Computer Science центре: НИР и практики
2013-04-23 в 10:57, admin, рубрики: computer science, data mining, software engineering, обучение, обучение программированию, Учебный процесс в IT, метки: computer science, data mining, software engineering, обучение, обучение программированиюComputer Science центр существует уже два года, этим летом у нас будет первый выпуск. В данном посте я решила собрать ссылки на впечатления студентов о практиках и научно-исследовательских работах.
НИР и практика
НИР и практика в центре позиционируются как неотъемлемые части обучения. Кураторами выступают заинтересованные научные руководители, опытные разработчики.
Читать полностью »
ЦРУ — большие задачи и большие данные. На пути к созданию глобального информационного колпака
2013-04-22 в 8:01, admin, рубрики: big data, data mining, информационная безопасность, Новые технологии, социальные сети, ЦРУ
Айра Гас Хант (Ira Gus Hunt), действующий Директор по технологиям ЦРУ, рассказывает о своем видении Big Data на службе ЦРУ, а также возникающие при этом задачи и методы их решения. Выступление состоялось на конференции GigaOM Structure:Data 2013, проходившей 20 марта в Нью-Йорке. Как говорят очевидцы это было одно из самых интересных и запоминающихся выступлений.
Читать полностью »
Дата-майнинг помог заработать Пулитцеровскую премию
2013-04-17 в 11:57, admin, рубрики: data mining, дата-майнинг, журналистика, Медиа, полиция, превышение скорости, метки: дата-майнинг, журналистика, полиция, превышение скорости
Самую престижную награду в области журналистики в этом году получила газета Sun Sentinel из Южной Флориды за серию статей «Превыше закона: копы на высокой скорости».
Для расследования журналисты запросили из полицейских участков записи о прохождении патрульными машинами пропускных пунктов SunPass на платных дорогах. В каждой записи SunPass стоит отметка с точным временем прохождения пункта. Полиция предоставила информацию, не заподозрив подвоха.
Читать полностью »