Рубрика «обработка данных» - 5

RapidMiner – Data Mining и BigData у вас дома, быстро и без подготовки (почти) - 1

Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.

Закачка, установка и получение первых результатов — минут 20 максимум.

Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.Читать полностью »

27 лет арктических льдов за одну минуту - 1

Потрясающее видео на днях опубликовало NOAA Climate — или по-русски Национальное управление океанических и атмосферных исследований климата, на котором были совмещены данные об арктических льда, собранные на протяжении последних 27 лет — между 1987 и 2014 годом. Красочная визуализация позволяет оценить, как сезонно и из года в год меняется снежный и ледовый покров нашей северной «шапки», а также проследить влияние глобального потепления на возраст ледовых покровов.

Читать полностью »

Код статьи можно посмотреть здесь.

Чем так хорош Lua?

Когда-то я разрабатывал свою игру и задался вопросом: а какой формат данных лучше использовать?
Разработчики используют разные форматы: одни используют JSON, другие — XML, либо другие форматы данных. Ну а некоторые вообще хранят данные в .txt файлах или пишут свои парсеры. После рассмотрения различных форматов я остановился на Lua.

Lua можно использовать не только для игр, но и вообще для любых программ, которые используют данные, хранящиеся в других файлах.

Вот, что выделяет Lua на фоне других форматов:

  • Lua легко использовать без дополнительных зависимостей (кроме одной библиотеки Lua и трёх .h файлов).
  • В Lua файлах данные можно инициализировать с помощью математических выражений или функций, написанных на Lua. Например:
    some_variable = math.sqrt(2) * 2
    some_variable2 = 64 * 16 - 32
    

  • Lua — очень быстрый язык, который к тому же не занимает много памяти.
  • У Lua лицензия MIT, которая позволяет использовать этот язык как в бесплатных, так и в коммерческих проектах, причём без всякой возни с бумагами. Как написано на сайте: «просто скачайте и пользуйтесь».
  • Lua комплируется практически везде, т.к. он написан на чистом C без использования дополнительных библиотек.
  • Данные можно хранить и сортировать в приятном глазу виде. Их легко читать и модифицировать в любом текстовом редакторе.

Начнём с простого примера, а затем я перейду к реализации класса.
Читать полностью »

Отказ от jParser (в пользу работы напрямую с буферами Node.js) ускоряет скрипт на порядокПерелистнём несколько страниц недавнего прошлого.

16 мая 2012 года RReverser во блогозаписи «Javascript BMP Parser» рассказал об употреблении модуля jParser для анализа двоичных данных, на движке Node.js совершаемого.

На следующий же день (17 мая 2012 года) во блогозаписи «jParser: анализ двоичных файлов работает просто» я перевёл документацию по jParser, а чуть позже (22 мая 2012 года во блогозаписи «Node.js на узле Фидонета: читаем джаваскриптом заголовки эхопочты, хранимой в формате JAM») поделился собственным опытом употребления этого модуля.

Прошло ≈1⅓ года…

12 сентября нынешнего (2013) года во блогозаписи «Недоволен скоростью джаваскриптов? — Подожди год-полтора, и это пройдёт!» я выразил неудовольствие от скорости работы модуля, прежде мною сочинённого, и указал на один только повод для оптимизма: поступательное развитие Node.js от версии 0.6 до версии 0.10 привело к росту скорости моего кода в три раза.

А сегодня события совершили полный круг — я напрочь отказался от употребления jParser. И достигнутый результат (как неприятная, так и радостная сторона его) оказался заслуживающим внимания.

Позвольте же поделиться с вами как впечатлениями, так и исходниками.

Читать полностью »

В качестве введения

В настоящее время Байесовские методы получили достаточно широкое распространение и активно используются в самых различных областях знаний. Однако, к сожалению, не так много людей имеют представление о том, что же это такое и зачем это нужно. Одной из причин является отсутствие большого количества литературы на русском языке. Поэтому здесь попытаюсь изложить их принципы настолько просто, насколько смогу, начав с самых азов (прошу прощения, если кому-то это покажется слишком простым).
Читать полностью »

Эта статья — продолжение первой части. В этой серии статей я рассматриваю применение набирающего популярность языка программирования R для решения распространенных статистических задач.

В данной и следующей статье я показываю как выбрать для обработки качественных и количественных данных правильные тесты и реализовать их в R. Данные методы позволяют получить реальное представление об объекте, процессе или явлении по какому-либо параметру, т.е. позволяют сказать «хорошо» или «плохо». Они не потребуют глубоких знаний программирования и статистики, и пригодятся людям различного рода деятельности.

Заинтересовались? Добро пожаловать под кат!
Читать полностью »

Облачные дата центры сегодня и завтра

Друзья, рады сообщить, что в партнерстве с Фондом «Сколково» мы продолжаем привозить в Москву выдающихся сотрудников Microsoft – на этот раз одного из гуру «Облачных» технологий. Дилип Бхандаркар (Dileep Bhandarkar) — ведущий эксперт Microsoft (Distinguished Engineer) в области разработки архитектуры серверного оборудования и стандартов подразделения Global Foundation Services.

Дилип руководит разработкой технологической стратегии инфраструктур облачных и онлайн сервисов Microsoft, отвечает за аппаратную архитектуру серверов и стандарты Global Foundation Services (GFS). GFS поддерживает более 200 онлайн сервисов Microsoft для потребителей и предприятий во всем мире.

Где и когда

Открытая лекция пройдет 24 сентября с 18:30 до 20:00 в малой аудитории Политехнического музея, расположенного по адресу: Москва, Новая площадь ¾, подъезд 9, малая аудитория.

Регистрация: openu.timepad.ru/event/35989/
Трансляция: www.sk.ru/live
Язык: английский
Читать полностью »

Наверное каждому электрочитателю хотелось бы всю свою коллекцию книг содержать прямо на электронной книге-читалке, и при этом, не смотря на общую тормознутость устройства, иметь удобную навигацию.
Зачастую в электронной книге проблематично содержать сотни и тысячи книжек: либо аппарат долго тупит, считывая информацию о каждой книге из ее внутренностей, либо вручную поддерживать коллекцию с разбивкой по каталогам — тот еще геморрой.
Читать полностью »

Программирование / [Перевод] Почему мы создали Джулию, новый ЯП для технических вычислений Если вкратце, потому что мы жадные.

Мы продвинутые пользователи Matlab. Некоторые из нас хакеры Lisp. Некоторые питонисты, другие рубисты, есть ещё Perl-хакеры. Среди нас есть такие, кто начал использовать Mathematica прежде, чем у него начали расти волосы на лице. Есть и такие, у кого до сих пор не выросли. Мы сгенерировали больше R plots, чем способен любой здравомыслящий человек. C — язык программирования на нашем необитаемом острове.

Мы любим все эти языки; они прекрасны и могучи. Для той работы, которую мы делаем — научные вычисления, машинное обучение, дата-майнинг, крупномасштабная линейная алгебра, распределённые и параллельные вычисления —Читать полностью »

Поисковые машины и технологии / Wolfram Alpha Pro

Сегодня официально представлена продвинутая версия научного поисковика Wolfram Alpha Pro. Это самый значительный апдейт за всё время существования поисковой системы. Хотя её и раньше трудно было назвать «поисковой системой», а сейчас это вообще нечто фундаментально иное.
Итак, на что способен Wolfram Alpha Pro за пять долларов в месяц?
Во-первых, чтобы воспользоваться «премиальными» возможностями, нужно зарегистрироваться и оплатить подписку ($4,99 в месяц, $2,99 для студентов), которая сейчас предоставляется бесплатно на 14 дней.
После авторизации на сайте вы увидите тот же интерфейс, но с маленькими пиктограммами, за которымиЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js