Расскажу, как классификация текста помогла мне в поиске квартиры, а также почему я отказался от регулярных выражений и нейронных сетей и стал использовать лексический анализатор.
Читать полностью »
Рубрика «открытые данные» - 17
Классификация объявлений из соц. сетей. В поисках лучшего решения
2017-05-14 в 13:02, admin, рубрики: natural language processing, tomita, Вконтакте API, классификация текстов, машинное обучение, обработка естесственного языка, открытые данные, Разработка веб-сайтов, Регулярные выраженияИсследование положения глаз у более 1000000 лиц: правило золотого сечения или правило третей?
2017-04-21 в 11:07, admin, рубрики: wolfram language, wolfram mathematica, Блог компании Wolfram Research, визуализация данных, золотое сечение, математика, открытые данные, поиск лиц, правило третей, Программирование, статистика, метки: золотое сечение, правило третей
Перевод поста Майкла Тротта (Michael Trott) "Profiling the Eyes: ϕaithful or ROTen? Or Both?".
Код, приведенный в статье, можно скачать здесь.
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации
Содержание
— Исследование проявления золотого сечения в положении человеческих лиц на картинах и фотографиях
— Уровень линии глаз на старых картинах — скорее ROT, чем φaithful
— Высота линии глаз в современных картинах
— Высота линии глаз в работах профессиональных фотографов
— Высота линии глаз в селфи
— Фото из профилей LinkedIn
— Лица с обложек еженедельных журналов последних трех десятилетий
— Обложки комиксов
— Ежедневные газеты и журналы мод
— Знаменитости из киноиндустрии
— Кино: линия глаз в движении
— Выводы
Исследование проявления золотого сечения в положении человеческих лиц на картинах и фотографиях
Существует огромное количество литературы, посвященной золотому сечению в природе, в физиологии и психологии, а также в произведениях искусства (см. эту статью о золотом сечении, и вот эти: о золотом сечении в искусстве, в природе и в человеческом теле, и еще — о структуре творческого процесса в науке и искусстве). В последние годы нарастает скептицизм по поводу распространенности золотой пропорции в этих областях. Были пересмотрены более ранние исследования. Смотрите, например, исследования греческих храмов Фотакиса, Марковского, Фостера, Холланда и Бенджафилда, и Свободовой и др. — по физиологии человека.
Читать полностью »
Галлюцинируй как Трамп, или мини-анализ Рекуррентных Нейронных Сетей
2017-04-20 в 9:16, admin, рубрики: AI, IT-образование, java, machine learning, neural networks, open source, Алгоритмы, машинное обучение, открытые данныеЯ уже довольно давно занимаюсь проблемами машинного обучения и глубокими архитектурами (нейронные сети), и мне необходимо было сделать мини-презентацию системы, генерирующую временные ряды для эмуляции различных процессов. Поскольку на серьезные темы лучше говорить с юмором, то я решил подобрать какой либо веселый пример, чтобы выступление слушалось с улыбками на лицах. Нам крупно повезло, поскольку мы живем в одно время с великим оратором, чьи речи заставляют сердца людей биться чаще. Я говорю о Дональде Трампе. Поэтому вполне естественно было бы создать систему, которая галлюцинировала говорила бы как Трамп.
Почему на то, чтобы найти точное значение постоянной Планка, понадобилось 100 лет?
2017-04-13 в 7:38, admin, рубрики: CODATA, NIST, Wolfram Alpha, wolfram cloud, wolfram language, wolfram mathematica, Алгоритмы, Блог компании Wolfram Research, Борда, визуализация данных, килограмм, математика, открытые данные, постоянная планка, Си, метки: килограмм, постоянная планка, СИ
Перевод поста Майкла Тротта (Michael Trott) "An Exact Value for the Planck Constant: Why Reaching It Took 100 Years".
Код, приведенный в статье, можно скачать здесь.
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации
Содержание
— Некоторые мысли по случаю Всемирного дня метрологии в 2016 году
— Введение и немного обо мне
— От истоков метрической системы до сегодняшних дней.
— Увеличение числа констант
— Существующая система СИ и проблема килограмма
— Новая СИ
— Секунда
— Моль
— Кельвин
— Ампер
— Кандела
— Почему основных единиц измерения именно 7?
— Путь к изменению определения килограмма
Повествование ведется от имени Жана-Шарля де Борда.
Некоторые мысли по случаю Всемирного дня метрологии в 2016 году
Позвольте мне представиться:
Я человек науки и люблю точность.
Все это время я был где-то рядом.
Я забрал у людей фунт и туаз.
И я был рядом с Людовиком XVI
В минуты его сомнений и боли.
Я чертовски уверен в том, что метрическая рулетка,
Благодаря платиновым стандартам будет установлена раз и навсегда.
Я рад встрече с вами!
Надеюсь, вы угадали, как меня зовут?
Введение и немного обо мне
Если вы еще не догадались, я — Жан-Шарль де Борда: моряк, математик, ученый и член Академии наук. Я родился 4 мая 1733 года в городе Дакс во Франции. Две недели назад я отметил свой двести восемьдесят третий день рождения. А вот и я:
В моем родном городе в честь меня воздвигли памятник. Если вы будете неподалеку, задержитесь, чтобы посмотреть на него. Если вы не знаете, где находится Дакс, вот карта:
Когда я был мальчиком, Франция выглядела примерно так же, как сейчас. У нас было немного меньше территории с восточной стороны, но зато в Северной Америке моей стране принадлежал хороший кусок земли:
R, GIS и fuzzyjoin: восстанавливаем демографические данные для NUTS регионов Дании
2017-04-03 в 15:43, admin, рубрики: data mining, gis, NUTS, R, административное деление, визуализация данных, Геоинформационные сервисы, дания, муниципалитеты, открытые данные, официальная статистикаВ этом посте речь пойдет о том, как я восстанавливал демографические данные для регионов Дании, где после реформы территориального устройства 2007 года официальной гармонизации данных не проводилось. Это лишь небольшая часть гармонизации евростатовских данных, которую я выполнил в рамках своего phd проекта. Пост сперва опубликован в моем англоязычном блоге и в блоге Demotrends. Думаю, что он может быть интересен далеко не только демографам.
Что такое NUTS?
NUTS расшифровывается как Nomenclature of Territorial Units For Statistics. Это стандартизированная система административно-территориального деления, принятая странами Евросоюза. История вопроса уходит в 1970-е, когда родилась идея сделать регионы различных стран Европы сопоставимыми. В более или менее законченном и широко употребимом виде система появилась лишь на рубеже веков. Существуют три основных уровня NUTS (см. рис. 1), и наиболее распространенным в региональном анализе оказывается NUTS-2.
Рисунок 1. Иллюстрация принципа выделения регионов NUTS различного иерархического уровня
Разработка R&D-проектов продолжается: запуск Wolfram Language 11.1
2017-03-22 в 9:35, admin, рубрики: api, wolfram language, wolfram mathematica, wolframscript, Алгоритмы, Блог компании Wolfram Research, внешние сервисы, математика, машинное обучение, нейронные сети, Облачные вычисления, облачные сервисы, открытые данные, Программирование, системное программирование, функциональное программирование
Перевод поста Стивена Вольфрама (Stephen Wolfram) "The R&D Pipeline Continues: Launching Version 11.1".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации
Содержание
— Небольшой релиз — тоже неплохо
— Визуальные изменения
— Множество новых функций
— Нейросети
— Машинное обучение
— Аудио
— Изображения и визуализация
— Больше данных
— Интегрированные внешние сервисы
— Больше математики, больше алгоритмов
— Детализация дат
— Настройка языка
— Язык хранения
— Программирование на низком уровне
— Укрепление инфраструктуры
— И еще кое-что
Небольшой релиз — тоже неплохо
Я рад сообщить о том, что сегодня вышла версия 11.1 языка Wolfram Language (и системы Wolfram Mathematica). На данный момент, версия 11.1 уже работает в Wolfram Cloud, а Desktop-версии уже доступны для загрузки для Mac, Windows и Linux.
Что нового в версии 11.1? На самом деле много чего. Если кратко:
В ней очень много нового. Можно подумать, что релиз .1 спустя почти 29 лет после выхода версии 1.0 вряд ли удивит. Однако в случае с нашей компанией дела обстоят иначе. С тех пор, как мы построили весь стек доступных сейчас технологий, мы лишь ускоряемся в своем развитии. И теперь даже в версии 11.1 представлено множество новых функциональных возможностей.
Читать полностью »
Совет по открытым данным: планы Рослесхоза и Роспатента и раскрытие картографических данных
2017-03-22 в 8:06, admin, рубрики: IT-стандарты, Блог компании «Информационная культура», геоданные, Геоинформационные сервисы, открытое правительство, открытые данные, совет по открытым данным16 марта прошло первое в этом году заседание Совета по открытым данным, повесткой которого были открытые данные Рослесхоза, Роспатента, раскрытие пространственных данных и информации о мерах государственной поддержки. Посмотрим, как это было и к чему пришли в этот раз.
Читать полностью »
Добавляем в Splunk бесплатные фиды IP Reputation
2017-03-20 в 5:49, admin, рубрики: ip reputation, open source, opensource, python, splunk, информационная безопасность, открытые данныеВ базе приложений Splunk есть много решений, которые позволяют делать Enrichment и добавлять информацию о том, что тот или иной IP-адрес выглядит подозрительным и «засветился» в той или иной reputation-базе. Однако, эти приложения либо платные (например, Recorded Future App, Kaspersky Threat Feed App), либо очень медленные (IP Reputation App, на момент написания к тому же не до конца доступен из-за maintenance с февраля месяца), поэтому мы решили разработать свой opensource плагин RST Cloud Threat Database Add-on for Splunk, который позволит собирать в единую базу разрозненные сведения из открытых источников и выдавать ответы на потоках в десятки тысяч запросов в секунду.Читать полностью »
Открытые данные со стороны разработчика
2017-03-16 в 18:13, admin, рубрики: открытые данные, метки: open data, открытые данныеВ процессе работы над мобильным приложением использующим открытые данные пришлось близко познакомиться с содержанием ряда порталов, в результате возникли предложения, как усовершенствовать «внутренний мир порталов открытых данных» в интересах разработчика.
Если Вам это интересно и у Вас уже есть опыт работы в этой области, то можете сравнить свои выводы с написанным ниже.
Читать полностью »
Big Data Дептранса Москвы уменьшила потенциальную аудиторию такси на полмиллиона человек в день
2017-03-16 в 10:46, admin, рубрики: big data, gett, uber, аналитика, Госвеб, Департамент транспорта Москвы, Москва, общественный транспорт, открытые данные, статистика, такси, Текучка, эффективность бизнеса, метки: big data, gett, uber, аналитика, Госвеб, Департамент транспорта Москвы, Москва, общественный транспорт, открытые данные, статистика, такси, Текучка, эффективность бизнеса, яндекс таксиМосковская маршрутная сеть «Магистраль» увеличила пассажиропоток на 30%, что составляет около полумиллиона человек в будний день, сообщил столичный департамент транспорта. Новая сеть запустилась в октябре 2016 года. «Магистраль» построена на основе анализа разнородных городских данных: собранных у сотовых операторов, датчиков ГЛОНАСС, с систем проверки билетов,Читать полностью »