В современной компьютерной лингвистике биграммы, или в общем случае n-граммы, являются важным статистическим инструментом. В статье мы расскажем с какими трудностями можно столкнуться при расчёте биграмм на большом корпусе текстов и приведём алгоритм, который можно использовать на любом домашнем компьютере.
Читать полностью »
Архив за 12 октября 2016 - 2
Как собрать биграммы для корпуса любого размера на домашнем компьютере
2016-10-12 в 16:06, admin, рубрики: big data, data mining, nlp, text processing, Алгоритмы, биграмма, машинное обучение, обработка естественного языка, СемантикаКонцепт гибкого мотоцикла BMW Motorrad VISION NEXT 100
2016-10-12 в 16:04, admin, рубрики: BMW, BMW Motorrad, гибкий мотоцикл, транспорт будущего, электродвигательАвтомобильные дизайнеры периодически радуют нас фантастическими концептами. Редко какие воплощаются в реальность. Зато они дают понять, в каком направлении движется техническая мысль, каким может стать транспорт будущего.
Например, новый концепт BMW Motorrad VISION NEXT 100 показывает, как компания BMW видит мотоциклы в ближайшие сто лет. Гибкая рама поворачивается вместе с рулём. Наголовный визор с дисплеем. И сверхбезопасность, которая позволяет ездить даже без шлема.
Читать полностью »
Обзор топологий глубоких сверточных нейронных сетей
2016-10-12 в 15:59, admin, рубрики: alexnet, artificial intelligence, convolutional neural network, ImageNet, inception, lenet, math, neural networks, nin, resnet, skynet, vgg, Алгоритмы, Блог компании Mail.Ru Group, математика, машинное обучение, обработка изображений Это будет длиннопост. Я давно хотел написать этот обзор, но sim0nsays меня опередил, и я решил выждать момент, например как появятся результаты ImageNet’а. Вот момент настал, но имаджнет не преподнес никаких сюрпризов, кроме того, что на первом месте по классификации находятся китайские эфэсбэшники. Их модель в лучших традициях кэгла является ансамблем нескольких моделей (Inception, ResNet, Inception ResNet) и обгоняет победителей прошлого всего на полпроцента (кстати, публикации еще нет, и есть мизерный шанс, что там реально что-то новое). Кстати, как видите из результатов имаджнета, что-то пошло не так с добавлением слоев, о чем свидетельствует рост в ширину архитектуры итоговой модели. Может, из нейросетей уже выжали все что можно? Или NVidia слишком задрала цены на GPU и тем самым тормозит развитие ИИ? Зима близко? В общем, на эти вопросы я тут не отвечу. Зато под катом вас ждет много картинок, слоев и танцев с бубном. Подразумевается, что вы уже знакомы с алгоритмом обратного распространения ошибки и понимаете, как работают основные строительные блоки сверточных нейронных сетей: свертки и пулинг.
Хакатон по данным криминальной статистики
2016-10-12 в 15:52, admin, рубрики: Блог компании «Информационная культура», визуализация данных, Геоинформационные сервисы, открытые данные, Спортивное программирование, статистика, хакатонУ нас хорошая новость — наконец-то организуем хакатон по данным криминальной статистики, уже в следующие выходные: 22-23 октября.
Читать полностью »
Как мы вышли из «Минусинска» «Яндекса» за десять месяцев, а потом оказалось, что не вышли
2016-10-12 в 15:44, admin, рубрики: seo, кейсы, колонка, Минусинск, Нам пишут, советы, яндекс, метки: seo, кейсы, колонка, Минусинск, Нам пишут, советы, яндексИстория началась 5 декабря 2015 года в очередной апдейт Минусинска (напомню, алгоритм Яндекса, понижающий сайты в результатах поиска за покупку ссылок на сторонних сайтах). Два наших портала удостоились такой чести: один из крупнейших на тот момент афишных сайтов Петербурга Peterburg2.ru и автомобильный журнал 110km.ru.
Корпус Enermax Steelwing изготовлен из алюминия и закаленного стекла
2016-10-12 в 15:42, admin, рубрики: Новости, метки: новостиВ новом корпусе Enermax Steelwing вопреки названию не используется сталь, а только алюминий и закаленное стекло. Самым ярким дизайнерским решением в случае этого корпуса можно назвать семь вертикальных алюминиевых ребер, установленных на передней панели.

Как Asana упрощает работу с командой, документами и приносит больше профита
2016-10-12 в 15:28, admin, рубрики: Asana, basecamp, менеджмент, управление проектамиAsana создана для ленивых, но влюбленных в порядок. Знакомство с ней длится 10 минут, чтобы уже завтра КПД вашей команды вырос как минимум на 30%. Да, и тут есть радужные единороги, йети и котики.
Читать полностью »
Голые землекопы — супергерои в мире животных
2016-10-12 в 15:04, admin, рубрики: голый землекоп, грызуны, Научно-популярное, эволюция, метки: голый землекоп, грызуныПод сухими равнинами Восточной Африки обитают животные, которые удивляют и своей внешностью, и своими возможностями. Речь идет о голых землекопах. Их тело не покрыто шерстью, у них очень плохое зрение но хорошее обоняние, осязание и сильные лапы. Эти животные могут выкапывать в земле длинные ходы протяженностью в несколько километров.
Живут они колониями вплоть до 300 обитателей. Главная в колонии — королева. Это единственная самка, которая воспроизводит потомство. Появившиеся на свет грызуны быстро взрослеют. Всю свою жизнь (около 30 лет) эти животные проводят в условиях малого количества еды и воды. Голые земплекопы — мелкие животные с длиной тела 8—10 см, хвоста — 3—4 см и весом 30—35 г. Самки крупнее: весят от 50 до 80 г.
Читать полностью »
Состояние и перспективы кибербезопасности воздушных судов
2016-10-12 в 14:49, admin, рубрики: авионика, воздушное судно, информационная безопасность, кибербезопасностьВ качестве введение, в авиации принято все летательные аппараты «обзывать» воздушными судами и только потом делить на самолеты, вертолеты и т. д. Поэтому в тексте будет использован именно этот термин.
В ходе последних событий из мира авиации, где специалистами в области кибербезопасности (пример) была открыта возможность получения доступа к бортовым системам воздушных судов, специалисты отрасли (и не только) задумались:
А что мы делаем для обеспечения безопасности?
Читать полностью »
Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language
2016-10-12 в 14:44, admin, рубрики: big data, Hadoop, MapReduce, netty, realtime mapreduce, s-expressions, spark, sql, Алгоритмы, Анализ и проектирование систем, Блог компании Яндекс, инфраструктура, Промышленное программирование, языки запросовИсторически во многих уголках Яндекса разрабатывались свои системы хранения и обработки больших объемов данных — с учетом специфики конкретных проектов. При такой разработке в приоритете всегда была эффективность, масштабируемость и надежность, поэтому на удобные интерфейсы для использования подобных систем времени, как правило, не оставалось. Полтора года назад разработку крупных инфраструктурных компонентов выделили из продуктовых команд в отдельное направление. Цели были следующими: начать двигаться быстрее, уменьшить дублирование среди схожих систем и снизить порог входа новых внутренних пользователей.
Очень скоро мы поняли, что тут мог бы здорово помочь общий высокоуровневый язык запросов, который бы предоставлял единообразный доступ к уже имеющимся системам, а также избавлял от необходимости заново реализовывать типовые абстракции на низкоуровневых примитивах, принятых в этих системах. Так началась разработка Yandex Query Language (YQL) — универсального декларативного языка запросов к системам хранения и обработки данных. (Сразу скажу, что мы знаем, что это уже не первая штука в мире, которая называется YQL, но мы решили, что это делу не мешает, и оставили название.)
В преддверии нашей встречи, которая будет посвящена инфраструктуре Яндекса, мы решили рассказать о YQL читателям Хабрахабра.