Рубрика «открытые данные» - 10

Хватит кормить издателей. ЕС разрабатывает правила обязательного бесплатного доступа к научным работам - 1
Ежегодный объем рынка платного доступа к научным публикациям оценивается в 25 млрд долларов

Политика современных научных изданий по закрытию доступа к научным публикациям пейволлом давно является причиной споров в обществе. С одной стороны утверждается, что ограничение доступа к научному знанию — непозволительно в условиях всеобщей свободной циркуляции информации. С другой стороны говорится, что институт публикации, вычитки и рецензирования научных работ профессиональными издателями необходим для того, чтобы отсеивать нерелевантные, подтасованные и просто ненастоящие исследования от реальных научных работ. Доходит до абсурда: частные научные издания получают прибыль от публикации исследований, которые проводятся за деньги налогоплательщиков.

Фактически, сейчас наука (в виде публикаций работ) находится под «сапогом» у издателей профильных журналов, которые являются единственными получателями выгоды в сложившейся ситуации. Проблема закрытых научных публикаций стала настолько острой, что на это обратили внимание даже государственные органы, конкретно — Европейский центр политических стратегий при комиссии Евросоюза. Против сокрытия научных работ от широкой общественности высказывался целый ряд ученых на протяжении последних десятилетий.

Еврокомиссар Карлос Моидас, представители научного сообщества ЕС и организации Science Europe выработали «Plan S». Суть его крайне проста: все научные исследования, которые будут финансироваться из государственных бюджетов стран ЕС или фондов Евросоюза, должны быть общедоступными уже с 1 января 2020 года.
Читать полностью »

Аналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »

Аналитический сервис Яндекс.Радар опубликовал рейтинг самых популярных среди россиян интернет-проектов. В топ вошли 10 000 крупнейших сайтов по количеству посетителей из России. Ресурсы можно фильтровать по тематикам, типам (агрегаторы, видео, интернет-магазины, соцсети и прочее) и данным пользователей (доход, полЧитать полностью »

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.

Совершеннолетняя журналистика: от России до Кремля - 1

В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать полностью »

Исследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам.

6 типовых сюжетов мировой литературы - 1

В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в итоге выбирается из нее, а также «парень добивается девушки», где герой получает нечто чудесное, теряет это и снова находит в конце. «Нет никаких препятствий к тому, чтобы загружать простые формы историй в компьютер, — заметил Воннегут. — Это прекрасные формы».

Благодаря новым технологиям интеллектуального анализа люди решили эту задачу. Профессор Мэтью Джокерс из Университета штата Вашингтон, а позже и исследователи из лаборатории компьютерных историй Вермонтского университета проанализировали тексты тысяч романов и выявили шесть основных типов историй — архетипов, — представляющих собой базовые структурные блоки для построения более сложных сюжетов. Вермонтские исследователи описали эти шесть форм повествования, лежащих в основе 1700 английских романов, следующим образом:

1. «Из грязи в князи» — постепенное улучшение положения от плохого к хорошему.
2. «Из князи в грязи» — падение от хорошего положения к плохому, трагедия.
3. «Икар» — взлет и падение.
4. «Эдип» — падение, взлет и снова падение.
5. «Золушка» — взлет, падение, взлет.
6. «Человек, загнанный в угол» — падение и взлет.

Исследователи применили анализ эмоциональной окраски — статистическую методику, часто используемую маркетологами для оценки публикаций в социальных СМИ.Читать полностью »

image

Хочу рассказать о проекте, который развивал последние пару лет. Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Цель — расставить кусочки-страны на свои места. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Я был настолько вдохновлён идеей, что захотел сделать полноценный продукт, интересный не только школьникам, но и знатокам географии. За развитием проекта можно наблюдать на GitHub.
Читать полностью »

image

Я всегда считал, что web для всех. Вот почему я и все остальные яростно сражаются, чтобы защитить его. Изменения, которых нам удалось добиться, создали лучший и более связанный мир. Но помимо всего хорошего, что мы достигли, сеть превратилась в двигатель несправедливости и разделения; на который оказывают влияние мощные силы, использующие его для своих собственных целей.

Сегодня я считаю, что мы достигли критического переломного момента, и это кардинальное изменение к лучшему возможно и необходимо.

Вот почему я в последние годы работал с несколькими людьми в Массачусетском технологическом институте и в других местах, чтобы разработать Solid, проект с открытым исходным кодом для восстановления власти и способности к действию отдельных лиц в web.

Solid изменяет текущую модель, где пользователи должны передавать персональные данные цифровым гигантам в обмен на субъективную стоимость. Как мы все выяснили, это не в наших интересах. Solid — это то, как мы развиваем web, чтобы восстановить равновесие — путем предоставления каждому из нас полного контроля над данными, личными или нет, революционным способом.Читать полностью »

«Яндекс» проводит закрытое тестирование нового инструмента — рейтинга самых популярных площадок Рунета или «Топ сайтов». Об этом пишут «Ведомости» со ссылкой на сотрудников нескольких медиакомпаний, которые принимают участие в тесте. В «Яндексе» подтвердили информацию и добавили, что это будет инструмент для всех игроков рынка. На рынке считают,Читать полностью »

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.

Выявление содержательных профилей в VK - 1


Читать полностью »

В прошлой статье я кратко рассказала о возможностях kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных.

Варианты карт, созданных с помощью kepler.gl
Рисунок 1. Варианты карт, созданных с помощью kepler.gl (by Uber)

Данное веб-приложение позволяет за считанные минуты создать информативную, и что немаловажно, красочную интерактивную карту на основе произвольных наборов гео-данных. Однако, возникает вопрос что делать с ней дальше? Как поделиться полученными результатами с коллегами, друзьями или заказчиками?

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js