Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.
Рубрика «датасеты»
Новогодний датасет 2019: открытый тональный словарь русского языка
2019-12-26 в 15:30, admin, рубрики: linguistics, natural language processing, датасеты, лингвистика, машинное обучение, открытые данныеКак пользоваться краудсорсингом? Практический туториал от Яндекса
2019-12-05 в 11:43, admin, рубрики: Блог компании Яндекс, видеокурсы, датасеты, краудсорсинг, машинное обучение, профессии будущего, толока, Учебный процесс в IT, Яндекс.ТолокаМы опубликовали первый русскоязычный туториал по краудсорсингу:
Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.
Читать полностью »
Премия имени Ильи Сегаловича. Рассказ о компьютерных науках и публикациях по случаю запуска
2019-01-31 в 6:22, admin, рубрики: lightning talk, Блог компании Яндекс, датасеты, идеи и реализация, илья сегалович, Исследования и прогнозы в IT, исследователи, конференции, машинное обучение, научные программы, научные проекты, научные публикации, постер-сессия, постеры, рецензии, Учебный процесс в IT, ученые
Сегодня мы запускаем научную премию имени Ильи Сегаловича iseg. Она будет присуждаться за достижения в области компьютерных наук. Студенты и аспиранты могут подать собственную заявку на премию или выдвинуть научных руководителей. Лауреатов выберут представители академического сообщества и Яндекса. Главные критерии отбора: наличие публикаций и выступлений на конференциях, а также вклад в развитие сообщества.
Первое награждение состоится уже в апреле. В рамках премии молодые учёные получат по 350 тысяч рублей, а кроме того, смогут поехать на международную конференцию, поработать с ментором и пройти стажировку в отделе исследований Яндекса. Научные руководители получат по 700 тысяч рублей.
По случаю запуска премии мы решили рассказать здесь, на Хабре, о критериях успеха в мире компьютерных наук. Часть читателей Хабра уже знакомы с этими критериями, а у остальных могло сложиться о них ложное впечатление. Сегодня мы устраним этот разрыв — коснёмся всех основных тем, включая статьи, конференции, датасеты и перенос научных идей в сервисы.
Создатель игры while True: learn() о программировании в геймдеве, проблемах с VR и симуляции ML
2018-07-16 в 9:08, admin, рубрики: .net, AR и VR, C#, c++, Luden.io, Mono, NivalVR, VR, vr/ar, датасеты, Дизайн игр, интервью, машинное обучение, Олег Чумаков, разработка игр
Несколько лет назад мне казалось, что Олег Чумаков (тогда еще из Nival) был самым известным программистом геймдева. Постоянно выступал, проводил Gamesjam, был частым гостем подкаста Как делают игры.
С появлением на рынке VR, Олег возглавил в компании новое подразделение — NivalVR. Но вы все знаете, с виртуальной реальностью что-то пошло не так, как хотелось.
Я на долгое время отвлекся от геймдева, а взглянув снова, увидел — у команды Олега дела стали только интереснее. Теперь она называется Luden.io и их симулятор специалиста по машинному обучению while True: learn() стал хитом в своей нише, вокруг него творится куча крутых историй.
Мы поговорили с Олегом, но я не смог выбрать только одну тему — слишком уж насыщен и разнообразен был его путь. А чтобы программист говорил о программировании не боясь быть непонятым, беседу поддержал мой друг, коллега и опытный разработчик fillpackart.Читать полностью »
Датасет: ассоциации к словам и выражениям русского языка
2017-10-31 в 18:33, admin, рубрики: nlp, word2vec, ассоциации, датасеты, дистрибутивная семантика, открытые данные, русский языкВ последнее время для оценки семантического сходства широкое распространение получили методы дистрибутивной семантики. Эти подходы хорошо показали себя в ряде практических задач, но они имеют ряд жёстких ограничений. Так, например, языковые контексты оказываются сильно схожими для эмоционально полярных слов. Следовательно, антонимы с точки зрения word2vec часто оказываются близкими словами. Также word2vec принципиально симметричен, ведь за основу берётся совстречаемость слов в тексте, а популярная мера сходства между векторами — косинусное расстояние — также не зависит от порядка операндов.
Мы хотим поделиться с сообществом собранной нами базой ассоциаций к словам и выражениям русского языка. Этот набор данных лишён недостатков методов дистрибутивной семантики. Ассоциации хорошо сохраняют эмоциональную полярность и они по своей природе асимметричны. Подробнее расскажем в статье. Читать полностью »
О чем говорят женщины? (Text mining of beauty blogs)
2017-05-31 в 11:00, admin, рубрики: big data, data mining, анализ данных, Блог компании ГК ЛАНИТ, визуализация данных, датасеты, краулинг, ЛанитВ руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.
Источник
Читать полностью »