Рубрика «датасеты»
130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных
2025-10-08 в 9:08, admin, рубрики: ML-репозитории, где искать датасет, датасеты, Компьютерное зрение, машинное обучение, наборы данных, обработка естественного языка, обучение моделей, подборка датасетов для ML, распознавание речиКак использовать датасеты при разработке ИИ, не нарушая законодательство
2025-04-11 в 17:29, admin, рубрики: AI, датасетыС развитием технологий искусственного интеллекта (ИИ) датасеты стали одним из ключевых элементов для создания и обучения ИИ и сервисов на их основе. Их использование связано не только с техническими вопросами, но и с целым ворохом юридических аспектов.
Всем привет, меня зовут Алексей Насанбаев. В статье я расскажу, что такое датасет с точки зрения права, какие риски обычно возникают при работе с ними, а также поделюсь опытом использования open source датасетов.
Картель влиятельных датасетов в обучении ИИ
2025-03-25 в 9:01, admin, рубрики: llm, OpenAI, ruvds_статьи, sota, YouTube, датасеты, ИИ, наборы данных, обучение ИИ, переобучение, языковая модель
В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть.
Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений.
По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.Читать полностью »
«Чем ближе к вокзалу, тем хуже кебаб?»: «исследование»
2025-02-26 в 8:29, admin, рубрики: google places api, быстрое питание, географические объекты, датасеты, фастфудВведение
Во французском сабреддите я наткнулся на пост с интересной гипотезой:
Чем ближе точка к вокзалу, тем хуже там кебаб.
Пост на французском привлёк достаточно большое внимание, учитывая относительно небольшой размер сабреддита; это доказывало, что многие с ним согласны. Впрочем, в комментариях были и критики, рассказывающие истории, противоречащие сформулированной гипотезе.
GAN и диффузионные модели: как научить нейросеть рисовать
2025-01-05 в 11:16, admin, рубрики: AI-арт, GAN, pytorch, stable diffusion, генеративные сети, датасеты, диффузионные модели, искусственный интеллект, машинное обучение, синтетические данные
Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)
GAN: Генератор vs. Дискриминатор
Читать полностью »
Новогодний датасет 2019: открытый тональный словарь русского языка
2019-12-26 в 15:30, admin, рубрики: linguistics, natural language processing, датасеты, лингвистика, машинное обучение, открытые данныеОбычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.
Как пользоваться краудсорсингом? Практический туториал от Яндекса
2019-12-05 в 11:43, admin, рубрики: Блог компании Яндекс, видеокурсы, датасеты, краудсорсинг, машинное обучение, профессии будущего, толока, Учебный процесс в IT, Яндекс.ТолокаМы опубликовали первый русскоязычный туториал по краудсорсингу:
Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.
Читать полностью »
Премия имени Ильи Сегаловича. Рассказ о компьютерных науках и публикациях по случаю запуска
2019-01-31 в 6:22, admin, рубрики: lightning talk, Блог компании Яндекс, датасеты, идеи и реализация, илья сегалович, Исследования и прогнозы в IT, исследователи, конференции, машинное обучение, научные программы, научные проекты, научные публикации, постер-сессия, постеры, рецензии, Учебный процесс в IT, ученые
Сегодня мы запускаем научную премию имени Ильи Сегаловича iseg. Она будет присуждаться за достижения в области компьютерных наук. Студенты и аспиранты могут подать собственную заявку на премию или выдвинуть научных руководителей. Лауреатов выберут представители академического сообщества и Яндекса. Главные критерии отбора: наличие публикаций и выступлений на конференциях, а также вклад в развитие сообщества.
Первое награждение состоится уже в апреле. В рамках премии молодые учёные получат по 350 тысяч рублей, а кроме того, смогут поехать на международную конференцию, поработать с ментором и пройти стажировку в отделе исследований Яндекса. Научные руководители получат по 700 тысяч рублей.
По случаю запуска премии мы решили рассказать здесь, на Хабре, о критериях успеха в мире компьютерных наук. Часть читателей Хабра уже знакомы с этими критериями, а у остальных могло сложиться о них ложное впечатление. Сегодня мы устраним этот разрыв — коснёмся всех основных тем, включая статьи, конференции, датасеты и перенос научных идей в сервисы.
Создатель игры while True: learn() о программировании в геймдеве, проблемах с VR и симуляции ML
2018-07-16 в 9:08, admin, рубрики: .net, AR и VR, C#, c++, Luden.io, Mono, NivalVR, VR, vr/ar, датасеты, Дизайн игр, интервью, машинное обучение, Олег Чумаков, разработка игр
Несколько лет назад мне казалось, что Олег Чумаков (тогда еще из Nival) был самым известным программистом геймдева. Постоянно выступал, проводил Gamesjam, был частым гостем подкаста Как делают игры.
С появлением на рынке VR, Олег возглавил в компании новое подразделение — NivalVR. Но вы все знаете, с виртуальной реальностью что-то пошло не так, как хотелось.
Я на долгое время отвлекся от геймдева, а взглянув снова, увидел — у команды Олега дела стали только интереснее. Теперь она называется Luden.io и их симулятор специалиста по машинному обучению while True: learn() стал хитом в своей нише, вокруг него творится куча крутых историй.
Мы поговорили с Олегом, но я не смог выбрать только одну тему — слишком уж насыщен и разнообразен был его путь. А чтобы программист говорил о программировании не боясь быть непонятым, беседу поддержал мой друг, коллега и опытный разработчик fillpackart.Читать полностью »



