Рубрика «dataset»

Делаем свой reasoning dataset

2025-03-29 в 17:20, admin, рубрики: dataset, gpt, huggingface, llm, нейросети

Привет!

Туториал будет посвящен подготовке узкоспециализированного русскоязычного медицинского датасета для последующего файнтюнинга (тонкой настройки) открытых языковых моделей.

Описанная методика выверена методом многочисленных проб и ошибок. Русификация тут приведена больше как пример того, как при помощи сырого набора данных, можно сгенерировать качественные данные под узкую задачу с минимальными затратами.

В данном туториале описан процесс создания русского медицинского датасета из англоязычного Читать полностью »

Как дообучать LLM с помощью Supervised Fine-Tuning

2024-08-12 в 13:34, admin, рубрики: data annotation, data labeling, dataset, Fine-tuning, llm, SFT, машинное обучение, разметка данных

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

Как дообучать LLM с помощью Supervised Fine-Tuning - 2

Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать полностью »

Telegram бот с языковой моделью, обученной на 2ch

2022-06-11 в 21:52, admin, рубрики: 2ch, data mining, dataset, huggingface, natural language processing, nlp, python, pytorch, telegram, telegrambot, машинное обучение

Если вам хочется разбавить общение в telegram чате нелепыми, но зачастую меткими и смешными комментариями, или вы ищете информацию по интеграции языковой модели в бота, или хотите сами обучить языковые модели на данных с 2ch, то в этой статье описаны шаги, как это сделать.

Бот

Запустил бота, которого можно добавлять в чаты, и он будет отвечать на сообщения, как на посты на 2ch.hk/b/.

Для этого:

Был собран датасет постов с 2ch
Была обучена Читать полностью »

52 датасета для тренировочных проектов

2019-12-16 в 13:18, admin, рубрики: data science, dataset, deep learning, edisonsoftware, machine learning, python, Блог компании Edison, машинное обучение, Программирование, Учебный процесс в IT

Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
The Boston Housing Dataset Читать полностью »

Подборка датасетов для машинного обучения

2019-05-19 в 16:23, admin, рубрики: data mining, dataset, python, анализ данных, данные, искусственный интеллект, машинное обучение, Питон, теги все читают

Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов Читать полностью »

Создаем свой датасет с пришельцами

2018-09-17 в 10:36, admin, рубрики: big data, computer vision, data mining, dataset, deep learning, python, segmentation, машинное обучение, обработка изображений, разметка изображений, фрилансеры

Создаем свой датасет с пришельцами - 1

Сегментацией людей с помощью нейронных сетей уже никого не удивишь. Есть много приложений, таких как Sticky Ai, Teleport Live, Instagram, которые позволяют выполнять такую сложную задачу на мобильном телефоне в реалтайме.

Итак, предположим планета Земля столкнулась с внеземными цивилизациями. И от пришельцев из звездной системы Альфа Центавра поступает запрос на разработку нового продукта. Им очень понравилось приложение Sticky Ai, которое позволяет вырезать людей и делать стикеры, поэтому они хотят портировать приложение на свой межгалактический рынок.

Читать полностью »

Delphi: самый быстрый DataSet (TJvMemoryData, TMemTableEh, TdxMemData, TkbmMemTable)

2018-03-09 в 10:27, admin, рубрики: dataset, Delphi, Программирование, сравнение

В этой статье я проведу сравнительный анализ DataSet'ов, которые держат данные в оперативной памяти.

Список DataSet'ов

TJvMemoryData
Разработчик: сообщество JEDI Visual Component Library (JCL + JVCL)
JCL (версия 2.8)
JVCL (версия 3.50)
→ Официальный сайт
TMemTableEh
Разработчик: EhLib
Версия: 9.0.040
→ Официальный сайт
TdxMemData
Разработчик: DevExpress
Версия: 15.2.2
→ Официальный сайт
TkbmMemTable
Разработчки: Components4Developers
Версия: 7.74.00 Professional Edition
→ Официальный сайт

Параметры сравнения DataSet'ов

Вставка записей
Сортировка записей

Окружение

Delphi	10.2 Tokyo Starter
Операционная система	Windows 7 SP1 Ultimate x64
Процессор	Intel Core i5
ОЗУ	8 Гб

Тестовые данные

DataSet'ы будут тестироваться на данных, полученных из базы данных Firebird. Для сравнительного анализа я создал в базе данных 100000 записей с различными типами данных:

• целые числа;
• вещественные числа;
• даты;
• строки;
• изображения.
Читать полностью »

Топливо для ИИ: подборка открытых датасетов для машинного обучения

2017-10-06 в 12:20, admin, рубрики: dataset, Блог компании Mail.Ru Group, данные, машинное обучение, обучение, открытые данные, Программирование

Топливо для ИИ: подборка открытых датасетов для машинного обучения - 1
Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье

Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.

Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.

Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Читать полностью »

Список доменов с упоминанием «porn», обновляемый ежедневно

2017-09-05 в 19:02, admin, рубрики: dataset, domains, porn, top sites, я пиарюсь

Здравствуйте!
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «dataset»

Делаем свой reasoning dataset

Как дообучать LLM с помощью Supervised Fine-Tuning

Telegram бот с языковой моделью, обученной на 2ch

Бот

52 датасета для тренировочных проектов

Подборка датасетов для машинного обучения

Подборка датасетов для машинного обучения:

Создаем свой датасет с пришельцами

Delphi: самый быстрый DataSet (TJvMemoryData, TMemTableEh, TdxMemData, TkbmMemTable)

Список DataSet'ов

Параметры сравнения DataSet'ов

Окружение

Тестовые данные

Топливо для ИИ: подборка открытых датасетов для машинного обучения

Список доменов с упоминанием «porn», обновляемый ежедневно

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «dataset»

Бот

Подборка датасетов для машинного обучения:

Список DataSet'ов

Параметры сравнения DataSet'ов

Окружение

Тестовые данные

Новости

Актуальные темы

Архив