Рубрика «аугментация данных»
«А можно быстрее?»: разбираем методы ускорения обучения нейронных сетей
2024-09-05 в 10:15, admin, рубрики: TensorFlow, аугментация данных, глубокие нейросети, обучение нейросетей, оптимизация обучения нейросетей, подбор гиперпараметров, ускорить обучение нейросетейСовременные нейросетевые архитектуры достигают впечатляющих результатов в сложных задачах ИИ благодаря росту объемов данных и вычислительных мощностей. Однако обратной стороной медали стала высокая ресурсоемкость обучения.
Например, последняя версия GPT-4 от OpenAI обучалась на большом GPU-кластере. Читать полностью »
Создание искусственного датасета для обучения модели с использованием Paddle OCR
2024-08-29 в 4:00, admin, рубрики: paddleocr, tesseract, аугментация данных, искусственный интеллект, Компьютерное зрение, распознавание текстаПривет, коллеги! Продолжаем тему разработки плагина для распознавания иврита с использованием Paddle OCR. В прошлый раз я забыла представиться, сделаю это в этом посте)
Меня зовут Алексей, я руковожу компанией, которая занимается разработкой с применением ИИ-технологий. Сам я тоже погружен в разработку, но больше доверяю это своей команде – нам удалось собрать команду классных профи. Истории из нашей совместной работы я и планирую рассказывать в своем блоге.
Играем в Mortal Kombat с помощью TensorFlow.js
2018-10-28 в 18:11, admin, рубрики: cnn, imgaug, javascript, LSTM, MK.js, MobileNet, mortal kombat, TensorFlow, VGG-16, аугментация данных, машинное обучение, обработка изображений, разработка игрЭкспериментируя с улучшениями для модели прогнозирования Guess.js, я стал присматриваться к глубокому обучению: к рекуррентным нейронным сетям (RNN), в частности, LSTM из-за их «необоснованной эффективности» в той области, где работает Guess.js. В то же время я начал играться с свёрточными нейросетями (CNN), которые тоже часто используются для временных рядов. CNN обычно используют для классификации, распознавания и обнаружения изображений.
Управление MK.js с помощью TensorFlow.js
Исходный код для этой статьи и МК.js лежат у меня на GitHub. Я не выложил набор данных для обучения, но можете собрать свои собственные и обучить модель, как описано ниже!
Спортивный анализ данных, или как стать специалистом по data science
2017-04-26 в 14:05, admin, рубрики: adam, big data, black box, data mining, data science, ImageNet, inceptionV3, kaggle, mxnet, Q-learning, resnet, xgboost, аугментация данных, блендинг, Блог компании Яндекс, валидация, классификация, конкурсы разработчиков, контест, машинное обучение, нейронные сети, распознавание изображений, Спортивное программирование, стекинг, тренировки, черный ящикМеня зовут Пётр Ромов, я — data scientist в Yandex Data Factory. В этом посте я предложу сравнительно простой и надежный способ начать карьеру аналитика данных.
Многие из вас наверняка знают или хотя бы слышали про Kaggle. Для тех, кто не слышал: Kaggle — это площадка, на которой компании проводят конкурсы по созданию прогнозирующих моделей. Её популярность столь велика, что часто под «кэглами» специалисты понимают сами конкурсы. Победитель каждого соревнования определяется автоматически — по метрике, которую назначил организатор. Среди прочих, Kaggle в разное время опробовали Facebook, Microsoft и нынешний владелец — Google. Яндекс тоже несколько раз отметился. Как правило, Kaggle-сообществу дают решать задачи, довольно близкие к реальным: это, с одной стороны, делает конкурс интересным, а с другой — продвигает компанию как работодателя с солидными задачами. Впрочем, если вам скажут, что компания-организатор конкурса задействовала в своём сервисе алгоритм одного из победителей, — не верьте. Обычно решения из топа слишком сложны и недостаточно производительны, а погони за тысячными долями значения метрики не настолько и нужны на практике. Поэтому организаторов больше интересуют подходы и идейная часть алгоритмов.
Kaggle — не единственная площадка с соревнованиями по анализу данных. Существуют и другие: DrivenData, DataScience.net, CodaLab. Кроме того, конкурсы проводятся в рамках научных конференций, связанных с машинным обучением: SIGKDD, RecSys, CIKM.
Для успешного решения нужно, с одной стороны, изучить теорию, а с другой — начать практиковать использование различных подходов и моделей. Другими словами, участие в «кэглах» вполне способно сделать из вас аналитика данных. Вопрос — как научиться в них участвовать?