Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):
Рубрика «dataScience»
Как мы сделали систему для спасения интернета от токсичности
2024-10-25 в 20:25, admin, рубрики: AI, dataScience, deeplearning, llm, nlpКак в 180 000 раз ускорить анализ данных с помощью Rust
2023-10-27 в 13:00, admin, рубрики: dataScience, python, Rust, ruvds_перевод, анализ данных, повышение производительностиВ этой статье я опишу одно из последних своих дерзновений в сфере оптимизации производительности с помощью Rust. Надеюсь, что в ней вы откроете для себя какие-то новые приёмы для написания быстрого кода на Rust. Читать полностью »
Третья жизнь пет-проекта по распознаванию рукописных цифр
2022-12-23 в 11:23, admin, рубрики: dataScience, detection, huggingface, machinelearning, open source, pet, streamlit, yolo, Блог компании Open Data Science, искусственный интеллект, машинное обучение, обработка изображенийВ этом блогпосте я поделюсь историей о том, как я обновлял свой старенький пет-проект по распознаванию цифр, как делал разметку для него, и почему модель предсказывает 12 классов, хотя цифр всего 10.
Вступление
Распространение сферического коня в вакууме по территории РФ
2020-03-30 в 8:29, admin, рубрики: data mining, dataScience, ods, open source, python, Блог компании Open Data Science, визуализация, Здоровье гика
Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом.
Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей:
- любое моделирование — это очень сложный процесс, внутри которого невероятное количество ЕСЛИ и ПРЕДПОЛОЖИМ. Мы о них расскажем.
- те, кто работал над этой статьей — не эпидемиологи или вирусологи. Мы просто группа любителей теории графов, практикующих методы моделирования сложных систем. Забавно, но именно в биоинформатике сейчас происходит наиболее существенный прогресс этой узкой области математики. Поэтому мы пониманием язык биологов, хоть и не умеем правильно обосновывать эпидемиологические модели и делать медицинские заключения.
- наша симуляция всего лишь распространение сферического коня в вакууме по территории РФ. Не стоит относиться к этому серьезно, но стоит задуматься об общей картине. Она определенно интересная.
- эта статья не существовала бы без датасета tutu.ru, за что им огромное спасибо.
- мы хотим пригласить других заинтересованных исследователей в ODS.ai и под инициативой ML for Social Good (канал #ml4sg в ODS) вместе улучшать эту модель, чтобы получить опыт и возможность применять ее в будущем. Все интересные задачи, которые мы еще не решили, будут помечены в статье как TODO.
Под катом — результаты нашего марш-броска на датасет.
Как стать датасайнтистом, если тебе за 40 и ты не программист
2018-10-24 в 11:01, admin, рубрики: coursera, data mining, data scientist, dataScience, kaggle, machine learning, ods, open data science, Блог компании QIWI, карьера, Карьера в IT-индустрии, Курсера, кэггл, машинное обучение, развитие, саморазвитие, учеба, Учебный процесс в ITБытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.
Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.
Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.
Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.
Итак, обо всем по порядку.
Читать полностью »
Исследование датасета с IMDB
2016-12-23 в 14:40, admin, рубрики: data mining, dataScience, dataVisualisation, imdb, python, визуализация данных, метки: dataScience, dataVisualisation
Проблематика
Фильмы — это круто, фильмы вдохновляют нас, наполняют уверенностью, в общем дают нам многое. И поэтому в этой статье я бы хотел рассказать вам об исследовании тенденций современного кинематографа с помощью инструментов анализа данных, который уже был презентован в финале Science Slam ITMO University 2.0. Полный выпуск доступен здесь.
Читать полностью »