Рубрика «llm»

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись. 

Что такое Data Quality

Читать полностью »

С детства я люблю компьютерные игры: хоть сейчас у меня и другие приоритеты, но иногда люблю зайти в старую добрую классику (недавно добил 100% прохождение GTA San Andreas, прошел классическую серию Serious Sam). Мой папа же — не особо любил подобные игры, ему больше нравился минимализм: шашки, тетрис и прочие 2d игры-головоломки. (До Зумы кстати не добрался, надо бы дать ему попробовать! ремарка)

Одна из таких игр — была незамысловатая игра жанра маджонг в сеттинге Покемонов: в ней нужно находить пары одинаковых карт, чтобы путь между ними был свободен и имел максимум 2 изменения траектории.

Читать полностью »

Сравнение бенчмарков LLM для разработки программного обеспечения - 1

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

Серия публикаций о бенчмаркинге LLM

Прочтите все остальные статьи из серии Symflower об оценке LLM и ознакомьтесь с нашим последним подробным обзором Читать полностью »

Предыстория

В свете последних новостей о сокращениях в IT-индустрии вопрос поиска работы встает все более остро даже для людей, которые в данный момент трудоустроены. Встал он и для меня, так как хоть на данный момент с работой у меня все в порядке, но начали появляться звоночки, намекающие на возможную необходимость ее смены в ближайшее время.

Читать полностью »

Главные проблемы БЯМ (Больших языковых моделей):

  • Решение сложных логических проблем (Поиск неявно заданной информации)

  • Безопасность (Противодействие взломам и этичность поведения)

  • Галлюцинации (Генерация новой информации, которая не соответствует действительности)

Читать полностью »

Привет! Меня зовут Алла, я работаю младшим исследователем в команде Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI и занимаюсь ресерчем на пересечений графов знаний и языковых моделей. Потребность в таких изысканиях понятна любому, кто пытался добиться от ChatGPT точного ответа на конкретный вопрос: подобрать литературу для курсовой, вспомнить название фильма по описанию и тому подобное. Очень часто модель начинает галлюцинировать и выдумывать факты, которых не существует.

Читать полностью »

Салют! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Спойлеры к GigaChat Vision

Работая с прикладными задачами для больших языковых моделей (LLM), постепенно понимаешь, что большинство задач сводятся к двум основным целям:

  1. Структурирование неструктурированных данных: преобразование массивов текстов в структурированный формат, по которому можно будет проводить поиск.

  2. Преобразование пользовательских запросов: превращение неструктурированных запросов пользователя в структурированный формат, чтобы можно было искать в подготовленных данных.

Читать полностью »

Интернет тонет в спаме - 1
Спам в каталоге пакетов npm

Интернет уже не тот, что в 90-е. Тогда мы искали интересные сайты по тематическим каталогам Yahoo и Рамблера. Поисковых систем не существовало до появления AltaVista. Даже мысли не было создавать мусорные сайты для прокрутки рекламы, продажи ненужных товаров или обмана людей. Коммерция ещё не пришла в интернет.

Сейчас совсем другое дело. Почти никто уже не воспринимает интернет как технологическое чудо и научный инструмент. Для мошенников это просто ещё один способ обмануть окружающих. Когда знакомый бизнесмен в начале 2000-х узнал про существование электронной почты, его первый вопрос был — как разослать тысячи писем со своей рекламой? Факт аморальности рассылки спама его совершенно не смутил на фоне потенциальной прибыли. У коммерсантов просто другая система ценностей.

И не только электронная почта. То же самое с сайтами, блогами и остальным UGC: сегодня всё генерируется автоматически для поисковой оптимизации, облапошивания простых людей и выманивания денег любым путём.

Иногда кажется, что в интернете осталось только 5% полезного контента — и 95% спама.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js