Рубрика «github copilot»

Краткий обзор LLM бенчмарков - 1

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.
Читать полностью »

Очередной дайджест новостей из мира технологий — интересных, забавных и субъективно важных. Продолжаются разговоры о блокировке Discord, снова и снова обсуждают плюсы (но в основном минусы) новых гаджетов от Apple, в СМИ и телеграм-каналах сохраняются волнения вокруг сервисов Google. Но пока, тьфу-тьфу, хороших новостей всё-таки больше, чем плохих. Так что в подборке этой недели только оптимизм и никакой грусти. Поехали.

Читать полностью »

Исследовательская работа утверждает, что использование инструментов с искусственным интеллектом помогает разработчикам выполнять на 26,08 % больше задач.

На тысячах разработчиков из Microsoft, Accenture и некой анонимной компании проводили эксперимент: примерно половине сотрудников выдали доступ к Copilot, а другим пользоваться инструментом не разрешали. Сравнение данных двух групп говорит о положительном эффекте от написания кода с помощью искусственного интеллекта.

Читать полностью »

Самое сложное в ПО — не кодинг, а требования, или Почему разработчикам не стоит бояться ИИ - 1


Из-за всех этих статей о том, насколько потрясающ прогресс ИИ, у многих возникло отчаяние в связи с возможностью скорой замены разработчиков ПО искусственным интеллектом. Люди представляют, что руководители и исследователи продуктов передадут всю работу по созданию ПО искусственному интеллекту. Так как я уже пятнадцать лет пишу ПО по спецификациям, созданным этими людьми, то не могу воспринимать серьёзно подобное беспокойство.

Кодинг может быть сложным, но мне никогда не требовалось больше двух недель, чтобы разобраться с проблемами в коде. Если освоить синтаксис, логику и методики, то процесс оказывается довольно прямолинейным. Настоящие проблемы обычно связаны с тем, что ПО должно делать. Самое сложное в создании ПО — не написание кода, а создание требований, а требования к ПО по-прежнему определяют люди.

В этой статье я расскажу о связи между требованиями и ПО, а также о том, что необходимо ИИ для создания хороших результатов.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js