Рубрика «перевод» - 2

Недавно у меня появилась возможность прочитать книгу Себастьяна Рашки «Строим LLM с нуля», и, начав читать, я просто не мог её отложить.

Читать полностью »

← Предыдущая глава | 

В чём секрет успеха трансформеров?

В последние годы трансформеры стали самой успешной архитектурой нейронных сетей, особенно в задачах обработки естественного языка. Теперь они близки к тому, чтобы стать SOTA для задач компьютерного зрения тоже. Успех трансформеров обусловлен несколькими ключевыми факторами: их механизм внимания, возможность легкой параллелизации, предварительное обучение без учителя и большое количество параметров.

Механизм внимания

Читать полностью »

Как и большинство серьёзных спикеров в IT, я внимательно слежу за тем, какую роль могут сыграть в разработке ПО системы генеративного искусственного интеллекта. Думаю, возникновение больших языковых моделей (LLM) повлияет на разработку ПО примерно в той же степени, что и переход с ассемблера на первые высокоуровневые языки программирования. Чем дальше развиваются языки и фреймворки, тем сильнее абстрагируется наш код и, соответственно, возрастает продуктивность, но такие изменения пока не касаются самой природыЧитать полностью »

Примечание переводчика. Тема LangOps почти не освещена в русскоязычном интернете, поэтому я перевёл и публикую этот базовый гайд от Arthur Wetzel, CEO LangOps Institute. Оригинальная публикация вышла в закрытом сообществе LangOps Pros, перевод размещается с разрешения автора.

Читать полностью »

Примечание переводчика. Тема LangOps почти не освещена в русскоязычном интернете, поэтому я перевёл и публикую этот базовый гайд от Arthur Wetzel, CEO LangOps Institute. Оригинальная публикация вышла в закрытом сообществе LangOps Pros, перевод размещается с разрешения автора.

Читать полностью »

← Предыдущая глава | 

Какие существуют подходы к обучению на нескольких GPU и в чем их сильные и слабые стороны?

Подходы к обучению на нескольких GPU можно разделить на две группы: разделение данных для параллельной обработки несколькими GPU и разделение модели по нескольким GPU для преодоления ограничений памяти, когда размер модели превышает возможности одной видеокарты. Параллелизм данных попадает в первую категорию, в то время как тензорный параллелизм и параллелизм моделей попадают во вторую. Такие подходы как Читать полностью »

Дэвид Миллер — профессор компьютерных наук в Саутгемптонском университете (Великобритания), работает в группе веб‑технологий. Его исследования связаны с гипертекстом, но в настоящее время большое внимание уделяет интерактивным повествованиям.

Оригинальная статья

Начнём с главного: The Witcher 3 — это поразительно хорошая игра. Весёлая, увлекательная, огромная и достойная практически всех возможных хвалебных эпитетов, пока вы не «передозируетесь» комплиментами и не потянетесь за Белым Мёдом. Это действительно отличная игра.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js