Рубрика «HighFlyer»

Работу у AI отобрал другой AI )

Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других.

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества? - 1

Полистав Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js