Главная

На сколько Ollama готова для Production?

2025-03-23 в 18:53, admin, рубрики: gguf, gpt, huggingface, javascript, llama, llm, Ollama, python, TypeScript, yandexgpt

Некоторое время назад я был в восторге от Ollama: простое скачивание моделей одной консольной командой, наличие SDK для NodeJS и Python, OpenAI-подобное API. Однако, так как отрасль рынка активно развивается, инструмент с каждым днем становится менее конкурентноспособным

Проблемы Ollama

Пункты ниже заставят вас задуматься рассмотреть другой инструмент запуска GGUF, например: LMStudio, LocalAI, KoboldCPP, vLLM или llama-server

Модели-шизофреники c тысячами загрузок

https://ollama.com/hengwen/watt-tool-8B

_{В рейтинге}_{Berkeley Function-Calling Leaderboard}_модель_{watt-ai/watt-tool}_{это топ по вызову инструментов, который обходит даже OpenAI. Что залито в репо Ollama не понятно, не вывозит даже слова "Привет", одну тысячу человек развели на 5ГБ трафика. К слову, генерация зациклилась: модель будет нести бред до посинения, пока вы сами не нажмете Ctrl + C}

Три релиза подряд Gemma3 падает из-за нестабильного планировщика памяти

Fixed issues where gemma3 would crash with "out of memory (OOM)" errors by improving memory estimation

_{Для пользователей мобильного интернета, крайне неудобная особенность: чтобы оперативно запустить поддержку Gemma, Ollama три недели подряд заливала спамящие нестабильные релизы. Каждый релиз весит от 600МБ до 1ГБ}
Поддержка инструментов всеми моделями библиотеки Ollama нестабильна

Если в модели не работают tool calling - это ваша проблема

_{У Ollama свой язык для объявления system prompt для моделей:}_Modelfile_{. На текущий момент он не стабилен. Как следствие,}_{у моделей nemotron-mini и qwen2}_{шилдик tools есть, а инструменты не работают. Там, где после патча Modelfile инструменты таки заработали,}_{они работают раз от раза}
Открытый обман в официальных заявлениях

Посмотрите внимательно на архитектуру модели

_{В репо Ollama есть}_Deepseek-R1_{. Однако, это вовсе не DeepSeek, а обычная LLama 3.1, обученная на его дистиляции. Была использована}_{эта модель из HuggingFace}_{. Как следствие, если запрос на русском к модели содержит англицизм, например,}_{Расскажи мне о work-life balance для программистов при выгорании}_{, модель}_{частично пишет ответ на русском, частично на английском}
Некорректные Modelfile, которые пишет сама Ollama

Перечисление списка инструментов через python скрипт в Modelfile просто не работает. Совсем.

_{Некоторое время назад попытался скачать}_CommandR_{из репо Ollama.}_{Модель весит 19ГБ}_{, со слов производителя, специально заточена под вызов инструментов. На момент публикации Modelfile не умел давать модели список инструментов, в итоге}_{CommandR не командует(}_{. Новые модели вообще публикуют без поддержки tool calls вовсе}