Главная

Рубрика «gguf»

Русскоязычные LLM для вызова инструментов, переводов и финансовой аналитики

2025-06-20 в 17:08, admin, рубрики: agents, AI, gguf, grok, javascript, llm, OpenAI, python, TensorFlow, TypeScript

Предыдущая статья с подборкой моделей для русского

Читать полностью »

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

2025-06-18 в 7:44, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek r1-0528, gguf, llama.cpp, llm, llm-модели, local ai, кодогенерация

Введение

После сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.
Читать полностью »

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

2025-06-09 в 14:21, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek v3, EPYC, gguf, huggingface, llama.cpp, llm, local ai

Зачем?

У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.

Где?

Читать полностью »

На сколько Ollama готова для Production?

2025-03-23 в 18:53, admin, рубрики: gguf, gpt, huggingface, javascript, llama, llm, Ollama, python, TypeScript, yandexgpt

Некоторое время назад я был в восторге от Ollama: простое скачивание моделей одной консольной командой, наличие SDK для NodeJS и Python, OpenAI-подобное API. Однако, так как отрасль рынка активно развивается, инструмент с каждым днем становится менее конкурентноспособным

Проблемы Ollama

Пункты ниже заставят вас задуматься рассмотреть другой инструмент запуска GGUF, например: LMStudio, LocalAI, KoboldCPP, vLLM или llama-server

Модели-шизофреники c тысячами загрузок

Читать полностью »

Распределённый инференс llama.cpp через RPC

2024-09-14 в 16:07, admin, рубрики: api, docker, dockerhub, embedding, gguf, llama.cpp, RPC

Приветствую!

Идея создания данной публикации крутилась с моей голове уже давно, дело в том, что одно из моих хобби связанно с распределёнными вычислениями, а другое хобби связанно с нейросетями и мне давно не давала покоя идея запустить инференс LLM на нескольких компьютерах, но так чтобы все они выполняли работу над одно и той же моделью параллельно.

Погуглив некоторое время узнал, что проект LocalAI уже относительно давно поддерживает такую возможность, недолго думая я раскатал на нескольких компьютерах данный проект, после чего выполнил все необходимые Читать полностью »