LLM-провайдеры и модели

Как подключить OpenAI-совместимого провайдера, выбрать модель, embedding, разобраться в лимитах.

Провайдер — сервер, отвечающий на запросы к LLM. Модель — конкретный «мозг» на этом сервере. Чтобы агент заработал, нужен хотя бы один подключённый провайдер с хотя бы одной моделью. Это первое, что вы настраиваете после создания воркспейса.

Что такое LLM (простыми словами)

LLM (Large Language Model, большая языковая модель) — нейросеть, обученная на огромном объёме текста. Умеет:

понимать вопрос в любой формулировке;
генерировать связный ответ;
рассуждать шаг за шагом;
выполнять инструкции из системного промпта;
вызывать функции (инструменты) по описанию.

Знакомые названия: GPT от OpenAI, Claude от Anthropic, Llama от Meta, Qwen от Alibaba, Mistral, DeepSeek, Gemini от Google.

Почему это критично для бота

Без LLM агент не работает. Это основной компонент.
Качество LLM напрямую влияет на качество бота. Разные модели по-разному следуют инструкциям, по-разному «галлюцинируют», по-разному обрабатывают длинные контексты.
Стоимость LLM — главная статья операционных расходов бота после голоса.

Три способа взять модели

Платите по токенам. Ноль инфраструктуры с вашей стороны.

Преимущества:

Старт за 10 минут: зарегистрировались → получили ключ → подключили.
Всегда актуальные модели: обновления катятся без вашего участия.
Предсказуемая цена — оплачиваете только реальное потребление.
Нет забот про железо, сервера, обновления, масштабирование.

Недостатки:

Ваши данные идут на серверы провайдера (важно для compliance).
Зависимость от uptime провайдера (хотя у топов он 99.9%+).
Цена может кусаться на больших объёмах (100M+ токенов/мес).

Кого выбрать:

OpenAI — надёжный стандарт. GPT-4o, GPT-4o-mini, o1, o3. Хорошо работает с русским. Быстрый. Дорогой для top-tier, дешёвый для mini.
Anthropic Claude — через прокси (OpenRouter). Лучше следует инструкциям, меньше галлюцинаций, мягче тон. Любимец для консультативных ботов.
OpenRouter — шлюз к 300+ моделям одним ключом. Удобно для экспериментов с разными моделями.
DeepSeek — дешевле OpenAI в 5-10 раз. Качество достойное, но для русского уступает.
Together, Fireworks, Groq — хостинги open-source моделей (Llama, Qwen, Mistral). Быстрее OpenAI, часто дешевле.

Полный контроль, нулевой внешний трафик. Нужны GPU.

Преимущества:

Данные не покидают вашу инфру (критично для банков, медицины, госсектора).
Фиксированная стоимость (за сервер) независимо от объёма.
Можно дообучить (fine-tune) модель на ваших данных.
Нет rate limits от внешних провайдеров.

Недостатки:

Нужны инженеры уровня DevOps + ML.
Железо стоит денег ($10K+ за карту H100, есть альтернативы попроще).
Обновления моделей — на вас.
Недостаточная нагрузка → GPU простаивает, вы платите за зря.

Стек:

vLLM — быстрый inference-сервер для production. Основной выбор. Держит тысячи одновременных пользователей на одной карте.
Ollama — проще vLLM, подходит для dev и малых нагрузок (до ~100 req/min). Удобно для внутренних ассистентов.
TGI от HuggingFace — стабильная альтернатива vLLM от создателей самих HuggingFace-моделей.
LM Studio — GUI для локальной разработки (не для production).

Требования к железу:

Llama 8B / Qwen 7B: 24 ГБ VRAM (RTX 3090, A10).
Llama 70B / Qwen 72B: 80 ГБ VRAM (A100, H100) или 2× 40 ГБ с tensor parallelism.
Для production-нагрузки (1000+ req/min): 2-4 карты H100.

Самый прагматичный подход для среднего и крупного бизнеса.

Суть: разные провайдеры для разных задач. Например:

Обычные чаты → cheap cloud (GPT-4o-mini).
Чувствительные темы (жалобы, жалобы с PII) → self-hosted Llama.
Сложные аналитические задачи → Claude Sonnet.
Fallback при недоступности основного → второй провайдер.

Платформа держит все три одновременно. У каждого агента — свой выбранный провайдер. Переключение — одним кликом, без пересборки.

Экономия: на типичной нагрузке гибридный подход снижает LLM-бюджет на 30-60% при том же или лучшем качестве.

Главное требование: OpenAI-совместимый API

Платформа поддерживает любой LLM, у которого есть OpenAI-совместимый эндпоинт. Это индустриальный стандарт — его держат почти все современные провайдеры.

Технически: сервер принимает POST /v1/chat/completions с JSON-телом в формате OpenAI (поля messages, model, temperature, max_tokens, tools, …). Ответ — тоже в OpenAI-формате.

Кто совместим из коробки

OpenAI (эталон).
OpenRouter — шлюз, сам говорит в OpenAI-формате.
DeepSeek, Together, Fireworks, Groq — все на OpenAI API.
vLLM, Ollama, TGI, LM Studio — используют OpenAI-совместимый endpoint.
Большинство корпоративных LLM-шлюзов (Portkey, LiteLLM, Kong).

Кто НЕ совместим напрямую

Anthropic Claude — свой формат (messages API с блоками).
Google Gemini — свой формат (generateContent).
Cohere — свой формат.

Решение: используйте прокси — OpenRouter, Portkey, LiteLLM. Они переводят ваши OpenAI-запросы в формат нужного провайдера. Стоимость прокси — около 1-2% сверху, что намного дешевле, чем делать свою интеграцию.

Подключение провайдера

Настройки → Модели и API → «Добавить»

В сайдбаре слева → раздел Настройки → вкладка Модели и API → кнопка Добавить провайдер.

Выберите тип провайдера

Универсальный выбор. Работает со всеми: сам OpenAI, DeepSeek, Together, vLLM, TGI, LM Studio, корпоративные шлюзы.

Нужно будет ввести Base URL и API-ключ.

Если хотите единую точку к десяткам моделей. Один ключ → 300+ моделей. Удобно для экспериментов и гибридных стратегий.

Подробная инструкция в их документации.

Для self-hosted локального запуска. Ключ не требуется — подключается по URL.

Популярный выбор для dev и PoC. Для production лучше vLLM.

Заполните поля

Название — как вам удобно называть провайдера в админке («Основной GPT», «Локальный Qwen», «Резервный DeepSeek»).
Base URL — адрес API-сервера провайдера.
API-ключ — ключ от провайдера (для Ollama — пустой).
Макс. токенов — верхний лимит контекстного окна. Для современных моделей — 128000 (OpenAI, Llama) или 200000 (Claude). Не экономьте — это лимит, а не квота.

Сохранить

Провайдер появится в списке.

Проверить соединение

Кнопка «Проверить соединение» в карточке провайдера → платформа дёрнет /v1/models → покажет результат и задержку. Если зелёный — всё готово.

Примеры Base URL

Часто спрашиваемые:

https://api.openai.com/v1

https://openrouter.ai/api/v1

http://vllm.internal:8000/v1

(замените на адрес вашего сервера vLLM)

http://localhost:11434/v1

(или адрес удалённого Ollama-сервера)

https://api.deepseek.com/v1

https://api.together.xyz/v1

Выбор модели

Модель выбирается на уровне агента, не на уровне провайдера. Один провайдер может отдавать десятки моделей, каждый агент использует свою.

Table of tiers — когда что брать

Класс	Примеры	Цена	Кейсы
Nano	GPT-4o-mini, Claude Haiku, Qwen 7B	$0.15–0.5 / 1M	FAQ, простые ответы, высокий объём
Mid	GPT-4o, Claude Sonnet, Qwen 72B, Llama 70B	$3–15 / 1M	Основной рабочий класс, ~80% кейсов
Pro	Claude Opus, o1, DeepSeek-R1	$15–60 / 1M	Сложные рассуждения, юр/мед, код

Более детальный гайд

Decision flow

Это клиентский бот?

Да → важнее качество, берите Mid-класс (GPT-4o, Sonnet).
Нет (внутренний) → можно Nano + экономить.

Данные чувствительные?

Да → self-hosted (Llama 70B, Qwen 72B).
Нет → облако.

Какой объём?

<10K диалогов/мес → любая модель, не влияет на бюджет.
10-100K → смотрим цену токена, берём Mid.
>100K → считаем экономику, гибридный подход (mini для простых, Mid для сложных).

Насколько сложная задача?

FAQ → Nano достаточно.
Консультация → Mid обязательно.
Юр-анализ / мед-советы → Pro, или даже reasoning-модели (o1, R1).

На старте — GPT-4o-mini

Закроет 80% кейсов. Через 2 недели замеров увидите, надо ли повышать/понижать.

Embedding-модели

Отдельный класс моделей. Не генерируют текст, превращают текст в вектор (список чисел). Нужны для базы знаний — поиск похожих документов по смыслу.

Задаются в Настройки → Модели → Провайдер эмбеддингов (отдельная секция от основных LLM).

Почему важна embedding-модель

Качество поиска в RAG напрямую зависит от embedding-модели. Плохой embedding → агент не находит нужные документы → отвечает неправильно → клиент недоволен.

Правило: embedding должен соответствовать языку и доменy ваших документов.

Русский бизнес → bge-m3 (оптимум по качеству/цене).
Английский бизнес → text-embedding-3-small или large.
Специфичный домен (медицина, юриспруденция) → специализированные модели от HuggingFace.

Поменяли embedding-модель → надо переиндексировать всю базу. Векторы разных моделей несовместимы — точки, созданные одной моделью, не находят совпадений с точками другой. Платформа предупредит, но сам процесс долгий (от 10 минут до часов в зависимости от объёма).

Default провайдер

Один из провайдеров в воркспейсе помечается как default. Его используют:

Новые агенты, где не указан конкретный провайдер.
Внутренние процессы платформы (суммаризация, классификация намерений).

Галочка «Провайдер по умолчанию» в карточке провайдера.

Поменяли default на более слабую модель? Все агенты, использующие «default» (а не конкретный выбор) начнут отвечать хуже. Лучше явно указывать модель на каждом агенте.

Контекстное окно

У каждой модели лимит токенов в одном запросе. Это контекстное окно — сколько модель может «видеть» за раз.

Модель	Макс. токенов	Эквивалент
GPT-3.5	16 000	~12 000 слов
GPT-4o / GPT-4o-mini	128 000	~95 000 слов
Claude Sonnet / Opus	200 000	~150 000 слов
Gemini 1.5 Pro	1 000 000 – 2 000 000	огромный роман

Что в контекст входит:

Системный промпт (~500-1000 токенов).
История разговора (все реплики клиента и бота).
Результаты RAG-поиска (найденные чанки из базы знаний).
Описания всех доступных MCP-инструментов.
Ваш новый запрос.

Поле «Макс. токенов» в настройках провайдера — верхний лимит, платформа не отправит больше. Ставьте равным реальному окну модели или немного ниже.

Когда контекст критичен

Длинные диалоги (50+ реплик) — маленькое окно → модель «забудет» начало разговора.
Большая база знаний — если агент цитирует много документов, найденные чанки занимают место.
Много MCP-инструментов — описание каждого ест ~200-500 токенов.

Правило большого пальца: если у агента <10 инструментов и нормальная база знаний, 128K хватает с запасом. Для экстремальных кейсов — 200K+.

Здоровье провайдера

Платформа каждые 30 секунд дёргает /models у всех подключённых провайдеров. Показывает индикатор:

🟢 Зелёный — провайдер отвечает быстро (<1 сек), всё ОК.
🟡 Жёлтый — задержка выше порога (>3 сек). Работает, но медленно.
🔴 Красный — провайдер не отвечает или ключ невалидный.

В карточке провайдера — график задержки за последние 24 часа.

LLM-провайдеры и модели

GPT-4o-mini — рабочая лошадка для чатов

Claude Haiku — альтернатива GPT-4o-mini

GPT-4o — топ для клиентских ботов

Claude Sonnet — альтернатива GPT-4o

Llama 70B / Qwen 72B — open-source флагманы

DeepSeek-R1 — дешёвый reasoning

422 Unprocessable Entity на /models

401 Unauthorized

CORS error (только для self-hosted)

Модель отвечает странно / на другом языке

Модель игнорирует мои инструкции в промпте

Дико дорого за месяц

Голос →

База знаний →

On this page