AGONTS

LLM-провайдеры и модели

Как подключить OpenAI-совместимого провайдера, выбрать модель, embedding, разобраться в лимитах.

Провайдер — сервер, отвечающий на запросы к LLM. Модель — конкретный «мозг» на этом сервере. Чтобы агент заработал, нужен хотя бы один подключённый провайдер с хотя бы одной моделью. Это первое, что вы настраиваете после создания воркспейса.

Что такое LLM (простыми словами)

LLM (Large Language Model, большая языковая модель) — нейросеть, обученная на огромном объёме текста. Умеет:

  • понимать вопрос в любой формулировке;
  • генерировать связный ответ;
  • рассуждать шаг за шагом;
  • выполнять инструкции из системного промпта;
  • вызывать функции (инструменты) по описанию.

Знакомые названия: GPT от OpenAI, Claude от Anthropic, Llama от Meta, Qwen от Alibaba, Mistral, DeepSeek, Gemini от Google.

Почему это критично для бота

  • Без LLM агент не работает. Это основной компонент.
  • Качество LLM напрямую влияет на качество бота. Разные модели по-разному следуют инструкциям, по-разному «галлюцинируют», по-разному обрабатывают длинные контексты.
  • Стоимость LLM — главная статья операционных расходов бота после голоса.

Три способа взять модели

Платите по токенам. Ноль инфраструктуры с вашей стороны.

Преимущества:

  • Старт за 10 минут: зарегистрировались → получили ключ → подключили.
  • Всегда актуальные модели: обновления катятся без вашего участия.
  • Предсказуемая цена — оплачиваете только реальное потребление.
  • Нет забот про железо, сервера, обновления, масштабирование.

Недостатки:

  • Ваши данные идут на серверы провайдера (важно для compliance).
  • Зависимость от uptime провайдера (хотя у топов он 99.9%+).
  • Цена может кусаться на больших объёмах (100M+ токенов/мес).

Кого выбрать:

  • OpenAI — надёжный стандарт. GPT-4o, GPT-4o-mini, o1, o3. Хорошо работает с русским. Быстрый. Дорогой для top-tier, дешёвый для mini.
  • Anthropic Claude — через прокси (OpenRouter). Лучше следует инструкциям, меньше галлюцинаций, мягче тон. Любимец для консультативных ботов.
  • OpenRouter — шлюз к 300+ моделям одним ключом. Удобно для экспериментов с разными моделями.
  • DeepSeek — дешевле OpenAI в 5-10 раз. Качество достойное, но для русского уступает.
  • Together, Fireworks, Groq — хостинги open-source моделей (Llama, Qwen, Mistral). Быстрее OpenAI, часто дешевле.

Полный контроль, нулевой внешний трафик. Нужны GPU.

Преимущества:

  • Данные не покидают вашу инфру (критично для банков, медицины, госсектора).
  • Фиксированная стоимость (за сервер) независимо от объёма.
  • Можно дообучить (fine-tune) модель на ваших данных.
  • Нет rate limits от внешних провайдеров.

Недостатки:

  • Нужны инженеры уровня DevOps + ML.
  • Железо стоит денег ($10K+ за карту H100, есть альтернативы попроще).
  • Обновления моделей — на вас.
  • Недостаточная нагрузка → GPU простаивает, вы платите за зря.

Стек:

  • vLLM — быстрый inference-сервер для production. Основной выбор. Держит тысячи одновременных пользователей на одной карте.
  • Ollama — проще vLLM, подходит для dev и малых нагрузок (до ~100 req/min). Удобно для внутренних ассистентов.
  • TGI от HuggingFace — стабильная альтернатива vLLM от создателей самих HuggingFace-моделей.
  • LM Studio — GUI для локальной разработки (не для production).

Требования к железу:

  • Llama 8B / Qwen 7B: 24 ГБ VRAM (RTX 3090, A10).
  • Llama 70B / Qwen 72B: 80 ГБ VRAM (A100, H100) или 2× 40 ГБ с tensor parallelism.
  • Для production-нагрузки (1000+ req/min): 2-4 карты H100.

Самый прагматичный подход для среднего и крупного бизнеса.

Суть: разные провайдеры для разных задач. Например:

  • Обычные чаты → cheap cloud (GPT-4o-mini).
  • Чувствительные темы (жалобы, жалобы с PII) → self-hosted Llama.
  • Сложные аналитические задачи → Claude Sonnet.
  • Fallback при недоступности основного → второй провайдер.

Платформа держит все три одновременно. У каждого агента — свой выбранный провайдер. Переключение — одним кликом, без пересборки.

Экономия: на типичной нагрузке гибридный подход снижает LLM-бюджет на 30-60% при том же или лучшем качестве.


Главное требование: OpenAI-совместимый API

Платформа поддерживает любой LLM, у которого есть OpenAI-совместимый эндпоинт. Это индустриальный стандарт — его держат почти все современные провайдеры.

Технически: сервер принимает POST /v1/chat/completions с JSON-телом в формате OpenAI (поля messages, model, temperature, max_tokens, tools, …). Ответ — тоже в OpenAI-формате.

Кто совместим из коробки

  • OpenAI (эталон).
  • OpenRouter — шлюз, сам говорит в OpenAI-формате.
  • DeepSeek, Together, Fireworks, Groq — все на OpenAI API.
  • vLLM, Ollama, TGI, LM Studio — используют OpenAI-совместимый endpoint.
  • Большинство корпоративных LLM-шлюзов (Portkey, LiteLLM, Kong).

Кто НЕ совместим напрямую

  • Anthropic Claude — свой формат (messages API с блоками).
  • Google Gemini — свой формат (generateContent).
  • Cohere — свой формат.

Решение: используйте прокси — OpenRouter, Portkey, LiteLLM. Они переводят ваши OpenAI-запросы в формат нужного провайдера. Стоимость прокси — около 1-2% сверху, что намного дешевле, чем делать свою интеграцию.


Подключение провайдера

Настройки → Модели и API → «Добавить»

В сайдбаре слева → раздел Настройки → вкладка Модели и API → кнопка Добавить провайдер.

Выберите тип провайдера

Универсальный выбор. Работает со всеми: сам OpenAI, DeepSeek, Together, vLLM, TGI, LM Studio, корпоративные шлюзы.

Нужно будет ввести Base URL и API-ключ.

Если хотите единую точку к десяткам моделей. Один ключ → 300+ моделей. Удобно для экспериментов и гибридных стратегий.

Подробная инструкция в их документации.

Для self-hosted локального запуска. Ключ не требуется — подключается по URL.

Популярный выбор для dev и PoC. Для production лучше vLLM.

Заполните поля

  • Название — как вам удобно называть провайдера в админке («Основной GPT», «Локальный Qwen», «Резервный DeepSeek»).
  • Base URL — адрес API-сервера провайдера.
  • API-ключ — ключ от провайдера (для Ollama — пустой).
  • Макс. токенов — верхний лимит контекстного окна. Для современных моделей — 128000 (OpenAI, Llama) или 200000 (Claude). Не экономьте — это лимит, а не квота.

Сохранить

Провайдер появится в списке.

Проверить соединение

Кнопка «Проверить соединение» в карточке провайдера → платформа дёрнет /v1/models → покажет результат и задержку. Если зелёный — всё готово.

Примеры Base URL

Часто спрашиваемые:

https://api.openai.com/v1
https://openrouter.ai/api/v1
http://vllm.internal:8000/v1

(замените на адрес вашего сервера vLLM)

http://localhost:11434/v1

(или адрес удалённого Ollama-сервера)

https://api.deepseek.com/v1
https://api.together.xyz/v1

Выбор модели

Модель выбирается на уровне агента, не на уровне провайдера. Один провайдер может отдавать десятки моделей, каждый агент использует свою.

Table of tiers — когда что брать

КлассПримерыЦенаКейсы
NanoGPT-4o-mini, Claude Haiku, Qwen 7B$0.15–0.5 / 1MFAQ, простые ответы, высокий объём
MidGPT-4o, Claude Sonnet, Qwen 72B, Llama 70B$3–15 / 1MОсновной рабочий класс, ~80% кейсов
ProClaude Opus, o1, DeepSeek-R1$15–60 / 1MСложные рассуждения, юр/мед, код

Более детальный гайд

Decision flow

Это клиентский бот?

  • Да → важнее качество, берите Mid-класс (GPT-4o, Sonnet).
  • Нет (внутренний) → можно Nano + экономить.

Данные чувствительные?

  • Да → self-hosted (Llama 70B, Qwen 72B).
  • Нет → облако.

Какой объём?

  • <10K диалогов/мес → любая модель, не влияет на бюджет.
  • 10-100K → смотрим цену токена, берём Mid.
  • >100K → считаем экономику, гибридный подход (mini для простых, Mid для сложных).

Насколько сложная задача?

  • FAQ → Nano достаточно.
  • Консультация → Mid обязательно.
  • Юр-анализ / мед-советы → Pro, или даже reasoning-модели (o1, R1).

На старте — GPT-4o-mini

Закроет 80% кейсов. Через 2 недели замеров увидите, надо ли повышать/понижать.


Embedding-модели

Отдельный класс моделей. Не генерируют текст, превращают текст в вектор (список чисел). Нужны для базы знаний — поиск похожих документов по смыслу.

Задаются в Настройки → Модели → Провайдер эмбеддингов (отдельная секция от основных LLM).

Популярные варианты

  • text-embedding-3-small (OpenAI) — дёшево, быстро, отлично для английского. Для русского — сносно, но лучше взять что-то специализированное.
  • text-embedding-3-large (OpenAI) — точнее, в 6× дороже. Оправдано, если у вас сотни тысяч документов и нужна максимальная точность.
  • bge-m3 (BAAI) — бесплатно, self-hosted, отлично для русского. Рекомендую для русскоязычных кейсов.
  • nomic-embed-text — универсальный self-hosted вариант, удобно гонять в Ollama.

Почему важна embedding-модель

Качество поиска в RAG напрямую зависит от embedding-модели. Плохой embedding → агент не находит нужные документы → отвечает неправильно → клиент недоволен.

Правило: embedding должен соответствовать языку и доменy ваших документов.

  • Русский бизнес → bge-m3 (оптимум по качеству/цене).
  • Английский бизнес → text-embedding-3-small или large.
  • Специфичный домен (медицина, юриспруденция) → специализированные модели от HuggingFace.

Поменяли embedding-модель → надо переиндексировать всю базу. Векторы разных моделей несовместимы — точки, созданные одной моделью, не находят совпадений с точками другой. Платформа предупредит, но сам процесс долгий (от 10 минут до часов в зависимости от объёма).


Default провайдер

Один из провайдеров в воркспейсе помечается как default. Его используют:

  • Новые агенты, где не указан конкретный провайдер.
  • Внутренние процессы платформы (суммаризация, классификация намерений).

Галочка «Провайдер по умолчанию» в карточке провайдера.

Поменяли default на более слабую модель? Все агенты, использующие «default» (а не конкретный выбор) начнут отвечать хуже. Лучше явно указывать модель на каждом агенте.


Контекстное окно

У каждой модели лимит токенов в одном запросе. Это контекстное окно — сколько модель может «видеть» за раз.

МодельМакс. токеновЭквивалент
GPT-3.516 000~12 000 слов
GPT-4o / GPT-4o-mini128 000~95 000 слов
Claude Sonnet / Opus200 000~150 000 слов
Gemini 1.5 Pro1 000 000 – 2 000 000огромный роман

Что в контекст входит:

  • Системный промпт (~500-1000 токенов).
  • История разговора (все реплики клиента и бота).
  • Результаты RAG-поиска (найденные чанки из базы знаний).
  • Описания всех доступных MCP-инструментов.
  • Ваш новый запрос.

Поле «Макс. токенов» в настройках провайдера — верхний лимит, платформа не отправит больше. Ставьте равным реальному окну модели или немного ниже.

Когда контекст критичен

  • Длинные диалоги (50+ реплик) — маленькое окно → модель «забудет» начало разговора.
  • Большая база знаний — если агент цитирует много документов, найденные чанки занимают место.
  • Много MCP-инструментов — описание каждого ест ~200-500 токенов.

Правило большого пальца: если у агента <10 инструментов и нормальная база знаний, 128K хватает с запасом. Для экстремальных кейсов — 200K+.


Здоровье провайдера

Платформа каждые 30 секунд дёргает /models у всех подключённых провайдеров. Показывает индикатор:

  • 🟢 Зелёный — провайдер отвечает быстро (<1 сек), всё ОК.
  • 🟡 Жёлтый — задержка выше порога (>3 сек). Работает, но медленно.
  • 🔴 Красный — провайдер не отвечает или ключ невалидный.

В карточке провайдера — график задержки за последние 24 часа.

Что делать если красный

Проверьте API-ключ

Истёк? Отозван? Попробуйте перевыпустить у провайдера.

Проверьте лимиты на стороне провайдера

Превысили дневной лимит? У OpenAI это частая причина.

Проверьте сеть

Попробуйте curl ${baseUrl}/models -H "Authorization: Bearer ${key}" с вашего сервера — проходит?

Self-hosted — проверьте процесс

vLLM / Ollama не упал? docker ps, логи, здоровье GPU.


Оптимизация расходов

LLM — главная статья операционных расходов. Способы экономить:

1. Короткие системные промпты

Каждый диалог начинается с отправки всего системного промпта. 500 токенов × 10 000 сессий × 30 дней = 150M токенов только на промпт.

Цифра: сокращение промпта с 500 до 200 токенов экономит ~60% на input-токенах.

2. Стриминг

Включайте streamResponses: true. Клиент видит ответ, пока модель пишет. Не экономит деньги, но улучшает UX → клиенты меньше перезапрашивают.

3. Маленькая модель где можно

Не используйте GPT-4o для простых FAQ. GPT-4o-mini в 20 раз дешевле — разница в качестве на простых вопросах незаметна.

4. Ограничьте maxTokens на агенте

Если не ограничено — LLM может написать «роман» на тысячу токенов на простой вопрос. Ограничьте до 500-1000 для чатов.

5. Кеш embedding

Embedding — самая дорогая часть индексации базы знаний. Но они переиспользуются на каждом поиске бесплатно. Не переиндексируйте регулярно «на всякий случай».

6. Fallback-модель

Настройте автоматический fallback: если GPT-4o не отвечает → перейти на Claude. Предотвращает потерю трафика в период проблем провайдера.


Частые ошибки


On this page

Что такое LLM (простыми словами)Почему это критично для ботаТри способа взять моделиГлавное требование: OpenAI-совместимый APIКто совместим из коробкиКто НЕ совместим напрямуюПодключение провайдераНастройки → Модели и API → «Добавить»Выберите тип провайдераЗаполните поляСохранитьПроверить соединениеПримеры Base URLВыбор моделиTable of tiers — когда что братьБолее детальный гайдDecision flowЭто клиентский бот?Данные чувствительные?Какой объём?Насколько сложная задача?На старте — GPT-4o-miniEmbedding-моделиПопулярные вариантыПочему важна embedding-модельDefault провайдерКонтекстное окноКогда контекст критиченЗдоровье провайдераЧто делать если красныйПроверьте API-ключПроверьте лимиты на стороне провайдераПроверьте сетьSelf-hosted — проверьте процессОптимизация расходов1. Короткие системные промпты2. Стриминг3. Маленькая модель где можно4. Ограничьте maxTokens на агенте5. Кеш embedding6. Fallback-модельЧастые ошибки