LLM-провайдеры и модели
Как подключить OpenAI-совместимого провайдера, выбрать модель, embedding, разобраться в лимитах.
Провайдер — сервер, отвечающий на запросы к LLM. Модель — конкретный «мозг» на этом сервере. Чтобы агент заработал, нужен хотя бы один подключённый провайдер с хотя бы одной моделью. Это первое, что вы настраиваете после создания воркспейса.
Что такое LLM (простыми словами)
LLM (Large Language Model, большая языковая модель) — нейросеть, обученная на огромном объёме текста. Умеет:
- понимать вопрос в любой формулировке;
- генерировать связный ответ;
- рассуждать шаг за шагом;
- выполнять инструкции из системного промпта;
- вызывать функции (инструменты) по описанию.
Знакомые названия: GPT от OpenAI, Claude от Anthropic, Llama от Meta, Qwen от Alibaba, Mistral, DeepSeek, Gemini от Google.
Почему это критично для бота
- Без LLM агент не работает. Это основной компонент.
- Качество LLM напрямую влияет на качество бота. Разные модели по-разному следуют инструкциям, по-разному «галлюцинируют», по-разному обрабатывают длинные контексты.
- Стоимость LLM — главная статья операционных расходов бота после голоса.
Три способа взять модели
Платите по токенам. Ноль инфраструктуры с вашей стороны.
Преимущества:
- Старт за 10 минут: зарегистрировались → получили ключ → подключили.
- Всегда актуальные модели: обновления катятся без вашего участия.
- Предсказуемая цена — оплачиваете только реальное потребление.
- Нет забот про железо, сервера, обновления, масштабирование.
Недостатки:
- Ваши данные идут на серверы провайдера (важно для compliance).
- Зависимость от uptime провайдера (хотя у топов он 99.9%+).
- Цена может кусаться на больших объёмах (100M+ токенов/мес).
Кого выбрать:
- OpenAI — надёжный стандарт. GPT-4o, GPT-4o-mini, o1, o3. Хорошо работает с русским. Быстрый. Дорогой для top-tier, дешёвый для mini.
- Anthropic Claude — через прокси (OpenRouter). Лучше следует инструкциям, меньше галлюцинаций, мягче тон. Любимец для консультативных ботов.
- OpenRouter — шлюз к 300+ моделям одним ключом. Удобно для экспериментов с разными моделями.
- DeepSeek — дешевле OpenAI в 5-10 раз. Качество достойное, но для русского уступает.
- Together, Fireworks, Groq — хостинги open-source моделей (Llama, Qwen, Mistral). Быстрее OpenAI, часто дешевле.
Полный контроль, нулевой внешний трафик. Нужны GPU.
Преимущества:
- Данные не покидают вашу инфру (критично для банков, медицины, госсектора).
- Фиксированная стоимость (за сервер) независимо от объёма.
- Можно дообучить (fine-tune) модель на ваших данных.
- Нет rate limits от внешних провайдеров.
Недостатки:
- Нужны инженеры уровня DevOps + ML.
- Железо стоит денег ($10K+ за карту H100, есть альтернативы попроще).
- Обновления моделей — на вас.
- Недостаточная нагрузка → GPU простаивает, вы платите за зря.
Стек:
- vLLM — быстрый inference-сервер для production. Основной выбор. Держит тысячи одновременных пользователей на одной карте.
- Ollama — проще vLLM, подходит для dev и малых нагрузок (до ~100 req/min). Удобно для внутренних ассистентов.
- TGI от HuggingFace — стабильная альтернатива vLLM от создателей самих HuggingFace-моделей.
- LM Studio — GUI для локальной разработки (не для production).
Требования к железу:
- Llama 8B / Qwen 7B: 24 ГБ VRAM (RTX 3090, A10).
- Llama 70B / Qwen 72B: 80 ГБ VRAM (A100, H100) или 2× 40 ГБ с tensor parallelism.
- Для production-нагрузки (1000+ req/min): 2-4 карты H100.
Самый прагматичный подход для среднего и крупного бизнеса.
Суть: разные провайдеры для разных задач. Например:
- Обычные чаты → cheap cloud (GPT-4o-mini).
- Чувствительные темы (жалобы, жалобы с PII) → self-hosted Llama.
- Сложные аналитические задачи → Claude Sonnet.
- Fallback при недоступности основного → второй провайдер.
Платформа держит все три одновременно. У каждого агента — свой выбранный провайдер. Переключение — одним кликом, без пересборки.
Экономия: на типичной нагрузке гибридный подход снижает LLM-бюджет на 30-60% при том же или лучшем качестве.
Главное требование: OpenAI-совместимый API
Платформа поддерживает любой LLM, у которого есть OpenAI-совместимый эндпоинт. Это индустриальный стандарт — его держат почти все современные провайдеры.
Технически: сервер принимает POST /v1/chat/completions с JSON-телом
в формате OpenAI (поля messages, model, temperature,
max_tokens, tools, …). Ответ — тоже в OpenAI-формате.
Кто совместим из коробки
- OpenAI (эталон).
- OpenRouter — шлюз, сам говорит в OpenAI-формате.
- DeepSeek, Together, Fireworks, Groq — все на OpenAI API.
- vLLM, Ollama, TGI, LM Studio — используют OpenAI-совместимый endpoint.
- Большинство корпоративных LLM-шлюзов (Portkey, LiteLLM, Kong).
Кто НЕ совместим напрямую
- Anthropic Claude — свой формат (messages API с блоками).
- Google Gemini — свой формат (generateContent).
- Cohere — свой формат.
Решение: используйте прокси — OpenRouter, Portkey, LiteLLM. Они переводят ваши OpenAI-запросы в формат нужного провайдера. Стоимость прокси — около 1-2% сверху, что намного дешевле, чем делать свою интеграцию.
Подключение провайдера
Настройки → Модели и API → «Добавить»
В сайдбаре слева → раздел Настройки → вкладка Модели и API → кнопка Добавить провайдер.
Выберите тип провайдера
Универсальный выбор. Работает со всеми: сам OpenAI, DeepSeek, Together, vLLM, TGI, LM Studio, корпоративные шлюзы.
Нужно будет ввести Base URL и API-ключ.
Если хотите единую точку к десяткам моделей. Один ключ → 300+ моделей. Удобно для экспериментов и гибридных стратегий.
Подробная инструкция в их документации.
Для self-hosted локального запуска. Ключ не требуется — подключается по URL.
Популярный выбор для dev и PoC. Для production лучше vLLM.
Заполните поля
- Название — как вам удобно называть провайдера в админке («Основной GPT», «Локальный Qwen», «Резервный DeepSeek»).
- Base URL — адрес API-сервера провайдера.
- API-ключ — ключ от провайдера (для Ollama — пустой).
- Макс. токенов — верхний лимит контекстного окна. Для современных
моделей —
128000(OpenAI, Llama) или200000(Claude). Не экономьте — это лимит, а не квота.
Сохранить
Провайдер появится в списке.
Проверить соединение
Кнопка «Проверить соединение» в карточке провайдера → платформа
дёрнет /v1/models → покажет результат и задержку. Если зелёный —
всё готово.
Примеры Base URL
Часто спрашиваемые:
https://api.openai.com/v1https://openrouter.ai/api/v1http://vllm.internal:8000/v1(замените на адрес вашего сервера vLLM)
http://localhost:11434/v1(или адрес удалённого Ollama-сервера)
https://api.deepseek.com/v1https://api.together.xyz/v1Выбор модели
Модель выбирается на уровне агента, не на уровне провайдера. Один провайдер может отдавать десятки моделей, каждый агент использует свою.
Table of tiers — когда что брать
| Класс | Примеры | Цена | Кейсы |
|---|---|---|---|
| Nano | GPT-4o-mini, Claude Haiku, Qwen 7B | $0.15–0.5 / 1M | FAQ, простые ответы, высокий объём |
| Mid | GPT-4o, Claude Sonnet, Qwen 72B, Llama 70B | $3–15 / 1M | Основной рабочий класс, ~80% кейсов |
| Pro | Claude Opus, o1, DeepSeek-R1 | $15–60 / 1M | Сложные рассуждения, юр/мед, код |
Более детальный гайд
Decision flow
Это клиентский бот?
- Да → важнее качество, берите Mid-класс (GPT-4o, Sonnet).
- Нет (внутренний) → можно Nano + экономить.
Данные чувствительные?
- Да → self-hosted (Llama 70B, Qwen 72B).
- Нет → облако.
Какой объём?
- <10K диалогов/мес → любая модель, не влияет на бюджет.
- 10-100K → смотрим цену токена, берём Mid.
- >100K → считаем экономику, гибридный подход (mini для простых, Mid для сложных).
Насколько сложная задача?
- FAQ → Nano достаточно.
- Консультация → Mid обязательно.
- Юр-анализ / мед-советы → Pro, или даже reasoning-модели (o1, R1).
На старте — GPT-4o-mini
Закроет 80% кейсов. Через 2 недели замеров увидите, надо ли повышать/понижать.
Embedding-модели
Отдельный класс моделей. Не генерируют текст, превращают текст в вектор (список чисел). Нужны для базы знаний — поиск похожих документов по смыслу.
Задаются в Настройки → Модели → Провайдер эмбеддингов (отдельная секция от основных LLM).
Популярные варианты
text-embedding-3-small(OpenAI) — дёшево, быстро, отлично для английского. Для русского — сносно, но лучше взять что-то специализированное.text-embedding-3-large(OpenAI) — точнее, в 6× дороже. Оправдано, если у вас сотни тысяч документов и нужна максимальная точность.bge-m3(BAAI) — бесплатно, self-hosted, отлично для русского. Рекомендую для русскоязычных кейсов.nomic-embed-text— универсальный self-hosted вариант, удобно гонять в Ollama.
Почему важна embedding-модель
Качество поиска в RAG напрямую зависит от embedding-модели. Плохой embedding → агент не находит нужные документы → отвечает неправильно → клиент недоволен.
Правило: embedding должен соответствовать языку и доменy ваших документов.
- Русский бизнес →
bge-m3(оптимум по качеству/цене). - Английский бизнес →
text-embedding-3-smallилиlarge. - Специфичный домен (медицина, юриспруденция) → специализированные модели от HuggingFace.
Поменяли embedding-модель → надо переиндексировать всю базу. Векторы разных моделей несовместимы — точки, созданные одной моделью, не находят совпадений с точками другой. Платформа предупредит, но сам процесс долгий (от 10 минут до часов в зависимости от объёма).
Default провайдер
Один из провайдеров в воркспейсе помечается как default. Его используют:
- Новые агенты, где не указан конкретный провайдер.
- Внутренние процессы платформы (суммаризация, классификация намерений).
Галочка «Провайдер по умолчанию» в карточке провайдера.
Поменяли default на более слабую модель? Все агенты, использующие «default» (а не конкретный выбор) начнут отвечать хуже. Лучше явно указывать модель на каждом агенте.
Контекстное окно
У каждой модели лимит токенов в одном запросе. Это контекстное окно — сколько модель может «видеть» за раз.
| Модель | Макс. токенов | Эквивалент |
|---|---|---|
| GPT-3.5 | 16 000 | ~12 000 слов |
| GPT-4o / GPT-4o-mini | 128 000 | ~95 000 слов |
| Claude Sonnet / Opus | 200 000 | ~150 000 слов |
| Gemini 1.5 Pro | 1 000 000 – 2 000 000 | огромный роман |
Что в контекст входит:
- Системный промпт (~500-1000 токенов).
- История разговора (все реплики клиента и бота).
- Результаты RAG-поиска (найденные чанки из базы знаний).
- Описания всех доступных MCP-инструментов.
- Ваш новый запрос.
Поле «Макс. токенов» в настройках провайдера — верхний лимит, платформа не отправит больше. Ставьте равным реальному окну модели или немного ниже.
Когда контекст критичен
- Длинные диалоги (50+ реплик) — маленькое окно → модель «забудет» начало разговора.
- Большая база знаний — если агент цитирует много документов, найденные чанки занимают место.
- Много MCP-инструментов — описание каждого ест ~200-500 токенов.
Правило большого пальца: если у агента <10 инструментов и нормальная база знаний, 128K хватает с запасом. Для экстремальных кейсов — 200K+.
Здоровье провайдера
Платформа каждые 30 секунд дёргает /models у всех подключённых
провайдеров. Показывает индикатор:
- 🟢 Зелёный — провайдер отвечает быстро (<1 сек), всё ОК.
- 🟡 Жёлтый — задержка выше порога (>3 сек). Работает, но медленно.
- 🔴 Красный — провайдер не отвечает или ключ невалидный.
В карточке провайдера — график задержки за последние 24 часа.
Что делать если красный
Проверьте API-ключ
Истёк? Отозван? Попробуйте перевыпустить у провайдера.
Проверьте лимиты на стороне провайдера
Превысили дневной лимит? У OpenAI это частая причина.
Проверьте сеть
Попробуйте curl ${baseUrl}/models -H "Authorization: Bearer ${key}" с
вашего сервера — проходит?
Self-hosted — проверьте процесс
vLLM / Ollama не упал? docker ps, логи, здоровье GPU.
Оптимизация расходов
LLM — главная статья операционных расходов. Способы экономить:
1. Короткие системные промпты
Каждый диалог начинается с отправки всего системного промпта. 500 токенов × 10 000 сессий × 30 дней = 150M токенов только на промпт.
Цифра: сокращение промпта с 500 до 200 токенов экономит ~60% на input-токенах.
2. Стриминг
Включайте streamResponses: true. Клиент видит ответ, пока модель
пишет. Не экономит деньги, но улучшает UX → клиенты меньше
перезапрашивают.
3. Маленькая модель где можно
Не используйте GPT-4o для простых FAQ. GPT-4o-mini в 20 раз дешевле — разница в качестве на простых вопросах незаметна.
4. Ограничьте maxTokens на агенте
Если не ограничено — LLM может написать «роман» на тысячу токенов на простой вопрос. Ограничьте до 500-1000 для чатов.
5. Кеш embedding
Embedding — самая дорогая часть индексации базы знаний. Но они переиспользуются на каждом поиске бесплатно. Не переиндексируйте регулярно «на всякий случай».
6. Fallback-модель
Настройте автоматический fallback: если GPT-4o не отвечает → перейти на Claude. Предотвращает потерю трафика в период проблем провайдера.