Все записиБлог

BYOK или managed-LLM — как выбрать модель и не переплачивать

Чем BYOK отличается от managed-LLM, как считать стоимость токена и когда какой режим выгоднее. Гайд для CTO и финдиректора.

В каждом втором разговоре с потенциальным клиентом всплывает вопрос: «А почему у вас два режима — BYOK и managed-LLM? Что выбрать?» Отвечаю развёрнуто, потому что это решение реально влияет на счёт за месяц, и в нём не так сложно ошибиться.

BYOK = Bring Your Own Key

Вы заводите аккаунт у OpenAI, Anthropic, Together, DeepSeek или любого OpenAI-совместимого провайдера. Получаете API-ключ. Подключаете его в AGONTS. Все токены, которые тратит ваш AI-сотрудник, идут на ваш счёт у провайдера напрямую. Мы не стоим в середине, не накручиваем процент, не агрегируем.

Что вы платите AGONTS: подписку за платформу (Starter / Pro / Business / Enterprise — фиксированная цена в месяц).

Что вы платите OpenAI/Anthropic: ровно столько, сколько ушло у вас токенов, по тарифам провайдера. Счёт от них же, чек/инвойс от них же.

Managed-LLM

Платформа сама держит контракт с пулом LLM-провайдеров. Вы не заводите ключ — мы тарифицируем токены поверх своей подписки. Цена включает наценку за оркестрацию, fallback между провайдерами, кеш промптов и SLA на доступность.

Что вы платите AGONTS: подписку + per-token цену за реально потраченное.

Что вы платите OpenAI/Anthropic: ничего, у вас с ними нет договора.

Когда выбрать BYOK

  • У вас уже есть корпоративный аккаунт у одного из провайдеров с льготным тарифом или кредитами от инвестора.
  • Финансовый отдел требует видеть отдельный инвойс от вендора модели, чтобы корректно атрибутировать расходы на R&D.
  • Вы планируете большой объём (>10M токенов в день) и хотите вести переговоры о скидке напрямую с провайдером.
  • Юристы хотят DPA напрямую с владельцем модели, без посредника.
  • У вас on-prem кластер с локальной моделью (vLLM, llama.cpp) — тогда «свой ключ» это вообще ваш собственный endpoint без провайдера как такового.

Когда выбрать managed-LLM

  • Маленький объём (<1M токенов в месяц), не хочется заводить ещё один счёт.
  • Нужен мгновенный fallback: упал OpenAI — переключились на Anthropic. На стороне платформы это автоматически.
  • Хотите единый инвойс от AGONTS и одну точку контакта по поддержке.
  • Не хотите иметь дело с rate-limit-ами провайдера и квотами на новый аккаунт.

Как считать экономику

Возьмём типичный объём чат-агента поддержки на Pro-тарифе: 50 000 запросов в месяц по 800 input-токенов и 250 output-токенов на ответ. Это 40M input + 12.5M output токенов в месяц. Берём актуальные на май 2026 цены OpenAI GPT-5 mini:

  • Input: 0.15$ за 1M токенов → 6$
  • Output: 0.6$ за 1M токенов → 7.5$
  • Итого: ~13.5$ в месяц у провайдера.

На BYOK вы платите AGONTS подписку Pro (4500 ₽ ≈ 50$) + 13.5$ напрямую OpenAI = ~63.5$.

На managed-LLM мы добавляем к токенам ~25–30% оркестрационной наценки (за fallback, кеш, лимиты): 13.5$ × 1.3 ≈ 17.5$ + та же подписка 50$ = 67.5$.

Разница на этом объёме — пара долларов. Но как только объём растёт в 10 раз, BYOK выигрывает уже на десятки и сотни долларов в месяц. Поэтому правило простое: маленький объём — managed для удобства; большой объём — BYOK для экономии.

Что у нас не так, как у конкурентов

В отличие от платформ, которые продают «AI-токены» по своему собственному курсу, мы не маскируем цены. На дашборде сотрудника видна реальная стоимость каждого вызова в долларах провайдера и наша наценка отдельной строкой (если вы на managed). Никаких «AGONTS-кредитов», никакой пересчёт через внутреннюю валюту. Это не маркетинг, это анти-маркетинг — нам так удобнее, потому что финдир клиента может сам сверить с инвойсом OpenAI.

Можно ли совмещать

Да. У одного и того же сотрудника можно настроить:

  • основной маршрут через BYOK-ключ Anthropic (Claude),
  • fallback через managed-OpenAI (GPT-4o-mini) на случай падения,
  • локальную Llama в качестве экстра-fallback для приватных сценариев.

Это не теоретическое, мы так делаем для нескольких production-сотрудников у себя.

Безопасность и 152-ФЗ

BYOK не освобождает от ответственности за PII. Если ваш сотрудник тащит персональные данные клиентов в OpenAI — это всё ещё трансграничная передача, и согласие нужно. Мы умеем делать redact на уровне платформы (вычищаем номера телефонов и паспорта до отправки в облачную модель), но это надо включать осознанно, а не «по умолчанию».

Для жёстких сценариев (медицина, финансы, гостайна) — только on-prem c локальной LLM. BYOK к OpenAI там не подходит ни юридически, ни архитектурно.

Короткий чек-лист

  1. Объём <1M токенов/мес → managed-LLM.
  2. Объём >5M токенов/мес → BYOK.
  3. Есть требования 152-ФЗ → on-prem с локальной LLM.
  4. Есть несколько провайдеров с разными тарифами → BYOK + маршрутизация.
  5. Хочется один инвойс → managed-LLM.

Если всё равно непонятно — напишите нам в чат с цифрами по объёму, посчитаем оба сценария и покажем разницу до копейки. Подписки в стартовых тарифах одинаковые, так что переключиться можно в любой момент без даунтайма.

Соберите первого сотрудника за 5 минут

4 недели, фиксированный объём работ, демо на ваших данных.