Биллинг и планы
Что учитывается в расходе, лимиты планов, переключение, overage, оптимизация.
У каждого воркспейса — план с лимитами: сколько сообщений, минут голоса, места под документы. Превышаете → повышаете план или платите overage. Этот раздел объясняет экономику, чтобы вы не удивлялись счёту и знали, как оптимизировать расход.
Экономика платформы — в двух словах
Есть две статьи расходов:
- Платформа AG0NTS. Плата за сервис — подписка или per-usage. Нашим владельцам.
- Внешние провайдеры. LLM (OpenAI и т.д.), STT/TTS, телеком — вы платите напрямую этим провайдерам, не нам. Мы лишь точка интеграции.
Типичный расклад бюджета на клиента с 10K диалогов/мес:
- AG0NTS подписка (Pro): ~$100/мес.
- LLM-токены (OpenAI или self-hosted): $30-200/мес.
- STT/TTS: $50-300/мес (если много голоса).
- Телеком-оператор (если исходящие): $100-500/мес.
- Итого: $280-1100/мес.
Сравните с колл-центром из 3-5 операторов ($15-40K/мес) — разница в 15-50 раз.
Что учитывается в биллинге
Платформа считает пять видов расхода (usage events):
- Сообщения — каждое отправленное сообщение (бот или оператор, текст или голос). Основная метрика нагрузки.
- Минуты голоса — по каждой закрытой голосовой сессии. От момента открытия до закрытия.
- Запуски flow — каждый старт сценария. Triggered manually, cron-ом, webhook-ом или событием.
- API-запросы — каждый вызов внешнего API платформы по вашему API-ключу (интеграция виджета, внешний сервис).
- Вызовы MCP — каждый вызов инструмента агентом.
Плюс снапшоты — считаются в моменте, не суммируются за период:
- Объём документов в базе знаний (в мегабайтах).
- Объём вложений в чатах.
- Количество векторов в Qdrant.
Как это работает
Каждое событие записывается в таблицу usage_events с timestamp,
workspaceId, типом, количеством, метаданными. В реальном времени.
Снапшоты обновляются при изменении базы знаний / вложений — тоже в реальном времени.
Как посмотреть расход
Настройки → Billing. Вам будет видно:
Текущий план
Какой активен, когда следующий биллинг.
Шкалы расхода
По каждому ресурсу: использовано/доступно с прогнозом.
График
История расхода по дням за текущий период.
Топ-потребители
Какие агенты / flow едят больше всего. Для оптимизации.
Предупреждения
При подходе к лимиту — на 80%, 95%, 100%.
История счетов
За прошлые периоды с выгрузкой PDF.
Detail-view по каждому ресурсу
Клик на любой показатель → детализация:
- Разбивка по дням / часам.
- Какие агенты / сессии ели больше.
- Сравнение с предыдущим периодом.
- Прогноз до конца периода.
Периоды и обнуление
Биллинговый период — календарный месяц по UTC. Счётчики обнуляются 1-го числа в 00:00 UTC.
Что это значит для вас:
- В Москве (UTC+3) счётчики обнуляются 1-го числа в 03:00.
- Последний день месяца — не лимитирующий, используйте до конца.
- Снапшоты (документы, файлы) — всегда актуальны, не сбрасываются.
Планы
Для тестов, демо, маленьких внутренних ботов.
| Ресурс | Лимит |
|---|---|
| Сообщений / месяц | 1 000 |
| Минут голоса | 30 |
| Запусков flow | 500 |
| Вызовов MCP | 10 000 |
| Объём документов | 50 МБ |
| Пользователей | 3 |
| Воркспейсов | 1 |
Что доступно:
- ✅ Все типы агентов.
- ✅ Все типы flow.
- ✅ До 10 агентов в воркспейсе.
- ✅ Базовая база знаний (до 50 МБ).
- ✅ Голос (30 минут хватает на ~12 звонков).
- ❌ Нет SLA-гарантий.
- ❌ Нет приоритетной поддержки.
- ❌ Нет SSO / аудит-лога.
Кому подходит:
- Стартапу на стадии PoC — проверить гипотезу.
- Школе / курсам для обучения.
- Хобби-проекту.
- Внутреннему тесту перед покупкой Pro.
Для боевого бизнеса до 10 тыс. активных клиентов.
| Ресурс | Лимит |
|---|---|
| Сообщений / месяц | 100 000 |
| Минут голоса | 5 000 |
| Запусков flow | 50 000 |
| Вызовов MCP | 1 000 000 |
| Объём документов | 5 ГБ |
| Пользователей | 25 |
| Воркспейсов | 5 |
Что доступно:
- ✅ Всё из Free + больше лимиты.
- ✅ Приоритетная поддержка (отвечаем за 4 рабочих часа).
- ✅ SLA 99.5%.
- ✅ API-доступ ко всем функциям.
- ✅ Выгрузка данных.
- ✅ Email-уведомления о проблемах.
- ❌ Нет on-prem деплоя.
- ❌ Нет специализированных compliance-пакетов.
Кому подходит:
- SMB (малый и средний бизнес): интернет-магазины, сервисы, клиники.
- Digital-агентства, обслуживающие несколько клиентов.
- Компании 20-200 сотрудников.
Типичная месячная стоимость (с учётом внешних провайдеров): $200-1000/мес.
Индивидуально. Для компаний с уникальными требованиями.
Что включает:
- Неограниченные лимиты (договор о честном использовании).
- Гарантированное SLA 99.9% и выше с финансовыми штрафами за нарушение.
- Выделенная инфраструктура (private cloud или on-prem).
- SSO/SAML — интеграция с вашим корпоративным SSO (Azure AD, Okta).
- Audit-log — все действия логируются с экспортом в SIEM.
- Региональные данные — выбор конкретного ЦОД (Россия, Европа, США, Азия).
- Compliance-сертификации (152-ФЗ, GDPR, HIPAA, SOC2).
- Приоритетная поддержка 24/7 с dedicated Customer Success менеджером.
- Кастомные доработки — можем адаптировать под ваши процессы.
- Обучение команды — тренинги, workshops.
- Миграция — помогаем перенести существующий колл-центр на платформу.
Кому подходит:
- Крупный бизнес (>500 сотрудников).
- Регулируемые индустрии (финансы, медицина, госсектор).
- Компании с требованиями data-residency.
Стоимость: от $3000/мес, зависит от объёма и требований.
Точные цифры зависят от вашего договора и могут обновляться. Выше — типичная сетка. Актуальный прайс — в Настройки → Billing.
Что при превышении лимита
Два режима — выбираете в настройках плана.
По умолчанию. При достижении лимита по ресурсу — API отвечает 402 Payment Required для операций, которые едят этот ресурс. Чтение
продолжает работать.
Пример: превысили лимит минут голоса → новые голосовые звонки не принимаются (возвращается ошибка), но входящий чат работает как обычно. Каждый ресурс лимитируется независимо.
Когда выбирать:
- На тестовом воркспейсе — чтобы случайно не спалить бюджет.
- На startup-бюджете с жёсткой дисциплиной.
- Для внутренних воркспейсов.
Минус: реальные клиенты получают ошибку. Плохо для продакшена с переменным трафиком.
При достижении лимита продолжает работать, но перерасход начисляется как overage. Выставляется отдельным счётом в конце месяца.
Ставки overage:
- Сообщения: $0.002 за штуку сверх лимита.
- Минуты голоса: $0.05 за минуту сверх лимита.
- MCP-вызовы: $0.0001 за вызов.
- Хранилище: $0.10 за ГБ в месяц сверх.
Когда выбирать:
- Продакшен, где стабильность важнее бюджетной точности.
- Бизнес с сезонными пиками (Чёрная пятница).
- Когда клиентские обращения важнее сэкономленных $50.
Контроль: можно настроить максимальный overage («не больше $200/мес»), после которого hard cap всё же включится. Защищает от катастроф при баге в триггере.
Для продакшена типовая стратегия: soft cap по сообщениям и голосу (не теряем клиентов), hard cap по базе знаний (чтобы не расти бесконечно).
Токены LLM — отдельная история
Стоимость токенов у LLM-провайдера (OpenAI, OpenRouter, ваш self-hosted) не платится платформе. Вы платите провайдеру напрямую.
Платформа показывает количество использованных токенов в usage, но не стоимость в долларах — потому что цена зависит от модели и меняется у провайдера.
Как посчитать стоимость LLM
Формула:
Стоимость = (input_tokens × input_price_per_1M + output_tokens × output_price_per_1M) / 1_000_000Пример для GPT-4o-mini:
- Input: $0.15/1M, Output: $0.60/1M.
- Типичный диалог: 2000 input + 500 output токенов.
- Цена одного диалога: (2000 × 0.15 + 500 × 0.60) / 1M = $0.00060.
- 10K диалогов в месяц: $6.
Пример для GPT-4o:
- Input: $2.50/1M, Output: $10.00/1M.
- Тот же диалог: (2000 × 2.50 + 500 × 10) / 1M = $0.010.
- 10K диалогов: $100.
Разница для двух моделей — 16×. Выбор модели существенно влияет на месячный бюджет.
Как увидеть стоимость в платформе
Хотите стоимость токенов в долларах прямо в платформе? Подключите
OpenRouter — они отдают стоимость каждого запроса в поле
/generation endpoint. Эти цифры показываются в нашем UI как fact.
Альтернативы — Portkey, LiteLLM. Они тоже трекают стоимость.
Переключение плана
Выбираете целевой план
Система показывает, что включено, цену, разницу с текущим.
Подтверждаете
- Повышение плана: вступает в силу сразу. Остаток текущего месяца тарифицируется пропорционально (7 дней старого + 23 дня нового).
- Понижение плана: вступает в силу со следующего периода. Не обрезаем текущий месяц, даём допользоваться.
Частые сценарии
Счета и оплата
Автоматическая оплата картой через Stripe. Работает для Free и Pro.
- Привязываете карту при оформлении.
- Списания — 1-го числа каждого месяца.
- Overage — отдельным счётом в конце месяца.
- История счетов — Billing → Invoices, выгрузка PDF.
- Можно сменить карту или платёжные данные в любой момент.
Поддерживаются: Visa, Mastercard, American Express, PayPal (для некоторых регионов).
Договор с нашей компанией. Для Enterprise-клиентов.
- Подписывается standard terms или custom MSA.
- Счета ежемесячно или ежеквартально.
- Оплата по реквизитам (банковский перевод).
- Для российских клиентов — валютные или рублёвые счета, НДС, закрывающие документы.
- Net-30 или Net-60 отсрочка оплаты по договорённости.
Оптимизация расходов — playbook
Типичная ситуация: через 2-3 месяца после запуска счёт неожиданно вырос. Причины и решения:
1. Посмотрите топ-потребители
Billing → Usage → топ агентов / flow. Обычно 20% агентов генерируют 80% расхода — сосредоточьтесь на них.
2. Маленькие модели где можно
Если основной пожиратель — агент на GPT-4o для простых FAQ: переключите на GPT-4o-mini. Разница в качестве на простых вопросах незаметна, экономия — 10-20×.
3. Короче системные промпты
Промпт отправляется на каждый запрос. 500 токенов × 10K сессий = 5M токенов впустую. Сократите до 200-300 токенов.
4. Ограничьте maxTokens ответа
Если не ограничено — LLM может написать «роман» на тысячу токенов вместо лаконичного ответа. Поставьте 500-1000 для большинства случаев.
5. Кешируйте MCP-вызовы
Если инструмент часто запрашивает одно и то же (статусы, справочники) — добавьте TTL-кеш на стороне MCP-сервера. Сокращает вызовы в 10-50 раз.
6. Оптимизируйте базу знаний
Удалите неактуальные документы (старые прайсы, отменённые регламенты). Это уменьшает количество векторов и подгружаемый контекст на каждом запросе.
7. Рассмотрите self-hosted LLM
При 1M+ токенов/день облако дороже собственного сервера. GPU от $3K/мес + электричество vs $5-15K/мес облачных токенов.
8. Оптимизация голосовых минут
- Сократите приветствия бота (5 сек вместо 15).
- Убирайте клиентов быстрее, если они уходят в off-topic.
- Для исходящих — квалифицируйте лидов текстом перед звонком.