Публикация Школы траблшутеров

Как не разориться на ИИ

Время чтения: 9 мин 20 сек
18 мая 2026 г. Просмотров: 181

Основатель «Школы траблшутеров» Олег Брагинский и ученица Марина Строева разберут, что такое токен, почему экономика ИИ взлетела до небес, какие стратегические ошибки и риски возникают, и какие подходы превратят расход токенов из затрат в управляемый ресурс.

Большинство людей понимают слово «токен» неправильно, думая, что это слово или символ. Но токен – не лингвистическая единица, а единица вычисления, условный интерфейс, через который человеческий язык входит в машинную логику.

Один и тот же текст разные модели могут разбивать на разное количество токенов. Английское слово может распасться на несколько частей, китайская фраза – на совершенно иной набор фрагментов. Для LLM важно не только то, что сказано, но и то, как это будет прочитано машиной.

Хорошая аналогия – компьютерная память. Когда программа обращается к адресу вроде 0x7fff…, это не сам объект, а указатель на него. Токен в модели работает похожим образом: текст сначала разбивается на фрагменты, затем каждый фрагмент получает ID, и модель уже работает не со словами, а с ID и их векторными представлениями – то есть координатами в системе.

Язык по своей природе непрерывен: смысл перетекает, границы между словами не всегда чёткие. Но вычислительная система не умеет напрямую работать с непрерывным синтаксисом речи. LLM нужны дискретные элементы. Поэтому текст приходится разрезать на токены, при этом:

  • интонация и нюансы упрощаются
  • часть смысловых связей теряется
  • естественная структура нарушается.

Без этого разрезания модель вообще не смогла бы работать. Токенизация – компромисс между вычислимостью и точностью языка. Но если понимать суть токена правильно, меняется подход к общению с ИИ. Запросы из красивых, становятся эффективными:

  • с чёткими формулировками целей
  • с учётом экономии контекста
  • более структурными
  • без лишних слов.

Потому что в больших моделях токен ещё и ресурс. Чем больше данных уходит на шум, тем меньше остаётся на смысл. Мера нагрузки на модель становится отражением степени вашей личной или корпоративной продуктивности.

Главная причина, по которой потребление токенов взлетело до небес – переход от чат-ботов к агентам. Раньше всё было просто: вы задали вопрос, модель ответила. Несколько сотен токенов – и цикл закрыт. Но агент работает иначе.

У него есть «мозг» (модель), «безопасность» (ограничители) и «навыки» (инструменты). Чтобы выполнить одну сложную бизнес-задачу, агент должен:

  1. Понять задачу.
  2. Распланировать шаги.
  3. Вызвать внешние инструменты (базы данных, API, браузер).
  4. Проверить результат.
  5. При ошибке – скорректироваться.
  6. И иногда повторить этот процесс десять раз.

В итоге сценарий, который выглядит для пользователя как команда «Сделай отчёт», потребляет в сотни раз больше токенов, чем обычный диалог. Именно этот подход превращает AI в промышленный конвейер. Число компаний, чьё потребление превысило триллион токенов, выросло на 40% всего за несколько месяцев:

В Кремниевой долине и крупных техгигантах вроде Meta или OpenAI зародился новый странный культ – «Tokenmaxxing». Инженеры соревнуются кто больше сжёг токенов за неделю. Есть случаи, когда один сотрудник расходует по 210 миллиардов токенов – десятки Википедий в неделю.

Возникла логика: если не жжёшь токены, значит, недоиспользуешь инструменты. Расход превращается в меру продуктивности. Если компания оплачивает твой счёт на 150 тысяч долларов в месяц за использование AI – значит, ты важный винтик.

Но тут кроется ловушка. Потребление токенов – показатель затрат, а не результата. Система видит, сколько сожжено, но не видит, сколько смысла извлечено. Таким образом производительность начинают путать с расточительностью. Это напоминает эпоху 2000-х, когда мерилом работы было количество написанных строк кода. Ошибка прошлого повторяется в новом масштабе.

Несмотря на то, что модели дешевеют, и цена за миллион токенов упала в 10 раз за последний год, бюджеты компаний на AI только растут. Причины следующие:

  1. Модели стали умнее, но болтливее. Новые reasoning-модели (вроде OpenAI o1) думают перед ответом. Цепочка рассуждений скрыта от пользователя, но также потребляет токены.
  2. Агенты, которые делают за вас работу, но через бесконечные итерации.
  3. Инфраструктура. GPU, память HBM, электричество – всё дорожает.

AI-компании стоят перед «Дилеммой заключённого». Либо предлагать безлимитные подписки по $20 и разоряться (потому что «тяжёлый» пользователь может проесть ресурсов на $1’000), либо вводить оплату по факту и пугать клиентов неожиданными счетами.

В итоге выигрывают те, кто вводит лимиты и скрытые механизмы экономии. Токеномика достаточно непрозрачна и пользователей часто обманывают. Поставщики моделей начинают сжигать ваш недельный лимит за день, скрытно переключают время кэширования, и любая пауза в работе, приводит к полному пересчёту контекста за ваш счёт.

В мире токенов прозрачность – не роскошь, а необходимость. Если инструмент скрывает ход рассуждений и логику кэширования – пользователь теряет контроль над деньгами.

Интернет всегда гордился тем, что он «лёгкий». Написали код один раз, и миллион человек пользуются почти бесплатно. Но AI-интернет – «тяжёлый». Больше похож не на библиотеку, а на ресторан. Каждый запрос нужно готовить с нуля, тратя реальную энергию.

Amazon, Microsoft и Google тратят сотни миллиардов долларов в год не на программистов, а на электростанции и системы охлаждения. ИТ-гиганты превращаются в промышленные корпорации XXI века. Побеждает тот, у кого мощнее системы охлаждения и дешевле МВт-ч:

Разброс цен на токены поражает. Самые дешёвые (Llama 3.2, Mistral Nemo) стоят копейки – около 4 центов за миллион токенов. Идеально для массовой обработки документов. Самые дорогие (OpenAI o1, Claude Opus) могут стоить до $75 за миллион токенов. Разница – в 1’900 раз.

При этом платить за «ум» нужно только там, где это критично. Для 90% задач: классификации писем или поиска по базе, премиальные модели не нужны. Необходим гибридный подход, когда дешёвая модель фильтрует мусор, а дорогая решает только сложные задачи.

Современные AI-сервисы продают не вычисления, а организованный интеллектуальный труд. В одном рабочем процессе могут одновременно участвовать модель, поиск, кеширование, хранение данных, выполнение задач в фоне, контейнеры и даже готовые результаты как продукт.

Всё это тарифицируется отдельно. В одних сценариях основную часть затрат формирует вовсе не модель, а поиск или подключение к внешним данным. В других – наоборот, львиная доля бюджета уходит на саму генерацию.

В итоге стоимость ИИ больше нельзя свести к одной универсальной метрике. Она зависит от того, какую именно работу выполняет система. Это меняет не только расчёты, но и саму логику бизнеса. Если раньше компании искали «самый дешёвый токен», то теперь приходится считать совокупную стоимость задачи. Бюджет становится многомерным.

Параллельно меняется и сама модель монетизации. Помимо классической оплаты за использование, всё чаще появляются новые подходы:

  • оплата за результат (за решённый запрос клиента)
  • кредиты на действия вместо прямой тарификации
  • подписки, включающие разные уровни доступа/

Формируется многослойная экономика ИИ. Внизу – базовые ресурсы: вычисления, токены, хранение. Они постепенно превращаются в нечто вроде коммунальной услуги – дешёвой, стандартизированной и взаимозаменяемой.

А наверху – то, за что компании действительно готовы платить: решения, автоматизация задач и конечные бизнес-результаты. Выше уровень – ощутимее ценность и тем сложнее заменить продукт. Выигрывают не те, у кого токены дешевле, а те, кто лучше встроил интеллект в бизнес.

В ближайшие годы это приведёт к новой «ценовой войне», но уже не на уровне моделей. Конкуренция сместится в область архитектуры решений, эффективности использования ресурсов и способности гарантировать результат.

Токены – новая нефть, электричество и валюта в одном флаконе. Мы вступаем в фазу промышленного производства интеллекта.