Вчера OpenAI анонсировала GPT-4.1, который предлагает потрясающее окно контекста в 1 миллион токенов и идеальную точность в поиске информации. Gemini 2.5 теперь соответствует этому ориентиру в 1 миллион токенов, с возможностью использования до 10 миллионов токенов в исследовательских условиях. Как основатель стартапа RAG-as-a-service, мой почтовый ящик быстро заполнился сообщениями, утверждающими, что это конец Генерации, Увеличенной Поиском (RAG) — нам предлагали изменить направление.
Не так быстро.
Привлекательность и Реальность Больших Окон Контекста
На первый взгляд, ультра-большие окна контекста выглядят привлекательно. Они обещают:
- Легкое управление огромными объемами данных
- Простые взаимодействия через API непосредственно от провайдеров LLM
- Идеальное воспоминание о информации, заложенной в предоставленном контексте
Но вот в чем дело: любой, кто пробовал развертывания с большими окнами контекста в производстве, знает, что реальность быстро расходится с этими обещаниями.
Стоимость и Скорость: Скрытые Узкие Места
Вспомните математику: типичный запрос RAG использует около 1K токенов. Увеличение окна контекста до 1M токенов увеличивает вашу стоимость в 1000 раз — с примерно $0.002 до $2 за запрос. Демонстрация GPT-4.1 от OpenAI вчера заняла 76 секунд для одного запроса на 456K токенов — настолько медленно, что даже команда демонстрации на мгновение задумалась, не зависла ли она.
Агентные Рабочие Процессы Усугубляют Проблему
В современных приложениях ИИ рабочие процессы становятся все более агентными, подразумевая множество вызовов LLM и этапов, прежде чем возникнет окончательный результат. Проблемы стоимости и задержки накапливаются экспоненциально. Подходы с большими окнами контекста быстро становятся непрактичными для производственных и итеративных рабочих процессов.
Цитирование: Критический Разрыв в Моделях Большого Контекста
Большие контекстные LLM не имеют встроенной поддержки цитирования. Пользователи ожидают проверяемых результатов и возможности ссылаться на оригинальные источники. Системы RAG решают это элегантно, указывая точные фрагменты контента, использованные для генерации ответов, что позволяет обеспечить прозрачность и доверие.
Масштаб имеет Значение: Одних Только Окон Контекста Недостаточно
Даже при 1M токенов (~20 книг) большие контексты значительно уступают для серьезных корпоративных приложений. Рассмотрим одного из наших клиентов, чья база данных контента содержит ошеломляющие 6.1 миллиарда токенов. Окно контекста в 10M или даже 100M не решит проблему. Токеномика коллапсирует на таком масштабе, что делает RAG незаменимым.
Будущее RAG
Далеко не устаревшая, RAG остается наиболее масштабируемым, проверяемым и экономически эффективным способом управления и запроса данных корпоративного масштаба. Да, будущие прорывы могут в конечном итоге устранить эти разрывы. Но до тех пор — и несмотря на последние достижения — мы продолжаем инвестировать в RAG.
TL;DR: Окно контекста в 1M токенов в GPT-4.1 впечатляет, но недостаточно для практического применения. RAG не мертва; она все еще является основой ИИ корпоративного масштаба.