Эксперимент с ИИ: границы роста, архитектура различий и реальная стоимость «интеллекта»

Данный материал основан на редакционном эксперименте и не претендует на научную строгость или универсальную оценку моделей. Его задача — зафиксировать различия в практическом применении систем при работе с реальными задачами.

Введение

В течение серии последовательных тестов был проведён прикладной сравнительный эксперимент с участием трёх систем — ChatGPT, Gemini и GigaChat. Это не было соревнованием в привычном смысле и не ставило задачу определить «лучшую модель» в абстрактной шкале. Напротив, эксперимент был выстроен как проверка практической применимости: как именно системы работают с задачей, что они делают с неопределённостью и где заканчивается их реальная полезность.

Ключевой принцип: оценивалась не корректность ответа как таковая, а способ преобразования задачи в решение.

Это принципиально важный сдвиг. Потому что современный ИИ почти всегда способен дать формально корректный ответ. Вопрос в другом: решает ли он задачу пользователя или лишь воспроизводит допустимую форму ответа.

Методология

Эксперимент строился как серия однотипных прогонов:

Формулировалась задача (с намеренно заложенной неоднозначностью).
Идентичный запрос отправлялся в три системы.
Результаты сравнивались по группе параметров.

Параметры оценки:

— точность (формальная корректность) — структурность (логика изложения) — глубина интерпретации — работа с контекстом — практическая применимость — устойчивость при усложнении

Критически важно: задачи не сводились к школьным или алгоритмическим. В них присутствовал слой интерпретации — именно там и возникали различия.

Наблюдение 1. Разница не в знаниях, а в архитектуре мышления

Все три системы в большинстве случаев демонстрируют достаточный уровень знаний.

Но различие проявляется не в этом.

Различие проявляется в том, как система понимает, что от неё хотят.

ChatGPT чаще выстраивает ответ как систему: он достраивает недостающие элементы, интерпретирует задачу, пытается выйти на уровень решения, а не ответа.

Gemini стремится к аккуратности и формальной корректности: он осторожен, структурен, но часто избегает выхода за рамки явно заданного.

GigaChat в значительной доле случаев воспроизводит шаблон: он не столько решает задачу, сколько подбирает подходящую форму ответа.

Таким образом, различие между моделями — это различие в типе обработки задачи, а не в объёме знаний.

Наблюдение 2. Поверхностная корректность как системная ошибка

Одна из ключевых проблем, выявленных в эксперименте, — это феномен поверхностно корректного ответа.

Ответ выглядит логичным, грамотно оформленным, внутренне непротиворечивым.

Но он не решает задачу.

Это особенно характерно для моделей, ориентированных на:

— безопасность — универсальность — минимизацию риска

В результате возникает парадокс: чем «правильнее» ответ, тем выше вероятность, что он бесполезен.

Именно здесь возникает главный риск массового использования ИИ: пользователь без подготовки не различает корректность и применимость.

Наблюдение 3. Работа с неопределённостью как ключевой критерий

Настоящие задачи почти всегда содержат неопределённость.

Это может быть: — неполная постановка — скрытая цель — неоднозначность формулировки

Именно в этой зоне различия между моделями становятся максимальными.

Одни модели пытаются уточнить или достроить задачу. Другие игнорируют неопределённость. Третьи подменяют её шаблонным решением.

Способ работы с неопределённостью — это и есть реальный показатель интеллектуального уровня системы.

Наблюдение 4. Удержание логики и многошаговые процессы

При переходе к многошаговым задачам различия усиливаются.

— часть моделей начинает терять структуру — часть упрощает задачу — часть удерживает логическую линию и доводит её до результата

Это критично, потому что реальная работа почти никогда не является одношаговой.

Именно здесь ИИ либо становится инструментом, либо остаётся демонстрацией возможностей.

Наблюдение 5. Пользователь как часть системы

Эксперимент показал, что пользователь — это не внешний элемент.

Он является частью системы.

Изменение формулировки без изменения сути задачи приводит к:

— изменению результата — изменению поведения модели — изменению различий между моделями

Это означает, что эффективность ИИ определяется не только моделью, но и уровнем мышления пользователя.

Потолки роста: где заканчивается развитие

Эксперимент позволяет зафиксировать принципиально важный вывод: у разных систем — разные потолки роста.

ChatGPT и Gemini

Их дальнейшее развитие упирается в энергетику.

Под энергетикой здесь понимается не метафора, а реальное ограничение:

— вычислительные ресурсы — стоимость инференса — масштаб инфраструктуры

Интеллектуально эти системы способны развиваться дальше: архитектура позволяет углублять понимание, усложнять рассуждение, работать с неопределённостью.

Но каждый следующий шаг требует кратного роста ресурсов.

Именно поэтому их потолок — не знание и не алгоритм, а стоимость и энергия.

GigaChat

Здесь ситуация принципиально иная.

Его потолок — это не энергетика.

Его потолок — это:

— интеллектуальный капитал (качество данных, архитектура, методология) — инженерная база (инфраструктура, оптимизация, масштабирование)

И если первые две системы ограничены «сверху» (ресурсами), то GigaChat ограничен «снизу» — качеством основания.

Это означает, что без радикального роста интеллектуальной базы и инженерной культуры он не дойдёт до уровня, где ограничения начинают носить энергетический характер.

Выводы

Сравнение моделей по принципу «кто умнее» лишено смысла.
Ключевое различие — в способе интерпретации задачи.
Поверхностная корректность — системная ошибка, а не преимущество.
Работа с неопределённостью — главный показатель качества.
Пользователь становится частью вычислительной системы.
Потолки роста различны: одни упираются в энергию, другие — в интеллектуальную базу.

Комментарий редакции

Эксперимент показал не разницу между продуктами.
Он показал разницу между уровнями развития.
Сегодня ИИ массово воспринимается как инструмент ответа.
Но это уже устаревшая модель.

Современный ИИ — это система, которая:
— интерпретирует задачу — достраивает её — принимает решения в рамках своей логики

И в этом месте происходит ключевой сдвиг.

Человек перестаёт контролировать процесс напрямую.
Он контролирует его через постановку задачи.
Если постановка слабая — результат будет слабым, независимо от качества модели.
Именно поэтому следующий этап развития — это не развитие моделей.
Это развитие мышления пользователя.
Без этого даже самые сильные системы будут использоваться как слабые.

А слабые — восприниматься как достаточные.
И это, пожалуй, главный риск текущего этапа развития ИИ.

редакция Олива Пресс