источник
При этом ИИ могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики. Он измеряет эффективность модели при выполнении 1230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов (соответственно, 44 и 9 – см. картинку), вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми.
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными.
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет.
При этом ИИ могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики. Он измеряет эффективность модели при выполнении 1230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов (соответственно, 44 и 9 – см. картинку), вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми.
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными.
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет.
(см. рисунок).
1) ИИ работают уже почти на уровне экспертов – людей.
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы.
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47,6% по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38,8% и o3 high с 34,1%
2) ИИ несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты».
Это всего лишь сегодняшние модели. Через год новые модели будут сильно умней и умелей экспертов людей. И профессий будет уже не 44 в 9 отраслях, а много больше.