Восемь популярных ИИ-моделей были протестированы на эффективность прогнозов в виртуальной реконструкции сезона АПЛ 2023/24. В исследовании приняли участие продукты от Google, OpenAI и Anthropic и других популярных компаний в сфере исcкуственного интеллекта. Все они показали убыток, делая ставки на футбольные матчи в течение сезона Премьер-лиги. Подобные результаты свидетельствуют о трудностях даже самых продвинутых систем в анализе реального мира в течение длительных периодов времени.
Особенности исследования эффективности ИИ-прогнозов на футболе
Отчет «KellyBench», опубликованный на этой неделе стартапом в сфере ИИ General Reasoning, подчеркивает разный уровень компетенции моделей в различных сферах. Если с задачами по написанию кода или генерации контента ИИ справляется достаточно успешно, то в других сферах, где нужно решать человеческие задачи и проблемы, модели не настолько эффективны.
Лондонская компания General Reasoning протестировала восемь лучших систем ИИ в виртуальной реконструкции сезона Премьер-лиги 2023-24 годов. Моделям были предоставлены подробные исторические данные и статистика по каждой команде и предыдущим играм. ИИ было поручено создавать модели, которые максимизировали бы прибыль и управляли рисками. Затем ИИ-агенты делали ставки на исходы матчей, количество забитых голов, чтобы проверить, как они могут адаптироваться к новым событиям и обновляемым данным игроков по ходу сезона. Для всех ИИ-моделей был ограничен поиск актуальной информации. Каждой модели было представлено три попытки для получения прибыли.
Лучший результат показал Claude Opus 4.6 от Anthropic, со средним убытком в 11% и почти безубыточностью на одной из попыток. Grok 4.20 от xAI обанкротился один раз и не смог завершить две другие попытки. Gemini 3.1 Pro от Google смог получить 34-процентную прибыль с первой попытки, но обанкротился на второй.
«Каждая из оцениваемых нами перспективных моделей теряла деньги в течение сезона, и многие потерпели полный крах», – заключили авторы статьи, отметив, что ИИ «систематически отставал от людей» в этом сценарии.
Каждая модель начинала со стандартного банкролла в 100 000 фунтов стерлингов. Рентабельность инвестиций и итоговый банкролл усреднен по трем попыткам. Grok и Trinity не завершили все попытки.
Детальные результаты:
| ИИ-модель | Среднее ROI | Лучшая попытка | Худшая попытка | Средний финальный банкролл |
| Anthropic Claude Opus 4.6 | −11.0% | −0.2% | −18.8% | £89,035 |
| OpenAI GPT-5.4 | −13.6% | −4.1% | −31.6% | £86,365 |
| Google Gemini 3.1 Pro | −43.3% | +33.7% | −100% | £56,715 |
| Google Gemini Flash 3.1 LP | −58.4% | +24.7% | −100% | £41,605 |
| Z.AI GLM-5 | −58.8% | −14.3% | −100% | £41,221 |
| Moonshot Kimi K2.5 | −68.3% | −27.0% | −100% | £7,420 |
| xAI Grok 4.20 | −100% | −100% | −100% | £0 |
| Arcee Trinity | −100% | −100% | −100% | £0 |
ИИ все еще есть куда расти во многих сферах
Результаты исследования дают некоторое утешение офисным работникам и компаниям, которые опасаются, что ИИ может отнять у них работу. Стремительное развитие сферы вызывает колебания в акциях отраслей от финансов до маркетинга. Росс Тейлор, один из авторов исследования и генеральный директор General Reasoning, сказал:
«Существует огромный ажиотаж вокруг автоматизации с помощью ИИ, но нет достаточных данных об оценке перспектив внедрения ИИ в долгосрочной перспективе».
Он добавил, что многие из обычно используемых для тестирования ИИ критериев несовершенны, поскольку они установлены в «очень статичных условиях», которые мало похожи на хаос и сложность реального мира.
Статья General Reasoning, которая еще не прошла рецензирование, служит противовесом растущему энтузиазму в Силиконовой долине по поводу огромных недавних скачков в способности ИИ выполнять задачи компьютерного программирования с минимальным или полным отсутствием участия человека. Тейлор, бывший исследователь Meta AI, сказал:
«Если вы… попытаетесь применить ИИ к реальным задачам, он покажет себя очень плохо… Да, разработка программного обеспечения очень важна и экономически ценна, но есть множество других видов деятельности с более длительными временными горизонтами, которые также важно изучить».
