Почти на пределе: ИИ от OpenAI едва обошел 30 лучших математиков мира

Тридцать выдающихся математиков собрались в Беркли, Калифорния, чтобы испытать ИИ-чат

Тридцать выдающихся математиков собрались в Беркли, Калифорния, чтобы испытать ИИ-чат-бота o4-mini от OpenAI. На протяжении двух дней они задавали ему вопросы, которые обычно решают только профессора, и выяснили, что ИИ не только справляется с крайне сложными математическими задачами, но уже превосходит большинство лучших аспирантов.

Большие языковые модели(БЯМ, LLM) умеют предсказывать следующее слово в предложении. Однако o4-mini и аналогичные системы, такие как Gemini 2.5 Flash, обучены на специализированных наборах данных с усиленным подкреплением. Это позволяет им глубже погружаться в сложные математические задачи, чем традиционные модели.

Для оценки прогресса o4-mini OpenAI поручила Epoch AI создать 300 математических задач, которые ранее не публиковались. Современные большие языковые модели уже могут решать сложные математические вопросы, но задачи от Epoch AI оказались им не по зубам: никто не смог решить больше шести задач, что составляет менее 2%. Однако o4-mini показала впечатляющие результаты.

Исследование, которое возглавила Epoch AI, началось в сентябре прошлого года. Задачи были разделены на три уровня сложности: для студентов бакалавриата, магистратуры и исследовательского уровня. К апрелю нынешнего года выяснилось, что o4-mini может решать около 20% задач. Четвертый, самый сложный уровень, включает задачи, которые даже профессора математики не всегда могут решить. Ученые, участвовавшие в исследовании, подписали соглашение о неразглашении, чтобы исключить утечку информации.

17–18 мая участники собрались в Беркли для финального теста. 30 ученых разделились на группы по шесть человек и соревновались, придумывая задачи, которые могли бы поставить чат-бота в тупик. Хотя ученым удалось найти десять таких задач, они были поражены тем, как далеко продвинулся ИИ за год. Математик из Лондонского института математических наук Хэ Янхуэй сравнил уровень o4-mini с очень талантливым аспирантом, а по скорости поиска решений ИИ значительно превосходил профессиональных математиков.

Прогресс в сфере созданий ИИ вызывает у специалистов и восхищение, но и тревогу. Участники исследования обеспокоены тем, что пользователи могут слишком доверять его результатам.

«Есть доказательство по индукции, доказательство от противного и доказательство устрашением. Если вы говорите что-то авторитетно, люди боятся возражать. Я думаю, что o4-mini освоил доказательство устрашением: он говорит уверенно», — сказал Хэ.

В конце соревнования участники начали обсуждать будущее математики. Если ИИ достигнет пятого уровня сложности, роль математиков кардинально изменится. В связи с этим будет важно развивать креативность, чтобы сохранить математическое мышление для будущих поколений, пока мы не научимся загружать знания в мозг.

24 July 2025, 15:54 | Views: 62

Add new comment

For adding a comment, please log in
or create account

0 comments