Модель o3 является последним релизом в серии разработок искусственного интеллекта, основанных на больших языковых моделях, аналогичных тем, что лежат в основе ChatGPT. «Это впечатляющий и важный шаг вперед в развитии способностей ИИ, демонстрирующий новую степень гибкости в решении задач, ранее недоступную моделям семейства GPT», – написал Франсуа Шолле, инженер Google и создатель ARC Challenge, в своём блоге.
Что на самом деле сделала модель o3 от OpenAI?
Франсуа Шолле создал ARC Challenge (Корпус абстракции и рассуждений) в 2019 году для проверки способности ИИ распознавать закономерности в парах цветных сеток. Эти визуальные головоломки требуют от ИИ демонстрации базовой формы общего интеллекта и способности к рассуждению. Однако использование чрезмерной вычислительной мощности могло бы позволить даже неразумной программе решать подобные задачи методом перебора. Поэтому конкурс установил ограничения на вычислительную мощность, чтобы избежать подобного подхода.
Недавно анонсированная модель o3 от OpenAI, релиз которой запланирован на начало 2025 года, достигла официального результата в 75,7% на «полуофициальном» тесте ARC Challenge, используемом для публичного рейтинга участников. Затраты на решение каждой задачи составили около 20 долларов, что укладывается в лимит конкурса в 10 000 долларов. Однако более сложный «частный» тест, определяющий победителя главного приза, имеет гораздо более жёсткий лимит вычислительной мощности, эквивалентный затратам всего в 10 центов на задачу, которого OpenAI не смогла достичь.
Модель o3 также показала неофициальный результат в 87,5%, использовав примерно в 172 раза больше вычислительных ресурсов, чем в официальном зачёте. Для сравнения, средний показатель человека составляет 84%. Результат в 85% необходим для победы в главном призе ARC Challenge в размере 600 000 долларов, при условии соблюдения ограничений на вычислительные ресурсы.
Означает ли успех модели o3 достижение AGI?
Организаторы ARC Challenge специально указали, что превышение порогового значения теста не следует считать доказательством достижения AGI.
Даже при применении огромных вычислительных мощностей модель o3 не смогла решить более 100 задач с визуальными головоломками, что привело к неофициальному результату, сообщил Майк Кнуп, организатор ARC Challenge из компании-разработчика программного обеспечения Zapier, в социальной сети Bluesky.
Мелани Митчелл из Института Санта-Фе в Нью-Мексико выразила свое мнение о прогрессе o3 в тесте ARC следующим образом: «Решение этих задач с помощью грубой силы противоречит изначальным целям конкурса».
«Хотя новая модель действительно впечатляет и знаменует собой важный шаг на пути к AGI, я не считаю, что это настоящий AGI – остаются простые задачи из ARC Challenge, которые o3 пока не способна решить», — добавил Шолле в сообщении в Bluesky.
Тем не менее, Шолле предложил критерии, по которым можно будет определить наличие интеллекта человеческого уровня в системах ИИ. «Вы поймете, что AGI наступил, когда создание задач, легких для людей, но сложных для ИИ, станет невозможным», – отметил он в своем блоге.
Томас Дитерих из Университета штата Орегон предложил альтернативный подход к определению AGI. «Эти архитектуры претендуют на включение всех функциональных компонентов, необходимых для человеческого познания», – утверждает он. «Коммерческие системы ИИ пока не обладают эпизодической памятью, способностью к планированию, логическим рассуждениям и, что важнее всего, метапознанием».
Что на самом деле значит высокий балл модели o3?
Высокий результат модели o3 отражает тот факт, что технологическая отрасль и исследователи искусственного интеллекта начали осознавать замедление темпов прогресса в последние модели ИИ в 2024 году по сравнению с бурным развитием 2023-го.
Хотя o3 не выиграла ARC Challenge, её высокий балл свидетельствует о том, что модели ИИ могут вскоре превзойти существующие стандарты. Помимо неофициального высокого результата, Шолле отмечает, что многие участники с низкими требованиями к вычислительным ресурсам уже достигли отметки выше 81% на частных тестах.
Дитерих также называет этот прогресс «очень впечатляющим». Однако он предостерегает, что без дополнительной информации о том, как работает модель o3 от OpenAI, сложно объективно оценить её успехи. Например, если бы o3 могла предварительно тренироваться на задачах ARC, это сделало бы её достижения менее значимыми. «Нам придется подождать, пока модель будет открыта с открытым исходным кодом, чтобы полностью понять её значение», – добавляет Дитерих.
Организаторы ARC Challenge уже готовят запуск второго, более сложного набора тестов в 2025 году. Они также намерены продолжить проведение конкурса ARC Prize 2025 до тех пор, пока кто-то не выиграет главный приз и не поделится исходным кодом своего решения.