Современные ИИ провалили новый тест на интеллект: что это значит для будущего технологий?
Новый тест ARC-AGI-2, разработанный для оценки общего интеллекта искусственных систем, стал серьёзным вызовом для ведущих ИИ-моделей. Большинство из них показали крайне низкие результаты, в то время как люди справились значительно лучше, хотя и не идеально. Эта ситуация поднимает важные вопросы о текущих возможностях ИИ и их ограничениях. В этой статье мы разберём, что такое ARC-AGI-2, почему он так важен, и какие выводы можно сделать из результатов тестирования.
Что такое ARC-AGI-2 и зачем он нужен?
Цель теста
ARC-AGI-2 — это усовершенствованная версия теста на общий интеллект, созданная фондом Arc Prize Foundation. Его цель — оценить способность ИИ решать задачи, требующие адаптации к новым условиям и понимания абстрактных концепций.
Особенности теста
- Задачи на визуальные паттерны: ИИ должен анализировать цветные квадраты и предсказывать продолжение узора.
- Отсутствие опоры на прошлый опыт: Тест исключает возможность использования заранее запомненных данных.
- Метрика эффективности: Оценивается не только результат, но и рациональность использования ресурсов.
Результаты тестирования: люди против ИИ
Показатели ИИ
Ведущие модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показали результаты менее 1 %. Даже модели с продвинутыми возможностями рассуждений, такие как o1-pro от OpenAI, набрали лишь около 1,3 %.
Результаты людей
«В среднем группы испытуемых верно ответили на 60 % заданий», что значительно превосходит показатели всех протестированных ИИ. Это подчёркивает разрыв между человеческим интеллектом и текущими возможностями искусственных систем.
Почему ARC-AGI-2 важнее предыдущих тестов?
Устранение недостатков ARC-AGI-1
«ARC-AGI-2 исключает возможность решения задач методом грубой силы». В отличие от первой версии, новый тест требует от моделей интерпретировать паттерны «на лету», а не полагаться на перебор вариантов.
Новые критерии оценки
- Эффективность: Тест учитывает не только точность, но и рациональное использование вычислительных ресурсов.
- Адаптивность: Модели должны демонстрировать способность быстро обучаться новым задачам.
Что дальше? Будущее тестирования ИИ
Конкурс Arc Prize 2025
«Разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу». Это стимулирует создание более эффективных и универсальных моделей.
- Объективные критерии: Необходимость в стандартах для оценки интеллекта ИИ становится всё более очевидной.
- Cнижение затрат: Разработчики должны стремиться к созданию моделей с высокой эффективностью при минимальных ресурсах.
«Интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности». Эти слова сооснователя Arc Prize Foundation Грега Камрадта подчёркивают важность нового подхода к оценке искусственного интеллекта.
Вывод:
«Результаты ARC-AGI-2 показывают, что современные ИИ ещё далеки от человеческого уровня интеллекта в задачах, требующих адаптации и понимания новых концепций.»
- ARC — AGI — 2 — это новый эталон для оценки общего интеллекта искусственных систем.
- Люди по — прежнему превосходят ИИ в задачах , требующих адаптации.
- Будущее разработки ИИ связано с повышением эффективности и снижением затрат.