Современные ИИ провалили новый тест на интеллект: что это значит для будущего технологий?

Новый тест ARC-AGI-2, разработанный для оценки общего интеллекта искусственных систем, стал серьёзным вызовом для ведущих ИИ-моделей. Большинство из них показали крайне низкие результаты, в то время как люди справились значительно лучше, хотя и не идеально. Эта ситуация поднимает важные вопросы о текущих возможностях ИИ и их ограничениях. В этой статье мы разберём, что такое ARC-AGI-2, почему он так важен, и какие выводы можно сделать из результатов тестирования.

Что такое ARC-AGI-2 и зачем он нужен?

Цель теста

ARC-AGI-2 — это усовершенствованная версия теста на общий интеллект, созданная фондом Arc Prize Foundation. Его цель — оценить способность ИИ решать задачи, требующие адаптации к новым условиям и понимания абстрактных концепций.

Особенности теста

  • Задачи на визуальные паттерны: ИИ должен анализировать цветные квадраты и предсказывать продолжение узора.
  • Отсутствие опоры на прошлый опыт: Тест исключает возможность использования заранее запомненных данных.
  • Метрика эффективности: Оценивается не только результат, но и рациональность использования ресурсов.

Результаты тестирования: люди против ИИ

Показатели ИИ

Ведущие модели, такие как GPT-4.5Claude 3.7 Sonnet и Gemini 2.0 Flash, показали результаты менее 1 %. Даже модели с продвинутыми возможностями рассуждений, такие как o1-pro от OpenAI, набрали лишь около 1,3 %.

Результаты людей

«В среднем группы испытуемых верно ответили на 60 % заданий», что значительно превосходит показатели всех протестированных ИИ. Это подчёркивает разрыв между человеческим интеллектом и текущими возможностями искусственных систем.

Почему ARC-AGI-2 важнее предыдущих тестов?

Устранение недостатков ARC-AGI-1

«ARC-AGI-2 исключает возможность решения задач методом грубой силы». В отличие от первой версии, новый тест требует от моделей интерпретировать паттерны «на лету», а не полагаться на перебор вариантов.

Новые критерии оценки

  • Эффективность: Тест учитывает не только точность, но и рациональное использование вычислительных ресурсов.
  • Адаптивность: Модели должны демонстрировать способность быстро обучаться новым задачам.

Что дальше? Будущее тестирования ИИ

Конкурс Arc Prize 2025

«Разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу». Это стимулирует создание более эффективных и универсальных моделей.

  • Объективные критерии: Необходимость в стандартах для оценки интеллекта ИИ становится всё более очевидной.
  • Cнижение затрат: Разработчики должны стремиться к созданию моделей с высокой эффективностью при минимальных ресурсах.

«Интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности». Эти слова сооснователя Arc Prize Foundation Грега Камрадта подчёркивают важность нового подхода к оценке искусственного интеллекта.

Вывод:

«Результаты ARC-AGI-2 показывают, что современные ИИ ещё далеки от человеческого уровня интеллекта в задачах, требующих адаптации и понимания новых концепций.»

  1. ARC — AGI — 2 — это новый эталон для оценки общего интеллекта искусственных систем.
  2. Люди по — прежнему превосходят ИИ в задачах , требующих адаптации.
  3. Будущее разработки ИИ связано с повышением эффективности и снижением затрат.

Вам может быть интересно:

comment Нет комментариев

Вы можете первым оставить комментарий!

mode_editКомментарий:

menu
menu