ChatGPT уже не самый умный: какая нейросеть умнее

Как можно вычислить интеллект нейросети? Так же, как и у человека, с помощью IQ-теста. Проверили, насколько умны популярные нейросети. Спойлер: ChatGPT — не самая умная нейросеть.
ChatGPT уже не самый умный: какая нейросеть умнее

Как и люди, нейросети обладают способностью делать умозаключения, обучаться, творить и общаться. В скором времени искусственный интеллект сможет переплюнуть человеческий разум и отобрать у людей половину обязанностей. Пока этого не произошло, давайте проверим, какая из нейросетей близка к превосходству над человечеством.

Проверить уровень интеллекта как человека, так и нейросети легко проверить с помощью IQ-теста. В мировой практике используется три разновидности теста:

Тест Стэнфорда — Бине

Cозданная в 1916 году шкала для определения уровня интеллекта. Изначально тест был создан для выявления умственных способностей у детей. Последняя версия теста была разработана в 2003 году. Тест насчитывает от 50 до 100 вопросов и состоит из четырёх модулей: вербальные рассуждения, кратковременная память, абстрактно-визуальное рассуждение и решение математических задач.

Тест Векслера

Широко распространённый тест интеллекта, применяемый психологами в большинстве стран. Он был создан как альтернатива тесту Стэнфорда — Бине, так как последний тестирует только интеллект детей и подростков. Тест Векслера же больше ориентирован на разум взрослого человека. Тест состоит из 11 субтестов, включающих задания для выявления вербальной и невербальной логики человека. Прохождение теста может занимать до 90 минут.

Тест Рейвена

Тест определения уровня интеллекта человека с применением изображений. Тест был придуман в 1936 году и является одним из наиболее точных в разрезе изучения человеческого интеллекта. Для тестирования интеллекта используются прогрессивные матрицы Рейвена. Это последовательность из 8 фигур и элементов, в которой тестируемый должен выбрать один из 6 правильных ответов, продолжающий эту последовательность.

В 1978 году в Норвегии вышла доработанная версия теста Рейвена — тест Mensa Norway. Вокруг него образовалось целое общество из людей, чей IQ выше 130 — таких людей 2 % от мирового сообщества. По миру насчитывается около 120 тысяч человек, кто входит в ассоциацию Mensa. Прохождение теста Mensa занимает 25 минут, он насчитывает 35 вопросов с вариантами ответов. Так как он считается наиболее точным в определении уровня интеллекта и прост в подаче, именно его исследователи с портала Maximum Truth использовали для выявления уровня IQ у нейросетей.

Методология исследования

Разобравшись с выбором теста, им необходимо было отобрать модели ИИ для теста. Так как тест Mensa Norway построен на прохождении теста с фигурами и формами, т. е. визуальными элементами, исследователи рассматривали нейросети с модулем компьютерного зрения и возможностью обрабатывать такие данные.

Исходя из критериев, для теста были отобраны следующие нейросети:

  1. ChatGPT — модель искусственного интеллекта, с неё начался бум в развитии больших языковых моделей. Использовали старую версию GPT 3,5 и последнюю — GPT 4.
  2. Gemini — разработанный Google чат-бот для генерации ответов на запросы пользователей, изображений, текстового контента. Ранее носил имя Bard.
  3. Bing Copilot — искусственный интеллект от Майкрософт. Может помочь пользователю найти ответы на его вопросы, создать изображение или написать текст по запросу, проанализировать информацию.
  4. Claude AI — выпущенная в прошлом году нейросеть-чат для получения ответов на вопросы пользователей. В её основе лежат три модели, они умеют анализировать большие массивы данных, понимать их содержание.
  5. Grok — нейросеть, созданная небольшой компанией Илона Маска. Это чат-бот на основе собственных разработок компании, умеет шутить, отвечать на вопросы. Грок использует данные, доступные в реальном времени. Пока что доступен только для ограниченного круга лиц — людей с подпиской X Premium (Twitter).
  6. Llama-2 — модель искусственного интеллекта, созданная совместно с Microsoft и Meta (запрещённая в России организация). Модель имеет открытый исходный код и распространяется бесплатно. Умеет всё то, что умеет большие языковые модели: анализировать, придумывать, отвечать на вопросы, творить и т. д.

Во время тестирования на человека может влиять множество факторов: настроение, усталость, люди вокруг, отсутствие комфорта и другие. Результат теста из-за этих факторов сильно искажается. У нейросетей тоже есть фактор, который может повлиять на исход тестирования — галлюцинации искусственного интеллекта. Это явление, когда нейросеть, не зная ответа на вопрос, начинает придумывать новую реальность. Чтобы исключить подобное, каждую нейросеть заставили проходить тест дважды.

Данные результатов теста интеллекта нейросетей занесены в таблицу, с ней можно ознакомиться в ниже. В таблице исследователи отобразили какой результат в баллах получила нейросеть, на сколько вопросов из 35 она правильно ответила.

Мы лично тоже показали нескольким нейросетям задания из теста Mensa. Подсказку для запроса писали на русском языке. Планировали протестировать российские модели Yandex GPT 3 и GigaChat от Сбера, но у нас не получилось это сделать. В чат с ними нельзя загрузить изображение и написать запрос для взаимодействия с картинкой. Хоть GigaChat и умеет генерировать изображения по запросу, он не умеет их просматривать, в него можно только загрузить файлы в PDF и TXT. А в мобильном приложении YandexGPT можно только узнать цену окружающих вещей, переводить текст и решать примеры, то же самое и с загруженными фото. Поэтому надеемся, когда пройдёт время и на рынке произойдёт скачок уровня интеллекта у нейросетей, мы сможем включить в исследование русские проекты.

Тестирование

В ходе тестирования ребята из Maximum Truth давали поочерёдно по вопросу из IQ-теста. Так, каждая нейросеть решила по 70 вопросов теста Mensa Norway. Всем испытуемым давали одну и ту же подсказку (промт).

Мы проделали подобное с несколькими нейросетями и подсказками на русском языке. Ниже примеры того, как нейросети отвечают на простые и сложные задания IQ-теста.

Задание № 2

Второе задание теста Mensa

Второе задание IQ-теста Mensa

Здесь тестируемому нужно определить, какая фигура должна быть последней в третьем ряду. В каждом ряду есть своя закономерность: присутствует одна общая форма (точки, ромб с вогнутыми краями (суперэллипс), квадрат), и вписанные в форму фигуры (круг, крест и ромб) идут друг за другом в каждом ряду.

Нетрудно прийти к выводу, что ответ будет под буквой «Е» — в третьем ряду только квадраты, в третьем столбце во все фигуры вписан ромб. Посмотрим, как с заданием справились некоторые нейросети.

ChatGPT 4

Ответ ChatGPT

ChatGPT отвечает на вопрос теста

ChatGPT быстро справился с задачей и дал корректный ответ. Помимо ответа, мы ещё получили умозаключение о том, как он пришёл к нему. Походу теста, продукт OpenAI покзал, что является одной из умнейших нейросетей.

Claude 3 Sonnet

Ответ Claude

Ответ Клода на вопрос теста

Sonnet тоже оказалась достаточно умной версией. Но к правильному ответу она так и не пришла, в отличие от её последующих собратьев. Но, что примечательно из размышления Claude, нейросеть была готова дать правильный ответ — выстроила точные связи объектов в задаче, но выбрала не тот ответ.

Microsoft Copilot

Ответ Bing Copilot

Ответ на задачу Microsoft Copilot

Copilot ответил неверно, он выбрал вариант «D». Судя по его ответу, он разобрался только в том, какие фигуры идут в каждом столбце, но не учёл, что в фигуру ещё вписана другая фигура.

Gemini

Ответ Gemini

Ответ нейросети от Google

Искусственный интеллект Google также ответил неверно, им был выбран ответ «F». Он был совсем далёк от правильного ответа: он нашёл закономерность в цветах фигур, хотя задание показано в чёрно-белом цвете.

Второе задание было достаточно лёгким — с ним справилось больше половины протестированных нейросетей. А те нейросети, которые не справились с задачей, всё равно нашли правильную закономерность в последовательности фигур.

Задание № 27

Задание 27 из теста Mensa

Задание № 27 IQ-теста Mensa

Задача под номером 27 из теста Mensa — уже другой уровень. Здесь также нужно продолжить последовательность и выбрать, в какую сторону направлен угол и какой он имеет градус.

Следуя логике, угол должен быть прямым, так как в каждом ряду идёт последовательность: 30°, 45° и 90°. Определившись с градусом угла, мы должны понять в какую сторону направлен, осталось два возможных направления — «A», повёрнутый влево, «B» — вверх. Учитывая, что аналогичный вариант «B» уже есть в первом ряду, в этом задании ответ будет под буквой «А».

Посмотрим, как нейросети справились с ним.

ChatGPT 4

Ответ ChatGPT

ChatGPT отвечает на вопрос теста

Четвёртая версия ChatGPT не справилась с решением этой задачи, но, по крайней мере, он был достаточно близок к правильному ответу. Он выбрал ответ «B», то есть он определил, что нужный угол должен быть прямым. В своих доводах ChatGPT начал искать закономерность в наклоне углов, но так и не пришёл к верному заключению.

Claude 3 Sonnet

Ответ Claude Sonnet

Ответ Claude 3 Sonnet

Claude, упрощённой третьей версии, сделал вывод, что ответ в этом задании — «D», угол в 45°, повёрнутый вправо. Следуя своей логике, Клод подумал, что есть зависимость от поворота угла и углы в рядах привязаны к какой-то плоскости, что не так.

Microsoft Copilot

Ответ на Copilot на втрое задание

Copilot в данном задании был близок к правильному ответу, он тоже выбрал вариант «B». Он понял, что в ячейке точно должен быть угол в 90°, но он не выбрал правильную сторону поворота.

Gemini

Ответ Gemini на тест

Gemini отвечает на 27 вопрос теста

Нейросеть от Google так же, как и большинство других, посчитала, что ответ в этом задании — «B». Гемини почему-то в своих рассуждениях мыслит категориями квадратов. Хотя, кроме квадратных ячеек, в задании нет ничего. Он не увидел разные градусы углов и уровень их поворота.

По итогу с заданием № 27 без ошибок справился только Claude 3 Opus, правильно выбрав наклон и градус угла. Некоторые, такие как ChatGPT 4 и Claude 3 Sonnet, выбрали правильный градус угла. Задание действительно было сложным — не каждый человек смог бы с ним справиться.

Результаты

Итоге тестирования нейросетей действительно впечатлили нас и исследователей. Многие нейросети имеют уровень интеллекта, сопоставимый с интеллектом среднестатистического человека. С ними познакомимся в таблице ниже.

Нейросеть Уровень IQ Правильные ответы
Claude 3 Opus 101 18,5
ChatGPT 4 85 13
Claude 3 Sonnet 82 12
Microsoft Copilot 79 11
Gemini 77,5 10,5
Человек 70 9
Llama-2 67 7
ChatGPT 3,5 64 6
Grok 64 6

В таблице протестированные нейросети ранжируются по уровню интеллекта, от высокого уровня к низкому. Отдельным столбцом выделили, на сколько заданий правильно ответила нейросеть. Если нейросеть отвечала неправильно, но у неё были правильные «размышления», вместо 1 правильного балла за задание, ей присваивалось 0,5 балла.

Если вкратце, на рынке появился искусственный интеллект, способный уделать человека и существовавшие до этого модели — Claude 3 Opus. ChatGPT-4 не намного хуже, он лишь на 16 баллов уступил новинке и всё ещё считается одной из самых умных нейросетей. Microsoft Copilot и Gemini тоже достаточно хорошо справились, заработали средние баллы.

Феномен Claude

Наверняка до недавнего времени у ChatGPT 4 не было сильных конкурентов, которые могли бы похвастаться такими же возможностями в плане рассуждений. Всё изменилось в марте 2024, когда появилась новая версия Claude. Claude 3 имеет три разные обученные модели: если Sonnet и Haiku ещё могут быть конкурентоспособными с ChatGPT, то уже версия Opus на полголовы умнее продукта OpenAI.

Claude появился ровно год назад и за это время у него вышло три продукта. Он создан компанией Antropic, командой выходцев из OpenAI. В самом начале пути его развития пользователи использовали нейросеть для анализа больших массивов данных, документов, их обобщения и получения краткой выжимки. Поздние обученные модели уже могли предоставить всю возможную функциональность искусственного интеллекта, от ответов на вопросы пользователя до выполнения сложных когнитивных заданий. Недавно вышедшая модель Claude 3 Opus как по результатам теста, так и по отзывам экспертов, сейчас самая умная модель на рынке.

Правда летом, по недавней информации, выходит 5 версия модели ChatGPT. Возможно, она станет новым витком в развитии технологий искусственного интеллекта.

Развитие нейросетей

Результаты тестов поражают. За такой короткий период времени, с момента становления нейросетей в общественном порядке, они уже обзавелись уровнем интеллекта, схожим с человеческим. Практически все нейросети побили результат, заданный обычным человеком.

Вероятнее всего, в ближайшие 2-3 года не останется сфер человеческой жизни, куда бы нельзя было внедрить искусственный интеллект. Уже сейчас нейросети используются в медицине, финансовой сфере, производствах, разработке, что о многом говорит.

Ради интереса можете попробовать пройти тот же тест, что проходили нейросети. В нём 35 вопросов, пройти его надо максимум за 25 минут. Поделитесь своими результатами в комментариях. На сколько баллов вы умнее нейросети?

С оригинальным исследованием Maximum Truth можно ознакомиться по ссылке.

Упомянутые сервисы

Microsoft Copilot Интерактивный чат с нейросетью для поиска информации в сети.
Интерактивный чат с нейросетью для поиска информации в сети.
Gemini Чат-бот от Google для общения с нейросетью, поиска информации и создания контента.
Чат-бот от Google для общения с нейросетью, поиска информации и создания контента.
ChatGPT Нейросеть для общения и генерации идей.
Нейросеть для общения и генерации идей.
Claude AI Искусственный интеллект для обобщения больших объёмов текста и данных.
Искусственный интеллект для обобщения больших объёмов текста и данных.
Посмотреть всё

1 комментарий

Добавить комментарий

Больше интересного

Актуальное

Как УК управлять вниманием жителей и зарабатывать больше
Платформа Mandarin увеличила объем выданных POS-кредитов и рассрочек на 35%
Групповые чаты WhatsApp* в CRM-системе: кому нужны и как их туда поместить
Ещё…