ChatGPT уже не самый умный: какая нейросеть умнее

Как можно вычислить интеллект нейросети? Так же, как и у человека, с помощью IQ-теста. Проверили, насколько умны популярные нейросети. Спойлер: ChatGPT — не самая умная нейросеть.

Методология исследования
Тестирование

Задание № 2

ChatGPT 4
Claude
Microsoft Copilot
Gemini

Задание № 27

ChatGPT 4
Claude
Microsoft Copilot
Gemini

Результат

ChatGPT не самый умный
Развитие нейросетей

Как и люди, нейросети обладают способностью делать умозаключения, обучаться, творить и общаться. В скором времени искусственный интеллект сможет переплюнуть человеческий разум и отобрать у людей половину обязанностей. Пока этого не произошло, давайте проверим, какая из нейросетей близка к превосходству над человечеством.

Проверить уровень интеллекта как человека, так и нейросети легко проверить с помощью IQ-теста. В мировой практике используется три разновидности теста:

Тест Стэнфорда — Бине

Cозданная в 1916 году шкала для определения уровня интеллекта. Изначально тест был создан для выявления умственных способностей у детей. Последняя версия теста была разработана в 2003 году. Тест насчитывает от 50 до 100 вопросов и состоит из четырёх модулей: вербальные рассуждения, кратковременная память, абстрактно-визуальное рассуждение и решение математических задач.

Тест Векслера

Широко распространённый тест интеллекта, применяемый психологами в большинстве стран. Он был создан как альтернатива тесту Стэнфорда — Бине, так как последний тестирует только интеллект детей и подростков. Тест Векслера же больше ориентирован на разум взрослого человека. Тест состоит из 11 субтестов, включающих задания для выявления вербальной и невербальной логики человека. Прохождение теста может занимать до 90 минут.

Тест Рейвена

Тест определения уровня интеллекта человека с применением изображений. Тест был придуман в 1936 году и является одним из наиболее точных в разрезе изучения человеческого интеллекта. Для тестирования интеллекта используются прогрессивные матрицы Рейвена. Это последовательность из 8 фигур и элементов, в которой тестируемый должен выбрать один из 6 правильных ответов, продолжающий эту последовательность.

В 1978 году в Норвегии вышла доработанная версия теста Рейвена — тест Mensa Norway. Вокруг него образовалось целое общество из людей, чей IQ выше 130 — таких людей 2 % от мирового сообщества. По миру насчитывается около 120 тысяч человек, кто входит в ассоциацию Mensa. Прохождение теста Mensa занимает 25 минут, он насчитывает 35 вопросов с вариантами ответов. Так как он считается наиболее точным в определении уровня интеллекта и прост в подаче, именно его исследователи с портала Maximum Truth использовали для выявления уровня IQ у нейросетей.

Методология исследования

Разобравшись с выбором теста, им необходимо было отобрать модели ИИ для теста. Так как тест Mensa Norway построен на прохождении теста с фигурами и формами, т. е. визуальными элементами, исследователи рассматривали нейросети с модулем компьютерного зрения и возможностью обрабатывать такие данные.

Исходя из критериев, для теста были отобраны следующие нейросети:

ChatGPT — модель искусственного интеллекта, с неё начался бум в развитии больших языковых моделей. Использовали старую версию GPT 3,5 и последнюю — GPT 4.
Gemini — разработанный Google чат-бот для генерации ответов на запросы пользователей, изображений, текстового контента. Ранее носил имя Bard.
Bing Copilot — искусственный интеллект от Майкрософт. Может помочь пользователю найти ответы на его вопросы, создать изображение или написать текст по запросу, проанализировать информацию.
Claude AI — выпущенная в прошлом году нейросеть-чат для получения ответов на вопросы пользователей. В её основе лежат три модели, они умеют анализировать большие массивы данных, понимать их содержание.
Grok — нейросеть, созданная небольшой компанией Илона Маска. Это чат-бот на основе собственных разработок компании, умеет шутить, отвечать на вопросы. Грок использует данные, доступные в реальном времени. Пока что доступен только для ограниченного круга лиц — людей с подпиской X Premium (Twitter).
Llama-2 — модель искусственного интеллекта, созданная совместно с Microsoft и Meta (запрещённая в России организация). Модель имеет открытый исходный код и распространяется бесплатно. Умеет всё то, что умеет большие языковые модели: анализировать, придумывать, отвечать на вопросы, творить и т. д.

Во время тестирования на человека может влиять множество факторов: настроение, усталость, люди вокруг, отсутствие комфорта и другие. Результат теста из-за этих факторов сильно искажается. У нейросетей тоже есть фактор, который может повлиять на исход тестирования — галлюцинации искусственного интеллекта. Это явление, когда нейросеть, не зная ответа на вопрос, начинает придумывать новую реальность. Чтобы исключить подобное, каждую нейросеть заставили проходить тест дважды.

Данные результатов теста интеллекта нейросетей занесены в таблицу, с ней можно ознакомиться в ниже. В таблице исследователи отобразили какой результат в баллах получила нейросеть, на сколько вопросов из 35 она правильно ответила.

Мы лично тоже показали нескольким нейросетям задания из теста Mensa. Подсказку для запроса писали на русском языке. Планировали протестировать российские модели Yandex GPT 3 и GigaChat от Сбера, но у нас не получилось это сделать. В чат с ними нельзя загрузить изображение и написать запрос для взаимодействия с картинкой. Хоть GigaChat и умеет генерировать изображения по запросу, он не умеет их просматривать, в него можно только загрузить файлы в PDF и TXT. А в мобильном приложении YandexGPT можно только узнать цену окружающих вещей, переводить текст и решать примеры, то же самое и с загруженными фото. Поэтому надеемся, когда пройдёт время и на рынке произойдёт скачок уровня интеллекта у нейросетей, мы сможем включить в исследование русские проекты.

Тестирование

В ходе тестирования ребята из Maximum Truth давали поочерёдно по вопросу из IQ-теста. Так, каждая нейросеть решила по 70 вопросов теста Mensa Norway. Всем испытуемым давали одну и ту же подсказку (промт).

Мы проделали подобное с несколькими нейросетями и подсказками на русском языке. Ниже примеры того, как нейросети отвечают на простые и сложные задания IQ-теста.

Задание № 2

Второе задание теста Mensa

Второе задание IQ-теста Mensa

Здесь тестируемому нужно определить, какая фигура должна быть последней в третьем ряду. В каждом ряду есть своя закономерность: присутствует одна общая форма (точки, ромб с вогнутыми краями (суперэллипс), квадрат), и вписанные в форму фигуры (круг, крест и ромб) идут друг за другом в каждом ряду.

Нетрудно прийти к выводу, что ответ будет под буквой «Е» — в третьем ряду только квадраты, в третьем столбце во все фигуры вписан ромб. Посмотрим, как с заданием справились некоторые нейросети.

ChatGPT 4

Ответ ChatGPT

ChatGPT отвечает на вопрос теста

ChatGPT быстро справился с задачей и дал корректный ответ. Помимо ответа, мы ещё получили умозаключение о том, как он пришёл к нему. Походу теста, продукт OpenAI покзал, что является одной из умнейших нейросетей.

Claude 3 Sonnet

Ответ Claude

Ответ Клода на вопрос теста

Sonnet тоже оказалась достаточно умной версией. Но к правильному ответу она так и не пришла, в отличие от её последующих собратьев. Но, что примечательно из размышления Claude, нейросеть была готова дать правильный ответ — выстроила точные связи объектов в задаче, но выбрала не тот ответ.

Microsoft Copilot

Ответ Bing Copilot

Ответ на задачу Microsoft Copilot

Copilot ответил неверно, он выбрал вариант «D». Судя по его ответу, он разобрался только в том, какие фигуры идут в каждом столбце, но не учёл, что в фигуру ещё вписана другая фигура.

Gemini

Ответ Gemini

Ответ нейросети от Google

Искусственный интеллект Google также ответил неверно, им был выбран ответ «F». Он был совсем далёк от правильного ответа: он нашёл закономерность в цветах фигур, хотя задание показано в чёрно-белом цвете.

Второе задание было достаточно лёгким — с ним справилось больше половины протестированных нейросетей. А те нейросети, которые не справились с задачей, всё равно нашли правильную закономерность в последовательности фигур.

Задание № 27

Задание 27 из теста Mensa

Задание № 27 IQ-теста Mensa

Задача под номером 27 из теста Mensa — уже другой уровень. Здесь также нужно продолжить последовательность и выбрать, в какую сторону направлен угол и какой он имеет градус.

Следуя логике, угол должен быть прямым, так как в каждом ряду идёт последовательность: 30°, 45° и 90°. Определившись с градусом угла, мы должны понять в какую сторону направлен, осталось два возможных направления — «A», повёрнутый влево, «B» — вверх. Учитывая, что аналогичный вариант «B» уже есть в первом ряду, в этом задании ответ будет под буквой «А».

Посмотрим, как нейросети справились с ним.