OpenAI представила бенчмарк GeneBench-Pro для оценки ИИ в биологических исследованиях

Компания OpenAI выпустила новый тестовый комплекс GeneBench-Pro, который оценивает способность моделей искусственного интеллекта проводить анализ в таких сложных областях, как геномика, протеомика, количественная биология и трансляционная медицина.

OpenAI представила бенчмарк GeneBench-Pro для оценки ИИ в биологических исследованиях. Фото: из архива компании

Главное отличие этого бенчмарка от традиционных тестов заключается в том, что задачи разработаны специально для работы с неполными, неструктурированными и зашумленными данными, что максимально приближает условия тестирования к реальной исследовательской практике.

В состав GeneBench-Pro входит 129 вопросов, охватывающих статистическую и популяционную генетику, функциональную геномику и другие подобласти, и для каждого задания модели предоставляется набор данных, экспериментальное описание и связанные вопросы, после чего ИИ должен самостоятельно выбрать методы анализа, скорректировать стратегию и сформулировать выводы, что позволяет оценить не просто объём памяти или выполнение фиксированных инструкций, а истинные аналитические и исследовательские способности.

Чтобы избежать систематической ошибки, OpenAI использовала синтетические данные при разработке теста, что даёт возможность лучше контролировать процесс генерации и гарантировать, что результаты отражают реальное понимание модели, а не случайные угадывания или упрощённые эвристики, и уже опубликовала десять репрезентативных примеров на платформе Hugging Face для интерактивного ознакомления, а в будущем планирует передать пятьдесят вопросов независимым экспертам для объективной оценки производительности различных моделей.

Этот шаг свидетельствует о стремлении OpenAI не просто создавать мощные языковые модели, но и предоставлять инструменты, которые помогут исследователям в биологии и медицине эффективнее обрабатывать сложные данные и принимать обоснованные решения.