OpenAI представила бенчмарк GeneBench-Pro для оценки ИИ в биологических исследованиях
OpenAI представила бенчмарк GeneBench-Pro для оценки ИИ в биологических исследованиях. Фото: из архива компании
Главное отличие этого бенчмарка от традиционных тестов заключается в том, что задачи разработаны специально для работы с неполными, неструктурированными и зашумленными данными, что максимально приближает условия тестирования к реальной исследовательской практике.
В состав GeneBench-Pro входит 129 вопросов, охватывающих статистическую и популяционную генетику, функциональную геномику и другие подобласти, и для каждого задания модели предоставляется набор данных, экспериментальное описание и связанные вопросы, после чего ИИ должен самостоятельно выбрать методы анализа, скорректировать стратегию и сформулировать выводы, что позволяет оценить не просто объём памяти или выполнение фиксированных инструкций, а истинные аналитические и исследовательские способности.
Чтобы избежать систематической ошибки, OpenAI использовала синтетические данные при разработке теста, что даёт возможность лучше контролировать процесс генерации и гарантировать, что результаты отражают реальное понимание модели, а не случайные угадывания или упрощённые эвристики, и уже опубликовала десять репрезентативных примеров на платформе Hugging Face для интерактивного ознакомления, а в будущем планирует передать пятьдесят вопросов независимым экспертам для объективной оценки производительности различных моделей.
Этот шаг свидетельствует о стремлении OpenAI не просто создавать мощные языковые модели, но и предоставлять инструменты, которые помогут исследователям в биологии и медицине эффективнее обрабатывать сложные данные и принимать обоснованные решения.
Упомянутый сервис
Комментариев пока не было