Новая система машинного описания изображений Microsoft превосходит людей

Исследователи Microsoft разработали новую модель обнаружения атрибутов объекта для кодирования изображений VinVL. Главная функция модели — описание изображений на естественном языке.

Алгоритм описания изображений Microsoft работает лучше людей. Фото: Pixabay

Системы Vision-Language (VL) позволяют искать соответствующие изображения по текстовому запросу (или наоборот). Они также помогают описать содержание изображения.

В большинстве случаев системы используют два модуля для достижения понимания VL: модуль кодирования изображения для создания карт характеристик входного изображения и модуль слияния визуального языка для преобразования закодированного изображения и текста в векторы в одном семантическом пространстве.

Читайте в тему:

Новое исследование Microsoft сосредоточено на улучшении модуля кодирования изображений. В сочетании с модулями объединения VL, такими как OSCAR и VIVO , новейшая система VL от Microsoft показала высокие результаты в самых конкурентных тестах искусственного интеллекта (AI) , включая визуальные ответы на вопросы (VQA), Microsoft COCO Image Captioning и новые подписи объектов (nocaps).

Технический гигант также подчеркнул, что VinVL значительно превосходит человеческие показатели в таблице лидеров nocaps для оценки описания изображения на основе консенсуса (CIDEr).

Microsoft обучила свою модель обнаружения атрибутов объектов VinVL, используя набор данных обнаружения больших объектов, содержащий 2,49 миллиона изображений, относящихся к 1848 классам объектов и 524 классам атрибутов, для достижения упомянутых выше результатов. В компании также сформировали набор данных, объединив четыре общедоступных массива для обнаружения объектов (COCO, Open Images, Objects365 и VG).

«Сначала мы обучили модель обнаружения объектов на объединённом наборе данных, а затем настроили модель с дополнительной ветвью атрибутов на VG, что сделало её способной обнаруживать как объекты, так и атрибуты», — сообщают в Microsoft. — «Наша модель обнаружения атрибутов объектов может обнаруживать 1594 класса объектов и 524 визуальных атрибута. В результате, согласно нашим экспериментам, модель может обнаруживать и кодировать почти все семантически значимые области входного изображения».

Несмотря на многообещающие результаты, Microsoft заявила, что её модель пока не готова для корпоративных решений.

Компания также объявила, что VinVL станет общедоступной. Платформа будет интегрирована в Azure Cognitive Services для поддержки широкого спектра сервисов Microsoft, включая субтитры к изображениям в Office и LinkedIn, а также Seeing AI.

Как сообщал Startpack, ранее разработчик Ink Calendar Windows 10 представил приложение для захвата текста из фото.

Startpack также подготовил список облачных сервисов для программистов и разработчиков для повышения эффективности труда, совместной разработке и аналитики качества кода.