Сбер представил самую большую модель генерации изображений по текстовому описанию на русском языке — Kandinsky
Сбер представил самую большую модель генерации изображений по текстовому описанию на русском языке — Kandinsky
В ноябре была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Её параметры и код были выложены в открытый доступ, и был разработан сервис генерации изображений. За полгода этим сервисом воспользовались 2 млн уникальных пользователей, которые суммарно сгенерировали 125 млн изображений. Также в ноябре была анонсирована, а в декабре опубликована в маркетплейсе AI Services платформы SberCloud ML Space эксклюзивная модель ruDALL-E XXL c 12 млрд параметров.
В этом году команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.
Дообученная модель Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN). Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.
Создание изображений при помощи модели Kandinsky происходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky), используя текстовое описание, генерирует заданное число изображений. Затем вторая (ruCLIP Large) выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки, а потом третья увеличивает их в размере (доступны как диффузионная модель, так и генеративно-состязательная модель Real-ESRGAN). Итогом работы модели является набор сгенерированных изображений высокого качества. Отличительным преимуществом модели Kandinsky по сравнению с предыдущими версиями является более высокая степень детализации создаваемых изображений.
Модель доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника».
Из сообщения Александра Ведяхина, первого заместителя Председателя Правления Сбербанка:
«Мы продолжаем развивать нейронные сети, которые следуют принципам трёх М — мультимодальности, мультизадачности и мультиязычности. Kandinsky — это мощный прорыв в этой сфере. Она способна точнее сравнивать и анализировать различные изображения, чтобы создавать настоящие живописные картины. Автоматическая генерация изображений открывает новые возможности для бизнеса, который и станет одним из главных бенефициаров новой технологии».
Startpack подготовил список облачных платформ для индивидуальной или совместной работы над дизайном для онлайн-продуктов. Редакторы и конструкторы для создания презентаций, баннеров, фирменного стиля, сайтов, интерфейса приложений или прикладного программного обеспечения. Сервисы для хранения исходников, контроля версий и демонстрации готового визуального продукта. Автоматические системы для предварительной оценки создаваемого дизайна и поиска недочётов.
Статьи по теме
- Сбербанк вышел из капитала «Окко», «Звука», «Облачных технологий» и ЦРТ.
- Руководитель кибербезопасности Сбербанка рассказал о DDoS-атаках небывалой мощности и новых тактиках киберпреступников.
- Сбер создал нейросетевые сервисы, позволяющие сократить или переписать любой текст на русском языке без потери смысла.
- Сбер снизил ставку по IT-ипотеке до 4,7% при электронной регистрации сделки.
Комментариев пока не было