В Amazon представили крупнейшую модель преобразования текста в речь

Исследователи из Amazon представили крупнейшую на сегодняшний день модель преобразования текста в речь, которая позволяет лучше формулировать сложные предложения.
В Amazon представили крупнейшую модель преобразования текста в речь

В Amazon представили крупнейшую модель преобразования текста в речь. Фото: из архива компании

Модель BASE TTS (преобразование текста в речь), которая расшифровывается как Big Adaptive Streamable TTS с новыми возможностями, как считают в компании, может заложить основу для более комфортной среды человеческих взаимодействий.

Согласно исследованию, интенсивное обучение моделям TTS может повысить надежность и универсальность точно так же, как и с большими языковыми моделями (LLM), используемыми для искусственного интеллекта.

Модель преобразования текста в речь была обучена на 100 тыс. часов речевых данных, которые находятся в открытом доступе, что придает инструменту «современную естественность». Преимущественно использовался английский язык, также некоторые данные на немецком, голландском и испанском языках.

Исследователи обнаружили, что даже тренировка модели TTS на 10 тыс. часов речи может привести к улучшению способности более естественно формулировать сложные предложения.

Имея 980 млн параметров, BASE-large была признана крупнейшей когда-либо созданной моделью преобразования текста в речь. Команда также обучила меньшие модели с 400 млн и 150 млн параметров и 10 тыс. и 1 000 часов речи, чтобы сравнить результаты.

Команда Amazon описывает BASE TTS как «высокоточную модель, способную имитировать характеристики речь всего за несколько секунд эталонного звука».

Некоторыми из ключевых областей, на которых сосредоточились исследователи, были сложные существительные, эмоции, иностранные слова, паралингвистика, пунктуация, вопросы и синтаксические сложности.

Startpack подготовил списоксервисов для автоматизации работы с документами. Подборка включает в себя инструменты проверки правописания, передачи файлов, рецензирования, мониторинга истории изменений, сканирования текстов и изображений и перевода их в текст. Приложения позволяют отслеживать историю изменений документов при совместной и индивидуальной работе, а также рецензировать их. Могут быть запущены из облака с сервера или локального персонального компьютера.

Статьи по теме

Больше интересного

Актуальное

Разработчики Zoom призывают немедленно обновить программное обеспечение
«Подзадача для каждого исполнителя» — практичный способ быстрой постановки поручений в ПланФиксе
Специально в честь дня всех влюбленных RoboGPT запустил акцию!
Ещё…