ИИ-переводчики давно существуют, однако большинство из них лучше справляются с переводом текста, чем с речевой информацией. Обычно процесс перевода включает три этапа: сначала речь преобразуется в текст, затем текст переводится, и наконец, результат снова превращается в речь. Это приводит к медленной работе и возможным ошибкам на каждом этапе.
SEAMLESSM4T, напротив, способен напрямую преобразовывать речь в речь, используя синтезатор голоса. Система может перевести слова, сказанные на любом из 101 поддерживаемого языка, на 36 других, что отличает её от большинства существующих моделей, ориентированных преимущественно на английский. Прямые тесты показали, что эта модель на 23% точнее, чем текущие лидеры отрасли, и работает почти так же быстро, как профессиональные переводчики. Помимо этого, SEAMLESSM4T может выполнять переводы между различными форматами: текст в текст, текст в речь и наоборот.
Последние годы ознаменовались значительным прогрессом в области машинного перевода благодаря развитию больших языковых моделей, лежащих в основе популярных чат-ботов, таких как ChatGPT и Claude. Эти модели обучаются на огромных массивах данных, собираемых из интернета, включая блоги, форумы и Википедию. Для повышения точности данные вручную размечались людьми, создавая своеобразную «основную истину» для ИИ.
Однако не все языки представлены в одинаковой степени в этих корпусах данных. Чтобы преодолеть эту проблему, команда разработчиков SEAMLESSM4T применила метод параллельного интеллектуального анализа данных, который автоматически находит аудиофрагменты на одном языке с соответствующими субтитрами на другом. Эти сопоставленные фрагменты создают огромные объемы обучающих данных на разных языках без необходимости ручной разметки. Всего было собрано около 443 тысяч часов аудио с совпадающими текстовыми метками, что позволило создать около 30 тысяч выровненных пар «речь-текст».
SEAMLESSM4T состоит из трёх компонентов: два блока отвечают за обработку входящего текста и речи, третий — за генерацию вывода. Модель была предварительно обучена на базе набора данных объемом 4,5 млн часов устного аудио на множестве языков. Это помогло ИИ выявить общие структурные закономерности в речи вне зависимости от конкретного языка, создав прочную основу для дальнейшего улучшения качества перевода, особенно для менее распространённых языков.
Тесты показали, что SEAMLESSM4T значительно превосходит существующие системы, демонстрируя на 23% большую точность по результатам стандартизированных тестов.