16.11.2012 | Технологии

Переводчик Microsoft заговорит голосом пользователя

Microsoft Research продемонстрировала перевод с английского на язык путунхуа с задержкой в несколько секунд, причем сам вариант на путунхуа звучал в вокальной манере оригинала.

Презентацию технологии провёл директор Microsoft по разработкам Рик Рашид. Он произнёс всего восемь английских фраз в микрофон системы распознавания, перевода и генерации речи. Две тысячи студентов и учёных были явно поражены результатом.

Утверждается, что это итог нововведений на всех стадиях процесса. Программное обеспечение вроде Dragon Naturally Speaking компании Nuance уже совершило тихую революцию в области распознавания речи. И теперь продукты, основанные на этой технологии, широкой публике доступны в виде приложения Siri для iPhone или голосового интерфейса игрового контроллера Kinect.

Хотя подобные системы часто ошибаются (по словам г-на Рашида, неправильно интерпретируется каждое четвёртое − пятое слово), сегодняшние намного лучше вчерашних. Microsoft применила новую систему машинного обучения на основе искусственных нейронных сетей, которая сокращает непонимание до каждого седьмого − восьмого слова. А это значит, что программа-переводчик Bing Translate выдаст генератору речи более точный текст.

Но самое большое достижение — это, конечно, генерация речи с сохранением модуляций голоса говорящего. Собеседникам будет легче друг друга понять, и тем самым общение станет эффективнее. Рашид битый час общался с машиной, прежде чем она усвоила все нюансы его разговорной манеры. Надо признать, что новая система оставила технологию Dragon Naturally Speaking далеко позади.

«Ещё несколько лет, — сказал собравшимся Рашид, — и мы сломаем языковые барьеры между народами».

Источник – «Комментарии».

Фотогармошка 300х250
Аккерманская крепость
Адвокат