«Яндекс» научился синтезировать речь и понимать естественный язык

«Яндекс» создал разработку синтеза речи, и технологии голосовой активации и выделения смысловых объектов в речи. Об этом представители компании поведали на проходящей на данный момент в Москве ежегодной конференции для разработчиков YaC.

Разработка синтеза речи используется для задач озвучивания динамически обновляемой информации, к примеру, в телефонии, в то время, когда для клиента банка необходимо озвучить состояние текущего счета в автоматическом режиме, либо в робототехнике, для озвучивания ответа. Синтез речи возможно нужен для мобильных приложений, которыми люди пользуются в обстановках, в то время, когда у них заняты руки и нет возможности просматривать текст с экрана.

Разработка понимания естественного языка (выделения смысловых объектов) разрешает выделить в выявленном тексте объекты, к примеру, дату, время, фамилию либо адрес. Разработка разрешает руководить компьютером либо смартфоном фразами, каковые не требуется заучивать. К примеру, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, разработка переводит обращение в текст и выделяет такие объекты, как время и адрес подачи. Это разрешит в автоматизированном режиме заполнить нужные поля и оформить заказ.

Наконец, посредством разработки голосовой активации разработчик любого приложения может придумать собственную голосовую команду активации голосового сотрудничества (дабы начать руководить голосом). К примеру, для приложения с рецептами, которое довольно часто применяют в ходе изготовление еды.

Голосовая активация — по сути, это уменьшенная версия совокупности распознавания речи, трудящаяся прямо на устройстве, без подключения к интернету, поведали в компании. Самое сложное при разработке данной технологии было обеспечить энергоэффективность. «Яндекс» прежде всего разбирает звуковой поток на наличие речи. По окончании того как обращение отыскана, включается распознавание текста. Это разрешает существенно сэкономить потребление ресурсов, пояснили в «Яндексе».

«Яндекс» научился синтезировать речь и понимать естественный язык

Протестировать новые разработки возможно в демонстрационном приложении «Яндекс.Диктовка»

Протестировать новые разработки Yandex SpeechKit возможно в демонстрационном приложении «Яндекс.Диктовка», трудящемся на платформе Android. Чтобы включить распознавание голоса, необходимо сообщить приложению «Яндекс, записывай!». Затем возможно продиктовать телефону произвольный текст — к примеру, SMS-сообщение сотруднике либо рецепт для ужина. Разработка распознавания речи переведет обращение в текст.

Разработка выделения смысловых объектов разрешит возможность отредактировать текст посредством голосовых команд: «добавь радостный смайлик», «удали окончательное слово», «замени слово осень на весна» и «начни с новой строчка». Разработка cинтеза речи прочтёт надиктованный текст посредством команды «Прочти все».

Надиктованный в демо-приложении текст возможно скопировать в буфер и загрузить в SMS-сообщение, письмо, комментарий в социальной сети либо сохранить как заметку. Для этого необходимо сообщить одну из команд: «пошли SMS», «пошли в твиттер», «пошли письмо». Все тексты машинально сохраняются в заметки, каковые возможно загрузить на «Яндекс.Диск».

Все новые разработки вошли в существующий пакет инструментов для разработчиков приложений Yandex SpeechKit.

Первый продукт пакета SpeechKit компания «Яндекс» представила в октябре 2013 г. Им стал инструмент для распознавания голоса. В августе 2014 г. компания добавила облачный сервис называющиеся SpeechKit Cloud — он разрешил реализовывать функцию распознавания речи фактически в произвольных устройствах: от смартфонов до медицинской и робототехники.

В соответствии с информации на сайте компании, разработчики приложений для Android, iOS и Windows Phone смогут применять все инструменты SpeechKit Mobile SDK безвозмездно, есликоличество голосовых обращений к приложению не превышает 10 тыс. запросов в день. В случае если число запросов превышает указанный порог, «Яндекс» готов предложить личные тарифы. Цена услуги зависит от объёмов и количества запросов (средняя удельная стоиость — $5 за 1000 запросов).

Интересно почитать:

Распознавание и синтез речи. Классические методы распознавания речи – М. Ф. Аль-Шедиват


Комментарии и пинги к записи запрещены.

Комментарии закрыты.