Движок голосовой на андроид. Обзор синтезаторов речи для андроид

Если Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.

В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.

Я занимаюсь исследованиями в области проектирования интерфейсов мобильных устройств для людей с ограниченными возможностями зрения. Для реализации одного из моих проектов мне потребовался движок генерации голоса с мультиязыковой поддержкой (как минимум два языка – английский и русский). Это и послужило причиной поиска синтезатора речи.

Для удобства разделим движки TTS на три класса:

  • коммерческие;
  • свободные (решения лицензированные по GPL, LGPL и более «мягким» лицензиям типа BSD License или wxWindows Licence, которые допускают коммерческую разработку продуктов);
  • встроенные (средства, предоставляемые самой операционной системой).

Коммерческие движки

SVOX Mobile TTS

Цена: n/a
Языки: 26, включая русский
высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, BREW

Компания SVOX имеет наиболее «вкусный» с технической точки зрения продукт - SVOX Mobile TTS . Однако, поскольку компания работает в основном в B2B сегменте, на мои два письма с запросом цены они так и не ответили.

Цена, указанная в шапке, относится к таким операционным системам как Windows Mobile и Symbian, однако бизнес-модель Acapela разнится в зависимости от выбранной ОС. К примеру, наиболее сильно они продвигают направление iOS, для которого сделан отдельный сайт . Там можно зарегистрироваться и бесплатно получить evaluation версию их движка. Цена голого SDK для бывшей iPhone OS составляет 250€. Так же с каждого проданного Вами в App Store приложения снимаются немалые проценты.

Отмечу, что Acapela предоставляет «облачный» синтез речи , а так-же портирование SDK под любую платформу.

Свободные движки

Flite
Цена: нет
Языки: английский плюс возможность компиляции языков FestVox
Субъективная оценка качества звучания: низкое
Мобильные ОС: Android, Windows CE/Windows Mobile, iOS, PalmOS
Возможность разработки коммерческих продуктов: есть (CMU licence)

В мире настольных систем хорошо известен синтезатор речи Festival. Он имеет порт под названием Flite для мобильных устройств и встраиваемых систем, который распространяется под их собственной X11-like лицензией, позволяющей свободно распространять данное ПО кому угодно, а так же строить на его основе как коммерческие, так и свободные приложения. Существуют порты для Windows CE/Windows Mobile , PalmOS, Android и .

Инструкция для компиляции движка под WM включена в дистрибутив, однако на этой платформе eSpeak имеет одно существенное ограничение – генерация голоса возможна только в WAV файл. Собранный TTS engine для Windows Mobile можно получить .

ESpeak портирован на Android . Самый простой способ его попробовать - это установить из Android Market’а приложение TTS Service Extended, которое позволяет переключаться между встроенным движком и eSpeak. Данный TTS движок распространяется на условиях GNU GPL.

Встроенные решения

Встроенные решения присутствуют только в Symbian и Android. По какой-то неизвестной причине Microsoft лишила свою мобильную ОС соответствующего программного интерфейса (MS SAPI).
Symbian

Цена: нет
Языки: английский
Субъективная оценка качества звучания: крайне низкое
Возможность разработки коммерческих продуктов: есть

Встроенный TTS от Symbian Foundation скрывается в классе CMdaAudioPlayerUtility. Хотя в его ничего об этом не сказано, он все же позволяет синтезировать речь. К сожалению, русский язык не поддерживается. Качество генерации английской речи очень низкое. Без подготовки довольно трудно понять, что именно он произнес.

Дополнительные языковые пакеты можно загрузить , однако список поддерживаемых телефонов крайне мал. Установка пакетов для русского языка на устройство под управлением Symbain OS S60 5th не дала ожидаемых результатов, встроенный TTS так и не заговорил по-русски.

Отмечу, что имеется достаточно удобное расширение API под названием NSS TTS Utility API, описание которого можно найти

Nuance VocalizerEx TTS Milena Rus – это система озвучивания текста голосом, которую ты можешь скачать бесплатно, является полноценным синтезатором речи для Андроид.

Твои SMS, текстовые файлы, книги и имена абонентов, которые тебе звонят, с помощью данного приложения для Андроид смогут быть озвучены красивым и правильным женским голосом Милена. Приложение Вокалайзер работает не только с телефонами и планшетами, поддерживающими технологию TTS, но и с таким приложениями, как:

Как установить синтезатор речи для Андроид – Nuance VocalizerEx TTS Milena Rus?

  1. Следует переместить в корень карты памяти папку VocalizerEX на sdcard/ (sdcard0/) или сделать так: cdcard\VocalizerEx , mnt\extSdCard\VocalizerEx (устройства со внутренней картой памяти в vocalizer, можно в настройках TTS вручную указать путь, где лежит папка VocalizerEx). Root для Андроид не обязателен.
  2. Установим APK - vocalizer_e.tts_1.0.2.3j.apk
  3. Зайдем на устройстве в Настройки - Язык и Ввод - Синтез речи (или подобное).
  4. Выбираем VocalizerEx TTS. После активации можно прослушать пример произношения (возможно, некоторые телефоны или планшеты нужно будет перезагрузить). В настройках можно изменить скорость речи и т.п., путь к каталогу.
  5. Используем в программах.

Внимание ! файл, который ты скачаешь - это самораспаковывающийся архив, имеет расширение [*.exe]. Все, что необходимо - выбрать на ПК под Windows путь, куда нужно извлечь содержимое. Данная функция значительно экономит место на нашем сервере и твой/наш трафик. Исходный размер: 767 MB (экономия 107 MB).

Языковые движки и синтезаторы (TTS text-to-speech) для русского языка никогда не были чем-то совершенным. В отличие от английских, чье развитие шло постоянно и неуклонно, лучшим представителем отечественных синтезаторов уже более десяти лет был мужской голос Николай от компании Acapela. Конкуренцию ему в последние годы составляли два вполне приличных женских варианта - Алена (Acapela) и Катерина, позднее - Катерина II (ScanSoft RealSpeak).

Для повседневного использования требовались определенные усилия, а уж для мобильных платформ, в первую очередь Android, они подходили лишь в связке с персональным компьютером, заставляя перегонять текст в звук, чтобы позднее воспроизводить стандартным Mp3 плеером на конечном устройстве.

Некоторую надежду на прогресс, как это часто бывает, дарила корпорация добра Google, см. наш материал:
. До недавнего времени максимум возможностей, предоставляемых поисковым гигантом, сводился к онлайн работе с их синтезатором. Результат, откровенно говоря, не был чем-то революционным. С примером работы Google API TTS вы можете ознакомиться на с общей информацией о Клубе.

Существовало и еще несколько решений, заточенных непосредственно под использование со смартфонами:

  • Поставляемый по умолчанию Pico TTS - без русского языка
  • IVONA Text-to-Speech - к сожалению, поддержка русского пока не реализована, хотя официальный голос Татьяна представлен на сайте разработчика
  • SVOX Classic Text To Speech Engine - единственная рабочая модель. Установка софта - бесплатная, пробный период на ознакомление. Конечная цена ~ 3USD
Как видите, реально работает только решение SVOX . При всей "реальности", работает система из рук вон плохо. То есть основное свое предназначение - читать по-русски, формально она выполняет, но читает плохо.

И вот, в конце мая 2014 года в Google Play появляется их новый абсолютно бесплатный Синтезатор речи Google . Этот продукт легко затыкает за пояс прошлые решения с использованием русских систем TTS, более того, по моему скромному мнению, этот женский голос лучше доступных решений для персональных компьютеров.

Ниже приведен небольшой демофрагмент полученный со смартфона с установленным синтезатором речи Google - русский женский голос (пока единственный из доступных)

Запись получена через стандартную программу для fb2 FBReader с подключенным модулем чтения Даже если вы не воспринимаете компьютерную речь в контексте озвучивания книг, это решение позволит вам апгрейдить своего мобильного друга. Гугль навигация начнет читать вам названия улиц, специальные приложения смогут озвучивать текст СМС и номера при входящих звонках.

Кроме того, и это весьма полезно для слабовидящих или незрячих пользователей, теперь можно полноценно использовать TalkBack - аналог знакомого многим по работе на персоналках скрин-ридера Jaws. Эта система реализует потенциал Android для голосового оповещения о всех событиях на телефоне, позволяющего управлять им, не видя экрана.

    Недостатки в работе с синтезатором
  • Существенный минус для любителя аудиокниг - повышенное энергопотребление, за пару часов озвучивания вы потеряете до половины заряда аккумулятора
  • Неприятность, зафиксированная лишь во время проигрывания через динамик телефона: легкий fade in - затухание уровня звука в начале предложения. Через проводную гарнитуру, внешнее устройство и bluetooth этот эффект отсутствует
  • Нет поддержки пользовательских ударений и словарей

Особенных чудес ждать не приходится - это всего лишь компьютер, впрочем, некоторая холодность во время чтения кому-то может показаться приятным отдохновением после избытка театральности в работе отдельных исполнителей.

Установка синтезатора предельно проста.
Заходим на страницу продукта в магазине . Google Play, как обычно, известит вас о совместимости с вашим устройством - требуется Android 4.0.3 и выше, затем произойдет загрузка и установка. После чего нужно скачать "голос":
Настройки -> Специальные возможности -> Вывод функции текста в речь -> Синтезатор речи Google (не пугайтесь грозного предупреждения, ничего нового о вас производитель через эту программу не узнает, ему и так все доподлинно известно) -> скачать. И для спокойствия - перезагрузить.

    UPD.: октябрь 2016
Для андроид 4,2 (лучше 4,4) и выше к базовому женскому голосу добавлено 6 новых - три мужских и три женских:


SVOX Classic Text To Speech Engine голосовой движок для платформы является программой, позволяющей воспроизводить любой текстовый документ в виде речевого потока. На каждом устройстве, работающем под управлением ОС Android имеется встроенная программа позволяющая, преобразовывать текст в человеческую речь. Однако недостатком этой программы является то, что она поддерживает только иностранные языки. Особенностью же SVOX Classic Text To Speech Engine как раз является то, что данная программа умеет "говорить" по-русски.


Использование SVOX Classic Text открывает массу новых возможностей. Благодаря ему вы сможете озвучивать различные программы, воспроизводить электронные книги и важные сообщения. SVOX Classic Text поддерживает работу с более чем 25-ю языками. Благодаря такому набору данная программа является уникальной в своём роде. Здесь также имеется возможность выбора голосового сопровождения - всего их здесь сорок вариантов. Для воспроизведения текста на русском языке необходимо скачать специальное дополнение к программе, которое легко найти в Интернете. Для дальнейшей работы достаточно установить программу вместе с этим дополнением и всё - ваш смартфон говорит по-русски!


Настройки SVOX Classic Text при воспроизведении текста позволяют установить использование этой программы по умолчанию. Для этого достаточно зайти в настройки приложения и перейти в раздел «голосовой ввод - вывод». Там нужно отметить галочкой пункт «система, устанавливаемая по умолчанию». После этого пользователь также может выбрать и голос, используемый по умолчанию.

На нашем сайте вы можете скачать русские голосовые движки на ваш Андроид смартфон. В комплекте сама программа, уже активированная ключом и не требует регистрации, а так же 40 мужских и женских голосов на 25 языках, естественно включая русский. Теперь ваш умный телефон по настоящему становится таковым, дайте ему любой текст или команду и он будет читать любой массив текста за вас, на нужном вам языке.

Экранный диктор для Андроид или смартфон для слабовидящего или незрячего человека

Современный мир постоянно прогрессирует. Выпустился замечательный программный продукт — экранный диктор, благодаря которому человек лишенный зрения может окунуться в мир высоких технологий. Ранее мы писали , а в данном обзоре рассмотрим приложения для смартфона.

Программное обеспечение синтезатора речи выглядит в виде приложения, которое обеспечивает перевод текстовой информации в голосовую.

Большое разнообразие данной продукции не перестает удивлять пользователей, предлагаю подробно рассмотреть самые популярные.

Классификация приложений

Уже разработано и выпущено большое количество синтезаторов речи, с их помощью одно удовольствие не только воспринимать зрительно полезную информацию, но и слышать.

Данные программы делятся на два вида: платные и бесплатные.

Те программы, которые «шаровые» имеют более скудный арсенал возможностей, но тоже подлежат к использованию, с платными версиями дела обстоят повеселее, их обширность не знает предела.

Русскоязычные синтезаторы речи

Для таких операционных систем как Android, есть очень много вариантов синтезаторов речи, но большинство из них не имеют русскоязычных версий.

Рассмотрим несколько самых популярных экранных дикторов:

Данная программа разработана для Android. Обладает высокими показателями синтеза речи, многоязычная, насчитывает 25 разных языков, в том числе и русифицирована.

Разработчиками является Acapela Group S.A.. Примерная стоимость составляет 4 евро.

Мультиязычный синтезатор речи, который не является коммерческим. Обработка информации на 37-ми языках, озвучка хорошая есть много вариантов голосов.

Работает на нескольких операционных системах Linux, Mac OS, Microsoft Windows и RISC OS. Для правильного голосового воспроизведения, был разработан расширенный словарь.

Из-за некоммерческой деятельности программа работает немного хуже, чем платные приложения, но в планах у разработчиков есть идеи для улучшения работоспособности.

Настройка TTS

Первоначально необходимо определиться, какой из синтезаторов речи подходит больше всего. Скачать и установить приложение, после чего перейти к настройкам TTS. Разберем пошаговую инструкцию:

  1. Начинать необходимо с запуска;
  2. После чего необходимо зайти в настройки приложения;
  3. Выбрать и установить необходимый язык;
  4. Определиться с синтезом речи;
  5. Следует выбрать движок, чаще всего «автоматически»;
  6. Выставить скорость речи, которая подходит;
  7. По своему усмотрению настроить дополнительные параметры, необходимые для работы.

Когда все параметры выставлены, по необходимости, можно приступать к эксплуатации.

TalkBack — это стандартный утилит, который обычно встроен в ОС Android. Данная функция была разработана для людей с проблемным зрением, слабовидящие люди благодаря TalkBack, могут пользоваться гаджетами без особых проблем.

При первоначальном запуске программы можно воспользоваться инструкцией. В экранном дикторе очень обширные настройки. Во всех устройствах, на разных видах прошивки, есть небольшие отличия настроек сервиса.

Основными возможностями TalkBack считаются:

  • Меняющийся уровень громкости воспроизведения;
  • Возможность изменения тональности голоса;
  • Озвучка каждого нажатия клавиш;
  • Есть датчик расстояния, благодаря которому регулируется уровень звука;
  • Устройство сообщает информацию о поступающих вызовах и смс, принцип АОН;
  • Преобразование речи в текст и наоборот;
  • Управление жестами.

Это основные возможности, но есть и большое разнообразие второстепенных.

TalkBack — незаменимое приложение для людей, которые утратили возможность видеть, пользоваться теми же устройствами, что и зрячие

Для слабовидящих это настоящая находка. Людям с полноценным зрением данное приложение не будет удобным, оно может раздражать, и замедлять процесс работы на устройстве.

Человеку, который не может ничего видеть, будет достаточно сложно настроить программу самостоятельно, поэтому лучше всего обратиться за помощью к окружающим людям.

Для гаджетов, работающих на Android, есть возможность голосовой помощи в управлении. TalkBack произносит все иконки, на которые можно кликать пальцем, или просто во время передвижения по экрану.

В этом помогает функция «Изучение при касании». Есть подробная инструкция, как именно пользоваться этой функцией.

После ознакомления с инструкций, у пользователей не возникает проблем с работой в устройстве.

Для того, чтобы выбрать нужную иконку и активировать элемент, достаточно нажать пальцем на значок, при этом произойдет воспроизведение голосовой подсказки. Так же удобства придает скроллинг, сопровождение которого происходит разной тональности.

Видео: Acapela Tts Voices для Android

Заключение

Разобравшись с работой и функционалом экранных дикторов, можно сделать следующие выводы:

  1. Дикторы являются незаменимой программой для людей с проблемным зрением и слепотой;
  2. При помощи таких программ можно озвучить любую тестовую информацию;
  3. Информацию, воспроизводимую голосом, легко превратить в написанный текст;
  4. Стоимость на голосовые дикторы небольшая, есть даже бесплатные.