2012-04-19 3 views
1

Я новичок в области «распознавания голоса» в Android.android: распознавание речи Какие доступные технологии

У меня есть требование в моем приложении иметь «распознавание речи». Так что я делаю домашнее задание. Я нашел, что 1. У Android SDK есть поддержка для этого, и он использовал «распознавание голоса Google» Итак, из того, что я понимаю, погода мы вызываем распознавателя по своему усмотрению или используем класс SpeechRecogniser, фактическое признание выполняется на Google Cloud Server. Я пробовал пример приложений, используя оба метода, и скорость совпадения в обоих случаях очень низкая. \ (Прежде всего, это мое нахождение? Я не получил правильное совпадение для большинства слов/предложений, которые я пробовал).

  1. Будет ли разница в результатах этих двух методов, т.е. запуск намеренно/или с использованием класса SpeechRecogniser)

  2. ли все приложения в зависимости от этого Google технологии, где голос отправить в звуковые байты и распознается на сервере облачных вычислений. Я видел, что Shazam использует другую технологию, но у них есть своя база данных. Существуют ли какие-либо другие используемые технологии

  3. Я видел много «сири для андроида». Любые заметки о том, как эти приложения действительно работают?

Большое спасибо за ваше время и помощь.

ответ

2

1) вы получите одинаковые результаты при использовании либо RecognizerIntent, либо SpeechRecognizer. Основное различие заключается в взаимодействии с пользователем. RecognizerIntent заставляет пользователя пройти стандартную процедуру распознавания речи. С помощью SpeechRecognizer вы можете контролировать, как приложение собирает речь и когда оно обрабатывает ее. Преимущество RecognizerIntent заключается в том, что его легко программировать и знакомы пользователям. С помощью SpeechRecognizer вы можете реализовать расширенные функции, такие как прослушивание речи в фоновом режиме. Вы также получаете отчет об ошибках.

Кроме того, некоторые слова легко распознаются как «яблоко», но некоторые из них трудно воспринимать как «тмин» по разным причинам. Вы должны быть умны, чтобы соответствовать тому, что google возвращает для реализации чего-то надежного.

2) Я не уверен, что вы подразумеваете под их собственной базой данных. У вашего приложения будет «база данных», которую вы пытаетесь сопоставить с тем, что говорит пользователь.

3) Возможно, сочетание обработки естественного языка, моделирования пользователей, методов для подражания человеческому диалогу. Или это просто большой набор правил, закодированных вручную, чтобы они выглядели умными. Мое предположение - это большая работа, чтобы попытаться сделать что-то правдоподобное.

Проверьте некоторые из моих примеров кода здесь: https://github.com/gmilette/Say-the-Magic-Word-

+0

благодарит за ответы. Что касается пункта 2, у shazam есть база данных для всех песен, которые она поддерживает, со всеми возможными «отпечатками пальцев» для каждой песни. Его звуки действительно огромны. и в отношении пункта 3, что мое чтение говорит, что основная технология Siri - это AI.Только если ИИ эффективно используется, можно получить распознаватель голоса – png

+0

Коррекция: вам не нужен ИИ для распознавания голоса. Вам нужен ИИ, чтобы попытаться реализовать приложение, в котором есть беседа с пользователем. – gregm

Смежные вопросы