Сведения о вопросе

LARVION

00:02, 20th August, 2020

Как начать работу с speech-to-text?

Просмотров: 465 Ответов: 6

Я действительно заинтересован в алгоритмах speech-to-text, но я не уверен, с чего начать изучать их. Куча поисков вокруг привела меня к этому, но это с 1996 года, и я довольно уверен, что с тех пор произошли улучшения.

Есть ли у кого-нибудь, кто имеет опыт работы с такого рода вещами, какие-либо рекомендации по чтению / исходному коду для изучения? Или просто общие советы о том, что я должен пытаться узнать, если я хочу попасть в мир написания программ распознавания речи (иногда трудно понять, что искать, если у вас нет больших знаний о домене).

Edit: я хотел бы сделать что-то кросс-платформенное, но на данный момент я бы нацелился на linux.

Правка 2: Спасибо csmba за хорошо продуманный ответ. На данный момент меня в основном интересует возможность создавать приложения, которые позволяют автоматизировать или выполнять различные команды с помощью голоса. Таким образом, ограниченное количество узнаваемых команд может быть нанизано вместе. Примером может служить музыкальный плеер, который принимает команды типа "Play the album Hello Everything by Squarepusher", или программа запуска приложений, которая позволяет пользователю создавать голосовые ярлыки для запуска определенных приложений.

Я понимаю, что это довольно гигантская проблема, и что у меня нет даже близко того уровня знаний, который требуется прямо сейчас для реализации всего механизма распознавания, хотя методы, связанные с этим, очаровывают меня, и это то, что я хотел бы сделать сам. По всей вероятности, я, вероятно, закончу тем, что возьму книгу или две по этому вопросу и изучу / поиграю с реализациями "simple" в свободное время.

Сведения об ответе

PAGE

04:25, 6th August, 2020

Это HUGE вопросов, я бы не знал, с чего начать... Так что позвольте мне просто попробовать дать вам правильный "terms", чтобы вы могли усовершенствовать свой поиск:

Во-первых, поймите, что распознавание речи-это разнообразный и сложный предмет, и он имеет много различных применений. Люди склонны сопоставлять этот домен с первым, что приходит им в голову (обычно это компьютеры, понимающие, что вы говорите, как в системах IVR). Итак сначала давайте разделим понятие на основные категории:

Human-to-Machine: приложения, которые имеют дело с пониманием того, что говорит человек, но человек знает, что он говорит с машиной, и grammar очень ограничен. Примеры

Компьютерная автоматизация

Специализация: пилоты, автоматизирующие некоторые элементы управления, например (шум-огромная проблема)

IVR (интерактивный голосовой ответ) системы, такие как Google-411 или когда вы звоните в банк и компьютер на другой стороне говорит: "Скажите 'service', чтобы получить обслуживание клиентов"

human-to-human (спонтанная речь): это более серьезная и сложная проблема. Здесь мы также можем разбить его на различные приложения:

Колл-центр: разговор между агентом-клиентом, качество телефона, сжатый

Интеллект: radio/phone/live разговоры между 2 или более лицами

Так вот, Speech-To-Text-это не то, что вы должны были бы сказать, что вас волнует. То, что вас волнует, - это решение проблемы. Для решения различных задач используются разные технологии. Смотрите здесь обзор некоторых из них. подводя итог, можно сказать, что другие подходы - это фонетическая транскрипция, LVCSR и прямая основа.

Кроме того, вы заинтересованы в том, чтобы быть PHd за этой технологией? вам понадобится эквивалент Masters, включающий обработку сигнала и, вероятно, PHd, чтобы быть передовым. В этом случае вы будете работать на компанию, которая разрабатывает собственно речевой движок . Такие компании, как Nuance и IBM, являются крупными, но также существуют Phillips и другие стартапы.

С другой стороны, если вы хотите быть тем, кто реализует приложения, вы не будете работать над двигателем, а будете работать над созданием приложения, которое USE двигатель. Хорошая аналогия я думаю это форма игровой индустрии: Вы разрабатываете графический движок (например, Cry engine) или работаете над одной из нескольких сотен игр, все они используют один и тот же графический движок?

Не поймите меня неправильно, есть много работы над качеством поиска также за пределами IBM/Nuance of the world. Движок обычно очень открыт, и есть много алгоритмических настроек, которые могут значительно повлиять на производительность. Каждое бизнес-приложение имеет различные ограничения и функции затрат / выгод, поэтому вы можете проводить эксперименты в течение многих лет, создавая лучшие приложения на основе распознавания голоса.

еще одна вещь: в целом, вы также хотели бы иметь хороший фон статистики, чем ниже в стеке вы хотите быть.

На данный момент я в основном заинтересован в том, чтобы иметь возможность создавать приложения, которые позволяют автоматизировать

Хорошо, что мы здесь сходимся... Тогда у вас нет никакого интереса к "Speech-to-Text". Это модное словечко переносит вас в мир полной транскрипции, место, куда вам не нужно идти. Вы должны быть сосредоточены на некоторых из более Human-to-Machine технологий, таких как Voice XML и те, которые используются в системах IVR (Nuance является крупнейшим игроком там)

Сведения об ответе

DO__IT

16:13, 27th August, 2020

Я бы определенно рекомендовал взять одну или две книги , если вы новичок в этой области. У меня нет никакого опыта в этой области, поэтому я не могу дать рекомендацию. Если вы все еще учитесь в колледже (или все еще имеете тесные связи), вам следует выяснить, может ли кто-нибудь из ваших профессоров дать рекомендацию.

Опрос, который вы связали, вероятно, также является отличным ресурсом. Я уверен, что с 1996 года были достигнуты определенные успехи, но основы вряд ли кардинально изменились. Если опрос хорошо написан, то стоит потратить свое время на его прочтение.

Сведения об ответе

lourence

01:24, 9th August, 2020

Для OS X проверьте это: технологии речи OS X

Для Windows проверьте это: Microsoft Speech API

Сведения об ответе

piter

08:16, 23rd August, 2020

Я работал с продуктом IBMs ViaVoice . Он имеет хороший ASR (автоматическое распознавание речи) двигатель и хороший text-to-speech двигатель.

Сайты не очень хорошие, но это ссылка на встроенную версию http://www-01.ibm.com/software/voice/support/

Однако это платформа агностическая, и все работает через архитектуру MVC, используя vxml вариант xml для голосовых целей.

Сведения об ответе

PIRLO

08:05, 10th August, 2020

На какую платформу вы ориентируетесь ?. Существует Microsoft Speech APIs , который вы можете использовать, если его для windows.

Сведения об ответе

DO__IT

09:04, 10th August, 2020

Существует также Служба распознавания речи для Android.

Сведения о вопросе

LARVION

00:02, 20th August, 2020

Теги

Как начать работу с speech-to-text?

Сведения об ответе

PAGE

04:25, 6th August, 2020

Сведения об ответе

DO__IT

16:13, 27th August, 2020

Сведения об ответе

lourence

01:24, 9th August, 2020

Для OS X проверьте это: технологии речи OS X

Для Windows проверьте это: Microsoft Speech API

Сведения об ответе

piter

08:16, 23rd August, 2020

Сведения об ответе

PIRLO

08:05, 10th August, 2020

На какую платформу вы ориентируетесь ?. Существует Microsoft Speech APIs , который вы можете использовать, если его для windows.

Сведения об ответе

DO__IT

09:04, 10th August, 2020

Существует также Служба распознавания речи для Android.

Ответить на вопрос

Как зайти в Даркнет?! 25th January, 01:11 183 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 1157 0

Очень долго работает Update запрос Oracle 27th January, 09:58 1065 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 1040 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 1082 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1878 0

период по дням 25th October, 10:44 4096 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3858 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4783 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4524 0

Помогите пожалуйста решить задачи 24th November, 23:53 6273 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4488 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4571 0

Метода Крамера С++ 23rd October, 11:55 4472 0

помогите решить задачу на C++ 22nd October, 17:31 4139 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4617 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2740 0

Все вопросы

Сведения о вопросе

LARVION

00:02, 20th August, 2020

Теги

Как начать работу с speech-to-text?

Сведения об ответе

PAGE

04:25, 6th August, 2020

Сведения об ответе

DO__IT

16:13, 27th August, 2020

Сведения об ответе

lourence

01:24, 9th August, 2020

Для OS X проверьте это: технологии речи OS X Для Windows проверьте это: Microsoft Speech API

Сведения об ответе

piter

08:16, 23rd August, 2020

Сведения об ответе

PIRLO

08:05, 10th August, 2020

На какую платформу вы ориентируетесь ?. Существует Microsoft Speech APIs , который вы можете использовать, если его для windows.

Сведения об ответе

DO__IT

09:04, 10th August, 2020

Существует также Служба распознавания речи для Android.

Ответить на вопрос

Как зайти в Даркнет?!

25th January, 01:11

183

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

1157

0

Очень долго работает Update запрос Oracle

27th January, 09:58

1065

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

1040

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

1082

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1878

0

период по дням

25th October, 10:44

4096

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3858

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4783

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4524

0

Помогите пожалуйста решить задачи

24th November, 23:53

6273

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4488

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4571

0

Метода Крамера С++

23rd October, 11:55

4472

0

помогите решить задачу на C++

22nd October, 17:31

4139

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4617

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2740

0

Для OS X проверьте это: технологии речи OS X

Для Windows проверьте это: Microsoft Speech API