Как зайти в Даркнет?!
25th January, 01:11
6
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
894
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
948
0
Очень долго работает Update запрос Oracle
27th January, 09:58
913
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
905
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
938
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1724
0
период по дням
25th October, 10:44
3955
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3720
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4613
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4381
0
Помогите пожалуйста решить задачи
24th November, 23:53
6086
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4350
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4396
0
Метода Крамера С++
23rd October, 11:55
4309
0
помогите решить задачу на C++
22nd October, 17:31
4002
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4492
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2599
0
Как начать работу с speech-to-text?
Я действительно заинтересован в алгоритмах speech-to-text, но я не уверен, с чего начать изучать их. Куча поисков вокруг привела меня к этому, но это с 1996 года, и я довольно уверен, что с тех пор произошли улучшения.
Есть ли у кого-нибудь, кто имеет опыт работы с такого рода вещами, какие-либо рекомендации по чтению / исходному коду для изучения? Или просто общие советы о том, что я должен пытаться узнать, если я хочу попасть в мир написания программ распознавания речи (иногда трудно понять, что искать, если у вас нет больших знаний о домене).
Edit: я хотел бы сделать что-то кросс-платформенное, но на данный момент я бы нацелился на linux.
Правка 2: Спасибо csmba за хорошо продуманный ответ. На данный момент меня в основном интересует возможность создавать приложения, которые позволяют автоматизировать или выполнять различные команды с помощью голоса. Таким образом, ограниченное количество узнаваемых команд может быть нанизано вместе. Примером может служить музыкальный плеер, который принимает команды типа "Play the album Hello Everything by Squarepusher", или программа запуска приложений, которая позволяет пользователю создавать голосовые ярлыки для запуска определенных приложений.
Я понимаю, что это довольно гигантская проблема, и что у меня нет даже близко того уровня знаний, который требуется прямо сейчас для реализации всего механизма распознавания, хотя методы, связанные с этим, очаровывают меня, и это то, что я хотел бы сделать сам. По всей вероятности, я, вероятно, закончу тем, что возьму книгу или две по этому вопросу и изучу / поиграю с реализациями "simple" в свободное время.
Это HUGE вопросов, я бы не знал, с чего начать... Так что позвольте мне просто попробовать дать вам правильный "terms", чтобы вы могли усовершенствовать свой поиск:
Во-первых, поймите, что распознавание речи-это разнообразный и сложный предмет, и он имеет много различных применений. Люди склонны сопоставлять этот домен с первым, что приходит им в голову (обычно это компьютеры, понимающие, что вы говорите, как в системах IVR). Итак сначала давайте разделим понятие на основные категории:
Human-to-Machine: приложения, которые имеют дело с пониманием того, что говорит человек, но человек знает, что он говорит с машиной, и grammar очень ограничен. Примеры
- Компьютерная автоматизация
- Специализация: пилоты, автоматизирующие некоторые элементы управления, например (шум-огромная проблема)
- IVR (интерактивный голосовой ответ) системы, такие как Google-411 или когда вы звоните в банк и компьютер на другой стороне говорит: "Скажите 'service', чтобы получить обслуживание клиентов"
human-to-human (спонтанная речь): это более серьезная и сложная проблема. Здесь мы также можем разбить его на различные приложения:
- Колл-центр: разговор между агентом-клиентом, качество телефона, сжатый
- Интеллект: radio/phone/live разговоры между 2 или более лицами
Так вот, Speech-To-Text-это не то, что вы должны были бы сказать, что вас волнует. То, что вас волнует, - это решение проблемы. Для решения различных задач используются разные технологии. Смотрите здесь обзор некоторых из них. подводя итог, можно сказать, что другие подходы - это фонетическая транскрипция, LVCSR и прямая основа.
Кроме того, вы заинтересованы в том, чтобы быть PHd за этой технологией? вам понадобится эквивалент Masters, включающий обработку сигнала и, вероятно, PHd, чтобы быть передовым. В этом случае вы будете работать на компанию, которая разрабатывает собственно речевой движок . Такие компании, как Nuance и IBM, являются крупными, но также существуют Phillips и другие стартапы.
С другой стороны, если вы хотите быть тем, кто реализует приложения, вы не будете работать над двигателем, а будете работать над созданием приложения, которое USE двигатель. Хорошая аналогия я думаю это форма игровой индустрии: Вы разрабатываете графический движок (например, Cry engine) или работаете над одной из нескольких сотен игр, все они используют один и тот же графический движок?
Не поймите меня неправильно, есть много работы над качеством поиска также за пределами IBM/Nuance of the world. Движок обычно очень открыт, и есть много алгоритмических настроек, которые могут значительно повлиять на производительность. Каждое бизнес-приложение имеет различные ограничения и функции затрат / выгод, поэтому вы можете проводить эксперименты в течение многих лет, создавая лучшие приложения на основе распознавания голоса.
еще одна вещь: в целом, вы также хотели бы иметь хороший фон статистики, чем ниже в стеке вы хотите быть.
На данный момент я в основном заинтересован в том, чтобы иметь возможность создавать приложения, которые позволяют автоматизировать
Хорошо, что мы здесь сходимся... Тогда у вас нет никакого интереса к "Speech-to-Text". Это модное словечко переносит вас в мир полной транскрипции, место, куда вам не нужно идти. Вы должны быть сосредоточены на некоторых из более Human-to-Machine технологий, таких как Voice XML и те, которые используются в системах IVR (Nuance является крупнейшим игроком там)
Я бы определенно рекомендовал взять одну или две книги , если вы новичок в этой области. У меня нет никакого опыта в этой области, поэтому я не могу дать рекомендацию. Если вы все еще учитесь в колледже (или все еще имеете тесные связи), вам следует выяснить, может ли кто-нибудь из ваших профессоров дать рекомендацию.
Опрос, который вы связали, вероятно, также является отличным ресурсом. Я уверен, что с 1996 года были достигнуты определенные успехи, но основы вряд ли кардинально изменились. Если опрос хорошо написан, то стоит потратить свое время на его прочтение.
Я работал с продуктом IBMs ViaVoice . Он имеет хороший ASR (автоматическое распознавание речи) двигатель и хороший text-to-speech двигатель.
Сайты не очень хорошие, но это ссылка на встроенную версию http://www-01.ibm.com/software/voice/support/
Однако это платформа агностическая, и все работает через архитектуру MVC, используя vxml вариант xml для голосовых целей.
На какую платформу вы ориентируетесь ?. Существует Microsoft Speech APIs , который вы можете использовать, если его для windows.