Результаты поиска
Как начать работу с speech-to-text?
Я действительно заинтересован в алгоритмах speech-to-text, но я не уверен, с чего начать изучать их. Куча поисков вокруг привела меня к этому, но это с 1996 года, и я довольно уверен, что с тех пор произошли улучшения.
Есть ли у кого-нибудь, кто имеет опыт работы с такого рода вещами, какие-либо рекомендации по чтению / исходному коду для изучения? Или просто общие советы о том, что я должен пытаться узнать, если я хочу попасть в мир написания программ распознавания речи (иногда трудно понять, что искать, если у вас нет больших знаний о домене).
Edit: я хотел бы сделать что-то кросс-платформенное, но на данный момент я бы нацелился на linux.
Правка 2: Спасибо csmba за хорошо продуманный ответ. На данный момент меня в основном интересует возможность создавать приложения, которые позволяют автоматизировать или выполнять различные команды с помощью голоса. Таким образом, ограниченное количество узнаваемых команд может быть нанизано вместе. Примером может служить музыкальный плеер, который принимает команды типа "Play the album Hello Everything by Squarepusher", или программа запуска приложений, которая позволяет пользователю создавать голосовые ярлыки для запуска определенных приложений.
Я понимаю, что это довольно гигантская проблема, и что у меня нет даже близко того уровня знаний, который требуется прямо сейчас для реализации всего механизма распознавания, хотя методы, связанные с этим, очаровывают меня, и это то, что я хотел бы сделать сам. По всей вероятности, я, вероятно, закончу тем, что возьму книгу или две по этому вопросу и изучу / поиграю с реализациями "simple" в свободное время.
Как я могу искать контент в пределах audio files/streams?
Я всегда задавался вопросом, сколько существует различных методов поиска, для поиска текста, для поиска изображений и даже для видео.
Однако я никогда не сталкивался с решением, которое искало бы содержимое в аудиофайлах.
Например: предположим, что у меня есть около 200 подкастов, загруженных в мой PC в виде файлов mp3, wav и ogg. Все они имеют общее название, скажем, podcast1.mp3, podcast2.mp3 и т. д. Таким образом, невозможно узнать, что такое содержание, не услышав их на самом деле. Скажем так, мне интересно узнать, о чем говорят подкасты 'game programming'. Я хочу, чтобы результаты были показаны как:
- Podcast1.mp3 - 3 результат(ы) по временному индексу(ы) - 0:16:21, 0:43:45, 1:12:31
- Podcast21.ogg-1 результат(ы) по временному индексу(ам) - 0:12:01
Так что мои вопросы:
- Как можно было бы подойти к этой проблеме?
- Существуют ли подходящие алгоритмы, разработанные для выполнения чего-то подобного?
Одна идея, возникшая у меня в голове, заключалась в том, что можно было бы использовать программное обеспечение " speech-to-text " для получения транскриптов вместе с индексами времени для каждого из аудиофайлов, а затем проанализировать транскрипт, чтобы получить результат.
Я рассматривал это как один из моих хобби-проектов. Спасибо!