Я попробовал эти два кода, чтобы преобразовать мои аудио файлы в текст.

https://github.com/pragnakalp/speech-recognition-python

https://www.geeksforgeeks.org/python-speech-recognition-on-large-audio-files/

Всякий раз, когда у меня аудиофайл большего размера, который длится 5 минут и более, я получаю сообщение «Не удалось понять звук» для обоих этих кодов. Или, может быть, пустым [].

Я свободно говорю по-английски, если это важно. Использование микрофона Blue Yeti для создания аудиофайлов. Никакого другого фонового шума, только мой голос без особого акцента.

Я думаю, что было бы лучше разделить аудиофайл на несколько, а затем работать с каждым отдельно, а затем объединить его в текстовый файл. Однако, используя один код выше, который делает это, было некоторое совпадение, когда разделенный файл № 1 заканчивался словом «вы», а разделенный файл № 2 начинался снова с того же слова «вы», а затем продолжался (не желательно, так как вывод текст будет отображать это слово дважды).

Я не хочу платить за IBM Watson, Google Cloud или Azure, чтобы конвертировать аудиофайлы. Я бы предпочел сделать это бесплатно с python.

Я был бы признателен, если бы кто-либо мог исправить эти коды для распознавания аудио или предоставить какой-то другой код, чтобы заставить его работать.

0
coimbra