私は数日前から同じものを探しています。これまでのところ、Sphinx4 と FreeTTS を見つけました。どちらも Java 実装で、Sphinx は FreeTTS とは異なり、かなり頻繁に更新されるようです。私が抱えている唯一の問題は、Sphinx がオフィス環境で私を理解するのに問題があることです。倉庫環境のソリューションが必要です。
主に Java:http://cmusphinx.sourceforge.net/html/cmusphinx.php
vPass (音声パスワード) は http://www.basic-signalprocessing.com からダウンロードできます。
コンポーネントは、Java および .Net 言語用に設計されています。認識期間は 5 秒です。 VPass は十分にテストされています vText はまだ新しいものではありません。そのため、まだパッケージ化されていません。
予算が限られている場合は、スフィンクスが断然最良のオプションですが、巨大にもなります。 使用するモデルの違い、それらの調整方法 および オーディオソースをどのように調整するか。絶対にすべてが一致する必要があります。そうしないと、機能しません。あなたが説明した問題を考えると、モデルが混同され、マイクが正しく調整されていないというかなりの額を喜んで賭けます。また、アクセントがある場合はおそらく機能しません - これはデコーダーの問題ではなく、音響モデルの問題です - あなたの声/アクセントに似た声/アクセントを持つ人がトレーニングデータに含まれていない場合、悪い結果が得られます. .
とはいえ、彼らのオープン ソース モデルのページを見たことがありますか?
http://www.speech.cs.cmu.edu/sphinx/models/
何をしようとしているのかにもよりますが、16kHz WSJ モデルとギガワード LMs NVP を使用して、言論の自由について約 90% の精度を得ることができるはずです。ただし、ASR は大規模な事業であり、まだ商品化されていないことに注意してください。