OpenAI🇺🇸
OpenAI開発のオープンソース音声認識AI。100言語対応の高精度文字起こしを無料で利用可能。
WhisperはOpenAIが開発しオープンソースとして公開した音声認識(自動文字起こし)モデルで、その高い精度と無料で利用できる手軽さからAI音声認識の事実上のスタンダードとなっています。68万時間以上の多言語音声データで訓練されており、100以上の言語に対応した高精度な文字起こしを実行できます。日本語の認識精度も高く、ビジネス会議、インタビュー、講演、ポッドキャストなど多様な音声を正確にテキスト化します。最大の強みはノイズ耐性と多様な音声環境への頑健性です。雑音の多い環境、強いアクセント、複数話者の会話、電話音声など、条件の悪い音声でも比較的高い認識精度を維持します。オープンソース(MITライセンス)のため完全無料で利用でき、自分のPCやサーバーにインストールしてローカルで実行可能。
これにより音声データが外部に送信されることがなく、機密性の高い会議やインタビューの文字起こしにもプライバシーの心配なく利用できます。利用方法は多様で、Pythonパッケージ(pip install openai-whisper)で数行のコードから実行可能、whisper.cpp(C/C++実装)ではGPUなしのCPUだけでも高速に動作し、faster-whisperではCTranslate2による最適化で処理速度を大幅に向上させています。GUIアプリとしてはWhisperDesktopやBuzz、MacWhisperなどが利用可能で、プログラミングの知識がなくても使えます。
多くの商用サービスやアプリのバックエンドとしても採用されており、Notta、Otter.ai、Descriptなどの文字起こしサービスの一部もWhisperベースの技術を活用しています。OpenAIのAPIとしても提供されており(Whisper API)、1分あたり$0.006の低コストでクラウド上の文字起こしサービスを利用可能。ただし話者分離(誰が発言したかの識別)機能は標準では搭載されていないため、pyannoteなどの別ツールとの組み合わせが必要です。技術者やプライバシーを重視する方、コストを抑えて大量の文字起こしを行いたい方に最もおすすめの音声認識ソリューションで、世界中の開発者に利用されています。
$0.00/月(0円)
無制限(自前GPU)
$0.00/月(0円)
$0.00/月(0円)
日本語品質
★★★★★4/5
初心者向け
★★★★★2/5
商用利用
✓API提供
✓モバイルアプリ
✗デスクトップアプリ
✗オフライン対応
✓学習オプトアウト
✓対応モダリティ
はい、Whisperには無料プラン(オープンソース)があります。有料プランは2種類あり、より多くの機能や利用枠が提供されます。
はい、Whisperは日本語に対応しています。日本語品質は5段階中4で、高品質に対応しています。
はい、WhisperはAPIを提供しています。開発者は自身のアプリケーションやワークフローに統合することが可能です。
Whisperを使ってみませんか?
Whisper.cppなどの軽量実装により、モバイルデバイスやエッジ環境でもリアルタイム音声認識を実現できます。
| 提供元 | OpenAI🇺🇸 |
| 無料プラン | ✓ あり |
| 日本語対応 | ✓ 対応(品質 4/5) |
| API | ✓ 提供あり |
| カテゴリ | 文字起こし・議事録 |
要問い合わせ
課金: per-minute
$0.006/分
主な連携サービス
データ保護・プライバシー
ローカル実行時はデータ外部送信なし。API利用時はOpenAIポリシー
商用利用について
MITライセンス。商用利用可
はい、Whisperは商用利用が可能です。MITライセンス。商用利用可
Whisperのデータポリシー: ローカル実行時はデータ外部送信なし。API利用時はOpenAIポリシー AI学習へのオプトアウトが可能です。