最終更新日:2025/1/14
近年、AI技術の進歩が著しく、AIを活用した文字起こしサービスの幅も広がっています。
そんな中で、OpenAIが開発した「Whisper(ウィスパー)」という文字起こしサービスをご存じですか?
本記事では、Whisperの概要や利用料金を紹介しています。
また、Whisperの具体的な使用方法や、Whisperを搭載したおすすめツールであるSEOに強いAIライティングツール「トランスコープ」の文字起こし機能についても、実際の生成結果を掲載しております。
本記事を参考にすることで、Whisperを用いた効果的な文字起こし方法が身につくでしょう。
特に、ビジネスやインタビューの音声を迅速にテキスト化したいと考えている方には、本記事が非常に役立つと考えられます。
ご興味のある方はぜひ、最後まで目を通していただければ幸いです。
引用元:Whisper
Whisperは、高度な音声認識技術を用いたAIサービスです。
会話や音声データを文字データに変換できます。
主にビジネスや個人利用で幅広く活用されています。
Whisperは、68万時間にも及ぶディープラーニングに基づいて設計されており、ノイズの多い環境でも高い精度で文字データに変換可能です。
また、さまざまな言語やアクセントに対応し、リアルタイムでの音声変換ができます。
APIを利用すれば、外部のアプリケーションとWhisperを連携させることもでき、ユーザーに便利なサービスを提供できるでしょう。
WhisperをAPI経由で利用すると有料になります。
料金は1分ごとに0.006ドルで、日本円に換算すると1時間利用した場合約50〜60円です。
コストをかけたくない方は、Google Colaboratoryで利用するかGitHubにあるオープンソースを使えば無料で利用できます。
どちらの場合でも、利用前に実行環境を準備する必要があります。
Whisperでは、5つの音声認識モデルが用意されており、それぞれ異なる精度を持っています。
各モデルとパラメータは下記のとおりです。
サイズが小さいほど誤字や認識ミスも見られるため、専門的な用語や特殊なアクセントに対応するには高度なモデルが向いています。
適切なモデルを選択することで、目的に沿った高い精度で音声認識を行えるでしょう。
ここからはWhisperの使用方法について、ステップごとに解説します。
本記事ではGoogle ColaboratoryでWhisperの環境設定する方法をご紹介します。
Google アカウントがあれば、どなたでもアクセス可能です。
はじめにGoogle Colaboratoryのページを開きます。
開くと自動でウィンドウが表示されるので、左下の「+ノートブックを新規作成」を選択してください。
画面が切り替わったら、右上の「接続」をクリックします。
クリック後「RAMディスク」と表示されるまで少し待ちます。
灰色の欄に、「!pip install git+https://github.com/openai/whisper.git」を入力し、再生マークのようなボタンをクリックしてください。
コードの実行が完了したら、「+コード」を選択します。
1番下に新しい灰色の入力欄が表示されます。
続いて入力欄に、「import whisper」を入力して再生マークをクリックしてください。
こちらで、環境設定が完了しました。
慣れれば3分ほどで設定できます。
環境が整ったら、文字起こしするための音声ファイルを用意しましょう。
ファイル形式は、「wav」「mp3」などに対応しています。
ただし、SNS上にある音源の使用には著作権が関わります。
また、講演やラジオなどの文字起こしをネットに公開すると、著作権違反になるため注意が必要です。
それでは、音声ファイルをアップして文字起こししましょう。
まず、Google Colaboratory画面の左側にある、ファイルのアイコンを選択します。
表示された一覧から、「content」を選んで音声ファイルをcontentにドラッグし、アップできたら「+コード」を選択してください。
1番下に新しく灰色の入力欄が表示されているので、下記のコードを入力し、再生マークをクリックします。
model = whisper.load_model('base') result = model.transcribe('ファイル名') print(result['text'])
選択したモデルによって待ち時間は異なりますが、文字起こしが完了すると、下に文字起こしの結果が表示されます。
今回用意した音声ファイルは、弊社の公式YouTubeより【SEOに効くブログ記事のリライトのコツとは?AIを利用した最新手法も徹底解説】を使用しました。
モデルをbaseとmediumで比較してみると、誤字や認識ミスで次のような違いが見られました。
出力時間は、baseで2分2秒、mediumだと15分52秒かかる結果となりました。
動画時間が8分16秒のため、mediumでは文字起こしに、動画時間の倍の時間がかかっております。
そして文字起こしの結果について、baseは所々で難しくない単語でも認識ミスがあったり、漢字の変換ミスなども見られたりしました。
一方mediumは、誤認や変換間違いはほぼなく、あったとしても細かいミス程度です。
精度に関しては、完璧ではないのでどのモデルでも確認は必要でしょう。
今回比べた結果でいえば、baseよりもmediumの方が待ち時間はあれど、修正の手間は少なくかなり高い精度だと感じました。
弊社が運営しておりますSEOに強いAIライティングツールのトランスコープには、文字起こし機能がございます。
当機能はWhisperを搭載しており、下記の方法でカンタンに文字起こしが可能です。
詳細は【音声ファイルやトランスコープで録音した音声、YouTube動画を文字起こししてコンテンツを生成する】のコラムをご覧ください。
ここからは、実際にトランスコープの文字起こしがどのように生成されるかご紹介します。
音声ファイルをアップロードする
音声ファイルは、弊社の公式YouTubeよりショート動画【SEOに強いAIライティングツールならトランスコープ #short】を使用しました。
誤字や認識ミスもなく、正確な文字起こしができています。
Google Colaboratoryで文字起こしすると、句読点はなく繋がった文章でした。
トランスコープでは、文章の区切りにスペースがあり「?」や「・」が使われて見やすい結果となっています。
録音に使用した文章は、トランスコープ公式サイトのトップページに掲載しているものを読み上げました。
結果は下記画像のとおりです。
ノイズの影響で「学習させて」が「学習させる」となりましたが、ほぼ正確だといえます。
使用した音声は、弊社の公式YouTubeより【SEOに効くブログ記事のリライトのコツとは?AIを利用した最新手法も徹底解説】を使用しました。
冒頭部分をAI文字起こしした結果が以下のとおりです。
Whisperのbaseは「おさらなってます」mediumで「お世話になっています」だった部分が、トランスコープでは「お世話になっております」と正しく認識し、正確な文字起こしができております。
事前の環境設定は不要で、プログラミングの知識がない方でも使いやすく、高い精度の文字起こしとなっております。
本記事では、Whisperの概要と使い方について、解説しました。
Whisperにより、文字起こし作業を効率化できるため、従来の手作業で文字起こし作業にかかる時間とコストを大幅に削減し、インタビュー記事や議事録の作成を迅速かつカンタンに行えるでしょう。
また、弊社が運営しておりますSEOに強いAIライティングツール「トランスコープ」の文字起こしは、Whisperを搭載しており、精度も高く快適に文字起こし作業が可能です。
トランスコープの文字起こし機能については、録音音声やYouTube動画をAI文字起こししてコンテンツ生成のコラムで詳しく解説しております。ぜひご覧ください。
また、おすすめのAI文字起こしツールを10個紹介したコラムもございますので、こちらも参考にしてください。
トランスコープの文字起こし機能は無料体験が可能です。
環境設定不要で直接録音でき、YouTube動画の文字起こしもカンタンにできます。
ご興味がある方は公式サイトより、お気軽にお試しいただけますと幸いです。
公式サイト:https://transcope.io/
最終更新日:2025/1/14
シェアモル株式会社 代表取締役
齋藤 康輔
大学在学中に半導体のシミュレーションを専攻する傍ら、人材会社にてインターン。
インターン中に人材会社向け業務システムを開発し、大学卒業後の2007年3月に上記システム「マッチングッド」を販売する会社、マッチングッド株式会社を設立。
12年の経営の後、2019年1月に東証プライム上場企業の株式会社じげんに株式譲渡。
売却資金を元手に、シェアモル株式会社を設立。
AIを利用したM&A・事業承継の仲介サービス「シェアモルM&A」とSEOに強い文章をAIが作成する「トランスコープ」を展開中。
Contact
© Transcope.