Whisper AI を使用して映画の字幕を作成した方法 (無料およびオフライン)

公開: 2025-10-31

すべての AI 製品が過剰に宣伝されているわけではありません。電子メールの作成から写真の編集、AI エージェントの実行など、本当に役立つ機能がいくつかあります。

私は常にさまざまな AI ツールをテストし、新しいツールにサインアップし、ベータ版ソフトウェアを試し、既存の競合他社と比較してパフォーマンスを評価してきました。

how i used whisper ai to make subtitles for any movie

この AI の世界をナビゲートする際、読者に真の利益をもたらす便利な AI ツールを提供することは私たちの責任であり、私たちはそうしてきました。最新の AI エージェントガイドもその 1 つで、日常ユーザーにとって有益な 8 つの便利な AI エージェントを特集しています。

Whisper は、音声をテキストに書き起こすことができるツールの 1 つです。キャプションなどの便利な機能も備えており、字幕を生成することもできます。しかし、現在ではほとんどのプラットフォームで字幕が提供されていますが、字幕のない番組もまだたくさんあり、そのため非常にわかりにくく、視聴しないこともよくあります。さらに、吹き替えのおかげで、ほとんどのスタジオは言語オプションが限られた番組を開始しています。

Whisper AI を使用してビデオの字幕とキャプションを生成する方法
Mac、Windows、Linux に Whisper をインストールして使用するための前提条件

Whisper AI をデバイスにローカルにインストールする方法
ビデオの字幕を生成する方法
ビデオに字幕を使用する方法
最終的な考え
Whisper AI を使用した字幕の生成に関する FAQ
1. Whisper を使用して、アップロードした YouTube 動画に自動的に字幕を追加できますか?
2. Whisper はインストール後オフラインでも動作しますか?
3. 古いデバイスまたはローエンドのデバイスでの文字起こしを高速化するにはどうすればよいですか?
4. Whisper は自動的に発言者を検出したり、ダイアログを分離したりできますか?
5. ウィスパー生成の字幕は、騒々しい音声やアクセントのある音声に対して正確ですか?

もっと見る表示を減らす

Whisper AI を使用してビデオの字幕とキャプションを生成する方法

このために、私は Mac と Windows の両方で利用できる OpenAI の無料音声転写ツール Whisper を使用しています。複数の言語をサポートしており、他の言語に翻訳することもできます。テキストの文字起こし、音声からのテキストの生成、他の言語への変換が可能です。最も重要なことは、あらゆる言語から字幕とキャプションを生成し、英語に翻訳することもできることです。

Mac、Windows、Linux に Whisper をインストールして使用するための前提条件

Whisper AI はクラウドでもローカルの Mac でも実行できます。無料のオプションについて説明しているため、デバイス上でローカルに実行することが利用可能な唯一の無料オプションです。その前に、各プラットフォームをデバイス上でローカルに実行するための前提条件を説明します。

窓

Python 3.8+
PyTorch 1.10.1+
ffmpeg

マック

Python 3.8+
PyTorch 1.10.1+
ffmpeg Linux

Python 3.8+
PyTorch 1.10.1+
ffmpeg

Whisper AI をデバイスにローカルにインストールする方法

Whisper のインストールは簡単で、デバイスに応じて 3 つの手順が必要です。 WindowsとmacOS両方の方法を記載しました。手順に従って、Whisper を問題なくデバイスにローカルにインストールできます。準備ができたら、始めましょう。

ステップ 1: デバイスに Python をインストールする

すでにデバイスに Python がインストールされている場合は、この手順をスキップできます。まだの場合は、https://www.python.org/ にアクセスしてデバイスにインストールしてください。

install python on to your device.

インストールしたら、次のコマンドを使用して、デバイスにインストールされているかどうかを確認します。

コマンドプロンプト (Windows) またはターミナル (Mac/Linux) を開き、コマンド「python version」を入力します。

Python のバージョン (Python 3.12.0 など) が表示されている場合は、デバイスに正常にインストールされていることを意味します。これが表示されない場合は、もう一度手順に従ってください。

古いバージョンの Python をお持ちの場合は、Windows、Mac、Linux で次のコマンドを使用して更新できます。

Windows: python -m pip install –upgrade pip
MacOS : python3 -m pip install –upgrade pip
Linux: sudo apt install python3.12

ステップ 2: 次に、Whisper をインストールします

次に、Whisper をデバイスにインストールします。デバイスでターミナルを開き、このコマンドを使用します。

Windows: pip install -u openai-whisper
MacOS: pip install -u openai-whisper。エラーが表示された場合は、次のコマンドを使用します: python3 -m pip install –user -U openai-whisper
Linux: pip install -u openai-whisper

install whisper on your device

すべてのファイルが正常にダウンロードされるまで待ちます。完了すると、「正常にダウンロードされました」のようなメッセージが表示されます。

このコマンドを使用して、デバイスに正しくインストールされているかどうかを確認できます。

ヒント：

セットアップ中にエラーが発生した場合は、エラーコードをコピーし、ChatGPT を使用して問題の解決に役立ててください。エラーコードを ChatGPT に貼り付けると、問題の解決に役立ちます。

コマンド:ささやき – 助けて

ステップ 3: 次に、FFmpeg ソフトウェアをインストールします。

次に、ffmpeg (オーディオに必要) をインストールして、デバイス上のオーディオファイルを処理します。

Mac の場合:

次の簡単なコマンドを使用して、Homebrew を Mac にインストールできます: brew install ffmpeg

Mac に Homebrew がインストールされていない場合:

ステップ 1: Mac でターミナルを開く

ステップ 2:次のコマンドを貼り付けて Enter キーを押します: /bin/bash -c “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)”

ステップ 3:パスワードを入力し、すべてのファイルがダウンロードされるまで待ちます。

関連: macOS に Homebrew をインストールする方法

check if homebrew works

ステップ 4:このコマンドを使用して、Brew がデバイスに正しくインストールされているかどうかを確認します。次のコマンドを使用できます: brew –version

ffmpeg ソフトウェアをインストールする

ステップ 1:ターミナルを開き、次のコマンドを使用します: brew install ffmpeg

install ffmpeg

ステップ 2:必要なファイルがすべてダウンロードされるまで待ちます。

ステップ 3:次のコマンドを使用して、デバイスに正常にインストールされているかどうかを確認します: ffmpeg -version

ffmpeg installed on your device

Windowsの場合:

ステップ 1: https://ffmpeg.org/download.html に移動し、Windows ファイルをダウンロードします。

ステップ 2:他のソフトウェアと同様に、それを解凍してデバイスにインストールします。

ステップ 3:次に、すべてがデバイスに正しくインストールされていることを確認します。デバイスのターミナルを開き、次のコマンドを入力します:「whisper help」。オプションが表示される場合は、アプリがデバイスに正しくインストールされていることを意味します。

ビデオの字幕を生成する方法

ステップ 1:デバイスでターミナルを開き、ビデオファイルが存在するフォルダーに移動します。この場合、ビデオファイルはデスクトップにあります。次のコマンドを使用して、ビデオファイルフォルダーに移動できます。

navigate to your video location

Windows: cd デスクトップ
MacOS: cd ~/デスクトップ

ステップ 2:オーディオファイルとビデオファイルを文字に起こします。 Whisper がサポートするファイル形式のリストは次のとおりです。

サポートされているビデオ形式	サポートされているオーディオ形式
.mp4	.mp3
.mkv	.wav
.mov	.flac
.webm	.m4a
.avi	.aac
.mpg / .mpeg	.ogg
.flv	.opus
.wmv	.aiff / .aif
.3gp	.amr
	.wma

ステップ 3: 次に、次のコマンドを使用してビデオファイルを選択します:ウィスパー (ここにビデオまたはオーディオファイル名を追加します) –model Turbo –task transcribe

例:ウィスパービデオ.mp4 –モデルターボ –タスクの転写

ステップ 3:選択したモデルに応じて、新しいモデルがダウンロードされる場合があります。したがって、ダウンロードが完了するまで待ちます。ここでは、さまざまな Whisper モデルから選択できます。モデルが低いほど精度は低くなります。

モデル名	パラメータ	必要なVRAM
小さい	39M	1GB
ベース	74M	1GB
小さい	244M	2GB
中くらい	769M	5GB
大きい	1.55B	10GB
ターボ	809M	6GB

ただし、大規模なモデルを実行するとすべてのシステムリソースが消費される可能性があるため、デバイスが強力でない場合は、小型モデルまたは基本モデルを使用することをお勧めします。大きなメディアファイルがあり、高い精度が必要な場合は、Google Colab で Whisper を実行できます。その方法に関するビデオチュートリアルは次のとおりです。

run whisper

ステップ 4:字幕が生成されます。前に指定したビデオフォルダーに次のファイルがあります。

ビデオ。 txt プレーンテキストのトランスクリプト
ビデオ。 vtt ウェブ字幕フォーマット
ビデオ。 srt 共通字幕フォーマット (YouTube、VLC など)

run whisper to generate subtitles

ステップ 5:ファイルを開いて字幕を表示します。次に、ビデオが保存されているフォルダーに移動し、video.srt というファイルを開きます。

subtitles

ステップ 6 (オプション):ビデオが英語でない場合は、次のコマンドを使用して英語に翻訳できます。

コマンド:ウィスパー (ビデオまたはオーディオファイル名) –モデルメディア –言語 (ここに言語を入力) –タスク翻訳

例:ウィスパービデオ.mp4 –モデル媒体 –言語日本語 –タスク翻訳

use this command on macos to translate the audio in a video (or audio file) to english

ステップ 7:次に、ビデオファイルがある保存先に戻ります。そこから、使用したビデオの英語字幕を含む video.SRT ファイルが表示されます。

subtitles

ビデオに字幕を使用する方法

字幕をサードパーティのメディアプレーヤーにインポートし、字幕付きでビデオを再生できます。 VLC は、Windows と macOS の両方で利用できる最高のサードパーティ製メディアプレーヤーです。 Whisper を使用して生成した字幕付きの映画を視聴する方法を次に示します。

VLCメディアプレーヤーをダウンロード（無料）

Windowsの場合
macOSの場合

ステップ 1:ダウンロードしたら、VLC メディアプレーヤーをデバイスにインストールします。

vlc player website

ステップ 2: Windows で VLC プレーヤーを開き、[プレイリスト] タブに移動して、[メディアを開く] をクリックします。

open media

ステップ 3:ここで、「参照」をタップしてビデオファイルを選択し、「字幕ファイルの追加」を有効にし、Whisper AI を使用して生成した字幕ファイルを選択し、「開く」をクリックします。

add subtitles to the video

ステップ 4:以上で、ビデオの字幕が生成されます。

subtitles for the video

最終的な考え

長年にわたり、これらの制限にイライラしてきました。ただし、VLC はリアルタイムで機能する AI 生成のキャプションを発表しましたが、通常のユーザーはまだ利用できません。そしてさらに気になるのは、これが彼らの Twitter への最後の投稿だったので、Whisper の正体がわかるまでは希望を失っているということです。

これは、デバイスのリソースに応じて、長編映画を含むあらゆるビデオの字幕を生成する方法です。デバイスが強力でない場合は、Google Colab で Whisper AI を実行できます。以下のビデオにあるように、字幕を生成するだけでなく、他の言語に翻訳することもできます。このガイドがお役に立てば幸いです。このガイドを初心者向けにするために、各ステップを詳しく説明するようにしました。 Whisper AI をデバイス上でローカルにセットアップまたは実行する際に問題が解決しない場合。以下でコメントできます。

Whisper AI を使用した字幕の生成に関する FAQ

1. Whisper を使用して、アップロードした YouTube 動画に自動的に字幕を追加できますか?

いいえ、ビデオがデバイス上にローカルに保存されている場合は、字幕を生成し、ビデオをアップロードするときに YouTube にアップロードする必要があります。アップロードする YouTube 動画に字幕は自動的に追加されません。

2. Whisper はインストール後オフラインでも動作しますか?

はい、必要なモデルをダウンロードするとオフラインで動作するため、インターネット接続は必要ありません。

3. 古いデバイスまたはローエンドのデバイスでの文字起こしを高速化するにはどうすればよいですか?

転写を高速化するには、小さなモデルを使用する必要があります。このプロセスを高速化するために、大きなビデオファイルを小さなファイルに圧縮することもできます。ファイルを圧縮するには、ターミナルでコマンド ffmpeg -i video を使用できます。 mp4 -q: a 0 - オーディオをマップします。 mp3

4. Whisper は自動的に発言者を検出したり、ダイアログを分離したりできますか?

いいえ、現在、Whisper は発言者を検出したり、ダイアログを自動的に分離したりすることはできません。別のオーディオファイル、Pyannote オーディオ、WhisperX を取得するには、Pyannote などの別のツールを使用する必要があります。

5. ウィスパー生成の字幕は、騒々しい音声やアクセントのある音声に対して正確ですか?

はい、これは最高の文字起こしモデルの 1 つです。精度は使用しているモデルによっても異なります。大きなモデルは通常、より高い精度を生成します。ただし、実行にはさらに時間がかかり、強力なリソースが必要になる場合があります。