Whisper AI를 사용하여 모든 영화의 자막을 만드는 방법(무료 및 오프라인)
게시 됨: 2025-10-31모든 AI 제품이 과장된 것은 아닙니다. 이메일 작성부터 사진 편집, AI 에이전트 실행 등에 이르기까지 정말 유용한 것들이 있습니다.
저는 지속적으로 다양한 AI 도구를 테스트하고, 새로운 도구에 등록하고, 베타 소프트웨어를 시도하고, 기존 경쟁사와 비교하여 성능을 평가해 왔습니다.

이 AI 세계를 탐색하는 동안 독자들에게 진정으로 이익이 되는 유용한 AI 도구를 제공하는 것이 우리의 책임이며, 우리는 그렇게 해왔습니다. 최신 AI 에이전트 가이드는 그 중 하나이며 일상적인 사용자에게 도움이 될 수 있는 8가지 유용한 AI 에이전트를 소개합니다.
Whisper는 오디오를 텍스트로 변환할 수 있는 도구 중 하나입니다. 또한 캡션과 같은 유용한 기능을 갖추고 있으며 자막을 생성할 수도 있습니다. 그러나 현재 대부분의 플랫폼은 자막을 제공하지만 여전히 자막이 없는 프로그램이 많아 이해하기 매우 어렵고 시청하지 않는 경우가 많습니다. 또한 더빙 덕분에 대부분의 스튜디오에서는 제한된 언어 옵션으로 쇼를 시작합니다.
목차
Whisper AI를 사용하여 모든 비디오에 대한 자막 및 캡션을 생성하는 방법
이를 위해 저는 Mac과 Windows 모두에서 사용할 수 있는 OpenAI의 무료 오디오 전사 도구인 Whisper를 사용하고 있습니다. 여러 언어를 지원하며 다른 언어로 번역할 수도 있습니다. 텍스트를 복사하고, 오디오에서 텍스트를 생성하고, 이를 다른 언어로 변환할 수 있습니다. 가장 중요한 점은 모든 언어에서 자막과 캡션을 생성하고 영어로 번역할 수도 있다는 것입니다.
Mac, Windows 및 Linux에서 Whisper를 설치하고 사용하기 위한 전제 조건
Whisper AI를 클라우드와 Mac에서 로컬로 실행할 수 있습니다. 무료 옵션에 대해 논의하고 있으므로 장치에서 로컬로 실행하는 것이 유일한 무료 옵션입니다. 하지만 그 전에 각 플랫폼이 장치에서 로컬로 실행하기 위한 전제 조건은 다음과 같습니다.
윈도우
- 파이썬 3.8+
 - 파이토치 1.10.1+
 - ffmpeg
 
스코틀랜드 사람
- 파이썬 3.8+
 - 파이토치 1.10.1+
 - ffmpeg 리눅스
 
- 파이썬 3.8+
 - 파이토치 1.10.1+
 - ffmpeg
 
장치에 로컬로 Whisper AI를 설치하는 방법
Whisper를 설치하는 것은 쉽고 장치에 따라 세 단계가 필요합니다. Windows와 macOS 모두에 대한 방법을 나열했습니다. 문제 없이 장치에 로컬로 Whisper를 설치하는 단계를 따르면 됩니다. 준비가 되었다면 시작해 보세요.
1단계: 장치에 Python 설치
이미 장치에 Python이 설치되어 있는 경우 이 단계를 건너뛸 수 있습니다. 그렇지 않은 경우 https://www.python.org/를 방문하여 장치에 설치하십시오.

설치가 완료되면 다음 명령을 사용하여 장치에 설치되어 있는지 확인하십시오.
명령 프롬프트(Windows) 또는 터미널(Mac/Linux)을 열고 python version 명령을 입력합니다.
Python 3.12.0과 같은 Python 버전이 표시되면 장치에 성공적으로 설치된 것입니다. 이 내용이 표시되지 않으면 프로세스를 다시 따르세요.
이전 버전의 Python이 있는 경우 Windows, Mac 및 Linux에서 다음 명령을 사용하여 업데이트할 수 있습니다.
- Windows: python -m pip 설치 –업그레이드 pip
 - MacOS: python3 -m pip 설치 –업그레이드 pip
 - 리눅스: sudo apt install python3.12
 
2단계: 이제 Whisper를 설치하세요.
다음으로 장치에 Whisper를 설치하세요. 장치에서 터미널을 열고 이 명령을 사용하십시오.
- Windows: pip install -u openai-whisper
 - MacOS: pip install -u openai-whisper. 오류가 표시되면 다음 명령을 사용하세요: python3 -m pip install –user -U openai-whisper
 - 리눅스: pip install -u openai-whisper
 

모든 파일이 성공적으로 다운로드될 때까지 기다리십시오. 완료되면 '성공적으로 다운로드되었습니다'와 유사한 메시지가 표시됩니다.
이 명령을 사용하여 장치에 올바르게 설치되었는지 확인할 수 있습니다.

명령: 속삭임 -help
3단계: 다음으로 FFmpeg 소프트웨어를 설치합니다.
그런 다음 ffmpeg(오디오에 필요)를 설치하여 장치의 오디오 파일을 처리합니다.
맥의 경우:
Homebrew를 사용하여 다음 간단한 명령을 사용하여 Mac에 설치할 수 있습니다: Brew install ffmpeg
Mac에 Homebrew가 없는 경우:
1단계: Mac에서 터미널 열기
2단계: 이 명령을 붙여넣고 Enter 키를 누릅니다. /bin/bash -c “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)”
3단계: 비밀번호를 입력하고 모든 파일이 다운로드될 때까지 기다립니다.
관련 항목: macOS에 Homebrew를 설치하는 방법

4단계: 이 명령을 사용하여 Brew가 장치에 올바르게 설치되었는지 확인하십시오. 다음 명령을 사용할 수 있습니다: Brew –version
ffmpeg 소프트웨어 설치
1단계: 터미널을 열고 다음 명령을 사용합니다: Brew install ffmpeg

2단계: 필요한 모든 파일이 다운로드될 때까지 기다립니다.
3단계: 다음 명령을 사용하여 장치에 성공적으로 설치되었는지 확인하세요: ffmpeg -version

Windows의 경우:
1단계: https://ffmpeg.org/download.html로 이동하여 Windows 파일을 다운로드합니다.
2단계: 다른 소프트웨어와 마찬가지로 압축을 풀고 장치에 설치합니다.
3단계: 그런 다음 모든 것이 장치에 올바르게 설치되었는지 확인합니다. 기기에서 터미널을 열고 'Whisper help' 명령을 입력하세요. 옵션이 표시되면 앱이 기기에 올바르게 설치되었음을 의미합니다.
비디오 자막을 생성하는 방법
1단계: 장치에서 터미널을 열고 비디오 파일이 있는 폴더로 이동합니다. 이 경우 내 비디오 파일은 내 데스크탑에 있습니다. 다음 명령을 사용하여 비디오 파일 폴더로 이동할 수 있습니다.

- Windows: CD 데스크탑
 - MacOS: cd ~/데스크탑
 
2단계: 오디오 및 비디오 파일을 복사합니다. Whisper가 지원하는 파일 형식 목록은 다음과 같습니다.
| 지원되는 비디오 형식 | 지원되는 오디오 형식 | 
| .mp4 | .mp3 | 
| .mkv | .wav | 
| .mov | .flac | 
| .webm | .m4a | 
| .avi | .aac | 
| .mpg / .mpeg | .ogg | 
| .flv | .작 | 
| .wmv | .aiff / .aif | 
| .3gp | .amr | 
| .wma | 
3단계: 이제 다음 명령을 사용하여 비디오 파일을 선택하세요. 속삭임(여기에 비디오 또는 오디오 파일 이름을 추가하세요.) –model Turbo –task Transcribe
예: 속삭임 video.mp4 –모델 터보 –task Transcribe
3단계: 선택한 모델에 따라 새 모델을 다운로드할 수 있습니다. 다운로드가 완료될 때까지 기다리세요. 선택할 수 있는 다양한 Whisper 모델은 다음과 같습니다. 모델이 낮을수록 정확도가 낮아집니다.
| 모델명 | 매개변수 | 필수 VRAM | 
| 매우 작은 | 39M | 1GB | 
| 베이스 | 74M | 1GB | 
| 작은 | 244M | 2GB | 
| 중간 | 769M | 5GB | 
| 크기가 큰 | 1.55B | 10GB | 
| 터보 | 809M | 6GB | 
그러나 장치가 강력하지 않은 경우에는 작은 모델이나 기본 모델을 사용하는 것이 좋습니다. 큰 모델을 실행하면 시스템 리소스가 모두 소모될 수 있기 때문입니다. 더 큰 미디어 파일이 있고 높은 정확도를 원한다면 Google Colab에서 Whisper를 실행할 수 있습니다. 방법에 대한 비디오 튜토리얼은 다음과 같습니다.

4단계: 이제 자막이 생성됩니다. 이전에 지정한 비디오 폴더에서 다음 파일을 찾을 수 있습니다.
- 동영상. txt 일반 텍스트 사본
 - 동영상. vtt 웹 자막 형식
 - 동영상. srt 공통 자막 형식(YouTube, VLC 등)
 

5단계: 파일을 열어 자막을 봅니다. 이제 비디오가 있는 폴더로 이동하여 video.srt라는 파일을 엽니다.

6단계(선택 사항): 동영상이 영어가 아닌 경우 다음 명령을 사용하여 영어로 번역할 수 있습니다.
명령: 속삭임(비디오 또는 오디오 파일 이름) –모델 매체 –언어(여기에 언어 입력) –작업 번역
예: 속삭임 video.mp4 –모델 매체 –언어 일본어 –작업 번역

7단계: 이제 비디오 파일이 있는 대상으로 돌아갑니다. 여기에서 사용한 동영상의 영어 자막이 포함된 video.SRT 파일을 볼 수 있습니다.

비디오에 자막을 사용하는 방법
타사 미디어 플레이어로 자막을 가져와서 자막과 함께 비디오를 재생할 수 있습니다. VLC는 Windows와 macOS 모두에서 사용할 수 있는 최고의 타사 미디어 플레이어입니다. Whisper를 사용하여 생성한 자막이 포함된 영화를 시청하는 방법은 다음과 같습니다.
VLC 미디어 플레이어 다운로드(무료)
- 윈도우의 경우
 - macOS의 경우
 
1단계: 다운로드가 완료되면 장치에 VLC 미디어 플레이어를 설치합니다.

2단계: Windows에서 VLC 플레이어를 열고 재생 목록 탭으로 이동한 다음 미디어 열기를 클릭합니다.

3단계: 여기에서 찾아보기를 탭하고 비디오 파일을 선택한 후 자막 파일 추가를 활성화하고 Whisper AI를 사용하여 생성한 자막 파일을 선택한 다음 열기를 클릭합니다.

4단계: 이제 동영상 자막이 생성됩니다.

최종 생각
수년에 걸쳐 이러한 제한으로 인해 저는 좌절감을 느꼈습니다. 그러나 VLC는 실시간으로 작동하는 AI 생성 캡션을 발표했지만 여전히 일반 사용자는 사용할 수 없습니다. 그리고 더 걱정스러운 점은 그것이 그들의 트위터에 대한 마지막 게시물이었기 때문에 Whisper를 알아내기 전까지는 희망을 잃고 있다는 것입니다.
이는 기기의 리소스에 따라 장편 영화를 포함한 모든 비디오에 대한 자막을 생성할 수 있는 방법입니다. 기기가 강력하지 않은 경우 Google Colab에서 Whisper AI를 실행할 수 있습니다. 아래 영상처럼 자막 생성뿐만 아니라 다른 언어로 번역도 가능합니다. 이 가이드가 도움이 되길 바랍니다. 이 가이드를 초보자에게 친숙하게 만들기 위해 각 단계를 자세히 설명했습니다. 장치에서 로컬로 Whisper AI를 설정하거나 실행하는 동안 여전히 문제가 있는 경우. 아래에 댓글을 달 수 있습니다.
Whisper AI를 사용한 자막 생성에 대한 FAQ
1. Whisper를 사용하여 내가 업로드하는 YouTube 동영상에 자동으로 자막을 추가할 수 있나요?
아니요. 동영상이 기기에 로컬로 저장된 경우 자막을 생성한 다음 동영상을 업로드할 때 YouTube에 업로드해야 합니다. 업로드하는 YouTube 동영상에 자막이 자동으로 추가되지는 않습니다.
2. Whisper는 설치 후 오프라인으로 작동하나요?
예. 필요한 모델을 다운로드하면 오프라인으로 작동하므로 인터넷 연결이 필요하지 않습니다.
3. 구형 또는 저사양 장치에서 전사 속도를 높이려면 어떻게 해야 합니까?
전사 속도를 높이려면 작은 모델을 사용해야 합니다. 또한 이 프로세스를 더 빠르게 만들기 위해 대용량 비디오 파일을 더 작은 파일로 압축할 수도 있습니다. 파일을 압축하려면 터미널에서 ffmpeg -i video 명령을 사용하면 됩니다. mp4 -q: a 0 -오디오를 매핑합니다. mp3
4. Whisper는 자동으로 화자를 감지하거나 대화를 분리할 수 있나요?
아니요, 현재 Whisper는 자동으로 화자를 감지하거나 대화를 분리할 수 없습니다. 별도의 오디오 파일, Pyannote 오디오 또는 WhisperX를 얻으려면 Pyannote와 같은 별도의 도구를 사용해야 합니다.
5. 속삭임으로 생성된 자막은 시끄럽거나 악센트가 있는 음성에 대해 정확합니까?
예, 최고의 전사 모델 중 하나입니다. 정확도는 사용 중인 모델에 따라 달라집니다. 대형 모델은 일반적으로 더 나은 정확도를 생성합니다. 그러나 실행하는 데 시간이 더 많이 걸리고 강력한 리소스가 필요할 수 있습니다.
