Jak wykorzystałem sztuczną inteligencję Whisper do tworzenia napisów do dowolnego filmu (bezpłatny i offline)

Opublikowany: 2025-10-31

Nie wszystkie produkty AI są przereklamowane; jest kilka naprawdę przydatnych, od pisania e-maili, przez edytowanie zdjęć, po uruchamianie agentów AI i wiele więcej.

Stale testuję różne narzędzia AI, zapisując się na nowe, wypróbowując oprogramowanie w wersji beta i oceniając je w porównaniu z istniejącymi konkurentami, aby ocenić ich wydajność.

how i used whisper ai to make subtitles for any movie

Poruszając się po świecie sztucznej inteligencji, naszym obowiązkiem jest dostarczanie przydatnych narzędzi sztucznej inteligencji, które naprawdę przynoszą korzyści naszym czytelnikom, i to robimy. Jednym z nich jest nasz najnowszy przewodnik po agentach AI, zawierający 8 przydatnych agentów AI, które mogą być korzystne dla zwykłych użytkowników.

Szept to jedno z takich narzędzi, które pozwala na transkrypcję dźwięku na tekst; oferuje także przydatne funkcje, takie jak napisy, a nawet może generować napisy. Chociaż większość platform oferuje obecnie napisy, nadal istnieje wiele programów, które ich nie mają, co sprawia, że są one niezwykle trudne do zrozumienia i często prowadzą do zaniechania oglądania. Dodatkowo, dzięki dubbingowi, większość studiów uruchamia programy z ograniczonymi opcjami językowymi.

Spis treści

Jak wygenerować napisy i podpisy do dowolnego filmu za pomocą Whisper AI
Wymagania wstępne dotyczące instalacji i używania programu Whisper na komputerach Mac, Windows i Linux

Jak zainstalować Whisper AI lokalnie na swoim urządzeniu
Jak wygenerować napisy do wideo
Jak używać napisów do filmu
Ostatnie przemyślenia
Często zadawane pytania dotyczące generowania napisów za pomocą Whisper AI
1. Czy mogę używać Whisper do automatycznego dodawania napisów do filmów na YouTube, które przesyłam?
2. Czy po instalacji Whisper działa w trybie offline?
3. Jak mogę przyspieszyć transkrypcję na starszych lub słabszych urządzeniach?
4. Czy Whisper automatycznie wykrywa głośniki lub oddzielne dialogi?
5. Czy napisy generowane szeptem są odpowiednie w przypadku mowy hałaśliwej lub z akcentem?

Zobacz więcej Zobacz mniej

Jak wygenerować napisy i podpisy do dowolnego filmu za pomocą Whisper AI

W tym celu używam Whisper, bezpłatnego narzędzia do transkrypcji dźwięku od OpenAI dostępnego zarówno dla komputerów Mac, jak i Windows. Obsługuje wiele języków, a nawet może tłumaczyć na inne języki. Może transkrybować tekst, generować tekst z dźwięku i konwertować go na inne języki; co najważniejsze, może generować napisy i podpisy z dowolnego języka, a nawet tłumaczyć je na angielski.

Wymagania wstępne dotyczące instalacji i używania programu Whisper na komputerach Mac, Windows i Linux

Możesz uruchomić Whisper AI w chmurze i lokalnie na komputerze Mac. Ponieważ omawiamy opcję bezpłatną, jedyną dostępną bezpłatną opcją jest uruchomienie jej lokalnie na urządzeniu. Ale wcześniej oto wymagania wstępne dla każdej platformy, aby uruchomić ją lokalnie na Twoim urządzeniu.

Okna

Python 3.8+
PyTorch 1.10.1+
ffmpeg

prochowiec

Python 3.8+
PyTorch 1.10.1+
ffmpeg Linux

Python 3.8+
PyTorch 1.10.1+
ffmpeg

Jak zainstalować Whisper AI lokalnie na swoim urządzeniu

Instalacja Whisper jest łatwa i wymaga trzech kroków, w zależności od urządzenia. Podałem tę metodę zarówno dla systemu Windows, jak i macOS. Możesz wykonać kroki, aby zainstalować Whisper lokalnie na swoim urządzeniu bez żadnych problemów. Jeśli jesteś gotowy, zaczynajmy.

Krok 1: Zainstaluj Pythona na swoim urządzeniu

Jeśli masz już zainstalowany Python na swoim urządzeniu, możesz pominąć ten krok. Jeśli nie, odwiedź: https://www.python.org/ i zainstaluj go na swoim urządzeniu.

install python on to your device.

Po zainstalowaniu użyj następującego polecenia, aby sprawdzić, czy jest ono zainstalowane na Twoim urządzeniu.

Otwórz wiersz poleceń (Windows) lub terminal (Mac/Linux) i wpisz następujące polecenie: wersja Pythona.

Jeśli pokazuje wersję Pythona, coś w tym rodzaju, Python 3.12.0, oznacza to, że została pomyślnie zainstalowana na Twoim urządzeniu. Jeśli tego nie widzisz, wykonaj tę procedurę ponownie.

Jeśli masz starszą wersję Pythona, możesz ją zaktualizować za pomocą następujących poleceń w systemach Windows, Mac i Linux.

Windows: python -m pip install –upgrade pip
MacOS: python3 -m pip install –upgrade pip
Linux: sudo apt install python3.12

Krok 2: Teraz zainstaluj Whisper

Następnie zainstaluj Whisper na swoim urządzeniu. Otwórz terminal na swoim urządzeniu i użyj tego polecenia.

Windows: pip install -u openai-whisper
MacOS: pip install -u openai-whisper. Jeśli zobaczysz jakiś błąd, użyj tego polecenia: python3 -m pip install –user -U openai-whisper
Linux: pip install -u openai-whisper

install whisper on your device

Poczekaj, aż wszystkie pliki zostaną pomyślnie pobrane. Po zakończeniu zostanie wyświetlony komunikat podobny do „Pobrano pomyślnie”.

Możesz użyć tego polecenia, aby sprawdzić, czy jest ono poprawnie zainstalowane na Twoim urządzeniu.

Wskazówka:

Jeśli podczas instalacji napotkasz jakiekolwiek błędy, skopiuj kod błędu i użyj ChatGPT, aby rozwiązać problem. Możesz wkleić kod błędu do ChatGPT, co pomoże Ci rozwiązać problem.

Komenda: szepnij – pomóż

Krok 3: Następnie zainstaluj oprogramowanie FFmpeg.

Następnie zainstaluj ffmpeg (wymagany dla dźwięku), aby przetworzyć pliki audio na swoim urządzeniu.

Na komputerze Mac:

Możesz użyć Homebrew, aby zainstalować go na komputerze Mac za pomocą tego prostego polecenia: brew install ffmpeg

Jeśli nie masz Homebrew na komputerze Mac:

Krok 1: Otwórz terminal na komputerze Mac

Krok 2: Wklej to polecenie i naciśnij Enter: /bin/bash -c „$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)”

Krok 3: Wprowadź hasło i poczekaj, aż wszystkie pliki zostaną pobrane.

Powiązane: Jak zainstalować Homebrew na systemie macOS

check if homebrew works

Krok 4: Użyj tego polecenia, aby sprawdzić, czy Brew został poprawnie zainstalowany na Twoim urządzeniu. Możesz użyć tego polecenia: brew –wersja

Zainstaluj oprogramowanie ffmpeg

Krok 1: Otwórz terminal i użyj tego polecenia: brew install ffmpeg

install ffmpeg

Krok 2: Poczekaj, aż wszystkie wymagane pliki zostaną pobrane.

Krok 3: Użyj tego polecenia, aby sprawdzić, czy zostało ono pomyślnie zainstalowane na Twoim urządzeniu: ffmpeg -version

ffmpeg installed on your device

Dla systemu Windows:

Krok 1: Przejdź do https://ffmpeg.org/download.html i pobierz plik Windows.

Krok 2: Wyodrębnij go i zainstaluj na swoim urządzeniu jak każde inne oprogramowanie.

Krok 3: Następnie sprawdź, czy wszystko jest poprawnie zainstalowane na Twoim urządzeniu. Otwórz terminal na swoim urządzeniu i wprowadź polecenie: „pomoc szeptem”. Jeśli widzisz opcje, oznacza to, że aplikacja jest poprawnie zainstalowana na Twoim urządzeniu.

Jak wygenerować napisy do wideo

Krok 1: Otwórz terminal na swoim urządzeniu i przejdź do folderu, w którym znajduje się plik wideo. W tym przypadku mój plik wideo znajduje się na moim pulpicie. Aby przejść do folderu plików wideo, możesz użyć następujących poleceń.

navigate to your video location

Windows: pulpit CD
MacOS: cd ~/Pulpit

Krok 2: Transkrypcja plików audio i wideo. Oto lista formatów plików obsługiwanych przez Whisper.

Obsługiwane formaty wideo	Obsługiwane formaty audio
.mp4	.mp3
.mkv	.wav
.mov	.flac
.webm	.m4a
.avi	.aac
.mpg / .mpeg	.ogg
.flv	.opus
.wmv	.aiff / .aif
.3gp	.amr
	.wma

Krok 3: Teraz wykonaj transkrypcję, wybierz plik wideo za pomocą tego polecenia: szept (tutaj dodaj nazwę pliku wideo lub audio) –model turbo –task transkrypcja

przykład: szept wideo.mp4 –model turbo –transkrypcja zadania

Krok 3: W zależności od wybranego modelu może zostać pobrany nowy model. Poczekaj więc, aż zakończy się pobieranie. Oto różne modele Whisper, spośród których możesz wybierać. Im niższy model, tym mniejsza dokładność.

Nazwa modelu	Parametry	Wymagana pamięć VRAM
malutki	39M	1 GB
opierać	74M	1 GB
mały	244M	2 GB
średni	769M	5 GB
duży	1,55B	10 GB
turbo	809M	6 GB

Jeśli jednak Twoje urządzenie nie jest wydajne, zalecam użycie modelu małego lub podstawowego, ponieważ uruchamianie dużych modeli może pochłonąć wszystkie zasoby systemowe. Jeśli masz większe pliki multimedialne i zależy Ci na dużej dokładności, możesz uruchomić Whisper w Google Colab. Oto samouczek wideo, jak to zrobić.

run whisper

Krok 4: Napisy są teraz generowane. W określonym wcześniej folderze wideo możesz znaleźć następujące pliki.

wideo. transkrypcja zwykłego tekstu w formacie txt
wideo. format napisów internetowych vtt
wideo. srt popularny format napisów (dla YouTube, VLC itp.)

run whisper to generate subtitles

Krok 5: Otwórz plik, aby wyświetlić napisy. Teraz przejdź do folderu, w którym znajdują się Twoje filmy i otwórz plik o nazwie video.srt

subtitles

Krok 6 (opcjonalnie): Jeśli film nie jest w języku angielskim, możesz przetłumaczyć go na angielski za pomocą następującego polecenia.

Polecenie: szept (nazwa pliku wideo lub audio) – medium modelu – język (wpisz tutaj swój język) – zadanie tłumacz

Przykład: szept wideo.mp4 –model medium –język japoński –zadanie przetłumaczyć

use this command on macos to translate the audio in a video (or audio file) to english

Krok 7: Teraz wróć do miejsca docelowego, w którym znajduje się plik wideo. Stamtąd możesz zobaczyć plik video.SRT, który zawiera angielskie napisy do użytego filmu.

subtitles

Jak używać napisów do filmu

Możesz zaimportować napisy do dowolnego odtwarzacza multimedialnego innej firmy i odtwarzać wideo z napisami. VLC to najlepszy odtwarzacz multimedialny innej firmy dostępny dla systemów Windows i macOS. Oto jak go używać do oglądania filmów z napisami wygenerowanymi za pomocą Whisper.

Pobierz odtwarzacz multimedialny VLC (bezpłatny)

Dla systemu Windows
Dla systemu macOS

Krok 1: Po pobraniu zainstaluj odtwarzacz multimedialny VLC na swoim urządzeniu.

vlc player website

Krok 2: Otwórz odtwarzacz VLC w systemie Windows i przejdź do karty Lista odtwarzania, a następnie kliknij Otwórz multimedia.

open media

Krok 3: W tym miejscu kliknij przeglądaj i wybierz plik wideo, a następnie włącz opcję Dodaj plik napisów, wybierz plik napisów wygenerowany za pomocą Whisper AI i kliknij Otwórz.

add subtitles to the video

Krok 4: To wszystko, generowane są napisy do filmu.

subtitles for the video

Ostatnie przemyślenia

Przez lata te ograniczenia frustrowały mnie. Jednak VLC ogłosiło napisy generowane przez sztuczną inteligencję, które działają w czasie rzeczywistym, ale nadal nie są dostępne dla zwykłych użytkowników. A co jeszcze bardziej niepokojące, to był ich ostatni post na Twitterze, więc tracę nadzieję, dopóki nie rozpracuję Whispera.

W ten sposób możesz wygenerować napisy do dowolnego filmu, także pełnometrażowego, w zależności od zasobów Twojego urządzenia. Jeśli Twoje urządzenie nie jest wydajne, możesz uruchomić Whisper AI w Google Colab. Nie tylko generujesz napisy, możesz je także przetłumaczyć na inne języki, jak pokazano na poniższym filmie. Mam nadzieję, że ten przewodnik okaże się pomocny. Zadbałem o to, aby każdy krok był szczegółowo opisany, aby ten przewodnik był przyjazny dla początkujących. Jeśli nadal masz problemy podczas konfigurowania lub uruchamiania Whisper AI lokalnie na swoim urządzeniu. Możesz skomentować poniżej.

Często zadawane pytania dotyczące generowania napisów za pomocą Whisper AI

1. Czy mogę używać Whisper do automatycznego dodawania napisów do filmów na YouTube, które przesyłam?

Nie, musisz wygenerować napisy, jeśli film jest przechowywany lokalnie na Twoim urządzeniu, a następnie przesłać go do YouTube po przesłaniu filmu. Nie dodaje automatycznie napisów do filmów przesyłanych do YouTube.

2. Czy po instalacji Whisper działa w trybie offline?

Tak, po pobraniu wymaganego modelu działa on w trybie offline, eliminując potrzebę połączenia z Internetem.

3. Jak mogę przyspieszyć transkrypcję na starszych lub słabszych urządzeniach?

Aby przyspieszyć transkrypcję, musisz użyć małych modeli. Możesz także skompresować duże pliki wideo na mniejsze, aby przyspieszyć ten proces. Aby skompresować pliki, możesz użyć następującego polecenia w terminalu: ffmpeg -i video. mp4 -q: a 0 -map audio. mp3

4. Czy Whisper automatycznie wykrywa głośniki lub oddzielne dialogi?

Nie, obecnie Whisper nie może automatycznie wykryć głośników ani oddzielnych dialogów; musisz użyć osobnych narzędzi, takich jak Pyannote, aby uzyskać osobne pliki audio, Pyannote audio lub WhisperX

5. Czy napisy generowane szeptem są odpowiednie w przypadku mowy hałaśliwej lub z akcentem?

Tak, to jeden z najlepszych modeli transkrypcji. Dokładność zależy również od używanego modelu; duże modele generalnie zapewniają lepszą dokładność; mogą jednak zająć więcej czasu i wymagać do działania potężnych zasobów.