Jak wykorzystałem sztuczną inteligencję Whisper do tworzenia napisów do dowolnego filmu (bezpłatny i offline)
Opublikowany: 2025-10-31Nie wszystkie produkty AI są przereklamowane; jest kilka naprawdę przydatnych, od pisania e-maili, przez edytowanie zdjęć, po uruchamianie agentów AI i wiele więcej.
Stale testuję różne narzędzia AI, zapisując się na nowe, wypróbowując oprogramowanie w wersji beta i oceniając je w porównaniu z istniejącymi konkurentami, aby ocenić ich wydajność.

Poruszając się po świecie sztucznej inteligencji, naszym obowiązkiem jest dostarczanie przydatnych narzędzi sztucznej inteligencji, które naprawdę przynoszą korzyści naszym czytelnikom, i to robimy. Jednym z nich jest nasz najnowszy przewodnik po agentach AI, zawierający 8 przydatnych agentów AI, które mogą być korzystne dla zwykłych użytkowników.
Szept to jedno z takich narzędzi, które pozwala na transkrypcję dźwięku na tekst; oferuje także przydatne funkcje, takie jak napisy, a nawet może generować napisy. Chociaż większość platform oferuje obecnie napisy, nadal istnieje wiele programów, które ich nie mają, co sprawia, że są one niezwykle trudne do zrozumienia i często prowadzą do zaniechania oglądania. Dodatkowo, dzięki dubbingowi, większość studiów uruchamia programy z ograniczonymi opcjami językowymi.
Spis treści
Jak wygenerować napisy i podpisy do dowolnego filmu za pomocą Whisper AI
W tym celu używam Whisper, bezpłatnego narzędzia do transkrypcji dźwięku od OpenAI dostępnego zarówno dla komputerów Mac, jak i Windows. Obsługuje wiele języków, a nawet może tłumaczyć na inne języki. Może transkrybować tekst, generować tekst z dźwięku i konwertować go na inne języki; co najważniejsze, może generować napisy i podpisy z dowolnego języka, a nawet tłumaczyć je na angielski.
Wymagania wstępne dotyczące instalacji i używania programu Whisper na komputerach Mac, Windows i Linux
Możesz uruchomić Whisper AI w chmurze i lokalnie na komputerze Mac. Ponieważ omawiamy opcję bezpłatną, jedyną dostępną bezpłatną opcją jest uruchomienie jej lokalnie na urządzeniu. Ale wcześniej oto wymagania wstępne dla każdej platformy, aby uruchomić ją lokalnie na Twoim urządzeniu.
Okna
- Python 3.8+
 - PyTorch 1.10.1+
 - ffmpeg
 
prochowiec
- Python 3.8+
 - PyTorch 1.10.1+
 - ffmpeg Linux
 
- Python 3.8+
 - PyTorch 1.10.1+
 - ffmpeg
 
Jak zainstalować Whisper AI lokalnie na swoim urządzeniu
Instalacja Whisper jest łatwa i wymaga trzech kroków, w zależności od urządzenia. Podałem tę metodę zarówno dla systemu Windows, jak i macOS. Możesz wykonać kroki, aby zainstalować Whisper lokalnie na swoim urządzeniu bez żadnych problemów. Jeśli jesteś gotowy, zaczynajmy.
Krok 1: Zainstaluj Pythona na swoim urządzeniu
Jeśli masz już zainstalowany Python na swoim urządzeniu, możesz pominąć ten krok. Jeśli nie, odwiedź: https://www.python.org/ i zainstaluj go na swoim urządzeniu.

Po zainstalowaniu użyj następującego polecenia, aby sprawdzić, czy jest ono zainstalowane na Twoim urządzeniu.
Otwórz wiersz poleceń (Windows) lub terminal (Mac/Linux) i wpisz następujące polecenie: wersja Pythona.
Jeśli pokazuje wersję Pythona, coś w tym rodzaju, Python 3.12.0, oznacza to, że została pomyślnie zainstalowana na Twoim urządzeniu. Jeśli tego nie widzisz, wykonaj tę procedurę ponownie.
Jeśli masz starszą wersję Pythona, możesz ją zaktualizować za pomocą następujących poleceń w systemach Windows, Mac i Linux.
- Windows: python -m pip install –upgrade pip
 - MacOS: python3 -m pip install –upgrade pip
 - Linux: sudo apt install python3.12
 
Krok 2: Teraz zainstaluj Whisper
Następnie zainstaluj Whisper na swoim urządzeniu. Otwórz terminal na swoim urządzeniu i użyj tego polecenia.
- Windows: pip install -u openai-whisper
 - MacOS: pip install -u openai-whisper. Jeśli zobaczysz jakiś błąd, użyj tego polecenia: python3 -m pip install –user -U openai-whisper
 - Linux: pip install -u openai-whisper
 

Poczekaj, aż wszystkie pliki zostaną pomyślnie pobrane. Po zakończeniu zostanie wyświetlony komunikat podobny do „Pobrano pomyślnie”.
Możesz użyć tego polecenia, aby sprawdzić, czy jest ono poprawnie zainstalowane na Twoim urządzeniu.
Komenda: szepnij – pomóż
Krok 3: Następnie zainstaluj oprogramowanie FFmpeg.
Następnie zainstaluj ffmpeg (wymagany dla dźwięku), aby przetworzyć pliki audio na swoim urządzeniu.
Na komputerze Mac:
Możesz użyć Homebrew, aby zainstalować go na komputerze Mac za pomocą tego prostego polecenia: brew install ffmpeg

Jeśli nie masz Homebrew na komputerze Mac:
Krok 1: Otwórz terminal na komputerze Mac
Krok 2: Wklej to polecenie i naciśnij Enter: /bin/bash -c „$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)”
Krok 3: Wprowadź hasło i poczekaj, aż wszystkie pliki zostaną pobrane.
Powiązane: Jak zainstalować Homebrew na systemie macOS

Krok 4: Użyj tego polecenia, aby sprawdzić, czy Brew został poprawnie zainstalowany na Twoim urządzeniu. Możesz użyć tego polecenia: brew –wersja
Zainstaluj oprogramowanie ffmpeg
Krok 1: Otwórz terminal i użyj tego polecenia: brew install ffmpeg

Krok 2: Poczekaj, aż wszystkie wymagane pliki zostaną pobrane.
Krok 3: Użyj tego polecenia, aby sprawdzić, czy zostało ono pomyślnie zainstalowane na Twoim urządzeniu: ffmpeg -version

Dla systemu Windows:
Krok 1: Przejdź do https://ffmpeg.org/download.html i pobierz plik Windows.
Krok 2: Wyodrębnij go i zainstaluj na swoim urządzeniu jak każde inne oprogramowanie.
Krok 3: Następnie sprawdź, czy wszystko jest poprawnie zainstalowane na Twoim urządzeniu. Otwórz terminal na swoim urządzeniu i wprowadź polecenie: „pomoc szeptem”. Jeśli widzisz opcje, oznacza to, że aplikacja jest poprawnie zainstalowana na Twoim urządzeniu.
Jak wygenerować napisy do wideo
Krok 1: Otwórz terminal na swoim urządzeniu i przejdź do folderu, w którym znajduje się plik wideo. W tym przypadku mój plik wideo znajduje się na moim pulpicie. Aby przejść do folderu plików wideo, możesz użyć następujących poleceń.

- Windows: pulpit CD
 - MacOS: cd ~/Pulpit
 
Krok 2: Transkrypcja plików audio i wideo. Oto lista formatów plików obsługiwanych przez Whisper.
| Obsługiwane formaty wideo | Obsługiwane formaty audio | 
| .mp4 | .mp3 | 
| .mkv | .wav | 
| .mov | .flac | 
| .webm | .m4a | 
| .avi | .aac | 
| .mpg / .mpeg | .ogg | 
| .flv | .opus | 
| .wmv | .aiff / .aif | 
| .3gp | .amr | 
| .wma | 
Krok 3: Teraz wykonaj transkrypcję, wybierz plik wideo za pomocą tego polecenia: szept (tutaj dodaj nazwę pliku wideo lub audio) –model turbo –task transkrypcja
przykład: szept wideo.mp4 –model turbo –transkrypcja zadania
Krok 3: W zależności od wybranego modelu może zostać pobrany nowy model. Poczekaj więc, aż zakończy się pobieranie. Oto różne modele Whisper, spośród których możesz wybierać. Im niższy model, tym mniejsza dokładność.
| Nazwa modelu | Parametry | Wymagana pamięć VRAM | 
| malutki | 39M | 1 GB | 
| opierać | 74M | 1 GB | 
| mały | 244M | 2 GB | 
| średni | 769M | 5 GB | 
| duży | 1,55B | 10 GB | 
| turbo | 809M | 6 GB | 
Jeśli jednak Twoje urządzenie nie jest wydajne, zalecam użycie modelu małego lub podstawowego, ponieważ uruchamianie dużych modeli może pochłonąć wszystkie zasoby systemowe. Jeśli masz większe pliki multimedialne i zależy Ci na dużej dokładności, możesz uruchomić Whisper w Google Colab. Oto samouczek wideo, jak to zrobić.

Krok 4: Napisy są teraz generowane. W określonym wcześniej folderze wideo możesz znaleźć następujące pliki.
- wideo. transkrypcja zwykłego tekstu w formacie txt
 - wideo. format napisów internetowych vtt
 - wideo. srt popularny format napisów (dla YouTube, VLC itp.)
 

Krok 5: Otwórz plik, aby wyświetlić napisy. Teraz przejdź do folderu, w którym znajdują się Twoje filmy i otwórz plik o nazwie video.srt

Krok 6 (opcjonalnie): Jeśli film nie jest w języku angielskim, możesz przetłumaczyć go na angielski za pomocą następującego polecenia.
Polecenie: szept (nazwa pliku wideo lub audio) – medium modelu – język (wpisz tutaj swój język) – zadanie tłumacz
Przykład: szept wideo.mp4 –model medium –język japoński –zadanie przetłumaczyć

Krok 7: Teraz wróć do miejsca docelowego, w którym znajduje się plik wideo. Stamtąd możesz zobaczyć plik video.SRT, który zawiera angielskie napisy do użytego filmu.

Jak używać napisów do filmu
Możesz zaimportować napisy do dowolnego odtwarzacza multimedialnego innej firmy i odtwarzać wideo z napisami. VLC to najlepszy odtwarzacz multimedialny innej firmy dostępny dla systemów Windows i macOS. Oto jak go używać do oglądania filmów z napisami wygenerowanymi za pomocą Whisper.
Pobierz odtwarzacz multimedialny VLC (bezpłatny)
- Dla systemu Windows
 - Dla systemu macOS
 
Krok 1: Po pobraniu zainstaluj odtwarzacz multimedialny VLC na swoim urządzeniu.

Krok 2: Otwórz odtwarzacz VLC w systemie Windows i przejdź do karty Lista odtwarzania, a następnie kliknij Otwórz multimedia.

Krok 3: W tym miejscu kliknij przeglądaj i wybierz plik wideo, a następnie włącz opcję Dodaj plik napisów, wybierz plik napisów wygenerowany za pomocą Whisper AI i kliknij Otwórz.

Krok 4: To wszystko, generowane są napisy do filmu.

Ostatnie przemyślenia
Przez lata te ograniczenia frustrowały mnie. Jednak VLC ogłosiło napisy generowane przez sztuczną inteligencję, które działają w czasie rzeczywistym, ale nadal nie są dostępne dla zwykłych użytkowników. A co jeszcze bardziej niepokojące, to był ich ostatni post na Twitterze, więc tracę nadzieję, dopóki nie rozpracuję Whispera.
W ten sposób możesz wygenerować napisy do dowolnego filmu, także pełnometrażowego, w zależności od zasobów Twojego urządzenia. Jeśli Twoje urządzenie nie jest wydajne, możesz uruchomić Whisper AI w Google Colab. Nie tylko generujesz napisy, możesz je także przetłumaczyć na inne języki, jak pokazano na poniższym filmie. Mam nadzieję, że ten przewodnik okaże się pomocny. Zadbałem o to, aby każdy krok był szczegółowo opisany, aby ten przewodnik był przyjazny dla początkujących. Jeśli nadal masz problemy podczas konfigurowania lub uruchamiania Whisper AI lokalnie na swoim urządzeniu. Możesz skomentować poniżej.
Często zadawane pytania dotyczące generowania napisów za pomocą Whisper AI
1. Czy mogę używać Whisper do automatycznego dodawania napisów do filmów na YouTube, które przesyłam?
Nie, musisz wygenerować napisy, jeśli film jest przechowywany lokalnie na Twoim urządzeniu, a następnie przesłać go do YouTube po przesłaniu filmu. Nie dodaje automatycznie napisów do filmów przesyłanych do YouTube.
2. Czy po instalacji Whisper działa w trybie offline?
Tak, po pobraniu wymaganego modelu działa on w trybie offline, eliminując potrzebę połączenia z Internetem.
3. Jak mogę przyspieszyć transkrypcję na starszych lub słabszych urządzeniach?
Aby przyspieszyć transkrypcję, musisz użyć małych modeli. Możesz także skompresować duże pliki wideo na mniejsze, aby przyspieszyć ten proces. Aby skompresować pliki, możesz użyć następującego polecenia w terminalu: ffmpeg -i video. mp4 -q: a 0 -map audio. mp3
4. Czy Whisper automatycznie wykrywa głośniki lub oddzielne dialogi?
Nie, obecnie Whisper nie może automatycznie wykryć głośników ani oddzielnych dialogów; musisz użyć osobnych narzędzi, takich jak Pyannote, aby uzyskać osobne pliki audio, Pyannote audio lub WhisperX
5. Czy napisy generowane szeptem są odpowiednie w przypadku mowy hałaśliwej lub z akcentem?
Tak, to jeden z najlepszych modeli transkrypcji. Dokładność zależy również od używanego modelu; duże modele generalnie zapewniają lepszą dokładność; mogą jednak zająć więcej czasu i wymagać do działania potężnych zasobów.
