Comment j'ai utilisé Whisper AI pour créer des sous-titres pour n'importe quel film (gratuit et hors ligne)
Publié: 2025-10-31Tous les produits d’IA ne sont pas surfaits ; il en existe de véritables utiles, de la rédaction de votre e-mail à l'édition de vos photos en passant par l'exécution d'agents IA et bien plus encore.
J'ai constamment testé divers outils d'IA, en souscrivant à de nouveaux, en essayant des logiciels bêta et en les évaluant par rapport aux concurrents existants pour évaluer leurs performances.

En naviguant dans ce monde de l’IA, il est de notre responsabilité de fournir des outils d’IA utiles qui profitent véritablement à nos lecteurs, et nous l’avons fait. Notre récent guide des agents IA en fait partie, présentant 8 agents IA utiles qui peuvent être bénéfiques pour les utilisateurs quotidiens.
Whisper est l'un de ces outils qui vous permet de transcrire de l'audio en texte ; il propose également des fonctionnalités utiles, telles que des sous-titres, et peut même générer des sous-titres. Même si la plupart des plateformes proposent désormais des sous-titres, il existe encore de nombreuses émissions qui ne sont pas sous-titrées, ce qui les rend extrêmement difficiles à comprendre et conduit souvent à ne pas les regarder. De plus, grâce au doublage, la plupart des studios lancent des émissions avec des options linguistiques limitées.
Table des matières
Comment générer des sous-titres et des légendes pour n'importe quelle vidéo à l'aide de Whisper AI
Pour cela, j'utilise Whisper, un outil de transcription audio gratuit d'OpenAI disponible pour Mac et Windows. Il prend en charge plusieurs langues et peut même traduire dans d'autres langues. Il peut transcrire du texte, générer du texte à partir de l'audio et le convertir dans d'autres langues ; plus important encore, il peut générer des sous-titres et des légendes à partir de n'importe quelle langue et même les traduire en anglais.
Conditions préalables pour installer et utiliser Whisper sur votre Mac, Windows et Linux
Vous pouvez exécuter Whisper AI dans le cloud et localement sur votre Mac. Puisque nous discutons d'une option gratuite, l'exécuter localement sur votre appareil est la seule option gratuite disponible. Mais avant cela, voici les prérequis pour que chaque plateforme puisse l'exécuter localement sur votre appareil.
Fenêtres
- Python3.8+
 - PyTorch 1.10.1+
 - ffmpeg
 
Mac
- Python3.8+
 - PyTorch 1.10.1+
 - ffmpeg Linux
 
- Python3.8+
 - PyTorch 1.10.1+
 - ffmpeg
 
Comment installer Whisper AI localement sur votre appareil
L'installation de Whisper est simple et nécessite trois étapes, en fonction de votre appareil. J'ai répertorié la méthode pour Windows et macOS. Vous pouvez suivre les étapes pour installer Whisper localement sur votre appareil sans aucun problème. Si vous êtes prêt, commençons.
Étape 1 : Installez Python sur votre appareil
Si Python est déjà installé sur votre appareil, vous pouvez ignorer cette étape. Si ce n'est pas le cas, visitez : https://www.python.org/ et installez-le sur votre appareil.

Une fois installé, utilisez la commande suivante pour vérifier si elle est installée sur votre appareil.
Ouvrez votre invite de commande (Windows) ou votre terminal (Mac/Linux) et tapez la commande suivante : version python.
S'il affiche la version Python, quelque chose comme ceci, Python 3.12.0, cela signifie qu'il est installé avec succès sur votre appareil. Si vous ne voyez pas cela, suivez à nouveau le processus.
Si vous disposez d'une ancienne version de Python, vous pouvez la mettre à jour à l'aide des commandes suivantes sous Windows, Mac et Linux.
- Windows : python -m pip install –upgrade pip
 - MacOS : python3 -m pip install –upgrade pip
 - Linux : sudo apt install python3.12
 
Étape 2 : Maintenant, installez Whisper
Ensuite, installez Whisper sur votre appareil. Ouvrez le terminal sur votre appareil et utilisez cette commande.
- Windows : pip install -u openai-whisper
 - MacOS : pip install -u openai-whisper. Si vous voyez une erreur, utilisez cette commande : python3 -m pip install –user -U openai-whisper
 - Linux : pip install -u openai-whisper
 

Attendez que tous les fichiers soient téléchargés avec succès. Une fois terminé, vous verrez un message similaire à « Téléchargement réussi ».
Vous pouvez utiliser cette commande pour vérifier si elle est correctement installée sur votre appareil.
Commande : chuchoter – aider
Étape 3 : Ensuite, installez le logiciel FFmpeg.
Ensuite, installez ffmpeg (obligatoire pour l'audio) pour traiter les fichiers audio sur votre appareil.
Sur Mac :
Vous pouvez utiliser Homebrew pour l'installer sur votre Mac en utilisant cette simple commande : Brew install ffmpeg
Si vous n'avez pas Homebrew sur votre Mac :
Étape 1 : ouvrez le terminal sur votre Mac
Étape 2 : Collez cette commande et appuyez sur Entrée : /bin/bash -c « $(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh) »

Étape 3 : Entrez le mot de passe et attendez que tous les fichiers soient téléchargés.
Connexe : Comment installer Homebrew sur votre macOS

Étape 4 : Utilisez cette commande pour vérifier si Brew a été correctement installé sur votre appareil. Vous pouvez utiliser cette commande : brew –version
Installez le logiciel ffmpeg
Étape 1 : Ouvrez le terminal et utilisez cette commande : Brew install ffmpeg

Étape 2 : Attendez que tous les fichiers requis aient été téléchargés.
Étape 3 : utilisez cette commande pour vérifier si elle est correctement installée sur votre appareil : ffmpeg -version

Pour Windows :
Étape 1 : Accédez à https://ffmpeg.org/download.html et téléchargez le fichier Windows.
Étape 2 : Extrayez-le et installez-le sur votre appareil comme n'importe quel autre logiciel.
Étape 3 : Ensuite, vérifiez que tout est correctement installé sur votre appareil. Ouvrez le terminal sur votre appareil et entrez la commande suivante : « chuchoter aide ». Si vous voyez des options, cela signifie que l'application est correctement installée sur votre appareil.
Comment générer des sous-titres pour une vidéo
Étape 1 : Ouvrez le terminal sur votre appareil et accédez au dossier où se trouve le fichier vidéo. Dans ce cas, mon fichier vidéo se trouve sur mon bureau. Vous pouvez utiliser les commandes suivantes pour accéder au dossier du fichier vidéo.

- Windows : CD de bureau
 - MacOS : cd ~/Bureau
 
Étape 2 : Transcrivez les fichiers audio et vidéo. Voici la liste des formats de fichiers pris en charge par Whisper.
| Formats vidéo pris en charge | Formats audio pris en charge | 
| .mp4 | .mp3 | 
| .mkv | .wav | 
| .mov | .flac | 
| .webm | .m4a | 
| .avi | .aac | 
| .mpg / .mpeg | .ogg | 
| .flv | .opus | 
| .wmv | .aiff / .aif | 
| .3gp | .amr | 
| .wma | 
Étape 3 : Maintenant, transcrivez, sélectionnez le fichier vidéo à l'aide de cette commande : murmure (ajoutez le nom de votre fichier vidéo ou audio ici) – modèle turbo – tâche transcrire
exemple : chuchoter vidéo.mp4 – modèle turbo – tâche transcrire
Étape 3 : En fonction de votre sélection de modèle, un nouveau modèle peut être téléchargé. Attendez donc la fin du téléchargement. Voici les différents modèles Whisper parmi lesquels vous pouvez choisir. Plus le modèle est bas, plus la précision est faible.
| Nom du modèle | Paramètres | VRAM requise | 
| minuscule | 39M | 1 Go | 
| base | 74M | 1 Go | 
| petit | 244M | 2 Go | 
| moyen | 769M | 5 Go | 
| grand | 1,55 milliards | 10 Go | 
| turbo | 809M | 6 Go | 
Cependant, si votre appareil n'est pas puissant, je vous recommande d'utiliser le modèle minuscule ou de base, car l'exécution de grands modèles peut consommer toutes les ressources de votre système. Si vous disposez de fichiers multimédias plus volumineux et souhaitez une grande précision, vous pouvez exécuter Whisper sur Google Colab. Voici le didacticiel vidéo expliquant comment procéder.

Étape 4 : Les sous-titres sont maintenant générés. Vous pouvez trouver les fichiers suivants dans le dossier vidéo que vous avez spécifié précédemment.
- vidéo. transcription en texte brut txt
 - vidéo. format de sous-titres Web VTT
 - vidéo. format de sous-titre commun srt (pour YouTube, VLC, etc.)
 

Étape 5 : Ouvrez le fichier pour afficher les sous-titres. Allez maintenant dans le dossier où se trouvent vos vidéos et ouvrez le fichier qui dit video.srt

Étape 6 (Facultatif) : Si la vidéo n'est pas en anglais, vous pouvez la traduire en anglais à l'aide de la commande suivante.
Commande : murmurer (le nom de votre fichier vidéo ou audio) – support du modèle – langue (entrez votre langue ici) – tâche de traduction
Exemple : chuchoter vidéo.mp4 –support du modèle –langue japonais –tâche de traduction

Étape 7 : Maintenant, revenez à la destination où se trouve le fichier vidéo. De là, vous pouvez voir le fichier video.SRT, qui contient les sous-titres anglais de la vidéo que vous avez utilisée.

Comment utiliser les sous-titres pour la vidéo
Vous pouvez importer des sous-titres sur n'importe quel lecteur multimédia tiers et lire la vidéo avec des sous-titres. VLC est le meilleur lecteur multimédia tiers disponible pour Windows et macOS. Voici comment l'utiliser pour regarder des films avec des sous-titres que vous avez générés à l'aide de Whisper.
Téléchargez le lecteur multimédia VLC (gratuit)
- Pour Windows
 - Pour macOS
 
Étape 1 : Une fois téléchargé, installez le lecteur multimédia VLC sur votre appareil.

Étape 2 : Ouvrez le lecteur VLC sur votre Windows et accédez à l'onglet Liste de lecture, puis cliquez sur Ouvrir le média.

Étape 3 : À partir de là, appuyez sur Parcourir, sélectionnez le fichier vidéo et activez Ajouter un fichier de sous-titres, sélectionnez le fichier de sous-titres que vous avez généré à l'aide de Whisper AI, puis cliquez sur Ouvrir.

Étape 4 : Ça y est, les sous-titres de la vidéo sont générés.

Pensées finales
Au fil des années, ces limitations m’ont frustré. Cependant, VLC a annoncé des sous-titres générés par l'IA qui fonctionnent en temps réel, mais ils ne sont toujours pas disponibles pour les utilisateurs réguliers. Et plus inquiétant encore, c'était leur dernier message sur Twitter, donc je perds espoir jusqu'à ce que je découvre Whisper.
C'est ainsi que vous pouvez générer des sous-titres pour n'importe quelle vidéo, y compris les longs métrages, en fonction des ressources de votre appareil. Si votre appareil n'est pas puissant, vous pouvez exécuter Whisper AI sur Google Colab. Non seulement générer des sous-titres, vous pouvez également les traduire dans d'autres langues, comme le montre la vidéo ci-dessous. J'espère que vous trouverez ce guide utile. Je me suis assuré que chaque étape est détaillée pour rendre ce guide convivial pour les débutants. Si vous rencontrez toujours des problèmes lors de la configuration ou de l'exécution de Whisper AI localement sur votre appareil. Vous pouvez commenter ci-dessous.
FAQ sur la génération de sous-titres à l'aide de Whisper AI
1. Puis-je utiliser Whisper pour ajouter automatiquement des sous-titres aux vidéos YouTube que je télécharge ?
Non, vous devez générer des sous-titres si la vidéo est stockée localement sur votre appareil, puis la télécharger sur YouTube lorsque vous téléchargez la vidéo. Il n'ajoute pas automatiquement de sous-titres aux vidéos YouTube que vous téléchargez.
2. Whisper fonctionne-t-il hors ligne après l'installation ?
Oui, une fois le modèle requis téléchargé, il fonctionne hors ligne, éliminant ainsi le besoin d’une connexion Internet.
3. Comment puis-je accélérer la transcription sur des appareils plus anciens ou bas de gamme ?
Pour accélérer la transcription, vous devez utiliser de petits modèles. Vous pouvez également compresser les gros fichiers vidéo en fichiers plus petits pour accélérer ce processus. Pour compresser des fichiers, vous pouvez utiliser la commande suivante dans le terminal : ffmpeg -i video. mp4 -q : un 0 -map un audio. mp3
4. Whisper peut-il détecter automatiquement les locuteurs ou séparer les dialogues ?
Non, actuellement Whisper ne peut pas détecter automatiquement les locuteurs ou séparer les dialogues ; vous devez utiliser des outils distincts, tels que Pyannote, pour obtenir des fichiers audio distincts, Pyannote audio ou WhisperX
5. Les sous-titres générés par Whisper sont-ils précis pour les paroles bruyantes ou accentuées ?
Oui, c'est l'un des meilleurs modèles de transcription. La précision dépend également du modèle que vous utilisez ; les grands modèles génèrent généralement une meilleure précision ; cependant, leur exécution peut prendre plus de temps et nécessiter des ressources puissantes.
