Speech-to-text avec whisper et streamlit cloud

S

J’ai adapté un script utilisant le modèle Whisper d’OpenAI en une solution « no code » déployée sur Streamlit Cloud. Il suffit de lancer l’URL de l’application et, après un délai de réponse assez long dû aux serveurs de Streamlit Cloud, vous aurez accès à un l’interface qui vous permet de retranscrire vos fichiers MP3 ou, directement, la voix en texte à partir d’une URL YouTube.

https://whisper-isthia-cloud.streamlit.app/

Un outil utile pour les étudiants en SHS 😉

Contrairement au script précédent, qui nécessitait de manipuler du code et d’installer manuellement les librairies indispensables pour l’exécution du code source – notamment ffmpeg (parfois délicate), l’application Streamlit se présente comme une solution « no code » ergonomique.
Par contre, son principal inconvénient réside dans sa lenteur de chargement. En effet, à son lancement, il faut compter environ 1-2 minutes (le temps idéal pour aller boire un petit café ☕).
Ce délai est sans doute lié à l’installation des dépendances (ffmpeg, youtube-dl,..) ainsi qu’aux performances des serveurs de Streamlit.
Cependant, si vous faites preuve de patience, le script fonctionne ensuite aussi bien que s’il était exécuté en local sur votre machine.
Par ailleurs, la précision de Whisper dépend fortement de la qualité des enregistrements, c’est-à-dire de la captation audio.
En conclusion, ce n’est pas un outil miracle ! Même si la retranscription est globalement précise, il sera nécessaire de réécouter les fichiers audio pour corriger manuellement les imprécisions, notamment avec certains « langages » de youtubeurs 😉

La précision de la transcription est d’environ 80%, mais ce chiffre dépend en réalité de deux éléments :

Le choix du modèle Whisper

Différents modèles (tiny, base, small, medium, large) offrent des niveaux de précision variés. Un modèle plus précis signifie un temps d’exécution plus long. Pour un bon compromis, j’encourage l’utilisation dans un premier temps du modèle « base ».

La qualité de la captation audio

Pendant ma thèse, lors de la retranscription d’entretiens qualitatifs, j’ai fini par obtenir environ 80 pages sur Word. La transcription était laborieuse, avec de nombreux allers-retours de la bande sonore.
À l’époque, j’avais testé diverses solutions, que l’on considère aujourd’hui comme les pionnières du voice-to-text.
Leur efficacité était limitée et dépendait fortement de la qualité de l’enregistrement audio. Dragon NaturallySpeaking, etait l’un de ces pionniers.
Aujourd’hui, ce logiciel est largement utilisé, notamment dans le secteur médical, où il permet aux médecins de dicter et de transcrire leurs rapports.

Mais il faut retenir un point essentiel : la précision de la transcription repose sur la qualité de l’enregistrement.
Un fichier audio bien capté donnera de meilleurs résultats qu’un enregistrement avec beaucoup de bruit de fond ou une voix « faible », parce que le micro est mal positionné.
Comme je suis représentant auprès de Rode 😉 mais également de DJI 😉 vous trouverez dans ces deux marques des micros sans fil qui peuvent se connecter à votre smartphone ou encore enregistrer en solo (sans support caméra et smartphone).
Ces micros cravattes sont hyper efficaces et, d’année en année, les prix baissent tandis que les versions se miniaturisent.

Micro sans fil Rode

Conclusion

Même si le lancement initial de l’application sur Streamlit Cloud peut sembler lent, une fois déployée, elle fonctionne parfaitement et permet d’accéder rapidement à des transcriptions de qualité.

A propos de l'auteur

Stéphane Meurisse

Ajouter un commentaire

Stéphane Meurisse