Qu’est-ce que Whisper et comment ça marche ?

Il existe différents métiers, dont le journalisme, qui d’une part sont passionnants lorsqu’il s’agit d’effectuer des travaux de terrain, tels que des interviews d’artistes, d’hommes politiques, de scientifiques, etc. ; Cependant, lorsqu’il s’agit de faire face à la transcription de longues conversations et à la saisie incessante qui peut prendre des heures, le travail peut être un cauchemar, et il en va de même pour les chercheurs travaillant avec des enregistreurs audio, entre autres carrières. Cependant, il existe une solution à cette tâche fatidique qui vient avec l’aide d’une IA appelée Whisper mais qu’est-ce que c’est et comment ça marche?

Comme nous l’avons déjà mentionné, Whisper est une intelligence artificielle hautement sophistiquée qui permet la transcription de l’audio en texte de manière assez précise, voire parfaite. Comme le dit la page OpenAI, c’est “un réseau de neurones qui se rapproche de la robustesse et de la précision au niveau humain dans la reconnaissance vocale en anglais. Es, de manera más técnica, un sistema de reconocimiento automático de voz (ASR) entrenado en 680.000 horas de datos supervisados ​​multilingües y multitarea recopilados de la web que además permite la transcripción en varios idiomas, así como la traducción de esos idiomas al Anglais.

Changez complètement votre façon de travailler devant l’ordinateur | Photo: Pexels

Comment fonctionne Whisper ?

Selon OpenAI, l’architecture Whisper est une approche simple de bout en bout, implémentée comme un transformateur encodeur-décodeur. L’audio d’entrée est divisé en morceaux de 30 secondes, converti en un spectrogramme log-Mel, puis transmis à un encodeur. Un décodeur est formé pour prédire le sous-titre de texte correspondant, entrecoupé de jetons spéciaux qui dirigent le modèle unique pour effectuer des tâches telles que l’identification de la langue, les horodatages au niveau de la phrase, la transcription vocale multilingue et la traduction vocale en anglais.

Le mieux c’est que accessible librement sur le web puisqu’il est open source. De cette façon, il suffira de télécharger le fichier audio souhaité, que ce soit une interview, une enquête, etc., et ainsi Whisper restituera le texte transcrit avec une grande précision après un laps de temps qui varie en fonction de la longueur et de la taille du fichier.fichier audio.

Bref, Whisper est un outil de transcription quasi immédiat et de haute précision capable de travailler avec plusieurs langues parfait pour éviter ces longues heures devant le clavier et ainsi faciliter la vie de centaines de professionnels.

Qu’est ce que tu pense de Whisper? Oserez-vous utiliser cet outil ?

Avec des informations d’OpenAI.

***

Ne manquez pas le meilleur contenu de Código Spaghetti via notre chaîne Youtube.

Leave a Reply

Your email address will not be published. Required fields are marked *