Les scripts Python pour les Sciences Humaines et la statistique

Extraction de commentaires YouTube via streamlit

6 jours ago

7 Min Read

X est devenu le repaire de la désinformation… Alors que Facebook ou Linkedin imposent une API payante pour récupérer leurs posts, il nous reste donc une source – certes également sujette à la désinformation, mais où l’expression demeure spontanée et authentique – celle des commentaires YouTube. Il faut bien l’avouer : certaines vidéos suscitent une avalanche de réactions ! Merci...

Lire

Speech-to-text avec whisper et streamlit cloud

Par Stéphane Meurisse

2 semaines ago

3 Min Read

Ajouter un commentaire

J’ai adapté un script utilisant le modèle Whisper d’OpenAI en une solution « no code » déployée sur Streamlit Cloud. Il suffit de lancer l’URL de l’application et, après un délai de réponse assez long dû aux serveurs de Streamlit Cloud, vous aurez accès à un l’interface qui vous permet de retranscrire vos fichiers MP3 ou, directement, la voix en texte à partir...

Lire

Approche exploratoire des techniques d’embedding et de centralité

Par Stéphane Meurisse

2 semaines ago

8 Min Read

Ajouter un commentaire

Toute bonne chose a une fin… Il était temps de mettre un point final à cet article. Il s’agit ici d’une démarche exploratoire visant à croiser, pour l’analyse textuelle, plusieurs méthodes d’embedding de BERT, une analyse de similarité cosinus et une analyse de centralité (théorie des graphes). Ça fait déjà beaucoup de choses ! Dans l’analyse textuelle, il est...

Lire

BERT – Attention et embeddings pour l’analyse textuelle

Par Stéphane Meurisse

1 mois ago

8 Min Read

Ajouter un commentaire

Lorsqu’on parle des LLM (Large Language Models) comme BERT, on pense souvent à leur utilisation dans des chatbots ou des systèmes d’IA conversationnelle. L’objectif classique est alors d’entraîner ces modèles à générer des réponses optimales en ajustant les probabilités de succession des mots pour maximiser la cohérence des phrases. Ici, nous exploitons un « Large Language Model (LLM) » non...

Lire

Analyse textuelle par similarité cosinus

Par Stéphane Meurisse

1 mois ago

8 Min Read

Ajouter un commentaire

Parmi les nombreuses approches utilisées dans le traitement du langage naturel (NLP – Natural Language Processing), la mesure de la similarité cosinus permet de comparer des mots en fonction de leur proximité dans un espace vectoriel. Le script ci-dessous a été conçu avec un corpus test, issu d’articles récupérés via Europresse et formaté pour être compatible avec le logiciel...

Lire

Retranscription textuelle avec Whisper

Par Stéphane Meurisse

2 mois ago

3 Min Read

Ajouter un commentaire

YouTubeTranscript vs Whisper Lorsqu’il s’agit d’extraire la retranscription textuelle d’une vidéo YouTube, trois solutions principales se démarquent : YouTubeTranscript , Google speech to texte et Whisper. YouTubeTranscript ne fait que récupérer le texte généré par YouTube. Ce texte est souvent structuré comme des sous-titres, découpé en segments avec des horodatages, mais...

Lire

Extraire des images d’une vidéo YouTube

Par Stéphane Meurisse

2 mois ago

2 Min Read

Ajouter un commentaire

Rien de révolutionnaire dans ce script, mais il vous permettra d’extraire simplement les images d’une vidéo YouTube tournée à 25 images par seconde (standard Europe). Ces images pourront ensuite être utilisées par exemple pour des analyses comme la détection des émotions faciales, (cf. article 1 – article 2 – article 3). Bon, c’est un petit retour en arrière, mais...

Lire

Extraction et correction des NER avec SpaCy et JSON

Par Stéphane Meurisse

2 mois ago

8 Min Read

Ajouter un commentaire

Puisque nous nous situons dans le champ des sciences humaines et sociales (SHS), voici une brève description du corpus utilisé : il est composé de 23 articles de presse portant sur la déclaration de Gérald Darmanin dénonçant « un ratage » dans le suivi psychiatrique d’un suspect. Ce corpus a été formaté pour répondre aux exigences du logiciel IRaMuTEQ, car il me sert également de test dans le...

Lire

Initiation au Deep Learning avec le Dataset MNIST

Par Stéphane Meurisse

3 mois ago

11 Min Read

Ajouter un commentaire

Introduction au Dataset MNIST Le dataset MNIST est une référence incontournable dans le domaine du machine learning et de la vision par ordinateur. Il contient des images manuscrites des chiffres de 0 à 9, chacune en niveaux de gris et de (très) petite taille (28×28 pixels). Les données sont réparties en 60 000 images d’entraînement et 10 000 images de test, et sont principalement...

Lire

Analyse des émotions dans la voix avec un modèle Speech Emotion Recognition (SER)

Par Stéphane Meurisse

4 mois ago

8 Min Read

1 Commentaire

En développant un modèle de reconnaissance des émotions par la voix (SER, pour Speech Emotion Recognition), je n’ai pas choisi la voie la plus simple pour me familiariser avec les modèles de deep learning et l’intégration de la couche de traitement « audio » dans une approche multimodale. Pourquoi ? Parce que, comparée à des domaines comme la reconnaissance faciale, la précision des modèles basés...

Lire

CatégoriePython

Extraction de commentaires YouTube via streamlit

Speech-to-text avec whisper et streamlit cloud

Approche exploratoire des techniques d’embedding et de centralité

BERT – Attention et embeddings pour l’analyse textuelle

Analyse textuelle par similarité cosinus

Retranscription textuelle avec Whisper

Extraire des images d’une vidéo YouTube

Extraction et correction des NER avec SpaCy et JSON

Initiation au Deep Learning avec le Dataset MNIST

Analyse des émotions dans la voix avec un modèle Speech Emotion Recognition (SER)

Stephane Admin