Derniers articles

Extraction de commentaires Facebook : Test et avis sur Export Comments

Introduction Dans cet article, je vais partager mon expérience avec une application qui permet d’extraire des commentaires sur Facebook, et plus généralement sur divers réseaux sociaux. Bon… la page d’accueil du site Export Comment ressemble à « rien », c’est plutôt moche, plutôt épuré (même mes scripts python avec une interface Tkinter sont plus jolis 😉 ). La plateforme...

Extraction de la retranscription textuelle d’une vidéo YouTube avec YouTubeTranscript

Introduction L’extraction d’un fichier audio en texte via Google Speech-to-Text est au final relativement contraignante du fait que les vidéos dépassant 60 secondes doivent être déposées sur Google Cloud. Il existe donc une autre technique visant à extraire la retranscription grâce à la librairie YouTube Transcript. Cette librairie va tout simplement scraper le texte retranscrit par...

L’Effet Eliza : Quand l’intelligence artificielle passe pour humaine

Introduction L’effet Eliza est un concept issu d’une expérience en intelligence artificielle datant des années 1960, conçu par le professeur Joseph Weizenbaum du MIT. Il a créé un programme informatique nommé ELIZA capable d’imiter une conversation en utilisant un traitement de texte très simple. Ce programme, souvent considéré comme l’un des premiers exemples de chatbot...

L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle

Historique du test LDA Le Latent Dirichlet Allocation (LDA) est un modèle probabiliste basé sur l’idée que les documents sont constitués d’une combinaison de topics, et que chaque topic est caractérisé par une distribution de mots. LDA appartient à la catégorie des modèles d’apprentissage non supervisé. Dans le contexte du traitement automatique du langage naturel, le test LDA...

TF*IDF avec la librairie scikit-learn

Voici la partie 2, consacrée à l’application du test TF × IDF suite à l’extraction d’environ 1725 messages depuis YouTube et au prétraitement du corpus. L’analyse des commentaires YouTube est judicieuse puisque chaque commentaire est considéré comme un document distinct. Cependant, le langage employé dans ces commentaires ne facilite pas toujours le prétraitement des...

Prétraitement de commentaires YouTube et test TF*IDF – partie 1

Cet article aborde le processus de prétraitement d’un ensemble de commentaires récupérés d’une vidéo YouTube. Le but à moyen terme est d’évaluer et de mettre en contraste l’efficacité de la génération d’insights, en la comparant à la méthode traditionnelle de génération de mots-clés basée sur la fréquence d’apparition des mots dans le texte. Cette approche...

Extraire les commentaires YouTube

Introduction Dans le domaine de la recherche en Sciences Humaines, l’analyse des données provenant de médias alternatifs tels que YouTube revêt un intérêt croissant. Ces plateformes offrent un « vaste réservoir » de données générées par les utilisateurs, notamment à travers les commentaires, qui peuvent fournir des insights précieux sur divers sujets, opinions et comportements sociaux...

Transcription avec Google Speech-to-Text

Introduction Speech-to-Text est un service de Google qui transforme un fichier audio en texte. Cet outil a une précision pouvant atteindre près de 90 %, selon des facteurs tels que la qualité de l’audio et le contexte (dixit Google). Dans un précédent article j’ai abordé le formatage des articles de la base Europresse aux exigences du logiciel IRAMUTEQ. L’apparition de médias...

SpaCy au service du NLP : Outil de lemmatisation

Le traitement automatique du Langage Naturel (NLP) Les moteurs de recherche s’appuient sur le NLP (Natural Language Processing) pour interpréter les requêtes complexes et fournir des résultats pertinents. Google utilise le modèle de langage BERT, (Bidirectional Encoder Representations from Transformers) permettant par exemple de résumer une page web à une description sous le titre, ou bien...

Script Europresse : La révolution V2 est arrivée !

Introduction Avant de plonger dans les détails techniques, voici pour mémo les prérequis pour faire fonctionner le script : Environnement virtuel Python : Assurez-vous d’avoir configuré un environnement virtuel Python (le langage python n’est pas installé par défaut sur Mac et PC). Installation de BeautifulSoup4 : Cette bibliothèque est indispensable pour le fonctionnement du script...