Les scripts Python pour les Sciences Humaines et la statistique

TF*IDF avec la librairie scikit-learn

10 mois ago

13 Min Read

Voici la partie 2, consacrée à l’application du test TF × IDF suite à l’extraction d’environ 1725 messages depuis YouTube et au prétraitement du corpus. L’analyse des commentaires YouTube est judicieuse puisque chaque commentaire est considéré comme un document distinct. Cependant, le langage employé dans ces commentaires ne facilite pas toujours le prétraitement des...

Lire

Prétraitement de commentaires YouTube et test TF*IDF – partie 1

Par Stéphane Meurisse

10 mois ago

8 Min Read

1 Commentaire

Cet article aborde le processus de prétraitement d’un ensemble de commentaires récupérés d’une vidéo YouTube. Le but à moyen terme est d’évaluer et de mettre en contraste l’efficacité de la génération d’insights, en la comparant à la méthode traditionnelle de génération de mots-clés basée sur la fréquence d’apparition des mots dans le texte. Cette approche...

Lire

Extraire les commentaires YouTube

Par Stéphane Meurisse

11 mois ago

6 Min Read

2 Comments

Introduction Dans le domaine de la recherche en Sciences Humaines, l’analyse des données provenant de médias alternatifs tels que YouTube revêt un intérêt croissant. Ces plateformes offrent un « vaste réservoir » de données générées par les utilisateurs, notamment à travers les commentaires, qui peuvent fournir des insights précieux sur divers sujets, opinions et comportements sociaux...

Lire

Transcription avec Google Speech-to-Text

Par Stéphane Meurisse

11 mois ago

10 Min Read

1 Commentaire

Introduction Speech-to-Text est un service de Google qui transforme un fichier audio en texte. Cet outil a une précision pouvant atteindre près de 90 %, selon des facteurs tels que la qualité de l’audio et le contexte (dixit Google). Dans un précédent article j’ai abordé le formatage des articles de la base Europresse aux exigences du logiciel IRAMUTEQ. L’apparition de médias...

Lire

SpaCy au service du NLP : Outil de lemmatisation

Par Stéphane Meurisse

11 mois ago

14 Min Read

7 Comments

Le traitement automatique du Langage Naturel (NLP) Les moteurs de recherche s’appuient sur le NLP (Natural Language Processing) pour interpréter les requêtes complexes et fournir des résultats pertinents. Google utilise le modèle de langage BERT, (Bidirectional Encoder Representations from Transformers) permettant par exemple de résumer une page web à une description sous le titre, ou bien...

Lire

Script Europresse : La révolution V2 est arrivée !

Par Stéphane Meurisse

11 mois ago

12 Min Read

8 Comments

Introduction Avant de plonger dans les détails techniques, voici pour mémo les prérequis pour faire fonctionner le script : Environnement virtuel Python : Assurez-vous d’avoir configuré un environnement virtuel Python (le langage python n’est pas installé par défaut sur Mac et PC). Installation de BeautifulSoup4 : Cette bibliothèque est indispensable pour le fonctionnement du script...

Lire

Automatisation du traitement des corpus Europresse pour IRAMUTEQ

Par Stéphane Meurisse

12 mois ago

10 Min Read

4 Comments

Introduction Dans cet article, nous explorons la création d’un script Python conçu pour transformer automatiquement des corpus de presse au format HTML, provenant d’Europresse, en un format compatible avec le logiciel d’analyse textuelle IRAMUTEQ. Ce script est une réponse « aux défis » posés par les diverses structures de fichiers rencontrées. Édite 12/01/2024 => Ici le...

Lire

Transformer les fichiers HTML Europresse au format IRAMUTEQ avec Python

Par Stéphane Meurisse

12 mois ago

8 Min Read

2 Comments

Préparer un corpus pour IRAMUTEQ avec un script Python L’outil de statistique IRAMUTEQ exige une préparation spécifique des données textuelles. Pour faciliter ce processus, j’ai élaboré un script Python qui fonctionne localement sur votre ordinateur. Ce script transforme les données extraites du site Europresse en un format compatible avec IRAMUTEQ. Actuellement, le script est testé...

Lire

CatégoriePython

TF*IDF avec la librairie scikit-learn

Prétraitement de commentaires YouTube et test TF*IDF – partie 1

Extraire les commentaires YouTube

Transcription avec Google Speech-to-Text

SpaCy au service du NLP : Outil de lemmatisation

Script Europresse : La révolution V2 est arrivée !

Automatisation du traitement des corpus Europresse pour IRAMUTEQ

Transformer les fichiers HTML Europresse au format IRAMUTEQ avec Python

Stephane Admin