Les scripts Python pour les Sciences Humaines et la statistique

Analyse Textuelle Avancée (ATA) – Version 0.1.0 Bêta

4 mois ago

5 Min Read

Mon projet « Analyse Textuelle Avancée (ATA) », est maintenant disponible sur GitHub. ATA est une interface conçue pour répondre aux besoins des chercheurs en Sciences Humaines et Sociales et des data scientists, qui travaillent sur des projets d’analyse textuelle. Sans avoir de connaissances en programmation, l’interface vous permet d’exploiter à la fois des...

Lire

Analyse textuelle avec K-Means

Par Stéphane Meurisse

4 mois ago

22 Min Read

1 Commentaire

Dans cet article, nous allons explorer l’utilisation de l’algorithme K-Means pour effectuer des clusters à partir d’analyses textuelles. Une fois vos données préparées, vous pourrez tester l’algorithme et interpréter les résultats à l’aide de diverses visualisations. K-Means est un algorithme de clustering non supervisé largement utilisé pour partitionner un ensemble...

Lire

Ajouter des Entités Nommées (NER) à votre modèle SpaCy

Par Stéphane Meurisse

5 mois ago

11 Min Read

Ajouter un commentaire

La reconnaissance des Entités Nommées (NER – Named Entity Recognition) La reconnaissance des entités nommées (NER, pour Named Entity Recognition) est une technique de traitement du langage naturel (NLP) qui vise à identifier et classifier les entités présentes dans un texte en catégories prédéfinies telles que les noms de personnes, les organisations, les lieux, les dates,… Exemples...

Lire

Convertir un fichier PDF en Texte

Par Stéphane Meurisse

5 mois ago

5 Min Read

1 Commentaire

Convertir un PDF en Texte La campagne des législatives de 2024 a démontré qu’il était essentiel de disposer de deux types d’outils pour récupérer les textes des programmes électoraux (par exemple) afin de pouvoir en faire une analyse lexicale (Pascal Marchand, 2024). Les programmes électoraux se présentent généralement sous deux formats : PDF : Les documents PDF nécessitent une...

Lire

Analyser les cooccurrences d’un mot clé

Par Stéphane Meurisse

6 mois ago

9 Min Read

Ajouter un commentaire

Introduction La fouille de texte est une méthode essentielle pour extraire des informations précieuses à partir de vastes corpus de texte. Un aspect fondamental de cette analyse est l’étude des cooccurrences à partir d’un mot clé, qui peut révéler des relations sémantiques importantes et des tendances dans le texte. Cet article, propose un script Python conçu pour analyser les...

Lire

Compiler un script Python avec auto-py-to-exe

Par Stéphane Meurisse

7 mois ago

4 Min Read

Ajouter un commentaire

Compilation Après avoir testé plusieurs bibliothèques Python pour compiler mon script, et constaté que certaines étaient parfois inefficaces, j’ai découvert l’interface graphique d’auto-py-to-exe pour compiler mes scripts. Je débute un peu dans ce domaine… L’idée de la compilation est bien entendu de permettre aux utilisateurs de se passer de l’environnement...

Lire

Optimiser l’analyse de corpus Europresse : Un script de détection de doublons

Par Stéphane Meurisse

7 mois ago

9 Min Read

2 Comments

Introduction L’objectif de cet article est de vous proposer un script Python (avec une interface tkinter) visant à rechercher les articles en doublons et les articles trop courts dans un corpus Europresse. Si vous traitez souvent des corpus d’articles provenant de la base de données Europresse pour vos analyses dans IRaMuTeQ, vous êtes confronté au problème des doublons ou...

Lire

Extraire les commentaires Meta avec Sélénium

Par Stéphane Meurisse

7 mois ago

8 Min Read

Ajouter un commentaire

Introduction L’objectif de cet article est de montrer comment se connecter à Méta avec la bibliothèque Selenium pour exporter les commentaires. Autant l’annoncer tout de suite, le script fonctionne et récupère l’article qui fait le buzz en générant des commentaires, mais je n’ai pas réussi à extraire les commentaires. La balise « commentaire » dans le code source de Méta...

Lire

Extraction de la retranscription textuelle d’une vidéo YouTube avec YouTubeTranscript

Par Stéphane Meurisse

8 mois ago

6 Min Read

Ajouter un commentaire

Introduction L’extraction d’un fichier audio en texte via Google Speech-to-Text est au final relativement contraignante du fait que les vidéos dépassant 60 secondes doivent être déposées sur Google Cloud. Il existe donc une autre technique visant à extraire la retranscription grâce à la librairie YouTube Transcript. Cette librairie va tout simplement scraper le texte retranscrit par...

Lire

L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle

Par Stéphane Meurisse

9 mois ago

14 Min Read

2 Comments

Historique du test LDA Le Latent Dirichlet Allocation (LDA) est un modèle probabiliste basé sur l’idée que les documents sont constitués d’une combinaison de topics, et que chaque topic est caractérisé par une distribution de mots. LDA appartient à la catégorie des modèles d’apprentissage non supervisé. Dans le contexte du traitement automatique du langage naturel, le test LDA...

Lire

CatégoriePython

Analyse Textuelle Avancée (ATA) – Version 0.1.0 Bêta

Analyse textuelle avec K-Means

Ajouter des Entités Nommées (NER) à votre modèle SpaCy

Convertir un fichier PDF en Texte

Analyser les cooccurrences d’un mot clé

Compiler un script Python avec auto-py-to-exe

Optimiser l’analyse de corpus Europresse : Un script de détection de doublons

Extraire les commentaires Meta avec Sélénium

Extraction de la retranscription textuelle d’une vidéo YouTube avec YouTubeTranscript

L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle

Stephane Admin