Archives des Statistique - Code and Cortex

Analyse factorielle des correspondances sur un corpus de texte

6 mois ago

11 Min Read

L’Analayse Factorielle des Correspondance (AFC), développée dans les années 1960 par le statisticien français Jean-Paul Benzécri, est une méthode statistique qui permet de réduire la dimensionnalité des données tout en mettant en évidence les relations entre les variables d’un tableau de contingence. À titre d’exemple, on peut citer le travail de Pascal Marchand (LERASS...

Lire

Analyse textuelle avec K-Means

Par Stéphane Meurisse

8 mois ago

22 Min Read

1 Commentaire

Dans cet article, nous allons explorer l’utilisation de l’algorithme K-Means pour effectuer des clusters à partir d’analyses textuelles. Une fois vos données préparées, vous pourrez tester l’algorithme et interpréter les résultats à l’aide de diverses visualisations. K-Means est un algorithme de clustering non supervisé largement utilisé pour partitionner un ensemble...

Lire

L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle

Par Stéphane Meurisse

26 mars 2024

14 Min Read

2 Comments

Historique du test LDA Le Latent Dirichlet Allocation (LDA) est un modèle probabiliste basé sur l’idée que les documents sont constitués d’une combinaison de topics, et que chaque topic est caractérisé par une distribution de mots. LDA appartient à la catégorie des modèles d’apprentissage non supervisé. Dans le contexte du traitement automatique du langage naturel, le test LDA...

Lire

TF*IDF avec la librairie scikit-learn

Par Stéphane Meurisse

7 mars 2024

13 Min Read

1 Commentaire

Voici la partie 2, consacrée à l’application du test TF × IDF suite à l’extraction d’environ 1725 messages depuis YouTube et au prétraitement du corpus. L’analyse des commentaires YouTube est judicieuse puisque chaque commentaire est considéré comme un document distinct. Cependant, le langage employé dans ces commentaires ne facilite pas toujours le prétraitement des...

Lire

CatégorieStatistique

Analyse factorielle des correspondances sur un corpus de texte

Analyse textuelle avec K-Means

L’analyse Latent Dirichlet Allocation appliquée à l’analyse textuelle

TF*IDF avec la librairie scikit-learn

Stephane Admin