Code and Cortex

Un peu d'intelligence artificielle… et de matière grise !

C

Derniers articles

Prétraitement – No code ! avec le logiciel Orange Data Mining

ORANGE DATA MINING est un logiciel libre et gratuit dédié à l’analyse de données et au text mining. Il se distingue par son interface simple et visuelle qui repose sur un système de widgets qu’il suffit de glisser / déposer et paramétrer pour construire un flux de traitement. Cette approche modulaire permet de construire un workflow/pipeline sans avoir à écrire du code Python. Chaque noeud...

Prétraitement et normalisation du texte

Le prétraitement (preprocessing) est une étape incontournable avant de lancer vos tests et analyses. Prétraitement = normalisation du texte ! Plusieurs étapes de normalisation sont possibles (liste non exhaustive qui dépend de vos objectifs) : Supprimer les stopwords Normaliser les accents du texte (cette normalisation permet de supprimer des doublons liés à des fautes d’orthographe par...

Propriétés des données textuelles – La loi de Zipf

La loi de Zipf n’est pas à connaître dans le détail de ses formules, mais elle constitue la base de la compréhension de la structuration des données textuelles. De nombreux logiciels statistiques la calculent automatiquement comme première description d’un corpus. L’application no code pour tester : Quand on commence à analyser un corpus de texte (entretiens clinique, articles de presse...

Analyse globale des cooccurrences dans un corpus

Le script présenté ici diffère d’une analyse “classique” de cooccurrences centrée sur un mot pivot. No Code : Lorsque vous vous connectez à Streamlit Cloud, l’application est (souvent) en veille : il faut la réactiver, ce qui peut prendre une trentaine de secondes… Le code source : Github Au lieu de partir d’un terme choisi à l’avance et d’observer ses associations dans le...

Analyse des cooccurrences autour d’un mot pivot

Dans cet article, nous allons développer l’approche de l’analyse des cooccurrences à partir d’un mot pivot. Vous pouvez retrouver dans un autre article l’analyse des cooccurrences “complètes” d’un corpus (sans mot pivot). No code : Github : Dans un texte, il est possible de compter les associations entre deux termes. Ces associations entre mots sont appelées cooccurrences : deux...

Interprétation des classes d’une CHD assistée par un LLM

Il ne faut pas s’attendre à un miracle !Penser qu’un LLM est en capacité de réaliser une analyse fine d’une CHD, c’est un peu comme croire à son horoscope. Le script sur Github Ce script s’inscrit dans une démarche expérimentale et constitue un exercice purement technique. Il convient de rappeler également qu’un modèle de langage (LLM) n’a aucune capacité cognitive : il ne comprend rien, ne pense...

Découverte de LM Studio

Qu’est-ce que LM Studio ? LM Studio est une application (gratuite) qui permet d’exécuter des modèles de langage localement sur votre Mac (et Windows), sans nécessiter de connexion internet une fois les modèles téléchargés. C’est une solution idéale si vous êtes en déplacement, que ce soit en avion, en train ou dans un environnement sans accès stable au réseau. En téléchargeant à l’avance les...

Réaliser une CHD avec Rainette

Je m’acharne un peu à tester le package “Rainette” de Julien Barnier, qui permet de réaliser des classifications hiérarchiques descendantes (CHD), alors que le logiciel libre de Pierre Ratinaud “IRaMuTeQ”, considéré comme une référence dans ce domaine, propose déjà ces analyses dans une interface « no-code » beaucoup plus accessible ! Ce script constitue donc une base de...

Comprendre TF-IDF : approche théorique

Le concept TF-IDF (Term Frequency – Inverse Document Frequency) a émergé dans les années 1970 dans le champ de la recherche d’information, notamment grâce aux travaux de Karen Spärck Jones, chercheuse britannique. Elle a posé les bases de l’idée que les termes rares à l’échelle d’un corpus ont plus de valeur discriminante que les termes fréquents, en particulier pour classer des documents...

Scraper les sites touristiques pour analyse TF-IDF

L’objectif de ce script est d’extraire automatiquement les textes présents sur les pages d’accueil (ce script se limite à la homepage) de sites web touristiques (ou autres), afin de constituer un corpus exploitable pour l’analyse textuelle. Une fois ces textes collectés et nettoyés, on pourra réaliser plusieurs types d’analyses, notamment : Analyse de fréquence des termes : bon, là je vous...

Stephane Admin