Code and Cortex

Un peu d'intelligence artificielle… et de matière grise !

C

Derniers articles

BERT – Attention et embeddings pour l’analyse textuelle

Lorsqu’on parle des LLM (Large Language Models) comme BERT, on pense souvent à leur utilisation dans des chatbots ou des systèmes d’IA conversationnelle. L’objectif classique est alors d’entraîner ces modèles à générer des réponses optimales en ajustant les probabilités de succession des mots pour maximiser la cohérence des phrases. Ici, nous exploitons un « Large Language Model (LLM) » non...

Analyse textuelle par similarité cosinus

Parmi les nombreuses approches utilisées dans le  traitement du langage naturel (NLP – Natural Language Processing), la mesure de la similarité cosinus permet de comparer des mots en fonction de leur proximité dans un espace vectoriel. Le script ci-dessous a été conçu avec un corpus test, issu d’articles récupérés via Europresse et formaté pour être compatible avec le logiciel...

Retranscription textuelle avec Whisper

YouTubeTranscript vs Whisper Lorsqu’il s’agit d’extraire la retranscription textuelle d’une vidéo YouTube, trois solutions principales se démarquent : YouTubeTranscript , Google speech to texte et Whisper. YouTubeTranscript ne fait que récupérer le texte généré par YouTube. Ce texte est souvent structuré comme des sous-titres, découpé en segments avec des horodatages, mais...

Extraire des images d’une vidéo YouTube

Rien de révolutionnaire dans ce script, mais il vous permettra d’extraire simplement les images d’une vidéo YouTube tournée à 25 images par seconde (standard Europe). Ces images pourront ensuite être utilisées par exemple pour des analyses comme la détection des émotions faciales, (cf. article 1 – article 2 – article 3). Bon, c’est un petit retour en arrière, mais...

CHD avec Rainette : de la classification à l’export des statistiques

Rainette est un paquet R développé par Julien Barnier pour effectuer des analyses textuelles, à l’aide d’une Classification Hiérarchique Descendante (CHD). Dans cet article, nous détaillons un script qui permet d’exporter en fichier texte, html, csv les résultats de la CHD. Voici les fonctionnalités principales du script : Réalisation de la CHD (cf. article) Extraction de...

Extraction et correction des NER avec SpaCy et JSON

Puisque nous nous situons dans le champ des sciences humaines et sociales (SHS), voici une brève description du corpus utilisé : il est composé de 23 articles de presse portant sur la déclaration de Gérald Darmanin dénonçant « un ratage » dans le suivi psychiatrique d’un suspect. Ce corpus a été formaté pour répondre aux exigences du logiciel IRaMuTEQ, car il me sert également de test dans le...

Classification Hiérarchique Descendante avec Rainette

Julien Barnier est le créateur de la librairie Rainette, un outil conçu pour implémenter, dans le langage R, une Classification Hiérarchique Descendante (CHD). Cette approche statistique a été initialement développée par Max Reinert en 1983 et popularisée à travers le logiciel bien connu Alceste. La méthode de Reinert (CHD) est également accessible via le logiciel libre IRaMuTEQ. 1. La...

Modélisation et fonctionnement d’un neurone artificiel

Comment fonctionne un neurone artificiel ? Le neurone artificiel, s’inspire du fonctionnement des neurones biologiques. Dans cet article, nous allons présenter et modéliser un neurone artificiel en explorant ses paramètres de base et son processus de décision. Historique du Perceptron Le perceptron est l’un des premiers modèles de neurones artificiels. Il a été inventé en 1958 par Frank...

Europresse to IRaMuTeQ – v3 – appli en ligne

No code ! Cette application en ligne est l’aboutissement de plusieurs scripts Python conçus pour transformer vos données HTML du site Europresse au format IRaMuTeQ. Aujourd’hui, je vous présente la version 3.0.1, ne nécessitant aucune manipulation de code Python 😉 . Vous pouvez suivre la démarche qui a conduit à cette version du script à travers les différents articles : Test sur un article...

Transformer les fichiers texte Europresse en CSV

Ce script R permet de convertir un fichier texte d’articles, issu du site Europresse et déjà formaté pour le logiciel IRaMuTeQ, en un fichier CSV (txtTOcsv). On fait donc un petit retour en arrière : on délaisse le format texte brut avec ses variables étoilées pour revenir à un encodage (mieux) structuré, où chaque variable est encodée dans une une colonne. Lors de la création de mon script...

Stephane Admin