No code ! Cette application en ligne est l’aboutissement de plusieurs scripts Python conçus pour transformer vos données HTML du site Europresse au format IRaMuTeQ. Aujourd’hui, je vous présente la version 3.0.1, ne nécessitant aucune manipulation de code Python 😉 . Vous pouvez suivre la démarche qui a conduit à cette version du script à travers les différents articles : Test sur un article...
Transformer les fichiers texte Europresse en CSV
Ce script R permet de convertir un fichier texte d’articles, issu du site Europresse et déjà formaté pour le logiciel IRaMuTeQ, en un fichier CSV (txtTOcsv). On fait donc un petit retour en arrière : on délaisse le format texte brut avec ses variables étoilées pour revenir à un encodage (mieux) structuré, où chaque variable est encodée dans une une colonne. Lors de la création de mon script...
Optimiser l’analyse de corpus Europresse : Un script de détection de doublons
Introduction L’objectif de cet article est de vous proposer un script Python (avec une interface tkinter) visant à rechercher les articles en doublons et les articles trop courts dans un corpus Europresse. Si vous traitez souvent des corpus d’articles provenant de la base de données Europresse pour vos analyses dans IRaMuTeQ, vous êtes confronté au problème des doublons ou...
Script Europresse : La révolution V2 est arrivée !
Introduction Avant de plonger dans les détails techniques, voici pour mémo les prérequis pour faire fonctionner le script : Environnement virtuel Python : Assurez-vous d’avoir configuré un environnement virtuel Python (le langage python n’est pas installé par défaut sur Mac et PC). Installation de BeautifulSoup4 : Cette bibliothèque est indispensable pour le fonctionnement du script...
Automatisation du traitement des corpus Europresse pour IRAMUTEQ
Introduction Dans cet article, nous explorons la création d’un script Python conçu pour transformer automatiquement des corpus de presse au format HTML, provenant d’Europresse, en un format compatible avec le logiciel d’analyse textuelle IRAMUTEQ. Ce script est une réponse « aux défis » posés par les diverses structures de fichiers rencontrées. Édite 12/01/2024 => Ici le...
Transformer les fichiers HTML Europresse au format IRAMUTEQ avec Python
Préparer un corpus pour IRAMUTEQ avec un script Python L’outil de statistique IRAMUTEQ exige une préparation spécifique des données textuelles. Pour faciliter ce processus, j’ai élaboré un script Python qui fonctionne localement sur votre ordinateur. Ce script transforme les données extraites du site Europresse en un format compatible avec IRAMUTEQ. Actuellement, le script est testé...