Projets

Outil CERES : Pellipop
Développé par le CERES, Pellipop est un outil en ligne de commande Python qui permet de découper des vidéos en images fixes. Le détail de l’installation et des paramétrages possible est disponible ici. Il faut noter que Pellipop s’appuie sur un langage de programmation appelé Python, qu’il faut avoir déjà téléchargé pour pouvoir l’utiliser. Si vous n’avez jamais téléchargé Python, vous pouvez obtenir la dernière version sur le site officiel. Ouvrez une fenêtre de terminal. C’est une application présente sur tous les ordinateurs, que vous trouverez probablement dans votre dossier d’applications…
Outil CERES : Europarser
EUROPARSER est un outil développé par le CERES qui permet de compiler et de formater des corpus issus de la base Europresse et exportés en HTML. Les formats de sortie proposés par cet outil sont directement exploitables dans des logiciels de traitement textuel comme Iramuteq ou TXM.

Outil CERES : OCRES
OCRES est un outil de reconnaissance optique de caractères (OCR). Il permet la conversion de fichiers PDF en fichiers textes structurés et exploitables (XML,HTML, fichier texte brut). Il faut noter que le modèle d’OCR utilisé par cet outil a été entrainé sur des données du 17ème siècle.

Outil CERES : Restweet
big Développé par le CERES, RESTWEET est un outil de collecte massive sur le long terme de données issues de la plateforme Twitter. Il intègre une interface graphique permettant d’explorer les données à l’aide de graphiques, d’un grand nombre de filtres/requêtes et d’options de recherche. RESTWEET collecte, en plus du texte des tweets, les images et les vidéos publiées.

Outil CERES : Panoptic
big En bref Développé par le CERES, Panoptic est un outil de visualisation, d’exploration et d’annotation de grands corpus d’images. Cet outil intègre notamment des algorithmes de groupage d’images par similarité (MobileNet, average hash, sha1), ce qui permet d’aider l’usager·e dans le tri et l’exploration. L’outil propose par ailleurs diverses options de filtrage, de recherche et d’annotation, permettant la création, l’analyse et l’exportation de sous-corpus. Le code est en libre accès sous la Mozilla public license 2.0. Quelques fonctions Créer de propriétés big Filtrer et grouper big Créer…

Antonomaz — Analyse automatique et numérisation des Mazarinades
Le projet Antonomaz vise à exploiter un corpus de plus de 6000 écrits du milieu du 17e siècle ayant pour objet les affaires politiques de la régence du cardinal Mazarin, et traditionnellement appelés "Mazarinades". Notre approche se situe dans le champ des Humanités Numériques et cherche à fournir des méthodes automatiques, empruntant au Traitement Automatique des Langues et à la Fouille de Données, pour l’analyse de ces données par les experts de plusieurs disciplines (historiens, linguistiques, littéraires).
Projet Memes
Le projet Memes (Extraction automatique et analyse par Myriadisation d’Expressions Semi-figées) était un projet émergence SU (2019-2021). Le projet vise à étudier les expressions figées (ou phraséologismes) et leur détournement (défigement) à des fins humoristiques notamment. Trois objectifs avaient été définis : repérer des défigements sur Twitter et les classer, en tirer des règles de génération et annoter via crowdsourcing. Les parties 1 et 2 correspondent au périmètre du post-doctorat de Lichao Zhu (aujourd’hui post doctorant au LLF, Paris Diderot). La partie 3 n’a pas pu être réalisée (problème d’ingénierie) mais le projet pourrait rebondir via le projet de contrat doctoral proposé à CERES (G. Siouffi directeur, K. Fort et G. Siouffi co-directeurs).
Projet d'analyse de la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans
Coordination : Virginie Julliard, PU en SIC, GRIPIC, CELSA-Sorbonne Université Équipe : Gaël Lejeune (STIH, SU), Fred Pailler (Université du Luxembourg) et Maxime Cervulle (CEMTI, Université Paris 8) Objectif : Analyse de la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans. Résumé Le projet étudie la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans’ dans le cadre des débats parlementaires autour de la loi de…
Accompagnement du projet Sackler
Objectif : Analyse de l’affaire Sackler au prisme de la réputation en ligne. Coordination : Pierre-Marie Chauvin, MCF en sociologie, GEMASS, SU Équipe : Gaël Lejeune (MCF en linguistique computationnelle, STIH, SU), Virginie Julliard (PU en SIC, GRIPIC, SU) et Solveig Poder (stagiaire CERES) Intervention de CERES : Collecte d’un corpus d’articles sur Europresse, caractérisation quantitative du corpus Collecte d’un corpus de tweets, complémentation (téléchargement des images, identification des conversations, des noms de domaines cités), navigation dans le corpus (visualisation du corpus par…