
Ceres
Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales
Le Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales est une unité de service de la Faculté des Lettres de Sorbonne Université, créée en février 2021, dont la mission principale est d’accompagner les chercheur·ses et doctorant·es en SHS souhaitant recourir à des méthodes numériques et à des outils informatiques.
Les actions de CERES sont organisées autour de trois axes principaux :
- les réseaux sociaux numériques
- les sources patrimoniales numérisées
- le déploiement d’une infrastructure transversale de gestion des corpus et des données analytiques associées
CERES offre un accompagnement technique et méthodologique dans la prise en main d’outils informatiques disponibles et œuvre au déploiement d’outils informatiques utiles à la communauté des chercheur·ses de la Faculté des Lettres. L’unité de service conduit par ailleurs une réflexion sur le statut épistémologique de ces outils et méthodes dans la recherche en SHS, mettant en avant le caractère central de l’activité interprétative du·e la chercheur·se face aux outils informatiques. Plus largement, il s’agit de contribuer à l’émergence de nouvelles pratiques de recherche en SHS en milieu numérique, avec l'appui d’une équipe interdisciplinaire.
Évènements à venir
Dernières publications

Atelier Excel le 07/12 17h-19h
Inscription gratuite mais obligatoire Excel est un logiciel de tableurs particulièrement connu pour être propice à la réalisation de calculs et de graphiques à partir de données numériques. Il est également tout à fait possible de l’utiliser pour manipuler des objets textuels. Cela est particulièrement pertinent lorsque des chercheur·euses disposent déjà de données formatées pour ce logiciel, ou bien enregistrées en format .csv (car elles ont été inscrites à la main par les chercheur·euses dans ce logiciel, parce qu’un logiciel de collecte a permis de construire un corpus dans le format .csv…

Atelier TXM le 16/11 16h-18h
Diapos de l’atelier Pouvoir analyser automatiquement des corpus textuels afin d’en tirer des statistiques et pouvoir faire des recherches précises de certaines expressions sont deux des enjeux de la textométrie. Concrètement, il peut s’agir de rechercher les contextes d’apparition de mots ou d’expressions, comparer la fréquence de différentes expressions ou encore comparer des corpus pour trouver automatiquement ce qui les différencie. Nous avons présenté TXM, qui permet notamment d’exploiter des corpus de presse enrichis de méta-données mais aussi avec de la lemmatisation et de l’étiquetage…

Atelier Europresse
Atelier sur l'utilisation des données d'Europresse et l'interaction avec des outils de textométrie.

Outil CERES : SciTok
SciTok est un outil de web scraping pour la recherche en sciences sociales.

Bourse de thèse : lauréates 2023
En 2023, le CERES a attribué deux bourses de thèse dans le cadre de son programme doctoral en lien avec le développement des méthodes numériques à Sorbonne Université.

Saisir l'argument la liberté d'expression sur les réseaux sociaux, entre circulation et emballement
 Candidate : Adélie Laruncet Direction de la thèse : Nelly Quemener (Professeure des universités en Sciences de l’information et de la communication, Sorbonne Université) et Yvette Assilaméhou-Kunz (maîtresse de conférences en Psychologie sociale, Sorbonne Nouvelle) Titre complet : Saisir l’argument la « liberté d’expression » sur les réseaux sociaux, entre circulation et emballement : Apports croisés des méthodes numériques et de la psychologie sociale Résumé de la thèse : Dans le cadre de ce projet, il s’agit d’examiner la « liberté d’expression » en…

Édition, exploration et exploitation numériques des registres d’assemblées de la Comédie-Française (1680-1921)
 Candidate : Marine Tiger Direction de la thèse : Florence Naugrette (Professeure des universités en Histoire du théâtre, Sorbonne Universitéet) et Sara Harvey (Professeure associée en Lettres, Université Victoria, Canada) Titre complet : Édition, exploration et exploitation numériques des registres d’assemblées de la Comédie-Française (1680-1921) Résumé de la thèse : Si les Manufactures de Beauvais et d’Aubusson ont récemment fait l’objet d’études approfondies, les Gobelins, l’une des institutions les plus réputées de son temps, ne bénéficie pas…

Outil CERES : Pellipop
Développé par le CERES, Pellipop est un outil en ligne de commande Python qui permet de découper des vidéos en images fixes. Le détail de l’installation et des paramétrages possible est disponible ici. Il faut noter que Pellipop s’appuie sur un langage de programmation appelé Python, qu’il faut avoir déjà téléchargé pour pouvoir l’utiliser. Si vous n’avez jamais téléchargé Python, vous pouvez obtenir la dernière version sur le site officiel. Ouvrez une fenêtre de terminal. C’est une application présente sur tous les ordinateurs, que vous trouverez probablement dans votre dossier d’applications…

Rencontre Avec les Doctorants (STIH)
CERES rencontre avec les doctorants et doctorants, épisode I : STIH

Hackaton CERES 2023
Un Hackaton de deux journées autour de plusieurs problématiques textuelles a été organisé par le CERES.

Atelier : Anonymisation des données
Atelier d'introduction à la méthode de differential privacy pour utiliser des données personnelles en recherche, animé par Tristan Allard.

Outil CERES : Europarser
Europarser EUROPARSER est un outil développé par le CERES qui permet de compiler et de formater des corpus issus de la base Europresse et exportés en HTML. Les formats de sortie proposés par cet outil sont directement exploitables dans des logiciels de traitement textuel comme Iramuteq ou TXM. Lien vers Europarser

Outil CERES : OCRES
OCRES est un outil de reconnaissance optique de caractères (OCR). Il permet la conversion de fichiers PDF en fichiers textes structurés et exploitables (XML,HTML, fichier texte brut). Il faut noter que le modèle d’OCR utilisé par cet outil a été entrainé sur des données du 17ème siècle.

Outil CERES : Restweet
verysmall Développé par le CERES, RESTWEET est un outil de collecte massive sur le long terme de données issues de la plateforme Twitter. Il intègre une interface graphique permettant d’explorer les données à l’aide de graphiques, d’un grand nombre de filtres/requêtes et d’options de recherche. RESTWEET collecte, en plus du texte des tweets, les images et les vidéos publiées. big

Outil CERES : Panoptic
verysmall En bref Développé par le CERES, Panoptic est un outil de visualisation, d’exploration et d’annotation de grands corpus d’images. Cet outil intègre notamment des algorithmes de groupage d’images par similarité (MobileNet, average hash, sha1), ce qui permet d’aider l’usager·e dans le tri et l’exploration. L’outil propose par ailleurs diverses options de filtrage, de recherche et d’annotation, permettant la création, l’analyse et l’exportation de sous-corpus. Le code est en libre accès sous la Mozilla public license 2.0. big Quelques fonctions Créer de propriétés big Filtrer et grouper…

Journée d'études "Recherche d’Information Temporelle. Usages et Expérimentations Linguistiques" - 9 juin 2023
Le CERES organise une journée d’études intitulée "Recherche d’Information Temporelle. Usages et Expérimentations Linguistiques", qui se tiendra le vevdredi 9 juin 2023, de 9h à 15h30, à la Maison de la Recherche de Sorbonne Université (28 rue Serpente, 75006, Paris).

Tutoriel Europresse : de la requête à la collecte
Tutoriel expliquant le requêtage sur la plateforme d'articles de Presse Europresse et comment en extraire un corpus qui puisse servir dans des outils de textométrie.

Journée d'études "Travailler avec les images" - 8 juin 2023
Le CERES organise une journée d’études intitulée "Travailler avec les images", qui se tiendra le jeudi 8 juin 2023, de 9h à 17h, à la Maison de la Recherche de Sorbonne Université (28 rue Serpente, 75006, Paris).

Séminaire doctoral : Mettre au travail des objets numériques au fonctionnement opaque
Informations Mardi 30 mai 2023 – 10h-12h Maison de la Recherche, 28 rue Serpente, 75006, Paris Lien d’inscription Comment mettre au travail des objets dont le fonctionnement, les caractéristiques techniques ou technologiques peuvent nous échapper ? Pour cette séance nous aurons le plaisir d’accueillir Marie-Lise Buisson, doctorante en 3ème année de thèse en SIC au sein du GRIPIC Sorbonne Université sous la direction de Caroline Marti. Lors de sa présentation, elle reviendra sur la question suivante : comment mettre au travail des objets dont le fonctionnement, les caractéristiques techniques…

Rapport : La recherche en SHS au croisement de multiples contraintes
Rapport sur le cadre juridique applicable à l’usage de données issues de réseaux socio-numériques à des fins de recherche scientifique

Séminaire doctoral : Itinéraire méthodologique et écritures calculées
Informations Mardi 25 avril 2023 – 10h-12h Maison de la Recherche, 28 rue Serpente, 75006, Paris – Salle sur inscription Lien d’inscription Revenir sur l’itinéraire méthodologique emprunté : Construire un répertoire de gestes de mise en rapport avec le monde Au cours de sa présentation, Aurélie Sansen reviendra sur les différents gestes successivement déployés pour réaliser ces ensembles photographiques. Elle interrogera donc d’une part les manières par lesquelles une forme photographique se transforme — ou s’in-forme — progressivement en un objet de recherche grâce à l’adoption d’habiletés et…

Atelier Octoparse : Tutoriel Complet
Découvrir l’outil Octoparse, permettant d’effectuer du scraping, c’est à dire de récupérer les données provenant de sites internet de façon automatisée.

Rapport d'activités CERES 2023
CERES publie son rapport d'activité après 24 mois de recherches, de développement, d'ateliers et de formations.

Rencontres autour de Panoptic
Nous concevons en ce moment Panoptic, logiciel d'annotation et d'exploration de gros corpus d'images. Nous organisons donc des rencontres et des entretiens pour y intégrer différentes pratiques d'analyse d'images en sciences humaines et sociales.

Cours de méthodes numériques : Collecter un corpus, appréhender un terrain
Cet article offre une introduction à la collecte de corpus numérisés ou en terrain numérique. Il est issu du cours de méthodes numériques proposé par Virginie Julliard, Félix Alié, Édouard Bouté et Victor Ecrement aux étudiant·es du master recherche du CELSA. Il est disponible en CC BY-SA 4.0, vous pouvez donc l'adapter en nous citant.

Cours de méthodes numériques : Bruits, tri, nettoyage, indexation, exploration de corpus avec Notion
Cet article offre une introduction sous forme de tutoriel au nettoyage, à l'indexation, au tri et à l'exploration de corpus textuels. Il est issu du cours de méthodes numériques proposé par Virginie Julliard, Félix Alié, Édouard Bouté et Victor Ecrement aux étudiant·es du master recherche du CELSA. Il est disponible en CC BY-SA 4.0, vous pouvez donc l'adapter en nous citant.

Cours de méthodes numériques : outils de visualisation de données
Cet article présente quelques logiciels de visualisation de données à travers des exemples de graphiques et leurs usages possibles en sciences sociales. Il est issu du cours de méthodes numériques proposé par Virginie Julliard, Félix Alié, Édouard Bouté et Victor Ecrement aux étudiant·es du master recherche du CELSA. Il est disponible en CC BY-SA 4.0, vous pouvez donc l'adapter en nous citant.

Cours : traitement automatique de langue
Gaël Lejeune met à disposition ses cours de traitement automatique de langues (TAL) sur Git.

Séminaire doctoral : Data-prompted interviewing
Pour ce premier séminaire doctoral de 2023, l'équipe de doctorant·es CERES accueille Ri Pierce-Grove, qui parlera de la manière dont elle utilise la méthode des data-prompting interviews dans le cadre d'une recherche sur les plateformes vidéos.

Programme du séminaire doctoral du CERES
Le séminaire doctoral du CERES a pour objectif de faire se rencontrer des doctorants.es de différentes disciplines en sciences humaines et sociales de la Faculté des Lettres. Durant les 5 séances, nous aurons le plaisir d’écouter plusieurs positionnements face à une pluralité de méthodes, parfois difficiles à prendre en main. En 2023, le séminaire se déroulera en deux parties. D’abord nous écouterons pendant une heure environ un ou une doctorant.e qui présentera son approche, ses questionnements, ses découvertes ou ses difficultés. Ensuite, nous proposerons un temps d’échange qui concerne tout…

Atelier Tableau Public
Tableau public est un logiciel en ligne gratuit qui permet de créer des visualisations interactives, hautement personnalisables et accessibles en ligne. Sa particularité est que les visualisations ne sont pas construites selon des diagrammes standards, mais de manière modulaire, permettant de tester différentes manières de représenter et spatialiser les métadonnées.

Parution : La modération abusive sur Twitter. Étude de cas sur l’invisibilisation des contenus LGBT et TDS en ligne
Dans le dernier numéro de Réseaux consacré à la fabrique médiatique des sexualités, Thibault Grison, Virginie Julliard, Félix Alié et Victor Ecrement sont revenus sur les logiques de modération abusive sur Twitter au travers de l’étude de l’invisibilisation des contenus LGBT et TDS en ligne. Bien que les entreprises du web affirment soutenir une politique inclusive en matière de modération de contenus et qu’elles affirment s’engager dans la lutte contre la haine en ligne, elles sont régulièrement accusées de censure à l’encontre de communautés minorisées. Cet article étudie la façon dont les…

Tutoriel : Tableau Public
Un court tutoriel pour commencer à utiliser Tableau public. Il s'agit d'un logiciel en ligne gratuit qui permet de créer des visualisations interactives, hautement personnalisables et accessibles en ligne. Sa particularité est que les visualisations ne sont pas construites selon des diagrammes standards, mais de manière modulaire, permettant de tester différentes manières de représenter et spatialiser les métadonnées.

A écouter sur France Culture : Manifestation 3.0 : la lutte sociale en réseaux
Edouard Bouté est intervenu le 3 mars 2023 dans l’émission Le Meilleur des Mondes, sur France culture. Aux côtés des journalistes François Saltiel, Artoise Bastelica et Remy Buisine, il a été question du rôle joué par les réseaux sociaux numériques dans les mobilisations politiques. En passant par Nuit Debout, les Gilets jaunes et les récentes manifestations contre les retraites, le numérique comme lieu de mobilisation et comme espace de transformation du champ journalistique a été interrogé. Il a également été discuté de l’évolution des espaces numériques de mobilisation. Si Périscode a…

Atelier Gephi
Informations Plusieurs ateliers autour de l’outil Gephi sont animés par le CERES. Un premier a eu lieu le 14 avril 2022, un deuxième le 2 mars 2023. Gephi Ce logiciel, présenté par Félix Alié (CERES), est un outil de cartographie des données sous forme de graphe. La visualisation de données en réseau peut permettre d’accompagner les chercheurs et les chercheuses en SHS dans la conduite de leurs analyses, en les aidant à mettre en lumière des relations entre différentes entités connectées entre elles. En particulier, Gephi est couramment utilisé pour étudier des relations entre acteurs sur les…

Atelier pendant la Love Data Week
Thomas Bottini est intervenu le 16 février 2023 à Sorbonne Université dans le cadre de la Love Data Week. Du 13 au 17 février 2023 a eu lieu la Love Data Week, un événement international. Dans ce cadre, la bibliothèque de Sorbonne Université (BSU) a proposé diverses formations : rédaction d’un plan de gestion des données, utilisation d’outils comme Tropy ou Stylo, le dépôt sur Recherche Data Gouv, etc. Thomas Bottini a dans ce cadre proposé une formation de 2h intitulée “Modéliser les connaissances en SHS : pourquoi, comment, jusqu’où”. L’objectif était de : Maîtriser les fondements…

A regarder sur France 5 : Johnny Depp contre Amber Heard, un procès qui s'est joué en réseaux
Thibault Grison est intervenu le 10 février 2023 dans l’émission La Fabrique du Mensonge, sur France 5. Aux côtés de Marie Peltier, Stéphanie Lamy, Trisan Mendès France ou encore de David Chavalarias, il a été question du rôle joué par les réseaux sociaux numériques dans le procès Depp/Heard. Thibault Grison est notamment intervenu pour interroger le rôle de Tiktok, en mettant notamment en avant le rôle de la matérialité du réseau social numérique dans la viralité du détournement de ce qui a été dit durant le procès par l’acteur et l’actrice. Une émission à revoir en ligne en cliquant sur ce…

Atelier Voyant Tools
Informations Jeudi 9 février 2023 – 16h-18h Amphithéâtre Georges Molinié (salle D035), Maison de la Recherche, 28 rue Serpente, 75006, Paris Voyant Tools Voyant Tools est une plateforme qui offre un environnement exhaustif et simplifié de lecture et d’analyse de textes. Son but est de fournir aux utilisateur·trices un panorama de méthodes de traitements textuels, afin de les aider à s’orienter. Parmi les fonctionnalités disponibles, nous retrouvons des concordanciers, des options de création de graphiques, ou encore des outils statistiques qui peuvent s’appliquer sur l’intégralité d’un corpus…

Antonomaz — Analyse automatique et numérisation des Mazarinades
Le projet Antonomaz vise à exploiter un corpus de plus de 6000 écrits du milieu du 17e siècle ayant pour objet les affaires politiques de la régence du cardinal Mazarin, et traditionnellement appelés "Mazarinades". Notre approche se situe dans le champ des Humanités Numériques et cherche à fournir des méthodes automatiques, empruntant au Traitement Automatique des Langues et à la Fouille de Données, pour l’analyse de ces données par les experts de plusieurs disciplines (historiens, linguistiques, littéraires).

Atelier Excel
Un atelier "Excel pour les SHS" a eu lieu le 08 décembre 2022, animé par Edouard Bouté (CERES). Nous y avons étudié l’intérêt d’un certain nombre de fonctions et de formules d’Excel qu’il est possible d’utiliser pour analyser des données textuelles couramment mobilisées dans la recherche en SHS (ensemble de tweets) : tableaux croisés dynamiques, recherche de séquences de textes, recherche croisée entre différentes colonnes contenant des données, formatage des données, réalisation de calculs sur du texte.

Atelier Antconc/TXM
Le traitement automatique du langage naturel (TAL) est une des disciplines dans laquelle le CERES est actif. Plusieurs logiciels sont utilisés dans ce domaine, tels que TXM et Antconq, qui ont fait l’objet de plusieurs ateliers proposés par le CERES, les 21 octobre 2021 et 10 novembre 2022. Description des enjeux : Pouvoir analyser automatiquement des corpus textuels afin d’en tirer des statistiques et pouvoir faire des recherches précises de certaines expressions sont deux des enjeux de la textométrie. Concrètement, il peut s’agir de rechercher les contextes d’apparition de mots ou d…

Atelier Notion
Notion est un logiciel de gestion de projet qui comprend des options de manipulation de base de données assez avancées, tout en restant intuitif et flexible. Bien qu’il ne soit pas destiné principalement à la recherche, Notion se révèle très utile pour tous types d’usages en sciences sociales : gestion d’écrits de recherche, suivi et codage d’entretiens, analyse de corpus d’images, etc.

Films d'époque, spectateurs, et jeux de regard : la construction du genre à travers le temps par le dispositif visuel du cinéma
Candidate : Léa Andolfi Direction de la thèse : Virginie Julliard et Sarah Lécossais Accéder au CV Résumé de la thèse : Depuis la sortie d’Autant en emporte le vent en 1939, les films et séries historiques continuent d’attirer des audiences en masse par leur mise en scène souvent nostalgique d’un passé imaginé. Traversées par plusieurs tendances, qui reflètent l’influence de différentes épistémologies de l’histoire ou encouragent une réinterprétation délibérée des périodes qui leur servent de décor, leurs représentations ne sont pas sans biais. Dans cette optique, cette thèse conduit une…

Détection et production de défigements linguistiques dans les réseaux sociaux assistées par les sciences participatives - fertilisation croisée entre traitement informatique et analyse linguistique
Candidat : Julien Bezançon Direction de la thèse : Gaël Lejeune, Gilles Siouffi, Antoine Gautier Accéder au CV Résumé de la thèse : L’entrée des outils informatiques dans les sciences du texte et la linguistique a produit des recherches fécondes dans des perspectives variées. Si ces apports ont souvent produit des connaissances nouvelles, ils ont parfois contribué à souligner la frontière entre les deux disciplines, voire à creuser entre elles une séparation, qui se traduit dans la polarisation des positions épistémologiques : certains chercheurs perçoivent l’étude informatisée de la langue…

Grammaire du moyen arabe levantin, XVIII-XXe siècles. Analyse de grands corpus en littérature populaire arabe et développement des outils de textométrie adaptés.
Candidate : Rimane Karam Direction de la thèse : co-dirigée par Iyas Hassan (SU) et Julien Dufour (ENS Ulm) CV : voir ici Résumé de la thèse : Le Roman de Baybarṣ (Sīrat Baybarṣ), cycle épique populaire en prose d’époque ottomane, est avant tout un texte conté dans le cadre d’une performance de hakawātī-s, ces conteurs du levant qui mémorisent des histoires et les récitent dans des cafés ou dans des demeures, par cœur ou à l’aide de cahiers. La langue utilisée dans ces cahiers appartient à la famille du moyen arabe, qui désigne l’ensemble des registres intermédiaires entre l’arabe parlé et l…

Iramuteq avec Renaud Debailly
Renaud Debailly (GEMASS) expose la façon dont Iramuteq (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires) permet de cartographier un corpus préalablement défini et préparé pour l’analyse. Il précise la pertinence des différentes analyses possibles selon la taille du corpus produit et dans quels cas Iramuteq peut s’avérer pertinent pour une recherche. Il aborde ensuite la complémentarité de R et Python qui permettent d’effectuer des analyses de corpus ou de réseaux plus poussées. Enfin, Renaud Debailly décrit le type de restitution des résultats que propose…

Iramuteq avec Lisa Boltz
Lisa Bolz est chercheuse au GRIPIC, le laboratoire de recherche en sciences de l’information et de la communication du CELSA à Sorbonne Université. Ses thématiques de recherche concernent les formes et écritures médiatiques et l’histoire de la presse. Elle travaille sur les nouvelles formes de journalisme sur les nouvelles plateformes en ligne. Lisa Bolz nous parle de son expérience avec le logiciel libre Iramuteq (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires) lors de ses recherches doctorales sur les dépêches d’agence au XIXème siècle. Après avoir…

Iramuteq avec Adeline Wrona
Dans ce podcast, Adeline Wrona (GRIPIC) nous présente comment les méthodes numériques permettent d’explorer les corpus massifs offerts par la numérisation de la presse française du XIXème siècle. Elle nous parle de la manière dont les méthodes numériques ont été investies dans le programme de recherche GIRANIUM. Par exemple, à travers l’utilisation du logiciel R, il a été possible de mettre en exergue la “viralité” de l’écriture médiatique dans le corpus de textes constitué autour d’Emile de Girardin (sa correspondance intime ainsi que l’ensemble des journaux qu’il a créé). Cela offre l…

RGPD et sciences sociales
Un podcast avec Julien Rossi, anciennement UTC/COSTECH, désormais Paris 8/CEMTI. Voir également l’atelier PGD, RGPD, archivage des données personnelles dans les SHS, qui a eu lieu le 19 novembre 2021, ainsi que le détail des réponses aux questions posées lors de cet atelier.
Projets retenus pour le programme doctoral méthodes numériques
Dans le cadre du programme doctoral Méthodes numériques pour les thèses en LSHS, proposé par CERES, 6 projets ont été retenus au terme de la première phase de sélection.

Antonomaz - Visualisation de sources multiples
Alexandre Bartz est ingénieur sur le projet Antonomaz, diplômé d’un cursus d’Histoire et du master “Technologies numériques appliquées à l’Histoire” de l’Ecole des Chartes. Vous pouvez compléter l’écoute de ce podcast en consultant les ressources évoquées par Alexandre : Le projet Antonomaz sur GitHub Pour la visualisation : Kibana R (langage) Pour le nettoyage des données : Dataiku Crédits : Interview : Emmanuelle Papinot et Thibault Grison Générique et habillage sonore : Thomas Bottini et Virginie Julliard Prise de son : Thibault Grison Montage : Marie-Angélique Mennecier.

Atelier ARCGIS - cartes interactives
Ces dernières années, les outils de la géomatique se sont démocratisés. Il n’est plus nécessaire d’être spécialiste pour fabriquer des cartes de bonne qualité et des interfaces pratiques voire ludiques permettent d’intégrer le langage cartographique dans ses présentations, en salle ou sur le web (web applications, storymaps). La séance vous permettra de découvrir par vous-mêmes les possibilités infinies des SIG (systèmes d’information géographique).

Guide RGPD / PGD et SHS
Un atelier RGPD/PGD, a été animé par Julien Rossi, Cécile Arènes et Océane Valencia. Différentes problématiques de recherche ont été soulevées par les participants durant cet atelier. Celles-ci concernaient les sujets suivants : Statut des images Travail sur les réseaux Enquêtes, droit à l’oubli Données sensibles Questions diverses Ce guide fournit plusieurs éléments de réponses sur ces sujets. Pour aller plus loin, un rapport concernant le cadre juridique applicable à l’usage des données issues des réseaux socio-numériques à des fins de recherche scientifique a également été rédigé par Julien…
Journées d'études autour des Humanités numériques à La Rochelle
Une partie de l'équipe CERES s'est déplacée à La Rochelle les 3 et 4 mars 2022 pour une journée d'études sur les méthodes numériques pour les SHS

Guide : Utiliser Notion dans la recherche en sciences sociales
Un guide pour apprendre à utiliser Notion. C'est un logiciel de gestion de projet qui comprend des options de manipulation de base de données assez avancées, tout en restant intuitif et flexible. Bien qu’il ne soit pas destiné principalement à la recherche, Notion se révèle très utile pour tous types d’usages en sciences sociales : gestion d’écrits de recherche, suivi et codage d’entretiens, analyse de corpus d’images, etc.

Atelier Scraping de données
L’atelier a été animé par Gaël Lejeune (STIH) le 20 janvier 2022. Il s’agissait d’exposer la façon dont on peut : Scraper des pages d’articles de presse et de forums Gérer les données tabulaires Préparer des données pour les utiliser notamment sur R. Support de présentation

Extraction de données sur Instagram
Marine Buffard (GRIPIC / SCAI) effectue une thèse sur “L’intelligence artificielle au prisme d’Instagram” et plus spécifiquement sur l’impact de cette médiation sur les représentations du yoga. Elle commente les différents modes de collectes de données qu’elle réalise, notamment avec Python, ainsi que les contraintes et les difficultés qu’elle rencontre. Elle conclut sur son analyse des images qui lui permet de constater un changement significatif dans la pratique du yoga.
Présentation : Ethnographie d’une djihadosphère entre 2017 et 2020
Résumé Titre complet : Ethnographie d’une djihadosphère entre 2017 et 2020. Enjeux, méthodes et défis liés à la sélection et à la récolte de données sensibles en ligne Cette présentation, qui a eu lieu le 3 février 2022, interrogeait, dans le contexte spécifique d’une djihadosphère, les méthodologies déployées pour exploiter des données issues des réseaux socio-numériques, et cela à différentes étapes du processus de recherche : accès au terrain, constitution du corpus, recueil des données et restitution des résultats. Un cas concret d’extraction et d’analyse de données a notamment été…

Atelier PGD, RGPD et archivages des données personnelles dans les recherches en SHS
Description de l’atelier Plusieurs mécanismes encadrent l’usage des données de la recherche. D’une part, que ces données soient personnelles ou non, de nombreux organismes financeurs exigent désormais la rédaction de plans de gestion des données. C’est le cas notamment de l’ANR et de l’Union européenne. Ensuite, certaines données peuvent correspondre à des œuvres couvertes par le droit d’auteur. Enfin, rares sont les recherches en sciences humaines et sociales qui ne reposent pas sur un traitement de données à caractère personnel, lesquelles font l’objet d’un encadrement spécifique par le…

Atelier CrowdTangle
L’atelier a été animé par Thibault Grison (Doctorant GRIPIC / SCAI) & Félix Alié (Ingénieur informatique CERES), le 18 novembre 2021. Une présentation de cet outil d’analyse de contenus, proposé par Facebook & Instagram a été effectuée, ainsi qu’une exposition de l’API Twitter (offerte aux comptes “académiques”). Accès en ligne à CrowdTangle

Méthodes de clustering
Solveig Poder & Carlos González Gallardo présentent le principe des méthodes de clustering qui permettent de regrouper des données non étiquetées afin de les traiter et de les interpréter. En les mobilisant sur trois corpus différents dont deux relatifs aux projets Ceres (Sackler et PMA), ils décrivent la façon dont ils ont rendu ces méthodes accessibles aux chercheurs en SHS à travers le développement d’une interface de visualisation des données. Crédits : Interview : Emmanuelle Papinot Générique et habillage sonore : Thomas Bottini et Virginie Julliard Prise de son : Thibault Grison Montage…
Programme doctoral
Ce programme doctoral soutient des projets de recherche en Sciences Humaines et Sociales désireux de recourir aux outils informatiques pour étudier des terrains numériques ; collecter, explorer, analyser, annoter ou publier des corpus numériques et numérisés.

Europresse avec Thibault Grison
Thibault Grison (SCAI, GRIPIC) présente un cas d’usage d’Europresse dans son mémoire de recherche en SHS sur la défense de la “liberté d’expression” dans la presse française. Il explique comment il est parvenu à constituer un corpus multi-sources de plusieurs centaines d’articles, tout en présentant les difficultés auxquelles il a été confronté dans cette collecte. Il évoque enfin Factiva, une autre base de presse en ligne.

Europresse avec Gaël Lejeune
Gaël Lejeune (STIH) expose la façon dont Europresse permet de collecter des corpus d’articles de presse pouvant faire l’objet d’analyses automatisées par la suite. Il évoque également les limites de cette base de données tout en discutant des méthodes de collecte et d’analyse des corpus de presse qui font notamment surgir une problématique autour des formats des données de la recherche. Gaël Lejeune explicite enfin son processus de développement d’un outil d’automatisation de collecte de corpus à partir d’Europresse, aujourd’hui mis à disposition des chercheurs par l’unité de service CERES.
Lancement du CERES
Informations Jeudi 7 Octobre - Campus Les Cordeliers 15 Rue de l’École de Médecine, 75006 Paris Inscription: lettres-ceres@sorbonne-universite.fr Programme 14h-15h30: présentation des activités CERES 15h30-16h30: table ronde - doctorant·e·s 16h30-17h30: présentation des recherches transdisciplinaires accompagnées par CERES

La mobilisation de l’expertise dans la presse française pour cadrer le phénomène des théories du complot : analyse des mécanismes de (dis)qualification.
Candidate : Clara Bordier Direction de la thèse : Pascal Froissart Accéder au CV Résumé de la thèse : Ce travail de recherche questionne la manière dont le discours d’expertise sur les théories du complot s’est formé et développé historiquement dans la presse quotidienne et magazine française. L’intérêt est porté sur la lutte contre le complotisme afin d’analyser les processus de normalisation et de constitution de représentations autour d’un « problème complotiste ». Comment comprendre l’évolution du discours sur les théories du complots dans les médias français sur le long terme ? C’est là l…

Atelier Europresse
Europresse est une base de données d’archivage d’articles de presse et de contenus informationnels issus du web. Son utilisation est courante dans la recherche en SHS lorsque l’on souhaite réaliser des analyses du traitement médiatique de discours de presse. Gaël Lejeune (STIH) et Thibault Grison (SCAI / GRIPIC), dans une intervention nommée “Automatiser et faciliter la collecte d’un corpus sur Europresse”, animée par Lisa Bolz (GRIPIC), ont ainsi été présenté le 30 septembre 2021 des méthodes de choix des mots-clés et des sources, ou encore des méthodes pour stocker des corpus extraits de la…
Projet d'analyse de la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans
Coordination : Virginie Julliard, PU en SIC, GRIPIC, CELSA-Sorbonne Université Équipe : Gaël Lejeune (STIH, SU), Fred Pailler (Université du Luxembourg) et Maxime Cervulle (CEMTI, Université Paris 8) Objectif : Analyse de la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans. Résumé Le projet étudie la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans’ dans le cadre des débats parlementaires autour de la loi de…
Projet Memes
Le projet Memes (Extraction automatique et analyse par Myriadisation d’Expressions Semi-figées) était un projet émergence SU (2019-2021). Le projet vise à étudier les expressions figées (ou phraséologismes) et leur détournement (défigement) à des fins humoristiques notamment. Trois objectifs avaient été définis : repérer des défigements sur Twitter et les classer, en tirer des règles de génération et annoter via crowdsourcing. Les parties 1 et 2 correspondent au périmètre du post-doctorat de Lichao Zhu (aujourd’hui post doctorant au LLF, Paris Diderot). La partie 3 n’a pas pu être réalisée (problème d’ingénierie) mais le projet pourrait rebondir via le projet de contrat doctoral proposé à CERES (G. Siouffi directeur, K. Fort et G. Siouffi co-directeurs).

Atelier Iramuteq
Le traitement automatique du langage naturel (TAL) est une des disciplines dans laquelle le CERES est actif. Plusieurs logiciels sont utilisés dans ce domaine, parmi lesquels Iramuteq, qui a fait l’objet d’un atelier proposé par Renaud Debailly (MCF en sociologie, GEMASS/Sorbonne Université). L’atelier, animé par Gaël Lejeune (MCF en linguistique computationnelle, STIH/Sorbonne Université), s’est déroulé le 9 septembre 2021. Le support de la présentation est disponible en téléchargement : accès.
Annonce de thèse : Changer de prénom sur le Web quand on est trans
Titre complet : Changer de prénom sur le Web quand on est trans ? Les normes de genre au travail dans les conceptions de l’identité numérique et de l’identification en ligne Thèse de Kenza Benabdelouhab, sous la direction de Virginie Julliard. Description : Cette thèse s’intéresse à la façon dont les sites Web permettent aux personnes trans’ de gérer leurs données personnelles quand celles-ci représentent leur identité de genre. Elle veut saisir les conceptions de l’identité et des normes de genre organisées par les entreprises du Web, en proposant notamment qu’elles sont observables à l…
Accompagnement du projet Sackler
Objectif : Analyse de l’affaire Sackler au prisme de la réputation en ligne. Coordination : Pierre-Marie Chauvin, MCF en sociologie, GEMASS, SU Équipe : Gaël Lejeune (MCF en linguistique computationnelle, STIH, SU), Virginie Julliard (PU en SIC, GRIPIC, SU) et Solveig Poder (stagiaire CERES) Intervention de CERES : Collecte d’un corpus d’articles sur Europresse, caractérisation quantitative du corpus Collecte d’un corpus de tweets, complémentation (téléchargement des images, identification des conversations, des noms de domaines cités), navigation dans le corpus (visualisation du corpus par…
Bourse de thèse : Détection et production de défigements linguistiques
Bourse de thèse CERES 2021 Titre complet : Détection et production de défigements linguistiques dans les réseaux sociaux assistées par les sciences participatives. Fertilisation croisée entre traitement informatique et analyse linguistique Sous la direction de Gilles Siouffi, Karën Fort et Antoine Gautier
Bourse de thèse : Analyse du discours complotiste dans un corpus de presse historicisé
Bourse de thèse CERES (2021) Sous la direction de Pascal Froissard Lutte contre le complotisme Expertises médiatiques Création de normes et de représentations Application de l’analyse textuelle sur un corpus historicisé