Ceres

Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales

Le Centre d’expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales est une unité de service de la Faculté des Lettres de Sorbonne Université, créée en février 2021, dont la mission principale est d’accompagner les chercheur·ses et doctorant·es en SHS souhaitant recourir à des méthodes numériques et à des outils informatiques.

Les actions de CERES sont organisées autour de trois axes principaux :

  • les réseaux sociaux numériques
  • les sources patrimoniales numérisées
  • le déploiement d’une infrastructure transversale de gestion des corpus et des données analytiques associées

CERES offre un accompagnement technique et méthodologique dans la prise en main d’outils informatiques disponibles et œuvre au déploiement d’outils informatiques utiles à la communauté des chercheur·ses de la Faculté des Lettres. L’unité de service conduit par ailleurs une réflexion sur le statut épistémologique de ces outils et méthodes dans la recherche en SHS, mettant en avant le caractère central de l’activité interprétative du·e la chercheur·se face aux outils informatiques. Plus largement, il s’agit de contribuer à l’émergence de nouvelles pratiques de recherche en SHS en milieu numérique, avec l'appui d’une équipe interdisciplinaire.

Évènements à venir

lun
mar
mer
jeu
ven
sam
dim

Dernières publications

Atelier Gephi

Atelier Gephi

ateliers

Informations Plusieurs ateliers autour de l’outil Gephi sont animés par le CERES. Un premier a eu lieu le 14 avril 2022, un deuxième le 2 mars 2023. Le prochain atelier aura lieu le 28 mars 2024, en présentiel, à la Maison de la Rerche de Sorbonne Université. Pour vous inscrire, cliquez ici Gephi Ce logiciel, présenté par Félix Alié (CERES), est un outil de cartographie des données sous forme de graphe. La visualisation de données en réseau peut permettre d’accompagner les chercheurs et les chercheuses en SHS dans la conduite de leurs analyses, en les aidant à mettre en lumière des relations…

Communications et publications appuyées par le CERES

articles

Livres, articles et actes Julien, B., Lejeune, G. (2023). « Reconnaissance de défigements dans des tweets en français par des mesures de similarité sur des alignements textuels ». In Actes de CORIA-TALN 2023 : Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN)__, volume 1 : travaux de recherche originaux - articles longs, pages 56–67, Paris : France. ATALA. Bouté E. (2023). « Militantisme transplateforme : la répression policière des Gilets jaunes entre Facebook et Twitter », XXIIIème Congrès de la Sfsic : la numérisation des sociétés, IUT Bordeaux-Montaigne…

Ateliers Textométrie 29/02 Sketch Engine

Ateliers Textométrie 29/02 Sketch Engine

ateliers

De nombreux outils de textométrie, en particulier de TAL (Traitement Automatique du Langage Naturel) sont régulièrement présentés dans le cadre des ateliers CERES. Le TAL est une des disciplines dans laquelle le CERES est très actif. Les outils listés ci-dessous sont ceux qui ont fait l’objet d’ateliers. Le prochain atelier dédié à la textométrie aura lieu le jeudi 29/02/2024 de 16h30 à 18h30 à la Maison de la Recherche de Sorbonne Université. Cet atelier, proposé par Antoine Gautier (STIH) concernera l’outil Sketch Engine. Lien d’inscription : cliquez ici TXM et Antconc Les deux outils TXM et…

Appel à projets - Programme doctoral 2024

Appel à projets - Programme doctoral 2024

actualités

Le CERES lance l’appel à projets 2024 pour son programme doctoral “Méthodes numériques pour les thèses en LSHS”. Toutes les informations sont à retrouver sur le PDF téléchargeable en cliquant ici. Dates importantes du calendrier : 29 mars Date limite d’envoi des projets de recherche doctoraux, par les porteurs et porteuses des projets. 6 avril Date limite de validation par les Ecoles Doctorales. 17 avril Sélection des projets doctoraux par le jury du programme doctoral. 17 mai Sélection par les porteurs et aux porteuses des projets de leur candidate ou candidat et transmission du dossier de…

Atelier Tableau Public

Atelier Tableau Public

ateliers

Le prochadernierin atelier dédié aux visualisations sous Tableau Public a eu lieu le jeudi 08/02/2024 de 16h30 à 18h30 à la Maison de la Recherche de Sorbonne Université. Cet atelier a été présenté par Edouard Bouté (CERES). Présentation de Tableau Public Tableau public est un logiciel en ligne gratuit qui permet de créer des visualisations interactives, hautement personnalisables et accessibles en ligne. Sa particularité est que les visualisations ne sont pas construites selon des diagrammes standards, mais de manière modulaire, permettant de tester différentes manières de représenter et…

Tableau Public : visualiser la circulation des images en ligne

Tableau Public : visualiser la circulation des images en ligne

tutoriels

Atelier Tableau Public : cas d’étude de la circulation des images en ligne Il est à noter que ce tutoriel propose de reproduire des résultats de recherche partagés lors du congrès de la SFSIC en 2023. Voir Bouté E. (2023). « Militantisme transplateforme : la répression policière des Gilets jaunes entre Facebook et Twitter », XXIIIème Congrès de la Sfsic : la numérisation des sociétés. Bordeaux. 14-15-16 juin 2023 Description de Tableau Public Tableau Public est un logiciel en ligne gratuit qui permet de créer des visualisations interactives, hautement personnalisables et accessibles en ligne…

Atelier Web Scraping

Atelier Web Scraping

ateliers

Le web scraping est une technique informatique utilisée pour extraire automatiquement des données à partir de sites web. Cela implique l’analyse et le téléchargement du contenu des pages web, généralement à l’aide de scripts ou de programmes spécifiques. Première version de l’atelier Un premier atelier a été donné par Gaël Lejeune le 20 janvier 2022. Il s’agissait d’exposer la façon dont on peut, avec cette technique : Scraper des pages d’articles de presse et de forums Gérer les données tabulaires Préparer des données pour les utiliser notamment sur R. Le support de présentation est…

journée d’études "Travailler avec les images en mouvement"

journée d’études "Travailler avec les images en mouvement"

événements

La journée a vocation à interroger les enjeux méthodologiques et épistémologiques spécifiques du travail de recherche sur des terrains/corpus ayant trait aux images en mouvement, que celles-ci soient des vidéos en circulation sur les réseaux sociaux numériques (à l’instar de TikTok) ou bien des films et séries.

Excel : usages en SHS

Excel : usages en SHS

tutoriels

Le 7 décembre 2023, Edouard Bouté a animé un atelier de présentation du logiciel de tableur Excel, focalisé sur les usages possibles en SHS, à travers l’étude de cas d’un corpus de presse de 40 000 articles. Le powerpoint de la séance, proposé sous forme de tutoriel, est mis à disposition ici. Vous pouvez le télécharger en cliquant ici.

Atelier Excel pour les SHS

Atelier Excel pour les SHS

ateliers

Excel est un logiciel de tableurs particulièrement connu pour être propice à la réalisation de calculs et de graphiques à partir de données numériques. Il est également tout à fait possible de l’utiliser pour manipuler des objets textuels. Cela est particulièrement pertinent lorsque des chercheur·euses disposent déjà de données formatées pour ce logiciel, ou bien enregistrées en format .csv (car elles ont été inscrites à la main par les chercheur·euses dans ce logiciel, parce qu’un logiciel de collecte a permis de construire un corpus dans le format .csv, ou encore car des jeux de données sont…

Atelier Europresse

Atelier Europresse

ateliers

Atelier sur l'utilisation des données d'Europresse et l'interaction avec des outils de textométrie.

Outil CERES : SciTok

Outil CERES : SciTok

outils

SciTok est un outil de web scraping pour la recherche en sciences sociales.

Bourse de thèse : lauréates 2023

Bourse de thèse : lauréates 2023

actualités

En 2023, le CERES a attribué deux bourses de thèse dans le cadre de son programme doctoral en lien avec le développement des méthodes numériques à Sorbonne Université.

Saisir l'argument la liberté d'expression sur les réseaux sociaux, entre circulation et emballement

Saisir l'argument la liberté d'expression sur les réseaux sociaux, entre circulation et emballement

thèses

Candidate : Adélie Laruncet Direction de la thèse : Nelly Quemener (CELSA/GRIPIC) et Yvette Assilaméhou-Kunz (Sorbonne Nouvelle/Irméccen) Titre complet : Saisir l’argument la « liberté d’expression » sur les réseaux sociaux, entre circulation et emballement : Apports croisés des méthodes numériques et de la psychologie sociale Résumé de la thèse : Dans le cadre de ce projet, il s’agit d’examiner la « liberté d’expression » en tant qu’elle constitue un terreau et élément déclencheur de polémiques et surtout en tant qu’elle est devenue un ressort de conflictualité à part entière et un…

Édition, exploration et exploitation numériques des registres d’assemblées de la Comédie-Française (1680-1921)

Édition, exploration et exploitation numériques des registres d’assemblées de la Comédie-Française (1680-1921)

thèses

Candidate : Marine Tiger Direction de la thèse : Florence Naugrette (Sorbonne Université/Cellf) et Sara Harvey (Université Victoria, Canada) Titre complet : Édition, exploration et exploitation numériques des registres d’assemblées de la Comédie-Française (1680-1921) Résumé de la thèse : Si les Manufactures de Beauvais et d’Aubusson ont récemment fait l’objet d’études approfondies, les Gobelins, l’une des institutions les plus réputées de son temps, ne bénéficie pas encore d’une synthèse qui permettrait de la restituer dans le paysage européen de la création textile du siècle des…

Outil CERES : Pellipop

Outil CERES : Pellipop

outils

Développé par le CERES, Pellipop est un outil en ligne de commande Python qui permet de découper des vidéos en images fixes. Le détail de l’installation et des paramétrages possible est disponible ici. Il faut noter que Pellipop s’appuie sur un langage de programmation appelé Python, qu’il faut avoir déjà téléchargé pour pouvoir l’utiliser. Si vous n’avez jamais téléchargé Python, vous pouvez obtenir la dernière version sur le site officiel. Ouvrez une fenêtre de terminal. C’est une application présente sur tous les ordinateurs, que vous trouverez probablement dans votre dossier d’applications…

Rencontre Avec les Doctorants (STIH)

Rencontre Avec les Doctorants (STIH)

événements

CERES rencontre avec les doctorants et doctorants, épisode I : STIH

Hackathon CERES 2023

Hackathon CERES 2023

événements

Un Hackathon de deux journées autour de plusieurs problématiques textuelles a été organisé par le CERES.

Atelier Anonymisation des données

Atelier Anonymisation des données

ateliers

Atelier d'introduction à la méthode de differential privacy pour utiliser des données personnelles en recherche, animé par Tristan Allard.

Outil CERES : Europarser

Outil CERES : Europarser

outils

EUROPARSER est un outil développé par le CERES qui permet de compiler et de formater des corpus issus de la base Europresse et exportés en HTML. Les formats de sortie proposés par cet outil sont directement exploitables dans des logiciels de traitement textuel comme Iramuteq ou TXM. Lien vers Europarser

Outil CERES : OCRES

Outil CERES : OCRES

outils

OCRES est un outil de reconnaissance optique de caractères (OCR). Il permet la conversion de fichiers PDF en fichiers textes structurés et exploitables (XML,HTML, fichier texte brut). Il faut noter que le modèle d’OCR utilisé par cet outil a été entrainé sur des données du 17ème siècle.

Outil CERES : Panoptic

Outil CERES : Panoptic

outils

verysmall En bref Développé par le CERES, Panoptic est un outil de visualisation, d’exploration et d’annotation de grands corpus d’images. Cet outil intègre notamment des algorithmes de groupage d’images par similarité (MobileNet, average hash, sha1), ce qui permet d’aider l’usager·e dans le tri et l’exploration. L’outil propose par ailleurs diverses options de filtrage, de recherche et d’annotation, permettant la création, l’analyse et l’exportation de sous-corpus. Le code est en libre accès sous la Mozilla public license 2.0. big Quelques fonctions Créer de propriétés big Filtrer et grouper…

Outil CERES : Restweet

Outil CERES : Restweet

outils

verysmall Développé par le CERES, RESTWEET est un outil de collecte massive sur le long terme de données issues de la plateforme Twitter. Il intègre une interface graphique permettant d’explorer les données à l’aide de graphiques, d’un grand nombre de filtres/requêtes et d’options de recherche. RESTWEET collecte, en plus du texte des tweets, les images et les vidéos publiées. big

Journée d'études "Recherche d’Information Temporelle. Usages et Expérimentations Linguistiques" - 9 juin 2023

Journée d'études "Recherche d’Information Temporelle. Usages et Expérimentations Linguistiques" - 9 juin 2023

événements

Le CERES organise une journée d’études intitulée "Recherche d’Information Temporelle. Usages et Expérimentations Linguistiques", qui se tiendra le vevdredi 9 juin 2023, de 9h à 15h30, à la Maison de la Recherche de Sorbonne Université (28 rue Serpente, 75006, Paris).

Europresse : de la requête à la collecte

Europresse : de la requête à la collecte

tutoriels

Tutoriel expliquant le requêtage sur la plateforme d'articles de Presse Europresse et comment en extraire un corpus qui puisse servir dans des outils de textométrie.

Journée d'études "Travailler avec les images" - 8 juin 2023

Journée d'études "Travailler avec les images" - 8 juin 2023

événements

Le CERES organise une journée d’études intitulée "Travailler avec les images", qui se tiendra le jeudi 8 juin 2023, de 9h à 17h, à la Maison de la Recherche de Sorbonne Université (28 rue Serpente, 75006, Paris).

Séminaire doctoral : Mettre au travail des objets numériques au fonctionnement opaque

Séminaire doctoral : Mettre au travail des objets numériques au fonctionnement opaque

événements

Informations Mardi 30 mai 2023 – 10h-12h Maison de la Recherche, 28 rue Serpente, 75006, Paris Lien d’inscription Comment mettre au travail des objets dont le fonctionnement, les caractéristiques techniques ou technologiques peuvent nous échapper ? Pour cette séance nous aurons le plaisir d’accueillir Marie-Lise Buisson, doctorante en 3ème année de thèse en SIC au sein du GRIPIC Sorbonne Université sous la direction de Caroline Marti. Lors de sa présentation, elle reviendra sur la question suivante : comment mettre au travail des objets dont le fonctionnement, les caractéristiques techniques…

Rapport : La recherche en SHS au croisement de multiples contraintes

Rapport : La recherche en SHS au croisement de multiples contraintes

articles

Rapport sur le cadre juridique applicable à l’usage de données issues de réseaux socio-numériques à des fins de recherche scientifique

Séminaire doctoral : Itinéraire méthodologique et écritures calculées

Séminaire doctoral : Itinéraire méthodologique et écritures calculées

événements

Informations Mardi 25 avril 2023 – 10h-12h Maison de la Recherche, 28 rue Serpente, 75006, Paris – Salle sur inscription Lien d’inscription Revenir sur l’itinéraire méthodologique emprunté : Construire un répertoire de gestes de mise en rapport avec le monde Au cours de sa présentation, Aurélie Sansen reviendra sur les différents gestes successivement déployés pour réaliser ces ensembles photographiques. Elle interrogera donc d’une part les manières par lesquelles une forme photographique se transforme — ou s’in-forme — progressivement en un objet de recherche grâce à l’adoption d’habiletés et…

Octoparse

Octoparse

tutoriels

Découvrir l’outil Octoparse, permettant d’effectuer du scraping, c’est à dire de récupérer les données provenant de sites internet de façon automatisée.

Rapport d'activités CERES 2023

Rapport d'activités CERES 2023

articles

CERES publie son rapport d'activité après 24 mois de recherches, de développement, d'ateliers et de formations.

Rencontres autour de Panoptic

Rencontres autour de Panoptic

actualités

Nous concevons en ce moment Panoptic, logiciel d'annotation et d'exploration de gros corpus d'images. Nous organisons donc des rencontres et des entretiens pour y intégrer différentes pratiques d'analyse d'images en sciences humaines et sociales.

Collecter un corpus, appréhender un terrain

Collecter un corpus, appréhender un terrain

tutoriels

Cet article offre une introduction à la collecte de corpus numérisés ou en terrain numérique. Il est issu du cours de méthodes numériques proposé par Virginie Julliard, Félix Alié, Édouard Bouté et Victor Ecrement aux étudiant·es du master recherche du CELSA. Il est disponible en CC BY-SA 4.0, vous pouvez donc l'adapter en nous citant.

Outils de visualisation de données

Outils de visualisation de données

tutoriels

Cet article présente quelques logiciels de visualisation de données à travers des exemples de graphiques et leurs usages possibles en sciences sociales. Il est issu du cours de méthodes numériques proposé par Virginie Julliard, Félix Alié, Édouard Bouté et Victor Ecrement aux étudiant·es du master recherche du CELSA. Il est disponible en CC BY-SA 4.0, vous pouvez donc l'adapter en nous citant.

Nettoyer, trier, indexer, explorer un corpus avec Notion

Nettoyer, trier, indexer, explorer un corpus avec Notion

tutoriels

Cet article offre une introduction sous forme de tutoriel au nettoyage, à l'indexation, au tri et à l'exploration de corpus textuels. Il est issu du cours de méthodes numériques proposé par Virginie Julliard, Félix Alié, Édouard Bouté et Victor Ecrement aux étudiant·es du master recherche du CELSA. Il est disponible en CC BY-SA 4.0, vous pouvez donc l'adapter en nous citant.

Le traitement automatique des langues

Le traitement automatique des langues

tutoriels

Gaël Lejeune met à disposition ses cours de traitement automatique de langues (TAL) sur Git.

Séminaire doctoral : Data-prompted interviewing

Séminaire doctoral : Data-prompted interviewing

événements

Pour ce premier séminaire doctoral de 2023, l'équipe de doctorant·es CERES accueille Ri Pierce-Grove, qui parlera de la manière dont elle utilise la méthode des data-prompting interviews dans le cadre d'une recherche sur les plateformes vidéos.

Programme du séminaire doctoral du CERES

Programme du séminaire doctoral du CERES

événements

Le séminaire doctoral du CERES a pour objectif de faire se rencontrer des doctorants.es de différentes disciplines en sciences humaines et sociales de la Faculté des Lettres. Durant les 5 séances, nous aurons le plaisir d’écouter plusieurs positionnements face à une pluralité de méthodes, parfois difficiles à prendre en main. En 2023, le séminaire se déroulera en deux parties. D’abord nous écouterons pendant une heure environ un ou une doctorant.e qui présentera son approche, ses questionnements, ses découvertes ou ses difficultés. Ensuite, nous proposerons un temps d’échange qui concerne tout…

Tableau Public pour les SHS (ancienne version)

Tableau Public pour les SHS (ancienne version)

tutoriels

Un court tutoriel pour commencer à utiliser Tableau Public. Il s'agit d'un logiciel en ligne gratuit qui permet de créer des visualisations interactives, hautement personnalisables et accessibles en ligne. Sa particularité est que les visualisations ne sont pas construites selon des diagrammes standards, mais de manière modulaire, permettant de tester différentes manières de représenter et spatialiser les métadonnées.

Parution : La modération abusive sur Twitter. Étude de cas sur l’invisibilisation des contenus LGBT et TDS en ligne

Parution : La modération abusive sur Twitter. Étude de cas sur l’invisibilisation des contenus LGBT et TDS en ligne

actualités

Dans le dernier numéro de Réseaux consacré à la fabrique médiatique des sexualités, Thibault Grison, Virginie Julliard, Félix Alié et Victor Ecrement sont revenus sur les logiques de modération abusive sur Twitter au travers de l’étude de l’invisibilisation des contenus LGBT et TDS en ligne. Bien que les entreprises du web affirment soutenir une politique inclusive en matière de modération de contenus et qu’elles affirment s’engager dans la lutte contre la haine en ligne, elles sont régulièrement accusées de censure à l’encontre de communautés minorisées. Cet article étudie la façon dont les…

A écouter sur France Culture : Manifestation 3.0 : la lutte sociale en réseaux

A écouter sur France Culture : Manifestation 3.0 : la lutte sociale en réseaux

actualités

Edouard Bouté est intervenu le 3 mars 2023 dans l’émission Le Meilleur des Mondes, sur France culture. Aux côtés des journalistes François Saltiel, Artoise Bastelica et Remy Buisine, il a été question du rôle joué par les réseaux sociaux numériques dans les mobilisations politiques. En passant par Nuit Debout, les Gilets jaunes et les récentes manifestations contre les retraites, le numérique comme lieu de mobilisation et comme espace de transformation du champ journalistique a été interrogé. Il a également été discuté de l’évolution des espaces numériques de mobilisation. Si Périscode a…

Atelier pendant la Love Data Week

Atelier pendant la Love Data Week

événements

Thomas Bottini est intervenu le 16 février 2023 à Sorbonne Université dans le cadre de la Love Data Week. Du 13 au 17 février 2023 a eu lieu la Love Data Week, un événement international. Dans ce cadre, la bibliothèque de Sorbonne Université (BSU) a proposé diverses formations : rédaction d’un plan de gestion des données, utilisation d’outils comme Tropy ou Stylo, le dépôt sur Recherche Data Gouv, etc. Thomas Bottini a dans ce cadre proposé une formation de 2h intitulée “Modéliser les connaissances en SHS : pourquoi, comment, jusqu’où”. L’objectif était de : Maîtriser les fondements…

A regarder sur France 5 : Johnny Depp contre Amber Heard, un procès qui s'est joué en réseaux

A regarder sur France 5 : Johnny Depp contre Amber Heard, un procès qui s'est joué en réseaux

actualités

Thibault Grison est intervenu le 10 février 2023 dans l’émission La Fabrique du Mensonge, sur France 5. Aux côtés de Marie Peltier, Stéphanie Lamy, Trisan Mendès France ou encore de David Chavalarias, il a été question du rôle joué par les réseaux sociaux numériques dans le procès Depp/Heard. Thibault Grison est notamment intervenu pour interroger le rôle de Tiktok, en mettant notamment en avant le rôle de la matérialité du réseau social numérique dans la viralité du détournement de ce qui a été dit durant le procès par l’acteur et l’actrice. Une émission à revoir en ligne en cliquant sur ce…

Antonomaz — Analyse automatique et numérisation des Mazarinades

Antonomaz — Analyse automatique et numérisation des Mazarinades

projets

Le projet Antonomaz vise à exploiter un corpus de plus de 6000 écrits du milieu du 17e siècle ayant pour objet les affaires politiques de la régence du cardinal Mazarin, et traditionnellement appelés "Mazarinades". Notre approche se situe dans le champ des Humanités Numériques et cherche à fournir des méthodes automatiques, empruntant au Traitement Automatique des Langues et à la Fouille de Données, pour l’analyse de ces données par les experts de plusieurs disciplines (historiens, linguistiques, littéraires).

TXM

TXM

podcasts

Atelier Notion

Atelier Notion

ateliers

Notion est un logiciel de gestion de projet qui comprend des options de manipulation de base de données assez avancées, tout en restant intuitif et flexible. Bien qu’il ne soit pas destiné principalement à la recherche, Notion se révèle très utile pour tous types d’usages en sciences sociales : gestion d’écrits de recherche, suivi et codage d’entretiens, analyse de corpus d’images, etc.

Films d'époque, spectateurs, et jeux de regard : la construction du genre à travers le temps par le dispositif visuel du cinéma

Films d'époque, spectateurs, et jeux de regard : la construction du genre à travers le temps par le dispositif visuel du cinéma

thèses

Candidate : Léa Andolfi Direction de la thèse : Virginie Julliard (CELSA/GRIPIC) et Sarah Lécossais (Sorbonne Paris Nord/LabSIC) Accéder au CV Résumé de la thèse : Depuis la sortie d’Autant en emporte le vent en 1939, les films et séries historiques continuent d’attirer des audiences en masse par leur mise en scène souvent nostalgique d’un passé imaginé. Traversées par plusieurs tendances, qui reflètent l’influence de différentes épistémologies de l’histoire ou encouragent une réinterprétation délibérée des périodes qui leur servent de décor, leurs représentations ne sont pas sans biais. Dans…

Grammaire du moyen arabe levantin, XVIII-XXe siècles. Analyse de grands corpus en littérature populaire arabe et développement des outils de textométrie adaptés.

Grammaire du moyen arabe levantin, XVIII-XXe siècles. Analyse de grands corpus en littérature populaire arabe et développement des outils de textométrie adaptés.

thèses

Candidate : Rimane Karam Direction de la thèse : co-dirigée par Iyas Hassan (SU/Orient & Méditerranée) et Julien Dufour (ENS Ulm) CV : voir ici Résumé de la thèse : Le Roman de Baybarṣ (Sīrat Baybarṣ), cycle épique populaire en prose d’époque ottomane, est avant tout un texte conté dans le cadre d’une performance de hakawātī-s, ces conteurs du levant qui mémorisent des histoires et les récitent dans des cafés ou dans des demeures, par cœur ou à l’aide de cahiers. La langue utilisée dans ces cahiers appartient à la famille du moyen arabe, qui désigne l’ensemble des registres intermédiaires…

Détection et production de défigements linguistiques dans les réseaux sociaux assistées par les sciences participatives - fertilisation croisée entre traitement informatique et analyse linguistique

Détection et production de défigements linguistiques dans les réseaux sociaux assistées par les sciences participatives - fertilisation croisée entre traitement informatique et analyse linguistique

thèses

Candidat : Julien Bezançon Direction de la thèse : Gilles Siouffi, Encadrants: Antoine Gautier, Gaël Lejeune (SU/STIH) Accéder au CV Résumé de la thèse : L’entrée des outils informatiques dans les sciences du texte et la linguistique a produit des recherches fécondes dans des perspectives variées. Si ces apports ont souvent produit des connaissances nouvelles, ils ont parfois contribué à souligner la frontière entre les deux disciplines, voire à creuser entre elles une séparation, qui se traduit dans la polarisation des positions épistémologiques : certains chercheurs perçoivent l’étude…

Iramuteq avec Lisa Boltz

Iramuteq avec Lisa Boltz

podcasts

Lisa Bolz est chercheuse au GRIPIC, le laboratoire de recherche en sciences de l’information et de la communication du CELSA à Sorbonne Université. Ses thématiques de recherche concernent les formes et écritures médiatiques et l’histoire de la presse. Elle travaille sur les nouvelles formes de journalisme sur les nouvelles plateformes en ligne. Lisa Bolz nous parle de son expérience avec le logiciel libre Iramuteq (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires) lors de ses recherches doctorales sur les dépêches d’agence au XIXème siècle. Après avoir…

Iramuteq avec Adeline Wrona

Iramuteq avec Adeline Wrona

podcasts

Dans ce podcast, Adeline Wrona (GRIPIC) nous présente comment les méthodes numériques permettent d’explorer les corpus massifs offerts par la numérisation de la presse française du XIXème siècle. Elle nous parle de la manière dont les méthodes numériques ont été investies dans le programme de recherche GIRANIUM. Par exemple, à travers l’utilisation du logiciel R, il a été possible de mettre en exergue la “viralité” de l’écriture médiatique dans le corpus de textes constitué autour d’Emile de Girardin (sa correspondance intime ainsi que l’ensemble des journaux qu’il a créé). Cela offre l…

Iramuteq avec Renaud Debailly

Iramuteq avec Renaud Debailly

podcasts

Renaud Debailly (GEMASS) expose la façon dont Iramuteq (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires) permet de cartographier un corpus préalablement défini et préparé pour l’analyse. Il précise la pertinence des différentes analyses possibles selon la taille du corpus produit et dans quels cas Iramuteq peut s’avérer pertinent pour une recherche. Il aborde ensuite la complémentarité de R et Python qui permettent d’effectuer des analyses de corpus ou de réseaux plus poussées. Enfin, Renaud Debailly décrit le type de restitution des résultats que propose…

RGPD et sciences sociales

RGPD et sciences sociales

podcasts

Un podcast avec Julien Rossi, anciennement UTC/COSTECH, désormais Paris 8/CEMTI. Voir également l’atelier PGD, RGPD, archivage des données personnelles dans les SHS, qui a eu lieu le 19 novembre 2021, ainsi que le détail des réponses aux questions posées lors de cet atelier.

Projets retenus pour le programme doctoral méthodes numériques

actualités

Dans le cadre du programme doctoral Méthodes numériques pour les thèses en LSHS, proposé par CERES, 6 projets ont été retenus au terme de la première phase de sélection.

Antonomaz - Visualisation de sources multiples

Antonomaz - Visualisation de sources multiples

podcasts

Alexandre Bartz est ingénieur sur le projet Antonomaz, diplômé d’un cursus d’Histoire et du master “Technologies numériques appliquées à l’Histoire” de l’Ecole des Chartes. Vous pouvez compléter l’écoute de ce podcast en consultant les ressources évoquées par Alexandre : Le projet Antonomaz sur GitHub Pour la visualisation : Kibana R (langage) Pour le nettoyage des données : Dataiku Crédits : Interview : Emmanuelle Papinot et Thibault Grison Générique et habillage sonore : Thomas Bottini et Virginie Julliard Prise de son : Thibault Grison Montage : Marie-Angélique Mennecier.

Atelier ARCGIS : cartes interactives

Atelier ARCGIS : cartes interactives

ateliers

Ces dernières années, les outils de la géomatique se sont démocratisés. Il n’est plus nécessaire d’être spécialiste pour fabriquer des cartes de bonne qualité et des interfaces pratiques voire ludiques permettent d’intégrer le langage cartographique dans ses présentations, en salle ou sur le web (web applications, storymaps). La séance vous permettra de découvrir par vous-mêmes les possibilités infinies des SIG (systèmes d’information géographique).

Guide RGPD / PGD et SHS

Guide RGPD / PGD et SHS

articles

Un atelier RGPD/PGD, a été animé par Julien Rossi, Cécile Arènes et Océane Valencia. Différentes problématiques de recherche ont été soulevées par les participants durant cet atelier. Celles-ci concernaient les sujets suivants : Statut des images Travail sur les réseaux Enquêtes, droit à l’oubli Données sensibles Questions diverses Ce guide fournit plusieurs éléments de réponses sur ces sujets. Pour aller plus loin, un rapport concernant le cadre juridique applicable à l’usage des données issues des réseaux socio-numériques à des fins de recherche scientifique a également été rédigé par Julien…

Journées d'études autour des Humanités numériques à La Rochelle

Journées d'études autour des Humanités numériques à La Rochelle

événements

Une partie de l'équipe CERES s'est déplacée à La Rochelle les 3 et 4 mars 2022 pour une journée d'études sur les méthodes numériques pour les SHS

Notion dans la recherche en SHS

Notion dans la recherche en SHS

tutoriels

Un guide pour apprendre à utiliser Notion. C'est un logiciel de gestion de projet qui comprend des options de manipulation de base de données assez avancées, tout en restant intuitif et flexible. Bien qu’il ne soit pas destiné principalement à la recherche, Notion se révèle très utile pour tous types d’usages en sciences sociales : gestion d’écrits de recherche, suivi et codage d’entretiens, analyse de corpus d’images, etc.

Extraction de données sur Instagram

Extraction de données sur Instagram

podcasts

Marine Buffard (GRIPIC / SCAI) effectue une thèse sur “L’intelligence artificielle au prisme d’Instagram” et plus spécifiquement sur l’impact de cette médiation sur les représentations du yoga. Elle commente les différents modes de collectes de données qu’elle réalise, notamment avec Python, ainsi que les contraintes et les difficultés qu’elle rencontre. Elle conclut sur son analyse des images qui lui permet de constater un changement significatif dans la pratique du yoga.

Présentation : Ethnographie d’une djihadosphère entre 2017 et 2020

Présentation : Ethnographie d’une djihadosphère entre 2017 et 2020

événements

Résumé Titre complet : Ethnographie d’une djihadosphère entre 2017 et 2020. Enjeux, méthodes et défis liés à la sélection et à la récolte de données sensibles en ligne Cette présentation, qui a eu lieu le 3 février 2022, interrogeait, dans le contexte spécifique d’une djihadosphère, les méthodologies déployées pour exploiter des données issues des réseaux socio-numériques, et cela à différentes étapes du processus de recherche : accès au terrain, constitution du corpus, recueil des données et restitution des résultats. Un cas concret d’extraction et d’analyse de données a notamment été…

ANR Tractive : Vers une analyse multimodale automatique de l'esthétique discursive filmique

projets

Le CERES est mobilisé sur l’ANR Tractive : Vers une analyse multimodale automatique de l’esthétique discursive filmique. Débuté en février 2022 pour une durée de 48 mois, le projet implique six partenaires : GRIPIC Groupe de recherche interdisciplinaire sur les processus d’information et de communication I3S Laboratoire informatique, signaux systèmes de Sophia Antipolis BCL Bases,corpus, langage LabSIC LABORATOIRE DES SCIENCES DE L’INFORMATION ET DE LA COMMUNICATION Inria Centre de Recherche Inria Sophia Antipolis - Méditerranée IRIT Institut de Recherche en Informatique de Toulouse Résumé du…

Atelier PGD, RGPD et archivages des données personnelles dans les recherches en SHS

Atelier PGD, RGPD et archivages des données personnelles dans les recherches en SHS

ateliers

Description de l’atelier Plusieurs mécanismes encadrent l’usage des données de la recherche. D’une part, que ces données soient personnelles ou non, de nombreux organismes financeurs exigent désormais la rédaction de plans de gestion des données. C’est le cas notamment de l’ANR et de l’Union européenne. Ensuite, certaines données peuvent correspondre à des œuvres couvertes par le droit d’auteur. Enfin, rares sont les recherches en sciences humaines et sociales qui ne reposent pas sur un traitement de données à caractère personnel, lesquelles font l’objet d’un encadrement spécifique par le…

Atelier CrowdTangle

Atelier CrowdTangle

ateliers

L’atelier a été animé par Thibault Grison (Doctorant GRIPIC / SCAI) & Félix Alié (Ingénieur informatique CERES), le 18 novembre 2021. Une présentation de cet outil d’analyse de contenus, proposé par Facebook & Instagram a été effectuée, ainsi qu’une exposition de l’API Twitter (offerte aux comptes “académiques”). Accès en ligne à CrowdTangle

Méthodes de clustering

Méthodes de clustering

podcasts

Solveig Poder & Carlos González Gallardo présentent le principe des méthodes de clustering qui permettent de regrouper des données non étiquetées afin de les traiter et de les interpréter. En les mobilisant sur trois corpus différents dont deux relatifs aux projets Ceres (Sackler et PMA), ils décrivent la façon dont ils ont rendu ces méthodes accessibles aux chercheurs en SHS à travers le développement d’une interface de visualisation des données. Crédits : Interview : Emmanuelle Papinot Générique et habillage sonore : Thomas Bottini et Virginie Julliard Prise de son : Thibault Grison Montage…

Programme doctoral

actualités

Ce programme doctoral soutient des projets de recherche en Sciences Humaines et Sociales désireux de recourir aux outils informatiques pour étudier des terrains numériques ; collecter, explorer, analyser, annoter ou publier des corpus numériques et numérisés.

Europresse avec Thibault Grison

Europresse avec Thibault Grison

podcasts

Thibault Grison (SCAI, GRIPIC) présente un cas d’usage d’Europresse dans son mémoire de recherche en SHS sur la défense de la “liberté d’expression” dans la presse française. Il explique comment il est parvenu à constituer un corpus multi-sources de plusieurs centaines d’articles, tout en présentant les difficultés auxquelles il a été confronté dans cette collecte. Il évoque enfin Factiva, une autre base de presse en ligne.

Europresse avec Gaël Lejeune

Europresse avec Gaël Lejeune

podcasts

Gaël Lejeune (STIH) expose la façon dont Europresse permet de collecter des corpus d’articles de presse pouvant faire l’objet d’analyses automatisées par la suite. Il évoque également les limites de cette base de données tout en discutant des méthodes de collecte et d’analyse des corpus de presse qui font notamment surgir une problématique autour des formats des données de la recherche. Gaël Lejeune explicite enfin son processus de développement d’un outil d’automatisation de collecte de corpus à partir d’Europresse, aujourd’hui mis à disposition des chercheurs par l’unité de service CERES.

Lancement du CERES

Lancement du CERES

événements

Informations Jeudi 7 Octobre - Campus Les Cordeliers 15 Rue de l’École de Médecine, 75006 Paris Inscription: lettres-ceres@sorbonne-universite.fr Programme 14h-15h30: présentation des activités CERES 15h30-16h30: table ronde - doctorant·e·s 16h30-17h30: présentation des recherches transdisciplinaires accompagnées par CERES

La mobilisation de l’expertise dans la presse française pour cadrer le phénomène des théories du complot : analyse des mécanismes de (dis)qualification.

La mobilisation de l’expertise dans la presse française pour cadrer le phénomène des théories du complot : analyse des mécanismes de (dis)qualification.

thèses

Candidate : Clara Bordier Direction de la thèse : Pascal Froissart (CELSA/GRIPIC) Accéder au CV Résumé de la thèse : Ce travail de recherche questionne la manière dont le discours d’expertise sur les théories du complot s’est formé et développé historiquement dans la presse quotidienne et magazine française. L’intérêt est porté sur la lutte contre le complotisme afin d’analyser les processus de normalisation et de constitution de représentations autour d’un « problème complotiste ». Comment comprendre l’évolution du discours sur les théories du complots dans les médias français sur le long…

Projet Memes

projets

Le projet Memes (Extraction automatique et analyse par Myriadisation d’Expressions Semi-figées) était un projet émergence SU (2019-2021). Le projet vise à étudier les expressions figées (ou phraséologismes) et leur détournement (défigement) à des fins humoristiques notamment. Trois objectifs avaient été définis : repérer des défigements sur Twitter et les classer, en tirer des règles de génération et annoter via crowdsourcing. Les parties 1 et 2 correspondent au périmètre du post-doctorat de Lichao Zhu (aujourd’hui post doctorant au LLF, Paris Diderot). La partie 3 n’a pas pu être réalisée (problème d’ingénierie) mais le projet pourrait rebondir via le projet de contrat doctoral proposé à CERES (G. Siouffi directeur, K. Fort et G. Siouffi co-directeurs).

Projet d'analyse de la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans

projets

Coordination : Virginie Julliard, PU en SIC, GRIPIC, CELSA-Sorbonne Université Équipe : Gaël Lejeune (STIH, SU), Fred Pailler (Université du Luxembourg) et Maxime Cervulle (CEMTI, Université Paris 8) Objectif : Analyse de la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans. Résumé Le projet étudie la controverse relative à l’ouverture de la procréation médicalement assistée aux femmes célibataires, aux couples de femmes et aux femmes trans’ dans le cadre des débats parlementaires autour de la loi de…

Atelier Iramuteq

Atelier Iramuteq

ateliers

Le traitement automatique du langage naturel (TAL) est une des disciplines dans laquelle le CERES est actif. Plusieurs logiciels sont utilisés dans ce domaine, parmi lesquels Iramuteq, qui a fait l’objet d’un atelier proposé par Renaud Debailly (MCF en sociologie, GEMASS/Sorbonne Université). L’atelier, animé par Gaël Lejeune (MCF en linguistique computationnelle, STIH/Sorbonne Université), s’est déroulé le 9 septembre 2021. Le support de la présentation est disponible en téléchargement : accès.

Annonce de thèse : Changer de prénom sur le Web quand on est trans

actualités

Titre complet : Changer de prénom sur le Web quand on est trans ? Les normes de genre au travail dans les conceptions de l’identité numérique et de l’identification en ligne Thèse de Kenza Benabdelouhab, sous la direction de Virginie Julliard. Description : Cette thèse s’intéresse à la façon dont les sites Web permettent aux personnes trans’ de gérer leurs données personnelles quand celles-ci représentent leur identité de genre. Elle veut saisir les conceptions de l’identité et des normes de genre organisées par les entreprises du Web, en proposant notamment qu’elles sont observables à l…

Accompagnement du projet Sackler

projets

Objectif : Analyse de l’affaire Sackler au prisme de la réputation en ligne. Coordination : Pierre-Marie Chauvin, MCF en sociologie, GEMASS, SU Équipe : Gaël Lejeune (MCF en linguistique computationnelle, STIH, SU), Virginie Julliard (PU en SIC, GRIPIC, SU) et Solveig Poder (stagiaire CERES) Intervention de CERES : Collecte d’un corpus d’articles sur Europresse, caractérisation quantitative du corpus Collecte d’un corpus de tweets, complémentation (téléchargement des images, identification des conversations, des noms de domaines cités), navigation dans le corpus (visualisation du corpus par…

Bourse de thèse : Détection et production de défigements linguistiques

actualités

Bourse de thèse CERES 2021 Titre complet : Détection et production de défigements linguistiques dans les réseaux sociaux assistées par les sciences participatives. Fertilisation croisée entre traitement informatique et analyse linguistique Sous la direction de Gilles Siouffi, Karën Fort et Antoine Gautier

Bourse de thèse : Analyse du discours complotiste dans un corpus de presse historicisé

actualités

Bourse de thèse CERES (2021) Sous la direction de Pascal Froissard Lutte contre le complotisme Expertises médiatiques Création de normes et de représentations Application de l’analyse textuelle sur un corpus historicisé