Atelier Web Scraping

Publié par Édouard Bouté le 11 janvier, 2024

Le web scraping est une technique informatique utilisée pour extraire automatiquement des données à partir de sites web. Cela implique l’analyse et le téléchargement du contenu des pages web, généralement à l’aide de scripts ou de programmes spécifiques.

Première version de l’atelier

Un premier atelier a été donné par Gaël Lejeune le 20 janvier 2022. Il s’agissait d’exposer la façon dont on peut, avec cette technique :

  1. Scraper des pages d’articles de presse et de forums
  2. Gérer les données tabulaires
  3. Préparer des données pour les utiliser notamment sur R.

Le support de présentation est disponible en téléchargement

Seconde version de l’atelier

Une seconde version de l’atelier entend familiariser les participant·es avec l’outil de web scraping intitulé Octoparse. Ce logiciel dispose d’une interface graphique et de scripts pré-enregistrés, ce qui rend cet outil très intéressant pour les débutant·es en scraping. Il est également efficace pour des profils intermédiaires souhaitant récolter des données web rapidement.

Cet atelier a été donné le 11/01/2024 par Félix Alié (CERES).