L’école fait un pas vers le web sémantique (1/4)

L’événement n’a certes pas fait les gros titres à l’occasion de la rentrée de septembre 2016 : le ministère de l’Éducation Nationale a publié ses principaux référentiels pédagogiques dans les formats du web sémantique. Plusieurs mégaoctets de données été mis à disposition sur la toile. Il s’agit, notamment, des programmes scolaires, de la maternelle à la terminale, enfin informatisés.

Ce premier article se propose de présenter simplement l’enjeu de cette innovation du point de vue de la « valeur ajoutée » potentielle pour les utilisateurs.

 Un parallèle pour comprendre

Aucun internaute n’aurait aujourd’hui l’idée de taper la requête suivante dans son moteur de recherche :

location appartement trois pièces dont deux chambres au moins 50 mètres carrés loyer maximum 1000€ par mois avec parking cuisine américaine aux alentours de Charenton

Pour trouver un appartement avec des critères précis, il est bien plus efficace de se connecter à l’un des sites spécialisés, afin d’en utiliser le moteur multicritère.

logement

Aucun de ces sites n’est en situation monopolistique (bien heureusement). Chacun d’entre eux ne capte qu’une partie de l’offre. L’utilisateur est donc réduit à reformuler sa requête dans chacun des moteurs.

Telle est donc l’alternative qui s’offre à l’internaute en quête de toit :

  • soit lancer une recherche globale peu efficace,
  • soit lancer une recherche précise dans un périmètre restreint.

Imaginons qu’un jour, tous les sites d’annonces locatives se mettent d’accord pour parler le même langage. Qu’ils incluent, par exemple, dans les annonces, des codes (invisibles) qui signifieraient « 52 mètres carrés », « chauffage central » ou « cuisine américaine ». Ou qu’ils publient directement des flux de données utilisant de tels vocabulaires communs.

Des métamoteurs de recherche balayeraient la toile à la recherche d’annonces de vente ou de location et offriraient un point d’entrée unique à la recherche. N’en doutons pas, Google (ou d’autres) serait assez vite  en mesure de répondre efficacement à la requête «location appartement trois pièces dont deux chambres au moins 50 mètres carrés loyer maximum 1000€ par mois avec parking cuisine américaine aux alentours de Charenton» : il la décomposerait en critères sémantiques. Une floraison de nouveaux services s’ensuivrait.

Problème : économiquement parlant, cette stratégie serait suicidaire pour les sites d’annonces. Et c’est pourquoi ils ne le font pas. Le parallèle entre ressources pédagogiques et annonces immobilières s’arrête là.

Rechercher une ressource pédagogique

Comme on vient de le voir, lorsqu’on recherche une annonce locative, la recherche globale est peu efficace car elle ne peut mettre en œuvre de critères sémantiques (« avec/sans parking »). C’est une recherche plein texte, basée sur des énoncés en langage naturel. Elle opère par de simples rapprochements de chaînes de caractères – si sophistiqués soient-ils.

La recherche sémantique est quant à elle cantonnée à un périmètre restreint (tel ou tel site de petites annonces). Pour qu’une recherche sémantique globale soit possible, il faudrait que les annonces soient diffusées dans des formats standard, basés sur des vocabulaires communs, « compréhensibles par les machines » selon l’expression consacrée.

Cette analyse peut tout à fait être transposée au domaine des ressources pédagogiques. La plupart des utilisateurs (enseignants, parents, élèves et étudiants) s’appuient sur les moteurs de recherche généralistes. Ceux-ci donnent en effet accès à des quantités de ressources incommensurables avec celles que propose telle ou telle plate-forme spécialisée.

Mais même des requêtes construites dans les règles de l’art excluent toujours  une partie des réponses pertinentes :

géodynamique SVT 5ème

tectonique « sciences de la vie et de la Terre » cycle 4

D’autant qu’une ressource destinée à la classe de 5ème ne contient pas forcément les termes « 5e », « 5ème », « cinquième » ni « cycle 4 ». Il faudrait multiplier les formulations mais, pour peu qu’on veuille introduire un second critère (« QCM », « vidéo », « support de cours »…), la combinatoire devient excessive.

Pour balayer la toile avec efficacité, à la recherche de ressources répondant à ces requisits, il faudrait disposer d’interfaces de recherche proposant des critères sémantiques :

Mieux, il faudrait pouvoir explorer l’espace des résultats à l’aide de facettes :

geologie3

Or ce type d’interface n’est pas disponible pour des recherches globales : il n’est proposé que dans des banques de ressources dont le contenu paraît toujours étriqué en regard de ce qu’offre la Toile dans son ensemble.

L’apport du web sémantique

Du moins, telle était la situation jusqu’à ce que l’Éducation Nationale publie ses référentiels dans les formats du web sémantique. Il existe désormais une façon universelle de dire qu’une ressource :

Ces codes d’apparence rébarbative sont des URI : ils ressemblent aux URL qui nous sont familières, à ceci près qu’en les saisissant dans la barre d’adresse du navigateur, on ne trouve pas forcément de page. Le système d’adressage du web est ici utilisé à la seule fin de garantir l’unicité des termes vis à vis des vocabulaires similaires qui pourraient être élaborés dans le monde.

Ces vocabulaires sont certes encore perfectibles – les relations entre termes n’y figurent que partiellement. Mais leur existence ouvre un éventail de possibilités. Il devient envisageable de concevoir des outils qui chercheront des ressources pédagogiques, de façon précise, sur l’ensemble de la toile. Encore n’est-ce là qu’un aspect des choses, la « découvrabilité » des ressources.  L’inscription des ressources pédagogiques dans le « graphe global » du web sémantique permettra à d’autres services d’émerger, en mettant l’univers pédagogique en relation avec différents domaines, comme l’emploi, l’édition, etc.

Encore faudra-t-il pour cela que les technologies permettant d’exploiter ce nouveau standard soient largement disponibles et d’utilisation aisée. Par exemple, en l’état actuel, il n’est pas facile d’inclure dans une page web les données qui permettraient aux robots de comprendre à quelle classe un exercice est destiné, à quelle matière, quel thème du programme il se rattache, s’il est corrigé ou non, son format, son niveau de difficulté, etc.

Les outils devront pour cela évoluer. C’est l’une des questions que j’aborderai dans les articles suivants de cette série, qui traiteront de la question sous un angle prospectif :

  • Comment exploiter ces nouveaux standards dans les applications courantes du monde éducatifs (CMS tels que Spip, Drupal ou WordPress, LMS tels que Moodle) ?
  • Quels projets de développement pourraient être initiés, notamment dans la communauté du libre ?
  • Quelle peut-être l’incidence de cette évolution sur les stratégies numériques de l’enseignement supérieur ?

Comment accéder aux nouveaux vocabulaires ?

Pour consulter les données, rendez-vous sur le site scolomfr maintenu par Canopé.

La création d’un compte (gratuit) est requise pour l’accès aux contenus. Pour consulter les vocabulaires dans un format bureautique, rendez-vous sur la page « se documenter »  et consultez le PDF appelé « Liste des concepts (avec leurs URIs) ».

Pour une approche plus technique, récupérez la « livraison complète » depuis la page « Télécharger ». Le fichier Skos se trouve dans l’archive, à l’emplacement scolomfr-v-3-0/scolomfr.skos. Il est lisible avec un éditeur XML ou même un simple navigateur, mais malheureusement, compte tenu de son poids élevé, il n’est pas possible de le charger dans un outil de visualisation en ligne tel que Skos Play. Ce format comporte les labels, les relations d’inclusion et les commentaires qui accompagnent les termes.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s