Découpage 2.0

TL;DR : La possibilité de diffuser des extraits documentaires recontextualisables, c’est à dire éditables dans leur contexte d’origine, serait une avancée majeure pour aussi bien pour l’enseignement universitaire LLSH (lettres, langues et sciences humaines) que pour le manuel numérique du secondaire dans les disciplines littéraires. Ce besoin pourrait être satisfait par l’invention d’un format d’extrait documentaire vectoriel basé sur le standard EPUB-CFI, adossé à des dépôts de livres numériques dotés de références universelles type ARK, comme il en existe déjà. Cette fonctionnalité pourrait même être intégrée au traitement de texte.

Si l’extrait d’ouvrage est omniprésent parmi les ressources pédagogiques des disciplines littéraires, c’est parce qu’il est le principal support de la « question sur document », paradigme pédagogique dominant des disciplines LLSH (lettres, langues et sciences humaines) du cycle 3/4 à l’université. À mesure que le cours magistral était battu en brèche dans l’enseignement secondaire, les manuels de cours ont disparu du paysage de l’édition scolaire, cédant la place à des recueils de documents assortis de questions et ponctués de synthèses de cours. Dans le supérieur, les enseignants en charge de travaux dirigés appuient eux aussi leur activité sur des collections d’extraits documentaires.

Il me semble que la production et la diffusion de ces extraits ne tirent pas assez parti du potentiel du numérique. Cette affirmation surprendra : n’est-il pas loin le temps ou le professeur de lettres ou de sciences humaines, armé d’une paire de ciseaux, perdait son temps en sinueux découpages et maculait de colle la vitre du photocopieur ?

Certes, traitement de texte et imprimante sont passés par là, sans compter bien entendu l’accès, via internet, à des sources numérisées. Mais la façon dont les extraits sont manipulés au quotidien par les enseignants et distribués sur le web ou par le biais des manuels numériques demeure en réalité bien en deçà des possibilités actuelles.

Car les extraits, en circulant, font l’objet de remaniements multiples. Les enseignants ont besoin d’effectuer de nouvelles coupes, d’insérer des paraphrases, des résumés ou des notes afin d’adapter les documents à leur démarche pédagogique, au niveau de leurs élèves ou étudiants, entre autres.

Mais – et c’est là que le bât blesse – l’offre technologique actuelle ne permet pas d’élargir la sélection en réincluant des passages préalablement omis. On ne peut même pas replacer l’extrait dans son contexte d’origine afin d’évaluer la pertinence du découpage, si ce n’est au prix de manipulations informatiques aussi hasardeuses que chronophages. Le lien entre l’extrait et sa source est rompu. Il en résulte un sentiment de frustration que connaissent bien ceux qui enseignent à tous niveaux les disciplines LLSH. Sans compter le bénéfice que gagneraient les apprenants à pouvoir opérer cette recontextualisation.

Idée d’extrait recontextualisable

Imaginons un fichier de traitement de texte analogue à ceux que manipulent les enseignants à l’heure actuelle, contenant un extrait d’œuvre, mais qui serait doté d’une faculté supplémentaire : la possibilité d’être visualisé et édité dans le contexte de l’œuvre d’origine. Nous parlerons d’extrait recontextualisable pour désigner cette innovation d’un point de vue fonctionnel. 

À titre d’exemple, soit ce passage classique des Formes élémentaires de la vie religieuse d’Emile Durkheim au sein duquel a pris place une coupure (ligne 4) :

extrait2

L’idée serait de pouvoir éditer ce document dans une application qui l’afficherait de la façon suivante :

extrait3.pngCette maquette sommaire ne prétend pas à l’ergonomie (et encore moins à l’esthétique). Elle ne vise qu’à illustrer la fonctionnalité décrite dans ces lignes : une solution informatique qui permettrait de visualiser les extraits dans le contexte de leur source, et qui serait dotée de contrôles permettant de déplacer les limites de la sélection, d’éditer les notes, les insertions, etc.

Il pourrait s’agir aussi bien d’un logiciel de bureau que d’une application en ligne, où même d’une fonctionnalité intégrée aux traitements de texte courants – et pourquoi pas, tout cela à la fois.

Je ne crois pas exagérer en affirmant que la mise à disposition d’un tel outillage constituerait une avancée majeure pour le monde de l’enseignement « LLSH » (lettres, langues, sciences humaines).

Une solution : l’extrait documentaire vectoriel

Plusieurs exigences peuvent guider vers la formulation d’une proposition technique:

  • Pour diffuser un extrait des Confessions de Jean-Jacques Rousseau, il ne saurait être question d’embarquer les douze livres de l’œuvre, en arrière-plan, dans le fichier.
  • La granularité des documents peut varier : dans le cas le plus simple, le document est un extrait; dans d’autres cas il contient des extraits (dossier documentaire composite).
  • Les extraits devraient également être portables. Il n’est pas souhaitable que l’utilisateur dispose de documents qui ne seraient recontextualisables que dans le cadre d’une plateforme fermée (fût-elle gratuite), mais qui cesseraient de l’être dès lors qu’ils seraient diffusés à l’extérieur de celle-ci. Cela suppose l’émergence d’un écosystème applicatif basé sur un standard

Heureusement, la pièce maîtresse d’un tel standard existe d’ores et déjà. Personne ne vous reprochera de n’avoir jamais entendu parler d’EPUB-CFI, alias « EPUB Canonical Fragment Identifiers », un des standards basé sur EPUB, le format ouvert de livre numérique. EPUB-CFI permet d’exprimer les coordonnées précises d’un point à l’intérieur d’un document EPUB, au caractère près. Il a été conçu pour autoriser l’écriture de liens hypertextes pointant sur un contenu à l’intérieur d’un livre numérique, comme le permet le système des URI et des ancres pour les pages HTML.

À condition que l’œuvre de référence soit disponible au format EPUB, n’importe quel extrait documentaire pourra être décrit, sans perte d’information, comme une suite d’intervalles (des séries de coordonnées EPUB-CFI), plus quelques insertions et notes. Pour désigner un tel extrait, nous parlerons d’extrait documentaire vectoriel ou de citation vectorielle. Il s’agit là d’un parallèle avec le monde de l’image numérique où l’on oppose les formats matriciels qui encodent, de façon plus ou moins exhaustive, l’information relative à chaque point, aux formats vectoriels, qui ne contiennent que des paramètres et des coordonnées mathématiques, et sont pour cette raison plus aisément éditables.

Cette proposition technique soulève deux questions :

  • d’une part, comment le logiciel d’édition parviendrait-t-il à récupérer les sources EPUB auxquelles font référence les coordonnées EPUB-CFI ?
  • et d’autre part, comment enrichir un document bureautique odt ou doc(x) avec de telles coordonnées ?

Un mécanisme de repositories littéraires

Supposons que mon document contienne un extrait du roman posthume de Gustave Flaubert, Bouvard et Pécuchet, dans son édition de 1881. Cette œuvre est proposée par Gallica, bibliothèque numérique de la BNF, sous l’identifiant ark:/12148/bpt6k62126049. Lorsque je voudrai éditer ou visualiser mon extrait vectoriel dans son contexte, le logiciel n’aura qu’à télécharger l’œuvre originale, au format EPUB, à l’URL http://gallica.bnf.fr/ark:/12148/bpt6k62126049.epub, et résoudre les coordonnées EPUB-CFI à l’intérieur du fichier ainsi obtenu.

Comme le système d’identifiants ARK est conçu pour proposer des références stables et indépendantes de la localisation physique du fichier (contrairement aux URI), on peut imaginer que l’ouvrage ark:/12148/bpt6k62126049 soit servi par plusieurs dépôts en plus de Gallica. Mon éditeur d’extraits documentaires vectoriels serait informé, au stade du paramétrage, ou via des annuaires, de la liste des dépôts qui lui sont accessibles. Ce mécanisme reproduit un schéma classique dans le monde informatique : c’est ainsi, par exemple, que fonctionnent les gestionnaires de dépendances qui permettent aux développeurs logiciels de se référer, par simple déclaration, à des composants publiés par des tiers dans des repositories, sans avoir besoin de les dupliquer à proprement parler.

Si l’éditeur d’extraits vectoriels est une application en ligne, on peut en outre imaginer qu’il bénéficie d’autorisations particulières sur des dépôts de livres numériques au statut privé. Un standard d’autorisation de serveur à serveur tel que OAUTH remplirait peut-être cette fonction. Les utilisateurs dénués de telles autorisations, devraient, quant à eux, se cantonner aux œuvres tombées dans le domaine public qui représentent déjà pour certaines disciplines un fonds d’une valeur inestimable. Il n’y a qu’à parcourir, par exemple, l’offre de l’UCAQ en sciences sociales pour s’en convaincre.

Enrichir les formats bureautiques

Le système de dépôts de livres numériques et le standard permettant d’encoder les coordonnées des extraits existent donc déjà : il s’agirait seulement d’en faire une exploitation nouvelle. Il n’en va pas de même pour le format dans lequel dans lequel ces extraits vectoriels seraient diffusés, qui aurait, quant à lui, besoin d’être inventé et normalisé.

Imaginons un format de fichier ouvert que nous doterons, pour l’exemple, et faute d’imagination, de l’extension .ode pour open document extract. Ce fichier contiendrait plusieurs types de données :

  • les coordonnées EPUB-CFI de l’extrait (référence de la source, bornes des passages sélectionnés)
  • le texte des passages sélectionnés
  • des notes et insertions libres

Les deux premières entrées semblent redondantes. Mais si l’extrait était purement vectoriel, et ne reprenait pas le texte des passages qu’il cite, il ne pourrait pas être exploité hors connexion à internet.

Soit l’extrait des Formes élémentaires de Durkheim mentionné ci-dessus. Il s’incarne désormais dans un fichier appelé durkheim1.ode. J’ai la possibilité d’ouvrir ce fichier dans mon éditeur d’extraits vectoriels pour le remanier. Mais je peux aussi lancer  mon traitement de texte et insérer l’extrait via une entrée dans le menu « insérer un média ».

Supposons, à l’inverse, que j’aie reçu un fichier bureautique, doté d’une extension .doc(x) ou .odt, qui embarquerait cet extrait (par exemple, un sujet du baccalauréat de philosophie ou un support de travaux dirigés en sociologie). Pour visualiser ou éditer un des extraits dans son contexte, une première possibilité serait de l’exporter, par exemple en le sélectionnant, puis en enclenchant une commande telle que « Exporter comme… » ou « Enregistrer sous… », afin de récupérer le fichier source .ode. Mais une solution plus moderne, et plus ergonomique, serait de traiter l’extrait comme un objet OLE – à l’instar des feuilles de calcul embarquées dans les fichiers de traitement de texte ou les présentations. Un double clic ferait alors apparaître l’extrait recontextualisé, dans une popup dotée de de contrôles utilisateur spécifiques. L’utilisateur pourrait éditer dans leur contexte les documents du dossier sans quitter son traitement de texte.

Enfin, il faudrait toujours laisser l’utilisateur libre de briser la nature vectorielle de l’extrait pour en récupérer le texte libre et le manipuler à sa guise.

Quant au contenu du fichier que nous avons affublé ci-dessus de l’extension imaginaire .ode, il pourrait être fort simple, proche de HTML5, le standard contemporain des pages web. L’injection des coordonnées EPUB-CFI sous forme d’attributs présenterait également l’avantage de permettre la publication directe des extraits documentaires vectoriels à l’intérieur des pages web, comme il y a aujourd’hui des images vectorielles SVG « inline ». Et je ne pense pas me tromper en affirmant que de tels documents pourraient en outre être intégralement décrits par des triplets et sérialisés dans les formats du web sémantique – moyennant la formulation d’une ontologie appropriée.

Je suis convaincu que cette proposition répond à un besoin réel : pour le démontrer, il faudrait disposer d’un POC (proof of concept), constitué, par exemple, d’un éditeur d’extraits documentaires vectoriels et/ou d’un plugin pour Libre Office. Mais à un moment ou à un autre, l’adoption d’un format de fichier standard ouvert serait une étape incontournable. Ouverture qui n’empêcherait pas -au contraire- de proposer cette fonctionnalité dans des solutions aussi bien libres que commerciales.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s