Pages

samedi 2 juillet 2016

Loi numérique : une exception de TDM (presque) "à l'Anglaise" ?

Réunis en commission mixte paritaire le mercredi 29 juin, les parlementaires ont rendu leurs arbitrages sur les points de désaccord entre les deux chambres. Le texte sera soumis à un vote ultime le 20 juillet pour l'Assemblée Nationale, et à la mi-septembre pour le Sénat. Il faut rester prudent car le gouvernement a toujours la possibilité d'ajouter des amendements, mais a priori, "ceux-ci seront purement rédactionnels ou de coordination". Le texte issu de la CMP peut donc être considéré comme le texte quasi final.

En matière de recherche et de diffusion des savoirs, deux articles retiennent notre attention :

Article 17 : un droit d'exploitation secondaire "à l'Allemande"


J'en ai déjà abondamment parlé sur ce blog. L'article 17 consacre au profit des chercheurs, un droit d'exploitation secondaire de leurs écrits scientifiques, sur le modèle de la loi allemande votée en 2013. C'est la version de la "chambre haute" qui l'a emporté. Mais à vrai dire, les modifications apportées par les sénateurs au texte des députés étaient relativement limitées. Qu'on en juge par cette comparaison :


Exit, donc, la possibilité pour le ministre en charge de la recherche de prévoir des délais inférieurs applicables à certaines disciplines. Il est vrai qu'un traitement différencié selon les disciplines aurait probablement généré en pratique beaucoup de confusion et d'hésitations, car il est fréquent que les travaux de recherche portent sur des domaines interdisciplinaires.

C'est d'ailleurs la grande faille de cet article (la remarque vaut aussi pour la loi allemande) : quid des publications à cheval entre sciences "dures" et sciences humaines et sociales ? Quid par exemple, des délais de mise à disposition gratuite pour un chercheur en informatique travaillant dans le domaine des sciences de l'information ?

Autre modification dans la version du sénat qui prévaut désormais : le délai dont dispose l'auteur d'une publication scientifique "pour [la] mettre à disposition gratuitement dans un format ouvert, par voie numérique" est fixée par un "maximum", précision utile sans laquelle le texte aurait pu être interprété comme invalidant les contrats d'édition aménageant des délais de mise à disposition inférieurs à 6 et 12 mois.

Autre point positif, moyennant certaines réserves déjà évoquées: les données de la recherche sont "librement réutilisables", le texte des sénateurs n'ayant pas modifié celui des députés sur ce point.



Article 18 bis : une exception de TDM (presque) "à l'Anglaise"?


Sur la question du Text and Data Mining, c'est cette fois-ci la position des députés qui l'a emporté, et c'est une bonne nouvelle, tant il est vrai que le texte du Sénat limitait beaucoup trop strictement et absurdement son champ d'application: n'étaient couvertes par une exception que les extractions à partir de corpus faisant l'objet d'abonnements institutionnels, tandis que les contenus en libre accès sur le web restaient hors de portée.

Est désormais consacrée une exception au droit d'auteur au profit des chercheurs, inspirée de la loi britannique de 2014, comme l'expliquait le député Luc Bélot lors de la conférence de presse. Sera ajouté dans le Code de la Propriété intellectuelle un alinéa précisant que l'auteur d'une oeuvre divulguée ne peut interdire "Les copies ou reproductions numériques réalisées à partir d'une source licite, en vue de l'exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l'exclusion de toute finalité commerciale."

On remarquera l'ajout, par rapport au texte voté par les députés en janvier, de la mention "incluses ou associées aux écrits scientifiques" :


Et là, on peut s'interroger sur le sens global de l'article après cet ajout. Cela pourrait signifier que d'un côté, la fouille de textes peut s'appliquer à n'importe quel corpus pris sur le web, quelle que soit sa thématique, mais que, de l'autre, la fouille de données ne s'appliquerait qu'aux données de la recherche, à condition qu'elles soient incluses ou associées à un écrit scientifique.

Cette interprétation, si elle est confirmée, génère plusieurs remarques ou interrogations :

1) La nouvelle mouture de l'article 18 bis ne retombe pas dans le travers de l'article voté par les sénateurs, dans la mesure où le champ de l'exception ne se limite plus aux corpus accessibles via des "contrats conclus par un éditeur avec un organisme de recherche ou une bibliothèque".

2) Pour autant, la fouille de données ne pourrait pas porter sur n'importe quel type de données brutes: il faut que ces données soient préalablement "incluses ou associées" à un écrit scientifique. Un chercheur qui copierait des milliers de pages d'un réseau social afin d'en extraire des données ne pourrait invoquer l'exception de TDM. C'est la solution contractuelle qui continuera à s'appliquer : notre chercheur devra négocier avec le producteur de la base de données le droit de procéder à une extraction de données... Ou se contenter de l'API fournie par le producteur quand elle est proposée. Poussons le raisonnement jusqu'à l'absurde : si ce même chercheur décide de réutiliser des données relatives à un réseau social et mises à disposition par un homologue étranger par le biais d'un écrit scientifique, notre chercheur français serait probablement, cette fois-ci, couvert par la nouvelle exception.

3) La limitation du champ d'application de l'exception de la fouille de données (on ne parle pas ici de la fouille de textes) aux données de la recherche rend la formulation redondante avec celle de l'article 17, qui, comme on l'a vu, énonce que les données de le recherche sont "librement réutilisables". Autrement dit, l'article 17 ouvrait déjà la possibilité de TDM sur les données de la recherche, et ce, sans la condition que lesdites données soient "incluses ou associées aux écrits scientifiques". 

4) Plus globalement, le régime d'application différencié de l'article 18 bis, fondé sur la dichotomie texte/données repose sur le postulat d'une différence nette entre texte et données. Or la distinction n'est que très superficielle, tout corpus de textes étant traduisible en langage informatique par un ensemble de 0 et de 1.

***


Pour finir, sans vouloir jouer l'avocat du diable, je conseillerais aux chercheurs français d'adopter un automatisme de langage : au lieu de dire qu'ils font de la fouille de données, je leur suggérerais de dire qu'ils font de la fouille de textes (une base de données composée intégralement de chiffres n'est-elle pas, par certains côtés, un gigantesque texte d'un genre particulier?) Par ce simple tour de passe-passe sémantique, ils feraient entrer plus facilement leur projet de recherche dans les clous de la nouvelle exception aux contours alambiqués.