Pages

mardi 21 octobre 2014

De l'article aux données: essai de clarification


Le 15 octobre dernier, lors d'une journée organisée par l'Académie des Sciences de Toulouse et intitulée "Démarches scientifiques: quand le numérique bouleverse la donne", les propos des divers intervenants se sont principalement focalisés sur la question de l'émergence d'une nouvelle méthodologie scientifique, basée non plus sur les hypothèses, mais sur les données.

Dans un remarquable exposé, Christine Gaspin (INRA) a expliqué comment la génomique est depuis longtemps basée sur l'exploitation de gigantesques banques de données et comment l'informaticien est amené à occuper une place nouvelle au sein des équipes de chercheurs en sciences du vivant.

Romain Jullien (Muséum d'Histoire Naturelle) a montré comment fonctionne concrètement une science dite participative, qui fait appel à la masse considérable d'observations collectées sur le terrain par des contributeurs bénévoles. Un programme collaboratif tel que Vigie Nature permet d'assurer un meilleur suivi de la biodiversité

Philippe Solal, épistémologue, a exposé les implications de la controverse scientifique suscitée par la parution en 2011 dans la revue Wired, de l'article intitulé "Le déluge de données va rendre la méthode scientifique obsolète". Pour son auteur, Chris Anderson, l'avènement de la science des données vient sonner le glas de l'ancienne démarche scientifique. La méthodologie de cette science 2.0 pourrait se résumer par la formule : "les chiffres parlent d'eux-mêmes". Une science data-driven vient se substituer à une science hypothesis-driven. On ne parle plus de scientist mais de data-scientist.

Mon intervention a consisté à donner une perspective juridique en insistant sur la nécessité de maintenir une science pleinement ouverte. Elle reprenait le contenu de deux billets, parus l'un sur le site Archives Ouvertes, l'autre sur le site de SavoirsCom1.


Rétrospectivement, il m'apparaît nécessaire de préciser certains termes. L'expression "résultats de la recherche" recouvre deux réalités hétérogènes : les articles scientifiques et les données. Ces dernières proviennent elles-mêmes de deux types de sources. Or ces distinctions ne sont pas neutres au regard des mécanismes juridiques enclenchés.



Article/données


Quand on parle de « résultats de la recherche », on reste à un niveau très général qui ne permet pas d'appréhender certains types de traitements spécifiques de l'information, telle la fouille de données. L'expression "résultats de la recherche" recouvre au moins deux notions: l’article et les données.
On pourrait retenir pour les données la définition proposée par l’OCDE [1]
Dans le cadre de ces Principes et Lignes directrices, les «données de la recherche» sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche

Il faudrait distinguer au moins deux types de données : les données primaires issues de la collecte systématique de mesures permettant d'évaluer un phénomène physique quelconque et les données secondaires issues du dépouillement d'une base préexistante, qu'elle soit constituée de chiffres, de texte, de sons ou d'images (cas du produit de la fouille de données appliquée à une plate-forme de revues scientifiques ou à Google...). Ainsi le Text Mining produit des données secondaires, car il consiste en un procédé qui transforme un corpus de textes préexistant en un ensemble de données analysables.

A y regarder de plus près, en un certain sens, les données primaires sont elles-mêmes secondes, dans la mesure où elles sont souvent dérivées, par le biais d'instruments, d'une série de mesures de phénomènes physiques. Mais disons que la distinction entre données primaires et secondaires reste une approximation acceptable.

 On entendra par "article", un texte qui expose et explicite les résultats issus d'une expérience ou produits par l'exploitation de jeux de données.



Double régime juridique


La distinction article/données est primordiale. Car elle conditionne l'application de licences différentes

A) Articles

Comment garantir le droit au libre accès ainsi qu'à la libre réutilisation des articles scientifiques ? Une licence de type CC-BY (Creative Commons - Mention de la Paternité) semble parfaitement convenir. Non seulement elle garantit le respect de l'une des composantes du droit moral, le droit à la paternité, mais elle garantit aussi la réutilisation large des articles scientifiques. C'est cette licence qui est préconisée par la Déclaration BOAI de 2012 :

2.1 Nous recommandons la licence CC-BY, ou toute autre licence équivalente, comme licence optimale pour la publication, la distribution, l'usage et la réutilisation des travaux universitaires.
  • Les archives ouvertes dépendent de permissions de tiers, comme les auteurs ou les éditeurs, et sont donc rarement en position d'exiger des licences libres. Cependant, les décideurs en position d'imposer le dépôt dans les archives devraient exiger des licences ouvertes, de préférence CC-BY, chaque fois qu'ils le peuvent.
  • Les revues en libre accès sont toujours en position d'exiger des licences ouvertes ; pour autant un grand nombre d'entre elles ne se prévalent pas de cette possibilité. Nous recommandons CC-BY pour toutes les revues en libre accès.

B) Données


Pour les données, les choses sont un peu différentes. Par nature, les données forment d'emblée une masse et c'est donc d'abord comme éléments intégrés à un corpus qu'elles doivent être appréhendées juridiquement.

1) Données primaires

Il existe actuellement, comme on le verra plus bas, d'immenses banques de données internationales qui ne sont placées sous aucune licence juridique particulière. Il est toutefois précisé dans les conditions générales d'utilisation des sites qui les hébergent qu'aucune restriction d'usage n'est imposée.

Si nécessité se fait jour d'apposer une licence à ces corpus, le raisonnement sera le suivant. Ou bien l'on considère ce corpus comme un tout et c'est le droit des bases de données qui s'applique. Ou bien l'on ne s'intéresse qu'à une portion de la base de données, et dans ce cas il peut paraître opportun de s'interroger sur la nécessité d'attribuer un statut juridique à chacune des données prises isolément.
Appliquée aux bases de données, une licence de type CC-0 (Domaine public) ou ODBL (Open Data Base Licence) semble parfaitement convenir. Elle garantit une pleine réutilisabilité des données. Pour les données en elles-mêmes, la licence CC-0 semble convenir.

L'intérêt de ces licences est de garantir la poursuite des objectifs énoncés dans l'article 111-2 du Code de la Recherche [2] :
La recherche publique a pour objectifs :

a) Le développement et le progrès de la recherche dans tous les domaines de la connaissance;
b) La valorisation des résultats de la recherche au service de la société, qui s'appuie sur l'innovation et le transfert de technologie;
c) Le partage et la diffusion des connaissances scientifiques en donnant priorité aux formats libres d'accès ;
c bis) Le développement d'une capacité d'expertise et d'appui aux associations et fondations, reconnues d'utilité publique, et aux politiques publiques menées pour répondre aux défis sociétaux, aux besoins sociaux, économiques et du développement durable;
d) La formation à la recherche et par la recherche;
e) L'organisation de l'accès libre aux données scientifiques.
.... "et leur réutilisation" a-t-on envie d'ajouter au petit e). Précisons que, contrairement à ce que l'on entend parfois, la source des données n'est pas oblitérée en cas d'apposition d'une licence CC0. Les métadonnées permettent en effet de mentionner la source: les données ne sont pas laissées orphelines.

2) Données secondaires

Quel doit être le statut juridique des données issues du Text and Data Mining et le statut de l'acte de fouille de données en lui-même ? Des discussions au niveau européen sont en cours. En l'absence de la consécration d'une exception en faveur du Text and Data Mining, les données extraites des bases de données ne sont pas d'emblée libres d'usage. Comme elles sont incorporées à un corpus sur lequel le producteur de la base de données détient un droit de propriété intellectuelle, leur collecte dépend des licences concédées par l'éditeur.



Information/expression


Le droit d'auteur ne protège pas les idées ("les idées sont de libre parcours"), à moins que leur expression ne soit originale. Une donnée ou un article sont-ils suffisamment originaux au point de déclencher la protection du droit d'auteur?


A) Données

Cela va de soi : les données brutes ou primaires ne portent pas la marque d'une originalité. Quant aux données secondaires, elles sont le produit d'un usage qu'on pourrait qualifier, comme le propose le rapport Hargreaves de mai 2014 sur le Text and Data Mining, de "non expressif". Il faut entendre par non-expressif, un acte de reproduction dépourvu d’originalité, notamment s’il est issu d'un traitement automatisé. «Le législateur pourrait adopter une démarche normative et ne reconnaître une protection [au nom du droit de reproduction de la Propriété Intellectuelle] que pour les actes de reproduction ou d’extraction qui comportent effectivement un acte d’exploitation expressif». Cette préconisation est en phase avec la jurisprudence américaine, qui a consacré depuis longtemps la dichotomie idée/expression (jurisprudence Baker vs Selden, codifiée dans le §102(b) du Copyright Act of 1976).

B) Articles

On peut s'interroger sur le statut des articles scientifiques: sont-ils le produit d'un usage expressif ou non? Pour ma part, je serais tenté de répondre que, au contraire d'un jeu de données, un article porte toujours la marque subjective de son ou de ses rédacteurs. C'est vrai au premier chef des articles en sciences humaines et sociales, mais on pourrait dire que, même dans les sciences dites "dures", la rédaction d'un article laisse toujours affleurer la subjectivité du locuteur.

Est-ce à dire qu'il faut considérer les articles scientifiques comme des œuvres de l'esprit? Est-ce cela que l'on veut : une production scientifique intégralement assujettie au régime du Copyright "Tous droits réservés", bref une "science propriétaire"? Ne veut-on pas au contraire que les articles soient librement partagés et réutilisables, conformément aux préconisations de la déclaration BOAI de 2012? Voilà pourquoi la Proposition de loi Attard proposait d'intégrer dans le domaine public "les idées, procédures, procédés, systèmes, méthodes d’opération, concepts, principes ou découvertes, quelle que soit la forme dans laquelle ils sont décrits, expliqués, illustrés ou intégrés à une œuvre"

Dans le même ordre d'idées, le collectif SavoirsCom1 en appelle à la révision de la loi DADVSI de 2006. Transposition en droit français de la directive européenne 2001/29/CE sur l’harmonisation de certains aspects du droit d’auteur et des droits voisins dans la société de l’information, cette loi confère au chercheur «un droit de propriété incorporelle exclusif et opposable à tous» sur ses travaux. Lors même que c'est principe de réutilisabilité qui devrait prévaloir : non pas "Tous droits réservés" mais "Certains droits réservés". Il faudrait dépasser le cadre de la "propriété" pour faire entrer pleinement la recherche dans celui du domaine public.



Libérer les résultats de la recherche de l'emprise du droit sui generis des bases de données



Le droit sui generis des bases de données est issu de la directive communautaire du 11 mars 1996 transposée par la loi du 1er juillet 1998. Il confère aux producteurs de bases de données un droit sur la réutilisation du contenu des bases de données du moment qu'ils justifient d'un investissement matériel, financier ou humain substantiel. Le droit des bases de données conforte la captation par les éditeurs académiques des résultats de la recherche.

A) Articles



C'est seulement si l'article est assorti d'une licence libre, qu'il soit publié sur la plate-forme d'un éditeur  (Gold Open Access) ou dans une archive ouverte, que le droit à la réutilisation est pleinement garanti.


B) Données 

Concernant les données; il faut distinguer deux cas, selon qu'il s'agit de données "primaires" ou "secondaires".

1) Données primaires

La communauté scientifique n'a pas attendu les années 2000 pour alimenter de vastes silos de données issues de l'expérimentation. Ainsi, en sciences du vivant: 
C'est au début des années 80 que les premières banques de données sont apparues sous l'initiative de quelques équipes de par le monde. Très rapidement les initiatives visant à fédérer la collecte et la diffusion des données de la biologie sont apparues en Europe, aux Etats-Unis et au Japon avec, respectivement, l'entrepôt de données de l'EMBL hébergé à l'EBI, la banque de données GenBank hébergée au NCBI et la DDBJ au NIG.[3]
Si l'on regarde les conditions générales d'utilisation de certaines de ces bases, on s'aperçoit qu'aucune restriction n'est mise à la réutilisation. Ainsi pour les bases hébergées sur le site du National Center for Biotechnology Information (NCBI) :
Molecular Database Availability
Databases of molecular data on the NCBI Web site include such examples as nucleotide sequences (GenBank), protein sequences, macromolecular structures, molecular variation, gene expression, and mapping data. They are designed to provide and encourage access within the scientific community to sources of current and comprehensive information. Therefore, NCBI itself places no restrictions on the use or distribution of the data contained therein. Nor do we accept data when the submitter has requested restrictions on reuse or redistribution.
 Cependant, (est-ce là une précaution purement formelle ou l'aveu du risque bien réel d'une revendication de droits sur une partie de ces données?), les CGU précisent que la pleine réutilisabilité des données n'est pas garantie à 100 %:
However, some submitters of the original data (or the country of origin of such data) may claim patent, copyright, or other intellectual property rights in all or a portion of the data (that has been submitted). NCBI is not in a position to assess the validity of such claims and since there is no transfer or rights from submitters to NCBI, NCBI has no rights to transfer to a third party. Therefore, NCBI cannot provide comment or unrestricted permission concerning the use, copying, or distribution of the information contained in the molecular databases.
Les conditions générales d'utilisation de l'International Nucleotide Sequence Database Collaboration (INSDC), organisme qui coordonne les mises à jour des différentes bases, font également le choix de l'ouverture et de la réutilisation des données:

1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party.

Espérons que le principe général d'ouverture de ces vastes banques de données internationales perdurera et ne sera pas mis à mal par les tentatives de toutes sortes pour monétiser l'exploitation de ces données. L'éditeur Thomson Reuters commercialise depuis peu une base payante intitulée Data Citation Index, qui propose une évaluation bibliométrique du taux de citation des jeux de données de la recherche, exactement comme ce qui est déjà fait pour les revues.

2) Données secondaires

A partir du moment où l'on considère les données de la recherche comme le produit d'un usage non-expressif, il y a lieu d'envisager, comme le fait le rapport Hargreaves, la non-application du droit sui generis des bases de données aux données elles-mêmes issue de la fouille de ces bases.
Sans cette exception, les chercheurs sont contraints de négocier avec chaque éditeur pour obtenir un droit de réutilisation. Si le projet Text2Genome, qui impliquait l'analyse de millions d'articles a pris trois ans, c'est parce qu'il a fallu perdre un temps considérable à négocier au cas par cas les droits avec chacun des éditeurs.
Par ailleurs, l'indépendance de la recherche s'en trouve menacée : les chercheurs qui désirent analyser les données de la base SpringerLink doivent déposer préalablement auprès de Springer une déclaration précisant l'objet de la recherche et la méthodologie employée.


Et l'Open data dans tout ça ?


Pourquoi ne pas appliquer une politique d'Open Data aux données de la recherche? Pourquoi cela ne va-t-il pas de soi ?
Tout d'abord, en Europe, la directive Public Sector Information (PSI) de 2013 exclut de son champ d'application les données de la recherche. Mais cette exclusion n'est pas de nature à empêcher les Etats-membres de faire entrer les données de la recherche dans le champ leur politique nationale d'open data.
Il existe un autre blocage. D'après l'article 2 b de la directive PSI de 2003, non modifiée sur ce point par celle de 2013, ne sont pas considérés comme des informations publiques les documents sur lesquels des tiers détiennent des droits de propriété intellectuelle. Il faut alors à nouveau distinguer :

A) Données primaires

Dans les faits, on l'a vu, les données primaires sont stockées dans des silos libres d'accès et de réutilisation. Tant que ces banques de données ne sont pas assorties de licences d'utilisation restrictives, une politique d'Open Data est parfaitement compatible. On pourrait même dire que d'une certaine façon, ces silos sont déjà la concrétisation en actes d'une politique d'Open Data appliquée au domaine de la recherche.

B) Données secondaires

Elles sont susceptibles de faire l'objet d'un droit de propriété intellectuelle à un double titre: le droit du producteur de la base de données et celui de chaque chercheur sur chacun de ses articles. On entre parfaitement dans le cas de figure où un tiers détient un droit de propriété sur les articles ou la base dont sont extraites les données via le TDM. Les données sont comme capturées et perdent leur statut d'informations publiques. Leur dissémination est bloquée... 



Nécessité d'un Domaine Public de l'information


L'apposition d'une licence libre à un jeu de données ou à un article est fonction à la fois du bon vouloir du chercheur et des clauses qui le lient en vertu de son contrat d'édition. Aucun systématisme n'est donc garanti. Seule la consécration d'un Domaine Public de l'Information, tel que défini par l'UNESCO en 2001, intégrant pleinement les résultats de la recherche (qu'ils soient associés à une licence libre de type CC-BY ou CC-0 ou dépourvus de toute licence...), serait susceptible de garantir leur libre réutilisation pleine et entière et d'éviter les risques d'enclosures informationnelles. On trouve les linéaments du concept de DPI dans l'arrêt d'Assemblée plénière de la Cour de Cassation du 30 octobre 1987 : dans l'affaire Microfor, la Cour a consacré le principe selon lequel les pratiques d'indexation ou d'extraction de mots-clés ne sont pas soumises au droit d'auteur.

Vous croyez que le domaine public de l'information est une fiction ? Assurément pas dans les pays de droit anglo-saxon. Voyez comme le site du NCBI le clame et haut et fort :
Copyright Status
Information that is created by or for the US government on this site is within the public domain.
Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment.

***

Au terme de ce parcours, une question se pose. En plaçant les articles et les données dans le périmètre d'un Domaine Public de l'Information, fait-on vraiment sortir les résultats de la recherche hors du cadre de la Propriété Intellectuelle, comme le préconisait l'avocat Alain Bensoussan lors du récent congrès ADBU ? Le domaine public ne représente-t-il pas une vraie-fausse sortie hors du droit de la Propriété Intellectuelle ? Il y a peut-être là une divergence d'approches entre SavoirsCom1 et le projet de charte porté par le CNRS, l’ADBU et le réseau international d’avocats Lexing.

Le domaine public au sens de la Propriété Littéraire et Artistique se définit au regard de la protection appliquée aux œuvres de l’esprit. Notions indissolublement liées, œuvres de l'esprit et domaine public sont comme les deux faces d'une même pièce. Le domaine public se définit en creux, à partir d'une construction jurisprudentielle élaborée à propos de la protection des œuvres de l'esprit. La proposition de loi Attard inversait le rapport entre œuvres de l'esprit et domaine public, les premières devenant l'émanation du second; il n'en reste pas moins que c'est dans et par le Code de la Propriété Intellectuelle que la proposition de loi définissait le domaine public. 

Voilà pourquoi il n'est pas si simple de "sortir" du cadre de la propriété intellectuelle par la porte du domaine public. Peu ou prou, on y est toujours ramené.







[1][2][3] Merci à Christine Gaspin pour la fourniture de ces références.
[3] Extrait d'un texte non publié où C. Gaspin expose les grandes lignes de son intervention. 







2 commentaires:

  1. Vous dites que les données primaires ne peuvent faire l'objet d'originalité. Pourtant, à partir du moment où leur production dépend des questions posées et que, comme un algorithme d'ailleurs, les questions sont d'abord des choix subjectifs qui s'inscrivent dans un cadre de recherche, ne peut-on alors considérer les données comme des résultats (et peut être pas des oeuvres) originaux ? Et donc par là relever d'un droit d'auteur peut être à redéfinir dans ce cas ?

    La seconde question, à partir du moment où la production de données dépend d'abord d'une question que pose un scientifique, est-il alors juste de dire que l'hypothèse disparaît ? Sachant que de toute manière, les hypothèses ont toujours été résolues par la production de données. Sinon on ne comprendrai pas qu'un article scientifique présente justement la bibliographie et la méthodologie de recueil des données.

    RépondreSupprimer
    Réponses
    1. Votre première remarque mêle des considérations épistémologiques et juridiques qu’il faut dissocier.

      Pour Chris Anderson (il grossit le trait, je vous le concède) : à l’ère du Big Data, le data-scientist prend toutes les données telles qu’elle se présentent. Ensuite «les chiffres parlent d’eux-mêmes». Ce à quoi le physicien Lee Smolin avait répondu (un peu comme vous le faites) : rien ne sert de disposer de gigantesque banques de données sans un travail théorique préalable.

      Mais indépendamment de la question de la méthode scientifique, d’un point de vue purement juridique, une hypothèse ne peut en elle-même être protégée par le droit d’auteur : le droit d’auteur ne protège pas les idées. On dit que « les idées dont de libre parcours ».

      L’exemple que vous prenez de l’algorithme est délicat: les algorithmes en eux-mêmes ne sont pas protégés par le droit d’auteur (http://luxlegal.wordpress.com/2011/03/02/le-droit-d%E2%80%99auteur-protege-t-il-les-algorithmes/) C’est seulement leur mise en forme particulière qui peut être protégée. Dans le même ordre d’idée : les formules mathématiques ne déclenchent pas la protection par le droit d’auteur.

      Je crois avoir répondu à votre seconde remarque en répondant à la première. Simplement ce que veut dire Anderson, c'est qu'en ne partant pas d'un modèle préexistant, en se contentant d'analyser une masse de données gigantesques, le chercheur peut être amené à faire la découverte de modèles inattendus et plus complexes.

      Supprimer

N'hésitez pas à commenter ce billet !
Scindez votre commentaire en plusieurs parties, si votre message est long (la plateforme Blogger demande de ne pas dépasser 4096 caractères par commentaire).
Avant de le publier, je vous conseille de prendre le temps de le sauvegarder ailleurs (mail, fichier texte, etc), surtout si votre message est long. Car plusieurs lecteurs de ce blog m'ont signalé qu'ils avaient "perdu" le commentaire qu'ils avaient tenté de publier.
En cas de problème, vous pouvez m'envoyer vos commentaires à l'adresse pierre.naegelen@univ-tlse3.fr, et je les republierai sur le blog.