mardi 21 octobre 2014

De l'article aux données: essai de clarification


Le 15 octobre dernier, lors d'une journée organisée par l'Académie des Sciences de Toulouse et intitulée "Démarches scientifiques: quand le numérique bouleverse la donne", les propos des divers intervenants se sont principalement focalisés sur la question de l'émergence d'une nouvelle méthodologie scientifique, basée non plus sur les hypothèses, mais sur les données.

Dans un remarquable exposé, Christine Gaspin (INRA) a expliqué comment la génomique est depuis longtemps basée sur l'exploitation de gigantesques banques de données et comment l'informaticien est amené à occuper une place nouvelle au sein des équipes de chercheurs en sciences du vivant.

Romain Jullien (Muséum d'Histoire Naturelle) a montré comment fonctionne concrètement une science dite participative, qui fait appel à la masse considérable d'observations collectées sur le terrain par des contributeurs bénévoles. Un programme collaboratif tel que Vigie Nature permet d'assurer un meilleur suivi de la biodiversité

Philippe Solal, épistémologue, a exposé les implications de la controverse scientifique suscitée par la parution en 2011 dans la revue Wired, de l'article intitulé "Le déluge de données va rendre la méthode scientifique obsolète". Pour son auteur, Chris Anderson, l'avènement de la science des données vient sonner le glas de l'ancienne démarche scientifique. La méthodologie de cette science 2.0 pourrait se résumer par la formule : "les chiffres parlent d'eux-mêmes". Une science data-driven vient se substituer à une science hypothesis-driven. On ne parle plus de scientist mais de data-scientist.

Mon intervention a consisté à donner une perspective juridique en insistant sur la nécessité de maintenir une science pleinement ouverte. Elle reprenait le contenu de deux billets, parus l'un sur le site Archives Ouvertes, l'autre sur le site de SavoirsCom1.


Rétrospectivement, il m'apparaît nécessaire de préciser certains termes. L'expression "résultats de la recherche" recouvre deux réalités hétérogènes : les articles scientifiques et les données. Ces dernières proviennent elles-mêmes de deux types de sources. Or ces distinctions ne sont pas neutres au regard des mécanismes juridiques enclenchés.



Article/données


Quand on parle de « résultats de la recherche », on reste à un niveau très général qui ne permet pas d'appréhender certains types de traitements spécifiques de l'information, telle la fouille de données. L'expression "résultats de la recherche" recouvre au moins deux notions: l’article et les données.
On pourrait retenir pour les données la définition proposée par l’OCDE [1]
Dans le cadre de ces Principes et Lignes directrices, les «données de la recherche» sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche

Il faudrait distinguer au moins deux types de données : les données primaires issues de la collecte systématique de mesures permettant d'évaluer un phénomène physique quelconque et les données secondaires issues du dépouillement d'une base préexistante, qu'elle soit constituée de chiffres, de texte, de sons ou d'images (cas du produit de la fouille de données appliquée à une plate-forme de revues scientifiques ou à Google...). Ainsi le Text Mining produit des données secondaires, car il consiste en un procédé qui transforme un corpus de textes préexistant en un ensemble de données analysables.

A y regarder de plus près, en un certain sens, les données primaires sont elles-mêmes secondes, dans la mesure où elles sont souvent dérivées, par le biais d'instruments, d'une série de mesures de phénomènes physiques. Mais disons que la distinction entre données primaires et secondaires reste une approximation acceptable.

 On entendra par "article", un texte qui expose et explicite les résultats issus d'une expérience ou produits par l'exploitation de jeux de données.



Double régime juridique


La distinction article/données est primordiale. Car elle conditionne l'application de licences différentes

A) Articles

Comment garantir le droit au libre accès ainsi qu'à la libre réutilisation des articles scientifiques ? Une licence de type CC-BY (Creative Commons - Mention de la Paternité) semble parfaitement convenir. Non seulement elle garantit le respect de l'une des composantes du droit moral, le droit à la paternité, mais elle garantit aussi la réutilisation large des articles scientifiques. C'est cette licence qui est préconisée par la Déclaration BOAI de 2012 :

2.1 Nous recommandons la licence CC-BY, ou toute autre licence équivalente, comme licence optimale pour la publication, la distribution, l'usage et la réutilisation des travaux universitaires.
  • Les archives ouvertes dépendent de permissions de tiers, comme les auteurs ou les éditeurs, et sont donc rarement en position d'exiger des licences libres. Cependant, les décideurs en position d'imposer le dépôt dans les archives devraient exiger des licences ouvertes, de préférence CC-BY, chaque fois qu'ils le peuvent.
  • Les revues en libre accès sont toujours en position d'exiger des licences ouvertes ; pour autant un grand nombre d'entre elles ne se prévalent pas de cette possibilité. Nous recommandons CC-BY pour toutes les revues en libre accès.

B) Données


Pour les données, les choses sont un peu différentes. Par nature, les données forment d'emblée une masse et c'est donc d'abord comme éléments intégrés à un corpus qu'elles doivent être appréhendées juridiquement.

1) Données primaires

Il existe actuellement, comme on le verra plus bas, d'immenses banques de données internationales qui ne sont placées sous aucune licence juridique particulière. Il est toutefois précisé dans les conditions générales d'utilisation des sites qui les hébergent qu'aucune restriction d'usage n'est imposée.

Si nécessité se fait jour d'apposer une licence à ces corpus, le raisonnement sera le suivant. Ou bien l'on considère ce corpus comme un tout et c'est le droit des bases de données qui s'applique. Ou bien l'on ne s'intéresse qu'à une portion de la base de données, et dans ce cas il peut paraître opportun de s'interroger sur la nécessité d'attribuer un statut juridique à chacune des données prises isolément.
Appliquée aux bases de données, une licence de type CC-0 (Domaine public) ou ODBL (Open Data Base Licence) semble parfaitement convenir. Elle garantit une pleine réutilisabilité des données. Pour les données en elles-mêmes, la licence CC-0 semble convenir.

L'intérêt de ces licences est de garantir la poursuite des objectifs énoncés dans l'article 111-2 du Code de la Recherche [2] :
La recherche publique a pour objectifs :

a) Le développement et le progrès de la recherche dans tous les domaines de la connaissance;
b) La valorisation des résultats de la recherche au service de la société, qui s'appuie sur l'innovation et le transfert de technologie;
c) Le partage et la diffusion des connaissances scientifiques en donnant priorité aux formats libres d'accès ;
c bis) Le développement d'une capacité d'expertise et d'appui aux associations et fondations, reconnues d'utilité publique, et aux politiques publiques menées pour répondre aux défis sociétaux, aux besoins sociaux, économiques et du développement durable;
d) La formation à la recherche et par la recherche;
e) L'organisation de l'accès libre aux données scientifiques.
.... "et leur réutilisation" a-t-on envie d'ajouter au petit e). Précisons que, contrairement à ce que l'on entend parfois, la source des données n'est pas oblitérée en cas d'apposition d'une licence CC0. Les métadonnées permettent en effet de mentionner la source: les données ne sont pas laissées orphelines.

2) Données secondaires

Quel doit être le statut juridique des données issues du Text and Data Mining et le statut de l'acte de fouille de données en lui-même ? Des discussions au niveau européen sont en cours. En l'absence de la consécration d'une exception en faveur du Text and Data Mining, les données extraites des bases de données ne sont pas d'emblée libres d'usage. Comme elles sont incorporées à un corpus sur lequel le producteur de la base de données détient un droit de propriété intellectuelle, leur collecte dépend des licences concédées par l'éditeur.



Information/expression


Le droit d'auteur ne protège pas les idées ("les idées sont de libre parcours"), à moins que leur expression ne soit originale. Une donnée ou un article sont-ils suffisamment originaux au point de déclencher la protection du droit d'auteur?


A) Données

Cela va de soi : les données brutes ou primaires ne portent pas la marque d'une originalité. Quant aux données secondaires, elles sont le produit d'un usage qu'on pourrait qualifier, comme le propose le rapport Hargreaves de mai 2014 sur le Text and Data Mining, de "non expressif". Il faut entendre par non-expressif, un acte de reproduction dépourvu d’originalité, notamment s’il est issu d'un traitement automatisé. «Le législateur pourrait adopter une démarche normative et ne reconnaître une protection [au nom du droit de reproduction de la Propriété Intellectuelle] que pour les actes de reproduction ou d’extraction qui comportent effectivement un acte d’exploitation expressif». Cette préconisation est en phase avec la jurisprudence américaine, qui a consacré depuis longtemps la dichotomie idée/expression (jurisprudence Baker vs Selden, codifiée dans le §102(b) du Copyright Act of 1976).

B) Articles

On peut s'interroger sur le statut des articles scientifiques: sont-ils le produit d'un usage expressif ou non? Pour ma part, je serais tenté de répondre que, au contraire d'un jeu de données, un article porte toujours la marque subjective de son ou de ses rédacteurs. C'est vrai au premier chef des articles en sciences humaines et sociales, mais on pourrait dire que, même dans les sciences dites "dures", la rédaction d'un article laisse toujours affleurer la subjectivité du locuteur.

Est-ce à dire qu'il faut considérer les articles scientifiques comme des œuvres de l'esprit? Est-ce cela que l'on veut : une production scientifique intégralement assujettie au régime du Copyright "Tous droits réservés", bref une "science propriétaire"? Ne veut-on pas au contraire que les articles soient librement partagés et réutilisables, conformément aux préconisations de la déclaration BOAI de 2012? Voilà pourquoi la Proposition de loi Attard proposait d'intégrer dans le domaine public "les idées, procédures, procédés, systèmes, méthodes d’opération, concepts, principes ou découvertes, quelle que soit la forme dans laquelle ils sont décrits, expliqués, illustrés ou intégrés à une œuvre"

Dans le même ordre d'idées, le collectif SavoirsCom1 en appelle à la révision de la loi DADVSI de 2006. Transposition en droit français de la directive européenne 2001/29/CE sur l’harmonisation de certains aspects du droit d’auteur et des droits voisins dans la société de l’information, cette loi confère au chercheur «un droit de propriété incorporelle exclusif et opposable à tous» sur ses travaux. Lors même que c'est principe de réutilisabilité qui devrait prévaloir : non pas "Tous droits réservés" mais "Certains droits réservés". Il faudrait dépasser le cadre de la "propriété" pour faire entrer pleinement la recherche dans celui du domaine public.



Libérer les résultats de la recherche de l'emprise du droit sui generis des bases de données



Le droit sui generis des bases de données est issu de la directive communautaire du 11 mars 1996 transposée par la loi du 1er juillet 1998. Il confère aux producteurs de bases de données un droit sur la réutilisation du contenu des bases de données du moment qu'ils justifient d'un investissement matériel, financier ou humain substantiel. Le droit des bases de données conforte la captation par les éditeurs académiques des résultats de la recherche.

A) Articles



C'est seulement si l'article est assorti d'une licence libre, qu'il soit publié sur la plate-forme d'un éditeur  (Gold Open Access) ou dans une archive ouverte, que le droit à la réutilisation est pleinement garanti.


B) Données 

Concernant les données; il faut distinguer deux cas, selon qu'il s'agit de données "primaires" ou "secondaires".

1) Données primaires

La communauté scientifique n'a pas attendu les années 2000 pour alimenter de vastes silos de données issues de l'expérimentation. Ainsi, en sciences du vivant: 
C'est au début des années 80 que les premières banques de données sont apparues sous l'initiative de quelques équipes de par le monde. Très rapidement les initiatives visant à fédérer la collecte et la diffusion des données de la biologie sont apparues en Europe, aux Etats-Unis et au Japon avec, respectivement, l'entrepôt de données de l'EMBL hébergé à l'EBI, la banque de données GenBank hébergée au NCBI et la DDBJ au NIG.[3]
Si l'on regarde les conditions générales d'utilisation de certaines de ces bases, on s'aperçoit qu'aucune restriction n'est mise à la réutilisation. Ainsi pour les bases hébergées sur le site du National Center for Biotechnology Information (NCBI) :
Molecular Database Availability
Databases of molecular data on the NCBI Web site include such examples as nucleotide sequences (GenBank), protein sequences, macromolecular structures, molecular variation, gene expression, and mapping data. They are designed to provide and encourage access within the scientific community to sources of current and comprehensive information. Therefore, NCBI itself places no restrictions on the use or distribution of the data contained therein. Nor do we accept data when the submitter has requested restrictions on reuse or redistribution.
 Cependant, (est-ce là une précaution purement formelle ou l'aveu du risque bien réel d'une revendication de droits sur une partie de ces données?), les CGU précisent que la pleine réutilisabilité des données n'est pas garantie à 100 %:
However, some submitters of the original data (or the country of origin of such data) may claim patent, copyright, or other intellectual property rights in all or a portion of the data (that has been submitted). NCBI is not in a position to assess the validity of such claims and since there is no transfer or rights from submitters to NCBI, NCBI has no rights to transfer to a third party. Therefore, NCBI cannot provide comment or unrestricted permission concerning the use, copying, or distribution of the information contained in the molecular databases.
Les conditions générales d'utilisation de l'International Nucleotide Sequence Database Collaboration (INSDC), organisme qui coordonne les mises à jour des différentes bases, font également le choix de l'ouverture et de la réutilisation des données:

1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party.

Espérons que le principe général d'ouverture de ces vastes banques de données internationales perdurera et ne sera pas mis à mal par les tentatives de toutes sortes pour monétiser l'exploitation de ces données. L'éditeur Thomson Reuters commercialise depuis peu une base payante intitulée Data Citation Index, qui propose une évaluation bibliométrique du taux de citation des jeux de données de la recherche, exactement comme ce qui est déjà fait pour les revues.

2) Données secondaires

A partir du moment où l'on considère les données de la recherche comme le produit d'un usage non-expressif, il y a lieu d'envisager, comme le fait le rapport Hargreaves, la non-application du droit sui generis des bases de données aux données elles-mêmes issue de la fouille de ces bases.
Sans cette exception, les chercheurs sont contraints de négocier avec chaque éditeur pour obtenir un droit de réutilisation. Si le projet Text2Genome, qui impliquait l'analyse de millions d'articles a pris trois ans, c'est parce qu'il a fallu perdre un temps considérable à négocier au cas par cas les droits avec chacun des éditeurs.
Par ailleurs, l'indépendance de la recherche s'en trouve menacée : les chercheurs qui désirent analyser les données de la base SpringerLink doivent déposer préalablement auprès de Springer une déclaration précisant l'objet de la recherche et la méthodologie employée.


Et l'Open data dans tout ça ?


Pourquoi ne pas appliquer une politique d'Open Data aux données de la recherche? Pourquoi cela ne va-t-il pas de soi ?
Tout d'abord, en Europe, la directive Public Sector Information (PSI) de 2013 exclut de son champ d'application les données de la recherche. Mais cette exclusion n'est pas de nature à empêcher les Etats-membres de faire entrer les données de la recherche dans le champ leur politique nationale d'open data.
Il existe un autre blocage. D'après l'article 2 b de la directive PSI de 2003, non modifiée sur ce point par celle de 2013, ne sont pas considérés comme des informations publiques les documents sur lesquels des tiers détiennent des droits de propriété intellectuelle. Il faut alors à nouveau distinguer :

A) Données primaires

Dans les faits, on l'a vu, les données primaires sont stockées dans des silos libres d'accès et de réutilisation. Tant que ces banques de données ne sont pas assorties de licences d'utilisation restrictives, une politique d'Open Data est parfaitement compatible. On pourrait même dire que d'une certaine façon, ces silos sont déjà la concrétisation en actes d'une politique d'Open Data appliquée au domaine de la recherche.

B) Données secondaires

Elles sont susceptibles de faire l'objet d'un droit de propriété intellectuelle à un double titre: le droit du producteur de la base de données et celui de chaque chercheur sur chacun de ses articles. On entre parfaitement dans le cas de figure où un tiers détient un droit de propriété sur les articles ou la base dont sont extraites les données via le TDM. Les données sont comme capturées et perdent leur statut d'informations publiques. Leur dissémination est bloquée... 



Nécessité d'un Domaine Public de l'information


L'apposition d'une licence libre à un jeu de données ou à un article est fonction à la fois du bon vouloir du chercheur et des clauses qui le lient en vertu de son contrat d'édition. Aucun systématisme n'est donc garanti. Seule la consécration d'un Domaine Public de l'Information, tel que défini par l'UNESCO en 2001, intégrant pleinement les résultats de la recherche (qu'ils soient associés à une licence libre de type CC-BY ou CC-0 ou dépourvus de toute licence...), serait susceptible de garantir leur libre réutilisation pleine et entière et d'éviter les risques d'enclosures informationnelles. On trouve les linéaments du concept de DPI dans l'arrêt d'Assemblée plénière de la Cour de Cassation du 30 octobre 1987 : dans l'affaire Microfor, la Cour a consacré le principe selon lequel les pratiques d'indexation ou d'extraction de mots-clés ne sont pas soumises au droit d'auteur.

Vous croyez que le domaine public de l'information est une fiction ? Assurément pas dans les pays de droit anglo-saxon. Voyez comme le site du NCBI le clame et haut et fort :
Copyright Status
Information that is created by or for the US government on this site is within the public domain.
Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment.

***

Au terme de ce parcours, une question se pose. En plaçant les articles et les données dans le périmètre d'un Domaine Public de l'Information, fait-on vraiment sortir les résultats de la recherche hors du cadre de la Propriété Intellectuelle, comme le préconisait l'avocat Alain Bensoussan lors du récent congrès ADBU ? Le domaine public ne représente-t-il pas une vraie-fausse sortie hors du droit de la Propriété Intellectuelle ? Il y a peut-être là une divergence d'approches entre SavoirsCom1 et le projet de charte porté par le CNRS, l’ADBU et le réseau international d’avocats Lexing.

Le domaine public au sens de la Propriété Littéraire et Artistique se définit au regard de la protection appliquée aux œuvres de l’esprit. Notions indissolublement liées, œuvres de l'esprit et domaine public sont comme les deux faces d'une même pièce. Le domaine public se définit en creux, à partir d'une construction jurisprudentielle élaborée à propos de la protection des œuvres de l'esprit. La proposition de loi Attard inversait le rapport entre œuvres de l'esprit et domaine public, les premières devenant l'émanation du second; il n'en reste pas moins que c'est dans et par le Code de la Propriété Intellectuelle que la proposition de loi définissait le domaine public. 

Voilà pourquoi il n'est pas si simple de "sortir" du cadre de la propriété intellectuelle par la porte du domaine public. Peu ou prou, on y est toujours ramené.







[1][2][3] Merci à Christine Gaspin pour la fourniture de ces références.
[3] Extrait d'un texte non publié où C. Gaspin expose les grandes lignes de son intervention. 







mardi 9 septembre 2014

Vers un accroissement de l’ouverture et du partage des données de la recherche ?

Mise à jour du 11 septembre. L'ADBU a mis en ligne sur son site trois dépêches de l'agence AEF, dont la dernière précise les contours de l'intervention d'Alain Bensoussan lors du récent congrès ADBU. Le CNRS, l’ADBU et le réseau international d’avocats Lexing soutiennent le projet de rédaction d'une "charte universelle de l'open science". Le scénario d'une simple exception au droit d'auteur n'est pas retenu, dans la mesure où une exception ne fait que confirmer la règle, à savoir le maintien des résultats de la recherche dans le pré carré des éditeurs. Il s'agit de fonder un droit de l'open science en écrivant "une charte, puis une loi, puis une convention mondiale”.


Le 15 octobre prochain, aura lieu à Toulouse, dans le cadre de la Novela, une Rencontre Interdisciplinaire de l’Académie des Sciences Inscriptions et Belles Lettres de Toulouse, à laquelle je participerai. Intitulée «Démarches Scientifiques : Le numérique bouleverse la donne», la rencontre se fixera pour enjeu d'analyser les impacts du numérique sur la démarche scientifique elle-même. Plusieurs acteurs du monde de la recherche en sciences "dures" ou en sciences humaines et sociales y participeront. Voici le fascicule provisoire de présentation de l'événement :



Avec l'aimable accord d'Alain-Michel Boudet, organisateur de la rencontre, et Professeur Émérite au Laboratoire en Recherche en Sciences Végétales de Toulouse, je publie avec plus d'un mois d'avance la trame de mon intervention.

***

Le colloque porte sur les impacts du numérique sur la démarche scientifique elle-même. En ce qui concerne les archives ouvertes et l’open access, on serait tenté de répondre, en première analyse, que le numérique n’a pas d’impact sur ces domaines précis. En effet, les notions d’archive ouverte et d’open access ne préexistent pas au numérique, elles en sont au contraire l’émanation : sans numérique, pas d’archives ouvertes et pas d’open access. Les premières archives ouvertes sont issues d’un mouvement mondial parti des physiciens avec la création d’ArXiv sous l’impulsion de Paul Ginsparg. D’un strict point de vue chronologique, la naissance d’ArXiv date du 14 août 1991, soit 8 jours seulement après que Tim Berners-Lee a rendu public le projet WorldWideWeb [1]. On pourrait donc considérer, au mieux, la naissance des archives ouvertes et celle du World Wide Web comme quasi-contemporaines. Cependant l’adoption du mot « Internet » et du protocole TCP/IP datent de 1983. On ne se trouve donc pas dans une situation où le numérique vient modifier un domaine préexistant.

Une seconde approche révèle qu’il n’en reste pas moins que le numérique bouleverse de fond en comble les principales dimensions indissociables de l’ouverture des données de la recherche : la «chaîne éditoriale» classique, les coûts de publication, le partage des résultats et le droit d’auteur.

La question de la désintermédiation dans la chaîne éditoriale est l’occasion de balayer une idée reçue selon laquelle les publications en open access ab initio seraient de moins bonne qualité scientifique que les publications d'abord publiées par des éditeurs scientifiques [2]. Trois cas nous permettent de battre en brèche ce préjugé.
a) Les épi-revues sont des revues à comité de lecture dont les articles sont déposés intégralement en archives ouvertes. Le Centre pour la communication scientifique directe (CCSD) a mis en ligne en janvier 2013 une plate-forme baptisée Episciences qu’il présente ainsi : « Les comités éditoriaux des épi-revues organisent l'activité d'évaluation et de discussion scientifique des prépublications soumises ou sélectionnées. Les épi-revues peuvent ainsi être considérées comme une « sur-couche » aux archives ouvertes ; ils y apportent une valeur ajoutée en apposant la caution scientifique d’un comité éditorial à chaque article validé.» Hélas, à l'heure actuelle, seule une revue est publiée par le biais d'Episciences : le Journal of Data Mining and Digital Humanities.
b) PLOS (Public Library of Science) est un projet américain à but non lucratif basé sur le modèle de l’auteur-payeur. Au départ, en 2001, PLOS est une pétition invitant les chercheurs à boycotter les éditeurs qui imposent un embargo supérieur à 6 mois pour l’accès libre et gratuit aux articles publiés. Soutenu par le Prix Nobel Harald Varmus, le projet PLOS devient une entreprise d’édition scientifique de revues en biologie et en médecine. En 2003, la revue scientifique à comité de lecture PLOS Biology voit le jour. Paraîtront ensuite PLOS Medicine, PLOS Computational Biology, PLOS Genetics et PLOS Pathogens. En 2006 s’ajoute PLOS One, revue ouverte à tous les domaines scientifiques et pas simplement la médecine et la biologie.
c) Le projet hybride porté par le CERN, SCOAP3, (Sponsoring Consortium for Open Access Publishing in Particle Physics), opérationnel depuis janvier 2014, permet de « libérer » en open access dix des revues les plus prestigieuses en physique des hautes énergies. Les éditeurs ne sont pas pour autant écartés du processus de relecture et de validation. Ils continuent à organiser le peer-reviewing.

Par ailleurs, les éditeurs scientifiques ne sont pas exempts de tout reproche en ce qui concerne la qualité des articles publiés. Récemment encore, un article paru dans la revue Nature révélait que Cyril Labbé, chercheur en informatique à l’Université Joseph Fourier de Grenoble, avait repéré parmi les revues publiées entre 2008 et 2013 par les principaux éditeurs scientifiques, la présence d’articles générés par ordinateur. 16 de ces articles provenaient de l’éditeur Springer et plus de 100 de l’éditeur américain Institute of Electrical and Electronic Engineers (IEEE).

Concernant les coûts de publication, ils ont fortement diminué avec le développement exponentiel de la diffusion en ligne des revues, mais le coût des abonnements institutionnels a augmenté dans le même temps. C'est cette considération qui a motivé principalement l'appel au boycott d'Elsevier lancé par le mathématicien Timothy Gowers en 2012. S'ajoutait également la prise en considération du fait qu'Elsevier soutenait le Research Work Act, projet de loi américain dont certaines clauses visaient à interdire le libre accès aux publications scientifiques financées par l'État.

C’est surtout sur le partage des travaux de recherche et le droit d'auteur que nous nous arrêterons. Avec le numérique, ce n’est pas seulement la question de l’accès aux données de la recherche qui est revisitée, mais aussi celle de leur réutilisation. En effet, si les conditions de réutilisation ne sont pas prévues expressément, les données de la recherche sont susceptibles de faire l'objet de prédations de toutes sortes : via les réseaux sociaux scientifiques (MyScienceWork, Mendeley, Academia.Edu...), via les pressions exercées sur les auteurs pour renoncer à leurs droits moraux, notamment le droit à la paternité, via les clauses limitant les possibilités de Text and Data Mining, ou bien encore via la promotion récente par STM, (association internationale des éditeurs en Sciences-Techniques-Médecine), d’une série de nouvelles licences prétendument ouvertes.

Les licences Creative Commons constituent un outil efficace permettant aux auteurs de préciser les conditions de réutilisation de leurs travaux. La Déclaration « Open Access Initiative » de Budapest en 2002 encourageait le développement des publications sous licence libre. Dix ans plus tard, la nouvelle Déclaration de Budapest, BOAI 10, fait de la licence CC-BY (licence Creative Commons avec mention de la paternité) la licence par excellence du mouvement open access. C’est seulement en 2014 que les archives ouvertes commencent à intégrer les licences Creative Commons. La nouvelle version de HAL, qui sera mise en ligne en octobre 2014, en est une bonne illustration.

SavoirsCom1, collectif qui milite pour la défense des communs de la connaissance et notamment pour l'ouverture des données de la recherche, insiste sur la résultante de cette évolution trop lente :
"Comme, en France ou ailleurs, ce point précis de la Déclaration de Budapest est resté longtemps non suivi d’effets [3], le paysage contemporain des archives ouvertes présente une situation paradoxale : l’usage des licences Creative Commons est bien moins fréquent du côté de la « Voie verte » des archives ouvertes, que du côté de la « Voie dorée », c’est-à-dire du modèle controversé auteur/payeur, proposé par de grands éditeurs comme Springer et Elsevier." 
Il est vrai que les chercheurs se sentent bien souvent noyés sous la masse des clauses juridiques dont se composent les contrats d'édition. L'organisation à but non lucratif Science Commons propose des modèles d'addenda leur permettant d'aménager ces contrats de façon à pouvoir déposer leurs travaux dans une archive ouverte avec une licence libre.

La question ultime qui se pose est : faut-il légiférer sur le libre accès ? Les exemples américain, allemand, anglais et mexicain nous y invitent. Les sceptiques se diront qu'on en est encore loin, puisque, au niveau européen, la Directive PSI (Public Sector Information) de 2013, qui porte sur la réutilisation des informations du secteur public, exclut les données de la recherche de son champ d’application.

On sent pour autant les lignes bouger en France. Lors du dernier congrès ADBU (Association des Directeurs et personnels de direction des Bibliothèques Universitaires et de la Documentation), l'avocat Alain Bensoussan, spécialisé en droit du numérique, est venu plaider dans une allocution intitulée « Droit des plateformes et open science », pour la fondation d'un "droit de la science ouverte". Émancipé du cadre juridique trop restreint de la Propriété Littéraire et Artistique et du double écueil que peut constituer la revendication de droits tant du côté des éditeurs que des auteurs, ce "droit de l'open science" aurait pour visée d'assurer "un libre partage et une libre réutilisation" des données de la recherche (je me base ici sur le LiveTweet assuré par @lamateur37, que je remercie). La position prônée par Christophe Perales, président de l'ADBU, au congrès ou sur son blog, semble aller dans le même sens, et l'on ne peut que s'en réjouir.

L'idéal à terme serait sans doute (rêvons un peu) la consécration inter-étatique d'un domaine public de l'information ou "indivis mondial de l'information", tel que défini par l'UNESCO en 2011. Mais de quoi s'agit-il exactement ? Constitué intégralement d'informations et de données, et non d’œuvres marquées par l'empreinte de l'originalité d'un auteur, le domaine public de l'information serait autonome par rapport aux règles régissant la Propriété Intellectuelle. Il serait immédiatement réutilisable et partageable. Le droit moral serait ou bien inexistant (l'équivalent d'une licence CC0...) ou bien réduit à sa portion congrue: le droit à la paternité (l'équivalent d'une licence CC-BY...); de sorte que le droit moral ne constituerait pas un obstacle à la dissémination et à la réutilisation des contenus.

***

[1] En fait, Paul Ginsparg a appris l’existence du programme WorldWideWeb en 1992. Il l’a réutilisé quasi-immédiatement pour faire d’Arxiv l’un des premiers serveurs web :
In the fall of 1992, a colleague at CERN emailed me: ‘Q: do you know the worldwide-web program?’ I did not, but quickly installed WorldWideWeb.app, serendipitously written by Tim Berners-Lee for the same NeXT computer that I was using, and with whom I began to exchange emails. Later that fall, I used it to help beta-test the first US Web server, set up by the library at the Stanford Linear Accelerator Center for use by the high-energy physics community. Use of the Web grew quickly after the Mosaic browser was developed in the spring of 1993 by a group at the National Center for Supercomputer Applications at the University of Illinois (one of those supercomputer sites initiated a decade earlier, but poised to be replaced by massive parallelism), and it was not long before the Los Alamos ‘physics e-print archive’ became a Web server as well.” Paul GINSPARG, “It was twenty years ago today”, http://arxiv.org/abs/1108.2700

[2] Préjugé véhiculé par exemple dans un article du 4 octobre 2013 de la revue Science : John BOHANNON, « Who’s afraid of Peer Review ? », Science, http://www.sciencemag.org/content/342/6154/60.full. Pour une réfutation de la méthodologie employée par Bohannon, se reporter à l’article de Sylvain DEVILLE, « Articles bidons dans les revues : non, ce n’est pas la faute à l’Open Access », Rue89, 5 octobre 2013. http://rue89.nouvelobs.com/2013/10/05/articles-bidons-les-revues-non-nest-faute-a-lopen-access-246324

[3] Il existe bien sûr des exceptions. Les revues publiées par l'European Geosciences Union sont placées sous Creative Commons depuis 2008. Ces revues sont actuellement au nombre de 16. Merci à Manuel Durand-Barthez de m'avoir signalé ce cas.

vendredi 6 juin 2014

Archéologie du commun

Dans un ouvrage important paru récemment, Pierre Dardot et Christian Laval étudient les fondements de l'émergence des nombreux mouvements politiques qui revendiquent les "communs" contre les nouvelles formes d'appropriation privée et étatique. Les auteurs refusent d'employer le terme de "biens communs", source d'ambiguïtés selon eux, parce que l'expression présente l'inconvénient de réifier les communs. Ils préfèrent parler "du commun". Non seulement le commun ne recouvre pas que des éléments donnés par nature comme l'eau, la terre ou l'air. Mais surtout, le commun se définit comme la résultante d'une activité commune de co-construction. L'institution précède l'essence, en quelque sorte.
Pour étayer la thèse, les auteurs mènent une enquête archéologique. L'enjeu est de retrouver dans l'Histoire du droit et des institutions les linéaments d'un concept du commun comme pensée de la mise en commun, qui aurait été occulté par une relecture rétrospective menée au travers du prisme déformant du paradigme propriétaire.



Les res communes : une notion en lisière du juridique


En droit romain, on distingue traditionnellement les res communes, les choses communes, ("l'air, l'eau courante, la mer et le rivage de la mer" [1]) qui sont inappropriables et les res nullius (biens sans maître), biens "simplement inappropriés et, par là même, appropriables par le premier occupant" [2] : "animaux sauvages qui se chassent et se pêchent, pierres ou perles ramassées sur la grève, trésors inventés."[3]

Il existe cependant une deuxième catégorie de res nullius, les res nullius in bonis, ou choses publiques ("les fleuves, les routes, les places et les théâtres" p. 35). Or il y a une certaine difficulté à opérer une distinction entre "choses publiques" (res nullius in bonis) et choses communes (res communes). Choses publiques et choses communes ne se distinguent pas par l'usage: elles sont affectées à l'usage de tous. De plus, choses publiques et choses communes sont pareillement inappropriables. 

La différence tient à l'acte de qualification qui institue les choses publiques. Celles-ci sont rendues inappropriables en vertu d'une décision institutionnelle visant à les retrancher de la sphère de la propriété, alors que les res communes sont considérées comme inappropriables par nature. Ne relevant pas d'un acte instituant, les res communes ne s'intègrent pas vraiment dans le droit romain, elles forment un "enclos pré-juridique"[4]. Pour le dire autrement, la notion de chose commune n'est pas une notion pleinement juridique au regard du droit romain, dans la mesure où son caractère d'inappropriabililité est défini en fonction d'un donné naturel. Inversement, les choses publiques ou les choses de droit divin sont rendues inappropriables par un acte de droit public ou un acte sacral.

La notion de choses communes par nature est d'autant plus située dans une zone en marge du droit romain, qu'elle est très éloignée dans sa conception du concept de res. Initialement, ce dernier ne désigne pas un objet par opposition à un sujet, mais définit plutôt un processus :
"le noyau sémantique de la notion [de res] renvoie d'abord et avant tout au procès, à l'affaire à débattre, et c'est à partir de ce noyau qu'on est passé de l' "affaire" contestée à la "chose" qui est  l'origine du conflit" (p. 36)
La conclusion de Dardot et Laval est sans appel :
"Il y a donc peu d'enseignements à tirer de cette catégorie située à la limite du juridique. Aussi ne doit-on pas étendre la notion de "choses communes" que nous avons héritée du droit romain. Bien plutôt convient-il de l'abandonner et de renoncer une fois pour toutes à l'idée qu'il existe des choses par nature inappropriables pour fonder vraiment et entièrement en droit l'inappropriabilité." (p. 37)
Dardot et Laval en viennent à mettre en question certains des fondements de la théorie économique des biens communs. Adosser la philosophie des communs à la distinction entre biens rivaux et exclusifs (les biens purement privés, telles les marchandises), biens non rivaux et non exclusifs (biens purement publics, tels l'éclairage public, la défense nationale, l'éclairage des phares, etc.), biens exclusifs et non rivaux (biens de club tels les autoroutes à péage ou spectacles sportifs payants), biens non exclusifs mais rivaux, (les biens communs, tels les zones de pêche, les pâturages ouverts, les systèmes d'irrigation...), c'est encore et toujours faire dépendre le commun "des qualités intrinsèques des biens eux-mêmes". C'est en rester à "un naturalisme qui voudrait classer les biens selon leurs caractères intrinsèques" (p. 157)

Le commun doit être bien plutôt conçu comme la résultante d'une praxis : "c'est seulement l'activité pratique des hommes qui peut rendre des choses communes" (p. 49). Dardot et Laval décèlent les linéaments de cette pensée dans Les Politiques d'Aristote. Ils en déduisent par là même une redéfinition du commun à rebours de l'illusion naturaliste :
"Voilà ce qui éclaire singulièrement ce que nous appelons le "renversement dans la méthode" par lequel il faut remonter à l'agir commun comme étant au principe de tout commun au lieu de présenter le commun comme un donné naturel indépendant de l'agir humain (p. 239)
Le commun doit résulter d'un acte de mise en commun. Mais à quel horizon se déploie-t-il ? Le commun échappe-t-il à la sphère de la propriété ?

Instituer le commun comme inappropriable


La Summa Divisio  (division du droit entre le droit public et le droit privé) est considérée en droit comme la mère de toutes les divisions. Elle structure l'espace juridique autour de deux propriétés: la propriété publique et la propriété privée. C'est dire que la Summa Divisio arrime le droit tout entier à la propriété, perçue comme le substrat sur lequel se déploient les racines du droit. Le droit de propriété est "fondé comme droit exclusif et absolu" (p. 231) et il n'est pas possible de sortir de l'alternative: propriété publique ou propriété privée.

Selon une idée répandue, la bipartition droit public/droit privé serait un héritage direct du droit romain. Il s'agirait d'un héritage continu et intangible. Et non seulement la doctrine juridique majoritaire présente cette structuration comme indépassable, mais les théoriciens du néo-libéralisme invoquent sa prétendue immuabilité pour l'instituer comme justification des accords de mondialisation les plus récents, fondés sur la prévalence du contrat (droit privé) sur les législations étatiques (droit public).

Laval et Dardot se demandent si cette structuration juridique a toujours été insurmontable, si elle relève véritablement d'une continuité quasi atemporelle. En fait, la division du droit public et du droit privé est une distinction assez récente, puisque sa première expression date du XVIe siècle, au moment de l'émergence d'un "individualisme propriétaire"Et si la nécessité d'une Summa Divisio ne s'est pas fait sentir avant ce moment, c'est qu'initialement, le droit romain n'était pas scindé entre deux types de propriétés, la propriété publique et la propriété privée. Le droit était le lieu d'un clivage d'une toute autre nature: entre l'appropriable et l'inappropriable. D'un côté, les biens sans maître (res nullius), parties intégrantes d'un patrimoine public, et susceptibles à ce titre de faire l'objet d'une appropriation par le premier occupant. De l'autre, les choses publiques (res nullius in bonis) affectées à un usage public, rendues inappropriables en vertu d'un acte instituant.

Tirant la leçon de ce détour qui est en même temps une relecture de l'histoire des institutions et des faits sociaux, les auteurs prônent la refondation du commun sur la base d'un acte instituant de mise en commun, contre et hors de la sphère de la propriété. Il faut opposer le droit d'usage à la propriété :
L'usage instituant des communs n'est pas un droit de propriété, il est la négation en acte du droit de propriété sous toutes ses formes parce qu'il est la seule forme de prise en charge de l'inappropriable (p. 480)
***

Le livre de Dardot et Laval recèle bien d'autres analyses et il me faudrait plusieurs autres billets pour tenter d'en faire le tour. Je ne peux que vous inviter à vous y plonger...


Notes :
Dans leur enquête archéologique, les auteurs s'appuient principalement sur trois sources :
[1] et [2] Marie-Alice CHARDEAUX, Les choses communes, LGDJ, Paris, 2006.
[3] Yan THOMAS, "La valeur des choses. Le droit romain hors la religion", Annales. Histore, Sciences sociales, 2002/6, pp. 1431-1462.
[4] Yan THOMAS, "Res, chose et patrimoine. Note sur le rapport sujet-objet en droit romain." Archives de philosophie du droit, n°25, 1980.



mercredi 28 mai 2014

EoD : quand les bibliothèques numérisent et diffusent des œuvres du domaine public

Cet article est conçu comme un complément au récent article de @Silvae, publié sur Bibliobsession : Quand bibliothèques et éditeurs financent des contenus sous licence Creative Commons.

La perspective ici est un peu différente : le but visé n'est pas de permettre la libre diffusion de contenus sous droits, mais de garantir la libre diffusion du produit de la numérisation d’œuvres du domaine public. Lancé en 2006 dans le cadre du projet « Numérisation à la demande » cofinancé par le Programme eTEN, et bénéficiant du financement de la Communauté européenne dans le cadre du Programme Culture, le programme eBooks on Demand (EoD) porte sur la numérisation de tout livre publié entre 1500 et 1900, autrement dit de toute œuvre appartenant de façon indubitable au domaine public. Actuellement, 36 bibliothèques européennes participent au programme.



Le principe de fonctionnement est simple. Un usager repère un ouvrage papier publié entre 1500 et 1900 sur le catalogue en ligne d'une bibliothèque partenaire du programme EoD. S'il souhaite que le contenu soit numérisé, il a la possibilité de cliquer sur l'icône EoD figurant dans la notice : il accède ainsi à un formulaire, lui permettant de demander à la bibliothèque de numériser l'exemplaire en sa possession. Le tarif, à la charge de l'usager, est fixé par la bibliothèque.


Voilà pour le processus en amont de la numérisation. Mais qu'en est-il des conditions de diffusion du produit de la numérisation ? L'ouvrage dans sa version numérique sera-t-il disponible seulement et uniquement pour l'usager, avec interdiction pour lui de partager l'œuvre en dehors du cercle de famille (copie privée)? Ou bien le produit de la numérisation devient-il librement accessible, partageable  et réutilisable pour tout un chacun, une fois exaucée la première demande de numérisation ?

La première phrase de la réponse donnée par EoD dans la Foire aux Questions d'EOD est très claire :
Y a-t-il des restrictions pour utiliser les eBooks EOD ? 

Non, il n’existe aucune restriction pour utiliser les fichiers de documents tombés dans le domaine public.
Rien que de très normal dans la réponse d'EoD. La numérisation d’œuvres du domaine public ne fait pas renaître des droits. Le Ministère de la Culture l'explique bien sur son site :
Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites 
Par conséquent, il n'y a pas lieu de restreindre par une quelconque licence les conditions de réutilisation des fichiers issus de la numérisation d’œuvres du domaine public.

***

Seulement, dans la FaQ d'EoD, la réponse citée plus haut se poursuit ainsi :
Néanmoins, les législations locales et nationales varient légèrement. Pour connaître le détail, cliquez ici
Non seulement, le principe de non-restriction de la réutilisation des œuvres du domaine public numérisées est susceptible d'être mis à mal par la surimposition de législations nationales voire locales, mais EoD autorise chaque bibliothèque à fixer elle-même ses propres conditions de réutilisation. De fait, on constate que la majeure partie des bibliothèques partenaires du programme EoD verrouillent par le biais de clauses contractuelles la réutilisation des œuvres numérisées. Parmi les 36 bibliothèques partenaires, 27 (sans doute 29 si l'on inclut la Bibliothèque de l’Académie Hongroise des Sciences et la Bibliothèque Universitaire de Vienne pour lesquelles une impossibilité d'accès ne permet pas de connaître exactement les conditions d'utilisation) imposent comme la Bibliothèque Universitaire de Bratislava, la condition que la réutilisation des fichiers numérisés doit être personnelle et non commerciale. La clause-type qui revient le plus souvent est la suivante :
Unless agreed otherwise, the Customer is granted the right to use the delivered products for his/her own purposes on any hardware to be provided by the Customer. All uses in excess thereof are subject to separate written agreement. The Customer is only entitled to use the products within the scope of these General Terms and Conditions. He/She is not entitled to make products available to third parties, whether for consideration or free of charge.
Le client n'a le droit que de télécharger l’œuvre numérisée sur son disque dur. Tout autre usage doit être soumis à un accord écrit séparé. Le client n'est pas autorisé à rendre le produit de la numérisation disponible pour des parties tierces, que ce soit pour une exploitation commerciale ou pour une mise à disposition gratuite. La clause est tellement restrictive, qu'on peut se demander si elle ne fait pas barrage à l'application de l'exception pour copie privée.

Cette restriction d'usage est plus que problématique. La pratique qui consiste à imposer des restrictions d'utilisation allant au-delà de ce que la loi permet a un autre nom : le "Copyfraud", tel que défini par le juriste Jason Mazzone.

Elle paraît d'autant plus incompréhensible que les mêmes bibliothèques précisent systématiquement, par une autre clause-type, que les fichiers de la numérisation sont importés dans des dépôts numériques dédiés, et bénéficient ainsi d'un archivage pérenne (voir par exemple ici : "Public domain books or books for which we receive a declaration of consent from the author or publishing houses are imported by us into the digital library of the Library Am Guisanplatz and are thus globally available and also preserved for the long term.) On retombe dans un cas de schizophrénie bien connu des lecteurs assidus comme moi du blog de @Calimaq : dans le même temps où ces bibliothèques mettent en ligne des œuvres du domaine public, elles en restreignent la réutilisation, niant par là même la notion même de domaine public.

***

Au contraire, d'autres bibliothèques partenaires du programmes EoD jouent le jeu de la libre réutilisation. Six bibliothèques apposent au produit de la numérisation la licence Public Domain Mark. Il s'agit de la Bibliothèque Universitaire de l'Académie des Beaux-Arts de Vienne, de la Bibliothèque Universitaire et Régionale du Tyrol, de la Bibliothèque Centrale de Zurich, de la Bibliothèque Royale du Danemark, de la Bibliothèque Universitaire de Berne et de la Bibliothèque Nationale de Suède.

Quant à la Bibliothèque Interuniversitaire de Santé (BIUS),elle a fait le choix de la Licence Ouverte/Open Licence élaborée par la mission Etalab. Bien que garantissant une libre réutilisation du produit de la numérisation, cette licence paraît moins appropriée que la licence Public Domain Mark, conçue pour garantir une protection contre les enclosures informationnelles. Mais l'essentiel, c'est que la BIUS libère au lieu d'emprisonner par le biais de clauses abusives, le produit de la numérisation des œuvres du domaine public

***
En résumé, il n'est parfois pas de pire ennemi à la diffusion des œuvres du domaine public que les bibliothèques elles-mêmes. Les bibliothèques qui souhaitent adopter une démarche de dissémination des œuvres du domaine public, doivent réfléchir non pas simplement aux conditions techniques et logistiques de la numérisation, mais aux conditions juridiques de la réutilisation du produit de la numérisation des œuvres du domaine public.



Post Scriptum du 29 mai 2014. Suite à la publication de cet article, deux personnes m'ont signalé via le réseau qui gazouille, deux initiatives visant la même finalité que le programme EoD :

1) @Calimaq me signale le site de réédition à la demande Numalire.
Lancé en septembre 2013 par la société YABé, Numalire repose sur un partenariat construit avec des bibliothèques patrimoniales. Actuellement, ces bibliothèques sont au nombre de huit : la Bibliothèque Sainte Geneviève, la Bibliothèque des Arts Décoratifs, la Bibliothèque Historique de la Ville de Paris (BHVP, la Bibliothèque de l’Hôtel de Ville de Paris (BHdV), la Bibliothèque Forney, la Bibliothèque Marguerite Durand, la Bibliothèque de l'Académie Nationale de Médecine et la Bibliothèque de l'INRA. Le financement repose sur le principe du crowdfunding : un lecteur souhaite voir numérisée une oeuvre du domaine public ; il demande à Numalire un devis ; une fois le devis établi, il lance par le biais de Numalire une souscription, afin de solliciter la participation d'autres personnes. Le montant minimum de participation est de 10€. Si la souscription aboutit, les contributeurs obtiennent la possibilité de télécharger un exemplaire en format pdf –copie conforme de l’original - sous licence Public Domain Mark 1.0.

2) @LAlbaret m'indique que le Service Interétablissement de la Documentation SID2 Grenoble a mis en place un service gratuit et ouvert à tous de numérisation à la demande pour les œuvres du domaine public. Le produit de la numérisation est diffusé sous licence CC0. Bravo au SID2 !