vendredi 15 mai 2015

"Les Regrets" de Cédric Kahn ou l'amour au temps de l'hyperconnexion

A quoi ressemblent une relation ou une rupture amoureuses à l'ère de l'hyperconnexion ? Le numérique, en tant qu'ensemble d'hyperliens ou d'objets connectés, permet-il de consolider l'union ou de conjurer la séparation? Telles sont les questions passionnantes posées par le film "Les Regrets" de Cédric Kahn (2009).





Certes, dans le film, les protagonistes ne sont pas équipés de téléphones de dernière génération. Pas de smartphones, mais des téléphones filaires parfois antiques, ou de simples téléphones mobiles permettant tout au plus... de téléphoner et d'envoyer des SMS. Il n'en reste pas moins que les téléphones jouent un rôle tellement important dans l'action du film, qu'ils apparaissent comme la métonymie de nos relations à l'heure de l'hyperconnexion : la capacité que permettent les outils numériques de joindre et de garder contact avec n'importe qui à toute heure du jour ou de la nuit (même dans une chambre d'hôpital aux côtés d'une mère agonisante).

Dès la scène de la rencontre, le téléphone fait son entrée. Quinze ans après leur rupture, lorsque Mathieu (Yvan Attal) revoit Maya (Valeria Bruni-Tedeschi) dans la rue, elle est absorbée dans une conversation téléphonique et ne le voit pas immédiatement. Scène fugitive qui pourrait illustrer l'idée souvent rebattue selon laquelle les technologies coupent leurs adeptes du contact avec la "vie réelle".

Mais à l'inverse, d'autres événements montrent que le téléphone permet de créer de nouvelles connexions ou de maintenir des liens. C'est lui qui permet à Maya de renouer contact avec Mathieu retourné pour quelques jours dans la maison de sa mère. C'est lui qui permettra à Maya de joindre Mathieu au café dans lequel ils s'étaient donné rendez-vous, pour s'excuser de son retard et lui proposer de se retrouver chez elle, dans une ferme isolée. On apprendra plus tard qu'une situation assez semblable avait conduit à la séparation des amants, quinze ans plus tôt  : Mathieu avait attendu Maya deux heures dans un bar, et ne la voyant pas venir avait décidé que c'était la fin de leur relation. Le téléphone a donc permis d'éviter que ne se reproduise le trauma initial, de bloquer le retour du Même.

La scène de séparation à la gare est l'une des plus belles scènes du film. Sur le quai, Maya fait ses adieux définitifs à Mathieu. Elle doit partir en Amérique du Sud avec sa fille et son compagnon. A peine le train a-t-il démarré, Mathieu envoie un SMS. "As-tu des regrets ?" demande-t-il. Maya répond par un autre SMS : "Je n'ai que des regrets". Les scènes de séparation sur un quai de gare sont devenues un cliché cinématographique. Mais l’immixtion du téléphone dans la scène permet de revisiter le motif éculé. Le téléphone permet de pointer la contradiction du sentiment amoureux : "nous nous séparons même si je n'ai que des regrets". Mais ce que nous dit aussi cette scène, c'est que le téléphone permet de maintenir un lien entre les amants au moment-même où la rupture est prononcée. C'est ce que les linguistes appellent une contradiction performative, c'est-à-dire "lorsqu'on agit d'une manière qui dément les propos que l'on tient au moment où l'on agit". Le téléphone permet également d'exprimer par des mots le "off" de la séparation. Les amants désunis échangent en temps réel sur la façon dont ils vivent les choses de l'intérieur. L'intime devient "extime", la séparation est en même temps une communion. 

On pourrait encore multiplier les exemples. Ou bien chercher ailleurs des contre-exemples. D'une certaine manière, le film de Jérome Bonnell "Le temps de l'aventure" (2013) se présente comme le double inversé du film de Cédric Kahn. Pour Alix Aubane (Emmanuelle Devos), "l'aventure" commence lorsqu'elle oublie le chargeur de batterie de son téléphone dans sa chambre d'hôtel. Il lui reste les cabines téléphoniques pour contacter son compagnon, mais celui-ci est injoignable. C'est justement cette rupture des télécommunications qui ouvre dans la vie d'Alix la possibilité d'une nouvelle rencontre : celle d'un inconnu entraperçu dans un train (Doug, interprété par Gabriel Byrne). Le scénario du film de Bonnell semble fonctionner à partir d'une idée simple: l'amour trouve sa possibilité dans un lâcher prise avec le quotidien, quand les liens sont distendus. 

Le film de Cédric Kahn explore la dimension inverse : que se passe-t-il lorsqu'il est toujours possible de garder contact avec l'autre, lorsque l'autre est toujours immédiatement "joignable"? Difficile de dire si, au final, le téléphone agit comme un adjuvant efficace pour prémunir les amants de la rupture, ou si, au contraire il catalyse la désagrégation perpétuelle du couple. Mathieu et Maya vont de ruptures en réconciliations, de réconciliations en ruptures, et la fin ouverte ne donne aucune réponse. A moins que le film de Cédric Kahn n'arrive à cette conclusion un peu amère: les moyens de communication permettraient, pour parler comme Guy Debord, de "réunir le séparé en tant que séparé"...

Ironie de l'histoire: le chanteur Philippe Katerine, qui fait partie du casting du film, devait signer quelques années plus tard, en 2012, une chanson hilarante sur la vie contemporaine d'un "accro" du smartphone :



dimanche 10 mai 2015

Régression du partage

[Traduction d'un billet publié le 7 mai par Kevin Smith, Directeur de l'Office of Copyright and Scholarly Communication de la Duke University sur le blog Scholarly Communications@Duke]




"L'annonce faite par Elsevier à propos de sa nouvelle politique en matière de droit d'auteur, est un chef-d'oeuvre de double langage : tout en proclamant que la compagnie est en train de "lâcher la bride à la puissance du partage", elle immobilise en fait le partage en lui mettant une laisse, et même autant de laisses que possible. Il s'agit d'un recul de l'open access et il est important d'appeler les choses par leur nom.

Pour rappeler le contexte, depuis 2004 Elsevier a autorisé les auteurs à auto-archiver sans délai la version finale acceptée de leur manuscrit dans un dépôt institutionnel. En 2012, Elsevier a tenté d'ajouter une mesure stupide et digne de tomber immédiatement dans les oubliettes, pour punir les institutions qui avaient adopté une politique de libre accès : l'éditeur a prétendu révoquer les droits d'auto-archivage des auteurs issus de ces établissements. Ce fut un effort vain pour saper les politiques d'open access. Clairement, Elsevier espérait que ses sanctions décourageraient l'adoption de telles politiques. Cela n'a pas été le cas. Les auteurs académiques ont continué à plébisciter la voie verte en tant que politique par défaut pour la diffusion du savoir. En seulement une semaine, à la fin du mois dernier, les Universités de Caroline du Nord, de Chapel Hill, de Penn State, et de Dartmouth ont toutes adopté de telles politiques.

Pour tenter de recoller à la réalité, Elsevier a annoncé la semaine dernière qu'il faisait disparaître sa restriction punitive qui s'appliquait uniquement aux auteurs dont les institutions s'étaient montrées suffisamment téméraires pour soutenir l'open access. L'éditeur qualifie maintenant cette politique de «complexe» - elle était juste ambiguë et inapplicable - et affirme qu'il va «simplifier» les cas de figure pour les auteurs publiant chez Elsevier. En réalité, l'éditeur est tout simplement en train de punir n'importe quel auteur qui serait assez fou pour publier selon les termes de cette nouvelle licence.

Deux principales caractéristiques de cette régression en termes d'ouverture doivent être soulignées. Premièrement, Elsevier impose un embargo d'au moins un an sur tout auto-archivage de la version finale auteur, et ces embargos peuvent aller jusqu'à quatre ans. Deuxièmement, lorsque la durée s'est finalement écoulée et qu'un auteur peut rendre son propre travail disponible par le biais d'un dépôt institutionnel, Elsevier dicte maintenant la façon dont cet accès doit être contrôlé, imposant la forme la plus restrictive des licences Creative Commons, la licence CC-BY-NC-ND pour tout dépôt en green open access.

Ces embargos constituent la caractéristique principale de cette nouvelle politique, et ils sont à la fois compliqués et draconiens. Loin de rendre la vie plus simple pour les auteurs, ces derniers doivent maintenant naviguer à travers plusieurs pages web pour enfin trouver la liste des différentes périodes d'embargo. La liste elle-même fait 50 pages, puisque chaque revue a son propre embargo, et surtout, on constate à l'évidence un effort pour étendre de façon considérable la durée par défaut. De nombreuses revues américaines et européennes ont des embargos de 24, 36 et même 48 mois. Il y a beaucoup d'embargos de 12 mois, mais on peut supposer que ce délai est imposé parce que ces journaux sont déposés dans PubMed Central, où 12 mois est la durée maximale d'embargo autorisée. Maintenant cette durée maximale d'embargo s'impose également aux auteurs en tant qu'individus. Pour beaucoup d'autres revues, un embargo encore plus long, qui n'est absolument pas étayé par la preuve qu'il serait nécessaire pour maintenir la viabilité des journaux, est désormais la règle. Et il y a une poignée de journaux, tous d'Amérique Latine, d'Afrique et du Moyen-Orient, d'après ce que je peux voir, où aucun embargo n'est imposé; je me demande si c'est le résultat de règles spécifiques à chaque pays ou tout simplement un calcul cynique portant sur la fréquence réelle de l'auto-archivage de ces journaux.

L'autre effort pour gérer au plus près l'auto-archivage par le biais de cette nouvelle politique, consiste à exiger que tous les auteurs qui font preuve de persévérance et qui souhaitent, après la période d'embargo, déposer leur manuscrit final dans un dépôt institutionnel, doivent apposer une clause de non-exploitation commerciale et de non-modification de leurs travaux dans la licence associée à chaque article. Ceci, bien sûr, limite encore davantage la réutilisabilité de ces articles pour un partage effectif et pour le progrès de la science. C'est un aspect supplémentaire qui montre que la nouvelle politique est exactement l'inverse de la façon dont Elsevier la présente ; c'est un recul par rapport au partage et un effort pour faire retourner à son point d'inertie le mouvement vers une science plus ouverte.

La croissance rapide des politiques de libre accès dans les établissements américains et dans le monde suggère que de plus en plus de chercheurs veulent rendre leur travail aussi accessible que possible. Elsevier pousse fortement dans la direction opposée, en essayant de retarder et de limiter le partage du savoir autant qu'il le peut. Il semble clair qu'ils ont l'espoir de contrôler les conditions de ce partage, de façon, tout à la fois, à en limiter l'impact supposé sur leur modèle d'entreprise et, finalement, à le tourner si possible à leur profit. Ce dernier objectif peut être une plus grande menace pour l'open access que les détails des embargos et les licences. En tout cas, il est temps, je crois, de réfléchir à nouveau au boycott d'Elsevier, soutenu par de nombreux auteurs scientifiques il y a quelques années; avec cette nouvelle salve tirée contre les valeurs de la science ouverte, il est encore plus impossible d'imaginer un auteur un tant soit peu responsable décider de publier chez Elsevier."


NB: pour prolonger la réflexion, voir aussi la réaction de Steven Harnad sur son blog.











jeudi 7 mai 2015

PNB-Adobe: consécration d'un "DRM mental" (mais pas que...)

C'est le 6 mai qu'a au lieu la journée internationale contre les DRM. L'occasion de revenir sur ces mesures techniques apposées à un grand nombre de fichiers de livres numériques acquis par les bibliothèques. Mais l'idée de ce billet trouve également son origine dans des discussions récentes menées avec deux représentants commerciaux de sociétés spécialisées dans la revente d'e-books.

Le premier interlocuteur m'a présenté son offre dans le détail. Si je devais la résumer en une formule, ce serait : "DRM land". Des DRM partout, omniprésents... Un vrai enfer sur terre pour les lecteurs, en fait :
  • Chaque livre correspond en moyenne à 400 "crédits"/an renouvelables​
  • 1 crédit = 1 usager 24 h sur 1 livre
  • Les livres sont proposés soit en streaming, soit en téléchargement, sachant qu’1 téléchargement = 1 crédit et que le pdf est chronodégradable
  • Les livres ne peuvent être lus qu'avec le logiciel Adobe Digital Edition​
  • Le lecteur doit se créer un compte personnel sur Adobe Digital Edition
  • Si les 400 crédits sont épuisés, le livre est rendu "indisponible" par le logiciel 
  • 1'usager ne peut s’authentifier avec son compte Adobe que sur 6 postes maximum​
  • Le pdf téléchargé (et chronodégradable) ne peut être lu que sur l’appareil de destination initiale, ce qui signifie que si le lecteur télécharge une première fois le livre emprunté depuis un poste de la bibliothèque, il l'a dans le baba : il ne pourra plus l'ouvrir depuis son poste à la maison
A moitié assommé et suffoqué par l'avalanche de ces conditions plus limitatives les unes que les autres de la liberté du lecteur, j'ai demandé candidement quel était le pourquoi du comment. La réponse qui m'a été donnée semblait provenir d'un discours bien rôdé et se résumait à : "C'est pour sauver l'édition française; elle fait face à une crise économique et les DRM sont le moyen de l'endiguer".

Gavin protests
Gavin protests. Par Karen Rustad. Mis à disposition selon les termes de la licence CC-BY 2.0. Source: Flickr

La discussion avec le second revendeur d'e-books a été plus brève mais tout aussi instructive. Il s'agit d'un revendeur qui est en phase de démarrage d'activité et c'est pourquoi son discours n'était pas bien assuré. A ma question inquiète et fiévreuse : "Rassurez-moi, vous êtes capable de fournir des e-books en accès illimité ​si possible sans DRM, hein ?", le représentant commercial m'a répondu: "La loi nous oblige à apposer des DRM". Là, j'ai eu quelques secondes de panique : avais-je manqué le vote d'une nouvelle loi passée en douce qui rend les DRM obligatoires ? La discussion se poursuit et finalement mon interlocuteur convient que l'apposition de DRM n'est pas imposée par la loi. Elle répondrait néanmoins à la demande de bon nombre d'éditeurs français.

Naissance d'un "DRM mental"


Que montrent ces deux discussions? Que, depuis quelques mois, paraît comme aller de soi l'assertion selon laquelle les DRM sont nécessaires pour sauver l'édition française. A en croire ce discours, un monde sans DRM n'est plus possible.

Et si ce discours décomplexé apparaît au grand jour, c'est ce qu'on pourrait appeler "l'effet Valois". Le 8 décembre 2014, le Ministère de la Culture a signé et a fait signer par les bibliothèques de lecture publique, les représentants des associations professionnelles et des collectivités territoriales, une liste de 12 "Recommandations pour une diffusion du livre numérique par les bibliothèques publiques". Certes, les recommandations portent des réserves sur les mesures techniques de protection :

7. Reconnaître que les systèmes de gestion des droits numériques sont légitimes pour réguler les usages des livres numériques en bibliothèque publique, mais qu’ils ne doivent pas rendre l’accès aux œuvres moins aisé. Les systèmes de gestion des droits numériques contribuent à la protection du droit d’auteur et permettent de gérer le service de prêt numérique.Pour autant, le recours à des systèmes de gestion de droits ne doit pas rendre totalement impossibles les usages autorisés par la loi pour les bibliothèques et leur public. La conception de systèmes de gestion et de protection des droits numériques permettant une interopérabilité maximale et un accès aux œuvres le plus aisé possible doit être encouragée et leur adoption privilégiée.Les mesures techniques de protection ne sont pas l’unique système de gestion et de protection des droits numériques. D’autres types de dispositifs que ceux qui sont communément utilisés aujourd’hui dans les offres aux collectivités peuvent être adoptés s’ils garantissent un service de qualité ou permettent de l’améliorer, dans le respect du droit d’auteur.
Il n'en reste pas moins que l'esprit général des recommandations se résume au choix de privilégier la voie contractuelle au détriment de la voie légale en matière de prêt d'e-books en bibliothèque de lecture publique. L'Etat se garde bien de légiférer, ce qui laisse le champ libre aux acteurs les plus puissants du marché de l'édition pour imposer leurs conditions aux bibliothèques. Ce qu'on pourrait résumer de la façon suivante : "pour la fixation des prix et le choix d'apposer des DRM, c'est open bar..."

Derrière les recommandations du Ministère se profile le déploiement du projet "Prêt Numérique en Bibliothèque" (PNB) porté par la société interprofessionnelle Dilicom et adossé techniquement aux DRM développés par la société Adobe. En gestation puis en expérimentation depuis 2012, PNB est financé par le Conseil National du Livre (CNL), dont la tutelle est le Ministère de la Culture. Bien que présenté comme la solution miracle pour le prêt de livres numériques en bibliothèques, le projet PNB appelle comme on va le voir un certain nombre de critiques sérieuses...

En soutenant financièrement le projet PNB, puis en signant les 12 recommandations pour la diffusion du livre numérique, le Ministère de la Culture a conféré aux DRM une consécration non pas légale, mais quasi-légale (d'où la confusion de mon second interlocuteur). Il a contribué à la constitution de ce qu'on peut appeler avec @Calimaq un "DRM mental". Désormais, un imaginaire collectif s'est modelé autour de la conviction que les DRM ont toute leur place en bibliothèque... puisque le principe même en a été validé par la rue de Valois.

Est-ce un hasard ? Dans la communication officielle autour de PNB, il n'est jamais fait mention des DRM fournis par la société Adobe. Cela s'explique sans doute d'abord par la volonté d'effacer au maximum la mention des intermédiaires techniques, afin de donner au projet l'aspect plus ou moins neutre d'un programme national déconnecté de la sphère privée. Cela s'explique aussi du fait que la solution technique Adobe Digital Edition a, comme on le verra, plutôt mauvaise presse dans d'autres pays. Pour la suite du propos, dans un souci de clarté, nous parlerons non pas du projet "PNB", mais du projet "PNB-Adobe".

Les raisons juridiques et éthiques de refuser les DRM Adobe


Comme l'a bien montré le journaliste Nicolas Gary, en rajoutant une couche de droits sur les contenus numériques, la suite logicielle Adobe Digital Edition rend ces contenus illisibles depuis le système d'exploitation Linux. Les DRM d'Adobe ont donc pour effet de convertir les fichiers EPUB en un format propriétaire.
Le constat de fait se heurte à la lecture à la lettre du texte le plus récent encadrant le contrat d'édition. L'Arrêté du 10 décembre 2014 pris en application de l'article L. 132-17-8 du code de la propriété intellectuelle et portant extension de l'accord du 1er décembre 2014 entre le Conseil permanent des écrivains et le Syndicat national de l'édition sur le contrat d'édition dans le secteur du livre précise les conditions de l'exploitation permanente et suivie de l'édition imprimée et numérique de l'œuvre. Pour l'édition numérique, l'éditeur est tenu de :
  • La rendre accessible dans un format technique exploitable en tenant compte des formats usuels du marché et de leur évolution, et dans au moins un format non propriétaire.
  • La rendre accessible à la vente, dans un format numérique non propriétaire, sur un ou plusieurs sites en ligne, selon le modèle commercial en vigueur dans le secteur éditorial considéré.
Apposer des DRM Adobe sur un livre numérique revient à exclure la possibilité de proposer ce contenu "dans un format non propriétaire". Les DRM d'Adobe sont donc non conformes à la législation la plus récente.

Et c'est pas fini...

Sauf dans le cas où l'on est Ministre de l'Intérieur et que l'on fait des déclarations ahurissantes pour dire que la vie privée n'est pas une liberté fondamentale, (le ministre devrait refaire des études de droit : aucun étudiant de droit de fin de première année de licence n'oserait proférer une pareille ineptie...), il est du devoir de tout citoyen de s'inquiéter quand une mesure technique est de nature à porter atteinte à la vie privée. Or un scandale récent a démontré que le DRM d'Adobe est parfaitement invasif dans ce domaine: le DRM permet la collecte non seulement de données sur le livre que le lecteur est en train de lire, mais sur l'ensemble des livres stockés sur son terminal. Une collecte d'autant plus inquiétante que la firme Adobe a été victime par le passé d'attaques informatiques visant notamment à subtiliser les données personnelles des lecteurs.

Et c'est pas fini...


Les raisons pratiques de refuser PNB-Adobe


La firme américaine Adobe est familière des pratiques qui consistent à procéder à des mises à jour inopinées de son système logiciel sans se préoccuper des problèmes de compatibilité pour ses clients, éditeurs ou lecteurs. Alertées par leurs lecteurs, les éditions Gallimard, directement touchées par une mise à jour survenue en janvier 2014, n'ont pas eu de mots assez durs pour qualifier ces "pratiques autocratiques déplorables".

Non seulement les mises à jour auxquelles Adobe procède sans crier gare menacent de rendre les e-books illisibles du jour au lendemain, mais, même dans le cas général où aucun problème technique ne bloque l'accès du lecteur aux fichiers acquis, le maniement du logiciel Adobe Digital Edition s'avère complexe. D'après une étude récente menée auprès d'usagers par les experts de la société "tea" (the ebook alternative):
Le constat est sans appel : aucun utilisateur ne réussira à créer son compte Adobe sans aide. Voici les statistiques liées aux manipulations réalisées pendant l’étude et à l’utilisation d’un compte Adobe :

26% ne comprennent pas la différence avec le compte libraire ;

22% pensent qu’il s’agit d’une sorte de Reader ;

30% ne comprennent pas et ne font rien ;

18% font ce qui est nécessaire sans comprendre (et parviennent à créer leur compte avec aide)

4% connaissent déjà (et parviennent à créer leur compte avec aide)

0% arrivent à créer leur compte ADOBE sans aide


Et c'est pas fini...

Les raisons économiques de refuser PNB - Adobe


Il suffit de se reporter à l'analyse rendue par RéseauCAREL en février 2015 pour se convaincre que le modèle financier promet de mauvaises surprises pour les bibliothèques :

La péremption des jetons [gérée par le DRM Adobe Digital Edition] joue ici aussi un très mauvais rôle, ce critère augmentant encore le surcoût du numérique par rapport au titre papier puisque pour beaucoup de titres, ce ne sera pas par le nombre de jetons du lot qu’il faudra diviser le prix du titre pour obtenir le coût unitaire d’un prêt ; un titre prêtable 30 fois par exemple pourrait très bien, à cause de cette contrainte temporelle, n’être dans les faits prêté que 10 ou 15 fois dans le temps imparti par la licence et donc le coût réel du prêt unitaire pour ce titre sera encore multiplié par 2 ou 3 !

Et c'est pas fini...

Le collectif SavoirsCom1 a récemment pris sa calculette et a fait les comptes: si les bibliothèques desservant des villes de 40 000 à 100 000 habitants n'achetaient en version numérique que les nouveautés qu'elles achètent déjà en format papier, il leur en coûterait entre 490 000 € et près de 1,3 millions d'€. Voilà une nouvelle qui tombe mal au moment où l'Etat baisse considérablement ses dotations à destination des collectivités territoriales...



Un monde sans DRM est possible...


Pour finir, rappelons qu'un monde sans DRM est possible. Sur son blog, Hervé Bienvault dénombre au 15 avril 2015, 166 éditeurs français sans DRM, auxquels il faut ajouter 80 éditeurs pure players.
En Allemagne, le Börsenverein, l'équivalent de ce qui résulterait de la fusion en France de notre Syndicat National des Editeurs et de notre Syndicat de la Librairie Française, a indiqué en février 2015 son souhait d'abandon des DRM. Plus récemment encore, DuMont, l'une des plus grandes maisons d'édition indépendantes allemandes, a annoncé sa décision d'abandonner les DRM à l'automne 2015 et de les remplacer par des watermarks, tatoutages numériques qui ne présentent pas pour les lecteurs les mêmes difficultés techniques que les DRM.
Autre possibilité : le rapport remis à la Commission européenne par la députée Julia Reda propose de rendre obligatoire la communication du code source ou des spécifications d’interopérabilité des DRM, de façon à offrir la possibilité de vérifier que les DRM ne sont pas un cheval de Troie permettant d'entrer dans l'intimité du lecteur, et qu'ils ne bloquent pas l'utilisation du contenu selon le terminal utilisé.



vendredi 20 février 2015

Données sans licence ne sont que ruine de la science

Le 16 janvier dernier, l'ADBS (association des professionnels de l'information et de la documentation) a consacré une journée d'étude à la gestion des données de la recherche, journée assez passionnante du fait de la diversité des expériences de terrain et des domaines scientifiques envisagés. J'en retiens notamment la première intervention, qui présentait les grandes lignes d'un "Data Management Plan" multi-disciplinaire, ayant vocation à s'appliquer à l'échelle de l'ensemble des établissements de l'enseignement supérieur rattachés à la Communauté d'Universités et d'Etablissements Sorbonne Paris Cité. C'est en soi une première en France, et il est très probable que d'autres établissements universitaires s'engageront dans le sillon tracé par la COMUE SPC. Vous pouvez retrouver l'ensemble des présentations sur le site de l'InVisu.


De l'enjeu des licences en matière d'open data


Durant la journée, il a beaucoup été question de stockage matériel des données, condition concrète de leur conservation et de leur mise à disposition, et de l'élaboration de politiques de coopération avec les laboratoires afin de collecter et de conserver des données normées dans des formats interopérables. Cependant, la question de la réutilisation, plus précisément des conditions juridiques garantissant la pleine réutilisabilité de ces données, a été assez peu abordée. Non pas que les questions juridiques aient été totalement évacuées des présentations; mais elles ont surtout été abordées dans le cas particulier des silos de données semi-fermés, dont l'accès est restreint à un certain type de population. Telle BeQuali, la Banque d'Enquêtes Qualitatives développée par le Centre de données socio-politiques UMS 828 IEP Paris-CNRS, et destinée à mettre à disposition des enquêtes en Sciences Humaines et Sociales: pour des raisons touchant essentiellement à la protection des données personnelles, l'accès de cette base est réservé aux enseignants-chercheurs et aux étudiants justifiant d'un projet de recherche. La mise en ligne de BeQuali a nécessité deux ans de réflexion sur la délimitation en amont d'un cadre juridique permettant un accès contrôlé aux données.

Toujours est-il qu'il manquait une mise en perspective sur le choix des licences applicables aux données de la recherche lorsqu'elles sont destinées à être librement réexposées et réutilisées. La question de l'open data et des licences types idoines est restée globalement absente des présentations.

On sait que les risques liés à la non-apposition d'une licence à un jeu de données sont multiples. Qu'il s'agisse de la captation des données de la recherche par des réseaux sociaux académiques, susceptibles de revendiquer la propriété des données en vertu des Conditions Générales d'Utilisation que les chercheurs signent au moment de s'inscrire sur leurs sites. Qu'il s'agisse de la monétisation de l'accès aux données de la recherche par le biais de la republication sur des plateformes dédiées mises à disposition par des éditeurs scientifiques. Ou qu'il s'agisse de la privatisation des données de la recherche dans le cadre de contrats de recherche signés entre un établissement universitaire et une entreprise privée, même dans le cas où le financement est majoritairement issu de fonds publics.

Le loup et agneau G-F Townsend 1867 GB
Le loup et l'agneau. Par G-F Townsend, 1867, sur Wikimedia Commons. Sans licence, les données seront à la merci du premier prédateur venu qui se les appropriera "sans autre forme de procès"...

L'enjeu des licences ne s'appréhende pas seulement en creux, mais peut être aussi défini positivement. Une licence spécifiant les conditions de réutilisation des données de la recherche permet de répondre à trois objectifs:

  • impératif épistémologique de réutilisation - La science se construit par la réutilisation, la confrontation et la critique des travaux précédents. L'exploitation et la réutilisation des données produites jouent dans la méthode scientifique un rôle grandissant
  • impératif technique d'intégration - A l'heure du Big Data, les volumes considérables de données à entrecroiser font de l'interopérabilité des données une nécessité.
  • impératif juridique de simplification - "La forêt des termes et conditions autour des données rend l'intégration difficile à réaliser légalement dans de nombreux cas". (Protocol for Implementing Open Access Data de la fondation Science Commons
Ceci ainsi posé, quelles sont les principales licences recommandées en matière d'open data appliqué aux données de la recherche ?


CC0 et PDDL, les deux principales licences standard pour l'ouverture des données de la recherche


De nombreux entrepôts de données de recherche internationaux ont fait le choix de licences ouvertes standard.

Le cas de Dryad, entrepôt spécialisé dans la biologie de l'évolution et l'écologie est intéressant. Les concepteurs de Dryad ont fait le choix de la licence CC0, licence qui aménage le reversement des données dans le "domaine public vivant". Pourquoi le choix de la licence CC0, qui implique la renonciation à tous droits d'auteur y compris le droit à la paternité, plutôt que le choix de la licence CC-BY ? Parce que la licence CC0 a été conçue pour éviter les obstacles juridiques liés à la revendication de droits d'auteurs. Pour autant, comme l'explique très bien l'équipe de Dryad sur son blog [1], la licence CC0 ne dispense pas en pratique les chercheurs de citer leurs sources: cela fait partie des normes universitaires véhiculées et appliquées au travers de processus tels que l'examen par les pairs. Cet état de fait est rappelé dans la FAQ des Panton Principles for Open Data in Science de l'Open Knowledge Foundation :
Q11: What are community norms and why are they important?
A given community has a set way of working, an intrinsic methodology of activities, processes and working practices for which a consensus exists for the appropriate way in which these practices are carried out. For example, in the scholarly research community the act of citation is a commonly held community norm when reusing another community member’s work.
Community norms can be a much more effective way of encouraging positive behaviour, such as citation, than applying licenses. A well functioning community supports its members in their application of norms, whereas licences can only be enforced through court action and thus invite people to ignore them when they are confident that this is unlikely.
Loin de céder le pas aux licences, les pratiques érigées en normes par la communauté ont une efficacité plus grande que les clauses contractuelles.

Prenons un cas différent. Les concepteurs de Pangaea, entrepôt de données allemand spécialisé en sciences marines, ont fait le choix de déposer les données sous licence Creative Commons Attribution (CC-BY). Cependant, on ne peut que s'interroger sur la pertinence de ce choix qui va à l'encontre des préconisations de la fondation Science Commons énoncées dans le Protocol for Implementing Open Access Data:
“5.3 Attribution stacking

Last, there is a problem of cascading attribution if attribution is required as part of a license approach. In a world of database integration and federation, attribution can easily cascade into a burden for scientists if a category error is made. Would a scientist need to attribute 40,000 data depositors in the event of a query across 40,000 data sets? How does this relate to the evolved norms of citation within a discipline, and does the attribution requirement indeed conflict with accepted norms in some disciplines? Indeed, failing to give attribution to all 40,000 sources could be the basis for a copyright infringement suit at worst, and at best, imposes a significant transaction cost on the scientist using the data.”
En effet, dans le cadre d'une fouille de données réalisée à partir d'un nombre conséquent de bases de données, il devient proprement irréaliste de citer chaque producteur de jeu de données. La Licence CC-BY s'avère donc particulièrement  inadaptée.

Hormis la licence CC0, quelles autres licences sont appropriées pour garantir l'ouverture des données de la recherche ? Il existe déjà un grand nombre d'autres licences standard orientées open data. Des licences nationales, telle la Licence Ouverte de la mission Etalab. Ou bien les trois licences Open Data Commons de l'Open Knowledge Foundation : la licence ODbL (Open Database License), la licence ODC-By (Open Data Commons Attribution License) et la licence PDDL (Public Domain Dedication and Licence).

Cependant, parmi toutes ces licences, seule la dernière permet, tout comme la licence CC0, de reverser les données de la recherche dans le domaine public. C'est pourquoi l'OKFN recommande fortement l'emploi de l'une ou l'autre licence pour les données de la recherche (point 4 des Principes de Panton) :
"Furthermore, in science it is STRONGLY recommended that data, especially where publicly funded, be explicitly placed in the public domain via the use of the Public Domain Dedication and Licence or Creative Commons Zero Waiver. This is in keeping with the public funding of much scientific research and the general ethos of sharing and re-use within the scientific community. Explicit dedication of data underlying published science into the public domain via PDDL or CCZero is strongly recommended and ensures compliance with both the Science Commons Protocol for Implementing Open Access Data and the Open Knowledge/Data Definition."
D'après le Datahub de l'OKFN, il existe actuellement dans le monde 190 jeux de données sous licence PDDL et 441 jeux de données sous licence CC0.

CGU ou licence open standard ?


L'une des questions que je me suis posées dans un précédent billet est la suivante: peut-on mettre à disposition des données de la recherche sans licence standard? A priori, on peut faire l'économie d'une licence type si l'on spécifie des conditions générales d'utilisation qui déterminent les conditions de réutilisation des données entreposées. Voici quelques exemples de CGU remplissant cette fonction : 
  • GenBank: "NCBI places no restrictions on the use or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted."
"1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.
2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party."
"Information that is created by or for the US government on this site is within the public domain. Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment."
"Unless otherwise noted, publications and webpages on this site were created for the U.S. Department of Energy Human Genome Project program and are in the public domain. Permission to use these documents is not needed, but credit the U.S. Department of Energy Human Genome Project and provide the URL http://www.ornl.gov/hgmis when using them. Materials provided by third parties are identified as such and not available for free use."
Ces quatre exemples peuvent laisser à penser que  l'apposition d'une licence à un jeu de données ne procède d'aucune nécessité. Mais les cas cités concernent des bases en génomique de notoriété mondiale. Les règles de réutilisation sont connues et appliquées par la communauté scientifique depuis plusieurs années, voire plusieurs décennies. Elles ont été élaborées à l'heure où la fouille de données en était à ses balbutiements.

A l'heure où le Big Data entraîne une révolution épistémologique dont on n'a pas peut-être pas encore saisi toute la portée, à l'heure où les techniques d'extraction automatisée de données permettent d'interroger simultanément une quantité infinie de sources, à l'heure où la production de jeux de données, devenue partie intégrante de la démarche scientifique, connaît une augmentation exponentielle, il paraît nécessaire de faire le choix de licences standard de façon à faciliter la réutilisation de ces jeux de données.

En définitive, il en va ni plus ni moins de la visibilité internationale des résultats de la recherche française : sans réutilisation, point de rayonnement... Les remarques du rapport Trojette sur l'ouverture des données publiques valent aussi pour les données de la recherche:
"L’administration devrait privilégier le recours à des licences types auxquelles d’éventuelles licences spécifiques seraient automatiquement compatibles. Ces licences types pourraient avoir l’avantage d’une formulation compatible avec les standards internationaux–à la définition desquels la France a un rôle à jouer –et faire l’objet d’une traduction pour accroître l’attractivité des plateformes hors de France."

***

Last but not least, en laissant les données de la recherche dans une zone grise d'indétermination, escomptant par là même une plus grande souplesse d'adaptation à la diversité des cas d'espèce, autrement dit si aucune licence ou condition générale d'utilisation ne vient spécifier les conditions de réutilisation des données,  il se pourrait que l'effet obtenu soit exactement l'inverse de celui escompté. Si l'on se rapporte à un arrêt récent et surprenant de la Cour de Justice de l'Union Européenne, une telle indétermination pourrait se traduire, par un verrouillage centralisé en lieu et place de l'ouverture et de la dissémination des données...





[1] Référence glanée dans le mémoire très documenté de Rémi Gaillard, "De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche ?", ENSSIB, janvier 2014. 





mardi 21 octobre 2014

De l'article aux données: essai de clarification


Le 15 octobre dernier, lors d'une journée organisée par l'Académie des Sciences de Toulouse et intitulée "Démarches scientifiques: quand le numérique bouleverse la donne", les propos des divers intervenants se sont principalement focalisés sur la question de l'émergence d'une nouvelle méthodologie scientifique, basée non plus sur les hypothèses, mais sur les données.

Dans un remarquable exposé, Christine Gaspin (INRA) a expliqué comment la génomique est depuis longtemps basée sur l'exploitation de gigantesques banques de données et comment l'informaticien est amené à occuper une place nouvelle au sein des équipes de chercheurs en sciences du vivant.

Romain Jullien (Muséum d'Histoire Naturelle) a montré comment fonctionne concrètement une science dite participative, qui fait appel à la masse considérable d'observations collectées sur le terrain par des contributeurs bénévoles. Un programme collaboratif tel que Vigie Nature permet d'assurer un meilleur suivi de la biodiversité

Philippe Solal, épistémologue, a exposé les implications de la controverse scientifique suscitée par la parution en 2011 dans la revue Wired, de l'article intitulé "Le déluge de données va rendre la méthode scientifique obsolète". Pour son auteur, Chris Anderson, l'avènement de la science des données vient sonner le glas de l'ancienne démarche scientifique. La méthodologie de cette science 2.0 pourrait se résumer par la formule : "les chiffres parlent d'eux-mêmes". Une science data-driven vient se substituer à une science hypothesis-driven. On ne parle plus de scientist mais de data-scientist.

Mon intervention a consisté à donner une perspective juridique en insistant sur la nécessité de maintenir une science pleinement ouverte. Elle reprenait le contenu de deux billets, parus l'un sur le site Archives Ouvertes, l'autre sur le site de SavoirsCom1.


Rétrospectivement, il m'apparaît nécessaire de préciser certains termes. L'expression "résultats de la recherche" recouvre deux réalités hétérogènes : les articles scientifiques et les données. Ces dernières proviennent elles-mêmes de deux types de sources. Or ces distinctions ne sont pas neutres au regard des mécanismes juridiques enclenchés.



Article/données


Quand on parle de « résultats de la recherche », on reste à un niveau très général qui ne permet pas d'appréhender certains types de traitements spécifiques de l'information, telle la fouille de données. L'expression "résultats de la recherche" recouvre au moins deux notions: l’article et les données.
On pourrait retenir pour les données la définition proposée par l’OCDE [1]
Dans le cadre de ces Principes et Lignes directrices, les «données de la recherche» sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche

Il faudrait distinguer au moins deux types de données : les données primaires issues de la collecte systématique de mesures permettant d'évaluer un phénomène physique quelconque et les données secondaires issues du dépouillement d'une base préexistante, qu'elle soit constituée de chiffres, de texte, de sons ou d'images (cas du produit de la fouille de données appliquée à une plate-forme de revues scientifiques ou à Google...). Ainsi le Text Mining produit des données secondaires, car il consiste en un procédé qui transforme un corpus de textes préexistant en un ensemble de données analysables.

A y regarder de plus près, en un certain sens, les données primaires sont elles-mêmes secondes, dans la mesure où elles sont souvent dérivées, par le biais d'instruments, d'une série de mesures de phénomènes physiques. Mais disons que la distinction entre données primaires et secondaires reste une approximation acceptable.

 On entendra par "article", un texte qui expose et explicite les résultats issus d'une expérience ou produits par l'exploitation de jeux de données.



Double régime juridique


La distinction article/données est primordiale. Car elle conditionne l'application de licences différentes

A) Articles

Comment garantir le droit au libre accès ainsi qu'à la libre réutilisation des articles scientifiques ? Une licence de type CC-BY (Creative Commons - Mention de la Paternité) semble parfaitement convenir. Non seulement elle garantit le respect de l'une des composantes du droit moral, le droit à la paternité, mais elle garantit aussi la réutilisation large des articles scientifiques. C'est cette licence qui est préconisée par la Déclaration BOAI de 2012 :

2.1 Nous recommandons la licence CC-BY, ou toute autre licence équivalente, comme licence optimale pour la publication, la distribution, l'usage et la réutilisation des travaux universitaires.
  • Les archives ouvertes dépendent de permissions de tiers, comme les auteurs ou les éditeurs, et sont donc rarement en position d'exiger des licences libres. Cependant, les décideurs en position d'imposer le dépôt dans les archives devraient exiger des licences ouvertes, de préférence CC-BY, chaque fois qu'ils le peuvent.
  • Les revues en libre accès sont toujours en position d'exiger des licences ouvertes ; pour autant un grand nombre d'entre elles ne se prévalent pas de cette possibilité. Nous recommandons CC-BY pour toutes les revues en libre accès.

B) Données


Pour les données, les choses sont un peu différentes. Par nature, les données forment d'emblée une masse et c'est donc d'abord comme éléments intégrés à un corpus qu'elles doivent être appréhendées juridiquement.

1) Données primaires

Il existe actuellement, comme on le verra plus bas, d'immenses banques de données internationales qui ne sont placées sous aucune licence juridique particulière. Il est toutefois précisé dans les conditions générales d'utilisation des sites qui les hébergent qu'aucune restriction d'usage n'est imposée.

Si nécessité se fait jour d'apposer une licence à ces corpus, le raisonnement sera le suivant. Ou bien l'on considère ce corpus comme un tout et c'est le droit des bases de données qui s'applique. Ou bien l'on ne s'intéresse qu'à une portion de la base de données, et dans ce cas il peut paraître opportun de s'interroger sur la nécessité d'attribuer un statut juridique à chacune des données prises isolément.
Appliquée aux bases de données, une licence de type CC-0 (Domaine public) ou ODBL (Open Data Base Licence) semble parfaitement convenir. Elle garantit une pleine réutilisabilité des données. Pour les données en elles-mêmes, la licence CC-0 semble convenir.

L'intérêt de ces licences est de garantir la poursuite des objectifs énoncés dans l'article 111-2 du Code de la Recherche [2] :
La recherche publique a pour objectifs :

a) Le développement et le progrès de la recherche dans tous les domaines de la connaissance;
b) La valorisation des résultats de la recherche au service de la société, qui s'appuie sur l'innovation et le transfert de technologie;
c) Le partage et la diffusion des connaissances scientifiques en donnant priorité aux formats libres d'accès ;
c bis) Le développement d'une capacité d'expertise et d'appui aux associations et fondations, reconnues d'utilité publique, et aux politiques publiques menées pour répondre aux défis sociétaux, aux besoins sociaux, économiques et du développement durable;
d) La formation à la recherche et par la recherche;
e) L'organisation de l'accès libre aux données scientifiques.
.... "et leur réutilisation" a-t-on envie d'ajouter au petit e). Précisons que, contrairement à ce que l'on entend parfois, la source des données n'est pas oblitérée en cas d'apposition d'une licence CC0. Les métadonnées permettent en effet de mentionner la source: les données ne sont pas laissées orphelines.

2) Données secondaires

Quel doit être le statut juridique des données issues du Text and Data Mining et le statut de l'acte de fouille de données en lui-même ? Des discussions au niveau européen sont en cours. En l'absence de la consécration d'une exception en faveur du Text and Data Mining, les données extraites des bases de données ne sont pas d'emblée libres d'usage. Comme elles sont incorporées à un corpus sur lequel le producteur de la base de données détient un droit de propriété intellectuelle, leur collecte dépend des licences concédées par l'éditeur.



Information/expression


Le droit d'auteur ne protège pas les idées ("les idées sont de libre parcours"), à moins que leur expression ne soit originale. Une donnée ou un article sont-ils suffisamment originaux au point de déclencher la protection du droit d'auteur?


A) Données

Cela va de soi : les données brutes ou primaires ne portent pas la marque d'une originalité. Quant aux données secondaires, elles sont le produit d'un usage qu'on pourrait qualifier, comme le propose le rapport Hargreaves de mai 2014 sur le Text and Data Mining, de "non expressif". Il faut entendre par non-expressif, un acte de reproduction dépourvu d’originalité, notamment s’il est issu d'un traitement automatisé. «Le législateur pourrait adopter une démarche normative et ne reconnaître une protection [au nom du droit de reproduction de la Propriété Intellectuelle] que pour les actes de reproduction ou d’extraction qui comportent effectivement un acte d’exploitation expressif». Cette préconisation est en phase avec la jurisprudence américaine, qui a consacré depuis longtemps la dichotomie idée/expression (jurisprudence Baker vs Selden, codifiée dans le §102(b) du Copyright Act of 1976).

B) Articles

On peut s'interroger sur le statut des articles scientifiques: sont-ils le produit d'un usage expressif ou non? Pour ma part, je serais tenté de répondre que, au contraire d'un jeu de données, un article porte toujours la marque subjective de son ou de ses rédacteurs. C'est vrai au premier chef des articles en sciences humaines et sociales, mais on pourrait dire que, même dans les sciences dites "dures", la rédaction d'un article laisse toujours affleurer la subjectivité du locuteur.

Est-ce à dire qu'il faut considérer les articles scientifiques comme des œuvres de l'esprit? Est-ce cela que l'on veut : une production scientifique intégralement assujettie au régime du Copyright "Tous droits réservés", bref une "science propriétaire"? Ne veut-on pas au contraire que les articles soient librement partagés et réutilisables, conformément aux préconisations de la déclaration BOAI de 2012? Voilà pourquoi la Proposition de loi Attard proposait d'intégrer dans le domaine public "les idées, procédures, procédés, systèmes, méthodes d’opération, concepts, principes ou découvertes, quelle que soit la forme dans laquelle ils sont décrits, expliqués, illustrés ou intégrés à une œuvre"

Dans le même ordre d'idées, le collectif SavoirsCom1 en appelle à la révision de la loi DADVSI de 2006. Transposition en droit français de la directive européenne 2001/29/CE sur l’harmonisation de certains aspects du droit d’auteur et des droits voisins dans la société de l’information, cette loi confère au chercheur «un droit de propriété incorporelle exclusif et opposable à tous» sur ses travaux. Lors même que c'est principe de réutilisabilité qui devrait prévaloir : non pas "Tous droits réservés" mais "Certains droits réservés". Il faudrait dépasser le cadre de la "propriété" pour faire entrer pleinement la recherche dans celui du domaine public.



Libérer les résultats de la recherche de l'emprise du droit sui generis des bases de données



Le droit sui generis des bases de données est issu de la directive communautaire du 11 mars 1996 transposée par la loi du 1er juillet 1998. Il confère aux producteurs de bases de données un droit sur la réutilisation du contenu des bases de données du moment qu'ils justifient d'un investissement matériel, financier ou humain substantiel. Le droit des bases de données conforte la captation par les éditeurs académiques des résultats de la recherche.

A) Articles



C'est seulement si l'article est assorti d'une licence libre, qu'il soit publié sur la plate-forme d'un éditeur  (Gold Open Access) ou dans une archive ouverte, que le droit à la réutilisation est pleinement garanti.


B) Données 

Concernant les données; il faut distinguer deux cas, selon qu'il s'agit de données "primaires" ou "secondaires".

1) Données primaires

La communauté scientifique n'a pas attendu les années 2000 pour alimenter de vastes silos de données issues de l'expérimentation. Ainsi, en sciences du vivant: 
C'est au début des années 80 que les premières banques de données sont apparues sous l'initiative de quelques équipes de par le monde. Très rapidement les initiatives visant à fédérer la collecte et la diffusion des données de la biologie sont apparues en Europe, aux Etats-Unis et au Japon avec, respectivement, l'entrepôt de données de l'EMBL hébergé à l'EBI, la banque de données GenBank hébergée au NCBI et la DDBJ au NIG.[3]
Si l'on regarde les conditions générales d'utilisation de certaines de ces bases, on s'aperçoit qu'aucune restriction n'est mise à la réutilisation. Ainsi pour les bases hébergées sur le site du National Center for Biotechnology Information (NCBI) :
Molecular Database Availability
Databases of molecular data on the NCBI Web site include such examples as nucleotide sequences (GenBank), protein sequences, macromolecular structures, molecular variation, gene expression, and mapping data. They are designed to provide and encourage access within the scientific community to sources of current and comprehensive information. Therefore, NCBI itself places no restrictions on the use or distribution of the data contained therein. Nor do we accept data when the submitter has requested restrictions on reuse or redistribution.
 Cependant, (est-ce là une précaution purement formelle ou l'aveu du risque bien réel d'une revendication de droits sur une partie de ces données?), les CGU précisent que la pleine réutilisabilité des données n'est pas garantie à 100 %:
However, some submitters of the original data (or the country of origin of such data) may claim patent, copyright, or other intellectual property rights in all or a portion of the data (that has been submitted). NCBI is not in a position to assess the validity of such claims and since there is no transfer or rights from submitters to NCBI, NCBI has no rights to transfer to a third party. Therefore, NCBI cannot provide comment or unrestricted permission concerning the use, copying, or distribution of the information contained in the molecular databases.
Les conditions générales d'utilisation de l'International Nucleotide Sequence Database Collaboration (INSDC), organisme qui coordonne les mises à jour des différentes bases, font également le choix de l'ouverture et de la réutilisation des données:

1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party.

Espérons que le principe général d'ouverture de ces vastes banques de données internationales perdurera et ne sera pas mis à mal par les tentatives de toutes sortes pour monétiser l'exploitation de ces données. L'éditeur Thomson Reuters commercialise depuis peu une base payante intitulée Data Citation Index, qui propose une évaluation bibliométrique du taux de citation des jeux de données de la recherche, exactement comme ce qui est déjà fait pour les revues.

2) Données secondaires

A partir du moment où l'on considère les données de la recherche comme le produit d'un usage non-expressif, il y a lieu d'envisager, comme le fait le rapport Hargreaves, la non-application du droit sui generis des bases de données aux données elles-mêmes issue de la fouille de ces bases.
Sans cette exception, les chercheurs sont contraints de négocier avec chaque éditeur pour obtenir un droit de réutilisation. Si le projet Text2Genome, qui impliquait l'analyse de millions d'articles a pris trois ans, c'est parce qu'il a fallu perdre un temps considérable à négocier au cas par cas les droits avec chacun des éditeurs.
Par ailleurs, l'indépendance de la recherche s'en trouve menacée : les chercheurs qui désirent analyser les données de la base SpringerLink doivent déposer préalablement auprès de Springer une déclaration précisant l'objet de la recherche et la méthodologie employée.


Et l'Open data dans tout ça ?


Pourquoi ne pas appliquer une politique d'Open Data aux données de la recherche? Pourquoi cela ne va-t-il pas de soi ?
Tout d'abord, en Europe, la directive Public Sector Information (PSI) de 2013 exclut de son champ d'application les données de la recherche. Mais cette exclusion n'est pas de nature à empêcher les Etats-membres de faire entrer les données de la recherche dans le champ leur politique nationale d'open data.
Il existe un autre blocage. D'après l'article 2 b de la directive PSI de 2003, non modifiée sur ce point par celle de 2013, ne sont pas considérés comme des informations publiques les documents sur lesquels des tiers détiennent des droits de propriété intellectuelle. Il faut alors à nouveau distinguer :

A) Données primaires

Dans les faits, on l'a vu, les données primaires sont stockées dans des silos libres d'accès et de réutilisation. Tant que ces banques de données ne sont pas assorties de licences d'utilisation restrictives, une politique d'Open Data est parfaitement compatible. On pourrait même dire que d'une certaine façon, ces silos sont déjà la concrétisation en actes d'une politique d'Open Data appliquée au domaine de la recherche.

B) Données secondaires

Elles sont susceptibles de faire l'objet d'un droit de propriété intellectuelle à un double titre: le droit du producteur de la base de données et celui de chaque chercheur sur chacun de ses articles. On entre parfaitement dans le cas de figure où un tiers détient un droit de propriété sur les articles ou la base dont sont extraites les données via le TDM. Les données sont comme capturées et perdent leur statut d'informations publiques. Leur dissémination est bloquée... 



Nécessité d'un Domaine Public de l'information


L'apposition d'une licence libre à un jeu de données ou à un article est fonction à la fois du bon vouloir du chercheur et des clauses qui le lient en vertu de son contrat d'édition. Aucun systématisme n'est donc garanti. Seule la consécration d'un Domaine Public de l'Information, tel que défini par l'UNESCO en 2001, intégrant pleinement les résultats de la recherche (qu'ils soient associés à une licence libre de type CC-BY ou CC-0 ou dépourvus de toute licence...), serait susceptible de garantir leur libre réutilisation pleine et entière et d'éviter les risques d'enclosures informationnelles. On trouve les linéaments du concept de DPI dans l'arrêt d'Assemblée plénière de la Cour de Cassation du 30 octobre 1987 : dans l'affaire Microfor, la Cour a consacré le principe selon lequel les pratiques d'indexation ou d'extraction de mots-clés ne sont pas soumises au droit d'auteur.

Vous croyez que le domaine public de l'information est une fiction ? Assurément pas dans les pays de droit anglo-saxon. Voyez comme le site du NCBI le clame et haut et fort :
Copyright Status
Information that is created by or for the US government on this site is within the public domain.
Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment.

***

Au terme de ce parcours, une question se pose. En plaçant les articles et les données dans le périmètre d'un Domaine Public de l'Information, fait-on vraiment sortir les résultats de la recherche hors du cadre de la Propriété Intellectuelle, comme le préconisait l'avocat Alain Bensoussan lors du récent congrès ADBU ? Le domaine public ne représente-t-il pas une vraie-fausse sortie hors du droit de la Propriété Intellectuelle ? Il y a peut-être là une divergence d'approches entre SavoirsCom1 et le projet de charte porté par le CNRS, l’ADBU et le réseau international d’avocats Lexing.

Le domaine public au sens de la Propriété Littéraire et Artistique se définit au regard de la protection appliquée aux œuvres de l’esprit. Notions indissolublement liées, œuvres de l'esprit et domaine public sont comme les deux faces d'une même pièce. Le domaine public se définit en creux, à partir d'une construction jurisprudentielle élaborée à propos de la protection des œuvres de l'esprit. La proposition de loi Attard inversait le rapport entre œuvres de l'esprit et domaine public, les premières devenant l'émanation du second; il n'en reste pas moins que c'est dans et par le Code de la Propriété Intellectuelle que la proposition de loi définissait le domaine public. 

Voilà pourquoi il n'est pas si simple de "sortir" du cadre de la propriété intellectuelle par la porte du domaine public. Peu ou prou, on y est toujours ramené.







[1][2][3] Merci à Christine Gaspin pour la fourniture de ces références.
[3] Extrait d'un texte non publié où C. Gaspin expose les grandes lignes de son intervention.