dimanche 7 juin 2015

Boucles d'Or et les Data

"Il était une fois une maman ours, un papa ours et un petit ours qui habitaient une belle maison dans la forêt. Un jour, maman ours prépara une soupe délicieuse. Comme elle était trop chaude, les trois ours partirent se promener". (1)

The Story of the Three Bears

Peu de temps après, qui se présente devant la maison ? Boucles d’Or. Elle est très fatiguée, alors elle décide d’entrer pour se reposer un peu.

Boucles d’Or ne le sait pas encore, mais quand elle sera plus grande, elle sera chercheuse au CNRS. Elle a déjà la fibre scientifique : elle teste tout ce qu’elle voit et elle compare les objets, les évalue et les classe par ordre de grandeur. Elle s’assoit sur la grande chaise, qu'elle trouve trop haute, sur la chaise moyenne, qui s'avère un peu bancale, et sur la petite chaise, qu’elle trouve parfaite mais qu'elle finit par casser. Elle goûte la soupe du grand bol, qu’elle trouve trop chaude, puis la soupe du bol moyen, qu’elle trouve trop salée, puis la soupe du petit bol, qu’elle trouve parfaite et qu'elle boit entièrement. C'est alors que notre scientifique en herbe voit trois lits et elle ne peut s’empêcher de refaire une expérience : elle s’allonge dans le grand lit qu’elle trouve trop dur, elle s'allonge dans le lit moyen qu’elle trouve trop mou, puis dans le petit lit qui se trouve être parfait. Boucles d'Or s'endort aussitôt.

A ce stade de l'histoire, et dans une certaine mesure, les trois ours n’existent que dans le regard de Boucles d’Or : ce sont ses hypothèses qui donnent corps à l’idée des trois ours, c’est son regard qui établit un ordre de hiérarchie entre les ours ou entre les objets. Les hypothèses de Boucles d’Or s’agrègent en trois masses : Small Data pour le petit ours, Medium Data pour la maman ours et Big Data pour le papa ours.

Boucles d’Or s'est endormie dans le petit lit du petit ours. Les trois ours reviennent de leur promenade et leurs voix la réveillent. Apeurée, elle s’enfuit. Dans certaines versions du conte, le départ de Boucles d'Or n'est pas aussi brusque : Papa Ours (Big Daddy ou Big Data) indique à Boucles d'Or son chemin. Quoi qu'il en soit, il y a plusieurs façons d’interpréter la fuite ou le départ de Boucles d'Or.

Goldilocks 1912

Ou bien il faut y voir une signification d’ordre épistémologique. Quand Small Data, Medium Data et Big Data réveillent Boucles d'Or, c'est comme si un Nouveau Monde remplaçait l'Ancien. Désormais, Small Data, Medium Data et Big Data prennent le pouvoir; les données sont les seules maîtresses à bord de la maison-laboratoire. Le réveil brutal de Boucles d'Or correspond à l'irruption brutale des données dans le cadre de la méthode scientifique usuelle. La nouvelle méthode ne consiste plus à émettre des hypothèses puis à les tester par des expériences. La nouvelle manière de faire de la science part de données sans hypothèse et sans modèle. Comme le dit le journaliste Chris Anderson, « avec suffisamment de données, les chiffres parlent d'eux-mêmes ». Les données prennent le pas sur les hypothèses. 

Ou bien encore, sans que cela soit contradictoire avec la précédente interprétation, si Boucles d'Or s'enfuit, c'est qu'elle est punie pour sa désinvolture : elle s’est assoupie en oubliant de conserver quelque part dans un coin de sa mémoire la somme des données d’expérience accumulées.

Mais cette dernière hypothèse est infirmée par le fait que l’histoire de Boucles d’Or a perduré à travers le temps. Il faut donc supposer que, après s’être enfuie dans les bois, Boucles d’Or a rencontré un conteur qui a gardé trace de son expérience. C’est grâce au récit de ce conteur, que la description de l’expérience de Boucle d’Or et les données sous-jacentes non seulement ne se sont pas perdues, mais ont été disséminées, partagées et finalement réutilisées, comme je viens de le faire. Le conteur/compteur, c’est le bibliothécaire.

(1) Version d'Annelore Parot

vendredi 15 mai 2015

"Les Regrets" de Cédric Kahn ou l'amour au temps de l'hyperconnexion

A quoi ressemblent une relation ou une rupture amoureuses à l'ère de l'hyperconnexion ? Le numérique, en tant qu'ensemble d'hyperliens ou d'objets connectés, permet-il de consolider l'union ou de conjurer la séparation? Telles sont les questions passionnantes posées par le film "Les Regrets" de Cédric Kahn (2009).





Certes, dans le film, les protagonistes ne sont pas équipés de téléphones de dernière génération. Pas de smartphones, mais des téléphones filaires parfois antiques, ou de simples téléphones mobiles permettant tout au plus... de téléphoner et d'envoyer des SMS. Il n'en reste pas moins que les téléphones jouent un rôle tellement important dans l'action du film, qu'ils apparaissent comme la métonymie de nos relations à l'heure de l'hyperconnexion : la capacité que permettent les outils numériques de joindre et de garder contact avec n'importe qui à toute heure du jour ou de la nuit (même dans une chambre d'hôpital aux côtés d'une mère agonisante).

Dès la scène de la rencontre, le téléphone fait son entrée. Quinze ans après leur rupture, lorsque Mathieu (Yvan Attal) revoit Maya (Valeria Bruni-Tedeschi) dans la rue, elle est absorbée dans une conversation téléphonique et ne le voit pas immédiatement. Scène fugitive qui pourrait illustrer l'idée souvent rebattue selon laquelle les technologies coupent leurs adeptes du contact avec la "vie réelle".

Mais à l'inverse, d'autres événements montrent que le téléphone permet de créer de nouvelles connexions ou de maintenir des liens. C'est lui qui permet à Maya de renouer contact avec Mathieu retourné pour quelques jours dans la maison de sa mère. C'est lui qui permettra à Maya de joindre Mathieu au café dans lequel ils s'étaient donné rendez-vous, pour s'excuser de son retard et lui proposer de se retrouver chez elle, dans une ferme isolée. On apprendra plus tard qu'une situation assez semblable avait conduit à la séparation des amants, quinze ans plus tôt  : Mathieu avait attendu Maya deux heures dans un bar, et ne la voyant pas venir avait décidé que c'était la fin de leur relation. Le téléphone a donc permis d'éviter que ne se reproduise le trauma initial, de bloquer le retour du Même.

La scène de séparation à la gare est l'une des plus belles scènes du film. Sur le quai, Maya fait ses adieux définitifs à Mathieu. Elle doit partir en Amérique du Sud avec sa fille et son compagnon. A peine le train a-t-il démarré, Mathieu envoie un SMS. "As-tu des regrets ?" demande-t-il. Maya répond par un autre SMS : "Je n'ai que des regrets". Les scènes de séparation sur un quai de gare sont devenues un cliché cinématographique. Mais l’immixtion du téléphone dans la scène permet de revisiter le motif éculé. Le téléphone permet de pointer la contradiction du sentiment amoureux : "nous nous séparons même si je n'ai que des regrets". Mais ce que nous dit aussi cette scène, c'est que le téléphone permet de maintenir un lien entre les amants au moment-même où la rupture est prononcée. C'est ce que les linguistes appellent une contradiction performative, c'est-à-dire "lorsqu'on agit d'une manière qui dément les propos que l'on tient au moment où l'on agit". Le téléphone permet également d'exprimer par des mots le "off" de la séparation. Les amants désunis échangent en temps réel sur la façon dont ils vivent les choses de l'intérieur. L'intime devient "extime", la séparation est en même temps une communion. 

On pourrait encore multiplier les exemples. Ou bien chercher ailleurs des contre-exemples. D'une certaine manière, le film de Jérome Bonnell "Le temps de l'aventure" (2013) se présente comme le double inversé du film de Cédric Kahn. Pour Alix Aubane (Emmanuelle Devos), "l'aventure" commence lorsqu'elle oublie le chargeur de batterie de son téléphone dans sa chambre d'hôtel. Il lui reste les cabines téléphoniques pour contacter son compagnon, mais celui-ci est injoignable. C'est justement cette rupture des télécommunications qui ouvre dans la vie d'Alix la possibilité d'une nouvelle rencontre : celle d'un inconnu entraperçu dans un train (Doug, interprété par Gabriel Byrne). Le scénario du film de Bonnell semble fonctionner à partir d'une idée simple: l'amour trouve sa possibilité dans un lâcher prise avec le quotidien, quand les liens sont distendus. 

Le film de Cédric Kahn explore la dimension inverse : que se passe-t-il lorsqu'il est toujours possible de garder contact avec l'autre, lorsque l'autre est toujours immédiatement "joignable"? Difficile de dire si, au final, le téléphone agit comme un adjuvant efficace pour prémunir les amants de la rupture, ou si, au contraire il catalyse la désagrégation perpétuelle du couple. Mathieu et Maya vont de ruptures en réconciliations, de réconciliations en ruptures, et la fin ouverte ne donne aucune réponse. A moins que le film de Cédric Kahn n'arrive à cette conclusion un peu amère: les moyens de communication permettraient, pour parler comme Guy Debord, de "réunir le séparé en tant que séparé"...

Ironie de l'histoire: le chanteur Philippe Katerine, qui fait partie du casting du film, devait signer quelques années plus tard, en 2012, une chanson hilarante sur la vie contemporaine d'un "accro" du smartphone :



dimanche 10 mai 2015

Régression du partage

[Traduction d'un billet publié le 7 mai par Kevin Smith, Directeur de l'Office of Copyright and Scholarly Communication de la Duke University sur le blog Scholarly Communications@Duke]




"L'annonce faite par Elsevier à propos de sa nouvelle politique en matière de droit d'auteur, est un chef-d'oeuvre de double langage : tout en proclamant que la compagnie est en train de "lâcher la bride à la puissance du partage", elle immobilise en fait le partage en lui mettant une laisse, et même autant de laisses que possible. Il s'agit d'un recul de l'open access et il est important d'appeler les choses par leur nom.

Pour rappeler le contexte, depuis 2004 Elsevier a autorisé les auteurs à auto-archiver sans délai la version finale acceptée de leur manuscrit dans un dépôt institutionnel. En 2012, Elsevier a tenté d'ajouter une mesure stupide et digne de tomber immédiatement dans les oubliettes, pour punir les institutions qui avaient adopté une politique de libre accès : l'éditeur a prétendu révoquer les droits d'auto-archivage des auteurs issus de ces établissements. Ce fut un effort vain pour saper les politiques d'open access. Clairement, Elsevier espérait que ses sanctions décourageraient l'adoption de telles politiques. Cela n'a pas été le cas. Les auteurs académiques ont continué à plébisciter la voie verte en tant que politique par défaut pour la diffusion du savoir. En seulement une semaine, à la fin du mois dernier, les Universités de Caroline du Nord, de Chapel Hill, de Penn State, et de Dartmouth ont toutes adopté de telles politiques.

Pour tenter de recoller à la réalité, Elsevier a annoncé la semaine dernière qu'il faisait disparaître sa restriction punitive qui s'appliquait uniquement aux auteurs dont les institutions s'étaient montrées suffisamment téméraires pour soutenir l'open access. L'éditeur qualifie maintenant cette politique de «complexe» - elle était juste ambiguë et inapplicable - et affirme qu'il va «simplifier» les cas de figure pour les auteurs publiant chez Elsevier. En réalité, l'éditeur est tout simplement en train de punir n'importe quel auteur qui serait assez fou pour publier selon les termes de cette nouvelle licence.

Deux principales caractéristiques de cette régression en termes d'ouverture doivent être soulignées. Premièrement, Elsevier impose un embargo d'au moins un an sur tout auto-archivage de la version finale auteur, et ces embargos peuvent aller jusqu'à quatre ans. Deuxièmement, lorsque la durée s'est finalement écoulée et qu'un auteur peut rendre son propre travail disponible par le biais d'un dépôt institutionnel, Elsevier dicte maintenant la façon dont cet accès doit être contrôlé, imposant la forme la plus restrictive des licences Creative Commons, la licence CC-BY-NC-ND pour tout dépôt en green open access.

Ces embargos constituent la caractéristique principale de cette nouvelle politique, et ils sont à la fois compliqués et draconiens. Loin de rendre la vie plus simple pour les auteurs, ces derniers doivent maintenant naviguer à travers plusieurs pages web pour enfin trouver la liste des différentes périodes d'embargo. La liste elle-même fait 50 pages, puisque chaque revue a son propre embargo, et surtout, on constate à l'évidence un effort pour étendre de façon considérable la durée par défaut. De nombreuses revues américaines et européennes ont des embargos de 24, 36 et même 48 mois. Il y a beaucoup d'embargos de 12 mois, mais on peut supposer que ce délai est imposé parce que ces journaux sont déposés dans PubMed Central, où 12 mois est la durée maximale d'embargo autorisée. Maintenant cette durée maximale d'embargo s'impose également aux auteurs en tant qu'individus. Pour beaucoup d'autres revues, un embargo encore plus long, qui n'est absolument pas étayé par la preuve qu'il serait nécessaire pour maintenir la viabilité des journaux, est désormais la règle. Et il y a une poignée de journaux, tous d'Amérique Latine, d'Afrique et du Moyen-Orient, d'après ce que je peux voir, où aucun embargo n'est imposé; je me demande si c'est le résultat de règles spécifiques à chaque pays ou tout simplement un calcul cynique portant sur la fréquence réelle de l'auto-archivage de ces journaux.

L'autre effort pour gérer au plus près l'auto-archivage par le biais de cette nouvelle politique, consiste à exiger que tous les auteurs qui font preuve de persévérance et qui souhaitent, après la période d'embargo, déposer leur manuscrit final dans un dépôt institutionnel, doivent apposer une clause de non-exploitation commerciale et de non-modification de leurs travaux dans la licence associée à chaque article. Ceci, bien sûr, limite encore davantage la réutilisabilité de ces articles pour un partage effectif et pour le progrès de la science. C'est un aspect supplémentaire qui montre que la nouvelle politique est exactement l'inverse de la façon dont Elsevier la présente ; c'est un recul par rapport au partage et un effort pour faire retourner à son point d'inertie le mouvement vers une science plus ouverte.

La croissance rapide des politiques de libre accès dans les établissements américains et dans le monde suggère que de plus en plus de chercheurs veulent rendre leur travail aussi accessible que possible. Elsevier pousse fortement dans la direction opposée, en essayant de retarder et de limiter le partage du savoir autant qu'il le peut. Il semble clair qu'ils ont l'espoir de contrôler les conditions de ce partage, de façon, tout à la fois, à en limiter l'impact supposé sur leur modèle d'entreprise et, finalement, à le tourner si possible à leur profit. Ce dernier objectif peut être une plus grande menace pour l'open access que les détails des embargos et les licences. En tout cas, il est temps, je crois, de réfléchir à nouveau au boycott d'Elsevier, soutenu par de nombreux auteurs scientifiques il y a quelques années; avec cette nouvelle salve tirée contre les valeurs de la science ouverte, il est encore plus impossible d'imaginer un auteur un tant soit peu responsable décider de publier chez Elsevier."


NB: pour prolonger la réflexion, voir aussi la réaction de Steven Harnad sur son blog.











jeudi 7 mai 2015

PNB-Adobe: consécration d'un "DRM mental" (mais pas que...)

C'est le 6 mai qu'a au lieu la journée internationale contre les DRM. L'occasion de revenir sur ces mesures techniques apposées à un grand nombre de fichiers de livres numériques acquis par les bibliothèques. Mais l'idée de ce billet trouve également son origine dans des discussions récentes menées avec deux représentants commerciaux de sociétés spécialisées dans la revente d'e-books.

Le premier interlocuteur m'a présenté son offre dans le détail. Si je devais la résumer en une formule, ce serait : "DRM land". Des DRM partout, omniprésents... Un vrai enfer sur terre pour les lecteurs, en fait :
  • Chaque livre correspond en moyenne à 400 "crédits"/an renouvelables​
  • 1 crédit = 1 usager 24 h sur 1 livre
  • Les livres sont proposés soit en streaming, soit en téléchargement, sachant qu’1 téléchargement = 1 crédit et que le pdf est chronodégradable
  • Les livres ne peuvent être lus qu'avec le logiciel Adobe Digital Edition​
  • Le lecteur doit se créer un compte personnel sur Adobe Digital Edition
  • Si les 400 crédits sont épuisés, le livre est rendu "indisponible" par le logiciel 
  • 1'usager ne peut s’authentifier avec son compte Adobe que sur 6 postes maximum​
  • Le pdf téléchargé (et chronodégradable) ne peut être lu que sur l’appareil de destination initiale, ce qui signifie que si le lecteur télécharge une première fois le livre emprunté depuis un poste de la bibliothèque, il l'a dans le baba : il ne pourra plus l'ouvrir depuis son poste à la maison
A moitié assommé et suffoqué par l'avalanche de ces conditions plus limitatives les unes que les autres de la liberté du lecteur, j'ai demandé candidement quel était le pourquoi du comment. La réponse qui m'a été donnée semblait provenir d'un discours bien rôdé et se résumait à : "C'est pour sauver l'édition française; elle fait face à une crise économique et les DRM sont le moyen de l'endiguer".

Gavin protests
Gavin protests. Par Karen Rustad. Mis à disposition selon les termes de la licence CC-BY 2.0. Source: Flickr

La discussion avec le second revendeur d'e-books a été plus brève mais tout aussi instructive. Il s'agit d'un revendeur qui est en phase de démarrage d'activité et c'est pourquoi son discours n'était pas bien assuré. A ma question inquiète et fiévreuse : "Rassurez-moi, vous êtes capable de fournir des e-books en accès illimité ​si possible sans DRM, hein ?", le représentant commercial m'a répondu: "La loi nous oblige à apposer des DRM". Là, j'ai eu quelques secondes de panique : avais-je manqué le vote d'une nouvelle loi passée en douce qui rend les DRM obligatoires ? La discussion se poursuit et finalement mon interlocuteur convient que l'apposition de DRM n'est pas imposée par la loi. Elle répondrait néanmoins à la demande de bon nombre d'éditeurs français.

Naissance d'un "DRM mental"


Que montrent ces deux discussions? Que, depuis quelques mois, paraît comme aller de soi l'assertion selon laquelle les DRM sont nécessaires pour sauver l'édition française. A en croire ce discours, un monde sans DRM n'est plus possible.

Et si ce discours décomplexé apparaît au grand jour, c'est ce qu'on pourrait appeler "l'effet Valois". Le 8 décembre 2014, le Ministère de la Culture a signé et a fait signer par les bibliothèques de lecture publique, les représentants des associations professionnelles et des collectivités territoriales, une liste de 12 "Recommandations pour une diffusion du livre numérique par les bibliothèques publiques". Certes, les recommandations portent des réserves sur les mesures techniques de protection :

7. Reconnaître que les systèmes de gestion des droits numériques sont légitimes pour réguler les usages des livres numériques en bibliothèque publique, mais qu’ils ne doivent pas rendre l’accès aux œuvres moins aisé. Les systèmes de gestion des droits numériques contribuent à la protection du droit d’auteur et permettent de gérer le service de prêt numérique.Pour autant, le recours à des systèmes de gestion de droits ne doit pas rendre totalement impossibles les usages autorisés par la loi pour les bibliothèques et leur public. La conception de systèmes de gestion et de protection des droits numériques permettant une interopérabilité maximale et un accès aux œuvres le plus aisé possible doit être encouragée et leur adoption privilégiée.Les mesures techniques de protection ne sont pas l’unique système de gestion et de protection des droits numériques. D’autres types de dispositifs que ceux qui sont communément utilisés aujourd’hui dans les offres aux collectivités peuvent être adoptés s’ils garantissent un service de qualité ou permettent de l’améliorer, dans le respect du droit d’auteur.
Il n'en reste pas moins que l'esprit général des recommandations se résume au choix de privilégier la voie contractuelle au détriment de la voie légale en matière de prêt d'e-books en bibliothèque de lecture publique. L'Etat se garde bien de légiférer, ce qui laisse le champ libre aux acteurs les plus puissants du marché de l'édition pour imposer leurs conditions aux bibliothèques. Ce qu'on pourrait résumer de la façon suivante : "pour la fixation des prix et le choix d'apposer des DRM, c'est open bar..."

Derrière les recommandations du Ministère se profile le déploiement du projet "Prêt Numérique en Bibliothèque" (PNB) porté par la société interprofessionnelle Dilicom et adossé techniquement aux DRM développés par la société Adobe. En gestation puis en expérimentation depuis 2012, PNB est financé par le Conseil National du Livre (CNL), dont la tutelle est le Ministère de la Culture. Bien que présenté comme la solution miracle pour le prêt de livres numériques en bibliothèques, le projet PNB appelle comme on va le voir un certain nombre de critiques sérieuses...

En soutenant financièrement le projet PNB, puis en signant les 12 recommandations pour la diffusion du livre numérique, le Ministère de la Culture a conféré aux DRM une consécration non pas légale, mais quasi-légale (d'où la confusion de mon second interlocuteur). Il a contribué à la constitution de ce qu'on peut appeler avec @Calimaq un "DRM mental". Désormais, un imaginaire collectif s'est modelé autour de la conviction que les DRM ont toute leur place en bibliothèque... puisque le principe même en a été validé par la rue de Valois.

Est-ce un hasard ? Dans la communication officielle autour de PNB, il n'est jamais fait mention des DRM fournis par la société Adobe. Cela s'explique sans doute d'abord par la volonté d'effacer au maximum la mention des intermédiaires techniques, afin de donner au projet l'aspect plus ou moins neutre d'un programme national déconnecté de la sphère privée. Cela s'explique aussi du fait que la solution technique Adobe Digital Edition a, comme on le verra, plutôt mauvaise presse dans d'autres pays. Pour la suite du propos, dans un souci de clarté, nous parlerons non pas du projet "PNB", mais du projet "PNB-Adobe".

Les raisons juridiques et éthiques de refuser les DRM Adobe


Comme l'a bien montré le journaliste Nicolas Gary, en rajoutant une couche de droits sur les contenus numériques, la suite logicielle Adobe Digital Edition rend ces contenus illisibles depuis le système d'exploitation Linux. Les DRM d'Adobe ont donc pour effet de convertir les fichiers EPUB en un format propriétaire.
Le constat de fait se heurte à la lecture à la lettre du texte le plus récent encadrant le contrat d'édition. L'Arrêté du 10 décembre 2014 pris en application de l'article L. 132-17-8 du code de la propriété intellectuelle et portant extension de l'accord du 1er décembre 2014 entre le Conseil permanent des écrivains et le Syndicat national de l'édition sur le contrat d'édition dans le secteur du livre précise les conditions de l'exploitation permanente et suivie de l'édition imprimée et numérique de l'œuvre. Pour l'édition numérique, l'éditeur est tenu de :
  • La rendre accessible dans un format technique exploitable en tenant compte des formats usuels du marché et de leur évolution, et dans au moins un format non propriétaire.
  • La rendre accessible à la vente, dans un format numérique non propriétaire, sur un ou plusieurs sites en ligne, selon le modèle commercial en vigueur dans le secteur éditorial considéré.
Apposer des DRM Adobe sur un livre numérique revient à exclure la possibilité de proposer ce contenu "dans un format non propriétaire". Les DRM d'Adobe sont donc non conformes à la législation la plus récente.

Et c'est pas fini...

Sauf dans le cas où l'on est Ministre de l'Intérieur et que l'on fait des déclarations ahurissantes pour dire que la vie privée n'est pas une liberté fondamentale, (le ministre devrait refaire des études de droit : aucun étudiant de droit de fin de première année de licence n'oserait proférer une pareille ineptie...), il est du devoir de tout citoyen de s'inquiéter quand une mesure technique est de nature à porter atteinte à la vie privée. Or un scandale récent a démontré que le DRM d'Adobe est parfaitement invasif dans ce domaine: le DRM permet la collecte non seulement de données sur le livre que le lecteur est en train de lire, mais sur l'ensemble des livres stockés sur son terminal. Une collecte d'autant plus inquiétante que la firme Adobe a été victime par le passé d'attaques informatiques visant notamment à subtiliser les données personnelles des lecteurs.

Et c'est pas fini...


Les raisons pratiques de refuser PNB-Adobe


La firme américaine Adobe est familière des pratiques qui consistent à procéder à des mises à jour inopinées de son système logiciel sans se préoccuper des problèmes de compatibilité pour ses clients, éditeurs ou lecteurs. Alertées par leurs lecteurs, les éditions Gallimard, directement touchées par une mise à jour survenue en janvier 2014, n'ont pas eu de mots assez durs pour qualifier ces "pratiques autocratiques déplorables".

Non seulement les mises à jour auxquelles Adobe procède sans crier gare menacent de rendre les e-books illisibles du jour au lendemain, mais, même dans le cas général où aucun problème technique ne bloque l'accès du lecteur aux fichiers acquis, le maniement du logiciel Adobe Digital Edition s'avère complexe. D'après une étude récente menée auprès d'usagers par les experts de la société "tea" (the ebook alternative):
Le constat est sans appel : aucun utilisateur ne réussira à créer son compte Adobe sans aide. Voici les statistiques liées aux manipulations réalisées pendant l’étude et à l’utilisation d’un compte Adobe :

26% ne comprennent pas la différence avec le compte libraire ;

22% pensent qu’il s’agit d’une sorte de Reader ;

30% ne comprennent pas et ne font rien ;

18% font ce qui est nécessaire sans comprendre (et parviennent à créer leur compte avec aide)

4% connaissent déjà (et parviennent à créer leur compte avec aide)

0% arrivent à créer leur compte ADOBE sans aide


Et c'est pas fini...

Les raisons économiques de refuser PNB - Adobe


Il suffit de se reporter à l'analyse rendue par RéseauCAREL en février 2015 pour se convaincre que le modèle financier promet de mauvaises surprises pour les bibliothèques :

La péremption des jetons [gérée par le DRM Adobe Digital Edition] joue ici aussi un très mauvais rôle, ce critère augmentant encore le surcoût du numérique par rapport au titre papier puisque pour beaucoup de titres, ce ne sera pas par le nombre de jetons du lot qu’il faudra diviser le prix du titre pour obtenir le coût unitaire d’un prêt ; un titre prêtable 30 fois par exemple pourrait très bien, à cause de cette contrainte temporelle, n’être dans les faits prêté que 10 ou 15 fois dans le temps imparti par la licence et donc le coût réel du prêt unitaire pour ce titre sera encore multiplié par 2 ou 3 !

Et c'est pas fini...

Le collectif SavoirsCom1 a récemment pris sa calculette et a fait les comptes: si les bibliothèques desservant des villes de 40 000 à 100 000 habitants n'achetaient en version numérique que les nouveautés qu'elles achètent déjà en format papier, il leur en coûterait entre 490 000 € et près de 1,3 millions d'€. Voilà une nouvelle qui tombe mal au moment où l'Etat baisse considérablement ses dotations à destination des collectivités territoriales...



Un monde sans DRM est possible...


Pour finir, rappelons qu'un monde sans DRM est possible. Sur son blog, Hervé Bienvault dénombre au 15 avril 2015, 166 éditeurs français sans DRM, auxquels il faut ajouter 80 éditeurs pure players.
En Allemagne, le Börsenverein, l'équivalent de ce qui résulterait de la fusion en France de notre Syndicat National des Editeurs et de notre Syndicat de la Librairie Française, a indiqué en février 2015 son souhait d'abandon des DRM. Plus récemment encore, DuMont, l'une des plus grandes maisons d'édition indépendantes allemandes, a annoncé sa décision d'abandonner les DRM à l'automne 2015 et de les remplacer par des watermarks, tatoutages numériques qui ne présentent pas pour les lecteurs les mêmes difficultés techniques que les DRM.
Autre possibilité : le rapport remis à la Commission européenne par la députée Julia Reda propose de rendre obligatoire la communication du code source ou des spécifications d’interopérabilité des DRM, de façon à offrir la possibilité de vérifier que les DRM ne sont pas un cheval de Troie permettant d'entrer dans l'intimité du lecteur, et qu'ils ne bloquent pas l'utilisation du contenu selon le terminal utilisé.



vendredi 20 février 2015

Données sans licence ne sont que ruine de la science

Le 16 janvier dernier, l'ADBS (association des professionnels de l'information et de la documentation) a consacré une journée d'étude à la gestion des données de la recherche, journée assez passionnante du fait de la diversité des expériences de terrain et des domaines scientifiques envisagés. J'en retiens notamment la première intervention, qui présentait les grandes lignes d'un "Data Management Plan" multi-disciplinaire, ayant vocation à s'appliquer à l'échelle de l'ensemble des établissements de l'enseignement supérieur rattachés à la Communauté d'Universités et d'Etablissements Sorbonne Paris Cité. C'est en soi une première en France, et il est très probable que d'autres établissements universitaires s'engageront dans le sillon tracé par la COMUE SPC. Vous pouvez retrouver l'ensemble des présentations sur le site de l'InVisu.


De l'enjeu des licences en matière d'open data


Durant la journée, il a beaucoup été question de stockage matériel des données, condition concrète de leur conservation et de leur mise à disposition, et de l'élaboration de politiques de coopération avec les laboratoires afin de collecter et de conserver des données normées dans des formats interopérables. Cependant, la question de la réutilisation, plus précisément des conditions juridiques garantissant la pleine réutilisabilité de ces données, a été assez peu abordée. Non pas que les questions juridiques aient été totalement évacuées des présentations; mais elles ont surtout été abordées dans le cas particulier des silos de données semi-fermés, dont l'accès est restreint à un certain type de population. Telle BeQuali, la Banque d'Enquêtes Qualitatives développée par le Centre de données socio-politiques UMS 828 IEP Paris-CNRS, et destinée à mettre à disposition des enquêtes en Sciences Humaines et Sociales: pour des raisons touchant essentiellement à la protection des données personnelles, l'accès de cette base est réservé aux enseignants-chercheurs et aux étudiants justifiant d'un projet de recherche. La mise en ligne de BeQuali a nécessité deux ans de réflexion sur la délimitation en amont d'un cadre juridique permettant un accès contrôlé aux données.

Toujours est-il qu'il manquait une mise en perspective sur le choix des licences applicables aux données de la recherche lorsqu'elles sont destinées à être librement réexposées et réutilisées. La question de l'open data et des licences types idoines est restée globalement absente des présentations.

On sait que les risques liés à la non-apposition d'une licence à un jeu de données sont multiples. Qu'il s'agisse de la captation des données de la recherche par des réseaux sociaux académiques, susceptibles de revendiquer la propriété des données en vertu des Conditions Générales d'Utilisation que les chercheurs signent au moment de s'inscrire sur leurs sites. Qu'il s'agisse de la monétisation de l'accès aux données de la recherche par le biais de la republication sur des plateformes dédiées mises à disposition par des éditeurs scientifiques. Ou qu'il s'agisse de la privatisation des données de la recherche dans le cadre de contrats de recherche signés entre un établissement universitaire et une entreprise privée, même dans le cas où le financement est majoritairement issu de fonds publics.

Le loup et agneau G-F Townsend 1867 GB
Le loup et l'agneau. Par G-F Townsend, 1867, sur Wikimedia Commons. Sans licence, les données seront à la merci du premier prédateur venu qui se les appropriera "sans autre forme de procès"...

L'enjeu des licences ne s'appréhende pas seulement en creux, mais peut être aussi défini positivement. Une licence spécifiant les conditions de réutilisation des données de la recherche permet de répondre à trois objectifs:

  • impératif épistémologique de réutilisation - La science se construit par la réutilisation, la confrontation et la critique des travaux précédents. L'exploitation et la réutilisation des données produites jouent dans la méthode scientifique un rôle grandissant
  • impératif technique d'intégration - A l'heure du Big Data, les volumes considérables de données à entrecroiser font de l'interopérabilité des données une nécessité.
  • impératif juridique de simplification - "La forêt des termes et conditions autour des données rend l'intégration difficile à réaliser légalement dans de nombreux cas". (Protocol for Implementing Open Access Data de la fondation Science Commons
Ceci ainsi posé, quelles sont les principales licences recommandées en matière d'open data appliqué aux données de la recherche ?


CC0 et PDDL, les deux principales licences standard pour l'ouverture des données de la recherche


De nombreux entrepôts de données de recherche internationaux ont fait le choix de licences ouvertes standard.

Le cas de Dryad, entrepôt spécialisé dans la biologie de l'évolution et l'écologie est intéressant. Les concepteurs de Dryad ont fait le choix de la licence CC0, licence qui aménage le reversement des données dans le "domaine public vivant". Pourquoi le choix de la licence CC0, qui implique la renonciation à tous droits d'auteur y compris le droit à la paternité, plutôt que le choix de la licence CC-BY ? Parce que la licence CC0 a été conçue pour éviter les obstacles juridiques liés à la revendication de droits d'auteurs. Pour autant, comme l'explique très bien l'équipe de Dryad sur son blog [1], la licence CC0 ne dispense pas en pratique les chercheurs de citer leurs sources: cela fait partie des normes universitaires véhiculées et appliquées au travers de processus tels que l'examen par les pairs. Cet état de fait est rappelé dans la FAQ des Panton Principles for Open Data in Science de l'Open Knowledge Foundation :
Q11: What are community norms and why are they important?
A given community has a set way of working, an intrinsic methodology of activities, processes and working practices for which a consensus exists for the appropriate way in which these practices are carried out. For example, in the scholarly research community the act of citation is a commonly held community norm when reusing another community member’s work.
Community norms can be a much more effective way of encouraging positive behaviour, such as citation, than applying licenses. A well functioning community supports its members in their application of norms, whereas licences can only be enforced through court action and thus invite people to ignore them when they are confident that this is unlikely.
Loin de céder le pas aux licences, les pratiques érigées en normes par la communauté ont une efficacité plus grande que les clauses contractuelles.

Prenons un cas différent. Les concepteurs de Pangaea, entrepôt de données allemand spécialisé en sciences marines, ont fait le choix de déposer les données sous licence Creative Commons Attribution (CC-BY). Cependant, on ne peut que s'interroger sur la pertinence de ce choix qui va à l'encontre des préconisations de la fondation Science Commons énoncées dans le Protocol for Implementing Open Access Data:
“5.3 Attribution stacking

Last, there is a problem of cascading attribution if attribution is required as part of a license approach. In a world of database integration and federation, attribution can easily cascade into a burden for scientists if a category error is made. Would a scientist need to attribute 40,000 data depositors in the event of a query across 40,000 data sets? How does this relate to the evolved norms of citation within a discipline, and does the attribution requirement indeed conflict with accepted norms in some disciplines? Indeed, failing to give attribution to all 40,000 sources could be the basis for a copyright infringement suit at worst, and at best, imposes a significant transaction cost on the scientist using the data.”
En effet, dans le cadre d'une fouille de données réalisée à partir d'un nombre conséquent de bases de données, il devient proprement irréaliste de citer chaque producteur de jeu de données. La Licence CC-BY s'avère donc particulièrement  inadaptée.

Hormis la licence CC0, quelles autres licences sont appropriées pour garantir l'ouverture des données de la recherche ? Il existe déjà un grand nombre d'autres licences standard orientées open data. Des licences nationales, telle la Licence Ouverte de la mission Etalab. Ou bien les trois licences Open Data Commons de l'Open Knowledge Foundation : la licence ODbL (Open Database License), la licence ODC-By (Open Data Commons Attribution License) et la licence PDDL (Public Domain Dedication and Licence).

Cependant, parmi toutes ces licences, seule la dernière permet, tout comme la licence CC0, de reverser les données de la recherche dans le domaine public. C'est pourquoi l'OKFN recommande fortement l'emploi de l'une ou l'autre licence pour les données de la recherche (point 4 des Principes de Panton) :
"Furthermore, in science it is STRONGLY recommended that data, especially where publicly funded, be explicitly placed in the public domain via the use of the Public Domain Dedication and Licence or Creative Commons Zero Waiver. This is in keeping with the public funding of much scientific research and the general ethos of sharing and re-use within the scientific community. Explicit dedication of data underlying published science into the public domain via PDDL or CCZero is strongly recommended and ensures compliance with both the Science Commons Protocol for Implementing Open Access Data and the Open Knowledge/Data Definition."
D'après le Datahub de l'OKFN, il existe actuellement dans le monde 190 jeux de données sous licence PDDL et 441 jeux de données sous licence CC0.

CGU ou licence open standard ?


L'une des questions que je me suis posées dans un précédent billet est la suivante: peut-on mettre à disposition des données de la recherche sans licence standard? A priori, on peut faire l'économie d'une licence type si l'on spécifie des conditions générales d'utilisation qui déterminent les conditions de réutilisation des données entreposées. Voici quelques exemples de CGU remplissant cette fonction : 
  • GenBank: "NCBI places no restrictions on the use or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted."
"1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.
2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party."
"Information that is created by or for the US government on this site is within the public domain. Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment."
"Unless otherwise noted, publications and webpages on this site were created for the U.S. Department of Energy Human Genome Project program and are in the public domain. Permission to use these documents is not needed, but credit the U.S. Department of Energy Human Genome Project and provide the URL http://www.ornl.gov/hgmis when using them. Materials provided by third parties are identified as such and not available for free use."
Ces quatre exemples peuvent laisser à penser que  l'apposition d'une licence à un jeu de données ne procède d'aucune nécessité. Mais les cas cités concernent des bases en génomique de notoriété mondiale. Les règles de réutilisation sont connues et appliquées par la communauté scientifique depuis plusieurs années, voire plusieurs décennies. Elles ont été élaborées à l'heure où la fouille de données en était à ses balbutiements.

A l'heure où le Big Data entraîne une révolution épistémologique dont on n'a pas peut-être pas encore saisi toute la portée, à l'heure où les techniques d'extraction automatisée de données permettent d'interroger simultanément une quantité infinie de sources, à l'heure où la production de jeux de données, devenue partie intégrante de la démarche scientifique, connaît une augmentation exponentielle, il paraît nécessaire de faire le choix de licences standard de façon à faciliter la réutilisation de ces jeux de données.

En définitive, il en va ni plus ni moins de la visibilité internationale des résultats de la recherche française : sans réutilisation, point de rayonnement... Les remarques du rapport Trojette sur l'ouverture des données publiques valent aussi pour les données de la recherche:
"L’administration devrait privilégier le recours à des licences types auxquelles d’éventuelles licences spécifiques seraient automatiquement compatibles. Ces licences types pourraient avoir l’avantage d’une formulation compatible avec les standards internationaux–à la définition desquels la France a un rôle à jouer –et faire l’objet d’une traduction pour accroître l’attractivité des plateformes hors de France."

***

Last but not least, en laissant les données de la recherche dans une zone grise d'indétermination, escomptant par là même une plus grande souplesse d'adaptation à la diversité des cas d'espèce, autrement dit si aucune licence ou condition générale d'utilisation ne vient spécifier les conditions de réutilisation des données,  il se pourrait que l'effet obtenu soit exactement l'inverse de celui escompté. Si l'on se rapporte à un arrêt récent et surprenant de la Cour de Justice de l'Union Européenne, une telle indétermination pourrait se traduire, par un verrouillage centralisé en lieu et place de l'ouverture et de la dissémination des données...





[1] Référence glanée dans le mémoire très documenté de Rémi Gaillard, "De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche ?", ENSSIB, janvier 2014.