RÉSUMÉ

Infrastructures de science ouverte

Le paysage des infrastructures ouvertes est fortement décentralisé. Bien qu’il existe quelques géants du secteur, la plupart des infrastructures sont de petite taille et disposent de budgets limités (moins de 50 000 EUR par an). Cet écosystème a beau être diversifié, il demeure fortement intégré : la plupart des infrastructures appartiennent à un milieu plus vaste de communs universitaires, avec des interactions privilégiées à travers des services gratuits (ORCID, DataCite), des logiciels gratuits (OJS) ou des projets de connaissance ouverte (Wikidata).

La création d’infrastructures de science ouverte est devenue techniquement possible après l’apparition du World Wide Web. Des infrastructures informatiques scientifiques existent depuis les années 1960, mais elles étaient généralement inaccessibles aux utilisateurs finaux. La diffusion électronique d’articles, de bases de données et d’autres productions scientifiques s’est rapidement développée après 1990, ce qui a suscité des inquiétudes croissantes quant à la durabilité des projets de recherche en ligne. Après cette période initiale d’expansion rapide et incontrôlée, les années 2000 furent marquées par un mouvement de consolidation, les grands projets ayant pu obtenir des financements récurrents.

De nombreuses initiatives sont apparues après 2015 pour mieux définir, soutenir et protéger les infrastructures de science ouverte, tandis que les grands éditeurs commerciaux commençaient à acquérir des infrastructures communes critiques telles que les référentiels ouverts. Inspiré par la théorie d’Elinor Ostrom sur la gestion des ressources communes, l’ouvrage « Principles for Open Scholarly Infrastructure » (Principes pour les infrastructures savantes ouvertes) fit autorité en dressant une liste de recommandations sur la durabilité, la gouvernance collaborative et le financement des infrastructures ouvertes. À leur tour, ces Principes influencèrent les rapports, politiques et initiatives marquants dans ce domaine.

En 2022, les grandes infrastructures scientifiques historiques avaient adopté la science ouverte comme partie intégrante de leur activité et de leur identité. Cette démarche est devenue un sujet de débat essentiel pour l’avenir de la recherche, tout comme la conversion du système de publication : en 2021, en réaction au Plan S de la cOAlition S, un collectif de chercheurs a lancé un appel en faveur d’un Plan I (ou Plan Infrastructure).

Cet article est publié sur ce site web et simultanément sous la forme d'un article wikipédia mis à jour de manière indépendante.

Wikipedia

Plan

Notes

Définitions

Rapport

Thèses & ouvrages

  • Wouters, P. F. (1999). The citation culture (Thesis). Retrieved 2018-09-09.
  • Bourne, Charles P.; Hahn, Trudi Bellardo (2003-08-01). A History of Online Information Services, 1963-1976. MIT Press. ISBN 978-0-262-26175-3.
  • Borgman, Christine L. (2007-10-12). Scholarship in the Digital Age: Information, Infrastructure, and the Internet. Cambridge, MA, USA: MIT Press. ISBN 978-0-262-02619-2.
  • Berners-Lee, Tim; Fischetti, Mark (2008-06-26). Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor. Paw Prints. ISBN 978-1-4395-0036-1.
  • Andriesse, Cornelis D. (2008-09-15). Dutch Messengers: A History of Science Publishing, 1930–1980. Leiden ; Boston: Brill. ISBN 978-90-04-17084-1.
  • Bygrave, Lee A.; Bing, Jon (2009-01-22). Internet Governance: Infrastructure and Institutions. OUP Oxford. ISBN 978-0-19-956113-1.
  • Hogan, A. (2014-04-09). Reasoning Techniques for the Web of Data. IOS Press. ISBN 978-1-61499-383-4.
  • Regazzi, John J. (2015-02-12). Scholarly Communications: A History from Content as King to Content as Kingmaker. Rowman & Littlefield. ISBN 978-0-8108-9088-6. {{cite book}}: Cite has empty unknown parameter: |1= (help)
  • Le Deuff, Olivier (2018-04-16). Digital Humanities: History and Development. John Wiley & Sons. ISBN 978-1-119-30817-1.
  • Moore, Samuel (2019-05-02). Common Struggles: Policy-based vs. scholar-led approaches to open access in the humanities (Thesis). Retrieved 2021-12-11.
  • Montgomery, Lucy; Hartley, John; Neylon, Cameron; Gillies, Malcolm; Gray, Eve (2021-08-03). Open Knowledge Institutions: Reinventing Universities. MIT Press. ISBN 978-0-262-36516-1.

Articles scientifiques

Conférence

Autres ressources

Ressources

Open science pillars

Pilliers de la science ouverte d'après la recommandation de l'UNESCO sur la science ouverte

CC BY-SA 3.0

UNESCO

Sputnik asm

Réplique de Spoutnik 1, le premier satellite artificiel à avoir atteint l'espace extra-atmosphérique.

Domaine public

Nasa

Principle medlars

Processus d'indexation des citations à MEDLARS

Domaine public

Département de la Santé et des Services sociaux des États-Unis

Providers of digital tools for the scientific workflow

Description de plusieurs écosystèmes commerciaux fermés pour publication scientifique

CC BY 4.0 Deed

Bianca Kramer & Jeroen Bosman sur https://101innovations.wordpress.com/workflows/

Disciplines in open science infrastructure

Distribution des disciplines parmi les infrastructures étudiées par le rapport SPARC Scoping the Open Science Infrastructure Landscape in Europe.

CC BY 4.0 Deed

Ficarra, Victoria, Fosci, Mattia, Chiarelli, Andrea, Kramer, Bianca, & Proudman, Vanessa dans Scoping the Open Science Infrastructure Landscape https://zenodo.org/record/4153809#.YddADizjLyI

Infrastructures de science ouverte

Langlais, Pierre-Carl
CC BY 4.0
publié le 1 juin 2024
Citer Imprimer Linkedin Bluesky

Langlais, Pierre-Carl, « Infrastructures de science ouverte », Petite encyclopédie de la science ouverte / Small encyclopedia of Open Science, publié le 1 juin 2024.
DOI : https://doi.org/10.52949/76
URL : https://encyclo.ouvrirlascience.fr/fr/articles/infrastructures-de-science-ouverte/

×

ARTICLE

Définitions et terminologie

Open science pillars

Pilliers de la science ouverte d'après la recommandation de l'UNESCO sur la science ouverte

CC BY-SA 3.0

UNESCO

Les infrastructures de science ouverte forment un écosystème de la connaissance qui permet de créer, de publier et d’administrer les productions scientifiques ouvertes telles que les publications, les données et les logiciels.

La recommandation de l’Unesco sur la science ouverte, approuvée en novembre 2021, les définit comme « des infrastructures de recherche partagées qui sont nécessaires pour soutenir la science ouverte et répondre aux besoins des différentes communautés ».[footnote « UNESCO Recommendation on Open Science, 2021, CL/4363. »] Le rapport SPARC sur les infrastructures de science ouverte européennes leur associe les activités suivantes : « Nous définissons le libre accès et les infrastructures de science ouverte comme un ensemble de services, de protocoles, de normes et de logiciels qui contribuent au cycle de vie de la recherche , depuis la collaboration et l’expérimentation jusqu’à la collecte et au stockage des données, en passant par les phases d’organisation, d’analyse, de traitement, de rédaction, de soumission, d’évaluation et d’annotation, de révision, de publication, d’archivage, de citation, de découverte et autres. ».[footnote « Ficarra et al. 2020, p. 7. »]

Infrastructure

Le terme « infrastructure » est une référence explicite aux équipements physiques tels que les réseaux d’électricité, de transport routier ou de télécommunications qui ont contribué au fonctionnement de systèmes économiques et sociaux complexes après la révolution industrielle : « Le mot « infrastructure » est utilisé depuis les années 1920 pour désigner collectivement les routes, les lignes électriques et téléphoniques, les ponts, les voies ferrées et d’autres ouvrages publics similaires indispensables au fonctionnement d’une économie industrielle . Si l’infrastructure est nécessaire dans l’économie industrielle, on peut dire qu’il en va de même pour la cyberinfrastructure dans l’économie de la connaissance. ».[footnote « Atkins 2003, p. 5. »] En 1996, Susan Leigh Star et Karen Ruhleder contribuèrent à étendre le concept d’infrastructure aux formes de production du savoir assistées par ordinateur, s’appuyant pour cela sur l’observation empirique d’une des premières formes d’infrastructures de science ouverte, le système communautaire Worm.[footnote « Star & Ruhleder 1996. »] Cette définition a fait autorité pendant les deux décennies suivantes dans les études sur la science et la technologie,[footnote « Karasti et al. I 2016, p. 4. »] et elle a influencé le débat politique sur la construction d’infrastructures scientifiques depuis le début des années 2000.[footnote « Atkins 2003, p. 5. »]

Les infrastructures de science ouverte présentent des caractéristiques propres qui les distinguent d’autres formes de projets ou d’initiatives de ce courant de pensée :

  • Les infrastructures de science ouverte ne sont pas simplement un produit technique, mais un ensemble d’outils, d’institutions et de normes sociales.[footnote « Fecher et al. 2021, p. 500. »][footnote « Edwards et al. 2006, p. 6. »] Par conséquent, elles ne sont pas toujours visibles car en grande partie dissimulées par la routine des activités normales.[footnote « Moore 2019, p. 121: « infrastructures are not easily divisible, recognisable or compartmentalised ». »][footnote « Okune et al. 2018, p. 3. »] Le caractère résilient et tacite des infrastructures rend les contributions réelles et le « coût du travail » des travaux de science ouverte particulièrement difficiles à identifier, car ils restent « invisibles dans le système universitaire ».[footnote « Moore 2019, p. 143. »] L’allocation de fonds est alors délicate, puisque les infrastructures critiques ne sont pas forcément détectées par les organismes de financement.[footnote « Neylon 2018, p. 1. »]
  • Les infrastructures de science ouverte sont durables et résilientes. Elles sont censées avoir une longue durée de vie et s’avèrent indispensables à de nombreux programmes de recherche.[footnote « Atkins 2003, p. 5. »][footnote « Fecher et al. 2021, p. 500. »] Dans une certaine mesure, elles sont efficaces lorsqu’elles se font oublier et deviennent une partie intégrante des activités de recherche de routine : « Dans l’idéal, l’infrastructure est invisible. Nous avons tendance à ne la remarquer qu’en cas de défaillance. ».[footnote « Neylon et al. 2015. »]
  • Les infrastructures de science ouverte peuvent être partagées et utilisées par différents acteurs et communautés. Elles doivent être suffisamment cohérentes pour rester coordonnées, tout en permettant un large éventail d’utilisations au niveau local : « L’infrastructure devient visible lorsque la tension entre le local et le global est résolue. ».[footnote « Star & Ruhleder 1996. »] Il est essentiel que toutes les parties prenantes s’accordent en amont sur le périmètre et la gouvernance de l’infrastructure.[footnote « Bos et al. 2007, p. 667. »]

Ouverture et communs

L’ouverture des infrastructures de science ouverte les différencie des autres infrastructures scientifiques et de la connaissance, et encore plus des infrastructures commerciales par abonnement. L’ouverture est à la fois une valeur fondamentale et un principe influent qui détermine les objectifs, la gouvernance et la gestion des infrastructures. Les infrastructures de science ouverte sont confrontées aux mêmes problèmes que d’autres institutions ouvertes telles que les référentiels de données ouvertes ou les projets collaboratifs à grande échelle comme Wikipédia : « En étudiant les infrastructures actuelles de la connaissance, nous constatons qu’elles intègrent souvent des valeurs d’ouverture, mais la traduction de ces valeurs dans la conception et les pratiques de ces infrastructures est à la fois complexe et aléatoire. ».[footnote « Karasti et al. IV 2016, p. 5. »]

La définition conceptuelle de l’infrastructure de science ouverte a été largement influencée par l’analyse d’Elinor Ostrom sur les communs, et plus particulièrement sur les communs de la connaissance. Dans le même esprit qu’Elinor Ostrom, Cameron Neylon sous-entend que les infrastructures ouvertes ne sont pas seulement caractérisées par la gestion d’un ensemble de ressources communes, mais aussi par l’élaboration d’une gouvernance et de normes partagées.[footnote « Neylon 2018, p. 7. »] La théorie économique des communs permet de dépasser le cadre limité des associations savantes pour s’orienter vers des initiatives communautaires à grande échelle : « Les travaux d’Elinor Ostrom . proposent un modèle . qui permet de passer du club local à l’infrastructure communautaire. ».[footnote « Neylon 2018, p. 7-8. »] Les infrastructures de science ouverte tendent à favoriser un modèle à but non lucratif, financé par les pouvoirs publics, avec une forte implication des communautés scientifiques, ce qui les distingue des infrastructures fermées privées : « L’infrastructure ouverte est souvent dirigée par des universitaires et administrée par des organisations à but non lucratif, c’est pourquoi elle est focalisée sur sa mission plutôt que sur le profit. ».[footnote « Kraker 2021, p. 2. »] Ce statut vise à garantir l’autonomie de l’infrastructure et à empêcher son absorption par une entité commerciale,[footnote « Future of scholarly publishing 2019. »] et il influe considérablement sur les modalités de gestion de l’organisation : « Les différences entre les services commerciaux et non commerciaux ont imprégné presque tous les aspects des interactions avec leur environnement. ».[footnote « Fecher et al. 2021, p. 505. »].

Les infrastructures de science ouverte ne sont pas seulement un sous-ensemble plus spécifique d’infrastructures scientifiques et de cyberinfrastructures. Elles peuvent inclure des acteurs auxquels cette définition ne fait pas explicitement référence. Les « plateformes de publication en libre accès » comme SciELO, OpenEdition ou l’Open Library of Humanities sont considérées comme une partie intégrante des infrastructures de science ouverte dans la définition de l’UNESCO[footnote « UNESCO Recommendation on Open Science, 2021, CL/4363. »] et dans plusieurs revues de la littérature[footnote « Lewis 2020, p. 6. »] et rapports politiques,[footnote « Ficarra et al. 2020, p. 8. »] alors qu’elles étaient généralement considérées comme des entités distinctes dans les débats politiques sur les cyberinfrastructures et les infrastructures électroniques.[footnote « Dacos 2013. »] Le rapport 2010 de la Commission européenne sur les infrastructures électroniques stipule que les plateformes d’édition scientifique « ne sont pas des infrastructures électroniques, mais elles y sont étroitement liées ».[footnote « Role of e-Infrastructure 2010, p. 222. »]

Les infrastructures de science ouverte peuvent aussi intégrer des valeurs et des principes éthiques supplémentaires. Samuel Moore a théorisé une forme approfondie de communs universitaires qui n’existe pas encore, mais qui inclurait des amorces de communautés et d’infrastructures de science ouverte : « Outre le partage des ressources avec d’autres projets, la mise en communs exige des parties prenantes qu’elles adoptent une attitude tournée vers l’extérieur et généreuse envers les autres projets communs, en réorientant leur travail vers autrui. ».[footnote « Moore 2019, p. 183. »] En 2018, Okune et al. ont introduit un concept similaire d’« infrastructures de connaissances inclusives » qui « autorisent délibérément de multiples formes de participation impliquant un ensemble d’acteurs variés . et cherchent à corriger les relations de pouvoir dans un contexte donné ».[footnote « Okune et al. 2018, p. 3. »]

Principes des infrastructures de science ouverte

En 2015, l’ouvrage « Principles for Open Scholarly Infrastructure » (Principes pour les infrastructures savantes ouvertes) marqua les esprits avec une définition prescriptive des infrastructures de science ouverte qui allait largement inspirer les définitions et terminologies ultérieures des infrastructures de science ouverte.[footnote « Ross-Hellauer et al. 2020, p. 13. »][footnote « Ficarra et al. 2020, p. 7. »][footnote « SPARC 2020. »] Ce texte a également influencé la définition de l’infrastructure de science ouverte retenue par l’UNESCO en novembre 2021[footnote « (https://en.unesco.org/sites/default/files/comments_osr_partner_open_science_mooc_document.pdf Open Science MOOC Response to UNESCO DraftOpen Science Recommendations), 30 décembre 2020. »].

Les Principes tentent d’hybrider les études sur les infrastructures avec l’analyse des communs initiée par Elinor Ostrom. Ils développent des recommandations dans trois domaines essentiels à la réussite des infrastructures ouvertes :

  • Gouvernance : la gouvernance de l’infrastructure doit être ouverte et responsable devant les communautés scientifiques qu’elle prétend servir. Au sein de l’organisation, la transparence et la diversité de l’encadrement doivent être garanties par des mesures spécifiques.[footnote « Neylon et al. 2015. »]
  • Durabilité : les activités de base de l’organisation doivent bénéficier d’un financement récurrent. Les subventions à court terme doivent s’appliquer exclusivement aux projets à court terme. Il n’est pas interdit à l’organisation de facturer des services, mais en seront exclues les données qui doivent rester « un bien communautaire ».[footnote « Neylon et al. 2015. »]
  • Assurance : l’infrastructure technique et la production de l’organisation sont ouvertes. L’infrastructure peut ainsi être recréée si nécessaire (dans le jargon de l’open source, on la dit « forkable »).[footnote « Neylon et al. 2015. »]

Le document s’achève par la description de plusieurs conséquences potentielles des principes énoncés. Les auteurs plaident pour une centralisation responsable, différente de celle des grandes plateformes commerciales du Web comme Google et Facebook, sans pour autant se départir des avantages majeurs des infrastructures centralisées : « Nous serons en mesure de bâtir des organisations responsables et fiables qui gèrent avec sérieux cette centralisation. ».[footnote « Neylon et al. 2015. »] Parmi les exemples actuels de grandes infrastructures ouvertes, on peut citer ORCID, la Fondation Wikimédia ou le CERN.

Certains experts ont accueilli avec un regard plus critique la philosophie sous-jacente des Principes.[footnote « Moore 2019. »][footnote « Okune et al. 2018. »] Bien que la communauté scientifique soit un élément clé de la gouvernance des infrastructures de science ouverte, Samuel Moore souligne qu’elle n’est jamais précisément définie, ce qui peut soulever des problèmes de sous-représentation des groupes minoritaires :

[Cela] pose des questions sur l’identité de la communauté qui a le pouvoir de gouverner et d’exclure et sur ce qui lui donne le droit d’imposer ses conditions. Ces questions sont particulièrement pertinentes pour une conception des communs exhaustive ou à grande échelle qui tend à favoriser les acteurs les plus puissants, les disciplines riches et les pays du Nord global. Ces communs traitent les sujets dans un vide politique plutôt que dans une situation particulière et dans des relations et des projets aux structures de pouvoir asymétriques.[footnote « Moore 2019, p. 173. »]

Historique

Premiers développements (1950-1990)

Sputnik asm

Réplique de Spoutnik 1, le premier satellite artificiel à avoir atteint l'espace extra-atmosphérique.

Domaine public

Nasa

Histoire

Premiers développpements (1950–1990)

Les projets scientifiques comptent parmi les premiers cas d’utilisation d’une infrastructure numérique. La théorisation des infrastructures de la connaissance scientifique précède même le développement des technologies informatiques. Le réseau de connaissances imaginé par Paul Otlet ou Vannevar Bush possédait déjà de nombreuses caractéristiques d’une infrastructure scientifique en ligne.[footnote « Borgman 2007, p. 40. »]

Après la Seconde Guerre mondiale, les États-Unis ont vécu une « crise des périodiques » : les revues ne pouvaient pas suivre l’accélération de la production scientifique.[footnote « Wouters 1999, p. 61. »] La question est devenue politiquement sensible après le lancement réussi de Spoutnik : « La crise du Spoutnik a transformé le problème du contrôle bibliographique rencontré par les bibliothécaires en crise nationale de l’information. ».[footnote « Wouters 1999, p. 62. »] Les technologies informatiques naissantes furent immédiatement considérées comme une solution potentielle pour rendre lisibles et consultables un plus grand nombre de productions scientifiques. L’accès aux publications en langue étrangère était également un problème majeur que la traduction automatique allait devoir résoudre : dans les années 1950, beaucoup de publications scientifiques n’étaient pas disponibles en anglais, en particulier celles provenant du bloc soviétique.

Des membres influents de la Fondation nationale pour la science tels que Joshua Lederberg ont plaidé pour la création du SCITEL, un « système d’information centralisé » qui devait coexister avec les revues imprimées avant de les remplacer progressivement du fait de son efficacité.[footnote « Wouters 1999, p. 60. »] Dans le plan présenté par Joshua Lederberg à Eugene Garfield en novembre 1961, le SCITEL devait indexer jusqu’à un million d’articles scientifiques par an. Au-delà de la recherche en texte intégral, l’infrastructure devait indexer les citations et d’autres métadonnées, mais aussi effectuer la traduction automatique des articles en langue étrangère.[footnote « Wouters 1999, p. 64. »]

Même s’il portait en germe les principales caractéristiques des plateformes scientifiques en ligne, le plan SCITEL était techniquement irréaliste à l’époque. Le premier prototype opérationnel de système de recherche en ligne développé en 1963 par Doug Engelhart et Charles Bourne à l’Institut de recherche de Stanford était fortement limité par des problèmes de mémoire : il ne pouvait pas indexer plus de 10 000 mots d’un petit nombre de documents.[footnote « Bourne & Hahn 2003, p. 16. »]

Principle medlars

Processus d'indexation des citations à MEDLARS

Domaine public

Département de la Santé et des Services sociaux des États-Unis

Au lieu de constituer une plateforme de publication généraliste, les premières infrastructures informatiques scientifiques se concentraient sur certains domaines de recherche, par exemple MEDLINE pour la médecine, NASA/RECON pour l’ingénierie spatiale ou OCLC Worldcat pour les collections de bibliothèques : « Parmi les anciens systèmes de recherche en ligne, la plupart donnaient accès à une base de données bibliographiques, les autres utilisaient un fichier contenant d’autres types d’informations comme des articles d’encyclopédie, des données d’inventaire ou des composés chimiques. ».[footnote « Bourne & Hahn 2003, p. 12. »] Ce développement précoce de l’informatique scientifique affecta bien des disciplines et des communautés, y compris les sciences sociales : « Durant les années 1960 et 1970, plus d’une douzaine de services et d’associations professionnelles ont vu le jour pour coordonner la collecte de données quantitatives. ».[footnote « Shankar et al. 2016, p. 63. »] Pourtant, ces infrastructures étaient le plus souvent invisibles pour les chercheurs, car la majorité des recherches étaient effectuées par des bibliothécaires professionnels. Non seulement les systèmes d’exploitation de recherche étaient compliqués à utiliser, mais ils imposaient un impératif d’efficacité en raison du coût prohibitif des télécommunications à longue distance.[footnote « Regazzi 2015, p. 128. »] Pour être techniquement réalisables, les infrastructures scientifiques ne pouvaient jamais être ouvertes et devinrent fondamentalement cachées aux utilisateurs finaux :

Les créateurs des premiers systèmes en ligne présumaient que la recherche serait effectuée par les utilisateurs finaux, ce qui a guidé jusqu’à leur conception. MEDLINE et NASA/RECON furent conçus à l’intention des chercheurs en médecine et cliniciens d’une part, et des ingénieurs et scientifiques de l’aérospatiale d’autre part. Pour de nombreuses raisons, cependant, dans les années soixante-dix la plupart des utilisateurs étaient des bibliothécaires et des intermédiaires qualifiés qui agissaient au nom des utilisateurs finaux. En fait, certains chercheurs professionnels voyaient d’un mauvais œil que des utilisateurs finaux enthousiastes puissent accéder aux terminaux.[footnote « Bourne & Hahn 2003, p. 397. »]

Le développement d’infrastructures numériques pour la publication scientifique fut largement assuré par des entreprises privées. En 1963, Eugene Garfield créa l’ISI (Institute for Scientific Information) afin de rentabiliser les projets initialement esquissés avec Joshua Lederberg. Le Science Citation Index reposait sur un traitement informatique des données de citations. Il a massivement et durablement influencé la structuration des publications scientifiques mondiales au cours des dernières décennies du XXe siècle, puisque son indicateur le plus important, le facteur d’impact des revues, « a fini par constituer l’outil de mesure nécessaire pour structurer le marché concurrentiel entre les revues ».[footnote « Future of scholarly publishing 2019, p. 15. »] Eugene Garfield a également connu le succès avec Current Contents, une compilation périodique d’abstracts scientifiques formant une version commerciale simplifiée du dépôt central préfiguré par SCITEL. Plutôt que d’être remplacés par un système d’information centralisé, les principaux éditeurs scientifiques ont su développer leur propre infrastructure, ce qui a fini par renforcer leur position commerciale. À la fin des années 1960, l’éditeur néerlandais Elsevier et son homologue allemand Springer commencèrent à informatiser leurs données internes ainsi que la gestion des évaluations de revues.[footnote « Andriesse 2008, p. 189. »]

Jusqu’à l’avènement du Web, le paysage des infrastructures scientifiques restait fragmenté.[footnote « Campbell-Kelly & Garcia-Swartz 2013. »] Les projets et les communautés s’appuyaient sur leurs propres réseaux non connectés au niveau national ou institutionnel : « Internet était presque invisible en Europe, parce que chacun travaillait sur un ensemble distinct de protocoles réseau. ».[footnote « Berners-Lee & Fischetti 2008, p. 17. »] Le CERN, lieu de naissance du World Wide Web, disposait de sa propre version d’Internet, le CERN-Net, et exploitait un protocole interne d’échange de courriels.[footnote « Berners-Lee & Fischetti 2008, p. 18. »] L’Agence spatiale européenne utilisait sa propre version du système RECON, également employé par les ingénieurs de la NASA (ESRO/RECON).[footnote « Bourne & Hahn 2003, p. 304. »] Avant le Web, les infrastructures scientifiques isolées étaient difficiles à interconnecter. La communication entre les infrastructures scientifiques n’était pas seulement un défi dans l’espace, mais aussi dans le temps. Lorsqu’un protocole de communication était abandonné, les données et les connaissances qu’il diffusait risquaient aussi de disparaître : « La relation entre la recherche historique et l’informatique fut durablement affectée par des projets avortés, des pertes de données et des formats irrécupérables. ».[footnote « Dacos 2013. »]

La révolution du Web (1990-1995)

À l’origine, le World Wide Web fut conçu comme une infrastructure de science ouverte. Le projet s’inspire d’ENQUIRE, un logiciel de gestion de l’information commandé à Tim Berners-Lee par le CERN pour les besoins particuliers de la physique des particules. La structure d’ENQUIRE était plus proche d’un réseau interne de données : elle connectait des « nœuds » qui « pouvaient se référer à une personne, un module logiciel, etc. et pouvaient être raccordés entre eux par diverses relations telles que « fait », « inclut », « décrit », etc. ».[footnote « Hogan 2014, p. 20. »] ENQUIRE avait beau « permettre l’établissement de liens aléatoires entre les informations », il n’était pas en mesure de « faciliter la collaboration souhaitée par la communauté internationale des chercheurs en physique des particules ».[footnote « Bygrave & Bing 2009, p. 30. »] Comme toutes les infrastructures informatiques scientifiques d’importance antérieures aux années 1990, le développement d’ENQUIRE finit par être entravé par le manque d’interopérabilité et la gestion complexe des communications en réseau : « Même si ENQUIRE permet de relier des documents et des bases de données, et si l’hypertexte constitue un format d’affichage commun, restait le problème de faire communiquer entre eux des ordinateurs équipés de systèmes d’exploitation différents. ».[footnote « Berners-Lee & Fischetti 2008, p. 17. »]

Le partage des données et de leur documentation était l’un des principaux objectifs de la présentation initiale du World Wide Web lorsque le projet fut dévoilé en août 1991 : « Le projet WWW fut lancé pour permettre aux physiciens des particules de partager des données, des informations et de la documentation. L’extension du Web à d’autres domaines et la mise en place de serveurs passerelles pour d’autres données nous intéressent fortement. ».[footnote « Tim Berners-Lee, « Qualifiers on Hypertext Links », courriel envoyé le 6 août 1991 au groupe alt.hypertext. »]

Le Web a rapidement supplanté les autres infrastructures en ligne, même lorsqu’elles étaient plus avancées sur le plan informatique. De 1991 à 1994, les utilisateurs du Worm Community System, une importante base de données biologiques sur les vers, ont basculé vers le Web et Gopher. Le Web possédait peu de fonctions avancées pour la recherche de données et la collaboration, mais il était facilement accessible. À l’inverse, le Worm Community System ne pouvait être consulté que sur des terminaux spécialisés présents dans certaines institutions scientifiques : « L’adoption du WCS, un puissant système sur mesure doté d’une interface pratique, entraîne des inconvénients à l’intersection des habitudes de travail, de l’usage des ordinateurs et des ressources de laboratoire . Le World Wide Web, quant à lui, est accessible depuis une grande variété de terminaux et de connexions, et l’assistance informatique pour Internet est aisément disponible dans la plupart des établissements universitaires à travers des services commerciaux relativement abordables. ».[footnote « Star & Ruhleder 1996, p. 131. »]

Le Web et les protocoles similaires développés à l’époque ont eu un impact comparable sur les publications scientifiques. Les premières formes de publication en libre accès ne sont pas le fruit d’infrastructures institutionnelles à grande échelle, mais de petites initiatives. L’accès universel, quel que soit le système d’exploitation, a permis d’administrer et de partager des revues électroniques communautaires des années avant que les publications scientifiques commerciales en ligne ne deviennent viables :

Entre la fin des années 1980 et le début des années 1990, une multitude de revues nouvelles sont apparues, d’abord sur LISTSERV puis sur le Web. Les revues telles que Postmodern Cultures, Surfaces, Bryn Mawr Classical Review et The Public-Access Computer Systems Review étaient toutes gérées par des universitaires et des bibliothécaires plutôt que par des professionnels de l’édition.[footnote « Moore 2020, p. 7. »]

Les premiers référentiels en libre accès étaient également des initiatives individuelles ou communautaires. En août 1991, Paul Ginsbarg créa la première version du projet arXiv au laboratoire national de Los Alamos. Il s’agissait de résoudre le problème récurrent de stockage des boîtes aux lettres universitaires lié à la multiplication des articles scientifiques en partage.[footnote « Feder, Toni (8 novembre 2021). Joanne Cohn and the email list that led to arXiv. Physics Today. doi:10.1063/PT.6.4.20211108a. »]

Création d’infrastructures scientifiques pour le Web (1995-2015)

Le développement du World Wide Web a rendu obsolètes de nombreuses infrastructures scientifiques. Il a aussi éliminé bien des restrictions et des obstacles aux contributions en ligne et à la gestion des réseaux, ce qui a permis d’envisager des projets plus ambitieux. À la fin des années 1990, la création d’une infrastructure informatique scientifique à caractère public est devenue un enjeu politique majeur.[footnote « Borgman 2007, p. 21. »] La première vague de projets scientifiques en ligne dans les années 1990 et au début des années 2000 a révélé des questions de durabilité cruciales. Avec un financement alloué pour une période précise, les outils en ligne, les plateformes de publication et les bases de données critiques étaient difficilement administrables,[footnote « Dacos 2013. »] et les gestionnaires de projets vivaient dans l’angoisse « entre l’octroi de subventions et le financement opérationnel au long cours ».[footnote « Skinner 2019, p. 6. »]

Plusieurs termes concurrents sont apparus pour répondre à ce besoin. Aux États-Unis, « cyberinfrastructure » était employé en 2003 dans le contexte scientifique par un comité d’experts de la Fondation nationale pour la science (NSF) : « Le terme plus récent de cyberinfrastructure fait référence à une infrastructure basée sur les technologies distribuées de l’informatique, de l’information et de la communication. Si l’infrastructure est nécessaire dans l’économie industrielle, on peut dire qu’il en va de même pour la cyberinfrastructure dans l’économie de la connaissance. ».[footnote « Atkins 2003, p. 5. »] Les termes « e-infrastructure », « infrastructure électronique », « e-science » et « cyberscience » ont été utilisés avec une acception comparable au Royaume-Uni et dans les pays européens.

Grâce à des « investissements conséquents »,[footnote « Eccles et al. 2009. »] de grandes infrastructures nationales et internationales ont émergé des premiers débats politiques entre le début des années 2000 et la crise économique de 2007-2008, par exemple Open Science Grid, BioGRID, le JISC, DARIAH ou le projet Bamboo.[footnote « Dacos 2013. »][footnote « Role of e-Infrastructure 2010. »] Des logiciels libres spécialisés dans l’édition scientifique, tels qu’Open Journal Systems, ont vu le jour après 2000. Cette innovation a permis un développement considérable des revues non commerciales en libre accès, puisqu’elle a facilité la création et l’administration de leurs sites Web ainsi que leur passage au numérique.[footnote « OA Diamond Study 2021, p. 93. »] Parmi les revues enregistrées dans le DOAJ (Directory of Open Access Journals), le nombre de créations annuelles est passé de 100 à la fin des années 1990 à 800 vers 2010, pour ne plus guère évoluer par la suite.[footnote « OA Diamond Study 2021, p. 30. »]

Dans les années 2010, les infrastructures « ne sont plus à l’état embryonnaire », sans pour autant « être complètement arrivées à maturité ».[footnote « Eccles et al. 2009. »] Si le développement du Web a permis de résoudre un grand nombre de problèmes techniques liés à la gestion des réseaux, la construction d’infrastructures scientifiques est restée un point délicat. La gouvernance, la communication entre tous les acteurs concernés et les divergences stratégiques ont été d’importants facteurs de réussite ou d’échec. Le projet Bamboo, une des premières grandes infrastructures de sciences humaines et sociales, n’a pas réussi à atteindre ses objectifs ambitieux : « Depuis les premiers ateliers de planification jusqu’au rejet par la Fondation Mellon de sa dernière offre de service, le projet Bamboo fut miné par sa réticence et/ou son incapacité à s’autodéfinir concrètement. ».[footnote « Dombrowski 2014, p. 334. »] Ce manque de clarté fut aggravé par des erreurs de communication récurrentes entre les initiateurs du projet et la communauté qu’il prétendait servir. « La communauté avait clairement fait comprendre que l’insistance à créer une architecture orientée services risquait de perdre les membres de la communauté à qui Bamboo était censé profiter le plus : les universitaires eux-mêmes. ».[footnote « Dombrowski 2014, p. 329. »]. Les coupes budgétaires consécutives à la crise économique de 2007-2008 ont mis en évidence la fragilité des ambitieux programmes d’infrastructures bénéficiant de fonds récurrents importants.[footnote « Dombrowski 2014, p. 331. »]

Providers of digital tools for the scientific workflow

Description de plusieurs écosystèmes commerciaux fermés pour publication scientifique

CC BY 4.0 Deed

Bianca Kramer & Jeroen Bosman sur https://101innovations.wordpress.com/workflows/

Dans un premier temps, les grands éditeurs commerciaux furent dépassés par l’essor inattendu du Web dans le secteur de la publication universitaire : le conseil d’administration d’Elsevier « n’a pas saisi l’importance de la publication électronique dans son ensemble, et donc le danger mortel pesant sur la revue , le danger, notamment, que les scientifiques puissent se passer d’elle ».[footnote « Andriesse 2008, p. 257-258. »] La persistance de revenus élevés issus des abonnements et des mouvements de consolidation ont permis de financer la migration vers le Web des services en ligne existants ainsi que la numérisation des collections déjà acquises. Dans les années 2010, les principaux éditeurs « sont passés d’une activité de fourniture de contenu à une activité d’analyse de données »[footnote « Aspesi et al. 2019, p. 5. »] et ont développé ou acheté de nouvelles infrastructures clés pour la gestion des activités scientifiques et pédagogiques : « Elsevier a acquis et lancé des produits qui étendent son influence et son contrôle des infrastructures à toutes les étapes du processus de production du savoir universitaire. ».[footnote « Posada & Chen 2018, p. 6. »] Depuis qu’elle a dépassé le stade de l’édition, l’intégration verticale des infrastructures privées s’est largement imposée dans les activités de recherche quotidiennes.

La privatisation du contrôle des infrastructures de recherche est particulièrement visible dans la volonté d’ »intégration verticale » des éditeurs tels qu’Elsevier et Springer Nature qui tentent de contrôler tous les aspects du cycle de vie de la recherche, de la soumission à la publication et au-delà. Par exemple, l’intégration verticale se reconnaît dans un certain nombre d’acquisitions d’entreprises par Elsevier, comme Mendeley (un gestionnaire de références), SSRN (un référentiel de prépublications) et bepress (un éditeur de logiciels de catalogue et de publication destinés aux universités).[footnote « Moore 2019, p. 156. »]

Vers les infrastructures de science ouverte (2015-…)

La consolidation et l’expansion des infrastructures scientifiques commerciales ont suscité une nouvelle vague d’appels à la constitution d’« infrastructures contrôlées par la communauté ».[footnote « Joseph 2018, p. 1. »] Le rachat des référentiels ouverts Digital Commons et SSRN par Elsevier a mis en évidence le manque de fiabilité des infrastructures scientifiques critiques pour la science ouverte.[footnote « Boston 2021. »][footnote « Joseph 2018. »][footnote « Brembs et al. 2021. »] D’après le rapport SPARC sur les infrastructures européennes, « un certain nombre d’infrastructures importantes sont menacées et, par conséquent, les produits et services qui composent les infrastructures ouvertes sont de plus en plus sensibles aux offres de rachat des grandes entreprises commerciales. Cette menace concerne aussi bien les infrastructures ouvertes à but non lucratif que les infrastructures fermées, comme en témoigne le rachat, ces dernières années, d’outils et de plateformes d’usage courant tels que SSRN, bepress, Mendeley et GitHub. ».[footnote « Ficarra et al. 2020, p. 7. »]

À l’inverse de la consolidation des infrastructures privées, le mouvement de la science ouverte « a plutôt négligé l’importance des structures sociales et des contraintes systémiques dans la conception de nouvelles formes d’infrastructures du savoir ».[footnote « Okune et al. 2018, p. 13. »]. Il est resté en grande partie focalisé sur le contenu de la recherche scientifique, sans véritablement intégrer les outils techniques et avec peu d’initiatives communautaires d’envergure. « Le patrimoine commun des ressources n’est pas régi ou géré par l’initiative actuelle des communs universitaires. Il n’existe pas d’infrastructure matérielle dédiée et, malgré l’émergence d’une communauté, il n’y a pas d’adhésion formelle. ».[footnote « Bosman et al. 2018, p. 19. »]

Des définitions plus précises étaient nécessaires afin d’intégrer les principes éthiques d’ouverture, de service à la communauté et de gouvernance autonome pour la construction des infrastructures et pour garantir la transformation de modestes réseaux universitaires localisés en grandes structures « à l’échelle de la communauté ».[footnote « Neylon 2018, p. 7. »] En 2013, Cameron Neylon souligna que le manque d’infrastructures communes était l’une des principales faiblesses de l’écosystème de science ouverte : « Dans un monde où il est parfois moins onéreux de refaire une analyse que de stocker les données, il faut sérieusement prendre en compte les infrastructures sociales, physiques et matérielles susceptibles de faciliter le partage des productions matérielles de la recherche. ».[footnote « Neylon 2013. »] Deux ans plus tard, Cameron Neylon, Geoffrey Bilder et Jenifer Lin publièrent l’ouvrage « Principles for Open Scholarly Infrastructure » (Principes pour les infrastructures savantes ouvertes)[footnote « Neylon et al. 2015. »] d’abord pour réagir au décalage entre l’ouverture croissante des jeux de données ou des publications savantes et la fermeture des infrastructures qui en contrôlent la circulation.

Au cours de la dernière décennie, nous avons fait d’authentiques progrès pour garantir la disponibilité des données qui valident les hypothèses des chercheurs. Ce travail est loin d’être achevé. Nous estimons que les données relatives au processus de recherche lui-même méritent exactement le même degré de respect et de soin. La communauté scientifique n’exerce ni propriété ni contrôle sur la plupart de ces informations. Par exemple, nous aurions pu construire ou prendre en charge les infrastructures nécessaires à la collecte des données bibliographiques et des citations, mais cette tâche a été confiée à des sociétés privées.[footnote « Neylon et al. 2015. »]

Depuis 2015, ces principes font autorité pour définir les infrastructures de science ouverte et ont été approuvés par des acteurs de premier plan tels que Crossref[footnote « Crossref’s Board votes to adopt the Principles of Open Scholarly Infrastructure. »], OpenCitations[footnote « OpenCitations’ compliance with the Principles of Open Scholarly Infrastructure. »] et Data Dryad[footnote « Dryad’s Commitment to the Principles of Open Scholarly Infrastructure. »]. Ils sont également devenus une base commune pour l’évaluation institutionnelle des infrastructures ouvertes existantes.[footnote « Ficarra et al. 2020, p. 21. »] La vocation première de ces Principes est de bâtir des « institutions dignes de confiance » avec des engagements clés en matière de gouvernance, de viabilité financière et d’efficacité technique afin que les communautés scientifiques puissent construire durablement sur ces piliers.[footnote « Neylon 2018, p. 7. »]

Avant 2021, les services publics et les infrastructures de recherche auront largement adopté la science ouverte comme partie intégrante de leur activité et de leur identité : « La science ouverte est le discours dominant auquel se réfèrent les nouveaux services en ligne destinés à la recherche. ».[footnote « Fecher et al. 2021, p. 505. »] Selon la feuille de route 2021 du Forum stratégique européen sur les infrastructures de recherche (ESFRI), en Europe les principales infrastructures ont adopté les principes de la science ouverte : « La plupart des infrastructures de recherche mentionnées dans la feuille de route de l’ESFRI sont à l’avant-garde du mouvement de la science ouverte et contribuent grandement à la transformation numérique en remodelant tout le processus de recherche à l’aune de ce paradigme. ».[footnote « ESFRI Roadmap 2021, p. 159. »] Parmi les exemples de vastes programmes de partage de données, on trouve l’Enquête sociale européenne (sciences sociales), l’ECRIN-ERIC (données cliniques) ou le Cherenkov Telescope Array (astronomie).[footnote « ESFRI Roadmap 2021, p. 159. »]

Conformément à l’esprit originel des Principes, les infrastructures de science ouverte sont « considérées comme un antidote à la concentration accrue du marché observée dans le domaine de la communication savante ».[footnote « Kraker 2021, p. 2. »] En novembre 2021, une recommandation de l’UNESCO désignait les infrastructures de science ouverte comme l’un des quatre piliers de la science ouverte, au même titre que les connaissances scientifiques ouvertes, l’engagement ouvert des acteurs sociétaux et le dialogue ouvert avec les autres systèmes de connaissances, et elle appelait à un investissement et un financement durables : « Les infrastructures de science ouverte résultent souvent d’efforts de construction communautaire essentiels pour leur viabilité à long terme. Elles devraient donc n’avoir aucun but lucratif et garantir un accès permanent et sans restriction à l’ensemble des publics dans toute la mesure du possible. ».[footnote « UNESCO Recommendation on Open Science, 2021, CL/4363. »]

Le développement d’infrastructures scientifiques ouvertes est devenu un sujet de débat pour l’avenir de la recherche scientifique en ligne. En janvier 2021, en réaction aux lacunes entrevues dans le Plan S, l’initiative internationale pour la science ouverte de la cOAlition S, un collectif de chercheurs a lancé un appel en faveur d’un Plan I (ou Plan Infrastructure).[footnote « Brembs et al. 2021. »] Alors que le Plan S met l’accent sur la publication scientifique, le Plan I vise à intégrer toutes les productions de la recherche au sein de vastes infrastructures interopérables : « La recherche et le savoir ont un besoin crucial d’infrastructures d’information qui traitent à égalité toutes les productions scientifiques, qu’il s’agisse de textes, de données ou de code, et qui reposent sur des normes et des marchés ouverts. ».[footnote « Brembs et al. 2021, p. 4. »]

Organisation des infrastructures ouvertes

La plupart des rapports panoramiques sur les infrastructures ouvertes ont été réalisés en Europe et, dans une moindre mesure, en Amérique latine. Pour l’Europe, les principales sources sont le rapport SPARC de 2020,[footnote « Ficarra et al. 2020. »] le rapport OPERAS sur les infrastructures en sciences sociales et humaines[footnote « Future of Scholarly Communication 2021. »] ainsi que le rapport 2019 de Katherine Skinner (qui porte également sur certaines infrastructures nord-américaines). Les études internationales incluent le rapport 2010 de la Commission européenne sur le rôle des infrastructures électroniques, dont les contributions proviennent essentiellement d’Europe, d’Amérique du Sud et d’Amérique du Nord.[footnote « Role of e-Infrastructure 2010. »]

D’après ces rapports, il est possible que d’importantes infrastructures de science ouverte existent déjà mais demeurent invisibles pour les bailleurs de fonds et les décideurs des politiques scientifiques : « Des pratiques et des projets alternatifs existent en Europe et ailleurs, mais ils sont presque invisibles aux yeux des autorités publiques. ».[footnote « Mounier 2018, p. 305. »]

Type et rôles

Les référentiels en libre accès constituent la forme la plus fréquente d’infrastructures de science ouverte.[footnote « Operas Landscape Study 2017, p. 15. »] OpenDOAR en comptabilisait 5 791 en décembre 2021.[footnote « OpenDOAR Statistics. »]

Cependant, les infrastructures de science ouverte, du moins les plus importantes, possèdent des rôles et des activités très diverses. Dans l’enquête sur les infrastructures européennes menée par SPARC Europe, 95 % des répondants indiquaient fournir des services à au moins trois des six étapes de production de la recherche (création, évaluation, publication, hébergement, découverte et archivage).[footnote « Ficarra et al. 2020, p. 13. »]. L’agrégation, l’hébergement et l’indexation sont des activités particulièrement centrales, communes à la plupart des infrastructures de science ouverte quel que soit leur domaine d’activité.

La spécialisation intervient à un niveau plus élevé. Une analyse des réseaux identifie « deux grands groupes d’activités » :

    • Les infrastructures axées sur l’édition, qui se consacrent à « la publication et l’hébergement de formats de texte traditionnels ».[footnote « Ficarra et al. 2020, p. 13. »]. Parmi elles, « la soumission d’articles (41 sur 70) et l’évaluation (30) étaient les activités les plus fréquemment rapportées ».[footnote « Ficarra et al. 2020, p. 15. »]
      Les infrastructures axées sur la création, qui privilégient « le traitement et le stockage des productions de recherche, en particulier les données ». Ces acteurs fournissent des services spécifiques dans les domaines « de la collecte de données (47 sur 71) et de l’analyse de données (40) ».[footnote « Ficarra et al. 2020, p. 15. »]. Par ailleurs, « le calcul et l’apprentissage automatique (18) et l’expérimentation (15) sont environ deux fois moins représentés ».[footnote « Ficarra et al. 2020, p. 15. »]

Normes et technologies

La normalisation est une fonction majeure des infrastructures de science ouverte, dont la vocation est de garantir une distribution cohérente et une grande réutilisabilité du contenu qu’elles partagent et soutiennent.

L’application de normes ouvertes est l’un des principaux défis des grandes infrastructures ouvertes européennes. En effet, elle implique parfois de trancher entre des normes concurrentes et de garantir qu’elles seront mises à jour et accessibles à travers des API ou d’autres points de terminaison.[footnote « Ficarra et al. 2020, p. 23. »] Deux tiers des personnes interrogées ont mené un audit de leur environnement technologique au cours de l’année écoulée pour vérifier que ses composants clés ne sont pas devenus obsolètes.[footnote « Ficarra et al. 2020, p. 29. »] Grâce à ces efforts soutenus, la plupart des infrastructures de science ouverte respectent les nouvelles normes en la matière, telles que les données FAIR ou le Plan S.[footnote « Ficarra et al. 2020, p. 29. »]

Les infrastructures de science ouverte intègrent de préférence des normes provenant d’institutions homologues. Parmi les infrastructures européennes, « les systèmes les plus couramment cités , et donc les infrastructures essentielles pour beaucoup , sont ORCID, Crossref, DOAJ, BASE, OpenAIRE, Altmetric et DataCite, la plupart étant à but non lucratif ».[footnote « Ficarra et al. 2020, p. 50. »] Google Scholar est le premier service commercial mentionné, tandis que Scopus, le principal moteur de recherche universitaire développé par Elsevier, est l’un des services de premier plan les moins cités.[footnote « Ficarra et al. 2020, p. 31. »]. Les infrastructures de science ouverte figurent ainsi parmi les nouveaux « communs de la science ouverte véritablement interopérables » fondés sur le principe que « les outils de recherche centrés sur le chercheur, peu coûteux, innovants et interopérables sont supérieurs au système actuel, largement fermé ».[footnote « Ross-Hellauer et al. 2020, p. 13. »]

Les infrastructures dépendent souvent des choix effectués par des acteurs externes, en particulier les éditeurs scientifiques : elles « ne décident pas elles-mêmes du degré d’ouverture des contenus puisqu’elles sont tributaires des politiques des fournisseurs ».[footnote « Ficarra et al. 2020, p. 27. »] Ce phénomène affecte non seulement le contenu, mais aussi les « politiques relatives aux données des utilisateurs [qui sont] établies par les éditeurs et qui limitent les éléments pouvant être mis à disposition ».[footnote « Ficarra et al. 2020, p. 24. »]

Les infrastructures de science ouverte sont étroitement liées au mouvement open source. Parmi les infrastructures européennes interrogées par SPARC, 82 % déclarent avoir partiellement construit des logiciels open source et 53 % possèdent des infrastructures technologiques exclusivement open source.[footnote « Ficarra et al. 2020, p. 29. »]

Gouvernance

Les infrastructures européennes étudiées par SPARC ont elles-mêmes désigné la gouvernance comme une faiblesse potentielle.[footnote « Ficarra et al. 2020, p. 22. »]. Moins de la moitié des personnes interrogées considèrent qu’elles ont atteint le stade de la « maturité », et la « bonne gouvernance » est citée comme leur principale difficulté.[footnote « Ficarra et al. 2020, p. 23. »]. Les interactions entre, d’une part, les communautés à servir et, d’autre part, les autres parties prenantes et les bailleurs de fonds sont particulièrement complexes : « L’un des problèmes clairement identifiés était le conflit entre la satisfaction des besoins de la communauté d’utilisateurs et la priorité donnée aux exigences des clients qui soutiennent financièrement les infrastructures de science ouverte. ».[footnote « Ficarra et al. 2020, p. 23. »].

Les tensions entre centralisation et diversité sont très caractéristiques des infrastructures de science ouverte. Bien que défini historiquement comme un « projet [en libre accès] centralisé », Redalyc cherche à devenir une « infrastructure communautaire durable en Amérique latine » (Berrecil). Les grandes infrastructures ouvertes européennes ont rapporté « des difficultés à assurer une représentation suffisante (et diversifiée) » ainsi que l’implication de certaines communautés professionnelles comme les chercheurs et les bibliothécaires.[footnote « Ficarra et al. 2020, p. 23. »].

Public cible

Les infrastructures de science ouverte « visent et servent un large éventail de protagonistes ».[footnote « Ficarra et al. 2020, p. 18. »]. Les chercheurs restent le cœur de cible, mais les bibliothèques, les enseignants et les apprenants font partie du public que visent plus de la moitié des infrastructures étudiées par Sparc Europe.

La majorité des infrastructures européennes « opèrent à l’échelle mondiale », l’anglais étant la langue principale de 82 % des personnes interrogées.[footnote « Ficarra et al. 2020, p. 20. »]. En outre, ces infrastructures sont souvent multilingues avec une dimension nationale propre : elles « donnent accès à un éventail de contenus linguistiques significatifs aux plans local et international ».[footnote « Ficarra et al. 2020, p. 20. »].

Disciplines in open science infrastructure

Distribution des disciplines parmi les infrastructures étudiées par le rapport SPARC Scoping the Open Science Infrastructure Landscape in Europe.

CC BY 4.0 Deed

Ficarra, Victoria, Fosci, Mattia, Chiarelli, Andrea, Kramer, Bianca, & Proudman, Vanessa dans Scoping the Open Science Infrastructure Landscape https://zenodo.org/record/4153809#.YddADizjLyI

Les infrastructures de science ouverte bénéficient à un ensemble disparate de disciplines et de communautés scientifiques. En 2020, 72 % des infrastructures européennes étudiées par Sparc Europe déclaraient servir toutes les disciplines. Les sciences humaines et sociales étaient les plus citées, notamment parce que l’enquête était « largement diffusée par le réseau OPERAS ».[footnote « Ficarra et al. 2020, p. 19. »]. En 2010, les infrastructures travaillant dans ces domaines étaient beaucoup moins répandues. La plupart des utilisateurs intervenaient dans « les biosciences, la physique des particules et d’autres secteurs de la physique, des sciences de la terre et de l’environnement, de l’informatique, de l’astronomie et de l’astrophysique ».[footnote « Role of e-Infrastructure 2010, p. 106. »]

Aspects économiques

Bien des infrastructures de science ouverte fonctionnent « à coût relativement faible », puisque cet écosystème compte beaucoup de petites entités.[footnote « Ficarra et al. 2020, p. 35. »] En 2020, 21 des 53 infrastructures européennes interrogées déclaraient « disposer d’un budget inférieur à 50 000 EUR ».[footnote « Ficarra et al. 2020, p. 35. »] En conséquence, plus de 75 % des infrastructures européennes étudiées sont gérées par de petites équipes de 5 ETP ou moins.[footnote « Ficarra et al. 2020, p. 41. »] La taille des infrastructures et le volume de leur financement sont loin d’être toujours proportionnels au service critique fourni : « Certains services parmi les plus utilisés parviennent à joindre les deux bouts avec un noyau de deux à cinq employés. ».[footnote « Kraker 2021, p. 3. »] Les contributions des bénévoles sont également importantes. Elles constituent à la fois « une force et une faiblesse pour la durabilité des infrastructures de science ouverte ».[footnote « Ficarra et al. 2020, p. 35. »] Le paysage des infrastructures de science ouverte est donc assez proche de l’idéal d’un « réseau décentralisé de petits projets » imaginé par les théoriciens des communs universitaires.[footnote « Moore 2019, p. 176. »] Les infrastructures de science ouverte sont très majoritairement à but non lucratif[footnote « Ficarra et al. 2020, p. 48. »] et les collaborations ou le soutien financier en provenance du secteur privé restent très limités.[footnote « Ficarra et al. 2020, p. 45. »]

Globalement, les infrastructures européennes étaient financièrement viables en 2020,[footnote « Ficarra et al. 2020, p. 51. »] ce qui contraste avec la situation dix ans auparavant, puisqu’en 2010 elles avaient beaucoup moins de visibilité : elles manquaient généralement « de perspective à long terme » et peinaient « à obtenir des financements au-delà de 5 ans ».[footnote « Role of e-Infrastructure 2010, p. 103. »] En 2020, les infrastructures européennes étaient souvent dépendantes des subventions provenant des États et de la Commission européenne. [footnote « Ficarra et al. 2020, p. 45. »] Sans ces aides, la plupart « ne pourraient même pas rester viables pendant une année ».[footnote « Ficarra et al. 2020, p. 48. »] Pourtant, un quart des infrastructures européennes interrogées ne bénéficiaient d’aucune subvention et faisaient appel à d’autres sources de revenus ou à des contributions volontaires.[footnote « Ficarra et al. 2020, p. 35. »]. Parfois « difficiles à définir avec pertinence », les infrastructures de science ouverte peuvent être négligées par les bailleurs de fonds, ce qui « contribue à leurs difficultés de financement ».[footnote « Neylon 2018, p. 1. »]