RÉSUMÉ

Monitoring de la science ouverte

Un moniteur de la science ouverte ou moniteur du libre accès est une infrastructure destinée à évaluer la diffusion des pratiques ouvertes en contexte scientifique. Les moniteurs de la science ouverte sont généralement construits à l’échelle d’un pays ou d’une institution. Ils nécessitent une évaluation précise de la production scientifique totale et une véritable distinction entre contenus ouverts et fermés moyennant différentes méthodologies et sources de données. C’est ainsi que les moniteurs de la science ouverte sont également devenus des outils d’analyse bibliométrique pertinents.

Initialement conçus pour le suivi des publications au sein des revues universitaires, les moniteurs de la science ouverte ont diversifié leur champ d’application et leurs indicateurs. Depuis peu, ils sont utilisés pour cartographier d’autres productions clés de la recherche scientifique ouverte, comme les ensembles de données, les logiciels ou les essais cliniques.

Cet article est publié sur ce site web et simultanément sous la forme d'un article wikipédia mis à jour de manière indépendante.

Wikipedia

Plan

Notes

Ouvrages & Thèses

Rapports

Articles de revues

Conférences

  • Dijk, E.M.S.; Baars, C.; Hogenaar, A.Th.; van Meel, M. (2006). « NARCIS: The Gateway to Dutch Scientific Information. ELPUB 2006 ». Digital Spectrum: Integrating Technology and Culture. Bansko, Bulgaria: ELPUB. pp. 49–58.
  • Jeangirard, Eric (2019-06-07). Monitoring Open Access at a national level: French case study. ELPUB 2019 23d International Conference on Electronic Publishing. doi:10.4000/proceedings.elpub.2019.20. Retrieved 2023-09-13.
  • Papastefanatos, George; Papadopoulou, Elli; Meimaris, Marios; Lempesis, Antonis; Martziou, Stefania; Manghi, Paolo; Manola, Natalia (2020). Ladjel Bellatreche, Mária Bieliková, Omar Boussaïd, Barbara Catania, Jérôme Darmont, Elena Demidova, Fabien Duchateau, Mark Hall, Tanja Merčun, Boris Novikov, Christos Papatheodorou, Thomas Risse, Oscar Romero, Lucile Sautot, Guilaine Talens, Robert Wrembel, Maja Žumer (ed.). Open Science Observatory: Monitoring Open Science in Europe. Communications in Computer and Information Science. Cham: Springer International Publishing. pp. 341–346. doi:10.1007/978-3-030-55814-7_29. ISBN 978-3-030-55814-7.
  • Mounier, Pierre (2022-10-13). « Academic Publishing and Open Science – Where do we stand? ». Proceedings of the Paris Open Science European Conference : OSEC 2022. Laboratoire d’idées. Marseille: OpenEdition Press. pp. 69–78. ISBN 979-10-365-4562-7. Retrieved 2023-09-14.

Autres publications

Ressources

Open access dashboard COKI

Exemple de moniteur de la science ouverte : le tableau de bord mondial du libre accès de COKI

CC BY 4.0

COKI, depuis https://open.coki.ac/

Narcis screenshot

Page d’accueil du projet NARCIS en 2007, l’un des premiers moniteurs du libre accès

CC BY-SA 4.0

Alexander Doria

Monitoring de la science ouverte

Pierre-Carl Langlais
CC BY 4.0
publié le 1 juin 2024
Citer Imprimer Linkedin Bluesky

Pierre-Carl Langlais , « Monitoring de la science ouverte », Petite encyclopédie de la science ouverte / Small encyclopedia of Open Science, publié le 1 juin 2024.
DOI : https://doi.org/10.52949/66
URL : https://encyclo.ouvrirlascience.fr/fr/articles/monitoring-de-la-science-ouverte/

×

ARTICLE

Un moniteur de la science ouverte ou moniteur du libre accès est une infrastructure destinée à évaluer la diffusion des pratiques ouvertes en contexte scientifique. Les moniteurs de la science ouverte sont généralement construits à l’échelle d’un pays ou d’une institution. Ils nécessitent une évaluation précise de la production scientifique totale et une véritable distinction entre contenus ouverts et fermés moyennant différentes méthodologies et sources de données. C’est ainsi que les moniteurs de la science ouverte sont également devenus des outils d’analyse bibliométrique pertinents.

Initialement conçus pour le suivi des publications au sein des revues universitaires, les moniteurs de la science ouverte ont diversifié leur champ d’application et leurs indicateurs. Depuis peu, ils sont utilisés pour cartographier d’autres productions clés de la recherche scientifique ouverte, comme les ensembles de données, les logiciels ou les essais cliniques.

Définition

Open access dashboard COKI

Exemple de moniteur de la science ouverte : le tableau de bord mondial du libre accès de COKI

CC BY 4.0

COKI, depuis https://open.coki.ac/

Le moniteur de la science ouverte est une infrastructure scientifique permettant d’obtenir une « bonne connaissance de l’état » des productions scientifiques et de leur « taux de libre accès ».[footnote « Chaignon & Egret 2022, p. 18. »] Un tel outil politique aide à mieux évaluer l’écart entre les objectifs à long terme et les pratiques réelles : il « peut éclairer les stratégies futures au niveau des institutions et des pays, fournir des orientations pour la construction et l’évaluation de politiques, aider à déterminer les effets des mécanismes de financement et jouer un rôle crucial pour négocier des accords transformants avec les éditeurs par abonnement traditionnels ».[footnote « Philipp et al. 2021, p. 22. »]

Les moniteurs du libre accès sont des variantes des moniteurs la science ouverte qui se concentrent sur les publications en libre accès. Il s’agit de quantifier la part de libre accès parmi les articles de revues, mais aussi dans « les livres, les chapitres de livres, les compte rendus et les autres types de publications ».[footnote « Philipp et al. 2021, p. 11. »] En revanche, les moniteurs de la science ouverte génériques disposent d’un champ d’application plus large qui inclut toutes les formes d’activités et de productions scientifiques : « Par définition, la science ouverte concerne tout le cycle du processus scientifique, et pas seulement le libre accès aux publications. ».[footnote « Open Science Monitor Methodological Note 2018, p. 5. »]

La plupart des moniteurs de la science ouverte ont une envergure nationale. Ils s’inscrivent dans une politique globale destinée à mieux identifier les coûts et les investissements publics de la publication scientifique.[footnote « Barbers, Stanzel & Mittermaier 2022, p. 50. »] Parmi les meilleurs exemples, on peut citer le Baromètre de la science ouverte en France,[footnote « Jeangirard 2019. »][footnote « Bracco et al. 2022. »], l’Open Access Monitor en Allemagne,[footnote « Barbers, Stanzel & Mittermaier 2022. »] JUULI en Finlande,[footnote « Olsbo 2017. »] l’Open Access Barometer au Danemark[footnote « Elbæk 2014. »], NARCIS[footnote « Dijk et al. 2006. »] puis openaccess.nl aux Pays-Bas[footnote « Mounier 2022, p. 70. »] et le Swiss Open Access Monitor[footnote « Swiss Open Access Monitor »]. Un prototype de moniteur de la science ouverte vit également le jour au Royaume-Uni en 2017,[footnote « Johnson & Chiarelli 2017. »] mais « visiblement sans concrétisation ».[footnote « Barbers, Stanzel & Mittermaier 2022, p. 50. »]

Il existe aussi des structures internationales, comme la Curtin Open Knowledge Initiative (COKI) basée en Australie, le Moniteur de la science ouverte de l’Union européenne et OpenAIRE. Cependant, ils diffusent leurs données dans une sphère plus limitée que les moniteurs nationaux, car ils « ne proposent pas d’options d’évaluation au niveau institutionnel ».[footnote « Barbers, Stanzel & Mittermaier 2022, p. 50. »]

Historique

Contexte

Les moniteurs de la science ouverte font partie d’un écosystème mondial d’infrastructures scientifiques ouvertes apparu durant les premières décennies du XXIe siècle en réaction aux systèmes fermés conçus par les grands éditeurs scientifiques et les sociétés d’analyse.

Après la Seconde Guerre mondiale, la publication scientifique a subi une « crise des périodiques » : les bailleurs de fonds, les institutions et les revues ne pouvaient pas suivre l’accélération de la production scientifique.[footnote « Wouters 1999, p. 61 »] En outre, il devenait nécessaire de développer un nouvel ensemble d’infrastructures et d’outils pour assurer la traçabilité des investissements scientifiques. Le succès limité des initiatives publiques comme SCITEL ou MEDLINE aux États-Unis[footnote « Wouters 1999, p. 60″] a conduit de grandes entreprises privées à combler ce besoin. En 1963, Eugene Garfield créa l’ISI (Institute for Scientific Information) afin de rentabiliser les projets initialement esquissés avec l’administration fédérale. Le Science Citation Index et, plus tard, Web of Science ont massivement et durablement influencé la publication scientifique mondiale au cours des dernières décennies du XXe siècle, puisque son indicateur le plus important, le facteur d’impact des revues, « a fini par constituer l’outil de mesure permettant de structurer le marché concurrentiel entre les revues ».[footnote « Future of scholarly publishing 2019, p. 15″] De plus en plus, les bailleurs de fonds se sont appuyés sur les analyses du Science Citation Index et de ses principaux concurrents pour évaluer les performances des chercheurs ou des institutions.

Après 1990, les principaux éditeurs universitaires commencèrent à diversifier leurs activités au-delà de la publication et sont passés « d’une activité de fourniture de contenu à une activité d’analyse de données ».[footnote « Aspesi et al. 2019, p. 5. »] En 2019, Elsevier a acquis ou construit un vaste portefeuille de plateformes, d’outils, de bases de données et d’indicateurs couvrant la totalité des aspects et des étapes de la recherche scientifique : « Le plus grand fournisseur de revues académiques est également chargé d’évaluer et de valider la qualité et l’impact de la recherche (Pure, Plum Analytics, Sci Val), d’identifier les experts universitaires pour le compte des employeurs potentiels (Expert Lookup), de gérer les plateformes collaboratives de recherche (SSRN, Hivebench, Mendeley) et les outils de localisation des financements (Plum X, Mendeley, Sci Val) ainsi que de contrôler les plateformes permettant d’analyser et de stocker les données des chercheurs (Hivebench, Mendeley). ».[footnote « Chen et al. 2019, par. 25. »] Les métriques et les indicateurs sont des éléments clés de cette intégration verticale : « L’évolution d’Elsevier vers un service d’aide à la décision basé sur des métriques est aussi un moyen d’accroître son influence sur l’ensemble du processus de production de connaissances et de monétiser encore plus son accumulation disproportionnée de contenus. ».[footnote « Chen et al. 2019, par. 29. »] Les marchés émergents de la publication et des données scientifiques ont été comparés au modèle économique des réseaux sociaux, des moteurs de recherche et d’autres formes de capitalisme de plateforme.[footnote « Moore 2019, p. 156. »][footnote « Chen et al. 2019. »][footnote « Wainwright & Bervejillo 2021. »] L’accès au contenu est certes gratuit, mais il est indirectement rémunéré par l’extraction et la surveillance des données.[footnote « Wainwright & Bervejillo 2021, p. 211. »]

Premiers développements

Narcis screenshot

Page d’accueil du projet NARCIS en 2007, l’un des premiers moniteurs du libre accès

CC BY-SA 4.0

Alexander Doria

Les premiers moniteurs de la science ouverte furent créés dans les années 2000 et au début des années 2010. Généralement, ils constituaient un prolongement naturel des nouvelles politiques nationales et internationales en faveur du libre accès et de la science ouverte. En particulier, la Déclaration de Berlin de 2003 a introduit le concept d’une « transition [mondiale] de l’édition scientifique vers un système en libre accès » qui nécessiterait « des informations sur la production éditoriale et sur les frais d’abonnement et de publication ».[footnote « Barbers, Stanzel & Mittermaier 2022, p. 50. »]

En outre, la diversification des supports (revues, référentiels, épi-revues, etc.) et des formats (articles, conférences, jeux de données, etc.) de la publication scientifique ouverte a créé des difficultés inédites.

Le projet néerlandais NARCIS (« National Academic Research and Collaborations Information System »),[footnote « Barbers, Stanzel & Mittermaier 2022, p. 50. »] lancé en décembre 2005, compte parmi les pionniers des moniteurs de la science ouverte.[footnote « Dijk et al. 2006, p. 49. »] Portail scientifique avant tout national, NARCIS vise à intégrer « toutes sortes d’informations provenant des instituts scientifiques des Pays-Bas ». Pour autant, il met aussi l’accent sur les « référentiels universitaires OAI »[footnote « Dijk et al. 2006, p. 49. »] et publie des statistiques globales sur la proportion de travaux scientifiques ouverts, restreints et sous embargo depuis 2000.[footnote « Borrego 2021, p. 17. »]

En 2013, la Finlande fut la première à adopter l’influent modèle de Jyväskylä par l’intermédiaire de son portail national JUULI.[footnote « Olsbo 2017, p. 223-224. »] Expérimentée pour la première fois à l’Open Science Centre de l’Université de Jyvskyl, cette approche vise à « centraliser tous les aspects de l’autoarchivage et du libre accès dont la responsabilité incombe aux professionnels du milieu bibliothécaire universitaire »[footnote « Olsbo 2017, p. 224. »] en vue de faciliter la collecte de données : « Les chercheurs en font le moins possible et, dans certains cas, rien du tout. ».[footnote « Olsbo 2017, p. 224. »]

Du libre accès à la science ouverte

Après 2015, l’Union européenne a lancé des programmes et des objectifs ambitieux dans le cadre de son propre mécanisme de financement, Horizon 2020. Le développement d’outils et de méthodologies de monitoring à l’échelle supranationale a ainsi connu un élan sans précédent : « On a également observé un mouvement général vers plus de monitoring […] pour davantage de transparence afin de permettre à chaque pays de voir ce que font les autres. ».[footnote « Smith et al. 2016, p. 2. »] En 2018, 81 % des organisations scientifiques de Science Europe déclaraient « prévoir de développer des mécanismes de monitoring du libre accès à l’avenir ».[footnote « Philipp et al. 2021, p. 7. »]

Dans leur travail préparatoire sur le monitoring de la science ouverte, Smith et al. soulignaient que « la science ouverte va bien au-delà du libre accès, qui pourtant est au cœur des discussions actuelles ».[footnote « Smith et al. 2016, p. 5. »] Outre les publications des chercheurs, ils se sont penchés sur les données de la recherche ouverte et sur un plus large éventail d’activités de communication liées à la science ouverte, notamment les prépublications, les évaluations, les commentaires et les discussions sur les réseaux sociaux.

En mai 2018, la Commission européenne a publié une note méthodologique détaillée sur son projet de moniteur de la science ouverte européen.[footnote « Open Science Monitor Methodological Note 2018. »] Alors que le moniteur devait reprendre les caractéristiques essentielles des projets précédents, l’éditeur universitaire Elsevier fut choisi comme sous-traitant principal pour créer la plateforme en dépit de son opposition passée à la science ouverte. De plus, il a été annoncé que les métadonnées de Scopus et d’Unpaywall serviraient de métriques pour évaluer le volume de publications en libre accès.[footnote « Hameau 2018. »][footnote « Borrego 2021, p. 13. »] La proposition a suscité de vives réactions, près de 1 000 chercheurs et militants de la science ouverte ayant signé une pétition auprès du médiateur européen.[footnote « Knecht 2018. »] Dans une tribune publiée par The Guardian, Jon Tennant voyait « une cruelle ironie [dans le fait] qu’Elsevier soit payé pour monitorer le système même qu’il a toujours combattu ».[footnote « Tennant 2018. »]

Le Moniteur européen de la science fut alors réorienté sur de nouvelles bases. En 2023, le site Web ne contenait que des données antérieures à l’année 2019. En 2022, le Conseil européen indiquait clairement que « les données et les bases de données bibliographiques utilisées pour évaluer la recherche devraient, en principe, être librement accessibles, et [que] les outils et les systèmes techniques devraient permettre d’assurer la transparence ».[footnote « Council of the European Union 2022. »]

L’initiative du Moniteur européen de la science ouverte a poussé les États membres qui avaient des projets similaires à fortement repenser leurs objectifs et leurs ambitions. En 2018, la France proposait notamment un plan détaillé d’élaboration d’indicateurs qui ne se limiteraient pas aux publications et auraient une influence directe sur le Baromètre de la science ouverte.[footnote « Hameau 2018. »][footnote « Borrego 2021, p. 17. »]

Sources

Les moniteurs de la science ouverte doivent néanmoins s’accommoder de la diversité des sources de données scientifiques, puisqu’à ce jour « aucune base de données n’offre une réponse facile et complète ».[footnote « Chaignon & Egret 2022, p. 19. »] Ainsi, « pour la plupart des activités de monitoring, il faudra rassembler, agréger et rapprocher les données provenant de sources multiples ».[footnote « Philipp et al. 2021, p. 14. »]

Les principales sources disponibles pour les moniteurs de la science ouverte comprennent les infrastructures internationales de science ouverte, les sources locales et les plateformes privées. Le choix des sources est souvent dicté par des considérations d’ordre politique et des contraintes techniques. Le Royaume-Uni et l’Allemagne ne disposent pas d’un « réservoir de données » provenant de sources locales. Ils ont donc décidé de s’appuyer en grande partie sur des bases de données privées telles que Dimensions, WoS ou Scopus.[footnote « Chaignon & Egret 2022, p. 19. »] À l’inverse, côté français, le Baromètre de la science ouverte a opté pour un « choix constitutif » de sources ouvertes.[footnote « Chaignon & Egret 2022, p. 20. »]

Infrastructures internationales

Les principales infrastructures de science ouverte utilisées par les moniteurs de la science ouverte sont Unpaywall,[footnote « Barbers, Stanzel & Mittermaier 2022, p. 51. »] Crossref[footnote « Bracco et al. 2022, p. 3. »] et le DOAJ (Directory of Open Access Journals).[footnote « Barbers, Stanzel & Mittermaier 2022, p. 51. »] Crossref est la principale source d’information du Baromètre de la science ouverte, qui intègre seulement « les publications associées à un DOI Crossref ».[footnote « Bracco et al. 2022, p. 3. »]

Les années 2010 ayant apporté leur lot d’évolutions significatives, les infrastructures internationales disposent d’un plus large éventail de « publications, langues et sources » que les bases de données privées.[footnote « Chaignon & Egret 2022, p. 19. »] Or, « leurs métadonnées sont insuffisamment normalisées, ce qui en rend la collecte et le traitement plus complexes » et elles peuvent manquer d’informations clés pour la création de moniteurs de la science ouverte, par exemple les affiliations des auteurs.[footnote « Chaignon & Egret 2022, p. 19. »]

Infrastructures et référentiels locaux

Les infrastructures locales comprennent les systèmes d’information sur la recherche actuelle (CRIS), directement gérés par les institutions scientifiques et les universités, qui « aident à gérer, comprendre et évaluer les activités de recherche ».[footnote « Chaignon & Egret 2022, p. 19. »] Au niveau institutionnel, ces dispositifs peuvent offrir une couverture maximale de la production scientifique, notamment en intégrant les revues publiées localement qui ne seraient pas nécessairement indexées dans les infrastructures scientifiques mondiales. En raison de leurs liens directs avec les communautés scientifiques, les infrastructures locales peuvent inciter les chercheurs à « entrer leurs publications dans ces systèmes » et à mettre en œuvre un plus large éventail d’indicateurs que ceux généralement disponibles dans les bases de données internationales.[footnote « Philipp et al. 2021, p. 17. »]

La gestion des infrastructures locales est décentralisée, avec des niveaux de couverture et d’information variables selon les institutions. Dans certains cas, les référentiels locaux sont « alimentés uniquement par les grandes bases de données commerciales » et n’offrent aucune valeur ajoutée.[footnote « Chaignon & Egret 2022, p. 19. »]

L’intégration de diverses sources de données locales dans un projet commun et standardisé est un défi majeur pour les moniteurs de la science ouverte. L’existence préalable d’une politique de financement ambitieuse peut considérablement favoriser ce processus en incitant les institutions à adopter des normes et des exigences spécifiques en matière de métadonnées.[footnote « Chaignon & Egret 2022, p. 19. »]

Alors que les infrastructures locales sont généralement considérées comme des fournisseurs de données pour les moniteurs de la science ouverte, la réciproque est aussi envisageable. En France, l’Université de Lorraine a créé sa propre déclinaison du Baromètre de la science ouverte.[footnote « Bracco 2022, p. 2. »]

Bases de données privées

Les bases de données privées telles que Web of Science ou Scopus sont depuis longtemps les principales pourvoyeuses d’analyses et de métadonnées des publications. Pourtant, leur intégration dans les moniteurs de la science ouverte ne fait pas l’unanimité.

Les bases privées sont traditionnellement accusées de propager des biais de données surtout problématiques dans le contexte national de la plupart des moniteurs de la science ouverte. Elles privilégient généralement les publications anglophones et négligent les ressources ayant un impact local significatif.[footnote « Chaignon & Egret 2022, p. 19. »] En outre, le recours à des plateformes privées crée une dépendance à long terme, avec des coûts supplémentaires et des risques pour la durabilité des données : « Les éditeurs commerciaux imposent des licences pour accéder à leurs services, avec des tarifs et des modalités d’accès variables. ».[footnote « Philipp et al. 2021, p. 17. »]

Le Baromètre de la science ouverte s’est fixé comme règle de n’utiliser que des « sources de données publiques ou ouvertes ».[footnote « Bracco et al. 2022, p. 3. »] À l’inverse, l’Open Access Monitor allemand exploite les contenus de Dimensions, Web of Science et Scopus, notamment pour récupérer les « informations sur les auteurs correspondants », même s’il se dit « attentif à l’émergence de nouvelles sources de données, en particulier au format ouvert ».[footnote « Barbers, Stanzel & Mittermaier 2022, p. 51. »]

Méthodologie

Généralement, les moniteurs de la science ouverte cherchent à rassembler plusieurs sources de données et de métadonnées de publication dans une « interface centralisée » qui « assure un suivi continu au niveau national et fournit une base de décisions et d’actions fondées sur des éléments tangibles ».[footnote « Barbers, Stanzel & Mittermaier 2022, p. 51. »] À cause de « la complexité du système d’édition scientifique », la création de moniteurs de la science ouverte efficaces n’est « pas une tâche anodine et implique de nombreuses décisions ».[footnote « Philipp et al. 2021, p. 7. »]

Rapprochement des données

La combinaison de multiples sources bibliométriques génère un certain nombre de difficultés. Parfois, il manque des métadonnées importantes. Les articles étant indexés à la fois dans des bases de données locales et internationales, les entrées en double sont fréquentes.

Les identificateurs persistants (PID, de l’anglais « Persistent Identifier ») sont un aspect crucial des moniteurs de la science ouverte. En théorie, ils permettent « d’identifier de manière univoque les publications, les auteurs et les institutions de recherche associées ».[footnote « Philipp et al. 2021, p. 15. »] La publication au sein de revues scientifiques peut reposer sur des normes internationalement reconnues, comme le système DOI (pour les publications proprement dites) ou ORCID (pour les auteurs), gérées par des infrastructures internationales majeures telles que Crossref.

Malgré l’existence préalable de normes internationales, les moniteurs de la science ouverte doivent habituellement introduire leurs propres identifiants et schémas de normalisation. Limiter l’analyse à ces normes reviendrait à « exclure d’emblée un certain nombre de revues qui n’adhèrent pas à cette technologie très générale des identifiants persistants ».[footnote « Chaignon & Egret 2022, p. 21. »] En outre, d’autres formes de productions ou d’activités scientifiques (comme le financement) ne disposent pas du même degré de normalisation.[footnote « Philipp et al. 2021, p. 15. »]

Même lorsque les sources incluent déjà des identifiants persistants, « un certain degré de normalisation manuelle est nécessaire »,[footnote « Philipp et al. 2021, p. 17. »] car les métadonnées d’origine ne sont pas toujours cohérentes ou ne balaient pas tous les spectres possibles. L’affiliation des auteurs est une information cruciale pour la plupart des moniteurs de la science ouverte, car elle permet de distinguer les productions scientifiques selon le pays. Cependant, elle est rarement indiquée, et encore moins systématique.

Exploration de textes et de données

Les moniteurs de la science ouverte ont récemment expérimenté diverses méthodes d’exploration de textes pour reconstituer les métadonnées manquantes. Même les plus illustres bases de données n’échappent pas à certaines failles : « 75 % du contenu indexé » dans Crossref ne mentionne pas d’affiliations institutionnelles.[footnote « Jeangirard 2022, p. 10. »]

Depuis 2022, le Baromètre de la science ouverte (BSO) utilise avec succès des méthodes et des modèles d’apprentissage automatique pour identifier les disciplines ou les affiliations institutionnelles.[footnote « Jeangirard 2022, p. 10-11. »][footnote « Chaignon & Egret 2022, p. 20. »] Afin de répertorier les disciplines, le BSO a développé scientific-tagger,[footnote « Scientific Tagger »] un modèle de plongement lexical basé sur FastText et entraîné sur PASCAL et FRANCIS, deux bases de données annotées.[footnote « Jeangirard 2022, p. 10. »]

En 2022, Chaignon et Egret ont publié une reproduction systématique et une évaluation de la méthodologie du BSO dans « Quantitative Science Studies ». En étudiant des bases de données privées et ouvertes, ils ont trouvé presque le même taux de publications en libre accès pour l’année 2019 (53 % vs 54 %).[footnote « Chaignon & Egret 2022, p. 34. »] Dans l’ensemble, le choix du BSO en faveur de l’open source s’est montré plus efficace que le recours à d’autres sources privées : « La stratégie open source mise en œuvre par le BSO permet d’identifier la grande majorité des publications avec un identifiant permanent (DOI) pour le monitoring de la science ouverte. ».[footnote « Chaignon & Egret 2022, p. 34. »] En outre, le BSO obtient des métadonnées « à un niveau suffisamment fin pour éclairer les disparités géographiques, thématiques, linguistiques, etc. qui affectent les études bibliométriques ».[footnote « Chaignon & Egret 2022, p. 34. »]

Les méthodes d’exploration de textes et de données sont particulièrement prometteuses pour indexer un plus large spectre de productions scientifiques ouvertes. Les jeux de données, le code, les rapports et les essais cliniques n’ont jamais été catalogués de manière systématique. En France, le Plan national pour la science ouverte cherche à mettre en place depuis 2022 des indicateurs au-delà du cadre des publications. Aussi, le BSO travaille à l’extraction des « références aux logiciels et aux données de recherche » dans les articles en texte intégral avec des modèles expérimentaux d’apprentissage profond.[footnote « Jeangirard 2022, p. 11. »]

Usages et impact

Suivre l’adoption de la science ouverte

Dès le commencement, l’un des objectifs du Baromètre de la science ouverte était de capter « la dynamique du libre accès »,[footnote « Bracco et al. 2022, p. 4. »] avec des conséquences importantes sur la conception et le flux de données, car le « statut en libre accès d’une publication évolue au fil du temps » en raison des politiques d’embargo et de l’ouverture rétrospective des contenus plus anciens.[footnote « Jeangirard 2019, p. 4. »]

Malgré des différences significatives de méthodologies ou de sources de données, Pierre Mounier soulignait en 2022 que « nous observons la même dynamique » dans les moniteurs du libre accès de « trois pays européens » : les moniteurs français, allemand et néerlandais convergent pour établir qu’un peu plus de 60 % de la recherche est publiée en libre accès.[footnote « Mounier 2022, p. 70. »]

Analyse économique

Les moniteurs de la science ouverte aident à estimer les coûts de l’édition scientifique. Faute d’agrégation des données de publication, « il n’existe souvent aucun espace qui centralise les informations sur les dépenses d’édition en libre accès et surtout hors libre accès ».[footnote « Barbers, Stanzel & Mittermaier 2022, p. 51. »]

Les moniteurs permettent aussi de mieux évaluer l’impact économique de la science ouverte dans tout l’écosystème universitaire. On estime généralement que le passage à l’édition en libre accès ne devrait pas entraîner un surcoût par rapport au système en place. Pourtant, il peut encore subsister des écarts significatifs, surtout avec le modèle APC : les institutions au volume de publication élevé mais aux besoins en abonnement limités peuvent se retrouver dans une « situation financière aggravée ».[footnote « Barbers, Stanzel & Mittermaier 2022, p. 51. »]