RÉSUMÉ

Usages de la science ouverte

Contrairement à ce que l’on pourrait croire, 65 à 90 % du public des plateformes de science ouverte est constitué de non-universitaires. De nouvelles études ont montré que le mouvement de la science ouverte a fortement élargi la portée sociale, économique et culturelle de la recherche scientifique. Les utilisateurs réguliers sont des étudiants, des professionnels non universitaires et des particuliers.

Les structures privées et publiques s’appuient abondamment sur la recherche ouverte pour innover et mieux documenter les pratiques ou produits existants. De nombreux usages professionnels de la recherche universitaire ont été attestés dans de multiples secteurs, par exemple l’industrie aéronautique, la banque, l’assurance, les cabinets de conseil ou les médias. En outre, les publications et données de sciences sociales constituent des ressources cruciales pour élaborer des politiques et préparer la mise en œuvre de nouvelles législations.

Au-delà des applications commerciales, la science ouverte possède un impact majeur sur la société. Avec la massification des études secondaires, le grand public estime majoritairement que la science ouverte peut lui être d’une manière ou d’une autre bénéfique (jusqu’à 55 % dans une enquête réalisée en 2011 au Japon). L’accès aux publications peut sauver des vies et aider à résoudre des problèmes médicaux de longue durée : très tôt, les patients ont été identifiés comme les premiers bénéficiaires de la science ouverte. La recherche spécialisée peut aussi répondre à une grande variété de besoins, de fonctions et de motivations, comme la contribution à des projets, les loisirs ou la simple curiosité.

Enfin, la science ouverte a permis des usages inattendus aux chercheurs universitaires eux-mêmes, car elle offre un accès non discriminatoire indépendamment de la discipline ou du pays d’origine. Le développement de portails pirates tels que Sci-Hub a récemment mis en lumière les inégalités mondiales en matière d’accès à la connaissance. En effet, les universités des pays à revenus intermédiaires n’ont pas toujours les moyens de s’abonner à des plateformes d’édition coûteuses.
De nouveaux outils et méthodes d’étude de l’audience sont en cours de développement, car les indices bibliométriques traditionnels se limitent à la réception des citations dans les milieux universitaires. L’amélioration des infrastructures d’analyse a conduit au développement d’études centrées sur l’utilisateur (la « bibliométrie de l’utilisateur ») et à leur mise en œuvre auprès des grandes plateformes de science ouverte comme SciELO, Redalyc, Érudit, OpenEdition et Journal.fi. Les modèles de vulgarisation scientifique ont également été repensés, l’accès direct aux publications universitaires créant de nouveaux canaux pour la circulation du savoir.

Récemment, l’impact social a été reconnu comme un élément clé des plateformes de science ouverte. Cette évolution a redéfini les objectifs des institutions scientifiques, des bailleurs de fonds et des décideurs, par exemple en encourageant la diversité linguistique au sein de la recherche. Les publics non universitaires sont davantage susceptibles d’accéder aux productions scientifiques dans leur langue locale : jusqu’à 80 % des utilisateurs de la plateforme Journal.fi issus du grand public y consultent des ressources en finnois.

Cet article est publié sur ce site web et simultanément sous la forme d'un article wikipédia mis à jour de manière indépendante.

Wikipedia

Plan

Notes

Book & thesis

  • Matthews, Joseph R.; Lawrence, Gary S.; Ferguson, Douglas K. (1983). Using Online Catalogs: A Nationwide Survey : a Report of a Study Sponsored by the Council on Library Resources. Neal-Schuman. ISBN 978-0-918212-76-4.
  • Tenopir, Carol; King, Donald W (2000). Towards electronic journals: realities for scientists, librarians, and publishers. Washington, DC: Special Libraries Association. ISBN 978-0-87111-507-2.
  • Willinsky, John (2006). The access principle: the case for open access to research and scholarship. Digital libraries and electronic publishing. Cambridge, Mass: MIT Press. ISBN 978-0-262-23242-5.
  • Bellis, Nicola De (9 March 2009). Bibliometrics and Citation Analysis: From the Science Citation Index to Cybermetrics. Scarecrow Press. ISBN 978-0-8108-6714-7.
  • Montgomery, Scott L. (2013-05-06). Does Science Need a Global Language?: English and the Future of Research. University of Chicago Press. ISBN 978-0-226-01004-5.
  • Hogan, A. (2014-04-09). Reasoning Techniques for the Web of Data. IOS Press. ISBN 978-1-61499-383-4.
  • Alperin, Juan Pablo (2015). The public impact of Latin America’s approach to open access (Thesis). Stanford University.
  • Sugimoto, Cassidy R.; Larivière, Vincent (2018). Measuring Research: What Everyone Needs to Know. Oxford University Press. ISBN 978-0-19-064011-8.
  • Gillespie, Tarleton (2018). Custodians of the internet: platforms, content moderation, and the hidden decisions that shape social media. New Haven: Yale University Press. ISBN 978-0-300-17313-0.

Reports

  • Fox, Susannah; Fallows, Deborah (2003). Half of American adults have searched online for health information, but there is room for improvement in searches and overall Internet access (Report). Pew Research Center. p. 42.
  • Houghton, John; Swan, Alma; Brown, Sheridan (2011). Access to research and technical information in Denmark (Report). Denmark Electronic Research Library.
  • Rowlands, Ian; Nicholas, David; Brown, David (2011-01-01). Access to scholarly content: gaps and barriers (Report).
  • OECD (2017-12-06). Business models for sustainable research data repositories (Report). Paris: OECD. Retrieved 2022-02-28.
  • Wilsdon, James; Bar Ilan, Judit; Frodeman, Robert; Lex, Elisabeth; Peters; Wouters., Paul (2017). Next-generation metrics: responsible metrics and evaluation for open science (Report). LU: European Commission Publications Office. doi:10.2777/337729. Retrieved 2022-04-24.
  • Micheletti, Giorgio; Cataneo, Gabriella; Glennon, Mike; La Croce, Carla; Mitta, Chrysoula (2020). The European Data Market Monitoring Tool (Report). European Commission. p. 101.

Academic articles & chapters

Conference

  • Tolle, John E. (1983). « Transaction log analysis online catalogs ». Proceedings of the 6th annual international ACM SIGIR conference on Research and development in information retrieval – SIGIR ’83. the 6th annual international ACM SIGIR conference. Bethesda, Maryland: ACM Press. p. 147. doi:10.1145/511793.511816. ISBN 978-0-89791-107-8. Retrieved 2020-03-04. {{cite conference}}: Unknown parameter |booktitle= ignored (|book-title= suggested) (help)
  • Dacos, Marin; Cixous, Mikael; Faath, Elodie; Gombin, Joel; Langlais, Pierre-Carl (2017). The Unexpected reader. DH2017. Montreal.
  • Torny, Didier; Capelli, Laurent; Danjean, Lydie (14 June 2019). « ELPUB 2019 23d International Conference on Electronic Publishing ». ELPUB 2019 23d International Conference on Electronic Publishing. ELPUB 2019 23d International Conference on Electronic Publishing. OpenEdition Press. doi:10.4000/proceedings.elpub.2019.22. {{cite conference}}: |access-date= requires |url= (help)

Other sources

Ressources

Scielo user demographics

Répartition des utilisateurs de SciELO, une des principales plateformes scientiques d'amérique latine

CC BY 3.0

Juan Pablo Alperin, extrait de L'impact public de l'approche de l'amérique latine en matière d'accès ouvert

Usages de la science ouverte

Langlais, Pierre-Carl
CC BY 4.0
publié le 1 février 2024
Citer Imprimer Linkedin Bluesky

Langlais, Pierre-Carl, « Usages de la science ouverte », Petite encyclopédie de la science ouverte / Small encyclopedia of Open Science, publié le 1 février 2024.
DOI : https://doi.org/10.52949/68
URL : https://encyclo.ouvrirlascience.fr/fr/articles/usages-science-ouverte/

×

ARTICLE

Le mouvement de la science ouverte a étendu les usages de la production scientifique au-delà des cercles universitaires spécialisés.

L’audience non universitaire des revues et autres travaux scientifiques a toujours été importante. Pour autant, les principaux indicateurs de la réception scientifique n’en tiennent pas compte, ce qui favorise l’usage des données de citation. À la fin des années 1990, les premières publications en libre accès sur Internet commencèrent à susciter un grand nombre de visites individuelles. Cette évolution a renouvelé les théories de la diffusion scientifique, l’accès direct aux publications ayant raccourci le parcours classique de la vulgarisation des savoirs. L’impact social et les usages potentiels par des lecteurs non spécialistes sont devenus des thèmes de discussion majeurs dans le développement des plateformes et infrastructures de science ouverte.

L’approche bibliométrique standard ne comptabilise pas la réception des productions scientifiques hors des milieux universitaires. Il a donc fallu développer de nouvelles méthodes, notamment l’analyse des journaux et des liens croisés ainsi que les altermétriques, pour analyser les usages de la science ouverte.

Dans les années 2010, la disponibilité croissante des données d’utilisation a permis de réaliser plusieurs études approfondies sur la réception de certaines plateformes de science ouverte. Diverses analyses de journaux et enquêtes ont montré que les universitaires professionnels ne constituent pas la majorité du public. En effet, les lecteurs récurrents sont plutôt des étudiants, des professionnels non universitaires (décideurs, R&D industrielle, travailleurs de la connaissance) et des « particuliers » aux motivations diverses (santé personnelle, curiosité, loisir). Le trafic sur les plateformes de science ouverte est stimulé par un écosystème plus vaste de partage et de vulgarisation des connaissances comprenant des productions non universitaires telles que les blogues. Le public non universitaire tend à privilégier la langue locale, ce qui favorise la diversité linguistique dans la sphère scientifique.

Concepts et définition

La bibliométrie et ses limites

Après la Seconde Guerre mondiale, le critère du nombre de citations s’est progressivement imposé pour quantifier la réception des publications scientifiques. La bibliométrie s’est développée parallèlement à la mise au point du premier moteur de recherche informatisé, le Science Citation Index, créé par Eugene Garfield en 1962.[footnote « Bellis 2009, p. 49 »] Ses figures fondatrices, comme l’historien des sciences britannique Derek John de Solla Price, étaient des partisans du réductionnisme bibliométrique.[footnote « Bellis 2009, p. 62 »] Leur ambition était de réduire tous les indicateurs bibliométriques possibles aux données et réseaux de citations. Après les années 1970, les indicateurs bibliométriques tels que le facteur d’impact ont fortement influencé la politique de recherche et l’évaluation des résultats.[footnote « Bellis 2009, p. 194 »]

Les moteurs de recherche académiques, la collecte de données de citations et les indicateurs correspondants ont été délibérément conçus pour favoriser les revues anglophones.[footnote « Montgomery 2013, p. 82″] Jusqu’au développement des plateformes de science ouverte, « on connaissait très mal l’impact des revues latino-américaines en général »[footnote « Alperin 2015, p. 25″]. En Amérique latine et hors de l’Occident, l’utilisation d’indicateurs bibliométriques standard comme le facteur d’impact a considérablement occulté l’ampleur et la diversité de l’édition universitaire en tant qu’écosystème : « Abstraction faite des questions d’équité, à cause de la sous-représentation et du très faible nombre de revues provenant des pays en développement, les citations comptabilisées dans les publications axées sur ces régions seront moins nombreuses que celles des revues déjà présentes dans le référentiel »[footnote « Alperin 2015, p. 26″].

À ses débuts, le mouvement de la science ouverte a partiellement adopté les outils standards de la bibliométrie et de l’évaluation quantitative : « L’absence de référence aux métadonnées dans les principales déclarations sur le libre accès (Budapest, Berlin, Bethesda) a entraîné une situation paradoxale (…) C’est par l’utilisation de Web of Science que les défenseurs du libre accès ont souhaité montrer à quel point l’accessibilité était plus avantageuse que les articles payants en matière de citations. »[footnote « Torny, Capelli & Danjean 2019, p. 1 »]. Après 2000, une importante littérature bibliométrique a été consacrée au bénéfice des publications en libre accès pour générer des citations.[footnote « Sugimoto & Larivière 2018, p. 70 »]

À la fin des années 2000, certains indicateurs comme le facteur d’impact – entre autres – étaient de plus en plus considérés comme responsables d’un verrouillage systémique de sources prestigieuses devenues inaccessibles. Des figures clés du mouvement de la science ouverte tels que Stevan Harnad appelèrent à la création d’une « scientométrie du libre accès » qui « tirerait parti de la richesse des indicateurs d’usage et d’impact résultant de la multiplication des archives numériques en ligne, en texte intégral et en libre accès »[footnote « Bellis 2009, p. 300″]. La science ouverte s’étant popularisée au-delà des cercles universitaires, de nouveaux indicateurs devraient chercher à « mesurer les impacts sociétaux à plus grande échelle de la recherche scientifique »[footnote « Wilsdon et al. 2017, p. 9 »].

Public non universitaire

Les revues académiques ont toujours eu un public non universitaire important, qu’il s’agisse d’étudiants, de professionnels ou d’amateurs. En 2000, un tiers des lecteurs n’avaient jamais rédigé de publication scientifique.[footnote « Tenopir & King 2000″] Une proportion peut-être même supérieure pour les revues de sciences sociales, tant elles servent aussi parfois de périodiques intellectuels. Au cours de la seconde moitié du XXe siècle, l’audience non universitaire a pu se développer en continu dans les pays occidentaux parallèlement à la prévalence accrue de l’enseignement secondaire : « Aux États-Unis, la part des adultes ayant un niveau minimal de compréhension des études scientifiques est passée de 12 % en 1957 à 21 % en 1999 »[footnote « Miller 2004, p. 276-277″].

L’importance de l’audience non universitaire soulève de nouvelles questions sur la pertinence et la portée des mesures bibliométriques classiques, qui n’apparaîtraient « jamais dans les données de citation »[footnote « Alperin 2015, p. 24 »]. Les infrastructures et modèles économiques mis en place par les principaux éditeurs scientifiques ne tiennent pas compte des usages non universitaires. Après la crise des périodiques des années 1980 et l’inflation du prix des abonnements, les revues majeures sont largement devenues inaccessibles au grand public et aux chercheurs indépendants non affiliés à de grandes institutions de recherche. Les moteurs de recherche et les bases de données bibliographiques développés depuis les années 1960 et 1970 étaient destinés aux documentalistes professionnels. Sans le revendiquer, les principaux éditeurs scientifiques s’appuient sur un modèle de réception scientifique « en décalé » dans lequel les connaissances scientifiques spécialisées, au lieu d’être directement accessibles, sont médiées et vulgarisées.[footnote « Zuccala 2009, p. 25″]

Le passage des revues universitaires au format électronique et au libre accès a mis en évidence un important écart au niveau de la mesure des citations. À la fin des années 1990, les revues en ligne et les référentiels d’archivage attiraient de toute évidence un très large public : « Dans les différentes disciplines, le changement fut presque instantané. Par exemple, à la mi-1997, le nombre d’articles téléchargés à partir de la bibliothèque numérique d’astronomie ADS développée par la NASA et gérée par le Harvard–Smithsonian Center for Astrophysics (ads.harvard.edu) dépassait la somme de tous les articles lus dans l’ensemble des bibliothèques d’astronomie sur support papier. »[footnote « Kurtz & Bollen 2010, p. 3 »]. Les analyses de journaux ont régulièrement souligné que les publications en libre accès possèdent un taux d’utilisation et de téléchargement beaucoup plus élevé que leurs équivalents payants.[footnote « Cameron-Pesant 2018, p. 375″]

L’extension de l’audience des travaux scientifiques aux non-universitaires a toujours été un objectif clé du mouvement de libre accès : « Dès les premières formulations du concept de libre accès, le grand public figurait parmi ses audiences potentielles »[footnote « Nunn & Pinfield 2014, p. 175″]. En 2001, l’Initiative de Budapest sur le libre accès mentionnait parmi ses bénéficiaires « les scientifiques, les savants, les enseignants, les étudiants et les autres esprits curieux ».

Dans le contexte de la science ouverte, le public non universitaire s’est vu associer à une figure plus large : le lecteur profane ou lecteur inattendu. Dès qu’il est universellement accessible, un travail universitaire peut rencontrer des lecteurs ou des utilisateurs imprévus.[footnote « The Unexpected reader »] Selon l’article de John Willinsky publié en 2006, « Il n’est pas difficile d’imaginer des situations où un professeur d’histoire dévoué, un lycéen particulièrement enthousiaste, un astronome amateur ou un citoyen soucieux d’écologie apprécieraient de parcourir la littérature pertinente et les derniers ouvrages consacrés à leurs centres d’intérêt »[footnote « Willinsky 2006, p. 111″]. Des formes inattendues de réception sont parfois observées, par exemple lorsque le rédacteur en chef de PLOS a reçu un projet de recherche prometteur sur la modélisation des pandémies dont l’auteur était, en définitive, « un lycéen de quinze ans »[footnote « The Unexpected reader »]. Le lecteur profane ne fait pas nécessairement partie du public non universitaire, et un scientifique professionnel peut être qualifié comme tel si « l’information recherchée ne figure pas dans son domaine d’expertise »[footnote « Zuccala 2009, p. 4 »]. Tous les lecteurs inattendus ne se comportent pas de la même manière et n’ont pas la même capacité à exploiter les ressources académiques. Même lorsqu’ils n’opèrent pas dans leur domaine d’expertise principal, les chercheurs universitaires ou certains professionnels (les travailleurs de la connaissance) ont acquis des compétences génériques d’analyse bibliographique, comme le suivi des citations dans la littérature.[footnote « Zuccala 2009, p. 4 »]

Usages universitaires inattendus

Les revues payantes n’ont pas permis d’étendre les usages universitaires inattendus. En effet, à cause du prix des abonnements, leur accès reste conditionné au domaine d’activité ou aux ressources disponibles au sein de l’institution. En 2011, Michael Carroll a présenté une typologie de cinq « lecteurs inattendus » qui dépasse le cadre des attentes de lecture des revues universitaires en ligne : les lecteurs fortuits (qui découvrent la publication à travers un parcours de lecture complexe), les lecteurs à faibles ressources (probablement non initiés, comme les étudiants du secondaire), les lecteurs interdisciplinaires (des scientifiques d’un domaine différent), les lecteurs internationaux (des scientifiques d’un autre pays) et les lecteurs automatiques (des robots informatiques qui amassent un corpus, par exemple dans le cadre d’un projet de fouille de textes).[footnote « Paveau 2013″]

Le développement de plateformes académiques pirates telles que Sci-Hub ou Libgen a mis en évidence des inégalités structurelles à l’échelle mondiale : « En quelque sorte, on pourrait superposer les cartes de l’usage géographique de Sci-Hub et de la productivité scientifique, avec toutefois une position inversée entre certains pays les plus riches et les plus pauvres parmi ceux intéressés par la science »[footnote « Bohannon 2016″]. Les plus forts taux de recours à Sci-Hub ont été relevés en Russie, en Algérie, au Brésil, en Turquie, au Mexique et en Inde, dont la production universitaire locale est importante en dépit de ressources moindres que les pays de l’OCDE : « Par rapport à leur production scientifique nationale, ce sont les pays à revenu intermédiaire qui consomment le plus de travaux universitaires piratés »[footnote « Dacos 2019, p. 178″]. Le public des portails académiques pirates reste important même dans les établissements nord-américains et européens richement dotés en abonnements aux bibliothèques, car l’accès aux plateformes payantes est généralement perçu comme trop complexe : « Même pour les revues auxquelles l’université dispose d’un accès officiel, Sci-Hub devient la ressource de référence »[footnote « Bohannon 2016 »].

Du facteur d’impact à l’impact social

Le développement de grandes plateformes et infrastructures de science ouverte après 2010 a déplacé le champ de mesure de l’impact scientifique. Il est passé de la priorité donnée aux revues anglophones les plus citées à une analyse plus vaste de la circulation sociale des publications. Cette transformation fut particulièrement visible en Amérique latine, grâce au développement précoce de plateformes d’édition internationales à financement public, comme Redalyc ou SciELO : « En Amérique latine, on a vraiment l’impression que l’investissement dans la science amènera un développement au sens large, au-delà de la simple innovation et de la croissance économique »[footnote « Alperin 2015, p. 3 »].

En 2015, Juan Pablo Alperin introduit une mesure systématique de l’impact social en s’appuyant sur un ensemble diversifié d’indicateurs (analyse des journaux, enquêtes et altermétriques). Cette approche implique une redéfinition conceptuelle des notions clés de la réception scientifique telles que l’impact, la portée et le lecteur :

Nous poserons notre attention sur ces formes alternatives et publiques d’impact et de portée de la recherche en examinant le cas de l’Amérique latine. Dans cette étude, les critères d’évaluation de l’impact seront l’enregistrement, la discussion, la transmission, la recommandation, la mention et la citation des documents de recherche, tant à l’intérieur qu’à l’extérieur de la communauté universitaire (…). Toujours dans cette étude, la portée fait référence à l’ampleur de la consultation ou du téléchargement des documents de recherche par des populations diverses, du lectorat universitaire traditionnel aux professions connexes, voire par les journalistes, enseignants, passionnés et membres du grand public (…). En travaillant sur un large éventail d’indicateurs d’impact et de portée, bien au-delà de la mesure conventionnelle des articles qui en citent d’autres, il semble possible de caractériser les utilisateurs de la recherche latino-américaine. Ce faisant, nous ouvrirons la voie à ceux qui examineront ses répercussions sur les personnes et communautés concernées.[footnote « Alperin 2015, p. 4 »]

Ce focus inédit sur l’impact social de la science s’inscrit dans le cadre de modèles alternatifs de vulgarisation scientifique. En 2009, Alesia Zuccala a présenté un modèle radiant de diffusion de la science ouverte, avec diverses connexions médiées et non médiées entre le public non universitaire et la production académique : « Parfois, [la recherche] fait intervenir le public profane. C’est le modèle de coproduction de la communication scientifique. Et parfois des intermédiaires autodésignés expliquent à la population ce qu’elle devrait savoir. C’est le modèle d’éducation par la communication scientifique. »[footnote « Zuccala 2009, p. 29 »]

Méthodes

En dépit des nombreuses théories qui prêtent à la science ouverte un fort impact sur l’accès à la littérature des universitaires et non-universitaires, la recherche dans ce domaine s’est révélée ardue : elle a « alimenté de nombreuses discussions et même une grande partie des travaux de sensibilisation et des politiques de libre accès de nombreux organismes de financement, mais rarement dans le cadre d’études officielles publiées »[footnote « ElSabry 2017, p. 2 »]. Par définition, les productions de science ouverte ne sont pas transactionnelles, et donc leur usage laisse beaucoup moins de traces que la distribution payante d’ouvrages scientifiques.[footnote « Taylor 2020, p. 1″] D’une manière générale, il est très difficile de collecter « des données démographiques sur les utilisateurs à partir des sources d’information actuellement disponibles (par exemple, les référentiels et plateformes d’éditeurs) »[footnote « ElSabry 2017, p. 3 »].

Les méthodes conventionnelles d’études bibliométriques, y compris l’analyse des citations, sont largement inefficaces pour identifier les nouvelles formes de réception générées par la science ouverte. Il a fallu développer des approches alternatives dans les années 2000 et 2010, et pendant longtemps les défenseurs de la science ouverte et les décideurs ont dû s’appuyer sur des preuves limitées.[footnote « Nunn & Pinfield 2014, p. 175 »]

Enquêtes

Avant le développement de la bibliométrie, les enquêtes étaient la principale méthode d’analyse de la réception scientifique.

Après l’arrivée de l’édition numérique et du libre accès, les méthodes d’enquête ont elles aussi migré en ligne. Les enquêtes contextuelles sur les publications universitaires furent introduites au début des années 2000 : elles permettent d’interroger l’utilisateur au moment précis où il récupère la ressource et peuvent être corrélées aux données de journalisation.[footnote « Tenopir & King 2000″] Cependant, « les taux de réponse aux enquêtes contextuelles sont généralement faibles », ce qui en définitive peut fausser la représentativité de l’enquête.[footnote « Alperin 2015, p. 38 »]

Depuis 2002, Simon Inger et Tracy Gardner ont mené de vastes enquêtes internationales sur l’utilisation des ressources universitaires avec le soutien de plusieurs grands éditeurs et organisations scientifiques.[footnote « Inger & Gardner 2016 »] Ces enquêtes ne concernaient pas spécifiquement la science ouverte, mais elles s’efforçaient d’inclure un panel d’utilisateurs potentiels plus diversifié que les seuls auteurs universitaires.[footnote « Inger & Gardner 2016, p. 96 »]

Analyse des journaux

Les publications universitaires figurent parmi les plus anciens corpus exploités pour l’analyse des journaux. Les premières études réalisées dans ce domaine sont bien antérieures au Web, puisque les infrastructures scientifiques interconnectées étaient déjà couramment employées en Amérique du Nord et en Europe dans les années 1970 et 1980.

En 1983, l’Online Computer Library Center menait déjà plusieurs études pour analyser les « journaux de transactions » contenant les traces des utilisateurs de bases de données.[footnote « Matthews, Lawrence & Ferguson 1983 »][footnote « Tolle 1983 »] À cette époque, les journaux étaient stockés sur bandes magnétiques, et une grande partie de l’analyse consistait à remettre en forme et normaliser les données.[footnote « Agosti et al. 2012, p. 664 »]. Ces premières études s’appuyaient déjà sur des méthodes standard d’analyse des journaux, comme les approches probabilistes basées sur les chaînes de Markov pour identifier les modèles comportementaux les plus récurrents ou la comparaison avec d’autres enquêtes menées auprès des utilisateurs.[footnote « Agosti et al. 2012, p. 664 »]

L’utilisation des journaux et d’autres formes d’indicateurs de lecture pour évaluer la réception des travaux universitaires est restée marginale. Les grandes bases de données commerciales telles que Web of Science et Scopus n’étaient pas tenues de communiquer leurs statistiques de lecture et les utilisaient principalement à des fins internes. Ce sont donc les critères bibliométriques basés sur le nombre de citations, comme le facteur d’impact ou l’indice h, qui furent privilégiés comme indicateurs de l’impact académique.[footnote « Pölönen et al. 2021, p. 586″].

Au-delà des restrictions appliquées par les principaux acteurs de l’édition, l’analyse des journaux a soulevé d’importantes questions méthodologiques. Les processus de journalisation des données diffèrent sensiblement selon la structure de l’interface : « Le nombre de téléchargements de texte intégral peut être artificiellement gonflé lorsque les éditeurs imposent de consulter la version HTML avant d’accéder à la version PDF ou lorsque des mécanismes de liens sont en place »[footnote « Davis & Price 2006″]. De plus, l’accès automatisé, notamment par les robots ou les indexeurs des moteurs de recherche, peut fausser considérablement le nombre cumulé de visites. Ces incertitudes empêchent de comparer efficacement les données : « Certains éléments, par exemple l’interface des journaux, continuent d’affecter les modalités d’interaction entre les utilisateurs du site et ceux du contenu, ce qui rend difficile – voire impossible – la comparaison des rapports même normalisés »[footnote « Alperin 2015, p. 21 »].

L’analyse des journaux a connu un regain d’intérêt dans les années 2010 grâce aux progrès technologiques et à l’émergence de grandes plateformes de science ouverte. Des normes régissant l’extraction des données de journaux universitaires ont été introduites au début des années 2010, par exemple COUNTER [footnote « Davis & Price 2006 »], PIRUS[footnote « Shepherd 2011 »] et MESUR[footnote « Kurtz & Bollen 2010 »]. Par nature, en raison de leur intégration aux infrastructures universitaires, ces normes étaient limitées à la recherche spécialisée[footnote « Dacos et al. 2017″].

Le développement de logiciels open source d’analyse Web tels que Matomo a permis l’émergence d’une norme de collecte des journaux. Dans le même temps, les plateformes scientifiques à financement public ont commencé à partager librement leurs données d’utilisation au titre de leur engagement accru en faveur de la science ouverte. En Amérique latine, Redalyc et SciELO « fournissent ces statistiques d’utilisation au public », même si elles demeurent amplement sous-utilisées : « Assez étonnamment, personne n’a profité de la disponibilité de ces données pour étudier les différentes dimensions des téléchargements, au-delà du nombre global de vues et des listes du type « les 10 articles les plus lus » disponibles de temps à autre sur les portails Web concernés »[footnote « Alperin 2015, p. 27 »].

En 2011, Michael J. Kurtz et Johan Bollen ont appelé au développement de la bibliométrie des usages, un nouveau domaine qui « offre des possibilités uniques pour remédier aux lacunes connues de l’analyse des citations »[footnote « Kurtz & Bollen 2010 »]. L’accès étendu aux données de journalisation des plateformes de science ouverte a permis de publier des études de cas approfondies à propos de SciELO et Redalyc[footnote « Alperin 2015 »], Érudit[footnote « Cameron-Pesant 2018 »], OpenEdition.org[footnote « Loubère & Ibekwe 2019 »], Journal.fi[footnote « Pölönen et al. 2021 »] et The Conversation[footnote « Zardo et al. 2018 »].

Liens croisés

Le Web lui-même et certains de ses composants clés (comme les moteurs de recherche) sont un héritage partiel des théories de la bibliométrie. Dans sa forme originale, il dérivait d’une infrastructure scientifique biographique nommée ENQUIRE commandée à Tim Berners-Lee par le CERN pour les besoins spécifiques de la physique des particules.[footnote « Hogan 2014, p. 20 »] L’apparition du World Wide Web au milieu des années 1990 a donné plus de corps au rêve d’Eugene Garfield sur l’emploi des citations. Dans le réseau mondial de l’hypertexte, non seulement la référence bibliographique est une des formes possibles de l’hyperlien dans la version électronique d’un article scientifique, mais le Web lui-même présente une structure citative, les liens entre les pages Web étant dans la forme similaires aux citations bibliographiques.[footnote « Bellis 2009, p. 285 »] Ainsi, les principales technologies de communication des algorithmes de recherche de Google se sont enrichies de notions bibliométriques : « Le concept de pertinence basé sur les citations appliqué au réseau d’hyperliens entre les pages Web allait révolutionner la façon dont les moteurs de recherche permettent aux utilisateurs de trouver rapidement des documents utiles dans l’univers anarchique de l’information numérique »[footnote « Bellis 2009, pp. 31–32″].

Si le Web a immédiatement affecté les pratiques de lecture en établissant des connexions transparentes entre les textes, il n’a pas eu le même effet transformatif sur l’analyse quantitative des données de citation, qui scrute avant tout les connexions en milieu universitaire. Une étude globale des hyperliens et des liens retour permet d’étendre l’analyse des citations au-delà des publications savantes et d’identifier l’évolution du périmètre de circulation de la science ouverte : « Nous avons relevé une multiplication des moyens de diffusion des publications savantes à travers des blogues universitaires et des magazines scientifiques destinés à un public plus large »[footnote « Loubère & Ibekwe 2019, p. 2 »]. En 2011, une analyse des journaux du site Web de l’Université de Kyoto a permis d’identifier un ensemble très diversifié de liens vers des publications scientifiques.[footnote « ElSabry 2017, p. 4″] En 2019, Aix-Marseille Université a participé à une étude des liens croisés avec la plateforme française de science ouverte OpenEdition. Les résultats ont montré que « la littérature scientifique publiée sur une plateforme majoritairement en libre accès fait l’objet d’une réappropriation et d’une conversion à différents usages dans l’espace public »[footnote « Loubère & Ibekwe 2019, p. 12 »].

Altermétriques

Les années 2000 et 2010 ont vu s’accentuer la domination du Web par de très grandes plateformes de médias sociaux qui organisent et façonnent amplement la sphère publique numérique.[footnote « Gillespie 2018 »] La réception de la littérature scientifique par le public a elle aussi largement migré vers ces plateformes. Cette évolution a suscité le développement de nouveaux indicateurs et méthodes quantitatives visant à cartographier la circulation des publications sur les médias sociaux : les altermétriques.

Le concept d’altermétrique fut introduit en 2009 par Cameron Neylon et Shirly Wu en tant qu’indicateur au niveau de l’article[footnote « Neylon & Wu 2009″]. Contrairement aux principaux indicateurs centrés sur les revues (facteur d’impact) ou, plus récemment, sur le chercheur lui-même (indice h), les indicateurs au niveau de l’article autorisent un suivi individuel des publications en circulation : « L’article autrefois rangé sur une étagère figure à présent dans Mendeley, CiteULike ou Zotero, où il est possible de le voir et de le comptabiliser »[footnote « Priem et al. 2011, p. 3 »]. Il est ainsi davantage compatible avec la diversité des stratégies de publication qui caractérise la science ouverte : les prépublications, les rapports et même les résultats non textuels tels que les référentiels ou les logiciels peuvent aussi disposer d’indicateurs associés.[footnote « Wilsdon et al. 2017, p. 9 »]. Dans leur proposition de recherche initiale, Neylon et Wu favorisaient l’utilisation de données provenant de logiciels de gestion de références tels que Zotero ou Mendeley.[footnote « Neylon & Wu 2009 »] Le concept d’altermétrique a évolué pour venir englober les données extraites « d’applications de médias sociaux, comme les blogues, Twitter, ResearchGate et Mendeley »[footnote « Wilsdon et al. 2017, p. 9″]. Les sources des médias sociaux ont montré plus de fiabilité à long terme, alors que des outils universitaires spécialisés tels que Mendeley ont fini par intégrer l’écosystème développé en propre par les plus grands éditeurs scientifiques. Les principaux altermétriques apparues dans les années 2010 sont Altmetric.com, PlumX et ImpactStory.

Avec le glissement de sens des altermétriques, le débat sur l’impact positif des indicateurs a évolué pour les redéfinir dans le cadre d’un écosystème de science ouverte : « Les discussions sur l’usage abusif et l’interprétation des indicateurs les positionnent au cœur des pratiques de la science ouverte »[footnote « Heck 2020, p. 513″]. Les altermétriques des médias sociaux sont limitées à un sous-ensemble précis de plateformes. Concrètement, il s’agit des témoins numériques de la réception laissés par les utilisateurs, comme les mentions « J’aime », les partages et les commentaires : « Cependant, les “altermétriques” s’inspirent des anciennes mesures bibliométriques/scientométriques en s’appuyant sur des traces numériques, c’est-à-dire en comptabilisant le nombre de mentions « J’aime », de commentaires, de téléchargements, de tweets ou de retweets qu’une publication savante obtient sur le Web. Ainsi, aucun de ces champs ne fournit d’informations sur l’usage réel des publications savantes citées ni sur les raisons ayant conduit à leur citation. »[footnote « Loubère & Ibekwe 2019, p. 3 »].

Alors que les altermétriques furent initialement conçues pour les publications en science ouverte et pour faciliter leur circulation bien au-delà des cercles universitaires, leur compatibilité avec les nouvelles exigences en matière d’indicateurs ouverts a été remise en question : les données des réseaux sociaux, en particulier, sont loin d’être transparentes et facilement accessibles.[footnote « Bornmann & Haunschild 2016 »][footnote « Tunger & Meier 2020″] Une conversation suivie sur les médias sociaux n’est pas forcément représentative de l’impact social de la recherche, car les chercheurs sont surreprésentés dans ces espaces : « Environ la moitié des tweets mentionnant des articles de revues scientifiques sont le fait d’universitaires »[footnote « Taylor 2020, p. 4″]. En 2016, Ulrich Herb a publié une évaluation systématique des principaux indicateurs de publication selon les principes de la science ouverte. Il en a conclu que « ni les indicateurs d’impact basés sur les citations ni les altermétriques ne peuvent être qualifiés d’ouverts. Tous manquent de fondement scientifique, de transparence et de vérifiabilité. »[footnote « Herb 2016, p. 60 »].

Usages actuels

La plupart des informations empiriques recueillies sur l’usage de la science ouverte sont propres à chaque plateforme.

Données démographiques des utilisateurs

Scielo user demographics

Répartition des utilisateurs de SciELO, une des principales plateformes scientiques d'amérique latine

CC BY 3.0

Juan Pablo Alperin, extrait de L'impact public de l'approche de l'amérique latine en matière d'accès ouvert

En général, les études sur l’usage des ressources scientifiques ouvertes soulignent la diversité de profil des utilisateurs, les chercheurs universitaires ne représentant qu’une part infime du public.[footnote « Alperin 2015, p. 90 »] En 2015, les utilisateurs de Redalyc et SciELO, les deux principales plateformes latino-américaines, étaient surtout des étudiants universitaires (respectivement 50 et 55 %) et des professionnels de secteurs non académiques (respectivement 17 et 20 %).[footnote « Alperin 2015, p. 49″] Déduction faite des autres personnels universitaires, « les chercheurs ne représentent que 5 à 6 % du nombre total d’utilisateurs »[footnote « Alperin 2015, p. 50 »]. Sur la plateforme finlandaise Journal.fi, les étudiants constituent aussi le principal groupe démographique (40 % des utilisateurs), mais le groupe des chercheurs universitaires demeure important (36 %).[footnote « Pölönen et al. 2021, p. 588 »].

Les différentes études sur les plateformes de science ouverte convergent dans leur estimation du nombre de lecteurs profanes : les utilisateurs de SciELO et Redalyc[footnote « Alperin 2015, p. 50. »] sont respectivement 9 et 6 % à en faire un usage amateur/personnel, contre 8 % de « particuliers » dans l’enquête sur les lecteurs de Journal.fi.[footnote « Pölönen et al. 2021, p. 588″].

Aucune distinction majeure n’a été observée au niveau du genre des utilisateurs de plateformes de science ouverte. Les deux entités latino-américaines Redalyc et SciELO présentent une relative « prédominance d’utilisatrices » (environ 60 %).[footnote « Alperin 2015, p. 54 »]

L’impact de la discipline sur l’usage des ressources est variable. Dans SciELO, l’intérêt personnel pour les sciences humaines est le plus répandu.[footnote « Alperin 2015, p. 58″] En revanche, on observe dans Redalyc « une faible variabilité entre les disciplines »[footnote « Alperin 2015, p. 58 »]. L’analyse des favoris enregistrés par les lecteurs de F1000Prime sur Mendeley a mis en évidence une forte proportion d’usages par des disciplines totalement éloignées du public attendu.[footnote « Haunschild & Bornmann 2015, p. 4 »]

Pratiques et motivations des utilisateurs

Globalement, les études sur les pratiques des utilisateurs concernaient des profils spécifiques plutôt que généralistes. Au Japon, un sondage mené en 2011 auprès de 800 adultes montrait que « pour la majorité des personnes interrogées (55 %), le libre accès est utile ou plutôt utile »[footnote « ElSabry 2017 »], ce qui laisse supposer un intérêt assez important pour la science ouverte au sein d’une population où les études secondaires sont courantes.

Les problèmes rencontrés par les personnes soucieuses de leur santé ont été particulièrement mis en évidence.[footnote « Day et al. 2020 »][footnote « ElSabry 2017, p. 4 »] Un important domaine d’étude sur les comportements de recherche d’informations médicales a vu le jour avant le développement de la science ouverte.[footnote « Nunn & Pinfield 2014, p. 175″] Selon une enquête réalisée en 2003, la moitié des internautes américains ont cherché des renseignements fiables sur leur santé, mais se sont régulièrement heurtés à des problèmes d’accès : « De nombreux utilisateurs actuels de l’Internet santé désirent accéder à des sites riches en informations strictement réservés aux abonnés »[footnote « Fox & Fallows 2003, p. III »]. Dans une étude qualitative menée auprès de patients britanniques, les abonnements payants étaient cités comme le principal obstacle pour obtenir des connaissances scientifiques, au même titre que la complexité terminologique.[footnote « Nunn & Pinfield 2014, p. 178″] Le cas des patients aux besoins spécifiques plaide en faveur de la science ouverte, mais il éclipse la diversité des usages potentiels de la recherche universitaire : « Le libre accès n’est pas seulement une question de santé publique : il possède une mission bien plus générale de soutien à la recherche »[footnote « Zuccala 2009, p. 37″].

Le possible impact économique des usages professionnels non universitaires a conduit la recherche à s’y intéresser de plus près. En 2011, un rapport du JISC estimait qu’au Royaume-Uni 1,8 million de travailleurs de la connaissance œuvraient dans la R&D, l’informatique et l’ingénierie, la plupart étant « non affiliés, sans bibliothèque d’entreprise ni centre d’information »[footnote « Rowlands et al. 2011, p. 7 »]. Au sein d’un groupe représentatif de travailleurs de la connaissance britanniques, 25 % déclaraient que l’accès à la littérature scientifique était assez difficile ou très difficile, et 17 % avaient connu un problème d’accès récent qui ne fut jamais résolu.[footnote « Rowlands et al. 2011, p. 25″] Une enquête menée en 2011 auprès d’entreprises danoises a mis en évidence une forte dépendance de la R&D vis-à-vis de la recherche universitaire : « Quarante-huit pour cent [des personnes interrogées] jugeaient les articles de recherche très ou extrêmement importants »[footnote « Houghton, Swan & Brown 2011, p. 55″]. Le secteur associatif est également très concerné par un meilleur accès à la littérature scientifique. Une enquête menée auprès de 101 ONG du Royaume-Uni a montré que « 73 % [d’entre elles] déclaraient utiliser des articles de revues et 54 % des actes de conférences »[footnote « ElSabry 2017, p. 8″]. En 2018, une analyse des journaux d’OpenEdition a souligné combien les entreprises représentent une source importante de lectorat, en particulier dans « l’industrie aéronautique, la banque, l’assurance, la vente d’automobiles, l’énergie et, fait encore plus notable pour la circulation de la science dans la sphère publique, les médias »[footnote « Dacos 2019, p. 179 »]. Ces résultats montrent l’impact commercial direct du libre accès sur les entreprises de toutes tailles.[footnote « Dacos 2019, p. 175 »]

Diversité linguistique

Les publications scientifiques dans une autre langue que l’anglais sont marginalisées dans les grandes bases de données commerciales : elles représentent moins de 5 % des publications indexées dans Web of Science.

Le développement des plateformes de science ouverte a progressivement redessiné le paysage de la publication, les parutions en langues locales étant désormais reconnues comme d’importants vecteurs de la diffusion sociale des connaissances scientifiques. Dans les années 2010, des études quantitatives ont commencé à souligner l’impact positif des langues locales sur la réutilisation des ressources en libre accès dans différents contextes nationaux, par exemple en Finlande[footnote « Pölönen et al. 2021 »], au Québec[footnote « Cameron-Pesant 2018 »], en Croatie[footnote « Stojanovski, Petrak Macan 2009 »] et au Mexique.

Les mesures d’impact social ont tendance à l’emporter sur les indicateurs académiques internationaux tels que le facteur d’impact : bien que moins présentes dans les index académiques, les publications en langues locales ont un meilleur impact sur un plus vaste public. En Finlande, le public de la plateforme universitaire Journal.fi privilégie majoritairement les publications en finnois (67 %).[footnote « Pölönen et al. 2021, p. 590 »]. Cependant, les choix linguistiques des visiteurs varient considérablement en fonction de leur statut académique. Les lecteurs profanes (particuliers) et les étudiants ont une nette préférence pour la langue locale (81 % et 78 % des publications consultées). En revanche, les chercheurs professionnels sont légèrement plus nombreux à opter pour l’anglais au détriment du finnois (55 %).[footnote « Pölönen et al. 2021, p. 590 »].

Grâce à leur facilité d’accès, les plateformes de science ouverte en langues locales peuvent aussi bénéficier d’une portée plus mondiale. Le consortium de revues franco-canadien Érudit possède une audience essentiellement internationale, moins d’un tiers des lecteurs étant originaires du Canada.[footnote « Cameron-Pesant 2018, p. 372 »]

Écosystème de partage

Les ressources de science ouverte sont davantage susceptibles d’être partagées hors du contexte scientifique, par exemple « sur Twitter et dans les bulletins d’information, les blogues ou les politiques »[footnote « Taylor 2020, p. 19″]. En 2011, une étude d’analyse de journaux menée au Japon a mis en évidence « une variété remarquable de sites Web liés à ces articles en libre accès, notamment des blogues traitant de loisirs personnels, des sites Web de patients ou de familles, des sites Web spécialisés dans les questions-réponses et Wikipédia »[footnote « ElSabry 2017, p. 5 »].

D’après certaines hypothèses, la diversité de l’écosystème de science ouverte aurait une incidence sur le cycle de vie des publications.[footnote « Wang et al. 2015″] Dans le contexte habituel de la bibliométrie, la plupart des publications connaissent généralement un nombre de citations exponentiellement négatif au fil de l’année (on parle de « demi-vie », par analogie avec la désintégration des éléments radioactifs).[footnote « Bellis 2009, p. 114-115″] En revanche, les publications de science ouverte « ont la particularité de conserver des taux de téléchargement soutenus et réguliers pendant une longue période »[footnote « Wang et al. 2015″]. Cette réception plus durable pourrait en partie s’expliquer par des épisodes récurrents d’« accès inattendu » lorsque d’anciennes publications attirent soudain une nouvelle vague de lecteurs grâce à un regain de pertinence.[footnote « Dacos et al. 2017 »]

Réutilisation des données et logiciels

Par rapport aux publications, les données et logiciels de science ouverte requièrent souvent un niveau de compétences techniques plus élevé : « Accéder aux données ouvertes ne suffit pas à garantir qu’elles seront efficacement réutilisables. En effet, au-delà de l’accès, la réutilisation nécessite d’autres ressources telles que compétences, moyens financiers et puissance de calcul. »[footnote « Ross-Hellauer et al. 2022, p. 9″]. Même les entreprises et les organisations ne disposent pas nécessairement des « aptitudes requises, telles que la maîtrise de l’information, pour tirer pleinement parti des ressources ouvertes »[footnote « Ross-Hellauer et al. 2022, p. 12″].

Pourtant, de récentes avancées comme le développement de services d’analyse de données dans des secteurs économiques très divers ont créé de nouveaux besoins en matière de données de recherche : « La gestion à long terme et la libre disponibilité des données de recherche favorise bien d’autres valeurs (…). L’intelligence artificielle (IA), en pleine expansion, repose en grande partie sur les données enregistrées. »[footnote « OECD 2017, p. 16 »]. En 2019, le marché global des données dans les 27 pays de l’Union européenne et le Royaume-Uni était estimé à 400 milliards d’euros, avec une croissance soutenue de 7,6 % par an.[footnote « Micheletti 2020, p. 7-8″] Même s’il n’existe aucune estimation de la valeur propre des données qu’elles produisent, les institutions de recherche ont été identifiées comme des acteurs importants du nouvel écosystème des « communs de données ».[footnote « Micheletti 2020, p. 53 »]