Combien d'identifiants ORCID pour l'UGA ?

Maxence Larrieu, Karolin Boczoń, Joseph Beau-Reder

Cette question simple “combien d’identifiant ORCID sont-ils rattachés à l’UGA ?” se heurte à une difficulté récurrente dans le domaine de l’information scientifique et technique, celle des affiliations. Celles-ci sont renseignées par les chercheurs lorsqu’ils réalisent par exemple une publication. Elles permettent d’informer le lecteur des institutions des auteurs, mais aussi de rattacher technologiquement auteurs, publications et institutions. Cette information peut être relue par les éditeurs des maisons d’édition, mais dans le cas des preprint par exemple elle est directement publiée. Même si tout cela paraît simple, le fait est qu’il reste difficile pour un ensemble de facteurs de se référer de façon univoque à une structure de recherche (principalement du fait des remous permanents entre unités et tutelles, doublé par les actuelles fusions). Ce problème explique, en partie, pourquoi on ne trouve jamais les mêmes quantités de publication pour une institution entre les différents outils. Le tableau ci-dessous illustre ces variations de quantité pour l’université dans les principaux outils bibliographiques : ScanR, HAL, WOS, OpenAlex et Lens, en réduisant aux articles de revues publiés en 2020.

source quantité info de requête
ScanR 8 503 query-url
HAL 5 145 query-url
WOS 5 394 query-url
OpenAlex 6 135 query-url
Lens.org 4 709 query-url

Variations des quantités de publications entre les sources bibliographiques pour l’UGA. Requêtes effectuées le 2024-05-29 pour les articles de revues publiés en 2020.

Comprendre le problème des affiliations, c’est comprendre les différentes répercussions que peut avoir une simple ligne de texte dans l’écosystème des productions scientifiques. En somme, il n’est pas facile d’imaginer qu’une simple ligne de texte puisse avoir autant de conséquences.

Ce court préambule montre qu’à chaque fois qu’il est question de quantité de productions d’une institution, les nombres ne doivent jamais être considérés avec précision. L’exhaustivité est un leurre et les quantités annoncées sont autant le reflet de ce qui a été produit que de ce qu’il a été possible d’identifier avec les méthodes employées.

Précautions prises, au niveau opérationnel il est plutôt facile d’obtenir des listes brutes d’identifiants ORCID, particulièrement grâce aux infrastructures de la science ouverte. Pour identifier le nombre d’ORCID rattachés à l’université, nous avons utilisé trois sources, HAL, ORCID et OpenAlex. Toutes sont exploitables directement par des scripts grâce aux APIs qu’elles mettent à disposition, ce qui représente un avantage de taille. Nous pourrons ainsi reproduire notre méthode et observer les variations dans 6 ou 12 mois. Comme nous le verrons, il faut cependant rester prudent car les résultats peuvent contenir des faux positifs, du bruit.

Ce travail s’inscrit dans la politique science ouverte de l’université, signataire de la récente Déclaration de Barcelone, qui prône l’utilisation de métadonnées ouvertes et structurées :

Openness will be the norm for the research information we use, for instance to assess researchers and institutions, to support strategic decision making, and to find relevant research outputs.

Premier engagement de la Declaration de Barcelone (2024). barcelona-declaration.org

HAL, OpenAlex et ORCID font partie intégrante de l’écosystème de la science ouverte : leurs données relèvent du domaine public et les réutilisations sont encouragées. C’est une différence importante avec les outils traditionnels comme Scopus ou le WOS, dont l’accès est payant et les données non publiques, et en conséquence les méthodes qui en découlent non reproductibles.

Ce billet décrit les méthodes réalisées pour collecter et analyser les identifiants ORCID. Les résultats sont ensuite commentés et nous ouvrons avec une discussion sur OpenAlex.

Méthodes

HAL

Conçue dès 2001, l’archive ouverte nationale HAL est devenue incontournable dans le paysage français de la recherche. Son API (api.hal.science/docs) permet d’accéder et d’exploiter, sans restriction d’accès, les nombreuses métadonnées que l’archive ingère.

Bien connu des spécialistes, l’identifiant structure HAL structId permet facilement de récupérer une liste de publications d’une structure. Ici avec l’UGA : api.hal.science/search/?q=structId_i:1042703.

Toutefois, la requête ne permet pas d’atteindre la granularité des auteurs et de leur affiliation. Auteurs et structures sont en effet rattachés à la publication, mais sans liens exploitables entre eux, comme le montre cette requête.

Pour relier auteurs et structures il faut utiliser les “facets” (cf. documentation Solr) qui agrègent des données. Le champ structHasAuthIdHal_fs associe nom de la structure, nom complet de l’auteur et le cas échéant son identifiant HAL (halId). La requête suivante extrait ainsi les auteurs affiliés à l’université : api.hal.science/search/?q=*&rows=0&facet=true&facet.field=structHasAuthIdHal_fs&facet.prefix=1042703&facet.limit=10.

Nous obtenons environ 22 000 noms complets et 6 000 identifiants auteurs HAL. La différence entre ces quantités s’explique par le fait que tous les auteurs ne possèdent pas de compte HAL et que beaucoup possèdent des graphies différentes, non reliées entre elles (e.g. Prénom Nom et P. Nom).

hal author img

Schéma de données extrait de la documentation du TripleStore de HAL. hal.science

Le référentiel auteur HAL, illustré par le précédent schéma, est ensuite utilisé pour récupérer, s’il est présent, l’ORCID correspondant à l’identifiant auteur HAL, par exemple : api.hal.science/ref/author/?q=idHal_s:marie-helene-genest&fl=fullName_s,idHal_s,orcidId_s. Les 6 360 identifiants auteurs HAL nous ont permis de récupérer 4 437 identifiants ORCID.

Enfin, l’API générale de HAL est utilisée pour récupérer la dernière année de la publication affiliée à l’UGA des auteurs (exemple requête). Ceci nous permet d’estimer la “fraicheur” de l’affiliation UGA des auteurs.

ORCID

Cet organisme permet aux chercheurs de se créer gratuitement un identifiant unique et pérenne. ORCID fournit un identifiant et des services qui permettent par exemple de relier les publications aux auteurs ou encore de s’identifier dans des entrepôts comme Recherche Data Gouv.

Pour récupérer les chercheurs affiliés à l’UGA, nous utilisons l’API avec le champ affiliation-org-name. Les résultats sont renvoyés avec deux sous-champs : current-institution-affiliation-name et past-institution-affiliation-name. En effet, ORCID permet aux chercheurs de renseigner leur affiliation actuelle et celles passées. Une des limites est qu’il s’agit de champs libres, ils sont complétés par les chercheurs librement. Du fait des erreurs de saisie et des difficultés à identifier l’établissement de rattachement, les profils sont difficilement trouvables. Il faut en effet penser aux cotutelles des unités, ou encore aux fusions : la structuration de l’ESR est changeante, ce qui ne facilite pas l’identification.

La requête suivante pub.orcid.org permet d’inclure différentes graphies de l’université. Pour récupérer l’intégralité des identifiants il faut utiliser la pagination de l’API (&start=1000, &start=2000). Au total, 3 054 identifiants ORCID ont été récupérés.

OpenAlex

OpenAlex est produit par OurResearch, une organisation “not for profit” qui a également conçu le célèbre outil unpaywall.org. Arrivé en 2021, OpenAlex prend la suite de Microsoft Adademic Graph, en bousculant le paysage de la bibliométrie et scientométrie avec trois principes :

- Big — We strive to be as comprehensive and inclusive as possible, especially for works in other languages and the Global South.
- Easy — Our service is fast, modern, and well-documented.
- Open — Our complete dataset is free under the CC0 license, which allows for transparency and reuse.

Extrait de la documentation d’OpenAlex. openalex.org

Easy ! C’est en effet la source la plus simple à utiliser. La requête suivante retourne les auteurs avec identifiant ORCID et affilié à l’université, via son identifiant unique Research Organization Registry (ROR) : api.openalex.org/authors?filter=has_orcid:true,affiliations.institution.ror:02rx3b187

Pour récupérer l’intégralité des auteurs il faut aussi utiliser les paginations. Au moment où nous l’avons exécuté – c’est important car OpenAlex évolue rapidement – la requête retournait 9 497 identifiants auteurs ORCID.

Comme pour HAL, nous récupérons l’année de la publication rattachée à l’université la plus récente. Cette donnée est directement présente dans la requête initiale, où les publications de l’auteur sont classées par années et institutions. OpenAlex relie finement auteurs, institutions et productions, comme le précise la documentation :

We also keep track of the connections between these works, finding associations through things like journals, authors, institutional affiliations, citations, concepts, and funders

Extrait de la docuemtation d’OpenAlex. openalex.org

Résultats

Sans retirer les doublons nous avons trouvé au total 16 974 identifiants ORCID. Comme l’illustre le graphique ci-dessous, OpenAlex (9 485) est la source principale, avec environ deux fois moins pour HAL (4 437), et légèrement moins pour ORCID (3 053). Comme nous verrons, le grand nombre d’ORCID récupéré via OpenAlex doit contenir des faux positifs.

nb auteurs ORCID par sources

Nombre d’auteurs avec identifiant ORCID trouvés par source

Les résultats des sources ont été regroupés dans une table en privilégiant pour les doublons (i) la date de publication la plus récente entre HAL et OpenAlex, et (ii) la forme “prénom nom” la plus longue. Le schéma de données du tableau final est présenté ci-après.

champs type signification
orcid url identifiant ORCID en pleine URL
full name str nom complet extrait de l’une des sources
last-year-UGA-production int dernière année de publication affiliée à l’UGA
hal-id str identifiant auteur HAL
alex-id url identifiant auteur OpenAlex
from_orcid bool vrai si l’identifiant a été récupérer depuis ORCID

Schéma de données du tableau regroupant les ORCID

Combien de chercheurs UGA possèdent un ORCID ?

Après dédoublonnage, 13 930 identifiants ORCID ont été trouvés. Il s’agit des ORCID dont au moins une publication est affiliée à l’Université Grenoble Alpes, toutes périodes confondues. Comme nous le verrons, il faut rester vigilant car ce nombre doit contenir des faux positifs.

Quel recouvrement entre les sources ?

Les champs hal-id, alex-id et from_orcid décrivent la source utilisée pour retrouver l’ORCID, ils permettent ainsi de représenter le recouvrement entre ces sources.

Recouvrement des identifiants ORCID entre HAL, OpenAlex et Orcid

Ce graphique montre l’importance d’OpenAlex, lequel apporte plus de 50 % du total des ORCID identifiés. Il illustre aussi le faible recouvrement entre les sources. Par exemple, la majorité des identifiants trouvés via ORCID ne se recoupent pas avec ceux trouvés dans HAL et OpenAlex.

Quel pourcentage d’ORCID pour le personnel UGA ?

Le total d’ORCID trouvés peut être mis en rapport avec l’effectif de l’université. Grâce aux années de publication récupérées via OpenAlex et HAL, nous pouvons estimer le pourcentage de personnels récents UGA ayant un ORCID.

D’après son site web, l’UGA emploie environ 10 400 personnels, dont 6 000 enseignants chercheurs. En réduisant les ORCID à ceux ayant eu une publication associée à l’UGA depuis 2022, on trouve 7 131 ORCID, soit environ 69 % du total des personnels de l’UGA (indifféremment au type d’emploi comme ingénieur, chercheur, enseignant chercheur)

Discussions

Rappelons que ce travail est à visée exploratoire, son intérêt réside autant dans les résultats trouvés que dans les méthodes et questions soulevées. De même, il faut rappeler l’impossibilité de répondre à la question initiale avec précision : trouver les ORCID d’un établissement reste compliqué, particulièrement dans l’écosystème français de la recherche. Ces points primordiaux rappelés, il nous faut discuter des sources.

HAL et ORCID sont connus des professionnels et ont atteint une certaine maturité. Ce n’est évidemment pas le cas du récent (2021) OpenAlex. Ce dernier vient en plus bousculer une certaine orthodoxie qui s’est forgée avec les outils comme WOS et Scopus. Cependant, l’outil novateur intègre actuellement et particulièrement au niveau des établissement français, un certain niveau de bruit. Fréderic Bordignon à partir d’un corpus fin (ENPC : 12 laboratoires), a ainsi estimé que “24% des publications retournées par OpenAlex pour notre institution le sont par erreur” (cf. OpenAlex : révolution ou défi pour la bibliométrie ?). Les résultats venant d’OpenAlex doivent ainsi contenir un certain niveau de bruit. Pour le comprendre et ensuite le réduire, précisons le fonctionnement de l’outil :

À l’aide des données et infrastructures ouvertes, nous avons pu apporter un éclairage sur la quantité d’ORCID reliés à l’université. L’intérêt de notre méthode se trouve dans sa reproductibilité : il sera aisé de relancer les scripts dans quelques mois pour observer les évolutions. L’utilisation d’OpenAlex nous montre l’importance d’avoir des données de qualité dans le Registry of Research Organization (ROR). Depuis ce billet, un travail de nettoyage a été commencé de façon opérationnelle (e.g. github.com), mais ce point crucial est à porter au niveau national des établissements. Au fond, la curation des données dans le ROR ne doit pas étonner, car c’est le prix à payer pour assurer la visibilité des établissements, et c’est ce qui est déjà à l’œuvre depuis des années chez les alternatives commerciales :

In the space of bibliometrics and scientometrics, almost every university in the world has people whose job it is to correct the things that are wrong in Web of Science and Scopus. This is like an extra full-time person on top of the hundreds of thousands of dollars that are spent on a subscription to these products, working to help correct them. But that data just goes into a black hole, which we can’t reuse.

Extrait de l’interview du Professor Cameron Neylon (Curtin University) par Amanda French (ROR). ror.org

Par contre, les nouveautés avec OpenAlex et le ROR se trouvent évidemment dans l’ouverture : les données sont ouvertes, elles sont exploitables facilement avec des API, les méthodes réalisées pour construire des indicateurs sont reproductibles, et surtout les organisations qui mettent à dispositions ces données et services sont bâties sur les valeurs de l’ouverture.





Larrieu, Maxence, Karolin Boczoń et Joseph Beau-Reder (2024) Combien d’ORCID pour l’UGA ?. Blog GATES Data SHS. Université Grenoble Alpes.

Les notebooks réalisés sont disponibles sur la forge de l’université : https://gricad-gitlab.univ-grenoble-alpes.fr/boczonk/orcid-uga