| Title: |
MORFITT : A multi-label corpus of French scientific articles in the biomedical domain ; MORFITT : Un corpus multi-labels d'articles scientifiques français dans le domaine biomédical |
| Authors: |
Labrak, Yanis; Rouvier, Mickaël; Dufour, Richard |
| Contributors: |
Laboratoire Informatique d'Avignon (LIA); Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI; Zenidoc; Traitement Automatique du Langage Naturel (LS2N - équipe TALN); Laboratoire des Sciences du Numérique de Nantes (LS2N); Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-NANTES UNIVERSITÉ - École Centrale de Nantes (Nantes Univ - ECN); Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST); Nantes Université - pôle Sciences et technologie; Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie; Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Nantes Université (Nantes Univ); Florian Boudin |
| Source: |
30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN); 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN) Atelier sur l'Analyse et la Recherche de Textes Scientifiques; https://hal.science/hal-04125879; 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN) Atelier sur l'Analyse et la Recherche de Textes Scientifiques, Florian Boudin, Jun 2023, Paris, France |
| Publisher Information: |
CCSD |
| Publication Year: |
2023 |
| Collection: |
Université de Nantes: HAL-UNIV-NANTES |
| Subject Terms: |
BERT; RoBERTa; Transformers; Biomedical; Clinical; Topics; multi-labels; Biomédical; Clinique; Spécialités; [INFO]Computer Science [cs]; [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]; [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR]; [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE]; [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing |
| Subject Geographic: |
Paris; France |
| Description: |
International audience ; This article presents MORFITT, the first multi-label corpus in French annotated in specialties in the medical field. MORFITT is composed of 3,624 abstracts of scientific articles from PubMed, annotated in 12 specialties for a total of 5,116 annotations. We detail the corpus, the experiments and the preliminary results obtained using a classifier based on the pre-trained language model CamemBERT. These preliminary results demonstrate the difficulty of the task, with a weighted average F1-score of 61.78 %. ; Cet article présente MORFITT, le premier corpus multi-labels en français annoté en spécialités dans le domaine médical. MORFITT est composé de 3 624 résumés d'articles scientifiques issus de PubMed, annotés en 12 spécialités pour un total de 5 116 annotations. Nous détaillons le corpus, les expérimentations et les résultats préliminaires obtenus à l'aide d'un classifieur fondé sur le modèle de langage pré-entraîné CamemBERT. Ces résultats préliminaires démontrent la difficulté de la tâche, avec un score F1 moyen pondéré de 61,78 %. |
| Document Type: |
conference object |
| Language: |
English |
| Availability: |
https://hal.science/hal-04125879; https://hal.science/hal-04125879v1/document; https://hal.science/hal-04125879v1/file/_ARTS___TALN_RECITAL_2023__MORFITT__Multi_label_topic_classification_for_French_Biomedical_literature%20%285%29.pdf |
| Rights: |
info:eu-repo/semantics/OpenAccess |
| Accession Number: |
edsbas.85D27B50 |
| Database: |
BASE |