| Title: |
MORFITT : Un corpus multi-labels d'articles scientifiques français dans le domaine biomédical |
| Authors: |
Labrak, Yanis; Rouvier, Mickael; Dufour, Richard |
| Contributors: |
Laboratoire Informatique d'Avignon (LIA); Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI; Traitement Automatique du Langage Naturel (LS2N - équipe TALN); Laboratoire des Sciences du Numérique de Nantes (LS2N); Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-NANTES UNIVERSITÉ - École Centrale de Nantes (Nantes Univ - ECN); Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST); Nantes Université - pôle Sciences et technologie; Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie; Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Nantes Université (Nantes Univ); Boudin, Florian; Daille, Béatrice; Dufour, Richard; Khettari, Oumaima; Houbre, Maël; Jourdan, Léane; Kooli, Nihel |
| Source: |
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023 ; 18e Conférence en Recherche d'Information et Applications -- 16e Rencontres Jeunes Chercheurs en RI -- 30e Conférence sur le Traitement Automatique des Langues Naturelles -- 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues ; https://hal.science/hal-04131591 ; 18e Conférence en Recherche d'Information et Applications -- 16e Rencontres Jeunes Chercheurs en RI -- 30e Conférence sur le Traitement Automatique des Langues Naturelles -- 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2023, Paris, France. pp.66-70 |
| Publisher Information: |
CCSD; ATALA |
| Publication Year: |
2023 |
| Collection: |
Université de Nantes: HAL-UNIV-NANTES |
| Subject Terms: |
Analyse de documents scientifiques; Jeux de données composés des textes scientifiques; [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] |
| Subject Geographic: |
Paris; France |
| Description: |
International audience ; Cet article présente MORFITT, le premier corpus multi-labels en français annoté en spécialités dans le domaine médical. MORFITT est composé de 3 624 résumés d'articles scientifiques issus de PubMed, annotés en 12 spécialités pour un total de 5 116 annotations. Nous détaillons le corpus, les expérimentations et les résultats préliminaires obtenus à l'aide d'un classifieur fondé sur le modèle de langage pré-entraîné CamemBERT. Ces résultats préliminaires démontrent la difficulté de la tâche, avec un F-score moyen pondéré de 61,78%. |
| Document Type: |
conference object |
| Language: |
French |
| Availability: |
https://hal.science/hal-04131591; https://hal.science/hal-04131591v1/document; https://hal.science/hal-04131591v1/file/1465546.pdf |
| Rights: |
info:eu-repo/semantics/OpenAccess |
| Accession Number: |
edsbas.AE68D0C8 |
| Database: |
BASE |