| Title: |
DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique |
| Authors: |
Labrak, Yanis; Bazoge, Adrien; Dufour, Richard; Rouvier, Mickael; Morin, Emmanuel; Daille, Béatrice; Gourraud, Pierre-Antoine |
| Contributors: |
Laboratoire Informatique d'Avignon (LIA); Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI; Zenidoc; Traitement Automatique du Langage Naturel (LS2N - équipe TALN); Laboratoire des Sciences du Numérique de Nantes (LS2N); Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-NANTES UNIVERSITÉ - École Centrale de Nantes (Nantes Univ - ECN); Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST); Nantes Université - pôle Sciences et technologie; Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie; Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Nantes Université (Nantes Univ); Team 3 : Integrative transplantation, HLA, Immunology and genomics of kidney injury; Servan, Christophe; Vilnat, Anne |
| Source: |
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale ; 18e Conférence en Recherche d'Information et Applications -- 16e Rencontres Jeunes Chercheurs en RI -- 30e Conférence sur le Traitement Automatique des Langues Naturelles -- 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues ; https://hal.science/hal-04130214 ; 18e Conférence en Recherche d'Information et Applications -- 16e Rencontres Jeunes Chercheurs en RI -- 30e Conférence sur le Traitement Automatique des Langues Naturelles -- 25e Rencontre des Étudiants .... |
| Publisher Information: |
CCSD; ATALA |
| Publication Year: |
2023 |
| Collection: |
Université de Nantes: HAL-UNIV-NANTES |
| Subject Terms: |
Modèle de langue; Clinique; Biomédical; Transformers; RoBERTa; BERT; [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] |
| Subject Geographic: |
Paris; France |
| Description: |
International audience ; Ces dernières années, les modèles de langage pré-entraînés ont obtenu les meilleures performances sur un large éventail de tâches de traitement automatique du langage naturel (TALN). Alors que les premiers modèles ont été entraînés sur des données issues de domaines généraux, des modèles spécialisés sont apparus pour traiter plus efficacement des domaines spécifiques. Dans cet article, nous proposons une étude originale de modèles de langue dans le domaine médical en français. Nous comparons pour la première fois les performances de modèles entraînés sur des données publiques issues du web et sur des données privées issues d'établissements de santé. Nous évaluons également différentes stratégies d'apprentissage sur un ensemble de tâches biomédicales. Enfin, nous publions les premiers modèles spécialisés pour le domaine biomédical en français, appelés DrBERT, ainsi que le plus grand corpus de données médicales sous licence libre sur lequel ces modèles sont entraînés. |
| Document Type: |
conference object |
| Language: |
French |
| Availability: |
https://hal.science/hal-04130214; https://hal.science/hal-04130214v1/document; https://hal.science/hal-04130214v1/file/458407.pdf |
| Rights: |
https://about.hal.science/hal-authorisation-v1/ ; info:eu-repo/semantics/OpenAccess |
| Accession Number: |
edsbas.146B3579 |
| Database: |
BASE |