| Title: |
FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for Medical domain ; FrenchMedMCQA : Un jeu de données de questions à choix multiple en français pour le domaine médical |
| Authors: |
Labrak, Yanis; Bazoge, Adrien; Dufour, Richard; Daille, Béatrice; Gourraud, Pierre‐antoine; Morin, Emmanuel; Rouvier, Mickaël |
| Contributors: |
Laboratoire Informatique d'Avignon (LIA); Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI; Zenidoc; Traitement Automatique du Langage Naturel (LS2N - équipe TALN); Laboratoire des Sciences du Numérique de Nantes (LS2N); Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-NANTES UNIVERSITÉ - École Centrale de Nantes (Nantes Univ - ECN); Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST); Nantes Université - pôle Sciences et technologie; Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie; Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique); Nantes Université (Nantes Univ); Clinique des Données Nantes; Centre Hospitalier Universitaire de Nantes = Nantes University Hospital (CHU Nantes); ANR-20-THIA-0011,AIby4,AI by / for Human, Health and Industry(2020); ANR-20-CE23-0005,DIETS,Diagnostic automatique des erreurs des systèmes de transcription de parole end-to-end à partir de leur réception par les utilisateurs(2020) |
| Source: |
Empirical Methods in Natural Language Processing 2022 ; https://hal.science/hal-03913329 ; Empirical Methods in Natural Language Processing 2022, Dec 2022, Abu Dhabi, United Arab Emirates. , 2022 ; https://2022.emnlp.org/ |
| Publisher Information: |
CCSD |
| Publication Year: |
2022 |
| Collection: |
Université de Nantes: HAL-UNIV-NANTES |
| Subject Terms: |
Generative model; pharmacy; French; BM25; Retriever; Transformers; Medical; Multiple Choice Question Answering; MCQA; Question à choix multiple; Médical; Français; Modèle génératif; pharmacie; [INFO]Computer Science [cs]; [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]; [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing |
| Subject Geographic: |
Abu Dhabi; United Arab Emirates |
| Description: |
LOUHI Workshop ; International audience ; This paper introduces FrenchMedMCQA, the first publicly available Multiple-Choice Question Answering (MCQA) dataset in French for medical domain. It is composed of 3,105 questions taken from real exams of the French medical specialization diploma in pharmacy, mixing single and multiple answers. Each instance of the dataset contains an identifier, a question, five possible answers and their manual correction(s). We also propose first baseline models to automatically process this MCQA task in order to report on the current performances and to highlight the difficulty of the task. A detailed analysis of the results showed that it is necessary to have representations adapted to the medical domain or to the MCQA task: in our case, English specialized models yielded better results than generic French ones, even though FrenchMedMCQA is in French. Corpus, models and tools are available online. ; Cet article présente FrenchMedMCQA, le premier jeu de données de questions à choix multiple (MCQA) en français disponible publiquement pour le domaine médical. Il est composé de 3 105 questions tirées d'examens réels du diplôme de spécialisation médicale française en pharmacie, mélangeant des réponses simples et multiples. Chaque instance du jeu de données contient un identifiant, une question, cinq réponses possibles et leur(s) correction(s) manuelle(s). Nous proposons également des modèles de référence pour traiter automatiquement cette tâche MCQA afin de signaler les performances actuelles et de mettre en évidence la difficulté de la tâche. Une analyse détaillée des résultats a montré qu'il est nécessaire d'avoir des représentations adaptées au domaine médical ou à la tâche MCQA : dans notre cas, les modèles spécialisés en anglais ont donné de meilleurs résultats que les modèles génériques en français, même si FrenchMedMCQA est en français. Le corpus, les modèles et les outils sont disponibles en ligne. |
| Document Type: |
conference object; still image |
| Language: |
English |
| Availability: |
https://hal.science/hal-03913329; https://hal.science/hal-03913329v1/document; https://hal.science/hal-03913329v1/file/LABRAK_YANIS_LIA_POSTER_Format_A0.pdf |
| Rights: |
https://hal.science/licences/copyright/ ; info:eu-repo/semantics/OpenAccess |
| Accession Number: |
edsbas.95E9358F |
| Database: |
BASE |