• Réduire le texte

    Réduire le texte
  • Rétablir taille du texte

    Rétablir taille du texte
  • Augmenter le texte

    Augmenter le texte
  • Imprimer

    Imprimer
Stage M2 : Fouille de texte pour extraction de terminologies agricoles
Référence
1571123090
Date limite pour postuler
31/12/2019
Date de publication
15/10/2019

Caractéristiques

Précision sur la nature du contrat
Stage
Durée du contrat
2 à 6 mois
Date de début de contrat
01/03/2020

Rémunération
Environ 580€ par mois
Domaine professionnel
Informatique, statistiques et calcul scientifique

Affectation

Nom de l'unité d'affectation
IRSTEA
Adresse de l'unité d'affectation
Centre de Clermont-Ferrand - 9 avenue Blaise Pascal - CS 20085 - 63178 Aubière
Région de l'unite d'affectation
Auvergne Rhône-Alpes

Descriptif

Environnement de travail

Contexte du stage

  
Dans le cadre de l’ANR D2KAB

  
Les ressources sémantiques (e.g., thesaurus, terminologies, vocabulaires et ontologies) sont des éléments clés pour assurer l'interopérabilité des données. Dans certains domaines de recherche en agriculture, les scientifiques développent déjà des ressources sémantiques pour faciliter l’intégration de leurs données avec d’autres et permettre l’extraction de connaissances e.g., Crop Ontology ou FrenchCropUsage thesaurus. Cependant, bien souvent les personnes concernées ne sont pas nécessairement des scientifiques, qui ont l’opportunité de s’intéresser au monde du web sémantique, mais des acteurs du monde agricole, qui  produisent ou utilisent des référentiels simples et souvent spécifiques à une filière. Par exemples, le référentiel des stades phénologiques de la vigne ou la liste des variétés en vigne produit par l’IFV (Institut Français de la Vigne et du Vin) ou le référentiel de produits phytosanitaires produit par l’ACTA. Récemment, une première étape a été franchie avec la mise à disposition de certains de ces référentiels sur la plateforme de partage de données agricoles, API-AGRO (https://plateforme.api-agro.fr). Mais pour aller plus loin dans le partage et la réutilisation de ces référentiels, il est nécessaire d’adopter les principes FAIR (Findable, Accessible, Interoperable and Reusable).

  
Le projet ANR D2KAB (www.d2kab.org), démarré en 2019, regroupe un consortium multidisciplinaire unique de 7 organisations dont 4 dans DigitAg (UM, INRA, IRSTEA, ACTA + et un partenariat avec API-AGRO) dont l’objectif principal est de mettre en place les processus permettant de transformer les données d’agricole en connaissances – sémantiquement riches, interopérables, ouvertes – ainsi que les méthodes scientifiques et les outils pour exploiter et diffuser ces connaissances dans des applications scientifiques et agricoles. Le projet est guidé par plusieurs scénarios dont un navigateur de recherche améliorée des bulletins d’alerte agricole intitulés Bulletin de Santé du Végétal [BSV]. D2KAB développe et maintient AgroPortal (http://agroportal.lirmm.fr), un portail de ressources sémantiques pour l’agronomie et l’agriculture.

  
L’ANR D2KAB propose plusieurs offres de CDD ingénieur dont un qui sera la suite de ce stage.

  
Objectif du stage
L’objectif de ce stage est d’améliorer la couverture terminologique des référentiels agricoles existants en les enrichissant grâce à l’extraction de termes spécifiques à partir du corpus des bulletins d’alertes (BSV). Plus précisément :

  
1. Mise en place d’un workflow de text mining à partir du système Alvis de TALN [Alvis]
proposé par l’équipe de Bibliome de l’INRA
2. Mise en place d’un protocole de validation des termes à l’aide de l’outil TyDI [TyDI] . Les
termes devront être validé par un réseau d’experts par type de culture (vigne, céréale,
légume)
3. Publication de la nouvelle version des référentiels sur l’Agroportal.

Formations et compétences attendues

Niveau Master 2 en mathématique, informatique ou bioinformatique, data science

 
● Expérience avec des outils d'apprentissage automatique et motivation pour apprendre de nouvelles technologies.
● Une expérience des technologies du Web sémantique sera appréciée mais n’est pas obligatoire.
● Bonnes compétences en anglais à l'oral et à l'écriture. Une bonne connaissance du français ou une motivation pour apprendre est souhaitable.
● Excellentes compétences en rédaction scientifique, car il sera nécessaire de produire des rapports, de la documentation technique et des compte rendu de réunion.
● Excellente compétence en gestion de projet et planification, car il sera nécessaire de faire des points réguliers avec différentes équipes du projet D2KAB
● Autonomie et initiative, être capable de proposer de nouvelles techniques au sein du projet et de justifier de ses choix.
● Personne dynamique pour rejoindre une petite équipe de recherche à Clermont-Ferrand.

Contact

Nom
Catherine ROUSSEY
Email
catherine.roussey@irstea.fr