Cathy Guérineau

linguiste en traitement automatique des langues

Olivet, France

  • 47.8631
  • 1.8996
Proposer un projet

Préférences

Déplacement
Peut faire la totalité d'une mission dans vos locaux

Vérifications

  • E-mail vérifié

Influence

Rejoignez la communauté Malt pour découvrir le profil complet de Cathy Guérineau
Rejoignez la communauté Malt pour découvrir le profil complet de Cathy Guérineau

Compétences (9)

Cathy en quelques mots

Je suis titulaire d'une Licence d'anglais, d'un Master en Linguistique Générale et d'un Master en Traitement Automatique des Langues. Spécialiste dans la fouille de texte (text-mining), je peux aussi bien travailler sur le français que sur l'anglais. J'utilise surtout le logiciel Unitex (grammaires locales et cascades de graphes) pour appliquer une analyse sémantique et annoter les corpus. J'ai travaillé pendant plus d'un an en faisant de la fouille d'opinion (expérience client) et de l'annotation d'articles scientifiques.
Je peux livrer des lexiques, des grammaires locales et des cascades spécifiques, mais aussi des corpus annotés en format xml.

Expériences

avril 2017 - octobre 2017 | Tours, France

Centres de recherche

ISTEX

Stagiaire en Traitement Automatique des Langues

Objectif du stage :
Utiliser le text mining pour extraire des faits scientifiques (de 1 à 7 arguments) à partir de phrases d'intéret, dans le but de résumer des articles issus de la littérature traitant de la biologie systémique en anglais.
Exemple : de « ERK was present in MA-10 » à « protein(ERK), cell(MA-10), expressed(ERK, MA-10, positive) »
Les faits scientifiques seront intégrés dans un moteur d'inférences mis au point par l'INRA de Tours. Le but est de faciliter l'accès aux résultats d'expériences de phosphorylation, dans le but d'améliorer des médicaments.

Logiciel utilisé : Unitex

Mode opératoire :
1- Modification du corpus pour faciliter la fouille de texte
Reconstitution de fragments de phrase (ex: de « G and P proteins » à « G proteins and P proteins »)
Désambiguïsation du corpus (des protéines, cellules, gènes, etc... avaient le même nom que des mots communs comme « the », « can », « be », etc...)

2- Détection des éléments et annotation de corpus
Application des lexiques de gènes, protéins, etc...
Exemple : de « ERK » à « <predicate type="protein"><argument>ERK</argument></predicate> »

Repérage des éléments grâce au contexte
Exemple : de « ERK antagonist beta-arrestin » à « <predicate type="antagonist"><argument number="1" type="protein">beta-arrestin</argument><argument number="2" type="protein">ERK</argument></predicate> »

3- Utilisation des éléments annotés pour construire les prédicats
Exemple : de « <predicate type="antagonist"><argument number="1" type="protein">beta-arrestin</argument><argument number="2" type="protein">ERK</argument></predicate> » à « antagonist(beta-arrestin, ERK)" puis rajout de « protein(beta-arrestin), protein(ERK) »

Outils Unitex acquis :
- Mode morphologique
- Variables d'entrée
- Variables de sortie (test de variables)
- Boucles à condition
- Contextes négatifs
  • Grammaires locales
  • Cascades de transducteurs
  • Analyse sémantique
  • Annotation de corpus
octobre 2017 - septembre 2018 | Fleury-les-Aubrais, France

Conseil & audit

Aktan

Linguiste en Traitement Automatique des Langues (TAL)

Constitution des éléments nécessaires à l'analyse sémantique de l'expérience utilisateur pour les entreprises sollicitant Aktan : lexiques (polarité, acteurs, moments de vie) et grammaires locales (analyse de la polarité, analyse du profil client). Test du travail effectué à l'aide d'un moteur TAL sur différents corpus (commentaires utilisateurs, entretiens utilisateurs, mails, notes d'observations sur le terrain,...)

Recommandations externes

Formations

Langues

charter modal image

Notre succès est une oeuvre collective

Contribuez à cette réussite et au sérieux de la communauté en signant la charte du freelance Malt.

Signer la charte