|
|||||||
![]() |
Domaines de Recherche |
||||||
| TRAITEMENT DU TEXTE BRUT ET STANDARDS NUMÉRIQUES | |||||||
Il existe de nombreuses difficultés liées au codage des textes dans un jeu de caractères ou un autre, en particulier, dans un contexte multilingue et il est nécessaire d'en tenir compte afin de respecter les spécificités régionales et nationales. Développement d'une librairie de gestion des caractères [ERJ96a, LOU96b] ainsi que d'un outil de transcription [LOU96c] dans le cadre du projet européen MulText. Ces deux outils sont basés sur Unicode et permettent de gérer des entités complexes comme les entités SGML [LOU96a]. |
|||||||
| ANALYSE DU TEXTE | |||||||
Segmentation : Participation au développement de l'outil de segmentation multilingue MtSeg et développement d'un segmenteur élémentaire pour l'outil IndeXal (Bertin Technologies). Développement d'une segmentation évoluée (par automates) pour l'allemand et l'espagnol à Sinequa. Étiquetage grammatical : Transposition au français de l'étiqueteur grammatical d'Eric Brill [LOU95a] et adaptation à l'anglais de l'étiqueteur grammatical ECSTA du LIA. Adaptation à l'allemand et à l'espagnol de l'étiquetage grammatical de Sinequa. Mots inconnus : Élaboration de méthodes de gestion des mots inconnus du lexique [SPR96a]. Désambiguïsation sémantique : Développement ou utilisation d'un grand nombre de méthodes de désambiguïsation sémantique [CRE93a, LOU02c, CRE01a, LOU00c, LOU00b, LOU98a, LOU00c, LOU98c]. Parsing : Analyse syntaxique par transducteurs (détection d'entités, structure argumentale, etc.) à Sinequa. Dans le cadre du projet OuRAL, des méthodes permettant l'utilisation conjointe de modèles probabilistes et de transducteurs seront mises au point. |
|||||||
| GESTION ET UTILISATION DE RESSOURCES LINGUISTIQUES | |||||||
Développement de ressources : Participation au développement de la ressource sémantique de Sinequa [LOU03a] et définition d'une nouvelle architecture. Participation au projet EuroWordNet [LOU99c, GRI99a, GRI99b]. Ajout de noms propres à WordNet pour la constitution d'un système de question/réponse [LOU04b, CRE04a]. Développement d'une base de connaissances pour un système de question/réponse [CRE04a]. Gestion de ressources : D'importants travaux en gestion des ressources linguistiques dans un contexte multilingue sont actuellement en cours à Syllabs [LOU08a, BLA08a]. Développement de ressources spécifiques : Dans le cadre des développements pour Syllabs, des lexiques spécialisés doivent être développés en fonction des clients. Des modules d'aide au codage (extraction terminologique) ont été mis au point. |
|||||||
| MULTILINGUISME | |||||||
Gestion des caractères et segmentation pour le projet MulText (18 langues). Participation au développement de la partie française du thesaurus EuroWordNet et validation des autres langues. Travaux ponctuels sur le développement et la gestion de ressources morphosyntaxiques et sémantiques dans 9 langues (allemand, anglais, chinois, espagnol, français, italien, japonais, néerlandais, thaïlandais) à Sinequa. Sinequa Labs a développé 6 nouvelles langues en 2004 (danois, finnois, grec, portugais, russe et suédois). |
|||||||
| INDEXATION ET RECHERCHE DOCUMENTAIRE | |||||||
Développement d'IndeXal, le moteur de recherche de la société Bertin Technologie. Participation à l'amélioration d'Intuition [LOU01a], le moteur de recherche de la société Sinequa. Approches mixtes linguistique/statistiques. Indexation de très grandes bases textuelles dynamiques. Traitement des requêtes. Prise en compte de différents niveaux linguistiques et intégration de connaissances expertes. Indexation multilingue. Ce travail se fait également en classification et catégorisation de documents. Organisation d'un atelier à LREC'2002 : CUSIRF (Creating and Using Semantics for Information Retrieval and Filtering), en marge de LREC'2002 à Las Palmas. 12 communications sur une journée. |
|||||||
| SYSTÈMES DE QUESTION/RÉPONSE | |||||||
Développement d'un système de question/réponse pour l'anglais et le français à Sinequa [CRE04a, CRE03b, CRE03a]. Participation indirecte à TREC 12 pour l'évaluation des systèmes de question/réponse [BEL03a] : Sinequa a fourni son outil de reconnaissances d'entités au Laboratoire Informatique d'Avignon. Participation au projet EQueR (Technolangue) dont le but est de créer un environnement d'évaluation des systèmes de question/réponse en français. Membre du comité scientifique de l'Atelier Question/Réponse tenu à TALN 2004. |
|||||||
| AIDE À LA NAVIGATION AU SEIN DE BASES TEXTUELLES | |||||||
L'aide à la navigation permet d'aborder la question de la gestion de l'information par un autre biais. Il ne s'agit plus seulement d'avoir un moteur de recherche dont les performances en terme de rappel/précision sont bonnes, mais d'aider l'utilisateur dans sa démarche et donc de lui faire gagner du temps [CRE04b, CRE04c, CRE04d]. Une évaluation effectuée à Sinequa Labs a montré que ces aides apportent une grande amélioration dans le nombre de documents pertinents récupérés dans un temps donné.
|
|||||||
| |