Gruppo di Fisica Statistica

Gruppo 106, Institut Jean Lamour

                     
Home
Dove
Personale
Pubblicazioni
Seminari
Cronologico
per Oratore
Workshops
Scuole
Internazionale
Gruppo di Lavoro
Posizioni
Insegnamento

Seminario del gruppo

Enertex : un système pour l'analyse automatique de documents basé sur l’énergie textuelle
Silvia Fernandez
LIA, université d'Avignon
martedì 06 maggio 2008 , 10h25
Salle de séminaire du groupe de Physique Statistique

Des idées empruntées à la physique ont déjà été utilisées dans l’analyse de textes. Les exemples les plus notables sont l’approche entropique de (Shannon, 1948), les travaux de (Zipf, 1935; Zipf, 1949) et ceux de (Mandelbrot, 1953), où les auteurs font des considérations thermodynamiques d’énergie et de température dans leurs études sur la Statistique Textuelle. Nos travaux portent sur une application différente de la physique au Traitement Automatique de la Langue Naturelle (TALN). Nous avons introduit la notion d’énergie textuelle afin d'étudier les problèmes du TALN. Cette notion, qui repose sur des concepts de réseaux de neurones et de physique statistique des systèmes magnétiques, a été utilisée comme une nouvelle mesure de similarité dans les applications du TALN. Nous avons développé l’algorithme Enertex, qui utilise la représentation sous forme de graphes de l'énergie textuelle. Nous allons présenter quelques applications de Enertex dans le domaine du TALN. En particulier, nous avons appliqué cette approche afin de produire automatiquement des résumés monodocument et multidocument guidés par le besoin de l’utilisateur. Nous montrerons également une méthode de détection de frontières thématiques. Les résultats obtenus en trois langues (anglais, français et espagnol) sont très encourageants.



Inizio pagina