Seminario del gruppo
| Enertex : un système pour l'analyse automatique de documents basé sur l’énergie textuelle |
| Silvia Fernandez |
| LIA, université d'Avignon |
| martedì 06 maggio 2008 , 10h25 |
| Salle de séminaire du groupe de Physique Statistique |
Des idées empruntées à la physique ont déjà été utilisées dans l’analyse de textes. Les exemples les plus notables sont l’approche entropique de (Shannon, 1948), les travaux de (Zipf, 1935; Zipf, 1949) et ceux de (Mandelbrot, 1953), où les auteurs font des considérations thermodynamiques d’énergie et de température dans leurs études sur la Statistique Textuelle. Nos travaux portent sur une application différente de la physique au Traitement Automatique de la Langue Naturelle (TALN). Nous avons introduit la notion d’énergie textuelle afin d'étudier les problèmes du TALN. Cette notion, qui repose sur des concepts de réseaux de neurones et de physique statistique des systèmes magnétiques, a été utilisée comme une nouvelle mesure de similarité dans les applications du TALN. Nous avons développé l’algorithme Enertex, qui utilise la représentation sous forme de graphes de l'énergie textuelle. Nous allons présenter quelques applications de Enertex dans le domaine du TALN. En particulier, nous avons appliqué cette approche afin de produire automatiquement des résumés monodocument et multidocument guidés par le besoin de l’utilisateur. Nous montrerons également une méthode de détection de frontières thématiques. Les résultats obtenus en trois langues (anglais, français et espagnol) sont très encourageants. |






