Informatique

« Résume-moi ce texte, ordinateur ! »

Le cerveau humain n'est plus requis pour résumer des articles savants. Un logiciel fera l'affaire. Devant notre journaliste, un document scientifique de 15 pages a été abrégé en une fraction de seconde. Le résultat (cohérent, précis et grammaticalement correct) tenait sur 12 lignes.

Le logiciel, encore expérimental, est la somme du travail d'étudiants du Laboratoire de recherche appliquée en linguistique informatique de l'Université de Montréal, sous la supervision du professeur Guy Lapalme , professeur au Département d'informatique et de recherche opérationnelle. Après le logiciel SumUM, qui produisait des résumés de 10 à 15 lignes à partir d'articles scientifiques, Atefeh Farzindar s'est penchée sur des textes de jurisprudence. Un travail qui n'est pas simple, mais qui donne des résultats étonnants. « Actuellement, dit-elle, nous ne travaillons que sur des documents en anglais, mais rien n'empêche d'étendre notre expertise à d'autres langues. »

Les ordinateurs, bien entendu, ne comprennent pas le sens des mots. Les chercheurs doivent donc avoir recours à diverses stratégies pour leur « apprendre » à écrire des résumés. Une approche consiste à analyser le travail des rédacteurs en chair et en os. Où ceux-ci puisent-ils leur information lorsqu'ils résument un texte ? En général, ils consultent l'introduction, la conclusion, les titres, les légendes et les débuts de paragraphes. L'ordinateur doit donc s'y prendre de cette façon, lui aussi.

Appliquée à l'ordinateur, cette méthode permet de réduire la quantité de texte à analyser. L'ordinateur effectue ensuite des calculs statistiques qui permettent d'établir la fréquence anormale de certains mots, de constater que des mots en particulier sont toujours associés à d'autres ou que certains semblent être des mots clés. Le logiciel mémorise ces expressions significatives et les restitue ensuite dans une langue correcte, en les insérant dans une grille de rédaction prédéterminée.

Le travail d'Atefeh Farzindar est mené en collaboration avec le Centre de recherche en droit public de la Faculté de droit, qui lui fournit une grande quantité de documents déjà numérisés. Si le logiciel fonctionne déjà en partie, il reste à déterminer quelle information doit absolument se retrouver dans le résumé. Il faut aussi élaborer des algorithmes permettant à l'ordinateur de faire la différence entre les expressions « appel téléphonique » et « jugement porté en appel », par exemple.

 

Chercheuse : Atefeh Farzindar
Courriel : farzinda@iro.umontreal.ca
Direction : Guy Lapalme ( lapalme@iro.umontreal.ca ) ; téléphone : (514) 343-2145

 

 


 


Archives | Communiqués | Pour nous joindre | Calendrier des événements
Université de Montréal, Direction des communications et du recrutement