Twitter gazouille au féminin
Des explorateurs de données se sont efforcés de définir les caractéristiques des utilisateurs de Twitter – notamment leur sexe et leur âge -- que les fils Twitter ne permettent pas de déterminer. Ce type d’information pourrait se révéler extrêmement utile pour les annonceurs en leur permettant de cibler leurs messages en fonction de l’auditoire désiré. Presque tous les travaux en ce sens ont toutefois été axés sur les utilisateurs et les contenus anglophones.
Une équipe de chercheurs de l’Université McGill a récemment réalisé l’une des premières études visant à déterminer le sexe des adeptes de Twitter qui utilisent essentiellement une autre langue que l’anglais.
Ainsi, en ayant recours à un détecteur spécial reposant sur la syntaxe du français, les chercheurs ont démontré qu’il est très facile de déterminer le sexe des utilisateurs de Twitter qui rédigent leurs messages dans cette langue et, probablement, dans d’autres langues romanes. Les chercheurs ont notamment élaboré un algorithme permettant de rechercher les adjectifs masculins ou féminins, ainsi que les participes passés, placés après la phrase « Je suis » (ou des variantes telles que « Je ne suis pas »).
À la lumière de ces critères, le détecteur a pu déterminer le sexe des utilisateurs avec une précision de 90 %, soit un taux de loin supérieur à celui de 80 à 85 % obtenu avec divers algorithmes élaborés dans le but d’analyser des contenus en anglais.
Puisque les adjectifs et les participes passés français possèdent une forme masculine et une forme féminine qui ont souvent une graphie différente, « il n’est pas nécessaire de recourir à des critères trop élaborés » pour mettre au point un détecteur permettant de reconnaître le sexe des utilisateurs rédigeant dans cette langue, affirme Derek Ruths, professeur d’informatique à l’Université McGill et coauteur de l’étude.
Puisque la plupart des gens ajoutent des photos d’eux à leurs gazouillis, il peut sembler facile de distinguer les hommes des femmes simplement en regardant ces images. Or, le tri de centaines de millions de gazouillis représente une tâche colossale pour les ordinateurs, et « les ordinateurs ne sont pas très doués pour regarder des images », note le professeur Ruths.
L’étude réalisée à l’Université McGill a récemment été présentée dans le cadre d’une conférence internationale organisée à Seattle par l’Association for Computational Linguistics. Les chercheurs ont également examiné des corpus de données Twitter pour le japonais, l’indonésien et le turc. Parmi ces langues, ils ont conclu que le japonais est celle pour laquelle il est le plus difficile de déterminer le sexe des utilisateurs.
Les résultats obtenus pour le français révèlent que certaines langues présentent des caractéristiques plus adaptées à certaines tâches de classification. « La reconnaissance et la valorisation de ces caractéristiques seront vraisemblablement de nouveaux axes de recherche prometteurs », ajoute Morgan Sonderegger, professeur de linguistique à McGill et coauteur de l’étude avec Derek Ruths et Morgane Ciot, étudiante au premier cycle en informatique.
Version intégrale de l’article:
http://www.derekruths.com/static/publication_files/CiotSondereggerRuths_EMNLP2013.pdf
Site Web de la conférence:
http://hum.csse.unimelb.edu.au/emnlp2013/