Twitter gazouille au f茅minin

Nouvelles

Twitter gazouille au f茅minin

笔耻产濒颈茅: 27 November 2013

Des explorateurs de donn茅es se sont efforc茅s de d茅finir les caract茅ristiques des utilisateurs de Twitter 鈥� notamment leur sexe et leur 芒ge -- que les fils Twitter ne permettent pas de d茅terminer. Ce type d鈥檌nformation pourrait se r茅v茅ler extr锚mement utile pour les annonceurs en leur permettant de cibler leurs messages en fonction de l鈥檃uditoire d茅sir茅. Presque tous les travaux en ce sens ont toutefois 茅t茅 ax茅s sur les utilisateurs et les contenus anglophones.

Une 茅quipe de chercheurs de l鈥橴niversit茅缅北强奸 a r茅cemment r茅alis茅 l鈥檜ne des premi猫res 茅tudes visant 脿 d茅terminer le sexe des adeptes de Twitter qui utilisent essentiellement une autre langue que l鈥檃nglais.

Ainsi, en ayant recours 脿 un d茅tecteur sp茅cial reposant sur la syntaxe du 蹿谤补苍莽补颈蝉, les chercheurs ont d茅montr茅 qu鈥檌l est tr猫s facile de d茅terminer le sexe des utilisateurs de Twitter qui r茅digent leurs messages dans cette langue et, probablement, dans d鈥檃utres langues romanes. Les chercheurs ont notamment 茅labor茅 un algorithme permettant de rechercher les adjectifs masculins ou f茅minins, ainsi que les participes pass茅s, plac茅s apr猫s la phrase 芦聽Je suis聽禄 (ou des variantes telles que 芦聽Je ne suis pas聽禄). 聽

脌 la lumi猫re de ces crit猫res, le d茅tecteur a pu d茅terminer le sexe des utilisateurs avec une pr茅cision de 90 %, soit un taux de loin sup茅rieur 脿 celui de 80 脿 85 % obtenu avec divers algorithmes 茅labor茅s dans le but d鈥檃nalyser des contenus en anglais.

Puisque les adjectifs et les participes pass茅s 蹿谤补苍莽补颈蝉 poss猫dent une forme masculine et une forme f茅minine qui ont souvent une graphie diff茅rente, 芦 il n鈥檈st pas n茅cessaire de recourir 脿 des crit猫res trop 茅labor茅s聽禄 pour mettre au point un d茅tecteur permettant de reconna卯tre le sexe des utilisateurs r茅digeant dans cette langue, affirme Derek Ruths, professeur d鈥檌nformatique 脿 l鈥橴niversit茅缅北强奸 et coauteur de l鈥櫭﹖ude.

Puisque la plupart des gens ajoutent des photos d鈥檈ux 脿 leurs gazouillis, il peut sembler facile de distinguer les hommes des femmes simplement en regardant ces images. Or, le tri de centaines de millions de gazouillis repr茅sente une t芒che colossale pour les ordinateurs, et 芦聽les ordinateurs ne sont pas tr猫s dou茅s pour regarder des images聽禄, note le professeur Ruths.

L鈥櫭﹖ude r茅alis茅e 脿 l鈥橴niversit茅缅北强奸 a r茅cemment 茅t茅 pr茅sent茅e dans le cadre d鈥檜ne conf茅rence internationale organis茅e 脿 Seattle par l鈥橝ssociation for Computational Linguistics. Les chercheurs ont 茅galement examin茅 des corpus de donn茅es Twitter pour le japonais, l鈥檌ndon茅sien et le turc. Parmi ces langues, ils ont conclu que le japonais est celle pour laquelle il est le plus difficile de d茅terminer le sexe des utilisateurs.

Les r茅sultats obtenus pour le 蹿谤补苍莽补颈蝉 r茅v猫lent que certaines langues pr茅sentent des caract茅ristiques plus adapt茅es 脿 certaines t芒ches de classification. 芦聽La reconnaissance et la valorisation de ces caract茅ristiques seront vraisemblablement de nouveaux axes de recherche prometteurs聽禄, ajoute Morgan Sonderegger, professeur de linguistique 脿缅北强奸 et coauteur de l鈥櫭﹖ude avec Derek Ruths et Morgane Ciot, 茅tudiante au premier cycle en informatique. 聽

Version int茅grale de l鈥檃rticle:

Site Web de la conf茅rence: