3.2 Individus

Après la récolte de tant d’indices relatifs aux mots, requêtes, et sessions, nous pouvons maintenant opérer un regroupement des pratiques en fonction des « individus-cookies ». Un tel individu sera donc décrit par l’ensemble des sessions réalisées par un cookie particulier. Sa description sera nécessairement complexe 30, si l’on désire garder le maximum d’indicateurs pertiNents0rålatifs à des « objets » qui s’emboîtent les uns dans les autres.

Chaque session est repérée par son type (SE ou SNE), son caractère (« simpliste » 31 ou pas), sa longueur, sa forme (répétition systématique ou pas), la taille de son lexique (nombre de mots distincts utilisés dans la session 32). La durée n’a pas été conservée puisqu’elle n’apparaissait pas pertinente.

Puis sont décrits les thèmes de chaque session en fonction des types de requêtes rencontrées: informatique spécifique (E comme informatique étroite), informatique au sens large (L pour large), pornographie (S comme sexe) et emploi (W pour work). Deux autres thèmes ont été ajoutés: anthropologie et sociologie 33 (G comme Goody), dictionnaire et traduction 34 (D comme dictionnaire). Une requête n’entrant dans aucune de ces rubriques était classifiée « autre » (A comme autre).

Ce travail a repris, en la généralisant, la méthode exposée au paragraphe 2.6 (cf. page 502); cependant, puisque nous travaillions sur plusieurs thèmes à la fois, il a fallu choisir un ordre pour classifier les requêtes: le programme commence par vérifier si une requête renvoie au thème G, puis E, puis D 35, puis W, puis L 36, et enfin S 37.

Enfin, les sessions sont regroupées par cookie.

À partir de la longueur et de la taille du lexique d’une session, nous déduisons des indicateurs dérivés: longueurs minimale, maximale et moyenne des sessions 38 des internautes; nombre de sessions de longueur 1, de longueur supérieure ou égale à 10; minimum et maximum des tailles de lexique des sessions de chaque personne.

Pour chaque personne, nous calculons enfin le nombre de requêtes d’un thème donné (A, D, E, etc.) dans l’ensemble de ses sessions.

Nous obtenons ainsi un fichier assez complexe, dont chaque ligne correspond à un internaute: on y retrouve son numéro de cookie, la description synthétique de chacune de ses sessions 39, et les indicateurs numériques initiaux et dérivés 40, dont la valeur maximale vaut dix (la valeur 10 signifie donc « dix ou plus »).

3.2.1 Premiers résultats

Ces « utilisateurs » sont, au total, 640 885 . À lui seul, ce nombre légitime tous les efforts entrepris depuis le début de cette enquête, puisque nous arrivons à une population d’enquêtés dont la taille n’a plus aucune commune mesure avec une enquête sociologique traditionnelle.

Les résultats précédents donnent à penser qu’une « personne-cookie » réalise en moyenne deux sessions dans la semaine 41. Dans les faits, 58 % des individus ainsi repérés ne font qu’une session, 20 % en font deux, 9 % trois, et donc 13 % quatre au plus.

La majorité des membres de notre panel utilise donc peu le moteur Goosta. Les taux trouvés sont conformes avec ceux que l’entreprise rencontre pour la totalité du portail qui héberge le moteur —et donc nécessairement plus consulté que le moteur lui-même: 42 % des « utilisateurs-cookies » réalisent une seule visite par semaine, 16 % en réalisent 2, 10 % 3. Ces faibles usages du moteur sont à mettre en regard des travaux de Valérie Beaudouin et de Houssem Assadi ([BA02]), qui montraient que les usagers à domicile consultaient un moteur de recherche 30 fois dans l’année en moyenne et donc, moins d’une fois par semaine 42. D’autres études ([BC01Djo01]) rappellent la difficulté qu’ont les internautes à utiliser un moteur de recherche (mais n’offrent pas de réelles statistiques). Ainsi, même si nous reconnaissons les limites de notre échantillonnage —pour une étude plus poussée, il conviendrait de prendre une plage d’étude bien supérieure à la semaine, ce qui nécessiterait une machine autrement puissante—, nous espérons proposer une étude précise du comportement de ces 641 000 personnes.

Tout d’abord, nous évoquerons rapidement le cas des « profanes », ou nouveaux venus à l’internet. La constance de ces flux de néophytes expliquerait autant l’accroissement du nombre d’internautes que la lente évolution des usages de l’internet. Nous avons alors décidé de tester la pertinence de cet argument. Or, le cookie permet de connaître la première date de consultation du moteur par l’internaute. Il nous a permis de classer nos utilisateurs en trois groupes: personnes arrivées en mars 2001, en janvier ou février 2001, ou auparavant. On sait qu’un tel indicateur a deux biais: les personnes faisant une seule session de longueur 1 sont toutes venues sur Goosta au moins une fois avant mars (c’est ainsi qu’elles ont été repérées); inversement, parmi ces mêmes personnes ne réalisant qu’une session, mais de longueur supérieure à 2, les « nouvelles » sont légèrement sur-représentées, puisqu’elles intègrent les sessions avec refus de cookie que nous avons reconstituées. Les dates de première apparition du cookie sont assez bien distribuées: 39 % des personnes sont déjà venues sur Goosta avant 2001, 31 % en janvier ou février. Ceci dit, cette variable n’apporte pas d’informations probantes en matière de discrimation des pratiques. Il n’est donc pas sûr que les « anciens » aient des usages différents des nouveaux internautes qui découvrent Goosta.

La longueur moyenne des sessions vaut 1 pour 30 % des utilisateurs, 2 pour 24 % d’entre eux, 3 pour 14 % d’entre eux, et dépasse 5 pour 24 % d’entre eux. Il y a donc beaucoup de sessions courtes.

69 % des utilisateurs ont réalisé au moins une SE. Ceci montre l’intérêt d’une étude sur les personnes: elle met en évidence une forme de panachage des pratiques, puisqu’on ne rencontrait que 60 % de SE. De façon analogue, 65 % des personnes n’ont jamais fait de session avec répétition systématique, alors que 79 % des sessions étaient sans répétition (systématique). On peut vérifier cette combinaison d’usages en considérant le pourcentage d’auteurs de sessions de longueur un 43: il n’est que de 22 % quand on dénombrait 38 % de sessions de ce type; une minorité d’internautes réalise plusieurs sessions de longueur 1. En revanche, 14 % des utilisateurs ont réalisé au moins une session de longueur supérieure ou égale à 10, et 35 % une de longueur supérieure ou égale à 5 (23 % des sessions étaient de longueur supérieure ou égale à 5).

Nous n’en déduisons pas pour autant que les utilisateurs réguliers ne font que des sessions courtes: au contraire, le pourcentage des personnes réalisant au moins une session de longueur supérieure ou égale à 5 croît avec leur nombre de sessions, passant de 25 % chez les auteurs d’une session à 86 % pour ceux d’au moins dix.

Les auteurs de sessions « simplistes » forment, quant à eux, une catégorie assez homogène: ils sont 7797, soit quasiment autant que le total de ces sessions (8758).

3.2.2 Une difficile appropriation

Une grande partie des utilisateurs manifeste une préférence pour les SE: 57 % des personnes n’ayant réalisé qu’une session ont fait une SE; mais pour 78 % des personnes ayant réalisé deux sessions, au moins une est une SE. Ce taux va croissant: 99,2 % des auteurs d’au moins dix sessions ont réalisé au moins une SE. Cette augmentation invite à la modélisation: du tableau 3.5, il ressort qu’un utilisateur a une chance sur deux de réaliser une SE, quel que soit le nombre de sessions qu’il effectue. Cet important résultat prouve tout d’abord qu’une majorité d’utilisateurs de Goosta appartient au « grand public » 44, mais montre surtout la difficulté qu’ont les internautes de France à exprimer des requêtes précises, si l’on accepte l’idée que notre panel est représentatif de ces derniers. Les croisements SE, SNE et nombre de sessions donnent des informations du même type: entre 70 et 80 % de ceux qui sont venus au moins deux fois sur le moteur ont réalisé autant de SE que de SNE (pourcentage bien sûr calculé sur les sessions paires).



Nb sessions Au moins 1 SE 1- (1/2)Nb sessions



1 0.57 0.5
2 0.78 0.75
3 0.87 0.88
4 0.92 0.94
5 0.95 0.97
6 0.96 0.98
7 0.97 0.99
8 0.97 1
9 0.98 1
10 ou plus 0.99 1



Moy 0.69 0.64




TAB. 3.5: Modélisation de la production de SE. Pour chaque groupe d’utilisateurs ayant réalisé k sessions dans la semaine, on calcule la proportion de ceux qui ont réalisé au moins une SE, et on la compare au modèle théorique supposant qu’à chaque session, l’utilisateur a une chance sur deux de réaliser une SE.

Cette tendance à la simplicité se double d’une tendance à l’abandon: il suffit de considérer les sessions de longueur 1. On rencontre au moins une telle session chez 29 % des personnes venues une seule fois, chez 62 % des personnes ayant réalisé 2 sessions, chez 75 % de celles en ayant réalisé 3, chez 88 % des auteurs de 5 sessions, et... chez 98,5 % des auteurs d’au moins 10 sessions 45. Certes, il est possible de retrouver du premier coup un site précis en saisissant les mots-clés ad hoc, mais au vu des résultats précédents, nous sommes plus tenté d’attribuer la présence de ces sessions courtes à un échec qu’à un succès.

On pressent une corrélation entre l’émission de requêtes trop générales et cette forme d’abandon instantané du moteur. Pour la mettre en évidence, nous explicitons les relations entre les 4 variables suivantes: nombres de SE et de SNE, nombre de sessions de longueur 1, et (suite au travail précédent) nombre de sessions à répétition systématique. Cette évaluation est un peu délicate car les variables sont liées, mais non comparables quand le nombre de sessions varie 46.

Pour chaque tranche SE + SNE = k, on remarque que le nombre de sessions de longueur 1 et celui de sessions à répétition systématique croissent directement avec le nombre de SE.

À titre d’exemple, le tableau 3.6 donne les taux de sessions de longueur 1 rencontrés chez les personnes ayant fait 2, 3 ou 4 sessions. Nous savions déjà que le taux de sessions de longueur 1 croît avec le nombre de sessions. À nombre de sessions constant, le taux de sessions de longueur 1 croît avec le nombre de SE 47: ce taux de sessions de longueur 1 devient très important 48 pour les sessions à majorité SE (qui sont d’ailleurs de plus en plus majoritaires quand le nombre de sessions augmente).









SE_SNE 0 lg1 1 lg1 2 lg1 3 lg1 4 lg1 Total individus







2 sessions 125025
0_2 66 28 7 - - 27 077
1_1 39 50 11 - - 46 448
2_0 24 41 35 - - 51 500







3 sessions 57411
0_3 53 31 12 3 - 7323
1_2 32 47 18 4 - 14 308
2_1 20 39 34 7 - 19 021
3_0 13 28 36 23 - 16 759







4 sessions 30793
0_4 43 32 17 6 2 2480
1_3 27 42 23 8 1 5243
2_2 15 36 35 12 2 7795
3_1 11 26 35 24 4 8626
4_0 8 17 28 29 17 6649








TAB. 3.6: Pourcentage de personnes ayant réalisé 2, 3 ou 4 sessions, dont k de longueur 1 (lg1). La dernière colonne rappelle le total des individus ayant réalisé un type donné de sessions.

Nous obtenons des résultats analogues, bien que moins spectaculaires, pour les répétitions (cf. tableau 3.7). Aussi sommes-nous tenté de « combiner » les deux indicateurs, afin de regrouper deux types de pratiques opposés dans la forme (répétition sytématique ou abandon direct), mais témoignant l’une comme l’autre d’absences de reformulation des requêtes. Nous appelons comb ce nouvel indicateur, qui vaut la somme des deux.







SE_SNE 0 rép. 1 rép. 2 rép. 3 rép. 4 rép. Total individus







2 sessions 125025
0_2 78 19 3 - - 27 077
1_1 68 29 3 - - 46 448
2_0 57 33 10 - - 51 500







3 sessions 57411
0_3 68 24 6 1 - 7323
1_2 62 32 6 1 - 14 308
2_1 54 34 10 1 - 19 021
3_0 47 34 15 5 - 16 759







4 sessions 30793
0_4 61 26 10 3 1 2480
1_3 57 32 9 2 0 5243
2_2 50 36 11 2 0 7795
3_1 44 35 15 4 0 8626
4_0 39 32 18 8 3 6649








TAB. 3.7: Pourcentage de personnes ayant réalisé 2, 3 ou 4 sessions, dont k avec répétition systématique (rép).

À titre d’exemple, le graphique 3.4 donne, pour les auteurs de 4 sessions, le nombre de ceux qui ont réalisé k SE et dont le comb vaut l. La relation entre le comb et le nombre de SE apparaît assez directe.


PIC

FIG. 3.4: Auteurs de 4 sessions. En abscisse, le comb. En ordonnée, le nombre d’individus.

Les résultats du tableau 3.8 montrent que, même parmi les personnes n’ayant réalisé qu’une session, dont les pratiques sont difficiles à commenter, 79 % des auteurs d’une SE ont un comb valant 1: environ 169 000 individus ont en fait réalisé une SE, de longueur 1, ou systématiquement répétée. Chez les auteurs de 4 SNE et d’aucune SE, 22 % d’entre eux ont un comb supérieur ou égal à 3. Ce pourcentage, pour les auteurs de 4 SE, se monte à 84 %.











SE_SNE 0 comb. 1 comb. 2 comb. 3 comb. 4 comb. 5 comb. 6 comb. Total









1 session 373 128
0_1 73 27 - - - - - 159 841
1_0 21 79 - - - - - 213 287









2 sessions 125 025
0_2 49 35 16 - - - - 27 077
1_1 15 63 21 - - - - 46 448
2_0 4 27 69 - - - - 51 500









3 sessions 57 411
0_3 35 34 22 10 - - - 7323
1_2 11 49 30 9 - - - 14 308
2_1 4 23 56 17 - - - 19 021
3_0 1 9 31 59 - - - 16 759









4 sessions 30 793
0_4 25 29 24 15 7 - - 2480
1_3 8 38 32 17 5 - - 5243
2_2 3 19 46 26 7 - - 7795
3_1 1 8 29 48 14 - - 8626
4_0 0 3 12 33 51 - - 6649









5 sessions 18 026
0_5 20 24 21 18 9 7 - 967
1_4 6 30 31 22 8 3 - 2155
2_3 3 14 39 29 12 4 - 3456
3_2 1 7 25 42 20 5 - 4299
4_1 0 2 12 32 43 10 - 4081
5_0 0 1 5 15 36 44 - 3068









6 sessions 11 266
0_6 12 21 25 16 12 10 4 486
1_5 5 21 25 25 14 7 3 1002
2_4 1 13 30 30 17 7 2 1607
3_3 1 6 20 35 25 11 2 2217
4_2 0 2 10 29 38 16 3 2437
5_1 0 1 5 15 33 37 9 2108
6_0 0 0 2 6 18 34 40 1409










TAB. 3.8: Pourcentage de personnes ayant réalisé 1 à 6 sessions, dont k avec répétition systématique ou de longueur 1 (comb).

Aussi un comb élevé (proche du nombre de sessions) apparait comme un bon indicateur d’une faible motivation ou d’une curiosité difficile à exprimer, surtout dans le cas de sessions élémentaires. Il va nous aider à construire une première typologie des utilisateurs.

3.2.3 Première classification

3.2.3.1 Deux groupes
Pour renouer avec notre démarche itérative de construction de groupes, nous appelons GR1 le groupe de personnes qui émet des requêtes banales ou qui semble désemparé en matière d’internet documentaire.

Plus précisément, GR1 est défini comme suit: ce sont les personnes qui vérifient l’une ou l’autre des conditions suivantes:

— elles n’ont réalisé que des SE;

— leur nombre de SE est strictement supérieur à leur nombre de SNE et leur comb est égal à leur nombre de sessions.

Les personnes n’appartenant pas à GR1, qui ne vérifent donc aucune de ces deux contraintes, seront dénommées GR0 49.

La deuxième condition ne change pas considérablement le profil des 296 885 auteurs exclusifs de SE: elle ne leur ajoute que 5852 personnes. On a donc 47,2 % des utilisateurs qui entrent dans la catégorie GR1.

Il nous semblait essentiel de vérifier que notre définition était compatible avec nos indicateurs initiaux relatifs aux mots et requêtes. Le GR1 est co-responsable de la quasi totalité des requêtes courantes (il en manque 27 sur 10486); en termes de fréquence, cela fait 45,2 % de ces requêtes. Mais il n’est responsable que de 7,6 % des requêtes rares distinctes, dont le total vaut 880 792. En nombre d’occurrences, cela est équivalent: 7,7 %. Les mêmes calculs appliqués aux mots rares donnent des résultats analogues: 11,3 % du total des mots rares distincts, soit 9,9 % en poids. En revanche, le GR0 est bien responsable de la quasi-totalité des requêtes rares. De même pour les mots. Le tableau 3.9 récapitule l’ensemble de ces résultats.





Classe Nb distinct(e)s Poids



Requêtes rares
GR0 813 973 1 651 620
GR1 58 306 122 017
mixte 8513 36 583
mixte0 19 278
mixte1 17 305



Requêtes communes
GR0 96 625 556 736
GR1 19 870 89 174
mixte 64 054 833 998
mixte0 514 126
mixte1 319 872



Requêtes fréquentes
GR0 27 467
GR1 5 81
mixte 10 454 1 743 502
mixte0 955 838
mixte1 787 664



Mots rares
GR0 237 575 639 885
GR1 16 550 38 076
mixte 13 772 118 517
mixte0 78 017
mixte1 40 500



Mots communs
GR0 14 225 224 822
GR1 715 4540
mixte 32 308 1 247 802
mixte0 971 832
mixte1 275 970



Mots fréquents
GR0 13 1371
GR1 0
mixte 9686 7 461 526
mixte0 5 855 987
mixte1 1 605 539




TAB. 3.9: Récapitulatif des nombres de requêtes et mots rares, communs ou fréquents suivant le groupe. « Mixte » signifie qu’un ensemble de mots ou requêtes est utilisé par des personnes des deux groupes. Est rappelée alors en troisième colonne la contribution de chaque groupe au nombre d’occurrences de ces mots ou requêtes.

Au regard des autres données, les deux groupes sont bien distincts: peu de sessions multiples pour les GR1 (70 % d’entre eux n’ont réalisé qu’une session, contre 47 % des GR0 ); tous les GR0 ont réalisé au moins une SNE, contre seulement 2 % des GR1. La taille du lexique maximal renforce ces opposition: elle vaut 1 ou 2 pour 86 % des GR1, mais pour seulement 11 % de l’autre groupe 50.

79 % des auteurs GR1 d’une seule session ont un comb qui vaut un. Un comb égal au nombre de sessions apparaît chez 69 % des auteurs GR1 de deux sessions, chez 65 % des GR1 auteurs de trois sessions, etc. Pour l’autre groupe, les taux démarrent bien plus bas et chutent très vite: 27 % des auteurs d’une session, 19 % de ceux de deux, et moins de 5 % ensuite.

Ainsi, avons-nous mis en évidence un groupe spécifique, qui émet surtout des requêtes banales: les SE sont quasi-systématiques, et leur lexique est fort réduit. Dans une session, la reformulation d’une requête est rare. Le groupe GR1 semble donc particulièrement désarmé devant un moteur de recherche. Or ce groupe constitue la moitié de notre population.

Mais cela ne signifie pas pour autant que le GR0 soit composé de personnes expertes ès internet documentaire. En effet, ce second groupe est défini en négatif. Nous savons qu’il contient les personnes qui ont réalisé des sessions sophistiquées, mais aussi d’autres, qui en ont réalisé de bien plus communes (au vu du grand nombre de requêtes fréquentes qui apparaissent dans le tableau 3.9). Aussi ce constat nous invitera-t-il à prolonger l’entreprise de dichotomie itérative que nous avions évoquée à la fin du chapitre 3.1.6 (page 564).

3.2.3.2 Thèmes

De façon générale, le thème A (« autres » 51) est —par construction— largement majoritaire: 95 % des internautes l’ont évoqué dans au moins une requête. Sinon, le pourcentage de personnes s’étant intéressé à un thème donné est environ le double du taux de requêtes sur ce même thème 52.

Le taux d’internautes émettant des requêtes dictionnairiques semble faible (près d’1 %) mais n’est pas négligeable, puisque le lexique constituant le thème D n’est composé que de deux mots 53. Il en est de même pour le thème de l’écriture informatique et de la programmation (E): il n’était pas acquis qu’une personne sur cent sollicite des mots-clés aussi complexes et spécifiques. Par suite, le taux de personnes ayant rédigé au moins une fois rédigé une requête à connotation pornographique apparaît modéré (6,2 %), entre les préoccupations professionnelles (4,1 %) et l’informatique « grand public » (L), qui motive plus de 9 % des utilisateurs. Nous ne nous étonnons pas de la faible apparition du thème G, qui renvoie à toute la variété des préoccupations des internautes, mais il n’est pas désagréable d’apprendre qu’une personne sur 1500 s’intéresse à la sociologie et à l’anthropologie.






Thème Nb personnes GR1 Nb personnes GR0 % moyen




A 277 620 328 248 94,54
D 2259 3171 0,85
E 1873 4930 1,06
G 63 318 0,06
L 20 274 39 564 9,34
S 18 815 20 870 6,19
W 8680 17 633 4,11




Total 302 737 338 148





TAB. 3.10: Nombre de personnes de chaque groupe ayant émis au moins une requête d’un thème donné.

Il était tentant de nuancer ces premiers résultats (voir tableau 3.10) en profitant de la décomposition en deux groupes de nos internautes; bien sûr, les grandes différences des longueurs moyennes des sessions et de leur nombre vont certainement influer sur les nombres de personnes s’intéressant à un ou plusieurs thèmes. Déjà pour le thème A (autres), les statistiques divergent: 8 % des GR1 ne l’ont jamais cité, contre seulement 3 % des GR0. 32 % des personnes du GR0 l’ont évoqué plus de 10 fois, contre 8 % du GR1. Souvent, un thème est évoqué par deux fois plus de personnes du GR0 que du GR1. Le cas extrême se produit pour le thème G, avec un rapport de un à cinq. Mais les thèmes E, L et W offrent aussi des résultats surprenants, puisque deux fois moins de GR1 que prévu les évoquent.

Un thème ne suit pas cette loi, celui de la pornographie: le rapport vaut 1. Et il est le seul où l’abandon est moins systématique pour le GR1 : comme le montre la classification 3.5, qui décrit le profil d’un thème (A exclu) en fonction du nombre de personnes l’ayant cité une fois, deux fois, etc. jusqu’à 10 fois ou plus, le GR1 apparaît homogène: les distances entre les thèmes (E_GR1, W_GR1, D_GR1 et L_GR1 ) sont faibles; mais le S_GR1 est présent au sein du profil GR0, nettement plus dispersé 54. L’idée n’est pas que les personnes les plus désemparées face à l’internet seraient des obsédés sexuels, mais que leur difficulté à trouver des réponses conformes à leurs réelles préoccupations les incite à n’utiliser les moteurs de recherche que dans un cadre ludique 55. Forme d’exclusion intellectuelle, violente entre toutes.


PIC

FIG. 3.5: Classification des thèmes et groupes en fonction du nombre de personnes ayant émis 1, 2, 3..., 9 ou plus de dix requêtes d’un thème donné.

*
Après avoir découvert qu’en moyenne, les utilisateurs de Goosta avaient une chance sur deux de réaliser, à tout moment, une SE, nous avons prouvé que ces 640 000 personnes se décomposent en fait en deux groupes de tailles équivalentes et aux pratiques bien distinctes: l’un n’effectue quasiment jamais de SNE, et chaque session est bien souvent composée d’une seule requête, très brève et rarement reformulée: l’utilisateur s’en va vite, dès l’obtention de la première série de réponses, sinon, après avoir parcouru une, deux, voire trois pages de réponses. On est dans une logique d’essais, timides et conformistes, rarement réitérés, puisque 70 % des GR1 ne sont venus qu’une fois dans la semaine. L’échec semble la règle. On comprend alors que seul le thème de la pornographie ait quelque succès pour cette population responsable de seulement 8 % des requêtes rares.

Nous pouvons maintenant prolonger notre démarche itérative.

3.2.4 Première généralisation

Nous pourrions réaliser ces itérations de façon quasi-automatique. Mais le fait que certains des indicateurs soient fort synthétiques nous incitera à la prudence, ce qui nous permettra de prouver la fiabilité de notre méthodologie, et d’opérer quelques vérifications, qui garantiront que les indicateurs que nous avons choisis au fil de ce travail sont robustes.

Nous allons donc commencer par réduire légèrement GR0 et vérifier que les mots rares dans les deux nouveaux groupes obtenus se distribuent bien de la façon escomptée, puis étudier attentivement les auteurs d’une seule session, avant d’évaluer le taux de personnes familiarisées avec le fonctionnement des moteurs de recherche.

Nous décomposons le GR0 en deux sous-groupes: GR01, et son complémentaire GR00.

GR01 comprend les personnes dont:

— le comb est égal à leur nombre de sessions

ou dont

— au moins les trois-quarts (strictement) de leurs sessions sont des SE.

Ainsi, nous sélectionnons ici encore des individus aux requêtes banales, qui réalisent des sessions brèves ou sans reformulation. GR01 a donc un profil très proche de GR1.

La taille de GR01 n’est pas négligeable: 70 593 personnes, soit 21 % de GR0, responsables de 152 921 sessions 56. À eux deux, GR1 et GR01 réunissent 58,2 % des utilisateurs, et sont responsables de 17 % des requêtes rares distinctes 57. Si nous agrégeons ces deux groupes (dont la réunion est donc le complémentaire de GR00 ), les oppositions statistiques découvertes auparavant se maintiennent ou se renforcent; par exemple 76 % des personnes du groupe GR1 U GR01 ont un lexique maximum qui vaut 2, quand ce taux tombe à 5 % pour son complément GR00 (au lieu de 86 % face à 11 %).

3.2.4.1 Mots rares

Nous désirons d’abord vérifier la pertinence des critères de rareté, qui sont définis de façon statistique. Si quelques sondages attestaient de leur qualité, il reste néanmoins possible que des mots rares (ou des requêtes rares) soient en fait des mots banals dans lesquels se seraient glissées des fautes de frappe. Dans ce cas, la rareté ne serait pas synonyme de sophistication.

Aussi, parmi les mots rares rencontrés dans les requêtes émises par des personnes GR1 U GR01 , en avons-nous sélectionné un sur cent; de même pour GR00. Ce qui a donné respectivement 455 et 1982 mots. Ces mots ont été classifiés en quatre groupes: erreur en cas de faute de frappe manifeste (materiek, nostagie, etc.), doute s’il était difficile de garantir l’erreur (noms inconnus, comme lilootes, cedat, acopsante, ou ressemblant à des mots connus, comme auhan, ou maschio), web (URL plus ou moins complètes, mais sans faute de frappe, comme www.dad —mais www.education.gouvr.fr rentre dans la catégorie erreur, à cause du r de gouvr), et enfin autres, a priori corrects, comme lievremont, moho, narcotiques, presley, ou 110ch.

Dans chaque classe d’utilisateurs, le taux d’erreur est identique: un mot sur trois est mal écrit. En revanche, le taux de doute est plus élevé pour GR1 U GR01 que pour GR00 : 32,3 % contre 17 %. Il en est de même pour la catégorie web: 15,6 % contre 5,2 %. Au final, seul un mot rare sur cinq semble sans faute (ou susceptible d’exister dans un large dictionnaire) pour le groupe agrégé, face à un sur deux 58 pour GR00. Le tableau 3.11 synthétise ces résultats.

Aussi, les mots rares de GR1 U GR01 sont-ils fréquemment des mots susceptibles de n’être pas compris par le moteur, et on ne peut que se satisfaire de leur faible présence dans les requêtes de cette classe. A fortiori, si une personne de GR1 U GR01 saisit un mot rare, comme il y a 8 chances sur 10 pour que celui-ci soit incompris du moteur, sa réaction de rejet ou d’abandon risque d’être encore plus forte. Cela nous conforte dans l’idée que ce groupe GR1 U GR01 est particulièrement désarçonné par le fonctionnement des moteurs de recherche. À l’opposé, le fort taux de ces mots rares au sein de la classe complémentaire GR00, et le plus faible taux d’erreur prouvent que cette dernière émet effectivement des requêtes plus sophistiquées. Il est même possible de mesurer ce fait: une personne de GR00 a en moyenne 10 fois plus de chances 59 de saisir un mot rare correct qu’une personne de GR1 U GR01 .





Type de mots % dans (GR1 U GR01) % dans GR00



erreur 31,4 33,3
doute 32,3 17
web 15,6 5,2



total 79,3 55,5



reste 20,7 44,5



Nb mots 455 1982




TAB. 3.11: Taux et type de fautes dans les mots rares rencontrés dans le groupe GR1 U GR01 et son complémentaire GR00. Échantillonnage: 1 mot sur 100.

3.2.4.2 Biais éventuels
Avant d’aller plus loin, nous devons maintenant vérifier si certaines catégorisations ne créent pas de biais statistiques: nous travaillons sur des valeurs entières, comme le nombre de sessions, et il serait possible que des contraintes du genre nombre de SE > 3 / 4 * nombre de sessions, favoriseraient par exemple les auteurs d’au moins 5 sessions.

Le type de critère utilisé a effectivement une incidence sur les agrégations construites, mais celle-ci est limitée: pour montrer ce fait, considérons par exemple GR00, que nous scindons en deux groupes; CL1 est défini par les critères suivants:
— le nombre de SE est strictement supérieur au nombre de SNE
ou
— le lexique maximal est inférieur ou égal à 3.

CL0 est son complémentaire. CL1 réalise bien les sessions les plus communes 60.

Ici, deux personnes qui ont le même profil, mais dont l’une réalise deux sessions quand l’autre en réalise trois, ne seront pas classées dans le même sous-groupe 61.


PIC

FIG. 3.6: Pourcentages de CL1 et CL0 réalisant un nombre de sessions donné. En abscisse, le nombre de sessions.

Le graphique 3.6, montre que les deux sous-groupes ont une fréquentation analogue du moteur, ce qui est déjà une information riche en soi. Cependant, nous constatons des différences quand le nombre de sessions vaut deux ou trois: c’est bien là que le critère employé induit une rupture. Mais si l’on fait la somme, pour CL0 comme pour CL1, des auteurs de 2 ou 3 sessions, ces brutales variations s’annulent: 35 % au total pour les CL0, 36 % pour les CL1. D’autre part, ces biais, qui se compensent, donc, ne s’étendent pas quand le nombre de sessions dépasse le seuil choisi: à partir de 4 sessions, les résultats sont identiques pour les deux groupes.

Ainsi, les critères employés sont susceptibles d’introduire des biais aux abords du seuil choisi à la marge, mais ces biais sont peu importants.

3.2.5 Mesure de l’expertise

Nous savons que les personnes mal à l’aise consultent peu le moteur, quand les autres le font plus fréquemment 62. Cependant, il n’est pas impossible que des utilisateurs familiers des moteurs se glissent parmi la population des personnes qui consultent rarement Goosta. Par exemple, les « experts » habitués à utiliser plusieurs moteurs à la fois; il serait alors erroné de prétendre que le nombre de sessions d’une personne est en relation directe avec ses capacités documentaires sur l’internet. Aussi, pour mesurer le taux de personnes disposant d’une compétence certaine, devons-nous distinguer les auteurs d’une et de plusieurs sessions.

3.2.5.1 Auteurs d’une session
Nous dénombrons 373 128 auteurs d’une seule session et 267 757 auteurs d’au moins deux. 69 % des premiers entrent dans la catégorie GR1 U GR01, face à 44 % des seconds 63.

Mais les 31 % d’autres personnes n’étant venues qu’une fois ont —par construction, puisqu’ils sont dans GR00 — un comportement différent des GR1 U GR01 : pour tous, la longueur de la session vaut au moins 2, et elle dépasse (au sens large) 5 dans 48 % des cas. Tous sollicitent un lexique de taille supérieure ou égale à 2. De plus, 42 % d’entre eux (48 911 personnes, soit 13 % des GR00 n’ayant réalisé qu’une session) ont un lexique 64 de taille supérieure ou égale à 5. Un tel seuil semble témoigner d’une capacité certaine des utilisateurs à tirer parti d’un moteur de recherche.

Ces 48 911 personnes sont auteurs de 126 932 requêtes rares distinctes, quand les 67 921 autres (toujours GR00 auteurs d’une seule session) ont émis 87 037 autres requêtes rares distinctes (en sus, 1452 sont communes aux deux sous-groupes). L’étude de quelques sessions réalisées par les personnes utilisant un lexique consistant donne à penser que leurs requêtes sont variées, reformulées, et efficaces 65.

Nous pouvons donc en déduire que 13 % des personnes utilisant rarement Goosta (venues une fois seulement dans notre fenêtre temporelle) sont certainement familières des moteurs de recherche. Nous découvrons une classe d’usagers compétents, mais volatiles, qui ont un comportement en rupture complète avec la grande majorité des autres visiteurs épisodiques, pour lesquels nous avons dû constituer des discriminations du plus bas niveau possible afin de repérer un minimum de maîtrise du moteur.

3.2.5.2 Utilisateurs réguliers
Nous pouvons maintenant porter notre intérêt sur les auteurs d’au moins deux sessions: les autres laissent des traces fugitives, et seulement 13 % d’entre eux semblent maîtriser le fonctionnement de Goosta.

Parmi ces auteurs d’au moins deux sessions, presque la moitié (44 %) sont dans le groupe GR1 U GR01. Nous doutons que les 150 723 personnes restantes —de GR00, donc— soient toutes familiarisées avec l’informatique et les requêtes sur l’internet: en effet, 97 243 de ces personnes ont émis au moins une session de longueur 1. Un sondage rapide sur ces sessions de longueur 1, comme sur celles dont le lexique ne contient qu’un mot, montre qu’elles sont souvent très simples et peu évocatrices (« anpe », par exemple).

Sinon, 45 % de ces 150 723 personnes ont réalisé une session de longueur supérieure ou égale à 4. 59 % d’entre elles ont un lexmax supérieur ou égal à 5, ce qui commence à être important. Mais seulement 9 % ont un lexmin supérieur ou égal à 4, et 4 % un lexmin supérieur ou égal à 5.

Sachant que nous ne pouvons appliquer un critère aussi simple que précédemment, puisqu’ici, nos auteurs de multiples sessions peuvent alterner requêtes banales et complexes, nous nous proposons d’utiliser une fois de plus les indicateurs habituels pour opérer une coupure au sein de ce groupe de personnes venues au moins deux fois dans la semaine, et semblant un minimum familiarisées avec les moteurs de recherche. Nous regroupons d’une part les personnes remplissant l’une des conditions suivantes (groupe GR001), d’autre part son complémentaire 66 (dénommé GR000):

— le nombre de SE est supérieur ou égal au nombre de SNE;

— les sessions de longueur 1 composent au moins la moitié du total des sessions;

— le lexique minimum d’une session vaut 1 (il existe donc au moins une session composée d’un seul mot);

— le lexique maximal des sessions ne dépasse pas 3;

— la longueur moyenne des sessions vaut 1.

GR001 est bien plus important que GR000: 115 885 personnes, responsables de 430 362 sessions, quand GR000 ne représente que 34 838 personnes (pour 114 370 sessions). Nous remarquons que GR000 a de fortes chances d’intégrer les personnes dont le lexmax est supérieur ou égal à 4.

Bien sûr, les deux groupes émettent de nombreuses requêtes rares: 542 539 à eux deux, dont 7307 communes à GR001 et à GR000. Mais chaque personne de GR000 est responsable d’environ 5,5 requêtes rares distinctes en moyenne, quand ce taux tombe à 3,1 pour GR001. Inversement, et toujours « en moyenne », une personne de GR001 est responsable de 4,8 requêtes fréquentes 67, et une personne de GR000 de 3,6. Enfin, les sessions des GR000 sont en moyenne de longueur 5. En matière de thèmes, les taux de GR000 sont plus élevés que pour la moyenne, ce qui est en partie logique, puisque qu’ils réalisent plusieurs sessions: 1,3 % d’entre eux ont émis des requêtes de type D, 9,7 % de type S et 8,2 % de type W. Les plus fortes augmentations se retrouvent pour les thèmes E (2,4 %), G (0,2 %) et L (18,2 %). Ce dernier pourcentage prouve que les personnes qui maîtrisent l’internet ont conscience du besoin de continuer à se cultiver dans le domaine de l’informatique.

Au vu de ces résultats, nous sommes conduit à penser que c’est parmi ces 34 838 personnes —soit 13 % des auteurs d’au moins deux sessions— que nous retrouverons les internautes disposant d’une maîtrise minimale de l’outillage intellectuel contemporain.

*
Une majorité d’internautes (58 %) n’ont réalisé qu’une session dans la semaine. Nombre de ceux-ci sont particulièrement démunis face au fonctionnement du moteur. À l’opposé, 13 % semblent en avoir une bonne maîtrise. Restent alors les personnes venant deux fois ou plus, plus faciles à étudier. Là encore, seulement 13 % des utilisateurs attestent d’une telle maîtrise. Nous pouvons en déduire que 87 % de nos 640 000 internautes sont particulièrement désemparés face à de tels outils. Et pourtant, nos critères ont été d’une simplicité maximale.

Il faudrait vérifier ce résultat, avec des études approfondies, incluant des enquêtes ethnographiques, mais d’ores et déjà, les témoignages d’étudiants, évoquant leurs collègues, professeurs, amis et parents, nous donnent à penser qu’il est juste, même s’il déplaît.

3.2.6 Quelles requêtes fréquentes?

En effet, nos 87 % de personnes inexpérimentées, mal à l’aise face à la technique comme face à l’internet documentaire, constituent l’« échantillon représentatif » de l’internaute français. C’est au travers de leurs mots et requêtes les plus fréquents que les analystes des access_log vont déterminer des profils et des évolutions. Pour le plaisir de montrer comment leurs résultats sont bousculés par l’étude attentive d’une population précise, nous proposons d’étudier ce que sont les requêtes fréquentes au sein du groupe GR000, qui est à la fois représentatif des personnes sachant se servir de l’internet et des personnes venant régulièrement sur Goosta.

Notre raisonnement est le suivant: pour aller dans(le sanS des analyses que nous comptons critiquer, et pour réduire le poids des fautes de frappe, nous ne considérons que les requêtes fréquentes ou communes apparues dans les 3 mois, tous utilisateurs confondus. Nous sommes donc assuré que la fréquence totale de ces requêtes est supérieure à 20. Nous comptons combien de fois les membres de GR000 saisissent ces requêtes, puis comparons le rang général d’une requête avec celui qu’elle a dans GR000.

Pour à la fois expliciter cette méthode et montrer en quoi les variations sont faibles pour les requêtes majoritaires, le tableau 3.12 donne les fréquences et rangs respectifs des requêtes qui sont les dix premières dans GR000 ou dans le total.







rang dans GR000 requête fréq. dans GR000 rg initial fréq. totale





1 sexe 531 1 284462
2 immobilier 345 2 93755
3 fond ecran 306 18 51067
4 mp3 296 5 79200
5 pokemon 281 22 43856
6 anpe 279 10 70122
7 sexe gratuit 278 11 69967
8 moteur recherche 275 52 28490
9 chat 256 4 84861
10 webcam 241 14 60406
22 meteo 186 6 77851
24 emploi 183 7 74660
41 caramail 154 8 73966
47 sex 147 3 91962
111 horoscope 91 9 73071






TAB. 3.12: Requêtes apparaissant les dix premières dans GR000 ou dans le total.

Les deux premières requêtes du corpus de trois mois voient leurs rangs inchangés. Mais déjà apparaissent quelques différences. Par exemple « moteur recherche » voit son rang baisser 68 (8 au lieu de 52) quand celui de « sex  » passe de 3 à 47. On est donc tenté de repérer les requêtes originelles qui voient leur rang croître dans GR000 (fort intérêt en moyenne, mais faible intérêt pour les GR000), et à l’inverse, les requêtes que nos spécialistes n’aurait pas remarquées, mais qui sont sollicitées par les auteurs GR000. Pour cela, on se fixe un seuil limite (2, 5 ou 10), et l’on inscrit dans un fichier les premières ({rang initial * limite} < {rang dans GR000}), et dans un autre les secondes ({rang dans GR000 * limite} < {rang initial}).

Afin d’éviter une trop forte influence de l’échantillonnage sur le résultat, nous ne considérons que les requêtes fréquentes ou communes dont la fréquence dans GR000 est inférieure à la moitié de la fréquence dans le corpus entier 69. Les résultats pour limite = 5, sont présentés dans l’annexe (tableaux 4.1 page 724 et 4.2 page 728).

Bien sûr, toutes les requêtes composées d’un mot simple, polysémique quand il est seul, voient leurs rangs s’accroître grandement: ainsi, les requêtes très vagues —mais trop faciles à interpréter?— comme « impot », « race », « parisien », « loto », « sexy », « loterie », « erotique », « pmu », « anal », etc., ont des rangs entre 1000 et 5000 dans GR000 quand ce rang initial était compris entre 20 et 600. Et d’autres, comme « barcelone », « golf  » ou « gif anime », se retrouvent au rang 11 000 alors qu’ils semblaient « importants », si l’on en croit leurs rangs initiaux: respectivement 737, 398, 647.

Inversement, des requêtes bien plus pertinentes se retrouvent dans les premiers rangs: « fievre aphteuse » (rang 11 au lieu de 419), « geographie » (124 au lieu de 764), « seine maritime » (149 au lieu de 12 667), « louis 16  » (307 au lieu de 13 775), « ubu roi » (433 au lieu de 19 749), « egalite homme femme » (593 au lieu de 34 871), « declaration droit homme citoyen » (679 au lieu de 20 403), « elections communales » (877 au lieu de 45 389), « phlebologie » (1642 au lieu de 54 448).

Ces quelques exemples convaincront assurément le lecteur que les représentations d’autrui les plus primaires, aisées à réaliser si on effectue une lecture rapide et non raisonnée des rangs et fréquences des requêtes, s’effondrent lorsqu’on s’intéresse aux utilisateurs ayant un minimum de pratique des moteurs. Les préoccupations culturelles, géographiques et politiques des internautes apparaissent alors bien plus clairement.