Google, vous connaissez ?

Bien entendu, vous connaissez !
Qui ne connait pas le moteur de recherche le plus rapide et le plus utilisé du Web !
A vrai dire, sans Google, Internet aurait un autre goût... En effet, quel plaisir de pouvoir rechercher parmi plus de trois milliards de pages indexées n'importe quel mot et de le trouver en quelques dixièmes de secondes. Gratuitement, s'il vfous plaît ! Vous connaissez donc Google. Mais le connaissez-vous aissi bien que vous ne l'imaginez ? Ne vous est-il vraiment jamais arrivé de recevoir une telle masse de résultats que vous avez bien de la peine à trier le bon grain de l'ivraie ? N'avez-vous pas parfois constaté que le web est une immense source de données qui semble inépuisable, mais que dès que vous recherchez un sujet réellement spécifique, comme par hasard, vous avez toutes les peines du monde à retrouver l'information pertinente qui vous intéresse ? Non, le web n'est pas une panacée, et Google n'est pas parfait, mais avec un minimum de dextérité et d'opiniâtreté, on peut dompter ce moteur de recherche de manière à ce qu'il se comporte de façon plus sociable.

Liens externes

Pages internes à Google

[Anglais] Aide officielle de Google - En gros, ce qui est expliqué dans cette page, mais avec d'autres mots et moins d'exemples concrets
[FR] : Wikipedia Google
[Français] Liste de toutes les pages de Google en français - Une recherche Google bien ciblée
[Anglais] GoogleBot - Comment le robot GoogleBot parcourt-il Internet à la recherche des milliards de pages disponibles ?
[Français] Web Rank Info : L'actualité de Google

Remarque préliminaire

directement depuis cette page, vous avez des recherches Google prédéfinies : vous pouvez les tester en cliquant chaque fois sur "Recherche Google", Google s'ouvrira dans une 2ème fenêtre que vous aurez qu'à fermer simplement pour revenir sur cette page. Eh oui, on peut donc installer un moteur de recherche Google directement dans ses pages web personnelles ! Comment ? Simplement en installant un formulaire comme ceci :

<form action="http://www.google.com/search" method="GET" target="_blank">
  <input type="text" name="q" size='50'>
  <input type="hidden" name="sitesearch">
  <input name="" type="submit" value="Recherche Google">
</form>

Le target="_blank" permet d'ouvrir la recherche dans une nouvelle fenêtre. Dans la zone de texte name="q" doit être présent sinon la requête Google ne fonctionnera pas, par contre à la place de "Recherche Google", vous écrivez ce que vous voulez.

Avant de commencer : PageRank

Informations officielles de Google sur le PageRank

Ne vous êtes-vous jamais demandé comment telle ou telle page arrive en tête de liste de Google, et que, très souvent, les toutes premières pages trouvées sont les plus pertinentes, et correspondent souvcent à notre demande ?

Il y a bien sûr les mots-clés : il est bien évident que les pages dénichées doivent obligatoirement contenir exactement les mots que vous avez demandé. Si ces mots sont haut dans la page, dans le titre de la page, dans les mots clés de la page en question, ou même dans l'URL (www.trucmachin.com/pagequelconque.htm), cette page sera plus haut placée que celle dont les mots demandés se trouvent une seule fois au beau milieu du texte.

Mais ces évidences ne sont pas tout !

Google utilise une technologie appelée PageRank : c'est à dire que l'un des critères déterminants pour qu'une page apparaisse en tête des résultats est qu'un maximum de liens de qualité pointent vers elle. Par exemple, si on cherche le mot "chaussure", on va trouver en premier lieu www.chaussuredefrance.com : c'est donc parce que le mot chaussure apparait en bonne place, mais aussi parce que beaucoup de sites réputés possèdent un lien hypertexte vers www.chaussuredefrance.com. Et comemnt peut on dire qu'il s'agit de "sites de qualité" ? Simplement parce que, selon le même principe, les sites qui pointent vers www.chaussuredefrance.com doivent eux même être pointés par d'autres sites de qualité, et ainsi de suite.

Ainsi, ce n'est pas parce que vous possédez un site que vous créez plusieurs autres sites "bidon" destinés uniquement à posséder des liens qui pointent vers votre premier site que celui ci se trouvera en bonne place dans les résultats de Google...

Règle d'or

Quelle que soit la requête Google que vous désirez, il ne sera JAMAIS JAMAIS possible de retrouver une partie d'un mot, à moins que ce ne soit un mot composé. Par exemple, si vous recherchez la chaîne de caractère "Perro", vous ne trouverez JAMAIS "Perroquet", même si vous écrivez "Perro*", "Perro?" ou je ne sais quoi. Les seuls mots que vous trouverez sont délimités par des caractères spécieux, des slashs, des tirets ou d'autres caractères délimiteurs comme une virgule ou un point virgule.

Par exemple, une recherche sur le mot "porte" vous renverra des extraits de pages comme :

Mais JAMAIS :

Cette règle est absolue, que vous recherchiez du texte, un titre, un site ou une url.

Les opérateurs booléens

Voilà un mot barbare dont seuls les informaticiens peuvent y trouver une quelconque poésie : Booléen. Je ne vais pas ici vous assommer avec l'algèbre de Boole dont le terme est issu, mais tout simplement, ce sont les mots-clés AND et OR, soit en français ET et OU.

Aide google sur les "Stop-words"

Et

D'une manière globale, Google comprend AND. Par exemple la requête :

Va vous retourner toutes les pages qui contiennent machin ET aussi truc.

Il ne faut PAS mettre le mot clé AND ni ET entre les deux termes. Par exemple la requête :

Va rechercher toutes les pages qui contiennent le mot "machin", "truc", ainsi que le mot "et", et ce n'est pas ce que vous voulez dans cet exemple.

C'est simple, il suffit de placer les mots les uns à côté des autres.

Limitation à 10 mots

ATTENTION : 10 mots maximum, les mots supplémentaires seront ignorés !

Par exemple

va renvoyer strictement les mêmes résultats que :

Ou

Ou, par contre doit se préciser en anglais : avec le caractère | que vous trouvez à droite du chiffre 7 sur votre clavier.

La requête suivante va renvoyer toutes les pages qui contiennent truc, ou machin, ou truc et machin dans la même page, et donc beaucoup plus de résultats qu'avec truc machin:

Attention : il FAUT utiliser le signe | ! N'essayez pas d'utiliser OR ou OU, ça ne marche pas !

L'utilité du OU est très variée. Par exemple, si vous recherchez toutes les pages qui parlent d'épicuriens, vous pouvez demander le singulier ou le pluriel, le masculin, le féminin ainsi que les différentes fautes d'orthographes que sont susceptibles de commettre les auteurs de pages. Regardez les résultats de cette requête

J'en profite pour vous signaler que les accents et les majuscules n'ont aucune importance : normalement, que fois recherchiez francois ou françois, "été indien" ou "ete indien", ça devrait donner les mêmes résultats. D'après mes tests, on dirait qu'il subsiste depetites différences dans les résultats, mais assez insignifiantes, notamment au niveau du nombre de résultats.

Evidemment, la limitation à 10 mots va rapidement vous freiner...

Parenthèses

Les parenthèses servent à combiner du ET avec du OU. Par exemple, admettons qu'on recherche des informations sur les locations de chalet à Megève ou a Chamonix :

Accents et majuscules

Aide Google sur les majuscules et les accents

Théoriquement, les accents et les majuscules ne sont pas censés être pris en compte dans les résultats, mais au vu de mes tests, j'ai répéré une anomalie de Google amusante : Lorsque vous exécutez les 4 requêtes suivantes, vous obtenez un nombre de résultats différents : selon mes tests, le nombre de résultats varie de 200'000 à 600'000. Plus troublant encore : si vous exécutez la première requête (père noël) deux fois de suite, le nombre de résultats varie... Et pourtant, les premières pages rnvoyées sont les mêmes...

Le trait d'union

Le trait d'union signifie que les deux mots doivent être collés ensemble, mais pas forcément avec un vrai trait d'union entre les deux. La reqête suivante va vous dénicher toutes les pages contenant porte et manteaux, mais pas forcément l'un à côté de l'autre :

Tandis que la requête suivante va trouver :

mais pas :

Autre signification du trait d'union

Le trait d'union, en mathématiques, signifie "Moins", c'est donc aussi un caractère d'exclusion. Pour que le tiret se comporte en tant que caractère d'exclusion, il faut qu'il soit précédé d'un espace si ce n'est pas le premier mot. La requête suivante va dénicher toutes les pages qui comportent le mot Porte, mais pas manteaux :

Et devrait renvoyer strictement le même nombre de résultats (mais pas forcément dans le même ordre) que :

Mais toujours aussi bizarrement, je ne trouve pas le même nombre de résultats, alors que les premières pages me laissent à penser que cette requête est structement identique à la précédente...

L'exclusion est très intéressante dans le cas, par exemple, ou on recherche rose, mais pas la fleur :

Les guillemets

Le trait d'union sert donc à coller 2 mots ensemble. Les guillemets offrent le même service, et me paraissent plus intuitifs à utiliser. Par exemple :

Va normalement renvoyer les mêmes résultats que :

et même que :

Dans les 3 cas, il faut que les 2 mots sont l'un à côté de l'autre, mais ils peuvent être séparés par une virgule, un point, un espace, ou même un point et un espace.

Le signe plus +

Google essaie un maximum de ne pas tenir compte des articulations de phrases. Par exemple, le mot "Le" est une articulation de phrase. Ainsi :

devrait donner le même nombre de résultats que :

Et dans la catégorie des bizarreries, j'obtiens plus de résultats avec le lapin qu'avec lapin tout seul. Dingue, non ?

Bref... Si je voulais exiger qu'il recherche absolument le mot le :

Si le mot "le" était entre guillemets avec "lapin", il chercherait uniquement les occurrences de "le lapin", pas besoin du signe + :

L'astérisque *

Les informaticiens ont l'habitude, dans beaucouzps de leurs programmes, de pouvoir effectuer une recherche sur une partie d'un mot, en complétant le reste par une astérisque *, qu'on appelle également WildCard. Ce principe porte le doux nom de Lemmatisation. Par exemple, on pourrait imaginer que la recherche de cheva* donne tous les résultats dont le mot commence par cheva : Chevalerie, Cheval, Chevaline, chevaux, mais il n'en est rien ! Testez cette requête, vous verrez par vous même :

Vous avez constaté qu'il ne recherche que Cheva ou Cheva*.

Par contre, le * a malgré tout une utilité dans Google : c'est pour le remplacement d'un mot entier. Imaginez par exemple que vous recherchez "Les 3 petits cochons", mais vous ne vous rappelez plus s'ils étaient 2, 3 ou 4. La requête suivante va vous retourner indiféremment :

Mais pas

Il est possible de juxtaposer plusieurs *. Par exemple, la requête :

Va retourner toutes les pages dont il y a 1 OU 2 mots entre Les et petits. Nous aurons donc :

On peut donc mettre autant de * qu'on désire : C'est la distance maximale entre 2 mots. Par exemple, si on place 7 *, ça veut dire qu'il va dénicher toutes les pages qui contiennent jusqu'à un maximum de 7 mots entre les deux mots, mais au moins 1.

Petit résumé

Exemples pratiques

Vous recherchez tout ce qui peut concerner Johnny Hallyday, en tenant en compte les fautes d'orthographe :

Vous recherchez des information sur le golf, mais pas sur la VW Golf :

Recherche de toutes les notes de musique : +la à la place de la, sinon il est ignoré :

Vous ne vous rappelez plus des positions de pièces d'un jeu d'échecs, notamment entre la tour et le roi :

Je cherche un exemple utile de l'utilisation du signe +, mais en fait je n'en vois pas...

Mots clés

L'ensemble des mots clés est expliqué sur la page d'aide officielle de Google en anglais

Il existe toute une panoplie de mots clés qui permettent d'affiner les recherches. Si on ne désitre pas les utiliser, on peut toujours se rendre sur la page de recherche avancée de Google.

site

Voyez ici l'aide officielle en anglais sur Google de site

Il est possible de rechercher des pages seulement dans une catégorie de sites. Par exemple, il est possible de ne rechercher que dans les sites dont le suffixe est edu (education). Par exemple, voici les résultats qui contiennent le mot biologie dans tous les sites en .edu :

Attention : remarque générale sur site : il ne faut JAMAIS placer de guillemets. Par exemple :

Ne renvoie aucun résultat

Les sites commerciaux australiens se terminent par com.au. On peut rechercher un mot français dans cette catégorie, ce qui réduit sensiblement les résultats. Voici les pages contenant le mot voiture dans les sites commerciaux australiens :

Voici la liste des différentes extensions non liées à un pays :

com | net | org | edu | gov | int | mil | aero | coop | museum | name | info | biz | pro

Plus l'extention TV qui appartenait aux habitants de l'île de Tuvalu, mais qui est devenu le suffixe pour TéléVision.

Au delà des extensions internationales, chaque pays a son extension propre. Il y en a beaucoup trop pour les reproduire ici, mais une requête google bien ciblée va nous permettre de les dénicher en un clin d'oeil (les extensions liées aux pays sont toutes en 2 lettres):

Il est également possible de ne rechercher les pages que d'un certain site. Par exemple, la requête suivante recherche le mot Excel dans toutes les pages se mon site info-3000.com :

Attention : il est indispensable de taper la dernière partie du site. Je m'explique : Imaginons une recherche dans le site :

http://movies.yahoo.com/shop/truc/machin

Les requêtes suivantes vont fonctionner :

(Toutes les pages de http://movies.yahoo.com - en tout cas celles qui contiennent "the")
(Exactement le même résultat que précédemment)
(Toutes les pages de yahoo.com : http://www.yahoo.com, http://movies.yahoo.com, http://bidule.chose.yahoo.com, ...)

Mais pas les suivantes :

Car yahoo n'est pas la dernière partie du site-racine (juste avant le premier slash /)

Car le sous dossier truc est un sous dossier après le slash / justement.

C'est une bonne technique pour se représenter l'ampleur d'un site. Si on voulait connaître approximativement le nombre de pages web du site microsoft.com par exemple, il ne suffit pas d'indiquer site:microsoft.com, ça ne marche pas, alors il faut y adjoindre le mot le plus courant possible, comme l'article "the" par exemple, avec un + devant pour obliger Google à le prendre en compte :

Pour retrouver un maximum de pages d'un site donné, que ce soit en français ou en anglais, il est judicieux d'utiliser le Ou : | et d'exiger avec + les mots les plus courants de l'anglais et du français. Voyons donc un maximum de pages du site yahoo.com en français et en anglais :

Tiens, ça doit être rigolo de regarder ce que Google lui-même cache dans ses entrailles :

Attention : le OU | ne fonctionne PAS avec le mot clé site. Imaginons qu'on recherche le texte jkjkdkasdasdaasdad, qui est un texte complètement fantaisiste, dans tous les sites .edu ou..com :

Bizarre : 130 millions de résultats...

On peut tirer parti de ce "bug". Comme on dirait bien que Google nous recrache dans ce cas l'ensemble de toutes les pages sous le domaine .edu et .com, on pourrait se faire une idée du nombre de pages totales dans des sites en .com, comme ceci :

Ce qui m'a donné 2'740'000'000 pages. Méfions nous de ce résultat, car la requête précédente ((site:com | site:com) jkjkdkasdasdaasdad') renvoyait moins de résultats, alors qu'elle était censée nous en renvoyer plus : tous les .edu plus tous les .com.

Méfions-nous d'autant plus que la requête :

ne renvoie QUE les sites dont l'extension est .abc. Il ne devrait pas y en avoir, et pourtant on en trouve !

Bien entendu, on peut utiliser le signe Moins (-) pour exclure des sites. Par exemple, admettons que je recherche des informations sur Windows 2003, mais en excluant le site Microsoft :

Faites bien attention à placer le signe "-" AVANT le mot-clé site. Car si vous essayez :

Ca ne marche pas du tout.

inurl

Voyez ici l'aide officielle an anglais de Google sur inurl

inurl est plus puissant que site. C'est la contraction de In URL (Uniform Resource Locator), c'est à dire la ligne complète de l'adresse de la page. Par exemple, l'url complète de cette page est

http://www.info-3000.com/securiteinternet/google.php

Pour prendre l'exemple de cette page justement, le mot-clé site aurait recherché dans www.info-3000.com, tandis que inurl va rechercher dans tout www.info-3000.com/securiteinternet/google.php.

Ce qui rend inurl bien plus puissant que site est surtout le fait que la simple commande inurl suffit à renvoyer des résultats : pas besoin d'ajouter un mot très commun à la requête. Ainsi la requête :

Va renvoyer aussi bien :

En vertu de la règle d'or, il ne trouvera pas www.jesuisperdu.com

Si vous désirez inclure ou exclure plusieurs termes dans l'URL, vous devez inclure entre guillemets, séparés par un espace, les différents termes. Par exemple, la requête amusante suivante recherche toutes les URLs qui contiennent à la fois macintosh et microsoft, mais pas focrément l'un à côté de l'autre :

Voici quelques exemples de résultats possibles :

Si, par erreur, vous omettez les guillemets:

Il va vous retrouver toutes les URLs qui contiennent macintosh, dans lesquelles les pages contiennent microsoft.

Tout comme site, il est possible d'exclure certains fragments d'URL : la requête suivante va nous extraire tous les sites qui parlent de Kani, mais sans que le Club Med ne fasse partie de l'URL. C'est une requête intéressante, car Kani est une toute petite êle de quelques centaines de mètres, situées aux Maldives dont le quasi-seul intérête est que le Club Med s'y soit installé.

Cette première requête va nous extraire toutes les pages contenant Kani dans l'URL, et maldives dans le texte :

supprimons maintenant tout ce qui est clubmeb dans l'URL :

Il en subsiste encore avec des tirets. Supprimons-les :

Constatez que j'ai répété deux fois -inurl. Il faut donc parfois faire attention à la syntaxe, car j'aurais pensé que la requête .

Aurait fonctionné, mais ce n'est pas le cas. Je pense que lorsque les requêtes sont trop complexes, Google a tendance à pédaler dans la semoule...

Remarquez que la suppression pure et simple du texte supprime tout à la fois : le texte dans la page, mais aussi toutes les occurrences de l'URL : la requête suivante est nettement plus efficace :

La commande inurl est donc simplement un sous-ensemble de la recherche de texte. Finalement, est-elle si utile que ça ?

On pourrait s'en servir pour rechercher toutes les pages dont l'extension est html ou htmpar exemple, soit une immense partie des pages web qui se terminent de cette manière. Voici la requête :

Malheureusement, les résultats ne seront pas parfaits, car les dossiers appelés htm ou html apparaîtront, comme ceci :

J'ai bien pensé tranformer la requête avec un point devant le htm, mais ça ne marche pas, les résultats sont les mêmes :

Ici non plus :