Entêtes et balises pour contrôler l’exploration et l’indexation de votre site

Pour proposer des résultats pertinents aux requêtes et intentions des utilisateurs, un moteur de recherche doit d’abord se créer une base de données de référence.
Des robots sont envoyés sur le web pour l’explorer, découvrir des pages et contenus et surtout enregistrer des informations sur ces pages.
Pour chaque page, le moteur doit au moins reproduire le titre, la description de la page et fournir un lien vers cette page.

Voici les entêtes de pages qui vous permettront de contrôler les paramètres d’exploration et d’indexation de vos pages par les moteurs de recherche.

Les entêtes de pages pour l’exploration et l’indexation

Les entêtes d’une page ont pour fonction de définir les informations nécessaires à la correspondance entre le serveur qui délivre la page et le client qui va la recevoir.
Toutes ces entêtes ne sont pas nécessaires et d’autres ont un des effets permettant de maîtriser l’exploration, l’indexation, la validité d’une page, la possibilité d’être incluse dans une autre, l’activation de la compression pour diminuer les temps de chargement et bien d’autres critères.

Entête X-Robots-Tag noindex et nofollow

Cette entête contrôle l’exploration et l’indexation d’une page. L’une de ces valeurs permet aussi de supprimer la mise en cache dans Google, si vous souhaitez maîtriser l’affichage.

InstructionSignification
noindexNe pas afficher cette page dans les résultats de recherche et ne pas afficher de lien "En cache" dans les résultats de recherche.
nofollowNe pas suivre les liens de cette page.
noneÉquivaut à noindex, nofollow.
noarchiveNe pas afficher de lien "En cache" dans les résultats de recherche.
nosnippetNe pas afficher d'extrait de cette page dans les résultats de recherche.
noodp Ne pas utiliser les métadonnées de l'Open Directory project pour les titres ou les extraits de cette page.
notranslate Ne pas proposer la traduction de cette page dans les résultats de recherche.
noimageindexNe pas indexer les images de cette page.
unavailable_after: [RFC-850 date/time]Ne pas afficher cette page dans les résultats de recherche après la date et l'heure indiquées. La date et l'heure doivent être spécifiées au format RFC 850.

Récupérer des informations sur internet a un coût en termes de temps : les réponses volumineuses peuvent nécessiter de nombreux allers-retours entre le client et le serveur.Entête expires

Ces délais retardent leur mise à disposition et leur traitement par le navigateur. Cela a également un coût en termes de données et donc d’argent pour le visiteur recourant au chargement sur appareil mobile.

C’est pourquoi la mise en cache et la réutilisation des ressources récupérées représentent un aspect essentiel de l’optimisation des performances.

Les navigateurs sont fournis avec un gestionnaire de cache HTTP. Leur adresser des directives appropriées permet de maîtriser le délai de la mise en cache d’informations.

Entête X-Frame-Options

La directive x-frame-options indique si les navigateurs sont autorisés à intégrer la page dans une balise iframe, frame ou object.

Pourquoi empêcher l’inclusion d’une page par ce mode ? Pour éviter le détournement de clic.

InstructionSignification
X-Frame-Options: DENYEmpêche toute inclusion de la page dans un iframe.
X-Frame-Options: SAMEORIGINAutorise l'inclusion dans une balise seulement sur le site d'origine.
X-Frame-Options: ALLOW-FROM https://example.com/N'autorise que l'URL indiquée à inclure la page.

Entête deflate / gzip

Lorsque vous allez sur un site, la requête envoyée au serveur lui demande de transférer le fichier. Si le serveur trouve un fichier correspondant à l’URL, le fichier est transmis au navigateur jusqu’au chargement complet de la page.

L’activation d’un module de compression type mod_deflate ou mod_gzip indique de modifier le processus de transfert du fichier en lui ajoutant une étape de compression. Si le serveur trouve un fichier correspondant à l’URL, le fichier est compressé et ce fichier compressé est transmis au navigateur qui se charge de le décompresser sur le poste client.

La compression du code html est en moyenne d’environ 70%. Ce chiffre peut être amené à varier de 60% à 90% selon le contenu.

Comment vérifier l'activation du module de compression mod_gzip ou mod_deflate ?

Google Chrome vous permet de vérifier l’activation de la compression. F12 > Onglet Network de la console du navigateur > Sélectionner un fichier dans la colonne gauche > dans l’onglet Headers trouver la section Response Headers : Content-Encoding: gzip. La compression est activée.

Comment trouver le poids initial et le poids compressé d'un fichier ?

Google Chrome vous permet de calculer la compression des ressources composant une page web. F12 > Onglet Network de la console du navigateur > View : Large request rows. La colonne Size vous indique le poids initial du fichier et son poids une fois compressé.

 

Voici deux façons de compresser le contenu d’un fichier.

# compresser le code html, javascript et css :
AddOutputFilterByType DEFLATE text/html
AddOutputFilterByType DEFLATE text/css
AddOutputFilterByType DEFLATE application/javascript
AddOutputFilterByType DEFLATE application/x-javascript

# compresser par extension de fichier :
<files *.html>
SetOutputFilter DEFLATE
</files>

Entête .htaccess

Toutes les modifications d’entête peuvent être intégrées dans le code ou directement dans le fichier .htaccess pour simplifier et centraliser la gestion des directives.

Le fichier robots.txt

Le fichier robots.txt contient des commandes à destination des robots d’indexation des moteurs de recherche.
Il indique les pages que le gestionnaire du site souhaite exclure de l’indexation et sert également à déclarer celles qu’il souhaite indexer au travers d’un fichier sitemap.xml .
Le fichier robots.txt est donc utilisé pour aider au bon référencement naturel des sites web.

Ce fichier contenant les règles d’indexation est lu par les robots lorsqu’ils commencent leur exploration du site.
Le fichier robots.txt est obligatoirement déposé à la racine du site, au risque de ne pas être pris en compte.
Il est écrit en minuscules.

Le fichier robots.txt peut également bloquer l’indexation à des robots spécifiques. Si vous souhaitez bloquer l’exploration du site, privilégiez le fichier .htaccess pris en compte avant le fichier robots.txt.

Le fichier robots.txt contient deux instructions :

InstructionSignification
User-Agentpermet de nommer le robot concerné par les directives du fichier. La valeur * signifie que les règles vont s'appliquer à tous les robots des moteurs de recherche. Si vous souhaitez bloquer un robot particulier, il faut indiquer son nom ici.
Disallowpermet de préciser les pages à exclure de l'indexation. Chaque page ou modèle de page à exclure doit être écrit sur une ligne à part et commencer par "/" pour indiquer le chemin depuis la racine du site.

Exemple d’un robots.txt bloquant totalement l’indexation du site

User-agent: *
Disallow: /

Exemple d’un robots.txt bloquant l’indexation du répertoire “repertoire”

User-agent: *
Disallow: /repertoire/

Exemple d’un robots.txt bloquant l’indexation des répertoires commençant par “repertoires”

User-agent: *
Disallow: /repertoires*

Exemple d’un robots.txt bloquant l’indexation de la page “page.html”

User-agent: *
Disallow: /page.html

Les balises meta robots

Noindex

x

Nofollow

x

Noarchive

x

L’attribut rel nofollow

x

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Fill out this field
Fill out this field
Veuillez saisir une adresse de messagerie valide.
Vous devez accepter les conditions pour continuer

La modération des commentaires est activée. Votre commentaire peut prendre un certain temps avant d'apparaître.

Menu