Le Blog Numérique Organique
Ceci est un article de blog en deux (grandes) pages – sites en direct et de mise en scène:
Partie 1: Comment Vérifier si Google a Indexé Votre Site En Direct
Partie 2: Comment Vérifier Si Google a indexé Votre Site de Mise en Scène / Test
Comment Je dis si Google a indexé mon site en direct?
Il existe deux façons simples de le savoir:
Utilisez l’opérateur de requête site:
Recherchez votre domaine sur Google comme suit: site: organicdigital.co
Si votre site est indexé, vous verrez une liste de pages:
Si aucun résultat n’est renvoyé, vous pouvez rencontrer des problèmes:
Remarque: sur les sites plus grands, alors que vous verrez une approximation du nombre de pages indexées, vous ne pourrez en voir qu’environ 300 dans les SERPs.
Consultez la section Couverture de Google Search Console
Chaque site Web devrait avoir un compte GSC, c’est, à mon avis, le meilleur outil qu’un propriétaire de site ou un SEO puisse utiliser et donne une mine d’informations sur la visibilité et les performances organiques de votre site. Si vous n’en avez pas, rendez-vous sur la page officielle de la CGC, si vous le faites, accédez à la section Couverture où vous pouvez voir une ventilation de:
- Erreurs rencontrées lors de l’exploration des pages
- Pages bloquées
- Pages indexées valides
- Pages exclues
Si votre site a des problèmes, ceux-ci seront signalés sous « erreur » ou « exclus– – et vous pouvez trouver les raisons pour lesquelles ils ne sont pas inclus dans la recherche, tels que:
- Page alternative avec la balise canonique appropriée
- Crawlé – actuellement non indexé
- Dupliquer sans canonique sélectionné par l’utilisateur
- Exclu par la balise ‘noindex’
- Anomalie d’exploration
- Introuvable (404)
Si les pages de votre site n’apparaissent pas dans la section « valide », vous pourriez avoir des problèmes.
Utilisez la fonction d’inspection d’URL Dans GSC
Si certaines pages sont indexées et d’autres non, vous pouvez également utiliser l’outil d’inspection d’URL pour voir si Google est capable d’analyser et d’indexer une page spécifique, ou s’il existe d’autres problèmes l’empêchant d’apparaître dans la recherche – cela se trouve dans le menu supérieur et vous permettra de vérifier une URL à la fois:
Si votre page est indexée, elle donnera les détails suivants:
Sinon, vous obtenez ce statut qui indique quand Google a tenté d’explorer la page et pourquoi elle n’est pas indexée:
Pourquoi Google n’Explore-t-il pas ou n’indexera-t-il pas Mes Pages ?
Il y a généralement deux raisons pour lesquelles une page ne peut être ni explorée ni indexée. Ceux-ci sont particulièrement fréquents lorsqu’un nouveau site a été lancé ou migré et que les paramètres de l’environnement de développement ont été reportés.
Les robots.directive txt Disallow
C’est là que le site, un répertoire ou une page sont bloqués par les robots.fichier txt.
Chaque site devrait avoir un robot.fichier txt, il est utilisé pour donner des directives aux moteurs de recherche sur les sections de votre site qui doivent et ne doivent pas être explorées.
Si vous en avez un, vous le trouverez dans votre répertoire racine sous le nom robots.txt
https://organicdigital.co/robots.txt
Les directives qui empêcheraient l’exploration d’un site, d’un répertoire ou d’une page seraient les suivantes:
Disallow: /Disallow: /directory/Disallow: /specific_page.html
Vous pouvez également utiliser Screaming Frog pour tenter d’explorer votre site. S’il n’est pas en mesure de le faire, vous voyez les données d’analyse suivantes:
Il existe de nombreuses raisons valables de bloquer les moteurs de recherche utilisant cette directive, mais si vous voyez quelque chose dans le sens de ce qui précède, vous devez les modifier pour permettre l’exploration de votre site.
Comment Modifier un Robot.fichier txt Manuellement
Si vous avez accès au FTP ou si vous avez un développeur sous la main, vous pouvez modifier manuellement les robots.fichier txt pour supprimer toutes les directives qui bloquent l’exploration de votre site.
Généralement, la commande suivante le fera:
User-agent: *Allow: /
Comment Modifier un Robot.fichier txt dans WordPress
Si vous avez installé le plugin Yoast, vous pouvez modifier votre fichier directement via la section Outils – > Éditeur de fichiers – suivez ce lien pour savoir comment procéder.
Comment Modifier un Robot.fichier txt dans Magento
Aller au contenu – > Conception – > Configuration, cliquez sur la vue de votre magasin et modifiez « Robots de moteur de recherche »
La balise Meta Robots est définie sur Noindex et/ou Nofollow
En plus des robots.fichier txt, vous pouvez également vérifier la balise meta robots dans le code source de votre site et vous assurer qu’elle n’empêche pas les moteurs de recherche d’explorer.
Si vous vérifiez votre code source, si vous ne voyez pas de balise meta robots, ou si elle est définie sur « index » ou « index, follow » – alors ce n’est pas le problème. Cependant, si vous voyez qu’il est écrit « noindex », cela signifie que votre page peut être explorée mais ne sera pas indexée:
Encore une fois, vous pouvez utiliser Screaming Frog pour vérifier l’état de vos balises robots sur votre site. Si votre balise est définie sur noindex, nofollow ne dépassera pas la page d’accueil:
S’il est juste défini sur noindex, tout le site peut toujours être analysé mais pas indexé:
Comment modifier manuellement le fichier de balise Meta Robots
Encore une fois, accédez directement à la page / au modèle de votre site et remplacez/ajoutez la balise suivante:
<meta name="robots" content="index, follow">
Comment modifier la balise Meta Robots dans WordPress
Il existe deux façons de le faire – si le problème concerne l’ensemble du site, accédez à la lecture Paramètres – > et assurez-vous que le « Décourager les moteurs de recherche d’indexer ce site » n’est pas coché:
Je me trompe peut-être, mais je pense que la seule façon dont une page ou un article spécifique peut être défini sur index ou noindex si vous utilisez Yoast, alors allez dans page / post et vérifiez le paramètre suivant au pied de la page:
Comment modifier la balise Meta Robots dans Magento
Comme précédemment, allez dans Content -> Design – > Configuration, cliquez sur la vue de votre Magasin et modifiez l’option déroulante « Robots par défaut »:
Mon Site /Mes Pages Peuvent Être Explorés et Indexés par Google – Et ensuite?
Une fois que vous êtes satisfait que vos robots.le fichier txt et la balise meta robots sont corrects, vous pouvez à nouveau utiliser l’outil Inspecter l’URL pour vérifier votre page et demander que Google analyse et indexe votre page:
J’ai également un Compte Webmaster Bing !
Le faites-vous? Je pensais que j’étais la seule. D’accord, vous pouvez faire à peu près toutes les mêmes choses écrites dans cet article dans Bing Webmaster Tools que dans GSC – inspectez donc l’URL et demandez l’indexation:
J’Ai Fait Tout Cela et Mon Site /Mes Pages Ne Sont Toujours pas Indexés!
Dans ce cas, vous avez besoin d’approfondir la configuration et les fonctionnalités de votre site Web pour identifier les autres problèmes qui pourraient survenir. Je peux vous aider si vous remplissez le formulaire de contact ci-dessous.
Partie 2:
Comment: Vérifiez Si Votre Site de Test Est Indexé Par Google
Seules trois choses sont certaines dans la vie: la mort, les impôts et votre site de test est indexé par Google.
Très rarement, vous rencontrez un nouveau lancement de site sans à un moment donné réaliser que le serveur intermédiaire a été laissé ouvert aux robots pour qu’ils viennent explorer et indexer.
Ce n’est pas nécessairement la fin du monde si un moteur de recherche devait indexer un site de test car il est assez facile à résoudre – mais si vous utilisez un environnement de test à long terme pour développer de nouvelles fonctionnalités aux côtés d’un livesite, vous devez vous assurer qu’il est correctement protégé le plus tôt possible pour éviter les problèmes de contenu en double, et pour vous assurer que les humains réels ne visitent pas et n’interagissent pas (c’est-à-dire essayer d’acheter quelque chose).
Je suis un ancien développeur, et j’ai probablement fait ces erreurs moi-même plus d’une fois, mais à l’époque, je n’avais pas un SEO qui me faisait mal au cul tout le temps (à l’époque, les concepteurs de brochures à l’ancienne qui ne comprenaient pas la limitation des tables et des CSS en ligne où la douleur dans le cul).
Les techniques suivantes sont toutes des méthodes éprouvées que j’ai utilisées pour identifier ces problèmes dans la nature, bien que pour protéger l’identité de mes clients et de leurs développeurs, j’ai pris la décision désintéressée de mettre en place quelques sites de test utilisant le contenu de mon propre site Web afin d’illustrer ce que vous devez faire, à savoir:
test.organicdigital.co
alitis.co.uk
Bien qu’au moment où vous aurez lu ceci, j’aurai suivi mes propres conseils et les ai retirés, j’ai besoin de toute la visibilité que je peux obtenir, la dernière chose dont j’ai besoin, ce sont des sites de test indexés qui me retiennent.
1) Propriété de domaine Google Search Console (GSC)
L’un des avantages du nouveau GSC est que vous pouvez configurer des propriétés de domaine qui vous donnent des informations clés sur tous les sous–domaines associés à votre site Web – à la fois HTTP et HTTPS. Pour configurer cela, sélectionnez simplement l’option domaine lors de l’ajout d’une propriété (vous devez également effectuer la tâche potentiellement pas si simple d’ajouter un enregistrement TXT au DNS de votre domaine):
Il y a toute une série de raisons pour lesquelles une propriété de domaine est utile, dans ce cas, c’est parce que si votre site de test est configuré sur un sous-domaine et qu’il génère des impressions et des clics dans la recherche, vous pouvez le repérer dans la section « Performances » en filtrant ou en ordonnant vos pages:
De plus, vous devez également vérifier la section « couverture » – dans certains cas, Google indexera votre contenu:
Alors que Dans d’autres cas, ils repéreront que vous avez dupliqué du contenu en place et s’abstiendront gentiment de l’indexation, auquel cas vous le trouverez dans la section « Dupliquer, Google a choisi un utilisateur canonique différent »:
Même si c’est le cas, vous devez toujours vous efforcer de vous assurer qu’il n’est pas rampé en avant.
2) Vérifiez les SERPs Google à l’aide de Link Clump
Si vous n’avez pas accès aux propriétés du domaine GSC, ou à tout accès à GSC (sinon, pourquoi pas?) ensuite, vous pouvez vérifier les SERPs pour voir si des URL de test ont fait leur chemin dans l’index.
C’est aussi une technique pratique pour lancer de nouvelles affaires, quelle meilleure façon de gagner un client potentiel que de donner à son équipe de développement interne ou externe l’impression qu’elle est en train de perdre de la visibilité sur la recherche en permettant que cela se produise en premier lieu, et que vous êtes ici pour sauver la journée.
Les étapes sont les suivantes:
i) installez l’extension LinkClump Google Chrome, qui vous permet de copier et coller plusieurs urld’une page vers un endroit plus utile comme Excel.
ii) Modifiez vos paramètres de regroupement de liens comme suit:
Le plus important à noter est l’action « copié dans le presse–papiers » – la dernière chose que vous voulez faire ici est d’ouvrir jusqu’à une centaine d’URL àune fois.
iii) Accédez à votre TLD Google préféré (ou local), cliquez sur « paramètres » que vous devriez voir en bas à droite de la page, et sélectionnez « paramètres de recherche » où vous pouvez définir vos « résultats par page » sur 100.
iv) Revenez à la page d’accueil de Google et utilisez l’opérateur de requête « site: » et ajoutez votre domaine. Si vous utilisez www ou similaire, supprimez-le – la commande serait donc la suivante:
site:organicdigital.co
Un échantillon de jusqu’à 300 URL actuellement indexées par Google dans tous les sous-domaines vous sera présenté. Alors que vous pouvez examiner manuellement chaque résultat pour repérer les sites frauduleux:
Je trouve beaucoup plus rapide et plus facile de faire un clic droit et de faire glisser tout le chemin vers le bas de la page. Vous saurez si l’agrégation de liens fonctionne, car vous verrez ce qui suit se produire pour que les liens de notes soient sélectionnés et copiés:
Répétez cette opération sur les SERPs 2 et 3 si disponibles, et une fois les allURLs collés dans Excel, utilisez tri par A-Z pour identifier facilement votre contenu indexé dans tous les sous-domaines pertinents.
3) Recherchez Du Texte Unique À Votre Site
Les méthodes ci-dessus fonctionnent si votre site de test est hébergé sur asubdomain sur le même domaine que votre site Web en direct. Cependant, si votre site de test est situé ailleurs, par ex. test.webdevcompany.com, alors ils ne fonctionneront pas. Auquel cas, ceci ou les méthodes suivantesmight.
Trouvez un contenu que vous croyez unique à votre site Web – dans mon cas, je suis allé avec la ligne strapline de: « Améliorez la Visibilité Organique et le Trafic de Votre Site Web » – puis recherchez-le entre guillemets. Si un site de test contenant ce contenu a été indexé, cette recherche devrait le révéler:
Comme vous pouvez le voir, les pages d’accueil du site principal, du sous-domaine de test et du domaine de test séparé apparaissent toutes. Vous pouvez également repérer par inadvertance un concurrent qui a arraché votre contenu. Certains prendraient cela comme un compliment, d’autres émettraient des DMCA – c’est à vous de décider, mais la dernière chose que vous voulez, c’est que quelqu’un vous surpasse avec votre propre copie.
4) Explorez le Site en Utilisant Screaming Frog
Je suppose que vous êtes dans le référencement et que vous utilisez donc Screaming Frog. Si l’une de ces réponses est non, alors bravo de vous être rendu aussi loin dans cet article (laissez-moi deviner que vous êtes un développeur qui a laissé tomber une borne et qui cherche à vous couvrir le cul avant que quelqu’un d’autre ne le découvre?).
Si vous ne l’avez pas, téléchargez-le ici.
Dans les Paramètres de base, cochez « Explorer tous les sous-domaines ». Vous pouvez également cocher « Suivre « nofollow » interne » car certains environnements de test peuvent l’avoir en place.
Une fois l’analyse terminée, parcourez la liste pour voir s’il existe des liens internes vers les sites de test. Je suis tombé sur ceci récemment où un nouveau site Drupal avait été mis en ligne mais avec tous les liens internes dans les articles de blog pointant vers un sous-domaine bêta:
Vous pouvez ensuite cliquer sur chaque URL de test et cliquer sur InLinks en bas pour trouver le lien interne incriminé du site live to test. Dans ce cas, j’ai modifié le lien Contactez-nous sur le plan du site pour pointer vers l’URL du test:
Une fois repérés, modifiez et repassez jusqu’à ce qu’ils ne soient plus des liens externes emmenant les visiteurs ailleurs. Si vous utilisez WordPress, utilisez un plugin de recherche / remplacement pour trouver tous les tests et les remplacer par celui en direct.
5) Vérifiez les noms d’hôte Google Analytics
Si votre site de test a le même code de suivi de compte Google Analytics installé que votre site en direct, vous pourrez le repérer si vous accédez à une section telle que « Comportement » – > « Contenu du site » – > « Toutes les pages » et sélectionnez « Nom d’hôte » comme dimension secondaire:
En outre, vous pouvez également filtrer davantage les données en excluant du rapport toutes les visites du domaine principal, ce qui laissera toutes les autres instances dans la liste. En plus des sites de test, vous pouvez également découvrir que le spam GA est déclenché sur un site 3rdparty:
Il y a des avantages et des inconvénients à avoir le même ID de suivi GA sur vos environnements live et de test, mais personnellement, je vois que noreason a des comptes séparés et créerait plutôt plusieurs vues dans votre compte. Pour le site en direct, configurez un filtre pour n’inclure que le trafic vers le nom d’hôte en direct, et vice-versa pour le site de test.
Comment Supprimer et empêcher votre Site de Test d’être indexé
Vous avez donc découvert votre site de test dans l’index en utilisant l’une des techniques ci-dessus, ou vous voulez vous assurer que cela ne se produit pas au premier endroit. Ce qui suit vous aidera:
1) Supprimez les URL via GSC
Si votre site est indexé, qu’il génère du trafic oupas, il est préférable de le supprimer. Pour ce faire, vous pouvez utiliser la section « Supprimer les URL » de l' »ancien » CGV.
Notez que cela ne fonctionnera pas au niveau de la propriété du domaine car thesearen’t pris en charge dans l’ancienne CGC. Pour ce faire, vous devez configurer une propriété pour le domaine de test individuel.
Une fois configuré, « Accédez à l’ancienne Version » et allez dans « Index Google » – > « Supprimer les URL ». À partir de là, sélectionnez « TemporarilyHide » et entrez comme barre oblique unique l’URL que vous souhaitez bloquer qui soumettra l’ensemble de votre site à la suppression:
Cela supprimera votre site des SERPs pendant 90 jours, afin de vous assurer qu’il ne revient pas, vous devez prendre d’autres mesures. L’une des opérations suivantes suffira (et devrait être effectuée, que vous puissiez ou non supprimer via GSC)
2) Définissez la balise robots sur noindex sur le site de test
Demandez à vos développeurs de s’assurer que lors de l’exécution sur le domaine de test, chaque page du site génère une balise robots noindex:
<meta name="robots" content="noindex" />
Si votre site est WordPress, vous pouvez le définir via « Paramètres » – > « Lecture » et sélectionner « Décourager les moteurs de recherche d’indexer ce site »:
Quel que soit le code ou les paramètres que vous utilisez pour empêcher le site de test d’être indexé, vous devez vous assurer qu’il n’est pas migré vers le site en direct lorsque newcontent ou fonctionnalité est mis en ligne. Les paramètres de site de test en direct sont l’un des moyens les plus courants et les plus sûrs de gâcher la visibilité de votre site en direct.
3) Mot de passe Protégez votre Site de test
Depuis votre panneau de configuration Web ou via le serveur, mot de passe Protégez le répertoire dans lequel réside votre site de test. Il existe de nombreuses façons de le faire – le meilleur est de demander à votre société d’hébergement ou aux développeurs de le configurer, ou, il existe de nombreuses bonnes ressources qui vous montreront comment le faire, telles que:
https://one-docs.com/tools/basic-auth
Une fois bloqué, vous devriez voir une boîte d’alerte lorsque vous essayez d’accéder à votre site de test:
https://alitis.co.uk/
Cela empêchera les moteurs de recherche d’explorer et d’indexer le site.
4) Supprimer le site et retourner l’état de la page 410
Si vous n’avez plus besoin de votre site de test, vous pouvez simplement le supprimer. Lorsque les moteurs de recherche essaient de visiter des pages plus longtemps en direct, ils verront que les pages sont supprimées. Par défaut, une page cassée retournera le status404 (« Introuvable ») – bien que cela désindexera le site à temps, cela prendra un certain temps car il y aura des visites de suivi pour voir si la page cassée est revenue.
Au lieu de cela, définissez le statut sur 410 (« Définitivement disparu ») qui renverra le message suivant:
Pour ce faire sur l’ensemble d’un domaine, supprimez le site etlaissez le.fichier htaccess en place avec la commande suivante:
Redirect 410 /
Cela garantira que le site sera désindexé à la première demande (ou du moins plus rapidement qu’un 404)
5) Bloquer via des robots.txt
Vous pouvez empêcher l’exploration du site en implémentant les commandes suivantes dans les robots du site de test.fichier txt:
User-agent: *Disallow: /
Cela empêchera les robots d’explorer le site. Note: si votre site de test est actuellement indexé et que vous avez ajouté des balises noindex au site, n’ajoutez pas les robots.commande txt jusqu’à ce que toutes les pages aient été désindexées. Si vous ajoutez ceci avant que toutes les pages ne soient désindexées, cela les empêchera d’être explorées et la balise robots détectée, de sorte que les pages resteront indexées.
Et c’est tout – j’espère que ce qui précède vous suffira pour trouver, désindexer et empêcher votre test d’être à nouveau exploré.
Mais Rappelez-vous
Je ne peux pas le souligner assez – si vous décidez d’implémenter des balises méta robots ou des robots.txt qui interdit à tous les robots d’explorer et d’indexer votre site de test, assurez-vous lorsque vous mettez votre site de test en direct que vous ne reportez pas ces configurations sur le site en direct, car vous risquez de perdre complètement votre visibilité organique.
Et nous y sommes tous allés, n’est-ce pas?