Der Organic Digital Blog
Dies ist ein Blogbeitrag auf zwei (großen) Seiten – Live- und Staging-Sites:
Teil 1: So überprüfen Sie, ob Google Ihre Live-Site indiziert hat
Teil 2: So überprüfen Sie, ob Google Ihre Staging- / Test-Site indiziert hat
Wie kann ich feststellen, ob Google meine Live-Site indiziert hat?
Es gibt zwei einfache Möglichkeiten, dies herauszufinden:
Verwenden Sie den site: query operator
Suchen Sie bei Google wie folgt nach Ihrer Domain: site:organicdigital.co
Wenn Ihre Website indiziert ist, wird eine Liste der Seiten angezeigt:
Wenn keine Ergebnisse zurückgegeben werden, treten möglicherweise Probleme auf:
Hinweis: Auf größeren Websites sehen Sie zwar eine Annäherung daran, wie viele Seiten indiziert sind, aber nur etwa 300 davon in den SERPs.
Überprüfen Sie den Abdeckungsbereich der Google Search Console
Jede Website sollte ein GSC-Konto haben, es ist meiner Meinung nach das beste Tool, das ein Websitebesitzer oder SEO verwenden kann, und bietet eine Fülle von Informationen über die organische Sichtbarkeit und Leistung Ihrer Website. Wenn Sie keine haben, gehen Sie zur offiziellen GSC-Seite, wenn Sie dies tun, gehen Sie zum Abschnitt Abdeckung, in dem Sie eine Aufschlüsselung der:
- Fehler beim Crawlen von Seiten
- Blockierte Seiten
- Gültige indizierte Seiten
- Ausgeschlossene Seiten
Wenn Ihre Website Probleme hat, werden diese unter „Fehler“ oder „Ausgeschlossen“ gemeldet – und Sie können die Gründe herausfinden, warum sie nicht in die Suche aufgenommen werden, z:
- Alternative Seite mit korrektem Canonical-Tag
- Gecrawlt – derzeit nicht indiziert
- Duplizieren ohne vom Benutzer ausgewähltes canonical
- Ausgeschlossen durch ’noindex‘-Tag
- Crawl-Anomalie
- Nicht gefunden (404)
Wenn die Seiten Ihrer Website nicht im Abschnitt „gültig“ angezeigt werden, treten möglicherweise Probleme auf.
Verwenden Sie die URL Inspect-Funktion in GSC
Wenn einige Seiten indiziert sind und andere nicht, können Sie auch das URL Inspect-Tool verwenden, um festzustellen, ob Google eine bestimmte Seite crawlen und indizieren kann oder ob es andere Probleme gibt, die verhindern, dass sie in der Suche angezeigt wird – dies befindet sich im oberen Menü und ermöglicht es Ihnen, jeweils eine URL zu überprüfen:
Wenn Ihre Seite indiziert ist, werden die folgenden Details angezeigt:
Wenn nicht, erhalten Sie diesen Status, der anzeigt, wann Google versucht hat, die Seite zu crawlen, und einen Einblick, warum sie nicht indiziert ist:
Warum crawlt oder indiziert Google meine Seiten nicht?
Es gibt im Allgemeinen zwei Gründe, warum eine Seite weder gecrawlt noch indiziert werden kann. Diese treten besonders häufig auf, wenn eine neue Site gestartet oder migriert wurde und die Einstellungen aus der Entwicklungsumgebung übernommen wurden.
Die Roboter.txt Disallow Direktive
Hier wird die Site, ein Verzeichnis oder eine Seite daran gehindert, von den Robotern gecrawlt zu werden.txt-Datei.
Jede Site sollte einen Roboter haben.txt-Datei, Dies wird verwendet, um Suchmaschinen Anweisungen zu geben, welche Abschnitte Ihrer Website gecrawlt werden sollen und welche nicht.
Wenn Sie einen haben, finden Sie ihn in Ihrem Stammverzeichnis unter dem Namen robots.txt
https://organicdigital.co/robots.txt
Die Anweisungen, die verhindern würden, dass eine Site, ein Verzeichnis oder eine Seite gecrawlt wird, lauten wie folgt:
Disallow: /Disallow: /directory/Disallow: /specific_page.html
Sie können auch Screaming Frog verwenden, um zu versuchen, Ihre Website zu crawlen. Wenn dies nicht möglich ist, werden die folgenden Crawling-Daten angezeigt:
Es gibt viele triftige Gründe, Suchmaschinen mit dieser Richtlinie zu blockieren, aber wenn Sie etwas in der oben genannten Richtung sehen, müssen Sie diese ändern, um das Crawlen Ihrer Website zu ermöglichen.
Wie man einen Roboter ändert.txt-Datei manuell
Wenn Sie Zugriff auf FTP haben oder einen Entwickler zur Hand haben, können Sie die Robots manuell ändern.txt-Datei, um alle Direktiven zu entfernen, die das Crawlen Ihrer Site blockieren.
Im Allgemeinen wird der folgende Befehl dies tun:
User-agent: *Allow: /
Wie man einen Roboter ändert.txt-Datei in WordPress
Wenn Sie das Yoast-Plugin installiert haben, können Sie Ihre Datei direkt über den Abschnitt Extras –> Dateieditor bearbeiten.
So ändern Sie einen Text.txt-Datei in Magento
Gehen Sie zu Inhalt -> Design -> Konfiguration, klicken Sie in Ihre relevante Store-Ansicht und bearbeiten Sie „Search Engine Robots“
Das Robots-Meta-Tag wird zusätzlich zu den Robots auf Noindex und/oder Nofollow
gesetzt.txt-Datei können Sie auch das robots-Meta-Tag im Quellcode Ihrer Website überprüfen und sicherstellen, dass Suchmaschinen nicht am Crawlen gehindert werden.
Wenn Sie Ihren Quellcode überprüfen, wenn Sie kein Robots–Meta-Tag sehen oder wenn es auf „index“ oder „index, follow“ gesetzt ist, ist dies nicht das Problem. Wenn Sie jedoch sehen, dass „noindex“ angezeigt wird, bedeutet dies, dass Ihre Seite gecrawlt, aber nicht indiziert werden kann:
Auch hier können Sie mit Screaming Frog den Status Ihrer Robots-Tags auf Ihrer Site überprüfen. Wenn Ihr Tag auf noindex gesetzt ist, wird nofollow nicht über die Startseite hinausgehen:
Wenn es nur auf noindex gesetzt ist, kann die gesamte Site weiterhin gecrawlt, aber nicht indiziert werden:
Manuelles Ändern der Robots-Meta-Tag-Datei
Greifen Sie erneut direkt auf die Seite / Vorlage Ihrer Site zu und ersetzen / fügen Sie das folgende Tag hinzu:
<meta name="robots" content="index, follow">
So ändern Sie das Robots-Meta-Tag in WordPress
Es gibt zwei Möglichkeiten, dies zu tun – wenn das Problem Site-weit ist, gehen Sie zu Einstellungen -> Lesen und stellen Sie sicher, dass „Suchmaschinen davon abhalten, diese Site zu indizieren“ nicht angekreuzt ist:
Ich könnte mich irren, aber ich denke, die einzige Möglichkeit, eine bestimmte Seite oder einen Beitrag auf Index oder Noindex zu setzen, wenn Sie Yoast verwenden, gehen Sie zu page / post und überprüfen Sie die folgende Einstellung am Fuß der Seite:
So ändern Sie das Robots-Meta-Tag in Magento
Gehen Sie wie zuvor zu Inhalt -> Design -> Konfiguration, klicken Sie in Ihre relevante Shop-Ansicht und ändern Sie die Dropdown-Option „Standardroboter“:
Meine Website / Seiten können von Google gecrawlt und indiziert werden – Was kommt als nächstes?
Sobald Sie zufrieden sind, dass Ihre Roboter.sie können Ihre Seite erneut mit dem Tool URL überprüfen überprüfen und anfordern, dass Google Ihre Seite crawlt und indiziert:
Ich habe auch ein Bing Webmaster-Konto!
Tun Sie das? Ich dachte, ich wäre der einzige. Ok, Sie können in diesem Artikel in Bing Webmaster Tools so ziemlich die gleichen Dinge tun wie in GSC – überprüfen Sie also die URL und fordern Sie die Indizierung an:
Ich habe all dies getan und meine Site / Seiten sind immer noch nicht indiziert!
In diesem Fall müssen Sie sich eingehender mit der Konfiguration und Funktionalität Ihrer Website befassen, um festzustellen, welche anderen Probleme auftreten können. Ich kann Ihnen helfen, wenn Sie das Kontaktformular unten ausfüllen.
Teil 2:
Gewusst wie: Überprüfen Sie, ob Ihre Staging-Site von Google indiziert ist
Nur drei Dinge sind im Leben sicher: Tod, Steuern und Ihre Testseite wird von Google indiziert.
Sehr selten stoßen Sie auf einen neuen Site-Start, ohne irgendwann zu bemerken, dass der Staging-Server für Bots zum Crawlen und Indizieren offen gelassen wurde.
Es ist nicht unbedingt das Ende der Welt, wenn eine Suchmaschine eine Testseite indizieren sollte, da dies ziemlich einfach zu lösen ist – aber wenn Sie eine Testumgebung langfristig ausführen, um neue Funktionen neben einer Livesite zu entwickeln, müssen Sie sicherstellen, dass sie so früh wie möglich korrekt geschützt ist, um Probleme mit doppelten Inhalten zu vermeiden und sicherzustellen, dass echte Menschen sie nicht besuchen und interagieren (dh versuchen, etwas zu kaufen).
Ich bin früher ein Entwickler und habe diese Fehler wahrscheinlich selbst mehr als einmal gemacht, aber damals hatte ich kein SEO, das mir die ganze Zeit im Arsch war und auf diese Dinge hinwies (damals, alte Schule, komm-Webdesigner, die die Einschränkung von Tabellen und Inline-CSS nicht verstanden haben, wo der Schmerz in meinem Arsch war).
Die folgenden Techniken sind allesamt bewährte Methoden, mit denen ich diese Probleme in freier Wildbahn identifiziert habe, obwohl ich zum Schutz der Identität meiner Kunden und ihrer Entwickler die selbstlose Entscheidung getroffen habe, ein paar Testseiten mit meinen eigenen Website-Inhalten einzurichten, um zu veranschaulichen, was Sie tun müssen:
test.organicdigital.co
alitis.co.uk
Obwohl ich zu dem Zeitpunkt, zu dem Sie dies lesen, meinem eigenen Rat gefolgt bin und diese heruntergenommen habe, brauche ich alle Sichtbarkeit, die ich bekommen kann, das letzte, was ich brauche, sind indizierte Testseiten, die mich zurückhalten.
1) Google Search Console (GSC) Domain Property
Eines der großartigen Dinge an der neuen GSC ist, dass Sie Domain–Eigenschaften einrichten können, die Ihnen wichtige Einblicke in alle mit Ihrer Website verknüpften Subdomains geben – sowohl auf HTTP als auch auf HTTPS. Um dies einzurichten, wählen Sie einfach die Domain-Option, wenn Sie eine Eigenschaft hinzufügen (Sie müssen auch die möglicherweise nicht so einfache Aufgabe ausführen, einen TXT-Eintrag zum DNS Ihrer Domain hinzuzufügen):
Es gibt eine ganze Reihe von Gründen, warum eine Domain-Eigenschaft nützlich ist, in diesem Fall ist es, weil, wenn Sie Ihre Test-Site auf einer Sub-Domain eingerichtet haben und es erzeugt Eindruck und Klicks in der Suche, können Sie dies aus dem Bereich „Performance“ erkennen, indem Sie Ihre Seiten filtern oder:
Darüber hinaus sollten Sie auch den Abschnitt „Abdeckung“ überprüfen – in einigen Fällen indiziert Google Ihre Inhalte:
Während In anderen fällen, sie werden spot, dass sie haveduplicate inhalt in ort, und kindly refrain von indizierung, in diesem fall youwould finden es innerhalb der abschnitt „Duplizieren, Google wählte verschiedene canonicalthan benutzer“:
Auch wenn dies der Fall ist, sollten Sie sich dennoch bemühen, sicherzustellen, dass es nicht vorwärts gecrawlt wird.
2) Überprüfen Sie Google SERPs mit Link Clump
Wenn Sie keinen Zugriff auf GSC-Domäneneigenschaften oder einen Zugriff auf GSC haben (wenn nicht, warum nicht?) dann können Sie die SERPs überprüfen, um zu sehen, ob irgendwelche Test-URLs ihren Weg in den Index gefunden haben.
Dies ist auch eine praktische Technik, wenn Pitching für neue Unternehmen,welchen besseren Weg, um einen potenziellen Kunden zu gewinnen, als ihr internes oder externes Entwicklungsteam so aussehen zu lassen, als würden sie mit der Sichtbarkeit der Suche würfeln, indem Sie dies überhaupt erst zulassen, und dass Sie hier sind, um den Tag zu retten.
Die Schritte sind wie folgt:
i) Installieren Sie die Google Chrome-Erweiterung LinkClump, mit der Sie mehrere URLs von einer Seite an einen nützlicheren Ort wie Excel kopieren und einfügen können.
ii) Ändern Sie Ihre Link-Clump-Einstellungen wie folgt:
Das wichtigste ist die Aktion „In die Zwischenablage kopiert“ – das Letzte, was Sie hier tun möchten, ist, bis zu hundert URLs gleichzeitig zu öffnen.
iii) Gehen Sie zu Ihrer bevorzugten (oder lokalen) Google-TLD, klicken Sie auf „Einstellungen“, die Sie unten rechts auf der Seite sehen sollten, und wählen Sie „Sucheinstellungen“, wo Sie Ihre „Ergebnisse pro Seite“ auf 100 einstellen können.
iv) Kehren Sie zur Google-Startseite zurück, verwenden Sie den Abfrageoperator „site:“ und hängen Sie Ihre Domain an. Wenn Sie www oder ähnliches verwenden, entfernen Sie dies – der Befehl lautet also wie folgt:
site:organicdigital.co
Sie erhalten eine Stichprobe von bis zu 300 URLs, die derzeit von Google für alle Subdomains indiziert werden. Während Sie jedes Ergebnis manuell überprüfen können, um bösartige Websites zu erkennen:
Ich finde es viel schneller und einfacher, mit der rechten Maustaste zu klicken und bis zum Ende der Seite zu ziehen. Youwill wissen, ob Link-Klumpen funktioniert, wie Sie die folgenden auftreten todenote Links werden ausgewählt und kopiert sehen:
Wiederholen Sie dies in den SERPs 2 und 3, falls verfügbar, und sobald alle URLs in Excel eingefügt wurden, verwenden Sie Sortieren nach AZ, um Ihren indexierten Inhalt in allen relevanten Subdomains einfach zu identifizieren.
3) Suchen Sie nach Text, der für Ihre Website eindeutig ist
Die oben genannten Methoden funktionieren, wenn Ihre Testwebsite auf asubdomain in derselben Domain wie Ihre Live-Website gehostet wird. Wenn sich Ihr Teststandort jedoch an einem anderen Ort befindet, z. test.webdevcompany.com , dann werden sie nicht funktionieren. In diesem Fall diese oder die folgenden Methodenmacht.
Finden Sie einige Inhalte, von denen Sie glauben, dass sie für Ihre Website einzigartig sind – in meinem Fall habe ich die Zeile „Verbessern Sie die organische Sichtbarkeit und den Traffic Ihrer Website“ verwendet – und suchen Sie dann in Anführungszeichen danach. Wenn eine Testseite, die diesen Inhalt enthält, indiziert wurde, sollte diese Suche dies anzeigen:
Wie Sie sehen können, werden die Homepages auf der Hauptseite, der Test-Subdomain und der separaten Testdomain angezeigt. Sie können auch versehentlich einen Konkurrenten erkennen, der Ihre Inhalte abgezockt hat. Einige würden das als Kompliment nehmen, andere würden DMCAs ausgeben – es liegt an Ihnen, aber das Letzte, was Sie wollen, ist, dass jemand Sie mit Ihrer eigenen Kopie übertrifft.
4) Crawlen Sie die Site mit Screaming Frog
Ich nehme an, Sie interessieren sich für SEO und verwenden daher Screaming Frog. Wenn eine dieser Antworten nein ist, dann gut gemacht, dass Sie es so weit in diesen Artikel geschafft haben (lassen Sie mich vermuten, dass Sie ein Entwickler sind, der einen Bollock fallen gelassen hat und Ihren Arsch bedecken möchte, bevor es jemand anderes herausfindet?).
Wenn Sie es nicht haben, laden Sie es hier herunter.
Kreuzen Sie in den Grundeinstellungen „Alle Subdomains crawlen“ an. Sie können auch „Follow Internal ’nofollow'“ ankreuzen, da dies in einigen Testumgebungen möglicherweise vorhanden ist.
Wenn die Durchforstung abgeschlossen ist, überprüfen Sie die Liste, um festzustellen, ob interne Links zu Testwebsites vorhanden sind. Ich bin kürzlich darauf gestoßen, wo eine neue Drupal-Site live gegangen war, aber mit allen internen Links in den Blog-Posts, die auf eine Beta-Subdomain verweisen:
Sie können dann auf jede Test-URL klicken und unten auf InLinks klicken, um den fehlerhaften internen Link von der Live-to-Test-Site zu finden. In diesem Fall habe ich den Kontaktlink in der Sitemap so geändert, dass er auf die Test-URL verweist:
Sobald Sie entdeckt wurden, ändern Sie sie und crawlen Sie sie erneut, bis diese keine externen Links mehr sind, die Besucher an andere Orte bringen. Wenn Sie WordPress verwenden, verwenden Sie ein Such- / Ersetzungs-Plugin, um alle testURLs zu finden und durch die Live- zu ersetzen.
5) Überprüfen Sie die Google Analytics-Hostnamen
Wenn auf Ihrer Testwebsite derselbe Tracking-Code für das Google Analytics-Konto installiert ist wie auf Ihrer Live-Site, können Sie dies mit Leichtigkeit erkennen, wenn Sie zu einem Abschnitt wie „Verhalten“ -> „Websiteinhalt“ -> „AllPages“ gehen und „Hostname“ als sekundäre Dimension auswählen:
Darüber hinaus können Sie die Daten auch weiter filtern, indem Sie alle Besuche der Hauptdomäne aus dem Bericht ausschließen, wodurch alle anderen Instanzen in der Liste verbleiben. Zusätzlich zu Testseiten, Sie können auch GA-Spam aufdecken, der auf einer 3rdparty-Site ausgelöst wird:
Es gibt Vor- und Nachteile, wenn Sie dasselbe GA-Tracking-IDrunning sowohl in Ihrer Live- als auch in Ihrer Testumgebung verwenden, aber ich persönlich sehe keine Möglichkeit, separate Konten zu haben, und stattdessen mehrere Ansichten innerhalb eines Kontos zu erstellen. Richten Sie für die Live-Site einen Filter ein, der nur den Datenverkehr zum Live-Hostnamen einschließt, und umgekehrt für die Test-Site.
So entfernen und verhindern Sie, dass Ihre Testwebsite indiziert wird
Sie haben Ihre Testwebsite also mithilfe einer der oben genannten Techniken im Index entdeckt, oder Sie möchten sicherstellen, dass dies nicht an erster Stelle geschieht. Folgendes hilft dabei:
1) Entfernen Sie URLs über GSC
Wenn Ihre Site indiziert ist, unabhängig davon, ob sie Traffic generiert oder nicht, entfernen Sie sie am besten. Dazu können Sie den Abschnitt „URLs entfernen“ aus dem „alten“ GSC verwenden.
Hinweis: Dies funktioniert nicht auf Domäneneigenschaftsebene, da diese in alten GSC nicht berücksichtigt wurden. Dazu müssen Sie eine Eigenschaft für die einzelne Testdomain einrichten.
Nach der Einrichtung „Gehen Sie zur alten Version“ und gehen Sie zu „Google Index“ – > „URLs entfernen“. Wählen Sie hier „TemporarilyHide“ und geben Sie als Schrägstrich die URL ein, die Sie blockieren möchten, wodurch Ihre gesamte Site zum Entfernen eingereicht wird:
Dadurch wird Ihre Website für 90 Tage aus den SERPs entfernt. Einer der folgenden Schritte reicht aus (und sollteunabhängig davon durchgeführt werden, ob Sie über GSC entfernen können)
2) Setzen Sie das Robots-Tag auf der Testsite auf noindex
Bitten Sie Ihre Entwickler, sicherzustellen, dass beim Ausführen in der Testdomäne jede Seite auf der Site ein Robots-Noindex-Tag generiert:
<meta name="robots" content="noindex" />
Wenn Ihre Website WordPress ist, können Sie dies über „Einstellungen“ -> „Lesen“ einstellen und „Suchmaschinen davon abhalten, diese Website zu indizieren“ auswählen:
Unabhängig davon, welchen Code oder welche Einstellungen Sie verwenden, um zu verhindern, dass die Testwebsite indiziert wird, müssen Sie sicherstellen, dass diese nicht auf die Live-Site migriert wird, wenn newcontent oder Funktionalität live geschaltet werden. Test-Site-Einstellungen, die live gehen, sind eine der häufigsten und sichersten Möglichkeiten, die Sichtbarkeit Ihrer Live-Site zu beeinträchtigen.
3) Passwortschutz für Ihre Test-Site
Geben Sie in Ihrem Web Control Panel oder über den Server passwordprotect in das Verzeichnis ein, in dem sich Ihre Test-Site befindet. Es gibt zahlreiche Möglichkeiten, dies zu tun – am besten bitten Sie Ihr Hosting-Unternehmen oder Ihre Entwickler, dies zu konfigurieren, oder, Es gibt viele gute Ressourcen, die Ihnen zeigen, wie dies geht, sowie:
https://one-docs.com/tools/basic-auth
Einmal blockiert, sollten Sie ein Warnfeld sehen, wenn Sie versuchen, auf Ihre Testseite zuzugreifen:
https://alitis.co.uk/
Dadurch wird verhindert, dass Suchmaschinen die Site crawlen und indizieren.
4) Website löschen und Seitenstatus zurückgeben 410
Wenn Sie Ihre Testsite nicht mehr benötigen, können Sie sie einfach löschen. Wenn Suchmaschinen versuchen,Seiten länger live zu besuchen, werden sie sehen, dass die Seiten gelöscht werden. Standardmäßig gibt eine kaputte Seite den Status 404 („Nicht gefunden“) zurück – dadurch wird die Site zwar rechtzeitig de-indiziert, es dauert jedoch eine Weile, bis Folgebesuche durchgeführt werden, um festzustellen, ob die kaputte Seite zurückgekehrt ist.
Setzen Sie stattdessen den Status auf 410 („Permanent weg“), wodurch die folgende Meldung zurückgegeben wird:
Um dies in einer gesamten Domäne zu tun, löschen Sie die Site undlassen Sie die .htaccess-Datei an Ort und Stelle mit dem folgenden Befehl:
Redirect 410 /
Dadurch wird sichergestellt, dass die Site beim ersten Mal der Anfrage de-indiziert wird (oder zumindest schneller als a 404)
5) Block über Roboter.txt
Sie können das Crawlen der Site blockieren, indem Sie die folgenden Befehle in den Robotern der Testsite implementieren.txt-Datei:
User-agent: *Disallow: /
Dadurch wird verhindert, dass Bots die Site crawlen. Beachten: wenn Ihre Testwebsite derzeit indiziert ist und Sie der Site noindex-Tags hinzugefügt haben, fügen Sie keine Testroboter hinzu.txt-Befehl in, bis alle Seiten de-indiziert wurden. Wenn Sie dies hinzufügen, bevor alle Seiten desindiziert wurden, werden sie nicht gecrawlt und das robots-Tag wird erkannt, sodass die Seiten indiziert bleiben.
Und das war’s – ich hoffe, das oben Genannte reicht aus, um Ihren Test zu finden, zu deindexieren und zu verhindern, dass er jemals wieder gecrawlt wird.
Aber denken Sie daran
Ich kann das nicht genug betonen – wenn Sie sich für die Implementierung entscheidenroboter Meta-Tags oder Roboter.stellen Sie sicher, dass Sie diese Konfigurationen nicht auf die Live-Site übertragen, wenn Sie Ihre Test-Site live schalten, da Sie sonst die Sichtbarkeit Ihrer Website insgesamt verlieren.
Und wir waren alle dort, oder?