How To: Find Out of Your Sites URL 's are Be Crawled & Indexed by Google | Organic Digital UK

januari 27, 2022

The Organic Digital Blog

Dit is een blogpost in twee (grote) pagina’ s-live en staging sites:

deel 1: Hoe te controleren of Google Uw Live Site heeft geïndexeerd

deel 2: Hoe te controleren of Google Uw Staging/Test Site heeft geïndexeerd

Hoe kan ik zien of Google mijn live site heeft geïndexeerd?

er zijn twee eenvoudige manieren om erachter te komen:

gebruik de site: query operator

Zoek uw domein op Google als volgt: site: organicdigital.co
Als uw site is geïndexeerd, ziet u een lijst van pagina ‘s:

Als er geen resultaten worden geretourneerd, dan kunt u wellicht problemen:

Opmerking: op grotere sites, terwijl ziet u een benadering van hoeveel pagina’ s zijn geïndexeerd, je zal alleen in staat zijn om daadwerkelijk te zien ongeveer 300 van hen in de SERPs.

controleer de dekking sectie van Google Search Console

elke website moet GSC-account hebben, het is, naar mijn mening, de beste tool die een site-eigenaar of SEO kan gebruiken en geeft een schat aan informatie over de organische zichtbaarheid en prestaties van uw site. Als u er geen hebt, ga dan naar de officiële GSC-pagina, als u dat wel hebt, ga dan naar de sectie dekking waar u een overzicht van:

fouten bij het crawlen van pagina ‘s
geblokkeerde pagina’ s
geldige geïndexeerde pagina ‘s
uitgesloten pagina’ s

als uw site problemen heeft, zullen deze worden gerapporteerd onder “error” of “excluded” – en u kunt de redenen vinden waarom ze niet worden opgenomen in de zoekopdracht, zoals:

alternatieve pagina met eigen canonieke tag
Crawled-momenteel niet geïndexeerd
dupliceren zonder door de gebruiker geselecteerde canonieke
uitgesloten door’ noindex ’tag
Crawl anomaly
niet gevonden (404)

als de pagina’ s van uw site niet worden weergegeven in de sectie “geldig” dan kunt u problemen hebben.

gebruik de functie url inspecteren In GSC

als sommige pagina ‘ s geïndexeerd zijn en andere niet, dan kunt u ook het hulpprogramma URL inspecteren gebruiken om te zien of Google een specifieke pagina kan crawlen en indexeren, of als er andere problemen zijn die voorkomen dat deze in de zoekopdracht verschijnt – dit staat in het bovenste menu en stelt u in staat om één URL per keer te controleren:

als uw pagina is geïndexeerd, zal het de details als volgt geven:

zo niet, dan krijgt u deze status die laat zien wanneer Google heeft geprobeerd de pagina te crawlen en enig inzicht in waarom deze niet is geïndexeerd:

waarom zal Google Mijn Pagina ‘ s niet crawlen of indexeren?

er zijn over het algemeen twee redenen waarom een pagina niet kan worden gecrawled of geïndexeerd. Deze zijn vooral gebruikelijk wanneer een nieuwe site is gestart of gemigreerd, en de instellingen van de ontwikkelomgeving zijn overgedragen.

de robots.txt Disallow Directive

Dit is waar de site, een directory of een pagina niet door de robots kan worden gekropen.txt-bestand.

elke site moet een robot hebben.txt-bestand, Dit wordt gebruikt om richtlijnen te geven aan zoekmachines over welke secties van uw site wel en niet moeten worden gekropen.

als u er een hebt, vindt u deze in uw root directory onder de naam robots.txt

https://organicdigital.co/robots.txt

de richtlijnen die zouden voorkomen dat een site, directory of pagina wordt gekropen zijn als volgt::

Disallow: /Disallow: /directory/Disallow: /specific_page.html

u kunt Screaming Frog ook gebruiken om uw site te doorzoeken. Als het niet in staat is om dit te doen, zie je de volgende crawl data:

er zijn veel geldige redenen om zoekmachines die deze richtlijn gebruiken te blokkeren, maar als u iets in de trant van het bovenstaande ziet, moet u deze wijzigen om het crawlen van uw site mogelijk te maken.

hoe een robot te wijzigen.txt-bestand handmatig

als u toegang hebt tot FTP of een ontwikkelaar bij de hand hebt, kunt u de robots handmatig wijzigen.txt-bestand om alle richtlijnen te verwijderen die uw site blokkeren van crawl.

in het algemeen zal het volgende commando dit doen:

User-agent: *Allow: /

hoe je een robot aanpast.txt-bestand in WordPress

als u de Yoast-plug – in hebt geïnstalleerd, kunt u uw bestand direct bewerken via de sectie Tools – > File Editor-volg deze link voor instructies over hoe u dit moet doen.

een robot wijzigen.txt-bestand in Magento

Ga naar inhoud – > Design – > configuratie, klik in uw relevante Winkelweergave en bewerk “Search Engine Robots”

de Robots Meta Tag is ingesteld op Noindex en / of Nofollow

naast de robots.txt-bestand, kunt u ook de robots meta tag binnen de broncode van uw site te controleren en ervoor te zorgen dat het niet voorkomen dat zoekmachines kruipen.

als u uw broncode controleert, Als u geen robots meta tag ziet, of als deze is ingesteld op” index “of” index,follow ” – dan is dit niet het probleem. Echter, als je ziet dat het zegt “noindex”, dit betekent dat uw pagina kan worden gekropen, maar zal niet worden geïndexeerd:

nogmaals, kunt u Screaming Frog gebruiken om de status van uw robots tags op uw site te controleren. Als uw tag is ingesteld op noindex, nofollow het zal niet voorbij de home page:

Screaming Frog Robots Noindex / Nofllow Issue

als het alleen is ingesteld op noindex, kan de hele site nog steeds worden gecrowled, maar niet geïndexeerd:

Screaming Frog Robots Noindex/Nofllow Probleem

Hoe Tot Wijziging van de Robots Meta Tag-Bestand Handmatig

Opnieuw openen van uw site pagina/sjabloon direct en vervangen/toevoegen de volgende code:

<meta name="robots" content="index, follow">

Hoe Tot Wijziging van de Robots Meta-Tag in WordPress

Er zijn twee manieren om dit te doen – als het probleem wordt voor de hele site ga naar de Instellingen -> Lezen en zorgen voor het “Ontmoedigen zoekmachines indexeren deze site” is niet aangevinkt:

ik kan het mis hebben, maar ik denk dat de enige manier waarop een specifieke pagina of post kan worden ingesteld op index of noindex als u Yoast gebruikt, dus ga naar page/post en controleer de volgende instelling aan de voet van de pagina:

How to Amend Robots Meta Tag in Magento

Ga naar Content – > Design – > Configuration, klik in de relevante Winkelweergave en wijzig de” Default Robots ” drop down optie:

Mijn Site / pagina ‘ s kunnen worden doorzocht en geïndexeerd door Google-What Next?

zodra u ervan overtuigd bent dat uw robots.txt-bestand en robots meta tag zijn correct, U kunt opnieuw gebruik maken van de inspecteer URL tool om uw pagina te controleren en te vragen dat Google kruipt en indexeert uw pagina:

Ik heb ook een Bing Webmaster Account!

heeft u? Ik dacht dat ik de enige was. Ok, u kunt vrijwel allemaal dezelfde dingen geschreven in dit artikel in Bing Webmaster Tools als je kunt in GSC-dus inspecteer de URL en vraag indexering:

Ik heb dit allemaal gedaan en mijn Site / pagina ‘ s zijn nog steeds niet geïndexeerd!

In dat geval moet u dieper ingaan op de configuratie en functionaliteit van uw website om vast te stellen welke andere problemen er kunnen zijn. Ik kan je helpen als je het onderstaande contactformulier invult.

deel 2:

iemand die zich net heeft gerealiseerd dat zijn Test Site is geïndexeerd

Hoe: controleer of uw Staging Site is geïndexeerd door Google

in het leven zijn slechts drie dingen zeker: overlijden, belastingen en uw test site wordt geïndexeerd door Google.

zeer zelden komt u een nieuwe site-lancering tegen zonder op enig moment te beseffen dat de staging-server open is gelaten voor bots om te komen crawlen en indexeren.

het is niet noodzakelijk het einde van de wereld als een zoekmachine een testsite indexeert, omdat het vrij gemakkelijk is op te lossen – maar als u een testomgeving op lange termijn nodig hebt om naast een livesite nieuwe functionaliteit te ontwikkelen, dan moet u ervoor zorgen dat deze zo vroeg mogelijk correct wordt beschermd om dubbele inhoudsproblemen te voorkomen en om ervoor te zorgen dat mensen in het echte leven niet op bezoek komen en reageren (dat wil zeggen proberen iets te kopen).

ik ben voorheen een ontwikkelaar, en waarschijnlijk maakte ik deze fouten zelf meer dan eens, maar toen had ik niet een SEO die een pijn in mijn kont de hele tijd wijzen op deze dingen (toen, old school brochure-come-web designers die niet de beperking van tabellen en inline CSS begrijpen waar de pijn in mijn kont).

de volgende technieken zijn allemaal beproefde methoden die ik heb gebruikt om deze problemen in het wild te identificeren, hoewel ik, om de identiteit van mijn cliënten en hun ontwikkelaars te beschermen, de onbaatzuchtige beslissing heb genomen om een paar testsites op te zetten die mijn eigen website-Inhoud gebruiken om te illustreren wat u moet doen, namelijk:

test.organicdigital.co
alitis.co.uk
hoewel tegen de tijd dat je dit leest, zal ik mijn eigen advies hebben gevolgd en deze naar beneden genomen, Ik heb alle zichtbaarheid die ik kan krijgen nodig, het laatste wat ik nodig heb zijn geïndexeerde testsites die me tegenhouden.

1) Google Search Console (GSC) Domeineigenschap

een van de geweldige dingen aan het nieuwe GSC is dat u domeineigenschappen kunt instellen die u belangrijke inzichten geven over alle subdomeinen die aan uw website zijn gekoppeld – op zowel HTTP als HTTPS. Om dit in te stellen, selecteert u de domeinoptie bij het toevoegen van een eigenschap (u moet ook de mogelijk niet zo eenvoudige taak uitvoeren om een TXT-record toe te voegen aan de DNS van uw domein):

er zijn een hele reeks redenen waarom een domein property nuttig is, in dit geval omdat als u uw test site hebt ingesteld op een subdomein en het maakt indruk en klikken in de zoekopdracht, U dit kunt herkennen vanuit de sectie” Performance “door uw pagina’ s te filteren of te bestellen:

daarnaast moet u ook de sectie “dekking” controleren – in sommige gevallen zal Google Uw inhoud indexeren:

terwijl ze in andere gevallen zullen zien dat u inhoud hebt geüppliceerd en u vriendelijk zult onthouden van indexeren. in dat geval zult u deze vinden in de sectie “dupliceren, Google koos een ander canonisch dan gebruiker”:

zelfs als dit het geval is, moet u nog steeds proberen ervoor te zorgen dat het niet naar voren is gekropen.

2) Controleer Google-SERPs met behulp van Link Clump

als u geen toegang hebt tot GSC-domeineigenschappen of enige toegang tot GSC (zo niet, waarom niet?) dan kunt u de SERPs controleren om te zien of een test URLshave hun weg in de index.

dit is ook een handige techniek bij het pitchen voor nieuwe business, Wat is een betere manier om een potentiële klant te winnen dan om hun interne of externe ontwikkelingsteam eruit te laten zien alsof ze met zoekzichtbaarheid deathdoor dit in de eerste plaats te laten gebeuren, en dat je hier bent om de dag te redden.

de stappen zijn als volgt:

I) installeer de LinkClump Google Chrome-extensie, waarmee u meerdere URL ‘ s kunt kopiëren en plakken van een pagina naar een meer bruikbare plek zoals Excel.

ii) verander je Link Clump instellingen als volgt:

het belangrijkste om op te merken is de actie “gekopieerd naar het klembord”– het laatste wat je hier wilt doen is het openen van een honderdtal URL ‘ s atonce.

iii) Ga naar uw favoriete (of lokale) Google TLD, klik op “instellingen” die u rechtsonder op de pagina moet zien, en selecteer “zoekinstellingen” waar u uw “resultaten per pagina” op 100 kunt instellen.

iv) keer terug naar de startpagina van Google en gebruik de “site:” – queryoperator en voeg uw domein toe. Als u www of iets dergelijks gebruikt, verwijder dan dit-zodat het commando als volgt zou zijn:
site:organicdigital.co

u krijgt een voorbeeld van maximaal 300 urls te zien die momenteel door Google worden geïndexeerd over alle subdomeinen. Terwijl je handmatig kon beoordelen elk resultto Spot rogue sites:

ik vind het veel sneller en gemakkelijker om met de rechtermuisknop te klikken en helemaal naar de onderkant van de pagina te slepen. U zult weten of Link Clump werkt als u ziet dat de volgende optreden todenote links worden geselecteerd en gekopieerd:

herhaal dit over SERPs 2 en 3 indien beschikbaar, en zodra allURLs in Excel zijn geplakt, gebruik Sorteer op A-Z om eenvoudig uw geïndexeerde inhoud te identificeren over alle relevante subdomeinen.

3) zoek naar tekst die uniek is voor uw Site

de bovenstaande methoden werken als uw test site gehost wordt op asubdomain op hetzelfde domein als uw live website. Echter, als uw testlocatie zich elders bevindt,bijv. test.webdevcompany.com dan werken ze niet. In dat geval is dit of de volgende methode goed.

vind inhoud waarvan u denkt dat deze uniek is voor uw website – in mijn geval heb ik gekozen voor de strapline van: “Verbeter de organische zichtbaarheid en het verkeer van uw Website” – Zoek dit dan binnen aanhalingstekens. Als een test site met deze inhoud is geïndexeerd, deze zoekopdracht moet het onthullen:

zoals u kunt zien, verschijnen de homepages op de hoofdsite, test subdomein en afzonderlijk testdomein. U kunt ook per ongeluk ter plaatse een concurrent die uw inhoud heeft opgelicht. Sommigen zouden dat opvatten als een compliment, anderen zouden DMCA ‘ s uitgeven – het is aan jou, maar het laatste wat je wilt is dat iemand je overtreft met je eigen exemplaar.

4) Doorzoek de Site met behulp van Screaming Frog

ik neem aan dat je van SEO houdt en daarom Screaming Frog gebruikt. Als een van deze antwoorden is nee, dan goed gedaan voor het maken van het zo ver in dit artikel (laat me raden je bent een ontwikkelaar die een bollock heeft laten vallen en op zoek om je kont te dekken voordat iemand anders erachter komt?).

als u het niet hebt, download het hier.

vink in de basisinstellingen “alle subdomeinen doorzoeken”aan. U kunt ook “volg interne ‘nofollow'”aanvinken, omdat sommige testomgevingen dit kunnen hebben.

zodra de crawl is voltooid, kunt u de lijst raadplegen om te zien of er interne links zijn naar testsites. Ik kwam dit onlangs waar een nieuwe Drupal site was gegaan live, maar met alle interne links binnen de blog posts wijzend naar een beta subdomein:

u kunt vervolgens op elke test-URL klikken en op links onderaan klikken om de beledigende interne link van de live naar test-site te vinden. In dit geval heb ik de link Contacteer ons op de sitemap gewijzigd om naar de test-URL te verwijzen:

eenmaal Gespot, gewijzigd en opnieuw gekropen tot dit geen interne links meer zijn die bezoekers elders brengen. Als u gebruik maakt van WordPress, gebruik maken van een Search / replace plugin om alle testURLs te vinden en te vervangen door de levende.

5) Controleer Google Analytics hostnamen

als uw testsite dezelfde Google Analytics account ’tracking code heeft geïnstalleerd als uw live site, zult u dit kunnen herkennen als u naar een sectie gaat zoals “Behavior” – > “Site Content” – > ” AllPages “en” Hostname ” selecteert als een secundaire dimensie:

verder kunt u de gegevens filteren door alle bezoeken aan het hoofddomein uit het rapport te sluiten, waardoor alle andere instanties in de lijst blijven staan. In aanvulling op sites te testen, kunt u ook ontdekken GA Spam wordt geactiveerd op een 3rdparty site:

er zijn voors en tegens om dezelfde ga-tracking-IDrunning te hebben op zowel uw live-als testomgevingen, maar persoonlijk zie ik noreason om aparte accounts te hebben en in plaats daarvan meerdere weergaven te maken binnen uw ene account. Voor de live site,het opzetten van een filter om alleen verkeer naar de live hostnaam, en vice versafor de test site.

hoe te verwijderen en te voorkomen dat uw Test Site wordt geïndexeerd

zodat u uw test site hebt ontdekt in de index met behulp van een van de bovenstaande technieken, of, u wilt ervoor zorgen dat het niet op de eerste plaats gebeurt. Het volgende zal hier allemaal bij helpen:

1) Verwijder URL ‘ s via GSC

als uw site geïndexeerd is, of het nu verkeer genereert of niet, is het het beste om het te verwijderen. Om dit te doen, kunt u de “Verwijder URL ‘s” sectie van de “oude” GSC gebruiken.

Opmerking, Dit zal niet werken op domein-eigenschapsniveau, aangezien deze niet worden verzorgd in het oude GSC. Om dit te doen, je nodig hebt om het opzetten van een eigenschap voor de individuele testdomein.

eenmaal ingesteld, ” ga naar de oude versie “en ga naar”Google Index “->”URL’ s verwijderen”. Vanaf hier, selecteer “TemporarilyHide” en voer als enkele vooruit slash als de URL die u wilt blokkeren die uw hele site voor verwijdering zalmit:

dit zal uw site gedurende 90 dagen uit de SERPs verwijderen, om ervoor te zorgen dat deze niet terugkeert, moet u verdere stappen ondernemen. Een van de volgende opties is voldoende (en moet worden uitgevoerd ongeacht of u in staat bent om te verwijderen via GSC)

2) Stel robots tag in op noindex op test site

vraag uw ontwikkelaars om ervoor te zorgen dat wanneer u op het testdomein draait, elke pagina op de site een robots noindex tag genereert:

<meta name="robots" content="noindex" />

als uw site WordPress is, kunt u dit instellen via “Settings” – > “Reading” en het selecteren van “ontmoedig zoekmachines van het indexeren van deze site”:

welke code of instellingen u ook gebruikt om te voorkomen dat de testsite wordt geïndexeerd, u moet ervoor zorgen dat deze niet naar de live-site wordt gemigreerd wanneer nieuwe inhoud of functionaliteit live wordt gemaakt. Test site settings going live zijn een van de meest voorkomende en meest betrouwbare fireways om de zichtbaarheid van uw live site te verknallen.

3) wachtwoord Beveilig uw Test Site

vanaf uw Web control panel of via de server, passwordprotect de map waarin uw test site zich bevindt. Er zijn tal van manieren om dit te doen – de bestbet te vragen aan uw ontvangende bedrijf of de ontwikkelaars om dit te configureren, of, thereare veel goede middelen die er zijn dat zal u tonen hoe om dit te doen, zoals:

https://one-docs.com/tools/basic-auth

Eenmaal geblokkeerd is, ziet u een waarschuwing wanneer het proberen toaccess uw test site:

https://alitis.co.uk/

Dit voorkomt dat zoekmotoren uit het crawlen en indexeren van thesite.

4) site verwijderen en paginastatus retourneren 410

als u uw testsite niet meer nodig hebt, kunt u deze eenvoudig verwijderen. Wanneer zoekmachines proberen pagina ’s te bezoeken op langer leven, zullen ze zien dat de pagina’ s worden verwijderd. Standaard retourneert een kapotte pagina status404 (“niet gevonden”)-terwijl dit de site in de tijd de-geïndexeerd krijgt, duurt het een tijdje omdat er follow-upbezoeken zullen zijn om te zien of de kapotte pagina is teruggekeerd.

in plaats daarvan, zet de status op 410 (“permanent weg”) die het volgende bericht zal retourneren:

om dit te doen over een volledig domein, verwijdert u de site en verlaat u de .htaccess-bestand op zijn plaats met het volgende commando:

Redirect 410 /

dit zal ervoor zorgen dat de site wordt de-geïndexeerd op de eerste keer van het vragen (of op zijn minst sneller dan een 404)

5) blokkeren via robots.txt

u kunt het crawlen van de site blokkeren door de volgende commando ‘ s uit te voeren in de robots van de test site.txt-bestand:

User-agent: *Disallow: /

dit zal voorkomen dat bots van het kruipen van de site. Opmerking: als uw testsite momenteel geïndexeerd is en u de route van het toevoegen van noindex-tags aan de site hebt doorlopen,voegt u de robots niet toe.txt-opdracht in totdat alle pagina ‘ s zijn gedeïndexeerd. Als u dit toevoegt voordat alle pagina ’s zijn gedeïndexeerd,voorkomt u dat ze worden gekropen en dat de robots tag wordt gedetecteerd, zodat de pagina’ s geïndexeerd blijven.

en dat is het – Ik hoop dat het bovenstaande genoeg voor u zal zijn om te vinden, deindex en voorkomen dat uw test ooit weer wordt gekropen.

maar onthoud

ik kan dit niet genoeg benadrukken-als u besluit robots of robots te implementeren.txt die niet toestaan dat alle bots van kruipen en indexeren van uw test site, zorg ervoor dat wanneer u uw test site live dat je niet dragen deze configuraties over naar de live site, als u het risico verliest uw organische zichtbaarheid helemaal.

en we zijn er allemaal geweest, toch?

NCPEA Professor

Blog, Lifestyle and News