Hur: ta reda på om dina webbplatser webbadresser håller på att genomsökas & indexeras av Google | Organic Digital UK

januari 27, 2022

den organiska digitala blogg

Detta är ett blogginlägg i två (stora) sidor – live och iscensättning platser:

Del 1: Hur man kontrollerar om Google har indexerat din levande webbplats

del 2: Hur man kontrollerar om Google har indexerat din iscensättning/testplats

hur kan jag se om Google har indexerat min Live-webbplats?

det finns två enkla sätt att ta reda på:

använd webbplatsen: frågeoperatör

Sök efter din domän på Google enligt följande: webbplats:organicdigital.co
om din webbplats är indexerad ser du en lista med sidor:

om inga resultat returneras kan du ha problem:

Obs: på större webbplatser, medan du kommer att se en approximation av hur många sidor indexeras, du kommer bara att kunna faktiskt se runt 300 av dem i SERP.

kontrollera Täckningsavsnittet i Google Search Console

varje webbplats ska ha GSC-konto, det är enligt min mening det största verktyget en webbplatsägare eller SEO kan använda och ger en mängd information om din webbplats organiska synlighet och prestanda. Om du inte har en, gå till den officiella GSC-sidan, om du gör det, gå till Täckningsavsnittet där du kan se en uppdelning av:

fel som uppstod vid genomsökning av sidor
sidor som är blockerade
giltiga indexerade sidor
sidor som är undantagna

om din webbplats har problem kommer dessa att rapporteras under ” fel ”eller” uteslutet – – och du kan ta reda på orsakerna till att de inte ingår i sökningen, till exempel:

alternativ sida med korrekt kanonisk tagg
Crawled-för närvarande inte indexerad
duplicera utan användarvald kanonisk
utesluten av ’noindex’ tagg
Crawl anomali
hittades inte(404)

om webbplatsens sidor inte visas i avsnittet ”giltigt” kan du ha problem.

använd URL Inspect-funktionen i GSC

om vissa sidor är indexerade och andra inte är det, kan du också använda URL Inspect-verktyget för att se om Google kan genomsöka och indexera en viss sida, eller om det finns andra problem som hindrar det från att visas i sökningen-det här finns i toppmenyn och låter dig kontrollera en URL i taget:

om din sida är indexerad kommer den att ge detaljer enligt följande:

om inte, får du den här statusen som visar när Google har försökt att genomsöka sidan och lite inblick i varför den inte indexeras:

Varför kommer inte Google att genomsöka eller indexera Mina Sidor?

det finns i allmänhet två skäl till varför en sida inte kan genomsökas eller indexeras. Dessa är särskilt vanliga när en ny webbplats har lanserats eller migrerats och inställningarna från utvecklingsmiljön har överförts.

robotarna.Txt Disallow Directive

det är här webbplatsen, en katalog eller en sida blockeras från att genomsökas av robotarna.txt-fil.

varje webbplats bör ha en robotar.txt-fil, Detta används för att ge direktiv till sökmotorer om vilka delar av din webbplats bör och bör inte genomsökas.

om du har en, hittar du den i din rotkatalog under namnet robotar.txt

https://organicdigital.co/robots.txt

direktiven som skulle förhindra att en webbplats, katalog eller sida genomsöks skulle vara följande:

Disallow: /Disallow: /directory/Disallow: /specific_page.html

du kan också använda Screaming Frog för att försöka genomsöka din webbplats. Om det inte går att göra det ser du följande genomsökningsdata:

det finns många giltiga skäl för att blockera sökmotorer som använder detta direktiv, men om du ser något i linje med ovanstående måste du ändra dessa för att tillåta genomsökning av din webbplats.

hur man ändrar en robotar.txt-fil manuellt

om du har tillgång till FTP eller har en utvecklare till hands kan du manuellt ändra robotarna.txt-fil för att ta bort alla direktiv som blockerar din webbplats från genomsökning.

generellt kommer följande kommando att göra detta:

User-agent: *Allow: /

hur man ändrar en robot.txt-fil i WordPress

om du har Yoast-plugin installerat kan du redigera din fil direkt via avsnittet Verktyg – > File Editor-följ den här länken för instruktioner om hur du gör detta.

hur man ändrar en robotar.txt-fil i Magento

gå till innehåll – > Design – > konfiguration, klicka på din relevanta Butiksvy och redigera ”sökmotorrobotar”

Robots metatagg är inställd på Noindex och/eller Nofollow

utöver robotarna.txt-fil, du kan också kontrollera robots metatagg i webbplatsens källkod och se till att det inte hindrar sökmotorer från att krypa.

om du kontrollerar din källkod, om du inte ser en robots metatagg, eller den är inställd på ”index” eller ”index, följ” – då är det inte problemet. Men om du ser att det står ”noindex” betyder det att din sida kan genomsökas men inte indexeras:

återigen kan du använda Screaming Frog för att kontrollera statusen för dina robotar taggar på din webbplats. Om din tagg är inställd på noindex kommer nofollow inte längre än hemsidan:

Screaming Frog Robots Noindex / Nofllow Issue

om det bara är inställt på noindex kan hela webbplatsen fortfarande genomsökas men inte indexeras:

hur man ändrar Robots Metataggfil manuellt

återigen, öppna din webbplats sida/mall direkt och ersätt / Lägg till följande tagg:

<meta name="robots" content="index, follow">

så här ändrar du Robots metatagg i WordPress

det finns två sätt att göra detta – om problemet är webbplatsbrett går du till Inställningar – > läsa och se till att ”avskräcka sökmotorer från att indexera den här webbplatsen” är inte markerad:

jag kan ha fel, men jag tror att det enda sättet en viss sida eller post kan ställas in på index eller noindex om du använder Yoast, så gå till sida / post och kolla följande inställning vid foten av sidan:

hur man ändrar Robots metatagg i Magento

som tidigare, gå till innehåll – > Design – > konfiguration, klicka på din relevanta Butiksvy och ändra alternativet” Standardrobotar”:

min webbplats / sidor kan genomsökas och indexeras av Google – vad händer nu?

när du är nöjd med att dina robotar.txt-fil och robotar metatagg är korrekta, du kan återigen använda verktyget inspektera URL för att kontrollera din sida och begära att Google genomsöker och indexerar din sida:

jag har också ett Bing Webmaster-konto!

gör du? Jag trodde att jag var den enda. Ok, Du kan göra ganska mycket samma saker som skrivs i den här artikeln i Bing Webmaster Tools som du kan i GSC-så inspektera webbadressen och begär indexering:

jag har gjort allt detta och min webbplats / sidor är fortfarande inte indexerade!

i så fall behöver du en djupare fördjupning i konfigurationen och funktionaliteten på din webbplats för att identifiera vilka andra problem det kan finnas. Jag kan hjälpa dig med om du fyller i kontaktformuläret nedan.

del 2:

någon som just har insett att deras testplats är indexerad

så här: Kontrollera om din Staging-webbplats är indexerad av Google

endast tre saker är säkra i livet: död, skatter och din testplats indexeras av Google.

mycket sällan stöter du på en ny webbplatslansering utan att någon gång inse att staging-servern har lämnats öppen för bots för att komma crawl och index.

det är inte nödvändigtvis världens ände om en sökmotor skulle indexera en testplats eftersom det är ganska lätt att lösa – men om du kör en testmiljö på lång sikt för att utveckla ny funktionalitet tillsammans med en livesite, måste du se till att den skyddas korrekt så tidigt som möjligt för att undvika problem med duplicerat innehåll och för att säkerställa att verkliga människor inte besöker och interagerar (dvs. försöker köpa något).

jag är tidigare en utvecklare, och förmodligen gjort dessa misstag själv mer än en gång, men då jag inte har en SEO är en smärta i min röv hela tiden pekar ut dessa saker (då, gamla skolan broschyr-come-webbdesigners som inte förstod begränsningen av tabeller och inline CSS där smärtan i min Röv).

följande tekniker är alla beprövade metoder som jag har använt för att identifiera dessa problem i naturen, men för att skydda identiteten hos mina kunder och deras utvecklare har jag tagit det osjälviska beslutet att ställa in ett par testwebbplatser med mitt eget webbplatsinnehåll för att illustrera vad du behöver göra, de är:

test.organicdigital.co
alitis.co.uk
men när du läser detta kommer jag att ha följt mitt eget råd och tagit ner dessa, jag behöver all synlighet jag kan få, det sista jag behöver är indexerade testplatser som håller mig tillbaka.

1) Google Search Console (GSC) Domänegenskap

en av de fantastiska sakerna med den nya GSC är att du kan ställa in domänegenskaper som ger dig viktiga insikter i alla underdomäner som är associerade med din webbplats – på både HTTP och HTTPS. För att ställa in detta, välj helt enkelt domänalternativet när du lägger till en egenskap (du måste också utföra den potentiellt inte så enkla uppgiften att lägga till en TXT-post i domänens DNS):

det finns en mängd anledningar till varför en domänegenskap är användbar, i det här fallet beror det på att om du har din testwebbplats inställd på en underdomän och det genererar intryck och klick i sökningen kan du upptäcka detta från avsnittet ”Prestanda” genom att filtrera eller beställa dina sidor:

dessutom bör du också kolla avsnittet ”täckning – – ivissa fall kommer Google att indexera ditt innehåll:

medan de i andra fall kommer att upptäcka att du harduplicerat innehåll på plats och Vänligen avstå från indexering, i vilket fall du skulle hitta det i avsnittet ”duplicera, Google valde olika canonicalthan användare”:

även om detta är fallet, bör du ändå sträva efter att sedet är inte kröp framåt.

2) Kontrollera Google SERPs med Link Clump

om du inte har tillgång till GSC-domänegenskaper eller någon åtkomst till GSC (om inte, varför inte?) då kan du kontrollera SERP: erna för att se om någon Test URLshave har kommit in i indexet.

Detta är också en praktisk teknik när pitching för nya affärer,vad bättre sätt att vinna över en potentiell kund än att göra deras interna orexternal utvecklingsteam ser ut som de dicing med Sök synlighet deathby tillåter detta att hända i första hand, och att du är här för att rädda theday.

stegen är som följer:

i) Installera LinkClump Google Chrome-tillägget, som låter dig kopiera och klistra in flera Urlsfrån en sida till någonstans mer användbar som Excel.

ii) ändra dina inställningar för Länkklump enligt följande:

den viktigaste att notera är åtgärden ”kopieras till Urklipp”– det sista du vill hända här är att öppna upp till hundra webbadresser atonce.

iii) gå till din favorit (eller lokala) Google TLD, klicka på ”inställningar” som du bör se längst ner till höger på sidan och välj ”sökinställningar” där du kan ställa in dina ”resultat per sida” till 100.

iv) gå tillbaka till Googles startsida och använd ”site:” queryoperator och Lägg till din domän. Om du använder www eller liknande, ta bort det här – så kommandot skulle vara enligt följande:
site:organicdigital.co

du kommer att presenteras med ett urval av upp till 300 URLscurrently indexeras av Google över alla underdomäner. Medan du manuellt kan granska varje resultat för att upptäcka oseriösa webbplatser:

jag tycker att det är mycket snabbare och lättare att högerklicka och dra hela vägen till botten av sidan. Du kommer att veta om Länkklumpen fungerar som du kommer att se följande inträffa todenote länkar väljs och kopieras:

upprepa detta över SERP 2 och 3 Om tillgängligt, och när allURLs har klistrats in i Excel, använd Sortera efter A-Z för att enkelt identifiera ditt indexerade innehåll över alla relevanta underdomäner.

3) Sök efter Text som är unik för din webbplats

ovanstående metoder fungerar om din testwebbplats är värd på asubdomain på samma domän som din livewebbplats. Men om din testplats finns någon annanstans, t. ex. test.webdevcompany.com, då fungerar de inte. I vilket fall, detta eller följande metodermycket.

Hitta något innehåll som du tror är unikt för din webbplats – i mitt fall har jag gått med strapline av: ”förbättra din webbplats organiska synlighet och trafik” – sök sedan efter detta inom citattecken. Om en testplats som innehåller detta innehåll har indexerats, bör den här sökningen avslöja det:

som du kan se visas alla hemsidor på huvudsidan, testdomänen och den separata testdomänen. Du kan också oavsiktligt upptäcka en konkurrent som har rippat av ditt innehåll. Vissa skulle ta det som en komplimang, andra skulle utfärda DMCA – det är upp till dig, men det sista du vill ha är att någon överträffar dig med din egen kopia.

4) genomsöka webbplatsen med Screaming Frog

jag antar att du är i SEO och därför använder Screaming Frog. Om något av dessa svar är nej, då bra gjort för att göra det så långt in i den här artikeln (låt mig gissa att du är en utvecklare som har tappat en bollock och vill täcka din röv innan någon annan får reda på det?).

om du inte har det, ladda ner det här.

i grundinställningarna markerar du ”Crawl All Subdomains”. Du kan också kryssa ”följ internt” nofollow ”” eftersom vissa testmiljöer kan ha detta på plats.

när genomsökningen är klar, granska listan för att se om det finns några interna länkar på plats för att testa webbplatser. Jag kom över det här nyligen där en ny Drupal-webbplats hade gått live men med alla interna länkar i blogginläggen som pekar på en beta-underdomän:

du kan sedan klicka på varje test-URL och klicka på inlänkar längst ner för att hitta den kränkande interna länken från live-till-testplatsen. I det här fallet ändrade jag länken Kontakta oss på webbplatskartan för att peka på TESTADRESSEN:

en gång spotted, ändra och re-crawl tills dessa är inte moreinternal länkar tar besökare någon annanstans. Om du använder WordPress, använd en Sök / Ersätt plugin för att hitta alla testURLs och ersätta dem med live one.

5) Kontrollera Google Analytics värdnamn

om din testwebbplats har samma Google Analytics-konto ’ Tracking-kod installerad som din live-webbplats, kommer du att kunna upptäcka detta withinGA om du går till ett avsnitt som ”beteende” – > ”webbplatsinnehåll” – > ”AllPages” och välj ”värdnamn” som en sekundär dimension:

utöver detta kan du också filtrera data ytterligare genom att utesluta från rapporten alla besök på huvuddomänen, vilket kommer att lämna alla andra instanser i listan. Inaddition till testplatser, du kan också avslöja GA Spam utlöses på en 3rdparty plats:

det finns för-och nackdelar med att ha samma ga-spårning IDrunning på både dina live-och testmiljöer, men personligen ser jag noreason att ha separata konton och istället skulle skapa flera vyer withinyour ett konto. För live-webbplatsen ställer du in ett filter för att bara inkludera trafik till live-värdnamnet och vice versafor testplatsen.

så här tar du bort och förhindrar att din testplats indexeras

så du har upptäckt din testplats i indexet med en av teknikerna ovan, eller du vill se till att det inte händer på första plats. Följande hjälper alla med detta:

1) Ta bort webbadresser via GSC

om din webbplats är indexerad, oavsett om den genererar trafik ellerinte, det är bäst att ta bort det. För att göraDetta kan du använda avsnittet ”Ta bort webbadresser” från den ”gamla” GSC.

Obs, Detta kommer inte att fungera på domänegenskapsnivå som thesearen ’ t tillgodoses i gamla GSC. I ordningför att göra detta måste du ställa in konfigurera en egenskap för den enskilda testdomänen.

när du har ställt in, ”gå till den gamla versionen” och gå till ”Google Index”-> ”ta bort webbadresser”. Härifrån, välj ”TemporarilyHide” och ange som enda framåt snedstreck som URL du vill blockera som willsubmit hela webbplatsen för borttagning:

detta tar bort din webbplats från SERP: erna i 90 dagar, för att säkerställa att den inte återkommer måste du vidta ytterligare steg. Något av följande räcker (och bör utföras oavsett om du kan ta bort via GSC)

2) Ställ in robots-taggen till noindex på testplatsen

be dina utvecklare att se till att varje sida på webbplatsen genererar en robots noindex-tagg när du kör på testdomänen:

<meta name="robots" content="noindex" />

om din webbplats är WordPress kan du ställa in detta via ”Inställningar” – > ”läsning” och välja ”avskräcka sökmotorer från att indexera den här webbplatsen”:

oavsett kod eller inställningar du använder för att förhindra att testwebbplatsen indexeras måste du se till att detta inte migreras till live-webbplatsen när nytt innehåll eller funktionalitet görs live. Testplatsinställningar som går live är en av de vanligaste och mest säkra brandvägarna för att förstöra din liveplatsens synlighet.

3) lösenordsskydda din testplats

från din webbkontrollpanel eller via servern, lösenordsskydda katalogen där din testplats finns. Det finns många sätt att göra detta – det bästabet är att be ditt webbhotell eller utvecklare att konfigurera detta, eller det finns gott om bra resurser där ute som visar dig hur du gör det, till exempel:

https://one-docs.com/tools/basic-auth

när du är blockerad bör du se en varningsruta när du försöker få tillgång till din testplats:

https://alitis.co.uk/

detta förhindrar att sökmotorer kryper och indexerar webbplatsen.

4) Ta Bort webbplats och returnera sidstatus 410

om du inte längre har behov av din testplats kan du helt enkeltta bort det. När sökmotorer försökerbesök sidor på längre live, kommer de att se sidorna raderas. Som standard kommer en trasig sida att returnera status404 (”hittades inte”) – medan detta kommer att få webbplatsen avindexerad i tid, kommer det att ta ett tag eftersom det kommer att bli uppföljningsbesök för att se om den trasiga sidan har återvänt.

Ställ istället in statusen till 410 (”permanent borta”) som returnerar följande meddelande:

för att göra detta över en hel domän, ta bort webbplatsen ochlämna .htaccess-fil på plats med följande kommando:

Redirect 410 /

detta kommer att säkerställa att webbplatsen blir de-indexeras vid första timeof frågar (eller åtminstone snabbare än en 404)

5) blockera via robotar.txt

du kan blockera webbplatsen från att genomsökas genom att implementeraföljande kommandon i testplatsens robotar.txt-fil:

User-agent: *Disallow: /

detta förhindrar att bots kryper på webbplatsen. Observera: om din testplats för närvarande är indexerad och du har gått ner på vägen för att lägga till noindex-taggar på webbplatsen,lägg inte tillrobotarna.Txt-kommandot in tills alla sidor har avindexerats. Om du lägger till detta innan alla sidor har avindexerats kommer detta att förhindra att de genomsöks och robots-taggen upptäcks, så sidorna kommer att förbli indexerade.

och det är det – jag hoppas att ovanstående kommer att räcka för att du skahitta, deindex och förhindra att ditt test krypas någonsin igen.

men kom ihåg

jag kan inte betona detta nog – om du bestämmer dig för att implementerarobots metataggar eller robotar.txt som inte tillåter alla bots från att krypa och indexera din testplats, se till att när du sätter din testplats live att du inte bär dessa konfigurationer över till live-webbplatsen, eftersom du riskerar att förlora din organiska synlighet helt och hållet.

och vi har alla varit där, eller hur?

NCPEA Professor

Blog, Lifestyle and News