Cum Pentru a: afla dacă Site – urile URL-uri sunt Crawled & indexate de Google | organic Digital UK

ianuarie 27, 2022

Blog Digital Organic

aceasta este o postare pe blog în două pagini (mari) – live și stadializarea site-uri:

Partea 1: Cum Pentru a verifica dacă Google a indexat site-ul Live

Partea 2: Cum Pentru a verifica dacă Google a indexat site-ul dvs. Live

cum pot afla dacă Google a indexat site-ul meu Live?

există două modalități simple de a afla:

utilizați site-ul: operator de interogare

căutați domeniul dvs. pe Google după cum urmează: site:organicdigital.co
dacă site-ul dvs. este indexat, veți vedea o listă de pagini:

dacă nu sunt returnate rezultate, atunci este posibil să aveți probleme:

Operator de interogare a Site-ului fără rezultate

notă: pe site-urile mai mari, în timp ce veți vedea o aproximare a numărului de pagini indexate, veți putea vedea doar aproximativ 300 dintre ele în SERP.

verificați secțiunea de acoperire a Google Search Console

fiecare site web ar trebui să aibă cont GSC, este, în opinia mea, cel mai bun instrument pe care un proprietar de site sau SEO îl poate utiliza și oferă o mulțime de informații despre vizibilitatea și performanța organică a site-ului dvs. Dacă nu aveți unul, accesați pagina oficială GSC, dacă aveți, accesați secțiunea de acoperire unde puteți vedea o defalcare a:

erori întâlnite la accesarea cu crawlere a paginilor
pagini blocate
Pagini indexate valide
pagini excluse

dacă site-ul dvs. are probleme, acestea vor fi raportate la „eroare ” sau” exclus ” – și puteți afla motivele pentru care nu sunt incluse în căutare, cum ar fi:

pagină alternativă cu etichetă canonică adecvată
Crawled – momentan nu este indexat
duplicat fără canonic selectat de utilizator
exclus de eticheta ‘noindex’
anomalie Crawl
nu a fost găsit (404)

dacă paginile site-ului dvs. nu apar în secțiunea „valid”, atunci este posibil să aveți probleme.

utilizați funcția Inspectare URL în GSC

dacă unele pagini sunt indexate și altele nu, atunci puteți utiliza și instrumentul inspectare URL pentru a vedea dacă Google este capabil să acceseze cu crawlere și să indexeze o anumită pagină sau dacă există alte probleme care împiedică apariția acesteia în căutare – aceasta se află în meniul de sus și vă va permite să verificați:

dacă pagina dvs. este indexată, aceasta va oferi detalii după cum urmează:

dacă nu, veți obține această stare care arată când Google a încercat să acceseze cu crawlere pagina și unele informații despre motivul pentru care nu este indexată:

de ce Google nu va accesa cu crawlere sau indexa paginile mele?

există, în general, două motive pentru care o pagină nu poate fi accesată cu crawlere sau indexată. Acestea sunt deosebit de frecvente atunci când un nou site a fost lansat sau migrat, iar setările din mediul de dezvoltare au fost reportate.

roboții.Txt interzice Directiva

acesta este locul în care site-ul, un director sau o pagină sunt blocate de a fi accesate cu crawlere de către roboți.fișier txt.

fiecare site ar trebui să aibă roboți.fișier txt, acesta este utilizat pentru a da directive motoarelor de căutare cu privire la ce secțiuni ale site-ului dvs. ar trebui și nu ar trebui să fie accesate cu crawlere.

dacă aveți unul, îl veți găsi în directorul rădăcină sub numele de roboți.txt

https://organicdigital.co/robots.txt

directivele care ar împiedica accesarea cu crawlere a unui site, director sau pagină ar fi următoarele:

Disallow: /Disallow: /directory/Disallow: /specific_page.html

de asemenea, puteți utiliza Screaming Frog pentru a încerca să accesați cu crawlere site-ul dvs. Dacă nu este în măsură să facă acest lucru, veți vedea următoarele date de accesare cu crawlere:

există multe motive valabile pentru blocarea motoarelor de căutare care utilizează această directivă, dar dacă vedeți ceva de-a lungul liniilor de mai sus, trebuie să le modificați pentru a permite accesarea cu crawlere a site-ului dvs.

cum să modifice un roboți.fișier txt manual

dacă aveți acces la FTP sau aveți un dezvoltator la îndemână, puteți modifica manual roboții.fișier txt pentru a elimina orice directive care blochează site-ul dvs. de la crawl.

în general, următoarea comandă va face acest lucru:

User-agent: *Allow: /

cum să modificați un roboți.fișier txt în WordPress

dacă aveți pluginul Yoast instalat, puteți edita fișierul direct prin secțiunea Instrumente -> Editor de fișiere – urmați acest link pentru instrucțiuni despre cum să faceți acest lucru.

cum să modifice un roboți.fișier txt în Magento

du-te la conținut- > Design- > configurare, faceți clic pe în magazin relevant vizualiza și edita „roboți motor de căutare”

meta tag-ul Robots este setat la Noindex și/sau Nofollow

în plus față de roboți.fișier txt, puteți verifica, de asemenea, meta tag-ul robots în codul sursă al site-ului dvs. și asigurați-vă că nu împiedică motoarele de căutare să se târască.

dacă Verificați codul sursă, dacă nu vedeți o meta tag – ul robots, sau, este setat la „index” sau „index,urmați” – atunci acest lucru nu este problema. Cu toate acestea, dacă vedeți că scrie „noindex”, aceasta înseamnă că pagina dvs. poate fi accesată cu crawlere, dar nu va fi indexată:

din nou, puteți utiliza Screaming Frog pentru a verifica starea etichetelor roboților dvs. pe site-ul dvs. Dacă eticheta dvs. este setată la noindex, nofollow nu va depăși pagina de pornire:

Screaming Frog roboți noindex/Nofllow problemă

în cazul în care este doar setat la noindex, întregul site poate fi încă accesat cu crawlere, dar nu indexate:

Screaming Frog Robots noindex/Nofllow Issue

cum se modifică manual fișierul Meta Tag roboți

din nou, accesați pagina/șablonul site-ului dvs. direct și înlocuiți / adăugați următoarea etichetă:

<meta name="robots" content="index, follow">

cum se modifică meta tag-ul roboților în WordPress

există două moduri de a face acest lucru – dacă problema este site-ul larg du-te la Setări – > lectură și asigurați-vă că „descurajați motoarele de căutare de la indexarea acestui site” nu este bifată:

s-ar putea să mă înșel, dar cred că singurul mod în care o anumită pagină sau postare poate fi setată la index sau noindex dacă utilizați Yoast, așa că mergeți la pagină / postare și verificați următoarea setare la poalele paginii:

cum să modifice roboți meta Tag-ul în Magento

ca și înainte, du-te la conținut- > Design- > configurare, faceți clic în vizualizarea magazin relevant și să modifice „roboți implicit” drop jos opțiune:

Site – ul / Paginile mele pot fi accesate cu crawlere și indexate de Google-Ce urmează?

odată ce sunteți mulțumit că roboții.fișierul txt și meta tag-ul roboților sunt corecte, puteți utiliza din nou instrumentul inspectați adresa URL pentru a vă verifica pagina și a solicita ca Google să acceseze cu crawlere și să indexeze pagina:

am, de asemenea, un cont de Webmaster Bing!

nu-i așa? Credeam că sunt singurul. Ok, puteți face destul de mult toate aceleași lucruri scrise în acest articol în Bing Webmaster Tools, după cum puteți în GSC – deci inspectați adresa URL și solicitați indexarea:

am făcut toate acestea și Site-ul meu / pagini încă nu sunt indexate!

în acest caz, aveți nevoie de o aprofundare mai profundă a configurației și funcționalității site-ului dvs. web pentru a identifica ce alte probleme ar putea exista. Vă pot ajuta dacă completați formularul de contact de mai jos.

Partea 2:

cineva care tocmai și-a dat seama că Site-ul de testare este indexat

cum să: verificați dacă site-ul dvs. de intermediere este indexat de Google

doar trei lucruri sunt sigure în viață: moartea, taxele și site-ul dvs. de testare este indexat de Google.

foarte rar întâlniți o nouă lansare a site-ului fără ca la un moment dat să vă dați seama că serverul de așteptare a fost lăsat deschis roboților să vină cu crawlere și index.

nu este neapărat sfârșitul lumii dacă un motor de căutare ar indexa un site de testare, deoarece este destul de ușor de rezolvat – dar dacă rulați un mediu de testare pe termen lung pentru a dezvolta noi funcționalități alături de un site live, atunci trebuie să vă asigurați că este protejat corect cât mai curând posibil pentru a evita problemele de conținut duplicat și pentru a vă asigura că oamenii din viața reală nu vizitează și nu interacționează (adică încercați să cumpărați ceva).

sunt fost dezvoltator și, probabil, am făcut aceste greșeli de mai multe ori, dar pe atunci nu aveam un SEO care să fie o durere în fundul meu tot timpul arătând aceste lucruri (pe atunci, designeri de broșuri vechi de școală care nu înțelegeau limitarea tabelelor și CSS în linie unde durerea din fundul meu).

următoarele tehnici sunt metode încercate și testatepe care le-am folosit pentru a identifica aceste probleme în sălbăticie, deși pentru a proteja identitatea clienților mei și a dezvoltatorilor lor, am luat decizia dezinteresată de a configura câteva site-uri de testare folosind propriul conținut al site-ului pentru a ilustra ce trebuie să faceți, acestea fiind:

test.organicdigital.co
alitis.co.uk
deși până când citiți acest lucru, voi fi urmat propriul meu sfat și le-am luat în jos, am nevoie de toată vizibilitatea pe care o pot obține, ultimul lucru de care am nevoie sunt site-urile de testare indexate care mă țin înapoi.

1) proprietatea domeniului Google Search Console (GSC)

unul dintre lucrurile minunate despre noul GSC este că puteți configura proprietăți De domeniu care vă oferă informații cheie în toate subdomeniile asociate site – ului dvs. web-atât pe HTTP, cât și pe HTTPS. Pentru a configura acest lucru, pur și simplu selectați opțiunea de domeniu atunci când adăugați o proprietate (de asemenea, trebuie să efectuați sarcina potențial nu atât de simplă de a adăuga o înregistrare TXT la DNS-ul domeniului dvs.):

există o serie întreagă de motive pentru care o proprietate de domeniu este utilă, în acest caz este pentru că dacă aveți site-ul de testare configurat pe un subdomeniu și generează afișări și clicuri în căutare, puteți observa acest lucru din secțiunea „Performanță” filtrând sau comandând paginile:

în plus, ar trebui să verificați și secțiunea „acoperire” – înunele cazuri, Google vă va indexa conținutul:

în timp ce în alte cazuri, ei vor fața locului pe care le haveduplicate conținut în loc, și vă rugăm să se abțină de la indexare, caz în care youwuld găsi în secțiunea „duplicat, Google a ales diferite canonicaldecât utilizator”:

chiar dacă acesta este cazul, ar trebui să încercați în continuare să asiguraținu este târât în mișcare înainte.

2) Verificați Google SERPs folosind link Clump

dacă nu aveți acces la proprietățile domeniului GSC sau la orice accessto GSC (dacă nu, de ce nu?) apoi, puteți verifica SERP-urile pentru a vedea dacă există URL-uri de testau intrat în index.

aceasta este,de asemenea, o tehnică la îndemână atunci când pitching pentru noi afaceri, ce modalitate mai bună de a câștiga peste un potențial client decât de a face echipa lor de dezvoltare internă sauexternală să arate ca și cum ar juca cu vizibilitatea căutării moarte, permițând acest lucru să se întâmple în primul rând și că sunteți aici pentru a salva ziua.

pașii sunt după cum urmează:

i) instalați extensia LinkClump Google Chrome, care vă permite să copiați și să lipiți mai multe URL-uride la o pagină într-un loc mai util, cum ar fi Excel.

ii) modificați setările grupului de legături după cum urmează:

cel mai important de remarcat este acțiunea „copiat în clipboard”– ultimul lucru pe care doriți să se întâmple aici este de a deschide până la o sută de URL-uri atonce.

iii) accesați TLD-ul Google preferat (sau local), faceți clic pe „Setări” pe care ar trebui să îl vedeți în partea dreaptă jos a paginii și selectați „Setări de căutare” unde puteți seta „rezultate pe pagină” la 100.

iv) reveniți la pagina de pornire Google și utilizați „site:” queryoperator și adăugați domeniul dvs. Dacă utilizați www sau similar, eliminați acest lucru-deci comanda ar fi după cum urmează:
site:organicdigital.co

vi se va prezenta un eșantion de până la 300 de URL-uri indexate în prezent de Google în toate subdomeniile. În timp ce ai putea revizui manual fiecare resultto la fața locului site-uri necinstiți:

mi se pare mult mai rapid și mai ușor să faceți clic dreapta și trageți allthe drumul spre partea de jos a paginii. Youvill știu dacă Link Clump este de lucru ca veți vedea următoarele apar todenote link-uri sunt selectate și copiate:

repetați acest lucru în SERP-urile 2 și 3 Dacă sunt disponibile și, odată ce allURLs sunt lipite în Excel, utilizați Sortare după az pentru a identifica cu ușurință conținutul indexat în toate subdomeniile relevante.

3) Căutați Text unic pentru Site-ul dvs.

metodele de mai sus funcționează dacă site-ul dvs. de testare este găzduit pe asubdomain pe același domeniu ca site-ul dvs. live. Cu toate acestea,dacă site-ul dvs. de testare este situat în altă parte, de ex. test.webdevcompany.com, atunci nu vor funcționa. În acest caz, aceasta sau următoarele metodeputere.

găsiți un conținut pe care îl considerați unic pentru site – ul dvs. web – în cazul meu am ales linia de linie: „îmbunătățiți vizibilitatea și traficul Organic al site-ului dvs. web” – apoi căutați acest lucru între ghilimele. Dacă un site de testare care conține acest conținut a fost indexat, această căutare ar trebui să îl dezvăluie:

după cum puteți vedea, paginile de pornire de pe site-ul principal, sub-domeniul de testare și domeniul de testare separat apar toate. De asemenea, puteți observa din greșeală un concurent care v-a furat conținutul. Unii ar lua asta ca pe un compliment, alții ar emite DMCA – depinde de tine, dar ultimul lucru pe care îl vrei este cineva care te depășește cu propria copie.

4) accesați cu crawlere Site-ul folosind Screaming Frog

presupun că sunteți în SEO și, prin urmare, utilizați Screaming Frog. Dacă oricare dintre aceste răspunsuri este nu, atunci bine făcut pentru a face acest lucru departe în acest articol (lasă-mă să ghicesc că ești un dezvoltator care a scăzut un bollock și caută să-ți acopere fundul înainte ca altcineva să afle?).

dacă nu îl aveți, descărcați-l aici.

în setările de bază, bifați „accesați cu crawlere toate subdomeniile”. De asemenea, puteți bifa „urmați”nofollow ” intern”, deoarece unele medii de testare pot avea acest lucru.

odată ce crawl-ul este complet, citiți lista pentru a vedea dacă există legături interne pentru a testa site-urile. Am dat peste acest recent în cazul în care un nou site Drupal a intrat în direct, darcu toate link-urile interne din cadrul postărilor de pe blog care indică un subdomeniu beta:

puteți apoi să faceți clic pe fiecare URL de testare și să faceți clic pe InLinks în partea de jos pentru a găsi linkul intern ofensator de pe site-ul live to test. În acest caz, am modificat link-ul Contactați-ne pe sitemap pentru a indica adresa URL a testului:

odată reperat, modifica și re-crawl până acestea nu mai sunt link-uri interne luând vizitatori în altă parte. Dacă utilizați WordPress, utilizați un plugin de căutare / înlocuire pentru a găsi toate testele și a le înlocui cu cel live.

5) Verificați numele de gazdă Google Analytics

dacă site-ul dvs. de testare are același cod de stocare al Contului Google Analytics instalat ca site-ul dvs. live, veți putea observa acest lucru withinGA dacă accesați o secțiune precum „comportament” – > „conținut Site” – > „AllPages” și selectați „Hostname” ca dimensiune secundară:

în plus, puteți filtra datele în continuare prinexcludând din raport toate vizitele la domeniul principal, care vor lăsa toatealte instanțe din listă. În plus față de site-urile de testare, puteți descoperi, de asemenea, Spam-ul GA declanșat pe un site 3rdparty:

Google Analytics Exclude numele de gazdă

există argumente pro și contra pentru a avea același idrunning de urmărire GA atât în mediile dvs. live, cât și în cele de testare, dar personal, văd că noreason are conturi separate și, în schimb, ar crea mai multe vizualizări în cadrul unui singur cont. Pentru site-ul live,configurați un filtru pentru a include numai traficul către numele de gazdă live și vice versapentru site-ul de testare.

cum să eliminați și să împiedicați site-ul dvs. de testare să fie indexat

Deci ați descoperit site-ul dvs. de testare în index folosind unul dintre tehnicile de mai sus sau doriți să vă asigurați că nu se întâmplă în primul loc. Următoarele vă vor ajutacu aceasta:

1) Eliminați adresele URL prin GSC

dacă site-ul dvs. este indexat, indiferent dacă generează trafic saunu, cel mai bine este să îl eliminați. Pentru a faceacest lucru, puteți utiliza secțiunea „Eliminați adresele URL” din GSC „vechi”.

Notă, Acest lucru nu va funcționa la nivel de proprietate domeniu ca thesearen ‘ t furnizat în GSC vechi. Pentru a face acest lucru, trebuie să configurați configurați o proprietate pentru testdomeniu individual.

Odată configurat, „Accesați versiunea veche” și accesați „Index Google”-> „eliminați adresele URL”. De aici, selectați „TemporarilyHide” și introduceți ca un singur slash înainte ca URL-ul pe care doriți să îl blocați, care va depune întregul site pentru eliminare:

aceasta va elimina site-ul dvs. din SERP-uri timp de 90 de zile, pentru a vă asigura că nu se întoarce, trebuie să luați măsuri suplimentare. Una dintre următoarele va fi suficientă (și ar trebui să fie efectuată indiferent dacă puteți elimina prin GSC)

2) Setați eticheta robots la noindex pe site-ul de testare

cereți dezvoltatorilor dvs. să se asigure că atunci când rulează pe domeniul de testare, fiecare pagină de pe site generează o etichetă robots noindex:

<meta name="robots" content="noindex" />

dacă site-ul dvs. este WordPress, puteți seta acest lucru prin „Setări” – > „citire” și selectând „descurajați motoarele de căutare să indexeze acest site”:

indiferent de codul sau setările pe care le utilizați pentru a preveni indexarea site-ului de testare, trebuie să vă asigurați că acesta nu este migrat pe site-ul live atunci când newcontent sau funcționalitatea este făcută live. Setările site-ului de testare care merg în direct sunt una dintre cele mai comune și mai sigure căi de a încurca vizibilitatea site-ului dvs. live.

3) parola proteja site-ul de testare

din panoul de control web sau prin intermediul serverului, passwordprotect directorul în care se află site-ul de testare. Există numeroase modalități de a face acest lucru – bestbet este să cereți companiei dvs. de găzduire sau dezvoltatorilor să configureze acest lucru sau, există o mulțime de resurse bune care vă vor arăta cum să faceți acest lucru, cum ar fi:

https://one-docs.com/tools/basic-auth

odată blocat, ar trebui să vedeți o casetă de alertă atunci când încercați săacces site-ul dvs. de testare:

https://alitis.co.uk/

acest lucru va împiedica motoarele de căutare să acceseze cu crawlere și să indexeze site-ul.

4) ștergeți site-ul și returnați starea paginii 410

dacă nu mai aveți nevoie de site-ul dvs. de testare, puteți pur și simpluștergeți-l. Când motoarele de căutare încearcăvizitați paginile pe mai mult timp, vor vedea că paginile sunt șterse. În mod implicit, o pagină rupt va reveni status404 („nu a fost găsit”) – în timp ce acest lucru va primi site-ul de-indexate în timp, acesta willtake un timp ca nu va fi follow-up vizite pentru a vedea dacă pagina rupt a revenit.

în schimb, setați starea la 410 („definitiv plecat”), care va returna următorul mesaj:

pentru a face acest lucru pe un întreg domeniu, ștergeți site-ul șilăsați .fișier htaccess în loc cu următoarea comandă:

Redirect 410 /

acest lucru va asigura site-ul devine de-indexate la prima timeof cere (sau cel puțin mai repede decât o 404)

5) blocați prin roboți.txt

puteți bloca accesarea cu crawlere a site-ului implementând următoarele comenzi în roboții site-ului de testare.fișier txt:

User-agent: *Disallow: /

acest lucru va împiedica roboții să acceseze cu crawlere site-ul. Notă: dacă site-ul dvs. de testare este indexat în prezent și ați parcurs traseul de adăugare a etichetelor noindex pe site,nu adăugațiroboți.comanda txt în până când toate paginile au fost de-indexate. Dacă adăugați acest lucru înainte ca toate paginile să fie dezindexate,acest lucru le va împiedica să fie accesate cu crawlere și eticheta roboților detectată, astfel încât paginile vor rămâne indexate.

și asta este – sper că cele de mai sus vor fi suficiente pentru dvs. găsiți, deindex și împiedicați testul dvs. să fie târât vreodată.

dar amintiți – vă

nu pot sublinia acest lucru suficient-dacă decideți să implementați meta tag-uri sau roboți.txt care interzice toate roboții de la crawling andindexing site-ul dvs. de testare, asigurați-vă că atunci când puneți site-ul dvs. de testare în direct că donot transporta aceste configurații pe site-ul live, deoarece veți risca să pierdeți vizibilitatea yourorganic cu totul.

și am fost cu toții acolo, nu?

NCPEA Professor

Blog, Lifestyle and News