Gennaio 27, 2022

L’Organico Digitale Blog

Questo è un post di un blog in due (grandi) pagine – vivere e di gestione temporanea dei siti:

Parte 1: Come Verificare se Google ha Indicizzato il Tuo Sito Live

Parte 2: Come Verificare Se Google ha Indicizzato il Tuo Allestimento/Sito di Prova

Come faccio a capire se Google ha indicizzato il mio sito live?

Ci sono due modi semplici per scoprirlo:

Usa il sito: query operator

Cerca il tuo dominio su Google come segue: site:organicdigital.co
Se il tuo sito è indicizzato, si vedrà un elenco di pagine:

Sito dell'Operatore di Query

Se non viene restituito alcun risultato, quindi si possono avere problemi:

Sito dell'Operatore di Query con Nessun risultato

Nota: su più siti, mentre potrete vedere un’approssimazione di quante pagine sono indicizzate, lei sarà solo in grado di vedere effettivamente circa 300 di loro in Serp.

Controlla la sezione Copertura di Google Search Console

Ogni sito web dovrebbe avere un account GSC, è, a mio parere, il più grande strumento che un proprietario di un sito o SEO può utilizzare e fornisce una ricchezza di informazioni sulla visibilità e le prestazioni organiche del tuo sito. Se non ne hai uno, vai alla pagina GSC ufficiale, se lo fai, vai alla sezione Copertura dove puoi vedere una ripartizione di:

  • Errori riscontrati durante la scansione di pagine
  • Pagine bloccate
  • Pagine indicizzate valide
  • Pagine escluse
GSC Coverage Report

Se il tuo sito ha problemi, questi saranno segnalati sotto “errore” o “escluso” – e puoi scoprire i motivi per cui non vengono inclusi nella ricerca come:

  • Pagina alternativa con tag canonical corretto
  • Crawled – currently not indicized
  • Duplicate senza canonical selezionato dall’utente
  • Escluso dal tag ‘noindex’
  • Crawl anomaly
  • Not found (404)

Se le pagine del tuo sito non vengono visualizzate nella sezione “valida”, potresti avere problemi.

Utilizzare l’URL Ispezionare Funzione In GSC

Se alcune pagine sono indicizzate e altri non lo sono, allora si può anche utilizzare l’URL Ispezionare strumento per vedere se Google è in grado di eseguire la scansione e indicizzare una pagina specifica, oppure se ci sono altri problemi che gli impediscono di apparire nella ricerca – questo è nel menu in alto e vi permetterà di controllare un URL al momento:

GSC URL Ispezionare lo Strumento

Se la pagina è indicizzata, fornirà i dettagli come segue:

 Dati della pagina indicizzati GSC

In caso contrario, si ottiene questo stato che mostra quando Google ha tentato di eseguire la scansione della pagina e alcune informazioni sul motivo per cui non è indicizzata:

GSC Dati delle pagine non indicizzati

Perché Google non esegue la scansione o indicizza le mie pagine?

Ci sono generalmente due motivi per cui una pagina non può essere scansionata o indicizzata. Questi sono particolarmente comuni quando un nuovo sito è stato avviato o migrato e le impostazioni dall’ambiente di sviluppo sono state trasferite.

I robot.txt Disallow Direttiva

Questo è dove il sito, una directory o una pagina sono bloccati dalla scansione da parte dei robot.file txt.

Ogni sito dovrebbe avere un robot.file txt, questo è usato per dare direttive ai motori di ricerca su quali sezioni del tuo sito dovrebbero e non dovrebbero essere scansionate.

Se ne hai uno, lo troverai nella tua directory principale sotto il nome di robot.txt

https://organicdigital.co/robots.txt

Le direttive che impedirebbero la scansione di un sito, di una directory o di una pagina sarebbero le seguenti:

Disallow: /Disallow: /directory/Disallow: /specific_page.html

Puoi anche usare Screaming Frog per tentare di eseguire la scansione del tuo sito. Se non è in grado di farlo, vengono visualizzati i seguenti dati di scansione:

Screaming Frog Robots Issue

Ci sono molte ragioni valide per bloccare i motori di ricerca che utilizzano questa direttiva, ma se vedi qualcosa sulla falsariga di quanto sopra, devi modificarli per consentire la scansione del tuo sito.

Come modificare un robot.file txt Manualmente

Se si ha accesso a FTP o avere uno sviluppatore a portata di mano, è possibile modificare manualmente i robot.file txt per rimuovere tutte le direttive che bloccano il tuo sito dalla scansione.

Generalmente, il seguente comando farà questo:

User-agent: *Allow: /

Come modificare un robot.File txt in WordPress

Se hai installato il plugin Yoast, puoi modificare il tuo file direttamente tramite la sezione Strumenti -> Editor di file – segui questo link per istruzioni su come farlo.

 Yoast robots.editor txt

Come modificare un robot.File txt in Magento

Vai al contenuto- > Design – > Configurazione, fai clic nella visualizzazione del tuo negozio pertinente e modifica “Robot dei motori di ricerca”

Impostazioni robot Magento

Il Meta Tag Robot è impostato su Noindex e/o Nofollow

Oltre ai robot.file txt, puoi anche controllare il meta tag robot all’interno del codice sorgente del tuo sito e assicurarti che non impedisca ai motori di ricerca di strisciare.

Se controlli il tuo codice sorgente, se non vedi un meta tag robot, o, è impostato su ” indice “o” indice,segui ” – allora questo non è il problema. Tuttavia, se vedi che dice “noindex”, significa che la tua pagina può essere scansionata ma non verrà indicizzata:

Noindex Tag Nel codice sorgente

Ancora una volta, è possibile utilizzare Urlando Rana per controllare lo stato dei tag robot sul tuo sito. Se il tag è impostato su noindex, nofollow non andrà oltre la home page:

Screaming Frog Robots Noindex / Nofllow Issue

Se è impostato su noindex, l’intero sito può ancora essere scansionato ma non indicizzato:

Screaming Frog Robots Noindex/Nofllow Problema

Come Modificare il Meta Tag Robots File Manualmente

di Nuovo sulla pagina del tuo sito/modello direttamente e sostituire/aggiungere il seguente tag:

<meta name="robots" content="index, follow">

Come Modificare il Meta Tag Robots in WordPress

Ci sono due modi per fare questo – se il problema è a livello di sito vai a Impostazioni -> Lettura e garantire la “Scoraggiare i motori di ricerca di indicizzare questo sito” non è selezionata:

Wordpress Noindex Impostazione del Sito

posso sbagliarmi, ma credo che l’unico modo in cui una pagina specifica o un post può essere impostato per l’indice o noindex se si utilizza Yoast, in modo da andare a pagina/post e verificare le seguenti impostazioni ai piedi della pagina:

Yoast NoIndex Impostazione

Come Modificare il Meta Tag Robots in Magento

Come prima, vai al Contenuto -> Design> Configurazione, fare clic nel tuo Negozio relativo Visualizzare e modificare il “Default Robot” a tendina l’opzione:

 Robot Meta in Magento

Il mio sito / Pagine può essere scansionato e indicizzato da Google-Che cosa dopo?

Una volta che si è soddisfatti che i vostri robot.il file txt e il meta tag robot sono corretti, puoi nuovamente utilizzare lo strumento Inspect URL per controllare la tua pagina e richiedere che Google esegua la scansione e indicizzi la tua pagina:

GSC Richiesta indicizzazione

Ho anche un account Bing Webmaster!

Lo fai? Pensavo di essere l’unico. Ok, puoi fare praticamente tutte le stesse cose scritte in questo articolo in Bing Webmaster Tools come puoi in GSC – quindi ispeziona l’URL e richiedi l’indicizzazione:

Indicizzazione delle richieste Bing

Ho fatto tutto questo e il mio sito / pagine non sono ancora indicizzati!

In tal caso, è necessario approfondire la configurazione e la funzionalità del proprio sito Web per identificare quali altri problemi potrebbero esserci. Posso aiutarvi con se si compila il modulo di contatto qui sotto.

Parte 2:

Qualcuno che ha appena realizzato il proprio sito di test è indicizzato

Come: controlla se il tuo sito di staging è indicizzato da Google

Solo tre cose sono certe nella vita: morte, tasse e il tuo sito di test viene indicizzato da Google.

Molto raramente si incontra un nuovo avvio del sito senza che ad un certo punto si renda conto che il server di staging è stato lasciato aperto ai bot per venire a strisciare e indicizzare.

non È necessariamente la fine del mondo se una ricerca enginewere per indicizzare un sito di prova, come è abbastanza facile da risolvere – ma se si arerunning un ambiente di test a lungo termine per sviluppare nuove funzionalità a fianco di un livesite, quindi è necessario assicurarsi che sia protetto correttamente il più presto possibile toavoid i problemi di contenuti duplicati, e per garantire la vita reale gli esseri umani non visitare andinteract (cioè provare a comprare qualcosa).

Sono precedentemente uno sviluppatore e probabilmente ho commesso questi errori più di una volta, ma all’epoca non avevo un SEO che era un dolore nel mio culo per tutto il tempo che indicava queste cose (allora, brochure della vecchia scuola-come-web designer che non capivano la limitazione delle tabelle e dei CSS in linea dove il dolore nel mio culo).

Le seguenti tecniche sono tutti provati e testati methodsthat ho usato per identificare questi problemi in natura, anche se per proteggere l’identità dei miei clienti e i loro sviluppatori, ho preso la decisione altruista per impostare upa paio di siti di prova con il mio contenuto del sito web al fine di illustrare whatyou bisogno di fare, quelle in essere:

prova.organicdigital.co
alitis.co.uk
anche Se dal momento in cui leggerete questo, ho seguito il mio stesso consiglio e preso questi giù, ho bisogno di tutta la visibilità che posso ottenere, l’ultima cosa di cui ho bisogno sono indicizzati i siti di test per riportarmi indietro.

1) Proprietà del dominio Google Search Console (GSC)

Una delle grandi cose del nuovo GSC è che puoi impostare le proprietà del dominio che ti offrono informazioni chiave su tutti i sottodomini associati al tuo sito Web, sia su HTTP che su HTTPS. Per impostare questo, è sufficiente selezionare l’opzione di dominio quando si aggiunge una proprietà (è inoltre necessario eseguire il compito potenzialmente non così semplice di aggiungere un record TXT al DNS del dominio):

GSC Proprietà del Dominio

Ci sono tutta una serie di motivi per cui un dominio di proprietà è utile, in questo caso, perché se hai un tuo sito di prova per impostare su un sotto-dominio e generare impressioni e clic in ricerca, si possono osservare dall’interno la “Performance” sezione per filtrare o ordinare le vostre pagine:

GSC Dati di Performance

inoltre, si dovrebbe anche controllare la “copertura” di sezione, in determinati casi, Google l’indicizzazione dei contenuti:

GSC Dati Indicizzati

Mentre In altri casi, si noterà che si haveduplicate i contenuti, e gentilmente di astenersi dall’indicizzazione, nel qual caso youwould si trovano all’interno della sezione “Duplicati, Google ha scelto diversi canonicalthan utente”:

GSC Diversi Canonico

Anche se questo è il caso, si dovrebbe sempre sforzarsi di ensureit non sottoposte a ricerca per indicizzazione in movimento in avanti.

2) Controlla Google SERP usando Link Clump

Se non hai accesso alle proprietà del dominio GSC o a qualsiasi accesso a GSC (in caso contrario, perché no?) quindi puoi controllare le SERP per vedere se qualche URL di test si è fatto strada nell’indice.

Questa è anche una tecnica utile quando pitching per il nuovo business,quale modo migliore per conquistare un potenziale cliente che rendere il loro team di sviluppo interno o esterno simile a quello che stanno sminuendo con la visibilità della ricerca permettendo che ciò accada in primo luogo, e che tu sia qui per salvare il giorno.

I passaggi sono i seguenti:

i) installa l’estensione LinkClump Google Chrome, che ti consente di copiare e incollare più URL da una pagina in un posto più utile come Excel.

ii) Modificare le impostazioni del gruppo di collegamento come segue:

Impostazioni collegamento Clump

Il più importante da notare è l’azione “copiato negli appunti”– l’ultima cosa che vuoi che accada qui è quello di aprire fino a un centinaio di URL atonce.

iii) Vai al tuo TLD Google preferito (o locale), fai clic su “impostazioni” che dovresti vedere in basso a destra della pagina e seleziona “impostazioni di ricerca” dove puoi impostare i tuoi “risultati per pagina” su 100.

iv) Tornare alla home page di Google e utilizzare il” sito: “queryoperator e aggiungere il dominio. Se usi www o simile, rimuovi questo-quindi il comando sarebbe il seguente:
site:organicdigital.co

Ti verrà presentato un campione di fino a 300 URL Attualmente indicizzati da Google in tutti i sottodomini. Mentre si potrebbe rivedere manualmente ogni resultto individuare siti canaglia:

Sito di test in SERPS

Trovo molto più veloce e più facile fare clic con il tasto destro e trascinare allthe fino in fondo alla pagina. Youwill sapere se Collegamento ciuffo sta lavorando come si vedrà il seguente verificarsi todenote collegamenti vengono selezionati e copiati:

 Gruppo di collegamento in azione
URL in Excel

Ripetere questa operazione su SERP 2 e 3 se disponibile, e una volta che allURLs sono incollati in Excel, utilizzare ordina per AZ per identificare facilmente il tuo indexedcontent in tutti i sottodomini pertinenti.

3) Cerca testo unico per il tuo sito

I metodi di cui sopra funzionano se il tuo sito di test è ospitato su asubdomain sullo stesso dominio del tuo sito web live. Tuttavia, se il sito di test si trova altrove,ad esempio test.webdevcompany.com, allora non funzioneranno. Nel qual caso, questo o il seguente metodomigliore.

Trova alcuni contenuti che ritieni siano unici per il tuo sito web – nel mio caso sono andato con la linea di: “Migliora la visibilità e il traffico organico del tuo sito Web” – quindi cerca questo tra virgolette. Se un sito di test contenente questo contenuto è stato indicizzato, questa ricerca dovrebbe rivelarlo:

Siti di test in SERP Di nuovo

Come si può vedere, le home page del sito principale, sub dominio di prova e dominio di prova separato appaiono tutti. Si può anche inavvertitamente individuare un concorrente che ha strappato il contenuto. Alcuni lo prenderebbero come un complimento, altri emetterebbero DMCA – dipende da te, ma l’ultima cosa che vuoi è qualcuno che ti supera con la tua copia.

4) Eseguire la scansione del sito Utilizzando Urlando rana

Presumo che sei in SEO e quindi utilizzare Urlando rana. Se una di queste risposte è no, allora ben fatto per averlo fatto fino a questo punto in questo articolo (fammi indovinare sei uno sviluppatore che ha lasciato cadere un bollock e cerca di coprirti il culo prima che qualcun altro lo scopra?).

Se non ce l’hai, scaricalo qui.

All’interno delle impostazioni di base, selezionare “Scansione di tutti i sottodomini”. Puoi anche spuntare “Segui’ nofollow ‘interno” poiché alcuni ambienti di test potrebbero averlo in atto.

Una volta completata la scansione, esaminare l’elenco per vedere se ci sono collegamenti interni in atto per testare i siti. Mi sono imbattuto in questo di recente in cui un nuovo sito Drupal era andato in diretta butwith tutti i link interni all’interno dei post del blog che puntano a un sottodominio beta:

Urlando rana Crawl

È quindi possibile fare clic su ogni URL di prova e fare clic su InLinks athe fondo per trovare il collegamento interno incriminato dal vivo al sito di test. In questo caso, ho modificato il link Contattaci sulla mappa del sito per puntare all’URL di test:

Urlando rana Collegamenti interni

Una volta individuato, modificare e re-crawl fino a questi non sono più links interni portando i visitatori altrove. Se stai usando WordPress, usa un plugin di ricerca / sostituzione per trovare tutti i testURLs e sostituirli con quello live.

5) Controllo di Google Analytics Hostname

Se il tuo sito di prova è lo stesso account di Google Analytics’stracking codice installato come il vostro sito vivo, si sarà in grado di individuare questo withinGA se si va in una sezione come “Comportamento” -> “Contenuto del Sito” -> “AllPages” e selezionare “Hostname” come dimensione secondaria:

Google Analytics Hostname

oltre a questo, è anche possibile filtrare ulteriormente i dati byexcluding dal report tutte le visite per il dominio principale, che lascerà allother istanze nell’elenco. Oltre a testare i siti, puoi anche scoprire che lo spam GA viene attivato su un sito 3rdparty:

Google Analytics Esclude Hostname

Ci sono pro e contro nell’avere lo stesso GA tracking IDrunning su entrambi i tuoi ambienti live e test, ma personalmente, vedo noreason avere account separati e invece creerebbe più visualizzazioni all’interno del tuo account. Per il sito live,impostare un filtro per includere solo il traffico verso il nome host live e viceversa per il sito di test.

Come rimuovere e impedire che il tuo sito di test venga indicizzato

Quindi hai scoperto il tuo sito di test nell’indice usando una delle tecniche sopra, o, vuoi assicurarti che non accada nel primo posto. Quanto segue sarà tutto d’aiutocon questo:

1) Rimuovi URL tramite GSC

Se il tuo sito è indicizzato, sia che stia generando traffico o no, è meglio rimuoverlo. Per fare questo, è possibile utilizzare la sezione “Rimuovi URL” dal “vecchio” GSC.

Nota, questo non funzionerà a livello di proprietà del dominio in quanto questi non sono soddisfatti nel vecchio GSC. Per fare questo, è necessario impostare impostare una proprietà per il singolo testdomain.

Una volta impostato, “Vai alla vecchia versione” e vai a “Google Index” – > “Rimuovi URL”. Da qui, seleziona “TemporarilyHide” e inserisci come singola barra in avanti l’URL che desideri bloccare che invierà l’intero sito per la rimozione:

GSC Rimuovi URL

Questo rimuoverà il tuo sito dalle SERP per 90 giorni, inorder per assicurarti che non ritorni, devi prendere ulteriori misure. Uno dei seguenti sarà sufficiente (e shouldbe effettuato indipendentemente dal fatto che si è in grado di Rimuovere in via GSC)

2) Impostare il robot tag noindex sul sito di prova

Chiedi agli sviluppatori per garantire che quando si esegue il test di dominio,ogni pagina attraverso il sito genera un robot tag noindex:

<meta name="robots" content="noindex" />

Se il tuo sito WordPress, è possibile impostare questa, tramite “Impostazioni” -> “Lettura” e selezionando “Scoraggiare i motori di ricerca di indicizzare questo sito”:

Wordpress Reading Settings

Qualunque sia il codice o le impostazioni utilizzate per impedire che il sito di test venga indicizzato, è necessario assicurarsi che questo non venga migrato al sito live quando newcontent o funzionalità vengono resi live. Le impostazioni del sito di test in diretta sono una delle più comuni e sicure vie per rovinare la visibilità del tuo sito live.

3) Proteggere con password il sito di test

Dal pannello di controllo web o tramite il server, passwordproteggere la directory in cui risiede il sito di test. Ci sono molti modi per fare questo: il bestbet è quello di chiedere la vostra società di hosting o gli sviluppatori di questa configurazione, o, vi è un sacco di buone risorse là fuori che vi mostrerà come fare questo, come:

https://one-docs.com/tools/basic-auth

una Volta bloccato, si dovrebbe vedere una finestra di avviso quando si tenta toaccess il vostro sito di prova:

https://alitis.co.uk/

Protetta da Password del Sito

Questo consentirà di evitare i motori di ricerca di eseguire la scansione e l’indicizzazione il sito.

4) Elimina il sito e restituisce lo stato della pagina 410

Se non hai più bisogno del tuo sito di test, puoi semplicemente eliminarlo. Quando i motori di ricerca provano a visitare le pagine più a lungo, vedranno che le pagine vengono eliminate. Per impostazione predefinita, una pagina interrotta restituirà status404 (“Non trovato”) – mentre questo renderà il sito deindicizzato nel tempo, richiederà un po ‘ di tempo poiché ci saranno visite di follow-up per vedere se la pagina interrotta è tornata.

Invece, imposta lo stato su 410 (“Permanentemente Andato”) che restituirà il seguente messaggio:

 Stato 410

Per fare ciò su un intero dominio, eliminare il sito elasciare il .file htaccess in posizione con il seguente comando:

Redirect 410 /

Ciò garantirà che il sito venga deindicizzato alla prima volta (o almeno più veloce di un 404)

5) Blocco tramite robot.txt

È possibile bloccare la scansione del sito implementando i seguenti comandi nei robot del sito di test.file txt:

User-agent: *Disallow: /

Ciò impedirà ai bot di eseguire la scansione del sito. Nota: se il tuo sito di test è attualmente indicizzato e hai percorso la strada dell’aggiunta di tag noindex al sito, non aggiungerei robot.comando txt fino a quando tutte le pagine sono state deindicizzate. Se si aggiunge questo prima che tutte le pagine siano deindicizzate, ciò impedirà loro di essere scansionati e il tag robot rilevato, quindi le pagine rimarranno indicizzate.

E il gioco è fatto – spero che quanto sopra sarà sufficiente per voi tofind, deindex e impedire che il test venga strisciato mai più.

Ma Ricorda

Non posso sottolinearlo abbastanza – se decidi di implementarerobots meta tag o robot.txt che non consente a tutti i bot di eseguire la scansione e l’indicizzazione del sito di test, assicurati che quando metti in diretta il tuo sito di test non porti queste configurazioni al sito live, poiché rischi di perdere del tutto la tua visibilità organica.

E siamo stati tutti lì, giusto?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.