Como: saber Se os Sites URLs que Estão Sendo Rastreados & Indexadas por Google | Organic Digital UK

Janeiro 27, 2022

Orgânica Digital Blog

Esta é uma postagem de blog em dois (grandes) páginas – vivo e a preparação de sites:

Parte 1: Como Verificar se o Google tem Indexadas do Seu Site ao Vivo

Parte 2: Como Verificar Se o Google tem Indexadas do Seu Teste/Teste do Site

Como posso saber se o Google tem indexadas meu site ao vivo?

existem duas maneiras simples de descobrir:

Use o site: query operator

pesquise seu domínio no Google da seguinte forma:site: organicdigital.co
Se o seu site é indexado, você verá uma lista das páginas:

Se nenhum resultado for retornado, então você pode ter problemas:

Site do Operador de Consulta Sem Resultados

Nota: nos maiores sites, enquanto você verá uma aproximação de quantas páginas são indexadas, você vai apenas ser capaz de ver cerca de 300 delas no SERPs.

Verifique a seção de cobertura do Google Search Console

cada site deve ter conta GSC, é, na minha opinião, a maior ferramenta que um proprietário de site ou SEO pode usar e dá uma riqueza de informações sobre a visibilidade orgânica e desempenho do seu site. Se você não tiver um, vá para a página oficial do GSC, se tiver, vá para a seção de cobertura onde você pode ver um detalhamento de:

Erros foram encontrados enquanto o rastreamento de páginas
Páginas que são bloqueados
Válido páginas indexadas
Páginas que são excluídos

Se o seu site tiver problemas, estas serão informadas como “erro” ou “excluídos” – e você pode descobrir as razões por que eles não estão sendo incluídos na pesquisa, tais como:

página Alternativa com a devida canonical tag
Rastreado – atualmente não indexados
Duplicar sem selecionado pelo usuário canônico
Excluídos por “noindex” etiqueta
Rastreamento de anomalias
Não encontrado (404)

Se as páginas do seu site não aparece no “válido” seção, você poderá ter problemas.

Use a URL Inspecionar Função Na GSC

Se algumas páginas são indexadas e outros não, então você também pode usar a URL Inspecionar ferramenta para ver se o Google é capaz de rastrear e indexar uma página específica, ou se existem outros problemas que o impeçam de aparecer na pesquisa – este é o menu superior e permitirá que você verifique uma URL no momento:

Se a sua página é indexada, ele vai te dar detalhes como segue:

Se não, você tem esse status, que mostra quando o Google tentou rastrear a página e algumas dicas sobre o porquê de não indexado:

Por que o Google não indexará Minhas Páginas?

existem geralmente duas razões pelas quais uma página não pode ser rastreada ou indexada. Isso é particularmente comum quando um novo site foi iniciado ou migrado e as configurações do ambiente de desenvolvimento foram transferidas.

os robôs.Diretiva txt Disallow

é aqui que o site, um diretório ou uma página são bloqueados de serem rastreados pelos robôs.arquivo txt.

cada site deve ter um robô.arquivo txt, isso é usado para dar diretivas aos mecanismos de pesquisa sobre quais seções do seu site devem e não devem ser rastreadas.

se você tiver um, você vai encontrá-lo em seu diretório raiz sob o nome robôs.txt

https://organicdigital.co/robots.txt

as diretivas que impediriam que um site, diretório ou página fosse rastreado seriam as seguintes:

Disallow: /Disallow: /directory/Disallow: /specific_page.html

você também pode usar Screaming Frog para tentar rastrear seu site. Se ele é incapaz de fazê-lo, você verá o seguinte rastreamento de dados:

Há muitas razões válidas para bloquear os motores de busca usando esta diretiva, mas se você ver algo ao longo das linhas acima, você precisa alterar estes para permitir o rastreamento de seu site.

como alterar um robô.arquivo txt manualmente

se você tiver acesso ao FTP ou tiver um desenvolvedor em mãos, poderá alterar manualmente os robôs.arquivo txt para remover quaisquer diretivas que estão bloqueando seu site de rastreamento.

Geralmente, o seguinte comando fará isso:

User-agent: *Allow: /

como alterar um robô.arquivo txt no WordPress

se você tiver o plugin Yoast instalado, poderá editar seu arquivo diretamente através da seção Ferramentas – > Editor de arquivos-siga este link para obter instruções sobre como fazer isso.

como alterar um robô.o Arquivo txt no Magento

Ir para Conteúdo> Design> Configuração, clique em seu respectivo Armazenamento de Visualizar e editar “Robôs de mecanismos de Busca”

, A Meta Tag Robots é Definido para Noindex e/ou Nofollow

além dos robôs.arquivo txt, você também pode verificar a meta tag robots dentro do código-fonte do seu site e garantir que não esteja impedindo que os mecanismos de pesquisa rastreiem.

se você verificar seu código – fonte, se você não vir uma meta tag robots, ou se ela estiver definida como “index” ou “index,follow” – então esse não é o problema. No entanto, se você perceber que diz “noindex”, isso significa que sua página pode ser rastreada, mas não será indexada:

novamente, você pode usar Screaming Frog para verificar o status de suas tags de robôs em seu site. Se a sua marca é definido para o noindex,nofollow não ultrapassam a página inicial:

Gritando Sapo Robots Noindex/Nofllow Problema

Se ele apenas é definido para noindex, todo o site ainda pode ser rastreado, mas não indexados:

Como Alterar a Meta Tag Robots Arquivo Manualmente

Novamente, acessar o site da página/modelo diretamente e substitua o/adicione a seguinte tag:

<meta name="robots" content="index, follow">

Como Alterar a Meta Tag Robots no WordPress

Há duas maneiras de o fazer – se o problema é ampla do site ir para Configurações -> Leitura e assegurar a “Desencorajar motores de busca de indexar este site” não está marcada:

posso estar errado, mas eu acho que a única forma de uma página específica ou um post pode ser definida como índice ou noindex se você estiver usando o Yoast, então, vá para a página/post e verifique o seguinte definição no pé da página:

Como Alterar a Meta Tag Robots em Magento

Como antes, ir para o Conteúdo -> Design> Configuração, clique em seu respectivo Armazenamento de Visualizar e alterar o Padrão “Robôs” pendente opção:

meu Site / Páginas pode ser rastreado e indexado pelo Google – o que vem a seguir?

uma vez que você está satisfeito que seus robôs.o arquivo txt e meta tag robots estão corretas, você pode usar novamente a Inspecionar URL ferramenta para verificar se sua página e solicitar que o Google rastreia e indexa a sua página:

eu Também Tenho um Bing Webmaster Conta!

você? Eu pensei que era o único. Ok, você pode fazer praticamente todas as mesmas coisas escritas neste artigo no Bing Webmaster Tools como você pode no GSC – então inspecione o URL e solicite indexação:

eu fiz tudo isso e meu Site / Páginas ainda não estão indexados!

nesse caso, você precisa aprofundar a configuração e a funcionalidade do seu site para identificar quais outros problemas podem haver. Posso ajudá-lo se você preencher o formulário de contato abaixo.

Parte 2:

Alguém Que Já Perceberam o Teste de Site É Indexado

Como: Verificar Se o Seu Preparo Site É Indexado Pelo Google

Apenas três coisas são certas na vida: a morte, os impostos e o seu site de teste recebendo indexados pelo Google.

muito raramente você se depara com um novo lançamento de site sem em algum momento perceber que o servidor de teste foi deixado aberto a bots para rastrear e indexar.

Ele não é necessariamente o fim do mundo se uma pesquisa enginewere para indexar um site de teste, como é bastante fácil de resolver, mas se você arerunning um ambiente de teste de longo prazo para desenvolver novas funcionalidades ao lado de um livesite, em seguida, você precisa garantir que ela seja protegida corretamente o mais cedo possível toavoid problemas de conteúdo duplicado, e para garantir a real vida que os humanos não visitar andinteract (i.e. tentar comprar algo).

eu sou um ex programador, e provavelmente fez esses erros me mais de uma vez, mas naquela época eu não sabia o SEO a ser uma dor na minha bunda o tempo todo apontando essas coisas (de volta, em seguida, antiga escola brochura-vir-web designers que não entendi a limitação de tabelas e CSS inline, onde a dor na minha bunda).

As seguintes técnicas são todas testadas e methodsthat eu tenho usado para identificar esses problemas na natureza, apesar de a proteger o identityof meus clientes e seus desenvolvedores, tomei a decisão altruísta para definir upa par de sites de teste usando o meu próprio conteúdo do site a fim de ilustrar whatyou precisa fazer, sendo:

teste.organicdigital.co
alitis.co.reino unido
Que pelo tempo que você ler isso, eu vou ter seguido meu próprio conselho e levado destas para baixo, eu preciso de toda a visibilidade que eu possa obter, a última coisa que eu preciso são indexados sites de teste me segurando.

1) Propriedade de domínio do Google Search Console (GSC)

uma das grandes coisas sobre o novo GSC é que você pode configurar propriedades de domínio que fornece informações importantes em todos os subdomínios associados ao seu site – em HTTP e HTTPS. Para configurar isso, basta selecionar a opção domínio ao adicionar uma propriedade (você também precisa realizar a tarefa potencialmente não tão simples de adicionar um registro TXT ao DNS do seu domínio):

Há toda uma série de razões pelas quais um domínio de propriedade é útil, nesse caso é porque se você tem o seu site de teste configurado em um sub-domínio e geração de impressão e clicar em pesquisar, você pode ver isso de dentro de “Performance”, secção de filtragem e ordenação de suas páginas:

além disso, você também deve verificar a “cobertura” secção – insome casos, o Google irá indexar o seu conteúdo:

E Em outros casos, eles irão perceber que você haveduplicate conteúdo no local, e gentilmente abster-se de indexação, caso em que youwould encontrá-lo dentro da secção “Duplicados, o Google optou por diferentes canonicalthan usuário”:

Mesmo se este for o caso, você ainda deve se esforçar para ensureit não é rastreado movendo-se para frente.

2) Verifique os SERPs do Google usando o link Clump

se você não tiver acesso às propriedades do domínio GSC ou a qualquer acesso ao GSC (se não, por que não?) então você pode verificar os SERPs para ver se algum URLshave teste fez o seu caminho para o índice.

Esta também é uma técnica útil quando lançando para novos negócios,qual a melhor forma de conquistar um cliente em potencial do que para fazer a sua interno orexternal equipe de desenvolvimento de olhar como eles são cubos com visibilidade de pesquisa deathby permitindo que isso aconteça, em primeiro lugar, e que você está aqui para salvar theday.

as etapas são as seguintes:

I) instale a extensão LinkClump Google Chrome, que permite copiar e colar vários URLsfrom de uma página para algum lugar mais útil como o Excel.

ii) altere as configurações do Clump do Link da seguinte forma:

o mais importante a notar é a ação “copiado para a área de transferência”– a última coisa que você quer acontecer aqui é abrir até cem URLs atonce.

iii) vá para o seu TLD do Google favorito (ou local), clique em” configurações “que você deve ver no canto inferior direito da página e selecione” Configurações de pesquisa “ondevocê pode definir seus” resultados por página ” para 100.

iv) retorne à página inicial do Google e use o” site: “queryoperator e anexe seu domínio. Se vocêuse www ou similar, remova isso – então o comando seria o seguinte:
site:organicdigital.co

, Você será presenteado com uma amostra de até 300 URLscurrently indexado pelo Google em todos os subdomínios. Embora você possa revisar manualmente cada resultto detectar sites desonestos:

acho muito mais rápido e fácil clicar com o botão direito e arrastar todo o caminho até o final da página. Youwill saber se Link Clump está funcionando como você vai ver o seguinte ocorrer todenote links estão sendo selecionados e copiados:

Repetir isso em SERPs 2 e 3, se disponível, e uma vez allURLs são colados no Excel, use classificar de A A Z para identificar facilmente o seu indexedcontent, em todas as sub-domínios.

3) pesquise texto exclusivo para o seu Site

os métodos acima funcionam se o seu site de teste estiver hospedado no asubdomain no mesmo domínio do seu site ao vivo. No entanto,se o seu site de teste estiver localizado em outro lugar, por exemplo. test.webdevcompany.com, então eles não vão funcionar. Nesse caso, este ou os seguintes métodosmight.

encontre algum conteúdo que você acredita ser exclusivo do seu site – no meu caso, eu escolhi a linha de: “melhore a visibilidade e o tráfego orgânico do seu site” – então pesquise isso entre aspas. Se um site de teste contendo esse conteúdo tiver sido indexado, essa pesquisa deve revelá – lo:

como você pode ver,as páginas iniciais no site principal, domínio de teste e domínio de teste separado aparecem. Você também pode detectar inadvertidamente um concorrente que roubou seu conteúdo. Alguns tomariam isso como um elogio, outros emitiriam DMCAs-cabe a você, mas a última coisa que você quer é alguém ultrapassando você com sua própria cópia.

4) rastreie o Site usando Screaming Frog

presumo que você goste de SEO e, portanto, use Screaming Frog. Se qualquer uma dessas respostas é não, então bem feito para torná-lo tão longe neste artigo (deixe-me adivinhar que você é um desenvolvedor que caiu um bollock e olhando para cobrir sua bunda antes que alguém descubra?).

se você não tiver, faça o download aqui.

dentro das configurações básicas, marque “rastrear todos os subdomínios”. Você também pode marcar “siga’ nofollow ‘interno”, pois alguns ambientes de teste podem ter isso no lugar.

assim que o rastreamento for concluído, examine a lista para ver se existem links internos para testar sites. Me deparei com isso recentemente, onde um novo site Drupal foi ao ar, mas com todos os links internos nas postagens do blog apontando para um subdomínio beta:

você pode clicar em cada URL de teste e clicar em InLinks na parte inferior para encontrar o link interno ofensivo do site live to test. Nesse caso, alterei o link Fale Conosco no mapa do site para apontar para o URL do teste:

uma vez manchado, alterar e re-crawl até que estes não são mais links internos levando os visitantes para outro lugar. Se você estiver usando o WordPress, use um plug-in de pesquisa/substituição para encontrar todos os testURLs e substituí-los pelo live one.

5) Verifique o Google Analytics Nomes de host

Se o seu site de teste tem a mesma conta do Google Analytics’stracking código instalado como o seu site ao vivo, você vai ser capaz de detectar este withinGA se você vai para uma seção como “Comportamento” -> “Conteúdo do Site” -> “AllPages” e selecione “Hostname” como uma dimensão secundária:

além disso, você também pode, em seguida, filtrar os dados mais byexcluding do relatório todas as visitas para o domínio principal, que vai deixar allother instâncias na lista. Inaddition para testar sites, você também pode descobrir GA Spam que está sendo disparado em uma 3rdparty site:

Há prós e contras para ter o mesmo GA seguimento IDrunning no seu viver e ambientes de teste, mas pessoalmente, eu vejo noreason ter contas separadas e, em vez disso, iria criar vários modos de exibição withinyour uma conta. Para o site ao vivo,configure um filtro para incluir apenas o tráfego para o nome do host ao vivo e vice versafor o site de teste.

Como remover e impedir que seu site de teste seja indexado

então você descobriu seu site de teste no índice usando umdas técnicas acima, ou, você quer ter certeza de que isso não acontece em primeiro lugar. O seguinte ajudará com isso:

1) Remova URLs via GSC

se o seu site estiver indexado, seja gerando tráfego ou não, é melhor removê-lo. Para fazer isso, você pode usar a seção “Remover URLs” do GSC “antigo”.

observe que isso não funcionará no nível da propriedade de domínio, pois não será atendido no GSC antigo. Para fazer isso, você precisa configurar uma propriedade para o testdomain individual.

uma vez configurado, “vá para a versão antiga” e vá para “Índice do Google”-> “remover URLs”. A partir daqui, selecione “TemporarilyHide” e entrar como única barra como a URL que você deseja bloquear que willsubmit todo o seu site para a remoção:

Isto irá remover o seu site do SERPs para 90 dias, para agradar, para garantir que ele não volta, você deve tomar outras medidas. Uma das seguintes será suficiente (e deve ser realizada independentemente de saber se você é capaz de Remover através de GSC)

2) Conjunto de robots tag noindex no site de teste

Pergunte ao seu desenvolvedores para garantir que, quando em execução no domínio de teste,cada página em todo o site gera um robots tag noindex:

<meta name="robots" content="noindex" />

Se o seu site é o WordPress, você pode definir essa via “Configurações” -> “Leitura” e selecionando “Desencorajar motores de busca de indexar este site”:

qualquer que seja o código ou as configurações usadas para evitar que o site de teste seja indexado, você deve garantir que isso não seja migrado para o site ao vivo quando o newcontent ou a funcionalidade for ativado. As configurações do site de teste que vão ao ar são uma das formas mais comuns e seguras de atrapalhar a visibilidade do seu site ao vivo.

3) senha Proteja seu site de teste

do seu painel de controle da web ou através do servidor, passwordprotect o diretório no qual seu site de teste reside. Existem inúmeras maneiras de fazer isso – a bestbet é pedir a sua empresa de hospedagem ou desenvolvedores para configurar isso, ou, o que é muito bom de recursos lá fora, que vai mostrar a você como fazer isso, como:

https://one-docs.com/tools/basic-auth

uma Vez bloqueado, você deverá ver uma caixa de alerta quando tentar toaccess seu site de teste:

https://alitis.co.uk/

Isto irá impedir que os motores de busca a partir do rastreamento e indexação de thesite.

4) exclua o site e retorne o status da Página 410

se você não precisar mais do seu site de teste, você pode simplesmente selecioná-lo. Quando os motores de busca tentamvisitar páginas em tempo real, eles verão as páginas são excluídas. Por padrão, uma página quebrada retornará status404 (“não encontrado”) – embora isso faça com que o site seja indexado a tempo, ele demorará um pouco, pois haverá visitas de acompanhamento para ver se a página quebrada retornou.

em vez disso, defina o status como 410 (“permanentemente desaparecido”), que retornará a seguinte mensagem:

para fazer isso em um domínio inteiro, exclua o site edeixe o.htaccess no lugar com o seguinte comando:

Redirect 410 /

Isso irá garantir que o site recebe de-indexados no primeiro momentodas perguntando (ou, pelo menos, mais rápido do que um 404)

5) Bloco através de robôs.txt

você pode bloquear o site de ser rastreado implementando os seguintes comandos nos robôs do site de teste.arquivo txt:

User-agent: *Disallow: /

isso impedirá que os bots rastreiem o site. Notar: se o seu site de teste estiver indexado no momento e você tiver seguido a rota de adicionar tags noindex ao site, não adicione os robôs.comando txt até que todas as páginas tenham sido des-indexadas. Se você adicionar isso antes que todas as páginas sejam desindexadas, isso impedirá que elas sejam rastreadas e a tag robots detectada, para que as páginas permaneçam indexadas.

e é isso – espero que o acima seja suficiente para você encontrar, deindex e impedir que seu teste seja rastreado novamente.

mas lembre-se

eu não posso enfatizar isso o suficiente – se você decidir implementarrobots meta tags ou robôs.txt que proíbe todos os bots de rastreamento eindexando seu site de teste, certifique-se de que, ao colocar seu site de teste ao vivo, você não carregue essas configurações para o site ao vivo, pois corre o risco de perder sua visibilidade orgânica.

e todos nós já estivemos lá, certo?

NCPEA Professor

Blog, Lifestyle and News