Veja nesse artigo o que é o Robots txt, um arquivo de texto (não html) que você coloca no seu site para informar aos robôs de pesquisa quais páginas você gostaria que eles não visitassem.
Olá, sou Lucas Cruz e neste artigo vou lhe mostrar o que é o Robots txt.
É ótimo quando os motores de busca freqüentemente visitam seu site e indexam seu conteúdo, mas muitas vezes há casos em que a indexação de partes de seu conteúdo on-line não é o que você quer. Por exemplo, se você tiver duas versões de uma página (uma para visualização no navegador e uma para impressão), você preferiria que a versão de impressão fosse excluída do rastreamento, caso contrário você corre o risco de ter uma penalidade por conteúdo duplicado. Além disso, se você tiver dados sensíveis em seu site que você não quer que o mundo veja, também prefere que os mecanismos de pesquisa não indexem essas páginas (embora nesse caso a única maneira segura de não indexar dados confidenciais seja mantê-los offline em uma máquina separada). Além disso, se você quiser eliminar espaço de seu servidor, excluindo imagens, folhas de estilo e javascript de indexação, você também precisa de uma maneira de dizer para o Google para se manter longe desses itens.
Uma maneira de dizer aos motores de busca evitar que arquivos e pastas em seu site sejam indexados é com o uso do metatag Robots.
Mas como nem todos os motores de busca lêem metatags, o metatag Robots pode simplesmente passar despercebido. Uma maneira melhor de informar os motores de busca sobre sua vontade é usar um arquivo robots.txt.
O que é Robots.txt?
Robots.txt é um arquivo de texto (não html) que você coloca no seu site para informar aos robôs de pesquisa quais páginas você gostaria que eles não visitassem. O Robots.txt não é de forma obrigatória para os motores de busca, mas geralmente os motores de busca obedecem o que lhes é pedido para não fazer. É importante esclarecer que o robots.txt não é uma forma de impedir que os mecanismos de pesquisa rastreiem o seu site (ou seja, não é um firewall ou um tipo de proteção por senha) e o fato de você colocar um arquivo robots.txt é algo como colocando uma nota como “Por favor, não entre” em uma porta desbloqueada – por exemplo, você não pode impedir ladrões de entrar, mas os caras bons não abrem para a porta e entrar. É por isso que dizemos que se você tiver realmente dados sensíveis, é muito ingênuo confiar em robots.txt para protegê-lo de ser indexado e exibido nos resultados de pesquisa.
A localização do robots.txt é muito importante. Deve estar no diretório principal porque, caso contrário, os agentes de usuários (mecanismos de pesquisa) não conseguirão localizá-lo – eles não pesquisarão o site inteiro para um arquivo chamado robots.txt. Em vez disso, eles olham primeiro no diretório principal (ou seja, http://mydomain.com/robots.txt ) e se eles não encontrá-lo lá, eles simplesmente assumem que este site não tem um arquivo robots.txt e, portanto, eles adicionam tudo o que encontrar ao longo do caminho. Então, se você não colocar o arquivo robots.txt no lugar certo, não se surpreenda que os motores de busca indexem todo o seu site.
O conceito e a estrutura do robots.txt foi desenvolvido há mais de uma década e se você estiver interessado em saber mais sobre isso, visite http://www.robotstxt.org/ ou você pode ir direto para o Standard for Robot Exclusion pois, neste artigo, trataremos apenas dos aspectos mais importantes de um arquivo robots.txt.
Estrutura de um arquivo Robots.txt
A estrutura de um robots.txt é bastante simples (porém, nem tão flexível) – é uma interminável lista de agentes de usuário e arquivos e diretórios desativados.
Basicamente, a sintaxe é a seguinte:
User-agent:
Disallow:
“User-agent” são rastreadores de mecanismos de busca e não permitem : lista os arquivos e diretórios a serem excluídos da indexação. Além das entradas “user-agent:” e “disallow:”, você pode incluir linhas de comentário – basta colocar o sinal # no início da linha:
#Todos os agentes do usuário são proibidos de ver o diretório / temp.
User-agent: *
Disallow: /temp/
As armadilhas de um arquivo Robots.txt
Quando você começa a criar arquivos complicados – ou seja, você decide permitir que diferentes agentes de usuários acessem diretórios diferentes – os problemas podem começar, se você não prestar especial atenção às armadilhas de um arquivo robots.txt. Erros comuns incluem erros tipográficos e diretivas contraditórias. Os erros tipográficos são agentes de usuário com erros ortográficos, diretórios, colunias incompletas após User-agent e Disallow, etc.
Os erros podem ser complicados de encontrar, mas em alguns casos, as ferramentas de validação ajudam.
O problema mais sério é com erros lógicos. Por exemplo:
User-agent: *
Disallow: /temp/
User-agent: Googlebot
Disallow: /images/
Disallow: /temp/
Disallow: /cgi-bin/
O exemplo acima é de um robots.txt que permite que todos os agentes acessem tudo no site, exceto o diretório / temp. Até aqui está tudo bem, mas mais tarde há outro registro que especifica termos mais restritivos para o Googlebot. Quando o Googlebot começar a ler o arquivo robots.txt, verá que todos os agentes do usuário (incluindo o próprio Googlebot) são permitidos em todas as pastas, exceto / temp /. Isso é suficiente para que o Googlebot saiba, por isso não vai ler o arquivo até o final e irá indexar tudo, exceto / temp / – incluindo / images / e / cgi-bin /, que você acha que lhe disse para não tocar. Você vê, a estrutura de um arquivo robots.txt é simples, mas ainda erros graves podem ser feitas facilmente.
Enviar o robots.txt atualizado para o Google (Google Search Console)
A função Enviar da ferramenta Testar robots.txt permite que você estabeleça e solicite ao Google mais agilidade no rastreamento e na indexação de um novo arquivo robots.txt para seu site. Atualize e notifique o Google sobre as mudanças no seu arquivo robots.txt seguindo os passos abaixo.
1. Clique em Enviar no canto inferior esquerdo do editor de robots.txt. Essa ação abre uma caixa de diálogo “Enviar”.
2. Faça o download do código robots.txt editado na página da ferramenta Testar robots.txt clicando em Download na caixa de diálogo “Enviar”.
3. Faça o upload do novo arquivo robots.txt para a raiz do domínio como um arquivo de texto chamado robots.txt (o URL para o arquivo robots.txt deve ser /robots.txt).
Se você não tiver permissão para fazer o upload dos arquivos na raiz do domínio, entre em contato com o gerente do domínio para fazer alterações.
Por exemplo, se a página inicial do seu site residir em subdomain.example.com/site/example/, provavelmente não será possível atualizar o arquivo robots subdomain.example.com/robots.txt. Nesse caso, você precisa entrar em contato com o proprietário de example.com/ para fazer as mudanças necessárias no arquivo robots.txt.
4. Clique em Verificar versão publicada para confirmar se o robots.txt publicado é a versão para indexação no Google.
5. Clique em Enviar versão publicada para notificar o Google que foram feitas modificações no seu arquivo robots.txt e solicitar a indexação do Google.
6. Verifique se a versão mais recente foi indexada corretamente pelo Google. Para isso, atualize a página do navegador a fim de renovar o editor da ferramenta e conferir o código do robots.txt publicado. Depois de atualizar a página, clique no menu suspenso acima do editor de texto para visualizar o timestamp em que o Google detectou a versão mais recente do seu arquivo robots.txt pela primeira vez.
Se você quiser saber mais sobre o que é o Search Console (Webmaster Tools), conheça o curso de Google Search Console (Webmaster Tools) da Expert Digital, lá você terá informações e um passo a passo para executar suas ações.
Gostou? Essa é só uma pequena amostra do que a Expert Digital irá oferecer a você.
Eu adoraria saber a sua opinião sobre o conteúdo através de um comentário logo abaixo.
E caso ele tenha sido útil para você, aproveite para compartilhá-lo com um amigo ou uma amiga que precise de dicas como essas, mostrando o que é o Search Console (Webmaster Tools).
Lucas Cruz é economista, Especialista em Gestão de Marketing e MBA em Marketing Digital. Profissional na área de Marketing Digital desde 2004 e instrutor desde 2009, Lucas Cruz conta com passagens na área estratégica de marketing digital e e-commerce em diversas organizações. Já treinou mais de 3 mil profissionais de marketing de diversas empresas como: Netshoes, Nestlé, Agência Áfrika, Zattini, Unifor, Snapchat, Época Cosméticos, Peixe Urbano, Buscapé, Suzuki, Magazine Luíza, […]
This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary cookies are absolutely essential for the website to function properly. These cookies ensure basic functionalities and security features of the website, anonymously.
Cookie
Duração
Descrição
cookielawinfo-checkbox-analytics
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional
11 months
The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy
11 months
The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
Functional cookies help to perform certain functionalities like sharing the content of the website on social media platforms, collect feedbacks, and other third-party features.
Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.
Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics the number of visitors, bounce rate, traffic source, etc.
Advertisement cookies are used to provide visitors with relevant ads and marketing campaigns. These cookies track visitors across websites and collect information to provide customized ads.