Por que o Google Search Console e os dados do Google Analytics nunca coincidem
Essa disparidade de dados entre o Google Search Console e o Google Analytics é realmente intencional. Vamos nos aprofundar nos detalhes para descobrir o porquê.
Uma reclamação comum sobre o Google Search Console (GSC) é que os dados são “imprecisos” quando comparados aos resultados do Google Analytics.
Você conhece a situação.
Todos nós fizemos isso.
Você tenta alinhar o tráfego para as páginas de destino a partir do Analytics com cliques do Google Search Console e os números não estão nem perto!
Em seguida, você murmura algo sobre “não fornecido” e envia uma mensagem instantânea a um amigo sobre os bons e velhos tempos em que você podia ver palavras-chave em suas análises.
Embora seja uma questão de precisão , não é uma questão de exatidão per se.
Essa disparidade de dados é realmente intencional.
Vamos nos aprofundar nos detalhes e descobrir por que isso acontece.
O Google Search Console e o Google Analytics não medem as mesmas coisas
A breve explicação é que as duas fontes de dados têm metodologias de medição diferentes.
O GSC é construído a partir de registros de consulta e clique ou seleção, de modo que os dados serão um tanto semelhantes ao que você pode esperar de seus próprios arquivos de registro de acesso (você sabe, os arquivos que você pede ao DevOps para obter acesso para análise de arquivo de registro) .
Por outro lado, seu pacote de análise coleta dados do fluxo de cliques via JavaScript. Isso inerentemente introduz muitas variáveis de como as coisas podem ser medidas, bem como o que essas coisas são.
Para entender melhor o que causa as diferenças nos dados entre GSC e análises, primeiro você precisa entender como cada ferramenta coleta e entende os dados de comportamento do usuário.
A anatomia dos registros de consulta e seleção (clique)
A busca incansável do Google por qualidade de pesquisa naturalmente os leva a rastrear uma grande quantidade de pontos de dados para cada pesquisa e cada pesquisador, na esperança de obter uma compreensão completa do que está acontecendo nas SERPs.
Embora tenham indicado muitas vezes que não permitem que cliques e taxas de cliques influenciem as classificações, apesar das evidências em contrário , eles também disseram que usam dados de cliques para avaliação de desempenho.
Esse tem sido um dos argumentos constantes entre Googlers e SEOs voltados para o público.
Pessoalmente, acredito que o lado do Google seja um argumento semântico.
Existem várias medidas de avaliação que são padrão para a recuperação de informações, tais como:
- Clicks.
- Abandono de SERP.
- Taxa de sucesso da sessão.
- Etc.
Como você pode imaginar, o Google tem seu próprio sabor disso, chamado de modelo de cliques, atenção e satisfação (leia a explicação de Bill Slawski se precisar de uma tradução).
Isso está sendo discutido em um artigo chamado “Incorporando cliques, atenção e satisfação em um modelo de avaliação de página de resultados de mecanismo de pesquisa” combinada com a metodologia baseada em cliques destacada na patente de classificação baseada em tempo sugere que alguém pelo menos teve tempo para pensar sobre como cliques podem afetar as classificações.
De acordo com o testemunho de Eric Schmidt em 2011, o Google fez “13.111 avaliações de precisão”. Isso seria uma média de ~ 35 por dia.
Portanto, é lógico supor que, se você está sempre avaliando em um ambiente de produção, como a equipe de Pesquisa está, sempre haverá a possibilidade de cliques de usuários impactarem as classificações.
Obtenha suas recomendações personalizadas em 3 etapas fáceis.
Identifique rapidamente as áreas para otimizar suas campanhas do Microsoft Ads com nosso relatório gratuito.
E há esta seção da patente Modificando a classificação dos resultados da pesquisa com base nas estatísticas de pesquisa do corpus que fala sobre os logs de pesquisa e como eles podem informar as classificações no futuro:
“As informações armazenadas no (s) registro (s) de sessão 2060 ou em registros de pesquisa podem ser usadas pelo mecanismo modificador de classificação 2070 na geração de um ou mais sinais para o mecanismo de classificação 2030 . Em geral, uma ampla gama de informações pode ser coletada e usada para modificar ou sintonizar o sinal do usuário para tornar o sinal, e os resultados de pesquisa futuros fornecidos, mais adequados às necessidades do usuário. Assim, as seleções do usuário de um ou mais corpora para a emissão de pesquisas e interações do usuário com os resultados da pesquisa apresentados aos usuários do sistema de recuperação de informações podem ser usadas para melhorar futuras classificações. ”
O mais interessante, entretanto, é o conceito de que esses registros apresentam muito ruído, além de seus sinais mais valiosos.
Isso sugere que retirar os cliques completamente pelo valor de face seria um erro.
De que tipo de ruído estamos falando?
Bem, por exemplo, quantas impressões são representadas por ferramentas de classificação?
Quantas vezes você pressiona Enter no autosuggest e então percebe que isso aciona uma pesquisa por “fan” em vez de “fantastic 4?”
Ou quando você está rolando no celular e acidentalmente aponta o resultado errado?
Todos esses são exemplos de como os dados que o Google coleta podem apresentar uma grande quantidade de imprecisões e eles precisam ser contabilizados.
Obrigado por me permitir isso de lado.
OK, então o que há nos arquivos de log?
Se a, agora extinta, documentação do Google Search Appliance for uma indicação (o que pode não ser), os logs de consulta e clique são simplesmente arquivos de texto que registram dados sobre usuários e suas interações com o SERP.
A documentação discute os logs de pesquisa, que podem ou não ser iguais aos logs de consulta e clique, conforme são referidos nas patentes do Google.
Apesar de ser uma versão simplificada do sistema, ele nos dá uma ideia do que é rastreado – recursos do usuário, sua consulta e recursos em que clica.
Indo mais fundo, nos sistemas e métodos do Google para gerar estatísticas a partir de patentes de logs de pesquisa de mecanismos de pesquisa , eles falam um pouco mais sobre como um sistema que poderia impulsionar uma ferramenta como o Google Trends pode operar.
Para esta discussão, estou assumindo que o conjunto de dados subjacente é semelhante, senão igual ao que alimenta o Google Search Console e o Google Ads Keyword Planner.
Eles falam sobre os logs de consulta da seguinte maneira:
“Um mecanismo de busca na web pode receber milhões de consultas por dia de usuários em todo o mundo. Para cada consulta, o mecanismo de pesquisa gera um registro de consulta em seu log de consulta. O registro da consulta pode incluir um ou mais termos da consulta, um carimbo de data / hora indicando quando a consulta é recebida pelo mecanismo de pesquisa, um endereço IP que identifica um dispositivo único (por exemplo, um PC ou um telefone celular) a partir do qual os termos da consulta são enviados, e um identificador associado a um usuário que envia os termos da consulta (por exemplo, um identificador de usuário em um cookie de navegador da web). ”
Em outras palavras, os logs de consulta do mecanismo de pesquisa são uma versão um pouco mais robusta dos logs de pesquisa GSA.
Os autores explicam um pouco mais detalhadamente mais adiante na patente com uma discussão sobre como cookies, dispositivos, idioma do usuário e localização também são rastreados.
Eles também fornecem a seguinte figura para dar uma representação visual dos dados coletados no log de consulta:
Dando mais cor ao sistema, a patente discute esse conceito de registro de sessão, que é um mecanismo para determinar se um determinado usuário realizou as mesmas pesquisas ou pesquisas semelhantes dentro do intervalo de tempo determinado.
Isso é especialmente importante quando se trata de medição e relatórios de impressões e / ou volume de pesquisa:
“Um registro de sessão de consulta inclui consultas bem espaçadas no tempo e / ou consultas relacionadas ao mesmo interesse do usuário. Em algumas modalidades, o processo de extração da sessão de consulta é baseado em heurísticas. Por exemplo, consultas consecutivas pertencem à mesma sessão se compartilharem alguns termos de consulta ou se forem enviadas dentro de um período de tempo predefinido (por exemplo, dez minutos), embora não haja um termo de consulta comum entre eles. ”
As heurísticas mencionadas acima são talvez o principal motivo do Search Console e seu pacote de análise nunca corresponderem.
Essencialmente, o que o autor está dizendo é que o Google toma uma decisão em seu log de consultas para determinar se as pesquisas em sua sessão são exclusivas o suficiente para serem registradas como distintas.
Portanto, o que você pode acreditar serem duas visitas distintas ao seu site, porque vieram de duas pesquisas diferentes que levaram a duas páginas de destino diferentes, podem ser potencialmente consideradas uma pesquisa e, portanto, uma impressão, dependendo de como ela é registrada nos registros de consulta do Google.
Os logs de cliques, por outro lado, apresentam mais informações sobre o comportamento do usuário, uma vez que são apresentados uma série de resultados
A classificação de resultados de pesquisa de modificação com base na patente de estatísticas de pesquisa de corpus revela o que pode ser armazenado neste conjunto de dados (grifo meu):
“As informações gravadas, incluindo informações de seleção de resultados, podem ser armazenadas no (s) registro (s) de sessão 2060 . Em algumas implementações, os dados de pesquisa e as informações de seleção de resultados são armazenados em logs de pesquisa. Em algumas implementações, as informações registradas incluem entradas de registro que indicam, para cada seleção de usuário, a consulta (Q), o documento (D), o tempo (T) entre duas seleções sucessivas de resultados de pesquisa, o idioma (L) empregado pelo usuário e o país (C) onde o usuário provavelmente está localizado (por exemplo, com base no servidor usado para acessar o sistema IR). Em algumas implementações, outras informações também são registradas em relação às interações do usuário com uma classificação apresentada, incluindo informações negativas, como o fato de que o resultado de um documento foi apresentado a um usuário, mas não foi clicado, posição (ões) de clique (s) na interface do usuário, pontuações de IR dos resultados clicados, pontuações de IR de todos os resultados mostrados antes do resultado clicado, os títulos e snippets mostrados ao usuário antes do resultado clicado, o cookie do usuário, a idade do cookie, o endereço IP (protocolo da Internet), o agente do usuário do navegador, etc.. Ainda mais informações podem ser registradas, como os resultados da pesquisa retornados para uma consulta, onde os resultados da pesquisa são itens de conteúdo categorizados em um ou mais corpora. Em algumas implementações, informações semelhantes (por exemplo, pontuações de IR, posição, etc.) são registradas para uma sessão inteira ou várias sessões de um usuário. Em algumas implementações, a gravação de informações semelhantes não está associada às sessões do usuário. Em algumas implementações, essas informações são registradas para cada clique que ocorre antes e depois de um clique atual. ”
Embora o Google Search Console apenas exiba uma fração dessas informações, é bastante claro como a ferramenta Search Analytics é efetivamente uma interface de usuário limitada construída sobre esse conjunto de dados.
O que é interessante aqui é a menção de atividades que podem acontecer em uma SERP.
Isso é uma indicação de que não apenas cada clique é rastreado, mas também os recursos que geraram a posição de um resultado em uma SERP.
O que determina um clique?
A documentação pública do Google Search Appliance não indica o que é considerado um clique ou impressão.
Por exemplo, se eu pesquisar uma palavra-chave e clicar em um resultado, responder e clicar no mesmo resultado novamente, o Google está considerando esses dois cliques distintos ou um?
A patente de Sistemas e Métodos para Gerar Estatísticas de Logs de Consulta de Mecanismos de Pesquisa , no entanto, fornece alguns insights sobre a resposta a essa pergunta.
A primeira coisa a saber é que eles costumam fazer uma amostragem dos dados. Isso faz muito sentido no ambiente do Google Trends.
No entanto, o autor observa que há casos de uso em que eles podem não amostrar os dados.
“ Para obter informações estatísticas confiáveis do log de consulta 108, nem sempre é necessário pesquisar todos os registros de consulta (também aqui chamados de registros de log ou registros de transação) no log de consulta. Desde que as informações estatísticas sejam derivadas de um número suficiente de amostras no log de consulta, as informações são tão confiáveis quanto as informações derivadas de todos os registros de log. Além disso, leva menos tempo e recursos de computador para pesquisar um log de consulta sub-amostrado. Portanto, um processo de amostragem de log de consulta 110 pode ser empregado para subamostrar o log de consulta 108 e produzir um log de consulta sub-amostrado 112. Por exemplo, o log de consulta subamostrado 112 pode conter dez por cento ou vinte por cento dos registros de log no log de consulta original 108. Observe que o processo de amostragem é opcional.Em algumas modalidades, todo o registro de consulta 108 é usado para gerar informações estatísticas. “
O Google também parece considerar profundamente que duas consultas, consultas semelhantes, podem representar uma pesquisa.
Essa linha de pensamento é um componente central que produz uma diferença na medição entre as ferramentas.
Como o Google mudou mais recentemente para dar às versões singular e plural das palavras-chave o mesmo volume de pesquisa, para grande desgosto da comunidade de pesquisa, é valioso ter uma perspectiva interna sobre o assunto.
Apresentei sua discussão da patente em sua totalidade abaixo (ênfase minha):
“Por exemplo, o usuário pode primeiro enviar uma consulta“ restaurante francês, Palo Alto, CA ”, procurando informações sobre restaurantes franceses em Palo Alto, Califórnia. Posteriormente, o mesmo usuário pode enviar uma nova consulta “Restaurante italiano, Palo Alto, CA”, procurando informações sobre restaurantes italianos em Palo Alto, Califórnia. Essas duas consultas estão logicamente relacionadas, pois ambas dizem respeito a uma pesquisa por restaurantes em Palo Alto, Califórnia. Essa relação pode ser demonstrada pelo fato de que as duas consultas são enviadas em tempo próximo ou compartilham alguns termos de consulta (por exemplo, “restaurante” e “Palo Alto”). ”
“[0035] Em algumas modalidades, essas consultas relacionadas são agrupadas em uma sessão de consulta para caracterizar as atividades de pesquisa de um usuário com mais precisão.Uma sessão de consulta é composta por uma ou mais consultas de um único usuário, incluindo todas as consultas enviadas durante um curto período de tempo (por exemplo, dez minutos) ou uma sequência de consultas com termos de consulta sobrepostos ou compartilhados que podem se estender por um um período de tempo um pouco mais longo (por exemplo, consultas enviadas por um único usuário durante um período de até duas horas). As consultas que dizem respeito a diferentes tópicos ou interesses são atribuídas a diferentes sessões, a menos que as consultas sejam submetidas em uma sucessão muito próxima e não sejam atribuídas de outra forma a uma sessão que inclua outras consultas semelhantes. O mesmo usuário que procura restaurantes em Palo Alto pode enviar uma consulta “iPod Video” posteriormente para obter informações sobre o novo produto feito pela Apple Computer. Esta nova consulta está relacionada a um interesse ou tópico diferente que os restaurantes de Palo Alto, e, portanto, não é agrupado na mesma sessão que as consultas relacionadas ao restaurante. Portanto, as consultas de um único usuário podem ser associadas a várias sessões. Duas sessões associadas ao mesmo usuário compartilharão o mesmo cookie, mas terão identificadores de sessão diferentes. ”
Basta dizer que o registro por trás do mecanismo de pesquisa do Google usa uma série específica de metodologias para determinar o que é uma pesquisa distinta e um clique distinto.
Isso pode ou não se alinhar com o que você acredita ou como sua plataforma de análise está configurada para acreditar que uma sessão é.
Como o Analytics determina uma sessão
Os pacotes analíticos, por outro lado, também seguem uma série de métodos para medir um usuário e sua atividade.
Dependendo do pacote analítico, uma “sessão” ou visita pode ser definida pelo usuário.
De acordo com a documentação do Google Analytics, “por padrão, uma sessão dura até 30 minutos de inatividade, mas você pode ajustar esse limite para que uma sessão dure de alguns segundos a várias horas”.
Portanto, embora não saibamos o tempo exato em que a Pesquisa Google considera uma sessão, os números considerados nos trechos acima certamente são menores que 30 minutos.
Em uma patente relacionada ao Google Analytics, Sistema e método para agregar dados analíticos , os autores falam sobre como um usuário é rastreado por meio de um ID de sessão e como esse mecanismo pode vir a ser invalidado:
“Um ID de sessão é normalmente concedido a um visitante em sua primeira visita a um site. É diferente de um ID de usuário, pois as sessões costumam durar pouco (expiram após um tempo predefinido de inatividade, que pode ser de minutos ou horas) e podem se tornar inválidas depois que uma determinada meta foi atingida (por exemplo, quando o comprador finalizou seu pedido, ele não pode usar o mesmo ID de sessão para adicionar mais itens). ”
Como resultado, um usuário pode ser potencialmente medido várias vezes para a mesma visita.
Pacotes analíticos são ambientes complexos que permitem vários níveis de especificidade em sua configuração.
Existem vários motivos pelos quais você não verá consistência entre dois pacotes de análise, muito menos duas ferramentas que medem coisas diferentes.
Por que os dois não combinam
Simplificando, um clique do Google Search Console não é uma sessão do Google Analytics e uma sessão do Google Analytics não é um clique do Google Search Console.
No cenário acima, em que um usuário clicou duas vezes, isso poderia ser considerado dois cliques e uma sessão.
Como alternativa, se um usuário realizar as duas pesquisas diferentes e fizer dois cliques diferentes, sua atividade pode ser considerada uma impressão e um clique, mas também pode invalidar seu ID de sessão ou atingir o tempo limite em algum ponto e ser consideradas duas visitas distintas em análises.
Ou considere o seguinte:
Um usuário clica em seu resultado, mas sua análise não disparou por vários motivos. Isso mostra várias razões pelas quais a análise nem sempre é a fonte mais confiável da verdade.
Por fim, o GSC usa URLs canônicos, enquanto o Analytics pode usar qualquer URL para relatar uma sessão. O Google fala um pouco sobre isso em sua documentação .
No entanto, sua discussão tem mais a ver com a explicação das diferenças dentro do contexto da integração GSC para GA, em vez de explicar as diferenças nas metodologias de medição
Por que isso é um problema?
O problema principal é que muitos profissionais de marketing não acreditam nos dados do GSC porque consideram a análise sua principal fonte de verdade.
Ignorando que todas as análises são inerentemente falhas, eu defendo que a paridade entre as fontes é irreal e estamos olhando para os dois lados da mesma verdade, apenas medidos de forma diferente.
Os dados de desempenho do Google Search Console são uma medida do que está acontecendo no próprio Google, não necessariamente o que está acontecendo em seu site.
Ah, e enquanto falamos nisso, não se esqueça que os dados de posição do GSC estão medindo algo diferente dos seus dados de classificação.
Como obter dados mais precisos
A precisão dos dados relatados no Google Search Console realmente aumenta à medida que você introduz mais especificidade na forma como revisa um site.
Em outras palavras, se você criar perfis que refletem níveis mais profundos da estrutura de diretório, a ferramenta produzirá mais dados.
Pode ser entediante adicionar 10s ou centenas de subdiretórios ao Google Search Console, mas o aumento na precisão dos dados pode ser bastante útil para casos de uso como teste A / B e compreensão de oportunidades de quebra de palavras-chave.
Ao adicionar uma grande variedade de perfis, a principal limitação a ter em mente é que a interface de usuário do GSC limita você a 1.000 consultas por filtro de pesquisa.
Portanto, você deve considerar o uso da API para extrair seus dados, pois ela retorna 5.000 por filtro de pesquisa.
Além disso, para extrair o máximo de dados possível, você deve considerar a repetição de uma série de tentativas como filtros de pesquisa (S / O para William Sears).
Isso garante que você esteja usando tantos subconjuntos de palavras quanto possível como filtros para obter o máximo de resultados possível.
Fazer isso por subdiretório e seguir a taxonomia do seu site permitirá que você obtenha os dados mais precisos possíveis.
Nada era igual
Desde a estreia de “(não fornecido)” no final de 2011, sabíamos que nossos dados de pesquisa orgânica iriam se deteriorar.
Realisticamente, nunca mais viveremos em um mundo onde possamos vincular uma visita diretamente a uma sessão.
Os dados que o Google Search Console fornece são os melhores que teremos daqui para frente.
Embora os dados não correspondam à sua fonte de verdade, isso não significa que sejam imprecisos.
Da mesma forma que você não deve esperar que os dados dos anúncios do Facebook correspondam ao Google Analytics ou que os arquivos de log no Kibana relatem o mesmo que o Adobe Analytics, você não deve esperar que o Google Search Console corresponda aos seus dados analíticos.
Agora, saia e seja ótimo.