Expert Digital

Nosso Blog!

Por que o Google Search Console e os dados do Google Analytics nunca correspondem

Por que o Google Search Console e os dados do Google Analytics nunca correspondem

Uma reclamação comum sobre o Google Search Console (GSC) é que os dados são “imprecisos” quando comparados aos resultados do Google Analytics.

Você conhece a situação.

Todos nós já fizemos isso.

Você tenta alinhar o tráfego para as páginas de destino do analytics com cliques do Google Search Console e os números não chegam nem perto!

Depois, você murmura algo sobre “não fornecido” e envia uma mensagem instantânea a um amigo sobre os bons velhos tempos em que era possível ver palavras-chave em suas análises.

Embora seja uma questão de precisão , não é uma questão de precisão em si.

Essa disparidade de dados é realmente por design.

Vamos nos aprofundar nos detalhes e descobrir por que isso acontece.

O Google Search Console e o Google Analytics não medem as mesmas coisas

O Google Search Console e o Google Analytics não medem as mesmas coisas

A breve explicação é que as duas fontes de dados têm diferentes metodologias de medição.

O GSC é criado a partir de consultas e cliques, ou seleção, nos logs, para que os dados sejam um pouco parecidos com o que você pode esperar de seus próprios arquivos de log de acesso (você sabe, os arquivos que você solicita ao DevOps para acessar a análise do arquivo de log) .

Por outro lado, seu pacote de análise coleta dados do fluxo de cliques via JavaScript. Isso introduz inerentemente muitas variáveis ​​sobre como as coisas podem ser medidas, bem como quais são essas coisas.

Para entender melhor o que causa as diferenças nos dados entre o GSC e o analytics, primeiro você precisa entender como cada ferramenta coleta e entende os dados de comportamento do usuário.

Anatomia da consulta e seleção (clique) Logs

A busca incansável do Google por qualidade de pesquisa naturalmente os leva a rastrear uma riqueza de pontos de dados para cada pesquisa e todo pesquisador, na esperança de obter uma compreensão completa do que está acontecendo nas SERPs.

Anatomia dos logs de consulta e seleção (clique)

Embora tenham indicado muitas vezes que não permitem que os cliques e as taxas de cliques influenciem as classificações, apesar das evidências em contrário , eles também disseram que usam dados de cliques para avaliar o desempenho.

Por que o Google Search Console & # 038;  Os dados do Google Analytics nunca correspondem

Esse tem sido um dos argumentos em andamento entre Googlers e SEOs voltados ao público.

Pessoalmente, acredito que o lado do Google seja um argumento semântico.

Existem várias medidas de avaliação que são padrão na recuperação de informações, como:

  • Cliques.
  • Abandono da SERP.
  • Taxa de sucesso da sessão.
  • Etc.

Como você pode imaginar, o Google tem seu próprio sabor, chamado modelo Cliques, Atenção e Satisfação (leia a explicação de Bill Slawski, se você precisar de uma tradução).

Isso está sendo discutido em um artigo chamado “Incorporando Cliques, Atenção e Satisfação em um Modelo de Avaliação de Página de Resultado de Mecanismo de Pesquisa”, combinado com a metodologia baseada em cliques destacada na patente Ranking Baseado em Tempo, sugere que alguém pelo menos teve tempo para pensar em como cliques podem afetar as classificações.

Segundo o testemunho de Eric Schmidt em 2011, o Google fez “13.111 avaliações de precisão”. Isso seria uma média de ~ 35 por dia.

Portanto, é lógico supor que, se você estiver sempre avaliando em um ambiente de produção, como é a equipe de pesquisa, sempre haverá o risco de os cliques do usuário impactarem as classificações.

Além disso, há esta seção da classificação Modificando resultados de pesquisa com base na patente de estatísticas de pesquisa de corpus que fala sobre logs de pesquisa e como eles podem informar as classificações no futuro:

“As informações armazenadas no (s) registro (s) de sessão 2060 ou nos registros de pesquisa podem ser usadas pelo mecanismo modificador de classificação 2070 na geração de um ou mais sinais para o mecanismo de classificação 2030 . Em geral, uma grande variedade de informações pode ser coletada e usada para modificar ou ajustar o sinal do usuário para produzi-lo, e os resultados de pesquisa futuros fornecidos, para melhor atender às necessidades do usuário. Assim, as seleções de usuários de um ou mais corpora para emitir pesquisas e interações do usuário com os resultados da pesquisa apresentados aos usuários do sistema de recuperação de informações podem ser usadas para melhorar as classificações futuras. ”

O mais interessante, no entanto, é o conceito de que esses logs apresentam muito ruído, além de seus sinais mais valiosos.

Isso sugere que receber os cliques completamente pelo valor nominal seria um erro.

representação visual do log de consulta

De que tipo de ruído estamos falando?

Bem, por exemplo, quantas impressões são representadas por ferramentas de classificação?

Quantas vezes você pressiona enter no auto-sugestão e depois percebe que ele aciona uma pesquisa por “fã” em vez de “fantástico 4”?

Ou então, quando você está rolando no celular e acidentalmente com o dedo gordo o resultado errado?

Todos esses são exemplos de como os dados coletados pelo Google podem apresentar uma grande quantidade de imprecisões e precisam ser contabilizados.

Obrigado por me deixar de lado.

OK, então o que há nos arquivos de log?

Se a documentação do Google Search Appliance , agora extinta, for alguma indicação (o que pode não ser), os logs de consulta e clique são simplesmente arquivos de texto que registram dados sobre usuários e suas interações com o SERP.

A documentação discute os logs de pesquisa, que podem ou não ser os mesmos que os de consulta e clique, conforme são mencionados nas patentes do Google.

Apesar de ser uma versão simplificada do sistema, ele nos dá uma idéia do que é rastreado – recursos do usuário, sua consulta e recursos do que eles clicam.

Indo mais fundo, nos sistemas e métodos do Google para gerar estatísticas a partir de patentes de logs de consultas de mecanismos de pesquisa , eles falam um pouco mais sobre como um sistema capaz de operar uma ferramenta como o Google Trends pode funcionar.

Para esta discussão, suponho que o conjunto de dados subjacente seja semelhante, se não o mesmo, ao que alimenta o Google Search Console e o Google Ads Keyword Planner.

Eles falam sobre os logs de consulta da seguinte maneira:

“Um mecanismo de pesquisa na web pode receber milhões de consultas por dia de usuários em todo o mundo. Para cada consulta, o mecanismo de pesquisa gera um registro de consulta em seu log de consultas. O registro da consulta pode incluir um ou mais termos da consulta, um carimbo de data / hora indicando quando a consulta é recebida pelo mecanismo de pesquisa, um endereço IP que identifica um dispositivo único (por exemplo, um PC ou um telefone celular) do qual os termos da consulta são enviados, e um identificador associado a um usuário que envia os termos da consulta (por exemplo, um identificador de usuário em um cookie do navegador da web). ”

Em outras palavras, os logs de consulta do mecanismo de pesquisa são uma versão um pouco mais robusta dos logs de pesquisa do GSA.

Os autores explicam mais detalhadamente mais adiante, na patente, com uma discussão sobre como os cookies, dispositivos, idioma do usuário e localização também são rastreados.

Eles também fornecem a figura a seguir para fornecer uma representação visual dos dados coletados no log de consulta:

representação visual do log de consulta

Dando mais cor ao sistema, a patente discute esse conceito de registro de sessão, que é um mecanismo para determinar se um determinado usuário executou as mesmas pesquisas ou pesquisas semelhantes dentro do prazo especificado.

Isso é especialmente importante quando se trata de medir e gerar relatórios e / ou volume de pesquisa:

“Um registro da sessão de consulta inclui consultas estreitamente espaçadas no tempo e / ou consultas relacionadas ao mesmo interesse do usuário. Em algumas modalidades, o processo de extração da sessão de consulta é baseado em heurísticas. Por exemplo, consultas consecutivas pertencem à mesma sessão se elas compartilham alguns termos de consulta ou se são enviadas dentro de um período predefinido (por exemplo, dez minutos), mesmo que não exista um termo de consulta comum entre eles. ”

As heurísticas mencionadas acima são talvez o principal motivo pelo qual o Search Console e seu pacote de análise nunca serão compatíveis.

Essencialmente, o que o autor está dizendo é que o Google toma uma decisão no log de consultas para determinar se as pesquisas na sua sessão são únicas o suficiente para serem registradas como distintas.

Portanto, o que você pode considerar duas visitas distintas ao site, porque elas vieram de duas pesquisas diferentes que chegaram a duas páginas de destino diferentes, podem ser consideradas uma pesquisa e, portanto, uma impressão, dependendo de como é registrada nos registros de consulta do Google.

Registros de pesquisa do Google

Os logs de cliques, por outro lado, apresentam mais informações sobre o comportamento do usuário depois que ele é apresentado a uma série de resultados.

A classificação de modificação de resultados de pesquisa com base na patente de estatísticas de pesquisa de corpus revela o que pode ser armazenado neste conjunto de dados (grifo meu):

“As informações gravadas, incluindo as informações de seleção de resultados, podem ser armazenadas no (s) log (s) de sessões 2060 . Em algumas implementações, os dados de pesquisa e as informações de seleção de resultados são armazenados nos logs de pesquisa. Em algumas implementações, as informações registradas incluem entradas de log que indicam, para cada seleção de usuário, a consulta (Q), o documento (D), o tempo (T) entre duas seleções sucessivas de resultados de pesquisa, o idioma (L) empregado pelo usuário e pelo país (C) onde o usuário provavelmente está localizado (por exemplo, com base no servidor usado para acessar o sistema de RI). Em algumas implementações, outras informações também são registradas sobre interações do usuário com uma classificação apresentada, incluindo informações negativas, como o fato de um resultado do documento ter sido apresentado a um usuário, mas não ter sido clicado, posição (s) do (s) clique (s) na interface do usuário, pontuações IR de resultados clicados, pontuações IR de todos os resultados mostrados antes do resultado clicado, os títulos e trechos mostrados ao usuário antes do resultado clicado, o cookie do usuário, a idade do cookie, o endereço IP (Protocolo da Internet), o agente do navegador, etc.. Ainda mais informações podem ser registradas, como os resultados da pesquisa retornados para uma consulta, em que os resultados da pesquisa são itens de conteúdo categorizados em um ou mais corpora. Em algumas implementações, informações semelhantes (por exemplo, pontuações de IR, posição etc.) são registradas para uma sessão inteira ou várias sessões de um usuário. Em algumas implementações, a gravação de informações semelhantes não está associada às sessões do usuário. Em algumas implementações, essas informações são registradas para cada clique que ocorre antes e depois de um clique atual. ”

Embora o Google Search Console mostre apenas uma fração dessas informações, é bastante claro como a ferramenta Search Analytics é efetivamente uma interface de usuário limitada criada sobre esse conjunto de dados.

O interessante aqui é a menção de atividades que podem acontecer em uma SERP.

Isso é uma indicação de que não apenas todos os cliques são rastreados, mas os recursos por trás do que gerou a posição de um resultado em uma SERP.

Como o cenário competitivo mudou?
Descubra se seus concorrentes garantiram suas posições no mercado nos últimos meses.

O que determina um clique?

O que determina um clique

A documentação pública do Google Search Appliance não indica o que é considerado um clique ou uma impressão.

Por exemplo, se eu procurar uma palavra-chave e clicar em um resultado, responder e clicar novamente no mesmo resultado, o Google está considerando dois cliques distintos ou um?

A patente Systems & Methods for Generating Statistics from Search Engine Query Logs , no entanto, fornece algumas dicas sobre a resposta a essa pergunta.

A primeira coisa a saber é que eles costumam amostrar os dados. Isso faz muito sentido no ambiente do Google Trends.

No entanto, o autor observa que existem casos de uso em que eles não podem amostrar os dados.

“ Para obter informações estatísticas confiáveis ​​a partir do log de consulta 108, nem sempre é necessário pesquisar todos os registros de consulta (também aqui chamados registros de log ou registros de transações) no log de consulta. Desde que as informações estatísticas sejam derivadas de um número suficiente de amostras no log de consultas, as informações são tão confiáveis ​​quanto as informações derivadas de todos os registros de log. Além disso, leva menos tempo e recursos do computador para pesquisar um log de consulta com subamostra. Portanto, um processo de amostragem de log de consulta 110 pode ser empregado para sub-amostrar o log de consulta 108 e produzir um log de consulta sub-amostrado 112. Por exemplo, o log de consulta sub-amostrado 112 pode conter dez ou vinte por cento dos registros de log no log de consulta original 108. Observe que o processo de amostragem é opcional.Em algumas modalidades, todo o log de consulta 108 é usado para gerar informações estatísticas. 

O Google também parece considerar profundamente que duas consultas semelhantes podem representar uma pesquisa.

Essa linha de pensamento é um componente central que gera uma diferença na medição entre ferramentas.

Como o Google mudou recentemente para dar às versões singular e plural de palavras-chave o mesmo volume de pesquisa, para grande desgosto da comunidade de pesquisa, é valioso ver uma perspectiva interna sobre o assunto.

Apresentei a discussão deles a partir da patente na íntegra abaixo (ênfase minha):

“Por exemplo, o usuário pode primeiro enviar uma consulta“ restaurante francês, Palo Alto, CA ”, procurando informações sobre restaurantes franceses em Palo Alto, Califórnia. Posteriormente, o mesmo usuário pode enviar uma nova consulta “restaurante italiano, Palo Alto, CA”, procurando informações sobre restaurantes italianos em Palo Alto, Califórnia. Essas duas consultas estão relacionadas logicamente, pois ambas dizem respeito à pesquisa de restaurantes em Palo Alto, Califórnia. Esse relacionamento pode ser demonstrado pelo fato de que as duas consultas são submetidas de perto no tempo ou as duas consultas compartilham alguns termos de consulta (por exemplo, “restaurante” e “Palo Alto”). ”

“[0035] Em algumas modalidades, essas consultas relacionadas são agrupadas em uma sessão de consulta para caracterizar as atividades de pesquisa de um usuário com mais precisão.Uma sessão de consulta é composta por uma ou mais consultas de um único usuário, incluindo todas as consultas enviadas por um curto período de tempo (por exemplo, dez minutos) ou uma sequência de consultas com termos de consulta compartilhados ou sobrepostos que podem se estender por um período de tempo um pouco mais longo (por exemplo, consultas enviadas por um único usuário por um período de até duas horas). Consultas que tratam de tópicos ou interesses diferentes são atribuídas a sessões diferentes, a menos que as consultas sejam enviadas em sucessão muito próxima e não sejam atribuídas a uma sessão que inclua outras consultas semelhantes. O mesmo usuário que procura restaurantes em Palo Alto pode enviar uma consulta “iPod Video” posteriormente para obter informações sobre o novo produto fabricado pela Apple Computer. Esta nova consulta está relacionada a um interesse ou tópico diferente que os restaurantes de Palo Alto, e, portanto, não é agrupado na mesma sessão que as consultas relacionadas a restaurantes. Portanto, as consultas de um único usuário podem estar associadas a várias sessões. Duas sessões associadas ao mesmo usuário compartilharão o mesmo cookie, mas terão identificadores de sessão diferentes. ”

Basta dizer que o registro no mecanismo de pesquisa do Google usa uma série específica de metodologias para determinar o que é uma pesquisa e um clique distintos.

Isso pode ou não estar alinhado com o que você acredita ou como sua plataforma de análise está configurada para acreditar que é uma sessão.

Como o Analytics determina uma sessão

Como o Analytics determina uma sessão

Os pacotes de análise, por outro lado, também seguem uma série de métodos para medir um usuário e suas atividades.

Dependendo do pacote de análise, uma “sessão” ou uma visita pode ser definida pelo usuário.

De acordo com a documentação do Google Analytics, “por padrão, uma sessão dura até 30 minutos de inatividade, mas você pode ajustar esse limite para que durar de alguns segundos a várias horas”.

Portanto, embora não saibamos o momento exato do que a Pesquisa Google considera uma sessão, os números considerados nos trechos acima são certamente inferiores a 30 minutos.

Em uma patente relacionada ao Google Analytics, Sistema e método para agregar dados analíticos , os autores falam sobre como um usuário é rastreado por meio de um ID de sessão e como esse mecanismo pode ser invalidado:

“Um ID de sessão geralmente é concedido a um visitante em sua primeira visita a um site. É diferente do ID do usuário, pois as sessões geralmente duram pouco (elas expiram após um tempo predefinido de inatividade que pode ser de minutos ou horas) e podem se tornar inválidas após o cumprimento de uma determinada meta (por exemplo, uma vez que o comprador tenha finalizou seu pedido, ele não pode usar o mesmo ID da sessão para adicionar mais itens). “

Como resultado, um usuário pode potencialmente ser medido várias vezes para a mesma visita.

Os pacotes de análise são ambientes complexos que permitem diferentes níveis de especificidade em sua configuração.

Existem inúmeras razões pelas quais você não verá consistência entre dois pacotes de análise e muito menos duas ferramentas que medem coisas diferentes.

Por que os dois não combinam

Simplificando, um clique no Google Search Console não é uma sessão do Google Analytics e uma sessão do Google Analytics não é um clique no Google Search Console.

No cenário acima, em que um usuário clicou duas vezes, isso poderia ser considerado dois cliques e uma sessão.

Por que os dois não combinam

Como alternativa, se um usuário realizar as duas pesquisas diferentes e fizer dois cliques diferentes, a atividade deles poderá ser considerada uma impressão e um clique, mas também poderá invalidar o ID da sessão ou o tempo limite em algum momento e ser considerada duas visitas distintas em analytics.

Ou considere isso:

Um usuário clica no seu resultado, mas sua análise não foi acionada por vários motivos. Isso mostra qualquer uma das várias razões pelas quais a análise nem sempre é a fonte mais confiável da verdade.

Por fim, o GSC usa URLs canônicos, enquanto o analytics pode usar qualquer URL para relatar uma sessão. O Google fala um pouco sobre isso na documentação deles .

No entanto, a discussão deles tem mais a ver com a explicação das diferenças no contexto da integração do GSC com o GA do que com a explicação das diferenças nas metodologias de medição.

Discrepâncias de dados entre o GSC e o Analytics

Por que isso é um problema?

O principal problema é que muitos profissionais de marketing não acreditam nos dados da GSC porque consideram a análise sua principal fonte de verdade.

Ignorando que todas as análises são inerentemente imperfeitas, afirmo que a paridade entre as fontes não é realista e estamos observando dois lados da mesma verdade, apenas medidos de maneira diferente.

Os dados de desempenho do Google Search Console são uma medida do que está acontecendo no próprio Google, não necessariamente do que está acontecendo no seu site.

Ah, e enquanto estamos nisso, não esqueça que os dados de posição do GSC estão medindo algo diferente dos dados de seu ranking.

Como obter dados mais precisos

A precisão dos dados relatados no Google Search Console na verdade aumenta à medida que você introduz mais especificidade na forma como analisa um site.

Em outras palavras, se você criar perfis que refletem níveis mais profundos da estrutura de diretórios, a ferramenta produzirá mais dados.

Pode ser bastante entediante adicionar 10s ou centenas de subdiretórios ao Google Search Console, mas o aumento na precisão dos dados pode ser bastante útil para casos de uso, como testes A / B e compreensão de oportunidades de palavras-chave inovadoras.

Como obter dados mais precisos

Ao adicionar diversos perfis, a principal limitação a ser lembrada é que a interface do usuário do GSC limita você a 1.000 consultas por filtro de pesquisa.

Portanto, considere usar a API para extrair seus dados, pois retorna 5.000 por filtro de pesquisa.

Além disso, para extrair o máximo de dados possível, considere fazer um loop através de uma série de tentativas como filtros de pesquisa (S / O para William Sears).

Isso garante que você use o maior número possível de subconjuntos de palavras como filtros para obter o máximo de resultados possível.

Fazer isso por subdiretório e seguindo a taxonomia do seu site permitirá obter os dados mais precisos possíveis.

Nada era o mesmo

Nada era o mesmo

Desde a estréia de “(não fornecido)” no final de 2011, sabíamos que nossos dados de pesquisa orgânica se deteriorariam.

Realisticamente, nunca viveremos em um mundo onde possamos vincular uma visita diretamente a uma sessão.

Os dados que o Google Search Console fornece são os melhores que teremos no futuro.

Embora os dados não correspondam à sua fonte de verdade, isso não significa que sejam imprecisos.

Da mesma forma que você não deve esperar que os dados dos Anúncios do Facebook correspondam ao Google Analytics ou os arquivos de log no Kibana relatem o mesmo que o Adobe Analytics, você não deve esperar que o Google Search Console corresponda aos seus dados analíticos.

Agora, saia e seja ótimo.

Facebook Comments Box
Facebook
Twitter
LinkedIn
WhatsApp
Telegram