Maximize sua visibilidade com dicas de John Mueller e Gary Illyes do Google sobre o uso adequado de tags lastmod e mapas de site separados.
O advogado de pesquisa do Google John Mueller e o analista Gary Illyes compartilham dicas de SEO para editores de notícias durante uma recente gravação de perguntas e respostas em horário comercial.
Revezando-se para responder às perguntas, Mueller aborda o uso correto da tag lastmod, enquanto Illyes discute os benefícios de mapas de site separados.
Quando usar a tag Lastmod?
Em um arquivo de sitemap XML, lastmod é uma tag que armazena informações sobre a última vez que uma página da web foi modificada.
Seu uso pretendido é ajudar os mecanismos de pesquisa a rastrear e indexar alterações significativas em páginas da web.
O Google fornece diretrizes para usar a tag lastmod, que pode ser usada para alterar trechos de pesquisa.
A presença da tag lastmod pode levar o Googlebot a alterar a data de publicação nos resultados da pesquisa, tornando o conteúdo mais recente e atraente para clicar.
Como resultado, pode haver uma inclinação para usar a tag lastmod mesmo para pequenas alterações em um artigo, para que pareça ter sido publicado recentemente.
Um editor de notícias pergunta se deve usar a tag lastmod para indicar a data da última atualização do artigo ou a data do comentário mais recente.
Mueller diz que a data no campo lastmod deve refletir a data em que o conteúdo da página mudou significativamente o suficiente para exigir um novo rastreamento.
No entanto, usar a data do último comentário é aceitável se os comentários forem uma parte crítica da página.
Ele também lembra o editor de usar dados estruturados e garantir que a data da página seja consistente com a tag lastmod.
“Como o arquivo de mapa do site trata de encontrar o momento certo para rastrear uma página com base em suas alterações, a data da última modificação deve refletir a data em que o conteúdo mudou significativamente o suficiente para merecer ser rastreado novamente.
Se os comentários são uma parte crítica da sua página, usar essa data é bom. Em última análise, esta é uma decisão que você pode tomar. Para a data do próprio artigo, recomendo consultar nossas diretrizes sobre o uso de datas em uma página.
Em particular, certifique-se de usar as datas em uma página de forma consistente e de estruturar os dados, incluindo o fuso horário, dentro da marcação.”
Sitemap separado para notícias?
Um editor pergunta sobre a posição do Google em ter um mapa do site de notícias e um mapa do site geral no mesmo site.
Eles também perguntam se é aceitável que ambos os sitemaps incluam URLs duplicados.
Illyes explicou que é possível ter apenas um mapa do site com a extensão de notícias adicionada às URLs necessárias, mas é mais simples ter mapas do site separados para notícias e conteúdo geral. URLs com mais de 30 dias devem ser removidos do sitemap de notícias.
Em relação aos sitemaps que compartilham as URLs duplicadas, não é recomendado, mas não causará nenhum problema.
Illyes afirma:
“Você pode ter apenas um mapa do site, um mapa do site tradicional conforme definido pelo sitemaps.org e, em seguida, adicionar a extensão de notícias aos URLs que precisam dela. Lembre-se de que você precisará remover a extensão de notícias de URLs com mais de 30 dias. Por esse motivo, geralmente é mais simples ter um mapa do site separado para notícias e para a web.
Basta remover os URLs completamente do mapa do site de notícias quando eles se tornarem muito antigos para notícias. Incluir os URLs em ambos os mapas do site, embora não seja muito bom, mas não causará nenhum problema para você.”
Essas dicas de Mueller e Illyes podem ajudar os editores de notícias a otimizar seus sites para mecanismos de pesquisa e melhorar a visibilidade e o engajamento de seus artigos.
Quer melhorar o desempenho do seu site? Aprenda a usar o GTmetrix para descobrir diferentes fatores que afetam sua visibilidade online.
Com tantas ferramentas e aplicativos disponíveis para o nosso setor, é impossível conhecer cada um deles.
Há perguntas sobre o que eles fazem, quanto custam, para que servem e tantas outras perguntas que nos atormentam quando procuramos uma ferramenta para nos ajudar a resolver problemas.
Hoje, falaremos sobre o GTmetrix, a ferramenta de teste de velocidade.
Analisaremos os usos, como usar a ferramenta e o que fazer com a saída.
O que é GTmetrix?
GTmetrix é uma ferramenta baseada na web que fornece uma análise da velocidade do site.
Ele analisará o tempo de carregamento, o tamanho e as solicitações de um site e, em seguida, gerará uma pontuação com recomendações para melhorá-lo.
Essa ferramenta pode ser usada por proprietários de sites, engenheiros, profissionais de SEO e outros para medir o desempenho de seus sites e procurar espaço para melhorias.
Captura de tela de gtmetrix.com, fevereiro de 2023
Como usar GTmetrix
A ferramenta GTmetrix existe em um site que você pode acessar online.
Você não precisa de uma conta para começar, mas precisará de uma se quiser editar o local e o tipo de navegador.
Para usar o GTmetrix, insira sua URL no site.
Captura de tela de gtmetrix.com, fevereiro de 2023
Assim que o relatório estiver completo, você pode revisar as métricas fornecidas (entraremos em mais detalhes sobre o significado delas abaixo).
Você receberá uma visão geral do GTmetrix Grade, Web Vitals e um resumo que mostra as visualizações de velocidade.
A visualização de velocidade é uma ótima maneira de ver a aparência do seu site durante o carregamento, em camadas com as métricas sobrepostas.
Na parte inferior, os principais problemas são anotados e divididos por tópicos totais: Primeira exibição de conteúdo (FCP), Maior exibição de conteúdo (LCP), Tempo total de bloqueio (TBT) e Mudança cumulativa de layout (CLS).
Ele também fornece o nível de impacto, o que é útil para a priorização.
Embora sejam os primeiros disponíveis após a execução do teste, o GTmetrix recomenda que você se concentre em auditorias específicas encontradas na guia Estrutura.
Captura de tela de gtmetrix.com, fevereiro de 2023
Vejamos cada uma das diferentes guias dentro do GTmetrix e como elas são úteis.
Aba Desempenho
A guia de desempenho fornece informações sobre várias métricas baseadas em desempenho, incluindo itens como FCP, índice de velocidade, CLS e outras métricas específicas do navegador.
Aba Estrutura
Esta é a seção que GTmetrix sugere que você comece. Esta seção descreve as várias auditorias da ferramenta e o impacto que os itens têm.
Existem informações detalhadas disponíveis em cada uma dessas auditorias que mostram o que precisa ser corrigido.
Muitas dessas informações são técnicas e, se você precisar entender melhor, o GTmetrix fornece um botão “saiba como melhorar isso” que o leva a um wiki explicando com mais detalhes como esse problema afeta o desempenho, como funciona e como evitar isto.
Aqui está o que é realmente útil: ele fornece o nível de experiência necessário para fazer essas otimizações.
Captura de tela de gtmetrix.com, fevereiro de 2023
Aba Cachoeira
Esta guia ilustra um gráfico em cascata e os detalhes de cada ação em uma abordagem em cascata.
Aqui, você deve prestar atenção aos recursos que demoram muito para carregar.
Captura de tela de gtmetrix.com, fevereiro de 2023
Você pode passar o mouse sobre a linha do recurso e ver um detalhamento do motivo pelo qual o recurso demora muito para carregar.
Captura de tela de gtmetrix.com, fevereiro de 2023
Neste exemplo, vemos que, para o servidor, demorou cerca de 700ms para responder – o que pode indicar problemas do servidor que podem ser resolvidos usando o CDN para recursos.
Aba Vídeo
Esta guia oferece a opção de gravar um vídeo do carregamento de uma página e usá-lo para identificar diferentes problemas com a página.
Você precisará de uma conta para aproveitar esta ferramenta.
Aba Histórico
Aqui você pode visualizar gráficos que exibem alterações ao longo do tempo nas métricas de sua página, como tamanhos de página, tempo de interação e pontuações.
Esta é uma ótima maneira de medir seu progresso ao longo do tempo.
Captura de tela de gtmetrix.com, fevereiro de 2023
O que significa a medição GTmetrix
Como discutimos acima, o GTmetrix produz uma pontuação geral como saída, mas o que ele mede também é essencial.
Visão Geral da Nota GTmetrix
Grau GTmetrix
Essa é a métrica que ajuda você a entender o desempenho geral do seu site.
A nota é determinada considerando o tempo de carregamento dos usuários e o projeto arquitetônico do site.
Um site de carregamento rápido que é bem arquitetado para desempenho provavelmente receberá uma nota mais alta, enquanto um site lento com tempos de carregamento mais longos ou projeto arquitetônico ruim pode receber uma nota mais baixa.
Pontuação de desempenho
A pontuação de desempenho, conforme declarado no site da GTmetrix, pode ser comparada a uma pontuação de desempenho do Lighthouse.
Esta é uma informação útil para quem deseja entender a métrica e sua relação com outras medidas de desempenho.
Estrutura
A classificação da estrutura combina a avaliação proprietária da GTmetrix de suas auditorias personalizadas com a avaliação da Lighthouse.
A pontuação representa quão bem o site é arquitetado para desempenho.
Captura de tela de gtmetrix.com, fevereiro de 2023
Web Vitals
Esta seção destaca as métricas que o Google usa para determinar se um site está gerando o que chama de “uma experiência agradável”.
Maior pintura de conteúdo (LCP)
LCP refere-se ao tempo que leva para o elemento mais significativo na página do seu site carregar onde o usuário pode vê-lo.
Uma boa experiência do usuário seria de 1,2 segundos ou menos.
Tempo Total de Bloqueio (TBT)
TBT é uma métrica do Lighthouse criada para medir a capacidade de resposta de carregamento do seu site à entrada do usuário.
Destina-se a medir a quantidade de tempo que impediu o usuário de interagir.
Um guia passo a passo para configurar dados de envio de formulário para rastrear conversões no Google Analytics usando o Gravity Forms no WordPress como exemplo.
O rastreamento de envios de formulários é um aspecto crucial do sucesso do marketing, pois permite que as organizações coletem dados valiosos sobre seu público e suas preferências.
Ao acompanhar os formulários enviados, as empresas podem identificar quais campanhas de marketing são mais eficazes, que tipo de conteúdo ressoa com seu público-alvo e quais canais geram mais conversões.
Além disso, acompanhar os envios de formulários ajuda as organizações a entender a jornada do cliente – desde o contato inicial até a conversão – fornecendo informações sobre as áreas de melhoria.
Embora existam maneiras aparentemente infinitas de rastrear envios de formulários em seu site, recomendo usar o Gerenciador de tags do Google para fazer o trabalho de perna, para que seja mais fácil enviar os dados certos para plataformas de editores (pense em Google Analytics, Google Ads, Facebook e LinkedIn ).
Por que você deve usar o Gerenciador de tags do Google
O Gerenciador de tags do Google é uma ferramenta essencial para rastreamento de formulários, pois fornece uma plataforma centralizada para gerenciar tags de rastreamento e snippets de código de marketing em um site.
Ao integrar o rastreamento de formulários com o Gerenciador de tags do Google, indivíduos e empresas podem rastrear facilmente os envios de formulários e coletar dados valiosos sem a necessidade de adicionar código manualmente a seus sites.
Isso economiza tempo e reduz o risco de erros que podem surgir da implementação manual.
Além disso, o Gerenciador de tags do Google oferece uma interface amigável que permite aos profissionais de marketing criar, gerenciar e implementar tags de rastreamento sem a necessidade de habilidades técnicas.
Como rastrear envios de formulários no Gerenciador de tags do Google
O Gerenciador de tags do Google detecta eventos em seu site, chamados de “gatilhos”, e executa snippets de código com os dados necessários, chamados de “tags”, quando apropriado.
Existem alguns gatilhos diferentes que podem ser usados para rastrear formulários, incluindo os seguintes, classificados por confiabilidade:
Visualizações de página de confirmação.
Visibilidade da mensagem de sucesso.
Eventos da Camada de Dados.
Ouvinte de evento automático.
Ouvinte de evento AJAX.
Raspagem de DOM.
Ouvinte de evento personalizado.
Embora todos esses gatilhos funcionem, aquele com o qual tenho mais sucesso é o primeiro: exibições de página de confirmação.
Em vez de fazer com que o formulário envie um sinal ao Gerenciador de tags do Google quando alguém preenche um formulário, podemos rastrear quando um usuário chega a uma página de confirmação ou “obrigado” após preencher o formulário.
Etapa 1: Configurando uma página de confirmação no WordPress
Se você estiver usando o WordPress para gerenciar o conteúdo do seu site, há muitos plugins que você pode usar para integrar formulários funcionais e bonitos em seu site.
Meu favorito, e o que minha agência usa, é o Gravity Forms .
No Gravity Forms, você pode configurar uma “Confirmação” para o seu formulário para enviar os usuários a uma página de sua escolha e até mesmo transferir os dados do formulário para essa página para um rastreamento mais avançado.
Captura de tela do Gravity Forms, fevereiro de 2023
Se o Gravity Forms não for para você, há uma quantidade infinita de plug-ins que podem fazer o trabalho, incluindo WPForms , Ninja Forms e HubSpot .
Etapa 2: Configurando um gatilho no Gerenciador de tags do Google
Depois de configurar uma página de confirmação, o próximo passo é configurar um “gatilho” no Google Tag Manager.
Certifique-se de que seu acionador esteja ouvindo um evento de exibição de página apenas em sua página de confirmação (como a configuração mostrada abaixo).
Captura de tela do Gerenciador de tags do Google, fevereiro de 2023
Etapa 3: Configurando uma tag para o Google Analytics 4
Depois de confirmar que os dados corretos estão chegando ao Gerenciador de tags do Google, usando uma ferramenta como o depurador nativo do GTM ou a popular extensão do Chrome do GTM, você pode começar a enviar esses dados para plataformas de marketing e relatórios como o Google Analytics.
Com todos mudando do Universal Analytics para o Google Analytics 4 (GA4), achamos que este seria o exemplo mais útil para demonstrar como é fácil rastrear formulários no GTM.
Apenas certifique-se de usar a tag de modelo “Google Analytics: GA4 Event”, escolha a tag de configuração do GA4 correta (ou digite seu ID de propriedade do GA4 diretamente) e escolha o nome do evento correto.
Na maioria dos casos, “generate_lead” será a melhor escolha, mas há vários outros eventos nativos no GA4 para escolher.
Captura de tela do Gerenciador de tags do Google, fevereiro de 2023
Etapa 4: comece a ver os resultados
Agora que o Gerenciador de tags do Google está coletando dados e enviando-os para o Google Analytics 4, você poderá ver esses dados em seus relatórios do GA4 (pode levar um ou dois dias para ver os resultados se você estiver verificando em tempo real).
Se você usou o evento “generate_lead” descrito acima, as exibições de página para a página de confirmação serão sinalizadas automaticamente como uma conversão.
Em seguida, você pode usar o relatório de conversão do GA4 para ver quantos envios de formulário você está coletando e até mesmo adicionar diferentes dimensões e métricas para aquisição avançada e insights de comportamento.
Captura de tela do Google Analytics, fevereiro de 2023
Conclusão
Seja você um profissional de marketing experiente ou apenas começando, o rastreamento de formulários em GTM e WordPress fornece uma solução direta e eficiente para rastrear envios de formulários e entender de onde vêm os leads, como eles estão interagindo com o site e por que estão interessados em você.
Embora a solução acima seja a mais popular e confiável, há muitas que são adequadas para sites que possuem formulários e lógica de site mais personalizados.
Certifique-se de consultar um desenvolvedor se você tiver algum problema ao longo do caminho!
Alguns se sentem desconfortáveis com a forma como o ChatGPT usa seu conteúdo da web para treinar e aprender com
Existe uma maneira de impedir que seu conteúdo seja usado para treinar grandes modelos de linguagem como o ChatGPT
Especialista em Lei de Propriedade Intelectual diz que a tecnologia ultrapassou a capacidade das leis de direitos autorais de acompanhar
Um especialista em marketing de busca questiona se o uso de conteúdo da Internet por IA sem permissão é justo
Os Large Language Models (LLMs) como o ChatGPT são treinados usando várias fontes de informação, incluindo conteúdo da web. Esses dados formam a base dos resumos desse conteúdo na forma de artigos que são produzidos sem atribuição ou benefício para quem publicou o conteúdo original usado para o treinamento do ChatGPT.
Os mecanismos de pesquisa baixam o conteúdo do site (chamado rastreamento e indexação) para fornecer respostas na forma de links para os sites.
Os editores de sites podem optar por não ter seu conteúdo rastreado e indexado pelos mecanismos de pesquisa por meio do Protocolo de Exclusão de Robôs, comumente referido como Robots.txt.
O Protocolo de Exclusões de Robôs não é um padrão oficial da Internet, mas é um que os rastreadores da Web legítimos obedecem.
Os editores da web devem poder usar o protocolo Robots.txt para impedir que modelos de linguagem grandes usem o conteúdo do site?
Grandes modelos de linguagem usam o conteúdo do site sem atribuição
Algumas pessoas envolvidas com marketing de busca se sentem desconfortáveis com a forma como os dados do site são usados para treinar máquinas sem dar nada em troca, como reconhecimento ou tráfego.
Hans Petter Blindheim ( perfil do LinkedIn ), especialista sênior da Curamando, compartilhou suas opiniões comigo.
Hans Petter comentou:
“Quando um autor escreve algo depois de ter aprendido algo com um artigo em seu site, na maioria das vezes ele irá criar um link para seu trabalho original porque oferece credibilidade e cortesia profissional.
Chama-se citação.
Mas a escala em que o ChatGPT assimila o conteúdo e não dá nada em troca o diferencia tanto do Google quanto das pessoas.
Um site geralmente é criado com uma diretiva de negócios em mente.
O Google ajuda as pessoas a encontrar o conteúdo, fornecendo tráfego, o que traz benefícios mútuos.
Mas não é como se grandes modelos de linguagem pedissem sua permissão para usar seu conteúdo, eles apenas o usavam em um sentido mais amplo do que o esperado quando seu conteúdo foi publicado.
E se os modelos de linguagem AI não oferecem valor em troca, por que os editores devem permitir que eles rastreiem e usem o conteúdo?
O uso do seu conteúdo atende aos padrões de uso justo?
Quando o ChatGPT e os próprios modelos de ML/AI do Google treinam em seu conteúdo sem permissão, giram o que aprendem lá e usam isso enquanto mantêm as pessoas longe de seus sites – a indústria e também os legisladores não deveriam tentar retomar o controle da Internet forçando eles para fazer a transição para um modelo “opt-in”?”
As preocupações que Hans Petter expressa são razoáveis.
À luz da rapidez com que a tecnologia está evoluindo, as leis relativas ao uso justo devem ser reconsideradas e atualizadas?
Perguntei a John Rizvi, um advogado de patentes registrado ( perfil do LinkedIn ) que é certificado em Lei de Propriedade Intelectual, se as leis de direitos autorais da Internet estão desatualizadas .
João respondeu:
“Sim, sem dúvida.
Um grande ponto de discórdia em casos como este é o fato de que a lei inevitavelmente evolui muito mais lentamente do que a tecnologia.
Nos anos 1800, isso talvez não importasse tanto porque os avanços eram relativamente lentos e, portanto, o mecanismo legal era mais ou menos preparado para corresponder.
Hoje, no entanto, os avanços tecnológicos descontrolados ultrapassaram em muito a capacidade da lei de acompanhar.
Existem simplesmente muitos avanços e muitas partes móveis para a lei acompanhar.
Como atualmente é constituído e administrado, em grande parte por pessoas que dificilmente são especialistas nas áreas de tecnologia que estamos discutindo aqui, a lei está mal equipada ou estruturada para acompanhar o ritmo da tecnologia…e devemos considerar que este não é um coisa ruim.
Portanto, em um aspecto, sim, a lei de Propriedade Intelectual precisa evoluir, mesmo que pretenda, e muito menos esperar, acompanhar os avanços tecnológicos.
O problema principal é encontrar um equilíbrio entre manter-se atualizado com as várias formas de tecnologia que podem ser usadas, evitando o exagero flagrante ou a censura total para ganhos políticos envoltos em intenções benevolentes.
A lei também deve tomar cuidado para não legislar contra os possíveis usos da tecnologia de forma tão ampla a ponto de estrangular qualquer benefício potencial que possa derivar deles.
Você poderia facilmente entrar em conflito com a Primeira Emenda e qualquer número de casos resolvidos que circunscrevam como, por que e em que grau a propriedade intelectual pode ser usada e por quem.
E tentar visualizar todo uso concebível de tecnologia anos ou décadas antes que a estrutura exista para torná-la viável ou mesmo possível seria uma tarefa tola extremamente perigosa.
Em situações como essa, a lei realmente não pode deixar de ser reativa à forma como a tecnologia é usada… não necessariamente como ela foi planejada.
Não é provável que isso mude tão cedo, a menos que atinjamos um platô tecnológico maciço e imprevisto que permita que a lei tenha tempo para acompanhar os eventos atuais.
Portanto, parece que a questão das leis de direitos autorais tem muitas considerações a serem ponderadas quando se trata de como a IA é treinada, não há uma resposta simples.
OpenAI e Microsoft processadas
Um caso interessante que foi arquivado recentemente é aquele em que a OpenAI e a Microsoft usaram código-fonte aberto para criar seu produto CoPilot.
O problema com o uso de código-fonte aberto é que a licença Creative Commons requer atribuição.
“Os queixosos alegam que OpenAI e GitHub montaram e distribuíram um produto comercial chamado Copilot para criar código generativo usando código acessível ao público originalmente disponibilizado sob várias licenças de estilo “código aberto”, muitas das quais incluem um requisito de atribuição.
Como afirma o GitHub, ‘…[t]oido em bilhões de linhas de código, o GitHub Copilot transforma prompts de linguagem natural em sugestões de codificação em dezenas de idiomas.’
O produto resultante supostamente omitiu qualquer crédito aos criadores originais.”
O autor desse artigo, que é um especialista jurídico no assunto de direitos autorais, escreveu que muitos veem as licenças Creative Commons de código aberto como um “vale para todos”.
Alguns também podem considerar a frase free-for-all uma descrição justa dos conjuntos de dados compostos por conteúdo da Internet que são copiados e usados para gerar produtos de IA como o ChatGPT.
Histórico sobre LLMs e conjuntos de dados
Grandes modelos de linguagem são treinados em vários conjuntos de dados de conteúdo. Os conjuntos de dados podem consistir em e-mails, livros, dados do governo, artigos da Wikipédia e até mesmo conjuntos de dados criados de sites vinculados a postagens no Reddit que tenham pelo menos três votos positivos.
Muitos dos conjuntos de dados relacionados ao conteúdo da Internet têm origem no rastreamento criado por uma organização sem fins lucrativos chamada Common Crawl .
Seu conjunto de dados, o conjunto de dados Common Crawl, está disponível gratuitamente para download e uso.
O conjunto de dados Common Crawl é o ponto de partida para muitos outros conjuntos de dados criados a partir dele.
Foi assim que os pesquisadores do GPT-3 usaram os dados do site contidos no conjunto de dados Common Crawl:
“Os conjuntos de dados para modelos de linguagem se expandiram rapidamente, culminando no conjunto de dados Common Crawl… constituindo quase um trilhão de palavras.
Esse tamanho de conjunto de dados é suficiente para treinar nossos maiores modelos sem nunca atualizar na mesma sequência duas vezes.
No entanto, descobrimos que versões não filtradas ou levemente filtradas do Common Crawl tendem a ter qualidade inferior do que conjuntos de dados mais selecionados.
Portanto, tomamos 3 passos para melhorar a qualidade média de nossos conjuntos de dados:
(1) baixamos e filtramos uma versão do CommonCrawl com base na semelhança com uma variedade de corpora de referência de alta qualidade,
(2) realizamos desduplicação difusa no nível do documento, dentro e entre conjuntos de dados, para evitar redundância e preservar a integridade de nosso conjunto de validação mantido como uma medida precisa de superajuste e
(3) também adicionamos corpora de referência de alta qualidade conhecidos ao mix de treinamento para aumentar o CommonCrawl e aumentar sua diversidade.”
O conjunto de dados C4 do Google (Colossal, Cleaned Crawl Corpus), que foi usado para criar o Text-to-Text Transfer Transformer (T5), também tem suas raízes no conjunto de dados Common Crawl.
“Antes de apresentar os resultados de nosso estudo empírico em larga escala, revisamos os tópicos básicos necessários para entender nossos resultados, incluindo a arquitetura do modelo Transformer e as tarefas de downstream que avaliamos.
Também apresentamos nossa abordagem para tratar cada problema como uma tarefa de texto para texto e descrevemos nosso “Colossal Clean Crawled Corpus” (C4), o conjunto de dados baseado em rastreamento comum que criamos como uma fonte de dados de texto não rotulados.
Referimo-nos ao nosso modelo e estrutura como o ‘Transformador de transferência de texto para texto’ (T5).”
O Google publicou um artigo em seu blog de IA que explica melhor como os dados do Common Crawl (que contém conteúdo extraído da Internet) foram usados para criar o C4.
Eles escreveram:
“Um ingrediente importante para o aprendizado de transferência é o conjunto de dados não rotulado usado para pré-treinamento.
Para medir com precisão o efeito de aumentar a quantidade de pré-treinamento, é necessário um conjunto de dados que não seja apenas de alta qualidade e diverso, mas também massivo.
Os conjuntos de dados pré-treinamento existentes não atendem a todos esses três critérios – por exemplo, o texto da Wikipedia é de alta qualidade, mas uniforme em estilo e relativamente pequeno para nossos propósitos, enquanto os rascunhos da Web do Common Crawl são enormes e altamente diversos, mas razoavelmente baixa qualidade.
Para atender a esses requisitos, desenvolvemos o Colossal Clean Crawled Corpus (C4), uma versão limpa do Common Crawl que é duas ordens de grandeza maior que a Wikipedia.
Nosso processo de limpeza envolvia desduplicação, descarte de frases incompletas e remoção de conteúdo ofensivo ou ruidoso.
Essa filtragem levou a melhores resultados em tarefas de downstream, enquanto o tamanho adicional permitiu que o tamanho do modelo aumentasse sem overfitting durante o pré-treinamento.”
Google, OpenAI e até os dados abertos da Oracle estão usando o conteúdo da Internet, seu conteúdo, para criar conjuntos de dados que são usados para criar aplicativos de IA como o ChatGPT.
O rastreamento comum pode ser bloqueado
É possível bloquear o rastreamento comum e, posteriormente, optar por não participar de todos os conjuntos de dados baseados no rastreamento comum.
Mas se o site já foi rastreado, os dados do site já estão nos conjuntos de dados. Não há como remover seu conteúdo do conjunto de dados Common Crawl e de qualquer um dos outros conjuntos de dados derivados, como C4 e Open Data.
O uso do protocolo Robots.txt apenas bloqueará rastreamentos futuros pelo Common Crawl, não impedirá que os pesquisadores usem o conteúdo já existente no conjunto de dados.
Como bloquear rastreamento comum de seus dados
O bloqueio do Rastreamento Comum é possível por meio do uso do protocolo Robots.txt, dentro das limitações discutidas acima.
O bot Common Crawl é chamado CCBot.
Ele é identificado usando a string CCBot User-Agent mais atualizada: CCBot/2.0
O bloqueio do CCBot com Robots.txt é feito da mesma forma que com qualquer outro bot.
Aqui está o código para bloquear CCBot com Robots.txt.
Agente do usuário: CCBot
Não permitir: /
O CCBot rastreia a partir de endereços IP da Amazon AWS.
CCBot também segue a meta tag nofollow Robots:
<meta name="robots" content="nofollow">
E se você não estiver bloqueando o rastreamento comum?
O conteúdo da Web pode ser baixado sem permissão, que é como os navegadores funcionam, eles baixam o conteúdo.
O Google ou qualquer outra pessoa não precisa de permissão para baixar e usar o conteúdo publicado publicamente.
Os editores de sites têm opções limitadas
A consideração de se é ético treinar IA em conteúdo da web não parece fazer parte de nenhuma conversa sobre a ética de como a tecnologia de IA é desenvolvida.
Parece ser um dado adquirido que o conteúdo da Internet pode ser baixado, resumido e transformado em um produto chamado ChatGPT.
Gary Illyes, uma figura bem conhecida da indústria no Google, está causando sensação no LinkedIn com sua recente incursão em compartilhar conselhos de SEO.
Gary Illyes, do Google, está fornecendo informações valiosas sobre SEO por meio de suas postagens no LinkedIn em resposta a mensagens diretas.
Illyes está abordando tópicos importantes, como o tamanho dos arquivos robots.txt, redesenho de sites e seu impacto nas classificações e o uso adequado de tags rel-canonical.
As últimas postagens de Illyes no LinkedIn são um exemplo de sua dedicação em ajudar as pessoas a entender como o Google funciona.
O analista do Google, Gary Illyes, oferece orientação sobre grandes arquivos robots.txt, o impacto de SEO de redesenhos de sites e o uso correto de tags rel-canonical.
Illyes está recebendo perguntas enviadas a ele por meio de mensagem direta do LinkedIn e respondendo-as publicamente, oferecendo informações valiosas para a comunidade de SEO.
Já é interessante para um funcionário do Google compartilhar conselhos de SEO. Isso é especialmente verdade porque é Illyes, que não é tão ativo nas mídias sociais quanto colegas como o advogado de pesquisa John Mueller e o advogado de desenvolvedores Martin Splitt.
Durante a semana passada, Illyes compartilhou conselhos e ofereceu orientação sobre os seguintes assuntos:
Arquivos robots.txt grandes
O impacto de SEO das reformulações de sites
O uso correto de tags rel-canonical
Considerando o engajamento que suas postagens estão recebendo, é provável que haja mais por vir. Aqui está um resumo do que você perdeu se não o estiver seguindo no LinkedIn.
Mantenha os arquivos Robots.TXT abaixo de 500 KB
Com relação a uma pesquisa publicada anteriormente sobre o tamanho dos arquivos robots.txt, Illyes compartilha um PSA para aqueles com tamanho de arquivo maior que 500kb.
Captura de tela de: linkedin.com/in/garyillyes/, janeiro de 2023.
Illyes aconselha prestar atenção ao tamanho do arquivo robots.txt do seu site, especialmente se for maior que 500kb.
Os rastreadores do Google processam apenas os primeiros 500 KB do arquivo, por isso é crucial garantir que as informações mais importantes apareçam primeiro.
Isso pode ajudar a garantir que seu site seja devidamente rastreado e indexado pelo Google.
Redesenhos de sites podem fazer com que as classificações enlouqueçam
Ao redesenhar um site, é importante lembrar que sua classificação nos mecanismos de pesquisa pode ser afetada.
Como explica Illyes, isso ocorre porque os mecanismos de pesquisa usam o HTML de suas páginas para entender e categorizar o conteúdo do seu site.
Se você fizer alterações na estrutura do HTML, como dividir parágrafos, usar estilo CSS em vez de tags H ou adicionar tags de quebra desnecessárias, isso poderá fazer com que os analisadores de HTML produzam resultados diferentes.
Isso pode afetar significativamente as classificações do seu site nos mecanismos de pesquisa. Ou, como diz Illyes, pode fazer com que os rankings fiquem “malucos”:
Captura de tela de: linkedin.com/in/garyillyes/, janeiro de 2023.
Illyes aconselha usar HTML semanticamente semelhante ao redesenhar o site e evitar adicionar tags desnecessárias para minimizar o impacto do SEO.
Isso permitirá que os analisadores de HTML entendam melhor o conteúdo do seu site, o que pode ajudar a manter as classificações de pesquisa.
Não use caminhos relativos em seu Rel-Canonical
Não use atalhos ao implementar tags rel-canonical. Illyes recomenda enfaticamente soletrar todo o caminho da URL:
Captura de tela de: linkedin.com/in/garyillyes/, janeiro de 2023.
Salvar alguns bytes usando um caminho relativo na tag rel-canonical não compensa os possíveis problemas que isso pode causar.
O uso de caminhos relativos pode fazer com que os mecanismos de pesquisa o tratem como uma URL diferente, o que pode confundir os mecanismos de pesquisa.
Soletrar o caminho completo do URL elimina possíveis ambiguidades e garante que os mecanismos de pesquisa identifiquem o URL correto como a versão preferida.
Resumindo
Ao responder às perguntas enviadas a ele por mensagem direta e oferecer sua experiência, Illyes está retribuindo à comunidade e fornecendo informações valiosas sobre vários tópicos relacionados a SEO.
Isso é uma prova da dedicação de Illyes em ajudar as pessoas a entender como o Google funciona. Envie-lhe um DM, e sua pergunta pode ser respondida em uma futura postagem no LinkedIn.
O Google Ads apresenta palavras-chave negativas no nível da conta em todo o mundo, oferecendo aos anunciantes maior segurança e adequação da marca.
As palavras-chave negativas no nível da conta no Google Ads oferecem maior segurança e adequação da marca, permitindo que os anunciantes excluam o tráfego de todas as campanhas de pesquisa e compras.
Os anunciantes podem gerenciar palavras-chave negativas com mais eficiência no nível da conta, economizando tempo e reduzindo as chances de erro humano.
Esse recurso é um passo importante para dar às marcas mais controle sobre seus canais de publicidade.
O contato do Google Ads, Ginny Marvin, anunciou que as palavras-chave negativas no nível da conta agora estão disponíveis para os anunciantes do Google Ads em todo o mundo.
O recurso, anunciado pela primeira vez no ano passado e em teste há vários meses, permite que os anunciantes adicionem palavras-chave para excluir o tráfego de todas as campanhas de pesquisa e compras, bem como da parte de pesquisa e compras da Performance Max, para maior segurança da marca e aptidão.
Os anunciantes podem acessar esse recurso na página de configurações da conta para garantir que suas campanhas estejam alinhadas com seus valores de marca e público-alvo.
Isso é especialmente importante para marcas que desejam evitar aparecer em contextos que possam ser inapropriados ou prejudiciais à sua reputação.
Além dos benefícios de segurança da marca, a adição de palavras-chave negativas no nível da conta torna o processo de gerenciamento de campanha mais eficiente para os anunciantes.
Em vez de adicionar palavras-chave negativas a campanhas individuais, os anunciantes podem gerenciá-las no nível da conta, economizando tempo e reduzindo as chances de erro humano.
Você não precisa mais se preocupar em duplicar palavras-chave negativas em várias campanhas ou perder alguma vital para a segurança da sua marca.
Além disso, as palavras-chave negativas no nível da conta podem melhorar a precisão da segmentação de anúncios excluindo palavras-chave irrelevantes ou de baixo desempenho que podem afetar negativamente o desempenho da campanha. Isso pode resultar em tráfego de maior qualidade e um melhor retorno sobre o investimento.
O Google Ads oferece uma variedade de controles de adequação de marca existentes , incluindo tipos de inventário, rótulos de conteúdo digital, exclusões de canais e palavras-chave negativas no nível da campanha.
Marvin acrescentou que o Google Ads está expandindo as palavras-chave negativas no nível da conta para abordar vários casos de uso e terá mais para compartilhar em breve.
Esse lançamento é essencial para dar às marcas mais controle sobre sua publicidade e garantir que suas campanhas sejam direcionadas ao público apropriado.
Pesquisadores descobrem falhas surpreendentes no conteúdo do ChatGPT. Veja como pegá-los.
Por que o conteúdo ChatGPT de baixa qualidade passa pela revisão humana.
O ChatGPT é abrangente, mesmo quando deveria ser conciso.
O professor cita uma falha que arruína os ensaios gerados pelo ChatGPT.
O ChatGPT falha no teste fictício de detecção de androides Voight-Kampff e a surpreendente razão pela qual isso é importante.
O ChatGPT produz conteúdo abrangente e plausivelmente preciso.
Mas pesquisadores, artistas e professores alertam para deficiências a serem observadas que degradam a qualidade do conteúdo.
Neste artigo, veremos 11 desvantagens do conteúdo do ChatGPT. Vamos mergulhar.
1. O uso da frase o torna detectável como não humano
Pesquisadores que estudam como detectar conteúdo gerado por máquina descobriram padrões que o tornam antinatural.
Uma dessas peculiaridades é como a IA luta com expressões idiomáticas.
Uma expressão idiomática é uma frase ou ditado com um significado figurativo associado a ela, por exemplo, “cada nuvem tem um forro de prata”.
A falta de expressões idiomáticas em um conteúdo pode ser um sinal de que o conteúdo é gerado por máquina – e isso pode fazer parte de um algoritmo de detecção.
“Características frasais complexas são baseadas na frequência de palavras e frases específicas dentro do texto analisado que ocorrem com mais frequência no texto humano.
…Desses recursos frasais complexos, os recursos idiomáticos retêm o poder mais preditivo na detecção dos modelos generativos atuais.”
Essa incapacidade de usar expressões idiomáticas contribui para que a saída do ChatGPT soe e seja lida de maneira não natural.
2. ChatGPT carece de capacidade de expressão
Um artista comentou como o resultado do ChatGPT imita o que é arte, mas carece das qualidades reais da expressão artística.
Expressão é o ato de comunicar pensamentos ou sentimentos.
A saída do ChatGPT não contém expressões, apenas palavras.
Ele não pode produzir conteúdo que toque as pessoas emocionalmente no mesmo nível que um ser humano – porque não tem pensamentos ou sentimentos reais.
O artista musical Nick Cave, em um artigo postado em seu boletim informativo Red Hand Files, comentou sobre uma letra do ChatGPT que foi enviada a ele, criada no estilo de Nick Cave.
Ele escreveu:
“O que torna uma grande música ótima não é sua grande semelhança com uma obra reconhecível.
…é o confronto ofegante com a própria vulnerabilidade, periculosidade, pequenez, contra uma sensação de descoberta repentina e chocante; é o ato artístico redentor que mexe com o coração do ouvinte, onde o ouvinte reconhece no funcionamento interno da canção seu próprio sangue, sua própria luta, seu próprio sofrimento”.
Cave chamou as letras do ChatGPT de zombaria.
Esta é a letra do ChatGPT que se assemelha a uma letra de Nick Cave:
“Eu tenho sangue de anjos, em minhas mãoseu tenho o fogo do inferno, em meus olhoseu sou o rei do abismo, eu sou o governante das trevas,eu sou aquele que eles temem. , nas sombras eles escutam”
“Bem, eu tenho deslizado para baixo em arco-írisEu tenho balançado nas estrelasAgora este miserável em roupas de mendigoBate sua xícara nas gradesOlha, esta minha xícara está vazia!Parece que perdi meus desejosParece que estou varrendo as cinzasDe todos os meus antigos incêndios
É fácil ver que a letra gerada por máquina se parece com a letra do artista, mas na verdade não comunica nada.
As letras de Nick Cave contam uma história que ressoa com o pathos, o desejo, a vergonha e a decepção intencional da pessoa que fala na música. Expressa pensamentos e sentimentos.
É fácil ver por que Nick Cave chama isso de zombaria.
3. O ChatGPT não produz insights
Um artigo publicado no The Insider citou um acadêmico que observou que os ensaios acadêmicos gerados pelo ChatGPT carecem de insights sobre o assunto.
O ChatGPT resume o tópico, mas não oferece uma visão única sobre o assunto.
Os seres humanos criam por meio do conhecimento, mas também por meio de sua experiência pessoal e percepções subjetivas.
O professor Christopher Bartel, da Appalachian State University, é citado pelo The Insider como tendo dito que, embora um ensaio do ChatGPT possa exibir altas qualidades gramaticais e ideias sofisticadas, ainda carece de insight.
Bartel disse:
“Eles são realmente fofos. Não há contexto, não há profundidade ou percepção.”
Insight é a marca registrada de um ensaio bem feito e é algo em que o ChatGPT não é particularmente bom.
Essa falta de percepção é algo a se ter em mente ao avaliar o conteúdo gerado por máquina.
4. O ChatGPT é muito prolixo
Um trabalho de pesquisa publicado em janeiro de 2023 descobriu padrões no conteúdo do ChatGPT que o tornam menos adequado para aplicativos críticos.
A pesquisa mostrou que os humanos preferiram as respostas do ChatGPT em mais de 50% das questões respondidas relacionadas a finanças e psicologia.
Mas o ChatGPT falhou em responder perguntas médicas porque os humanos preferiam respostas diretas – algo que a IA não fornecia.
Os pesquisadores escreveram:
“…ChatGPT tem desempenho ruim em termos de utilidade para o domínio médico em inglês e chinês.
O ChatGPT geralmente fornece respostas longas para consultas médicas em nosso conjunto de dados coletados, enquanto especialistas humanos podem fornecer respostas ou sugestões diretas diretamente, o que pode explicar em parte por que os voluntários consideram as respostas humanas mais úteis no domínio médico”.
O ChatGPT tende a cobrir um tópico de diferentes ângulos, o que o torna inadequado quando a melhor resposta é direta.
Os profissionais de marketing que usam o ChatGPT devem observar isso porque os visitantes do site que exigem uma resposta direta não ficarão satisfeitos com uma página da web detalhada.
A tendência do ChatGPT em fornecer respostas longas é algo que deve ser levado em consideração ao usar a saída do ChatGPT, pois você pode encontrar situações em que respostas mais curtas e diretas são melhores.
5. O conteúdo do ChatGPT é altamente organizado com lógica clara
O ChatGPT tem um estilo de escrita que não é apenas prolixo, mas também tende a seguir um modelo que dá ao conteúdo um estilo único que não é humano.
Essa qualidade inumana é revelada nas diferenças entre como os humanos e as máquinas respondem às perguntas.
O filme Blade Runner tem uma cena com uma série de perguntas destinadas a revelar se o sujeito que responde às perguntas é um humano ou um andróide.
Essas perguntas faziam parte de um teste fictício chamado “ teste Voigt-Kampff ”.
Uma das perguntas é:
“Você está assistindo televisão. De repente você percebe que há uma vespa rastejando em seu braço. O que você faz?”
Uma resposta humana normal seria dizer algo como gritar, sair e dar um tapa, e assim por diante.
Mas quando fiz essa pergunta ao ChatGPT, ele ofereceu uma resposta meticulosamente organizada que resumia a pergunta e, em seguida, oferecia vários resultados lógicos possíveis – falhando em responder à pergunta real.
Captura de tela do ChatGPT respondendo a uma pergunta do teste Voight-Kampff
Captura de tela do ChatGPT, janeiro de 2023
A resposta é altamente organizada e lógica, dando-lhe uma sensação altamente antinatural, o que é indesejável.
6. O ChatGPT é excessivamente detalhado e abrangente
O ChatGPT foi treinado de forma a recompensar a máquina quando os humanos ficaram satisfeitos com a resposta.
Os avaliadores humanos tendiam a preferir respostas com mais detalhes.
Mas às vezes, como em um contexto médico, uma resposta direta é melhor do que abrangente.
O que isso significa é que a máquina precisa ser induzida a ser menos abrangente e mais direta quando essas qualidades são importantes.
“Esses problemas surgem de vieses nos dados de treinamento (os treinadores preferem respostas mais longas que pareçam mais abrangentes) e problemas conhecidos de otimização excessiva.”
A CNET deveria ter uma ideia de que isso poderia acontecer, porque a OpenAI publicou um aviso sobre a saída incorreta:
“O ChatGPT às vezes escreve respostas que parecem plausíveis, mas incorretas ou sem sentido.”
A CNET afirma ter submetido os artigos gerados por máquina para revisão humana antes da publicação.
Um problema com a revisão humana é que o conteúdo do ChatGPT é projetado para soar persuasivamente correto, o que pode enganar um revisor que não seja um especialista no assunto.
O ChatGPT é muito literal, o que faz com que as respostas às vezes errem o alvo porque a IA ignora o tópico real.
Os pesquisadores escreveram:
“As respostas do ChatGPT geralmente são estritamente focadas na questão dada, enquanto as dos humanos são divergentes e facilmente mudam para outros tópicos.
Em termos de riqueza de conteúdo, os humanos são mais divergentes em diferentes aspectos, enquanto o ChatGPT prefere focar na questão em si.
Os humanos podem responder ao significado oculto sob a pergunta com base em seu próprio senso comum e conhecimento, mas o ChatGPT depende das palavras literais da pergunta em questão…”
Os seres humanos são mais capazes de divergir da pergunta literal, o que é importante para responder a perguntas do tipo “e sobre”.
Por exemplo, se eu perguntar:
“Os cavalos são grandes demais para serem animais de estimação. E os guaxinins?
A pergunta acima não está perguntando se um guaxinim é um animal de estimação apropriado. A questão é sobre o tamanho do animal.
O ChatGPT se concentra na adequação do guaxinim como animal de estimação, em vez de se concentrar no tamanho.
Captura de tela de uma resposta excessivamente literal do ChatGPT
Captura de tela do ChatGPT, janeiro de 2023
9. ChatGPT contém um viés para ser neutro
A saída do ChatGPT é geralmente neutra e informativa. É um viés na saída que pode parecer útil, mas nem sempre é.
O trabalho de pesquisa que acabamos de discutir observou que a neutralidade é uma qualidade indesejável quando se trata de questões legais, médicas e técnicas.
Os humanos tendem a escolher um lado ao oferecer esse tipo de opinião.
10. ChatGPT tende a ser formal
A saída do ChatGPT tem um viés que o impede de relaxar e responder com expressões comuns. Em vez disso, suas respostas tendem a ser formais.
Os humanos, por outro lado, tendem a responder às perguntas com um estilo mais coloquial, usando linguagem e gírias cotidianas – o oposto do formal.
O ChatGPT não usa abreviações como GOAT ou TL;DR.
As respostas também carecem de ironia, metáforas e humor, o que pode tornar o conteúdo do ChatGPT excessivamente formal para alguns tipos de conteúdo.
Os pesquisadores escrevem:
“…ChatGPT gosta de usar conjunções e advérbios para transmitir um fluxo lógico de pensamento, como “Em geral”, “por outro lado”, “Em primeiro lugar,…, Em segundo lugar,…, Finalmente” e assim por diante.
11. O ChatGPT ainda está em treinamento
Atualmente, o ChatGPT ainda está em processo de treinamento e aprimoramento.
A OpenAI recomenda que todo o conteúdo gerado pelo ChatGPT seja revisado por um humano, listando isso como uma prática recomendada.
“Sempre que possível, recomendamos ter resultados de revisão humana antes de serem usados na prática.
Isso é especialmente crítico em domínios de alto risco e para geração de código.
Os humanos devem estar cientes das limitações do sistema e ter acesso a qualquer informação necessária para verificar as saídas (por exemplo, se o aplicativo resume anotações, um humano deve ter acesso fácil às anotações originais para consulta).”
Qualidades indesejadas do ChatGPT
É claro que há muitos problemas com o ChatGPT que o tornam impróprio para geração de conteúdo não supervisionado. Ele contém preconceitos e não consegue criar conteúdo que pareça natural ou contenha insights genuínos.
Além disso, sua incapacidade de sentir ou criar pensamentos originais o torna uma escolha ruim para gerar expressões artísticas.
Os usuários devem aplicar prompts detalhados para gerar conteúdo melhor do que o conteúdo padrão que tende a gerar.
Por fim, a revisão humana do conteúdo gerado por máquina nem sempre é suficiente, porque o conteúdo do ChatGPT é projetado para parecer correto, mesmo quando não é.
Isso significa que é importante que os revisores humanos sejam especialistas no assunto que possam discernir entre conteúdo correto e incorreto em um tópico específico.
Posts pagination
Este site usa cookies para melhorar sua experiência. Ao clicar em "Aceitar e Fechar" você concorda com o uso dos cookies, termos e políticas do site.
This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary cookies are absolutely essential for the website to function properly. These cookies ensure basic functionalities and security features of the website, anonymously.
Cookie
Duração
Descrição
cookielawinfo-checkbox-analytics
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional
11 months
The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy
11 months
The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
Functional cookies help to perform certain functionalities like sharing the content of the website on social media platforms, collect feedbacks, and other third-party features.
Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.
Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics the number of visitors, bounce rate, traffic source, etc.
Advertisement cookies are used to provide visitors with relevant ads and marketing campaigns. These cookies track visitors across websites and collect information to provide customized ads.