O Big Data Analytics é o processo de examinar grandes e variados conjuntos de dados – ou seja, dados importantes – para descobrir padrões ocultos, correlações desconhecidas, tendências do mercado, preferências dos clientes e outras informações úteis que podem ajudar as organizações a tomar decisões empresariais mais informadas.
Link para o curso: expertdigital.net/curso-de-google-analytics/
Table of Contents
ToggleBenefícios do Big Data Analytics
Dirigido por sistemas e software de análise especializados, a grande análise de dados pode apontar o caminho para vários benefícios empresariais, incluindo novas oportunidades de receita, marketing mais efetivo, melhor atendimento ao cliente, melhor eficiência operacional e vantagens competitivas sobre os rivais.
As grandes aplicações de análise de dados permitem que cientistas de dados, modeladores preditivos, estatísticos e outros profissionais de análise analisem volumes crescentes de dados de transações estruturadas, além de outras formas de dados que são muitas vezes deixadas sem recursos pelos programas convencionais de Business Intelligence (BI) e analítica.
Isso abrange uma mistura de dados semi-estruturados e não estruturados – por exemplo, dados de cliques de internet, logs de servidor web, conteúdo de redes sociais, texto de e-mails de clientes e respostas de pesquisa, registros de detalhes de chamadas de telefones celulares e dados de máquina capturados por sensores conectados Para a internet das coisas.
Em larga escala, as tecnologias e técnicas de análise de dados fornecem um meio de analisar conjuntos de dados e tirar conclusões sobre eles para ajudar as organizações a tomar decisões empresariais informadas.
As consultas de BI respondem a perguntas básicas sobre operações comerciais e desempenho. A grande análise de dados é uma forma de análise avançada, que envolve aplicações complexas com elementos como modelos preditivos, algoritmos estatísticos e análises que são desenvolvidas por sistemas de análise de alto desempenho.
Emergência e crescimento de Big Data Analytics
O termo Big Data foi usado pela primeira vez para referir-se ao aumento dos volumes de dados em meados da década de 1990.
Em 2001, Doug Laney, então de Big data analytics da consultoria Meta Group Inc., expandiu a noção de dados importantes para incluir também aumentos na variedade de dados gerados pelas organizações e na velocidade em que esses dados estavam sendo criados e atualizados.
Esses três fatores – volume, velocidade e variedade – foram conhecidos como os 3Vs de dados importantes, um conceito que o Gartner popularizou após a aquisição do Meta Group e a contratação da Laney em 2005.
Separadamente, o framework de processamento distribuído da Hadoop foi lançado como um projeto de código aberto Apache em 2006, plantando as sementes para uma plataforma em cluster construída em cima do hardware de commodities e orientada para executar grandes aplicativos de dados.
Até o ano de 2011, grandes análises de dados começaram a ter uma firme participação nas organizações e no olho público, juntamente com Hadoop e várias tecnologias de dados grandes relacionadas que surgiram em torno dela.
Inicialmente, à medida que o ecossistema Hadoop tomou forma e começou a amadurecer, grandes aplicações de dados foram principalmente a província de grandes empresas de internet e comércio eletrônico , como Yahoo, Google e Facebook , além de fornecedores de serviços de análise e marketing.
Nos anos seguintes, porém, a grande análise de dados tem sido cada vez mais abraçada por varejistas, empresas de serviços financeiros, seguradoras, organizações de saúde, fabricantes, empresas de energia e outras empresas convencionais.
Principais tecnologias e ferramentas de análise de dados
Os tipos de dados não estruturados e semi-estruturados tipicamente não se encaixam bem nos data warehouses tradicionais, baseados em bancos de dados relacionais orientados para conjuntos de dados estruturados.
Além disso, os armazéns de dados podem não ser capazes de lidar com as demandas de processamento colocadas por conjuntos de dados importantes que precisam ser atualizados com freqüência – ou mesmo continuamente, como no caso de dados em tempo real sobre estoque comercial, as atividades on-line dos visitantes do site ou o desempenho de aplicações móveis.
Como resultado, muitas organizações que coletam, processam e analisam grandes dados se voltam para os bancos de dados NoSQL, além do Hadoop e suas ferramentas complementares, incluindo:
- YARN : uma tecnologia de gerenciamento de cluster e uma das principais características da Hadoop de segunda geração.
- MapReduce : uma estrutura de software que permite aos desenvolvedores escrever programas que processam enormes quantidades de dados não estruturados em paralelo em um cluster distribuído de processadores ou computadores autônomos.
- Spark : uma estrutura de processamento paralelo de fonte aberta que permite aos usuários executar aplicativos de análise de dados em larga escala em sistemas em cluster.
- HBase : um armazenamento de dados de chave / valor orientado a coluna construído para executar em cima do sistema de arquivos distribuídos Hadoop (HDFS).
- Hive : um sistema de data warehouse de código aberto para consultar e analisar conjuntos de dados grandes armazenados em arquivos Hadoop.
- Kafka : um sistema distribuído de mensagens de inscrição e assinatura projetado para substituir corretores de mensagens tradicionais .
- Porco : uma tecnologia de fonte aberta que oferece um mecanismo de alto nível para a programação paralela de trabalhos do MapReduce a serem executados em clusters Hadoop.
Em alguns casos, os clusters Hadoop e os sistemas NoSQL estão sendo usados principalmente como almofadas de pouso e áreas de teste para dados antes de serem carregados em um data warehouse ou banco de dados analítico para análise, geralmente em uma forma resumida que é mais propício para estruturas relacionais.
Com mais frequência, no entanto, os grandes usuários de análise de dados estão adotando o conceito de um lago de dados Hadoop que serve como o repositório primário para os fluxos recebidos de dados brutos. Em tais arquiteturas, os dados podem ser analisados diretamente em um cluster Hadoop ou executados por um mecanismo de processamento como o Spark.
Como no data warehousing, o gerenciamento de dados de som é um primeiro passo crucial no grande processo de análise de dados. Os dados armazenados no sistema de arquivos distribuídos Hadoop devem ser organizados, configurados e particionados adequadamente para obter bons desempenhos em trabalhos de integração extrato, transformação e carga (ETL) e consultas analíticas.
Uma vez que os dados estão prontos, ele pode ser analisado com o software comumente usado em processos analíticos avançados. Isso inclui ferramentas para mineração de dados, que peneiram conjuntos de dados em busca de padrões e relacionamentos; Análises preditivas, que criam modelos para prever o comportamento do cliente e outros desenvolvimentos futuros; Aprendizado de máquina, que manipula algoritmos para analisar grandes conjuntos de dados; E aprendizagem profunda, um ramo mais avançado de aprendizado de máquinas.
O software de análise de mineração de texto e análise estatística também pode desempenhar um papel no grande processo de análise de dados, como pode integrar o software de BI e as ferramentas de visualização de dados.
Para aplicações ETL e analíticas, as consultas podem ser escritas em modo MapLeduce em modo batch; Linguagens de programação, como R, Python e Scala; E SQL , o idioma padrão para bancos de dados relacionais suportados pelas tecnologias SQL-on-Hadoop.
Big Data Analytics usos e desafios
Os aplicativos de Big data analytics geralmente incluem dados de sistemas internos e fontes externas, como dados meteorológicos ou dados demográficos sobre consumidores compilados por provedores de serviços de informações de terceiros. Além disso, os aplicativos de análise de streaming estão se tornando comuns em grandes ambientes de dados, já que os usuários buscam fazer análises em tempo real em dados alimentados em sistemas Hadoop através do Módulo Spark Spark Streaming ou outros mecanismos de processamento de fluxo aberto, como Flink e Storm .
Os principais sistemas de dados precoce foram principalmente implantados nas instalações, particularmente em grandes organizações que estavam colecionando, organizando e analisando enormes quantidades de dados.
Mas os fornecedores de plataformas da nuvem, como a Amazon Web Services (AWS) e a Microsoft, tornaram mais fácil a configuração e gerenciamento de clusters Hadoop na nuvem, assim como os fornecedores Hadoop, como Cloudera e Hortonworks, que oferecem suporte às suas distribuições da grande estrutura de dados.
Nas nuvens AWS e Microsoft Azure. Os usuários agora podem girar clusters na nuvem, executá-los durante o tempo que for necessário e, em seguida, levá-los offline, com preços baseados em uso que não requerem licenças de software em curso.
As possíveis armadilhas que podem tropeçar organizações em grandes iniciativas de Big Data Analytics incluem a falta de habilidades de análise interna e o alto custo de contratação de cientistas de dados experientes e engenheiros de dados para preencher as lacunas.
A quantidade de dados normalmente envolvida, e sua variedade, pode causar problemas de gerenciamento de dados em áreas que incluem qualidade de dados, consistência e governança; Também, os silos de dados podem resultar do uso de diferentes plataformas e armazenamentos de dados em uma grande arquitetura de dados.
Além disso, integrar o Hadoop, Spark e outras ferramentas de dados importantes em uma arquitetura coesa que atende às necessidades de análise de dados de uma organização é uma proposta desafiadora para muitas equipes de TI e de análise, que devem identificar a combinação certa de tecnologias e, em seguida, juntar as peças .