Existe uma demanda significativa e crescente por profissionais experientes em Data Science, agências públicas e organizações sem fins lucrativos. O fornecimento de profissionais que podem trabalhar efetivamente com dados em escala é limitado e é refletido pelo rápido aumento dos salários para engenheiros de dados, cientistas de dados, estatísticos e analistas de dados.
Um estudo recente do McKinsey Global Institute conclui: “uma falta de talentos analíticos e gerenciais necessários para tirar o máximo proveito do Big Data é um desafio significativo e urgente (para os EUA)”.
O relatório estima que haverá quatro a cinco milhões de empregos nos EUA que exigem habilidades de análise de dados até 2018 e que um grande número de posições só serão preenchidas através de treinamento ou reciclagem. Os autores também procuram uma necessidade de 1,5 milhão de gerentes e analistas com profundas habilidades analíticas e técnicas “que podem fazer as perguntas certas e consumir efetivamente os resultados da análise de dados importantes”.
As estatísticas abaixo indicadas representam essa demanda significativa e crescente por cientistas de dados.
Uma Explosão de Dados
Os dados são cada vez mais baratos e onipresentes. Agora estamos digitalizando conteúdo analógico que foi criado ao longo de séculos e colecionando inúmeros novos tipos de dados de logs, dispositivos móveis, sensores, instrumentos e transações da web. A IBM estima que 90% dos dados no mundo de hoje foram criados nos últimos dois anos.
Ao mesmo tempo, novas tecnologias estão surgindo para se organizar e dar sentido a essa avalanche de dados. Agora podemos identificar padrões e regularidades em dados de todos os tipos que nos permitem avançar na erudição, melhorar a condição humana e criar valor comercial e social. O surgimento de “dados importantes” tem o potencial de aprofundar a nossa compreensão de fenômenos que vão desde sistemas físicos e biológicos ao comportamento social e econômico humano.
Um desafio identificado
Praticamente todos os setores da economia agora têm acesso a mais dados do que seria imaginável, mesmo uma década atrás. As empresas de hoje estão acumulando novos dados a uma taxa que excede sua capacidade de extrair valor a partir dele. A questão que enfrenta cada organização que quer atrair uma comunidade é como usar os dados com eficiência – não apenas seus próprios dados, mas todos os dados disponíveis e relevantes.
“Este novo e novo campo promete revolucionar indústrias de negócios para governo, cuidados de saúde para academia”.
– O New York Times
Nossa capacidade de derivar o valor social e econômico dos dados recém-disponíveis é limitada pela falta de experiência. Trabalhar com esses dados requer novas habilidades e ferramentas distintas. Os corpúss são muitas vezes muito volumosos para se adequarem a um único computador, manipularem bancos de dados tradicionais ou ferramentas estatísticas, ou representar o uso de software gráfico padrão. Os dados também são mais heterogêneos do que os dados altamente curados do passado. O texto, o áudio e o conteúdo visual digitalizados, como dados de sensores e blogs, geralmente são desordenados, incompletos e desestruturados; muitas vezes é de proveniência e qualidade incertas; e freqüentemente deve ser combinado com outros dados para serem úteis. Trabalhar com conjuntos de dados gerados pelos usuários também levanta questões desafiadoras de privacidade, segurança e ética.
O campo do Data Science está emergindo na interseção dos campos das ciências sociais e estatística, informação e ciência da computação e design.
Business Intelligence (BI) é um processo orientado pela tecnologia para analisar dados e apresentar informações acionáveis para ajudar executivos corporativos, gerentes de negócios e outros usuários finais a tomar decisões empresariais mais informadas.
O Business Intelligence engloba uma grande variedade de ferramentas, aplicações e metodologias que permitem às organizações coletar dados de sistemas internos e fontes externas, prepará-lo para análise, desenvolver e executar consultas sobre os dados e criar relatórios, painéis e visualizações de dados para obter os resultados analíticos, disponíveis para os tomadores de decisão corporativos, bem como para os trabalhadores operacionais.
Os benefícios potenciais dos programas de inteligência de negócios incluem
acelerar e melhorar a tomada de decisões;
otimizando os processos internos de negócios;
aumento da eficiência operacional;
gerando novas receitas;
e ganhando vantagens competitivas sobre os rivais empresariais.
Os sistemas de Business Intelligence também podem ajudar as empresas a identificar as tendências do mercado e detectar problemas comerciais que precisam ser abordados.
Os dados de BI podem incluir informações históricas, bem como novos dados recolhidos a partir de sistemas de origem à medida que são gerados, permitindo que a análise de BI suporte processos estratégicos e táticos de tomada de decisão.
Inicialmente, as ferramentas de Business Intelligence foram usadas principalmente por analistas de dados e outros profissionais de TI que geriram análises e produziram relatórios com resultados de consulta para usuários empresariais. No entanto, cada vez mais, os executivos de empresas e os trabalhadores estão usando o próprio software de Business Intelligence, graças em parte ao desenvolvimento de BI de auto-atendimento e ferramentas de descoberta de dados.
Inteligência de negócios combina um amplo conjunto de aplicações de análise de dados, incluindo análise ad hoc e consultas, relatórios corporativos, processamento analítico online ( OLAP ), BI móvel , em tempo real BI, BI operacional, nuvem e software como um serviço BI, BI open source, BI colaborativo e inteligência de localização.
A tecnologia de BI também inclui software de visualização de dados para projetar gráficos e outras infografias, bem como ferramentas para a construção de painéis de borda de BI e scorecards de desempenho que exibem dados visualizados em métricas de negócios e os principais indicadores de desempenho de forma fácil de entender.
Os aplicativos de BI podem ser comprados separadamente de fornecedores diferentes ou como parte de uma plataforma de BI unificada de um único fornecedor.
Os programas de BI também podem incorporar formas de análise avançada, como mineração de dados, análises preditivas, mineração de texto, análise estatística e grandes análises de dados. Em muitos casos, os projetos avançados de análise são conduzidos e gerenciados por equipes separadas de cientistas de dados, estatísticos, modelistas preditivos e outros profissionais de análise qualificados, enquanto as equipes de BI supervisionam consultas e análises mais diretas de dados empresariais.
Normalmente, os dados de inteligência de negócios são armazenados em um data warehouse ou dados menores que possuem subconjuntos de informações de uma empresa.
Além disso, os sistemas Hadoop são cada vez mais utilizados nas arquiteturas de BI como repositórios ou almofadas de pouso para dados de BI e analítica, especialmente para dados não estruturados, arquivos de log, dados de sensores e outros tipos de dados importantes. Antes de ser usado em aplicações de BI, os dados brutos de diferentes sistemas de origem devem ser integrados, consolidados e limpos usando ferramentas de integração de dados e qualidade de dados para garantir que os usuários estejam analisando informações precisas e consistentes.
Além dos gerentes de BI, os times de inteligência de negócios geralmente incluem uma combinação de arquitetos de BI, desenvolvedores de BI, analistas de negócios e profissionais de gerenciamento de dados; Os usuários de negócios geralmente também estão incluídos para representar o lado comercial e garantir que suas necessidades sejam atendidas no processo de desenvolvimento de BI.
Para ajudar com isso, um número crescente de organizações estão substituindo o desenvolvimento tradicional de cachoeiras com Agile BI e abordagens de data warehousing que usam desenvolvimento de software Agile, técnica para quebrar projetos de BI em pequenos pedaços e entregar novas funcionalidades aos usuários finais em uma base incremental e iterativa.
Isso pode permitir que as empresas coloquem os recursos de BI em uso mais rapidamente e refinem ou modifiquem os planos de desenvolvimento à medida que as necessidades de negócios mudam ou os novos requisitos emergem e têm prioridade em relação aos anteriores.
O uso esporádico do termo inteligência de negócios remonta a pelo menos a década de 1860, mas o consultor Howard Dresner é creditado com a primeira proposta em 1989 como uma categoria abrangente para a aplicação de técnicas de análise de dados para apoiar os processos de tomada de decisões empresariais.
O que veio a ser conhecido como tecnologias de BI evoluídas a partir de sistemas analíticos anteriores, geralmente baseados em mainframe, como sistemas de suporte a decisões e sistemas de informação executivos. A inteligência de negócios às vezes é usada indistintamente com a análise de negócios; Noutros casos, a análise de negócios é usada de forma mais restrita para se referir à análise avançada de dados ou de forma mais ampla para incluir BI e análises avançadas.
Machine learning é um tipo de inteligência artificial (IA) que permite que as aplicações de software se tornem mais precisas na previsão de resultados sem serem explicitamente programadas.
A premissa básica de Machine Learning é construir algoritmos que podem receber dados de entrada e usar análises estatísticas para prever um valor de saída dentro de um intervalo aceitável.
Os algoritmos de Machine Learning geralmente são categorizados como supervisionados ou não supervisionados.
Os algoritmos supervisionados exigem que os seres humanos forneçam entrada e saída desejada, além de fornecer comentários sobre a precisão das previsões durante o treinamento. Uma vez que o treinamento está completo, o algoritmo aplicará o que foi aprendido para novos dados.
Os algoritmos não supervisionados não precisam ser treinados com dados de resultados desejados. Em vez disso, eles usam uma abordagem iterativa chamada aprendizagem profunda para analisar dados e chegar a conclusões. Os algoritmos de aprendizado não supervisionados são usados para tarefas de processamento mais complexas do que sistemas de aprendizagem supervisionados.
Os processos envolvidos na aprendizagem em máquina são semelhantes aos da mineração de dados e modelagem preditiva.
Ambos exigem pesquisar dados para procurar padrões e ajustar as ações do programa de acordo. Muitas pessoas estão familiarizadas com o aprendizado da máquina de compras na internet e recebendo anúncios relacionados à compra. Isso acontece porque os mecanismos de recomendação usam o aprendizado de máquina para personalizar a entrega de anúncios on-line em tempo quase real.
Além do marketing personalizado, outros casos comuns de uso de máquina incluem detecção de fraude, filtragem de spam, detecção de ameaças de segurança de rede, manutenção preditiva e criação de feeds de notícias.
O Feed de notícias do Facebook, por exemplo, usa a Machine Learning (aprendizagem por máquina) para personalizar o feed de cada membro.
Se um membro frequentemente pára de se deslocar para ler ou “curtir” das postagens de um amigo em particular, o Feed de notícias começará a mostrar mais sobre a atividade desse amigo no início da alimentação.
Nos bastidores, o software está simplesmente usando análises estatísticas e análises preditivas para identificar padrões nos dados do usuário e usar esses padrões para preencher o News Feed.
Se o membro não parar de ler, curtir ou comentar as postagens do amigo, esses novos dados serão incluídos no conjunto de dados e o feed de notícias será ajustado em conformidade.
A análise preditiva é uma forma de análise avançada que usa dados novos e históricos para prever atividades futuras, comportamentos e tendências. Envolve a aplicação de técnicas de análise estatística, consultas analíticas e algoritmos automatizados de aprendizagem de máquinas para conjuntos de dados para criar modelos preditivos que colocam um valor numérico, ou pontuação, na probabilidade de um evento específico acontecer.
As aplicações de software de análise preditiva utilizam variáveis que podem ser medidas e analisadas para prever o comportamento provável de indivíduos, máquinas ou outras entidades. Por exemplo, é provável que uma companhia de seguros leve em consideração possíveis variáveis de segurança de condução, tais como idade, gênero, localização, tipo de veículo e registro de condução quando o preço e emissão de apólices de seguro automóvel.
Várias variáveis são combinadas em um modelo preditivo capaz de avaliar probabilidades futuras com um nível aceitável de confiabilidade. O software depende muito de algoritmos e metodologias avançadas, como regressões logísticas, análises de séries temporais e árvores de decisão.
A análise preditiva cresceu em destaque ao lado do surgimento de grandes sistemas de dado. À medida que as empresas acumularam conjuntos de dados maiores e mais amplos nos aglomerados Hadoop e outras grandes plataformas de dados, criando oportunidades para que eles extraissem esses dados por insights preditivos. O desenvolvimento e a comercialização de ferramentas de aprendizagem de máquinas pelos fornecedores de TI também ajudaram a expandir os recursos de análise preditiva.
Marketing, serviços financeiros e companhias de seguros foram adotantes notáveis de análises preditivas, como tem grande motor de busca e provedores de serviços on-line. A análise preditiva também é comumente usada em indústrias como cuidados de saúde, varejo e fabricação. Os aplicativos de negócios para análises preditivas incluem a segmentação de anúncios em linha, marcando transações financeiras potencialmente fraudulentas, identificando pacientes em risco de desenvolver condições médicas específicas e detectando falhas iminentes de peças em equipamentos industriais antes que elas ocorram.
O processo de análise preditiva
A análise preditiva requer um alto nível de experiência com métodos estatísticos e a capacidade de construir modelos de dados preditivos. Como resultado, é tipicamente o domínio de cientistas de dados, estatísticos e outros analistas de dados qualificados. Eles são suportados por engenheiros de dados, que ajudam a coletar dados relevantes e prepará-lo para análise, e por desenvolvedores de software e analistas de negócios, que ajudam na visualização de dados, painéis e relatórios.
Os cientistas de dados usam modelos preditivos para procurar correlações entre diferentes elementos de dados em dados de cliques de sites, registros de saúde do paciente e outros tipos de conjuntos de dados. Uma vez que os dados a serem analisados são coletados, um modelo estatístico é formulado, treinado e modificado conforme necessário para produzir resultados precisos; O modelo é então executado contra os dados selecionados para gerar previsões. Conjuntos de dados completos são analisados em algumas aplicações, mas em outros, as equipes de análise usam amostragem de dados para agilizar o processo. O modelo preditivo é validado ou revisado à medida que os dados adicionais se tornam disponíveis.
O processo de análise preditiva nem sempre é linear, e as correlações geralmente se apresentam onde os cientistas de dados não estão procurando. Por essa razão, algumas empresas estão preenchendo os cargos de cientistas de dados ao contratar pessoas que têm origens acadêmicas em física e outras disciplinas científicas difíceis e, de acordo com o método científico, estão confortáveis indo onde os dados os conduzem. Mesmo que as empresas sigam o caminho mais convencional de contratação de cientistas de dados treinados em matemática, estatística e ciência da computação, uma mente aberta na exploração de dados é um atributo chave para obter análises preditivas eficazes.
Uma vez que a modelagem preditiva produz resultados acionáveis, a equipe de análise compartilha-os com executivos de negócios, geralmente com a ajuda de painéis e relatórios que apresentam a informação e destacam as futuras oportunidades de negócios com base nas descobertas. Os modelos funcionais também podem ser incorporados em aplicativos operacionais e produtos de dados para fornecer recursos analíticos em tempo real, como um mecanismo de recomendação em um site de varejo online que aponta os clientes para determinados produtos com base em sua atividade de navegação e opções de compra.
Aplicações da análise preditiva
O marketing on-line é uma área em que a análise preditiva teve um impacto comercial significativo. Varejistas, provedores de serviços de marketing e outras organizações usam ferramentas de análise preditiva para identificar tendências no histórico de navegação de um visitante do site para personalizar propagandas. Os varejistas também usam análises de clientes para direcionar decisões mais informadas sobre os tipos de produtos que o revendedor deve armazenar.
A manutenção preditiva está emergindo como uma aplicação valiosa para os fabricantes que procuram monitorar uma peça de equipamento para sinais de que ela pode estar prestes a quebrar. À medida que a Internet das coisas (IoT) se desenvolve, os fabricantes estão conectando sensores a máquinas no chão de fábrica e a produtos mecatrônicos, como automóveis. Os dados dos sensores são usados para prever quando o trabalho de manutenção e reparo deve ser feito para evitar problemas.
O IoT também permite usos analíticos preditivos similares para o monitoramento de oleodutos e gasodutos, plataformas de perfuração, fazendas de moinhos de vento e várias outras instalações industriais IoT. As previsões meteorológicas localizadas para agricultores baseadas em parte em dados coletados de estações de dados meteorológicos equipados com sensor instalados em campos de fazenda são outras aplicações de modelagem preditiva orientadas por IoT.
Ferramentas e técnicas de análise preditiva
Uma ampla gama de ferramentas e técnicas é utilizada em modelos e análises preditivas. A IBM, a Microsoft, o SAS Institute e muitos outros fornecedores de software oferecem ferramentas de análise preditiva, incluindo software de aprendizagem de máquinas e tecnologias relacionadas que suportam aplicações de aprendizado profundo .
Além disso, o software de código aberto desempenha um papel importante no mercado de análise preditiva. O idioma de análise de código aberto R é comumente usado em aplicativos de análise preditiva, assim como as linguagens de programação Python e Scala. Várias plataformas de análise e previsão preditiva de código aberto também estão disponíveis, incluindo uma biblioteca de algoritmos incorporados no mecanismo de processamento de faísca.
As equipes de análise podem usar as edições base open source de R e outros idiomas analíticos ou pagar por versões comerciais oferecidas por fornecedores como a Microsoft. As ferramentas comerciais podem ser caras, mas elas vêm com o suporte técnico do fornecedor, enquanto os usuários de versões de código aberto puro são normalmente por conta própria quando trabalham com problemas com a tecnologia.
O Big Data Analytics é o processo de examinar grandes e variados conjuntos de dados – ou seja, dados importantes – para descobrir padrões ocultos, correlações desconhecidas, tendências do mercado, preferências dos clientes e outras informações úteis que podem ajudar as organizações a tomar decisões empresariais mais informadas.
Dirigido por sistemas e software de análise especializados, a grande análise de dados pode apontar o caminho para vários benefícios empresariais, incluindo novas oportunidades de receita, marketing mais efetivo, melhor atendimento ao cliente, melhor eficiência operacional e vantagens competitivas sobre os rivais.
As grandes aplicações de análise de dados permitem que cientistas de dados, modeladores preditivos, estatísticos e outros profissionais de análise analisem volumes crescentes de dados de transações estruturadas, além de outras formas de dados que são muitas vezes deixadas sem recursos pelos programas convencionais de Business Intelligence (BI) e analítica.
Isso abrange uma mistura de dados semi-estruturados e não estruturados – por exemplo, dados de cliques de internet, logs de servidor web, conteúdo de redes sociais, texto de e-mails de clientes e respostas de pesquisa, registros de detalhes de chamadas de telefones celulares e dados de máquina capturados por sensores conectados Para a internet das coisas.
Em larga escala, as tecnologias e técnicas de análise de dados fornecem um meio de analisar conjuntos de dados e tirar conclusões sobre eles para ajudar as organizações a tomar decisões empresariais informadas.
As consultas de BI respondem a perguntas básicas sobre operações comerciais e desempenho. A grande análise de dados é uma forma de análise avançada, que envolve aplicações complexas com elementos como modelos preditivos, algoritmos estatísticos e análises que são desenvolvidas por sistemas de análise de alto desempenho.
Emergência e crescimento de Big Data Analytics
O termo Big Data foi usado pela primeira vez para referir-se ao aumento dos volumes de dados em meados da década de 1990.
Em 2001, Doug Laney, então de Big data analytics da consultoria Meta Group Inc., expandiu a noção de dados importantes para incluir também aumentos na variedade de dados gerados pelas organizações e na velocidade em que esses dados estavam sendo criados e atualizados.
Esses três fatores – volume, velocidade e variedade – foram conhecidos como os 3Vs de dados importantes, um conceito que o Gartner popularizou após a aquisição do Meta Group e a contratação da Laney em 2005.
Separadamente, o framework de processamento distribuído da Hadoop foi lançado como um projeto de código aberto Apache em 2006, plantando as sementes para uma plataforma em cluster construída em cima do hardware de commodities e orientada para executar grandes aplicativos de dados.
Até o ano de 2011, grandes análises de dados começaram a ter uma firme participação nas organizações e no olho público, juntamente com Hadoop e várias tecnologias de dados grandes relacionadas que surgiram em torno dela.
Inicialmente, à medida que o ecossistema Hadoop tomou forma e começou a amadurecer, grandes aplicações de dados foram principalmente a província de grandes empresas de internet e comércio eletrônico , como Yahoo, Google e Facebook , além de fornecedores de serviços de análise e marketing.
Nos anos seguintes, porém, a grande análise de dados tem sido cada vez mais abraçada por varejistas, empresas de serviços financeiros, seguradoras, organizações de saúde, fabricantes, empresas de energia e outras empresas convencionais.
Principais tecnologias e ferramentas de análise de dados
Os tipos de dados não estruturados e semi-estruturados tipicamente não se encaixam bem nos data warehouses tradicionais, baseados em bancos de dados relacionais orientados para conjuntos de dados estruturados.
Além disso, os armazéns de dados podem não ser capazes de lidar com as demandas de processamento colocadas por conjuntos de dados importantes que precisam ser atualizados com freqüência – ou mesmo continuamente, como no caso de dados em tempo real sobre estoque comercial, as atividades on-line dos visitantes do site ou o desempenho de aplicações móveis.
Como resultado, muitas organizações que coletam, processam e analisam grandes dados se voltam para os bancos de dados NoSQL, além do Hadoop e suas ferramentas complementares, incluindo:
YARN : uma tecnologia de gerenciamento de cluster e uma das principais características da Hadoop de segunda geração.
MapReduce : uma estrutura de software que permite aos desenvolvedores escrever programas que processam enormes quantidades de dados não estruturados em paralelo em um cluster distribuído de processadores ou computadores autônomos.
Spark : uma estrutura de processamento paralelo de fonte aberta que permite aos usuários executar aplicativos de análise de dados em larga escala em sistemas em cluster.
HBase : um armazenamento de dados de chave / valor orientado a coluna construído para executar em cima do sistema de arquivos distribuídos Hadoop (HDFS).
Hive : um sistema de data warehouse de código aberto para consultar e analisar conjuntos de dados grandes armazenados em arquivos Hadoop.
Kafka : um sistema distribuído de mensagens de inscrição e assinatura projetado para substituir corretores de mensagens tradicionais .
Porco : uma tecnologia de fonte aberta que oferece um mecanismo de alto nível para a programação paralela de trabalhos do MapReduce a serem executados em clusters Hadoop.
Em alguns casos, os clusters Hadoop e os sistemas NoSQL estão sendo usados principalmente como almofadas de pouso e áreas de teste para dados antes de serem carregados em um data warehouse ou banco de dados analítico para análise, geralmente em uma forma resumida que é mais propício para estruturas relacionais.
Com mais frequência, no entanto, os grandes usuários de análise de dados estão adotando o conceito de um lago de dados Hadoop que serve como o repositório primário para os fluxos recebidos de dados brutos. Em tais arquiteturas, os dados podem ser analisados diretamente em um cluster Hadoop ou executados por um mecanismo de processamento como o Spark.
Como no data warehousing, o gerenciamento de dados de som é um primeiro passo crucial no grande processo de análise de dados. Os dados armazenados no sistema de arquivos distribuídos Hadoop devem ser organizados, configurados e particionados adequadamente para obter bons desempenhos em trabalhos de integração extrato, transformação e carga (ETL) e consultas analíticas.
Uma vez que os dados estão prontos, ele pode ser analisado com o software comumente usado em processos analíticos avançados. Isso inclui ferramentas para mineração de dados, que peneiram conjuntos de dados em busca de padrões e relacionamentos; Análises preditivas, que criam modelos para prever o comportamento do cliente e outros desenvolvimentos futuros; Aprendizado de máquina, que manipula algoritmos para analisar grandes conjuntos de dados; E aprendizagem profunda, um ramo mais avançado de aprendizado de máquinas.
O software de análise de mineração de texto e análise estatística também pode desempenhar um papel no grande processo de análise de dados, como pode integrar o software de BI e as ferramentas de visualização de dados.
Para aplicações ETL e analíticas, as consultas podem ser escritas em modo MapLeduce em modo batch; Linguagens de programação, como R, Python e Scala; E SQL , o idioma padrão para bancos de dados relacionais suportados pelas tecnologias SQL-on-Hadoop.
Big Data Analytics usos e desafios
Os aplicativos de Big data analytics geralmente incluem dados de sistemas internos e fontes externas, como dados meteorológicos ou dados demográficos sobre consumidores compilados por provedores de serviços de informações de terceiros. Além disso, os aplicativos de análise de streaming estão se tornando comuns em grandes ambientes de dados, já que os usuários buscam fazer análises em tempo real em dados alimentados em sistemas Hadoop através do Módulo Spark Spark Streaming ou outros mecanismos de processamento de fluxo aberto, como Flink e Storm .
Os principais sistemas de dados precoce foram principalmente implantados nas instalações, particularmente em grandes organizações que estavam colecionando, organizando e analisando enormes quantidades de dados.
Mas os fornecedores de plataformas da nuvem, como a Amazon Web Services (AWS) e a Microsoft, tornaram mais fácil a configuração e gerenciamento de clusters Hadoop na nuvem, assim como os fornecedores Hadoop, como Cloudera e Hortonworks, que oferecem suporte às suas distribuições da grande estrutura de dados.
Nas nuvens AWS e Microsoft Azure. Os usuários agora podem girar clusters na nuvem, executá-los durante o tempo que for necessário e, em seguida, levá-los offline, com preços baseados em uso que não requerem licenças de software em curso.
As possíveis armadilhas que podem tropeçar organizações em grandes iniciativas de Big Data Analytics incluem a falta de habilidades de análise interna e o alto custo de contratação de cientistas de dados experientes e engenheiros de dados para preencher as lacunas.
A quantidade de dados normalmente envolvida, e sua variedade, pode causar problemas de gerenciamento de dados em áreas que incluem qualidade de dados, consistência e governança; Também, os silos de dados podem resultar do uso de diferentes plataformas e armazenamentos de dados em uma grande arquitetura de dados.
Além disso, integrar o Hadoop, Spark e outras ferramentas de dados importantes em uma arquitetura coesa que atende às necessidades de análise de dados de uma organização é uma proposta desafiadora para muitas equipes de TI e de análise, que devem identificar a combinação certa de tecnologias e, em seguida, juntar as peças .
Este site usa cookies para melhorar sua experiência. Ao clicar em "Aceitar e Fechar" você concorda com o uso dos cookies, termos e políticas do site.
This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary cookies are absolutely essential for the website to function properly. These cookies ensure basic functionalities and security features of the website, anonymously.
Cookie
Duração
Descrição
cookielawinfo-checkbox-analytics
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional
11 months
The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance
11 months
This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy
11 months
The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
Functional cookies help to perform certain functionalities like sharing the content of the website on social media platforms, collect feedbacks, and other third-party features.
Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.
Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics the number of visitors, bounce rate, traffic source, etc.
Advertisement cookies are used to provide visitors with relevant ads and marketing campaigns. These cookies track visitors across websites and collect information to provide customized ads.