Introdução ao Big Data : Parte 2 e meio

Olá seja bem-vindo de volta, fico feliz em saber que você não aceita passivamente tudo o que existe à sua volta e deseja libertar-se e conhecer a verdade absoluta das coisas e o acesso ao conhecimento.

Então vamos a ele!

Vivemos em um mundo interconectado onde praticamente todos somos amigos de todos e em nossas redes sociais temos mais amigos do que conseguimos gerenciar.

E neste cenário caótico de dados e mais dados surge um movimento chamado Big Data que tem como missão colocar ordem nas coisas.

Como vimos antes de tomar a pílula vermelha o Big Data tem alguns desafios que incluem:

>  análise
>  captura
>  curadoria de dados
>  pesquisa
>  compartilhamento
>  armazenamento
>  transferência
>  visualização

Além disso temos os famosos 5 Vs.

> Volume
> Velocidade
> Variedade
> Veracidade
>  Valor

.

Volume

Imagine uma quantidade grande de dados, imaginou…
agora multiplique por 10x…ou quem sabe 100x

Some todos os e-mails enviados, as mensagens de Twitter, as fotos e mais fotos, os vídeos que trafegam pela internet diariamente. Só no nosso amigo Facebook gera incríveis 10 bilhões de mensagens diariamente, sem contar os 4,5 bilhões de curtidas nem as 350 milhões de fotos..tudo isso em um lindo e maravilhoso dia…

E o nosso querido Big Data entre para armazenar tudo isso, e quando necessário mastigar este volume monstruoso de dados para nos fornecer análises preditivas de onde investir nosso dinheiro, quais clientes são mais confiáveis para eu emprestar meu dinheiro ou quais dos nossos clientes estão propensos a ir embora com as ofertas persuasivas dos nossos concorrentes…

Um pouco mais sobre o que é volume de dados, vamos deste os primórdios
neandertais do bit até o mundo do futuro não tão distante do 
Yottabyte

1 byte = 8 bits
é o suficiente para armazenar um caractere de texto no PC;

1 Kilobyte = 1.000 bytes
é a informação contida em uma página de livro;

1 Megabyte =  1.000.000 de bytes
representa um quinto da obra de W. Shakespeare;

1 Gigabyte = 1.000.000.000 de bytes
equivale a uma hora de vídeo em baixa resolução;

1 Terabyte = 1.000.000.000.000 de bytes
385 terabytes guardam todo o catálogo da biblioteca do Congresso Americano – a maior do mundo;

1 Petabyte = 1.000.000.000.000.000 de bytes
1,5 petabyte armazena todas as musicas criadas pela humanidade;

1 Exabyte = 1.000.000.000.000.000.000 de bytes
3 exabytes é tudo o que a humanidade conseguia guardar em 1986 – hoje produzimos quase o dobro em dois dias;

1 Zettabyte = 1.000.000.000.000.000.000.000 de bytes ((( ESTAMOS AQUI )))
1,8 zettabyte armazena todos os dados acumulados pela civilização em um ano;

1 Yottabyte = 1.000.000.000.000.000.000.000.000 de bytes.
Yodabyte

.

velocidade

A velocidade neste caso está intimamente ligada a quão rápido criamos conteúdo… somemos a tudo o que foi dito acima, as transações de cartões de crédito são milhões e milhões de transações por dia.

A cada dia geramos incríveis:

>  2,5 hexabytes de informações são produzidos pela humanidade;

>  375 megabytes de dados são acumulados por família;

>  24 petabytes são processados pelo site do Google;

>  10 petabytes correspondem aos emails enviados;

>  43 petabytes de dados são trocados por smartphones e tablets conectados à internet;

A velocidade é um fator crítico e de alta  importancia para o Big Data porque em muitos casos a decisão, fundamentada em um imenso volume de dados, precisa ser tomada em tempo real.

Flops = unidade para calcular a velocidade de processamento de computadores: equivale à capacidade de realizar um calculo simples em um segundo;

Kiloflops = 1.000 flops
processamento de um super computador em 1951;

Megaflops = 1.000.000 de flops
velocidade alcançada por PCs, no início dos anos 90;

Gigaflops = 1.000.000.000 de flops
é nesta faixa que operam os PCs mais comuns;

Teraflops = 1.000.000.000.000 de flops
capacidade da próxima geração de videogames, PlayStation 4 e o Xbox 720 que serão lançados neste ano;

Petaflops = 1.000.000.000.000.000 de flops
apenas super computadores chegam a esse patamar: o mais poderoso deles, o americano Titan, roda a 27 petaflops;

Exaflops = 1.000.000.000.000.000.000 de flops
um super computador deve alcançar essa velocidade em 2020.

LogoGoogle_2015

Google é uma das pioneiras no levantamento de informações e de utilização de Ferramentas / algoritmos de Big Data. Em frações de segundos realiza pesquisas em 3 bilhões de computadores.

.

Variedade

Atualmente temos 3 tipos de dados ou variedade de dados

Dados Estruturados

Dados com comprimento e tipo pré-definidos agrupados em linhas e colunas. Ex: Números, strings, Banco de Dados

DadosEstruturados

Dados com formato bem definido.

 Estuturados

Dados Semiestruturados

Dados que não possuem um comprimento ou tipo definido, mas tem formato padronizado. Ex: Arquivos XML, JSON.

Dados Semi-Estruturados

Dados com formato bem definido.

Dados irregulares – dados com a estrutura embutida; A estrutura é heterogênea; Sua principal característica é a facilidade de compartilhamento de informações pela internet;

Semi

.

Dados Não Estruturados

Dados que não possuem uma estrutura ou formato padrão. Ex: Vídeos, imagens, redes sociais, texto, etc.

DadosNaoEstruturadoss

.

Dados sem estrutura pré-definida.

Email, Textos, Fotos, Vídeos, Imagens ;

.

Veracidade

Veracidade = Qualidade da Informação (QI)

A informação não vale nada se não for confiável, se não podemos confiar no dado que estamos analisando ele é lixo, apenas lixo eletrônico, então a verdadicidade (ok, eu inventei este termo) da informação faz toda a diferença, imagine tomar decisões estratégicas com base neste tipo de dado?

Veracidade

.

Valor

Valor = Uso + Qualidade + Resultado

Para provar que é possível extrair valor com Big Data, comece pequeno. Pode ser mais fácil começar com dados internos e estruturados, foco no retorno para o negócio, explore os seus dados com a maior frequência possível.

A Netflix utiliza algoritmos de Big Data para recomendar filmes aos clientes e crias seriados (House of Cards).  Por meio de análise de dados utilizando técnicas de Machine Learning e estatísticas, a Netflix identificou que Kevin Spacey tinha grande aceitação e que thrillers políticos tinham grande apelo com o seu público.

Isso sim é gerar valor, veja só!

Akshara Foundation

Akshara Foundation (ONG) ajuda crianças a terem melhor desempenho e experiência educacional na Índia. Na zonal rural, há poucas escolas, os pais não tem opção para matricular os filhos em boas escolas. Se a qualidade do ensino não melhorar, eles irão ter uma geração perdida. (conseguem traçar um paralelo com um pais da América Latina que tem o nome iniciando com a segunda letra do Alfabeto?)

Desde 2006, a ONG coletou dados sobre recursos, instalações e registros de 40.000 escolas no país com o objetivo de melhorar as habilidades em matemática e leitura dos alunos nas escolas rurais.

Por meio de análises estatísticas com o apoio da HP, utilizando tecnologias de Big Data, foi possível identificar um número ótimo entre quantidade de alunos por professor e de livros por aluno.

Também foi encontrado um achado inesperado. O engajamento era muito baixo em meninas com idade entre 11 e 14 anos. Uma análise posterior,mostrou que banheiros separados reduziam muito as desistências dessas meninas nas escolas.

Os voluntários da HP ganharam o prêmio 2014 Global Volunteer Challenge: Most Impactful Program.

Quem quiser mais informações vai o link: http://akshara.org.in/

Big Data = 3 V’s (Volume + Variedade + Velocidade) + 2 V’s (Veracidade + Valor)

5vs

Este post ainda está em produção!!
Volte depois para cenas dos próximos capitulos

Anúncios

Um comentário sobre “Introdução ao Big Data : Parte 2 e meio

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s