Big Data: Volume, Variedade e Velocidade

Big Data é um termo utilizado para se referir aos métodos de estruturação, armazenamento e disponibilização de grandes dados.

Essa é uma definição simplista e para quem busca começar a entender o assunto. Tenha em mente o tema é muito mais complexo e abrangente.

O termo Big Data pode ser melhor entendido analisando-se os seus três atributos principais, mais conhecidos como: os 3 V´s do Big Data.

Volume e Armazenamento

O atributo principal do Big Data é o volume. Aliás, vem daí o big (grande em inglês). A quantidade de dados gerados hoje é impressionante! A cada segundo, os sistemas de informação geram milhões e milhões de registros.

Veja um exemplo cotidiano: imagine-se uma viagem de carro utilizando o aplicativo Waze no celular. Seu aparelho está registrando tudo:

  • Campo magnético (bússola);
  • Acelerômetro (posição do celular);
  • Geolocalização, ponto de partida, distância, ponto de chegada;
  • Velocidade média, mínima, máxima, tempo de parada, mudanças de rota, desaceleração, aceleração e sentido.

Agora imagine todos os usuários que estão fazendo o mesmo trajeto (ou parte dele)! A correlação de todas essas informações permite a predição do melhor caminho e do tempo estimado com uma pequena margem de erro. Onde ficam todos estes dados? Qual o tamanho deles?

A capacidade de armazenamento dobra em pouquíssimo tempo comprovando a lei de Moore. Você viu isso com os pendrives: Megabytes, Gigabytes, Terabytes e por aí vai…

Variedade

Nem sempre os dados estão estruturados, isto é, em bancos de dados relacionais com chaves primárias e relacionamento entre tabelas.

No ambiente corporativo, as informações importantes também trafegam fora dos sistemas e em meios diversos como: arquivos diversos, vídeos, áudios, imagens, planilhas, e-mails e mensagens em aplicativos.

Com a popularização da tecnologia móvel, os smartphones estão repletos de sensores e ávidos por dados: campo magnético, acelerômetros, dados biométricos, geolocalização, temperatura, altitude – vale tudo! Tudo! Inclusive dados pessoais, muitas vezes sensíveis como: preferências de compra, históricos de pesquisas e acessos, contatos e etc.

Velocidade dos Dados

A demanda por velocidade está tanto na coleta quanto no consumo da informação. Dados são gerados, coletados, processados e monitorados em tempo real ou com uma pequena defasagem de tempo. A evolução dos padrões de rede, protocolos de comunicação, computação em nuvem e novos meios de transmissão permitem tudo isso. Além disso, quanto mais rápido a informação chega até a gestão, mais rápida é a tomada de decisões.

Ferramentas comuns em Big Data: Hadoop, Spark, Tensorflow, Databricks, Presto, S3, Python.

O Big Data traz novos desafios para a Auditoria Interna na TI e o monitoramento contínuo de riscos:

  • Computação distribuída: balanceamento de servidores, barramento ethernet de rack, disponibilidade, tolerância à falhas;
  • Arquitetura: on premise, nuvem (cloud), nuvem híbrida;
  • Otimização: indexação, pré-ordenação, compressão, normalização, desnormalização;
  • Modelos: relacionais, não relacionais, hierárquicos;
  • Estrutura de Dados: colunares, alinhados;
  • Privacidade: mascaramento, anonimização, “forget my data”, portabilidade, compliance com a lei de dados – LGPD / GPRD.

Referências sobre Big Data

Big Data – Técnicas e tecnologias para extração de valor dos dados (Rosangela M.)