Big Data é um termo utilizado para se referir aos métodos de estruturação, armazenamento e disponibilização de grandes dados.
Essa é uma definição simplista e para quem busca começar a entender o assunto. Tenha em mente o tema é muito mais complexo e abrangente.
O termo Big Data pode ser melhor entendido analisando-se os seus três atributos principais, mais conhecidos como: os 3 V´s do Big Data.
Volume e Armazenamento
O atributo principal do Big Data é o volume. Aliás, vem daí o big (grande em inglês). A quantidade de dados gerados hoje é impressionante! A cada segundo, os sistemas de informação geram milhões e milhões de registros.
Veja um exemplo cotidiano: imagine-se uma viagem de carro utilizando o aplicativo Waze no celular. Seu aparelho está registrando tudo:
- Campo magnético (bússola);
- Acelerômetro (posição do celular);
- Geolocalização, ponto de partida, distância, ponto de chegada;
- Velocidade média, mínima, máxima, tempo de parada, mudanças de rota, desaceleração, aceleração e sentido.
Agora imagine todos os usuários que estão fazendo o mesmo trajeto (ou parte dele)! A correlação de todas essas informações permite a predição do melhor caminho e do tempo estimado com uma pequena margem de erro. Onde ficam todos estes dados? Qual o tamanho deles?
A capacidade de armazenamento dobra em pouquíssimo tempo comprovando a lei de Moore. Você viu isso com os pendrives: Megabytes, Gigabytes, Terabytes e por aí vai…
Variedade
Nem sempre os dados estão estruturados, isto é, em bancos de dados relacionais com chaves primárias e relacionamento entre tabelas.
No ambiente corporativo, as informações importantes também trafegam fora dos sistemas e em meios diversos como: arquivos diversos, vídeos, áudios, imagens, planilhas, e-mails e mensagens em aplicativos.
Com a popularização da tecnologia móvel, os smartphones estão repletos de sensores e ávidos por dados: campo magnético, acelerômetros, dados biométricos, geolocalização, temperatura, altitude – vale tudo! Tudo! Inclusive dados pessoais, muitas vezes sensíveis como: preferências de compra, históricos de pesquisas e acessos, contatos e etc.
Velocidade dos Dados
A demanda por velocidade está tanto na coleta quanto no consumo da informação. Dados são gerados, coletados, processados e monitorados em tempo real ou com uma pequena defasagem de tempo. A evolução dos padrões de rede, protocolos de comunicação, computação em nuvem e novos meios de transmissão permitem tudo isso. Além disso, quanto mais rápido a informação chega até a gestão, mais rápida é a tomada de decisões.
Ferramentas comuns em Big Data: Hadoop, Spark, Tensorflow, Databricks, Presto, S3, Python.
O Big Data traz novos desafios para a Auditoria Interna na TI e o monitoramento contínuo de riscos:
- Computação distribuída: balanceamento de servidores, barramento ethernet de rack, disponibilidade, tolerância à falhas;
- Arquitetura: on premise, nuvem (cloud), nuvem híbrida;
- Otimização: indexação, pré-ordenação, compressão, normalização, desnormalização;
- Modelos: relacionais, não relacionais, hierárquicos;
- Estrutura de Dados: colunares, alinhados;
- Privacidade: mascaramento, anonimização, “forget my data”, portabilidade, compliance com a lei de dados – LGPD / GPRD.
Referências sobre Big Data
Big Data – Técnicas e tecnologias para extração de valor dos dados (Rosangela M.)