Posts sobre Data Science - Página 3 de 6 - Auditoria Interna, Auditoria Contínua e Data Analytics

A auditoria é uma atividade que envolve analisar muitos documentos. As vezes trata-se de centenas de páginas de texto que devem ser lidas. Embora a tecnologia não substitua o auditor, ela pode facilitar tarefas exaustivas ou repetitivas como resumir textos. A técnica de NLP (Natural Language Processing) e os modelos LLM (Large Language Models) podem ser uma ferramente poderosa para esta atividade.

Como utilizar o poder das LLM para resumir documentos de forma segura e sigilosa? Com certeza há a preocupação de não enviar dados sigilosos através da internet. Uma solução é rodar o modelo localmente em sua própria máquina.

Vejamos 3 ferramentas para cumprir este objetivo.

Python

Python é uma das linguagens de programação mais populares do mundo, amplamente utilizada para desenvolvimento de software, análise de dados, inteligência artificial e automação de tarefas. Criado por Guido van Rossum no final dos anos 1980 e lançado oficialmente em 1991, Python se destaca por sua sintaxe simples e legível, além de possuir uma vasta comunidade e uma grande variedade de bibliotecas. Sua flexibilidade permite que seja usado tanto para scripts simples quanto para aplicações complexas, como desenvolvimento web e aprendizado de máquina.

Ollama

Ollama é uma ferramenta que facilita o uso de modelos de inteligência artificial localmente, permitindo a execução de modelos de linguagem diretamente no computador do usuário. Projetado para ser simples e eficiente, Ollama elimina a necessidade de configurar ambientes complexos para rodar modelos de IA. Ele permite o download e a execução de modelos como LLaMA, Mistral e outros com apenas um comando no terminal. Seu objetivo principal é tornar a utilização de grandes modelos de linguagem mais acessível para desenvolvedores e pesquisadores.

LLaMA3

LLaMA 3 (Large Language Model Meta AI 3) é a terceira geração da família de modelos de linguagem desenvolvidos pela Meta (antiga Facebook). Ele é projetado para fornecer respostas mais precisas e contextualmente relevantes, sendo otimizado para eficiência e menor consumo de recursos computacionais. Os modelos da série LLaMA ganharam notoriedade por serem alternativas mais leves e abertas em comparação com os modelos fechados de empresas como OpenAI e Google. O LLaMA 3 continua essa tradição, trazendo avanços em arquitetura e desempenho.

Para baixar e instalar o Ollama, basta acessar o site oficial ollama.com e seguir as instruções para o sistema operacional desejado (Windows, macOS ou Linux). Após a instalação, pode-se baixar e rodar o LLaMA 3 usando comandos simples no terminal. Por exemplo, para instalar um modelo específico, basta rodar ollama pull llama3, e para executá-lo, o comando ollama run llama3 inicia a interação com o modelo. Isso torna o processo de configuração extremamente simples e rápido.

Um exemplo prático de uso do LLaMA 3 no Ollama seria gerar um resumo de um texto. Suponha que você tenha um arquivo chamado relatorio.txt e deseja obter um resumo. Você pode usar o seguinte comando no terminal:

cat relatorio.txt | ollama run llama3 --system "Resuma o seguinte texto:"

Esse comando extrai o conteúdo do arquivo e o envia para o modelo, que então retorna um resumo conciso. Dessa forma, Ollama e LLaMA 3 oferecem uma solução poderosa para quem deseja utilizar modelos de IA localmente sem depender de servidores externos.

Comente o que achou do resultado. O modelo resumiu de forma adequada e eficiente?

SandDance: Microsoft abre o código da ferramenta de exploração visual de dados. O projeto open source será relançado no GitHub. Essa nova versão foi reescrita como um componente embarcado para trabalhar com JavaScript. O anúncio em inglês pode ser lido aqui.

**SandDance**: ferramenta visual de exploração de dados desenvolvida pela Microsoft Research.

A Microsoft vem aperfeiçoando suas ferramentas para atingir todos os públicos. Desde o usuário final, com ferramentas self-service data (Power Platform) e automatização de fluxos até o profissional altamente especializado como o cientista de dados.

A versão é composta por vários componentes que funcionam em aplicativos nativos JavaScript ou React, além de usar várias bibliotecas de código aberto. Essa nova arquitetura do SandDance será muito mais extensível, permitindo novos tipos de gráficos, camadas e interações, além de ser incorporado a novos aplicativos verticais.

Além dos componentes JavaScript brutos, o SandDance está disponível como uma extensão para o Visual Studio Code e o Azure Data Studio e também foi relançado como um visual personalizado do Power BI.

Usos inovadores do SandDance incorporados em muitos outros aplicativos em que a visualização de dados baseada em unidade faz sentido, como em ferramentas de aprendizado de máquina. Torná-lo um componente de código aberto é o primeiro passo para esse objetivo.

Para quem não conhece o SandDance, ele foi introduzido há 4 anos como um sistema para explorar e apresentar dados usando “visualizações de unidades”.

Em vez de agregar dados e mostrar as somas resultantes como gráficos de barras, o SandDance mostra cada linha de um conjunto de dados (por conjuntos de dados de até 500 mil linhas).

O SandDance representa cada uma dessas linhas como uma marca que pode ser colorida e organizada em diferentes áreas da tela. Assim, os gráficos de barras são feitos de suas unidades constituintes, empilhados ou classificados.