Da extração ao consumo: entenda o fluxo de dados
- Crédito de Imagens:Divulgação - Escrito ou enviado por Carol Agacci
- SEGS.com.br - Categoria: Seguros
*Por Matheus Sesso Gay
Resumo
Todo o processo necessário para consumo final de informações de bancos de dados nem sempre é algo compreendido por todos. Neste artigo, trazemos uma visão simplificada de todas as etapas percorridas pelos dados, da entrada à saída em tabelas e gráficos, permitindo um entendimento global desse fluxo.
ETL, serving layer e data processing. Se você trabalha na área de dados e desenvolvimento de software, já deve ter se deparado com pelo menos um desses termos utilizados como referência para etapas que ocorrem no fluxo de dados. Do input ao output, colocar tais etapas lado a lado nem sempre é algo compreendido por todos. Neste artigo, discutirei de forma bastante breve cada uma dessas fases, com destaque para os pontos em que mecanismos de inteligência artificial vêm sendo aplicados.
O acúmulo de dados nas empresas gerou a necessidade de agregar inteligência tecnológica. Quando o assunto gira em torno de dados, a inteligência envolve desde a organização e visualização, para extração de insights, até predições, análises probabilísticas e estatísticas. Para atingir esses fins, as companhias recorrem a profissionais capacitados para organizar as bases de dados (tipicamente engenheiros de dados), para extrair informações (cientistas e analistas de dados) e profissionais de backend, que performam a tarefa de estabelecer conexões para viabilizar tudo isso.
A primeira etapa reside em organizar as informações. Dados são tipicamente desorganizados, têm problemas de valores faltantes, variáveis imputadas com tipo errado, outliers, chaves inconsistentes entre bases e por aí vai. Para organizar tudo isso, deve-se antes extrair os dados de suas bases originais (Extract - “E” da sigla ETL) e levá-los para uma etapa de transformação (Transformation - “T” da sigla ETL). Nessa etapa de transformação, métodos supervisionados e não supervisionados de inteligência artificial podem ser utilizados para tarefas como detecção de outliers, preenchimento de valores faltantes e detecção de frequência (se forem dados temporais); também é possível estabelecer procedimentos como normalização, encoding e transformação logarítmica.
Após essas duas etapas (extração e transformação) é necessário armazenar (Loading - “L” da sigla ETL) os dados em algum banco (ou “bucket”) para que sejam acessados pelo processamento. Ao realizar isso, pode-se dizer que a etapa de “pré-processamento” dos dados foi finalizada, ou seja, eles foram organizados e passaram pelas transformações necessárias para entrarem numa etapa mais “rebuscada” de geração de informação. Para alguns, a etapa de ETL e disponibilização dos dados em um “data warehouse” é o suficiente para que as ferramentas de business intelligence (BI) acessem e gerem dashboards com informações relevantes, pulando direto para o “serving layer” da figura.
Caso ainda exista a necessidade de agregar e extrair mais informações das bases de dados fornecidas, inicia-se a etapa de modelagem/análise estatística. Essa é a fase na qual são performados métodos para extrair correlações e/ou gerar projeções. Aqui entra uma infinidade de modelos de machine learning, além dos mais tradicionais, que posteriormente são acessados para, por exemplo, criarem diferentes cenários, entenderem os efeitos de cada variável em uma terceira e extrapolarem os resultados para outros dados. Toda essa informação deve ser salva, gerando uma nova etapa de “loading”, para que possa ser acessada pela interface com o usuário (“user interface - UI”).
A interface está relacionada à etapa de “serving”, e diversas ferramentas disponíveis no mercado permitem a conexão do usuário com os dados processados. Ao configurar um dashboard, tipicamente o que se encontra por trás dele é um conjunto de APIs estruturadas para fazerem requisições para o banco de dados, extraírem os resultados e disponibilizá-los em gráficos e tabelas. Nessa fase final, a pessoa que consome as informações pode entender com mais clareza o que aqueles dados crus trouxeram de informação para a empresa.
Viajando da etapa de carregamento dos dados crus à disponibilização deles em uma interface intuitiva, várias etapas técnicas foram omitidas. Todo o estabelecimento de conexões, gatilhos, estrutura de workflows de modelagem, dimensionamento de máquinas, criação de outputs intermediários, geração de logs, monitoramento, entre outras, foram suprimidas para trazer uma visão simplificada do processo de estruturação de informações para consumo.
Apesar de simplista, a possibilidade de visualizar o processo e separar os papéis dos funcionários ao longo dessas etapas, é algo extremamente importante para decifrar gargalos de desenvolvimento e fragilidades do processo como um todo, criando um fluxo mais resiliente e seguro.
*Matheus Sesso Gay é Auto ML & Time-Series Lead na 4intelligence.
Sobre a 4intelligence
A 4intelligence é uma startup que desenvolve soluções para dar suporte a tomadas de decisões baseadas em análise de dados, por meio de algoritmos e inteligência artificial. A tecnologia possibilita a estruturação e customização de processos decisórios em larga escala, visando a que as respostas mais acuradas sejam entregues no momento correto para as pessoas certas. A 4i também é associada a I2AI (International Association of Artificial Intelligence), maior associação de inteligência artificial do Brasil. Além disso, a companhia já recebeu 120 prêmios, entre eles pelo Banco Central, Secretaria da Economia, Agência Estado e Consensus Economics. Também concorreram com grandes financeiros do setor como Bradesco, JP Morgan, Barclays, Santander, entre outras consultorias gigantes.
Compartilhe:: Participe do GRUPO SEGS - PORTAL NACIONAL no FACEBOOK...:
https://www.facebook.com/groups/portalnacional/
<::::::::::::::::::::>
IMPORTANTE.: Voce pode replicar este artigo. desde que respeite a Autoria integralmente e a Fonte... www.segs.com.br
<::::::::::::::::::::>
No Segs, sempre todos tem seu direito de resposta, basta nos contatar e sera atendido. - Importante sobre Autoria ou Fonte..: - O Segs atua como intermediario na divulgacao de resumos de noticias (Clipping), atraves de materias, artigos, entrevistas e opinioes. - O conteudo aqui divulgado de forma gratuita, decorrem de informacoes advindas das fontes mencionadas, jamais cabera a responsabilidade pelo seu conteudo ao Segs, tudo que e divulgado e de exclusiva responsabilidade do autor e ou da fonte redatora. - "Acredito que a palavra existe para ser usada em favor do bem. E a inteligencia para nos permitir interpretar os fatos, sem paixao". (Autoria de Lucio Araujo da Cunha) - O Segs, jamais assumira responsabilidade pelo teor, exatidao ou veracidade do conteudo do material divulgado. pois trata-se de uma opiniao exclusiva do autor ou fonte mencionada. - Em caso de controversia, as partes elegem o Foro da Comarca de Santos-SP-Brasil, local oficial da empresa proprietaria do Segs e desde ja renunciam expressamente qualquer outro Foro, por mais privilegiado que seja. O Segs trata-se de uma Ferramenta automatizada e controlada por IP. - "Leia e use esta ferramenta, somente se concordar com todos os TERMOS E CONDICOES DE USO".
<::::::::::::::::::::>