Você está na página 1de 26

Metodologias e etapas

que compõem o processo


de análise de dados
Introdução
Conforme o volume de dados cresce, os desafios para conseguir relatórios e
análises consistentes vão aumentando. Nesse sentido, as empresas vêm
desenvolvendo metodologias para entender melhor suas necessidades e tomar
decisões mais precisas para extrair valor de seus dados.
A análise de dados ajuda a melhorar os negócios de diversas maneiras e,
por isso, é necessário ter algum caminho ou fluxo predefinido. Esse fluxo
é conhecido como ciclo de vida do projeto de análise de dados. Muitas
organizações, quando não possuem etapas definidas, tendem a passar
por dificuldades na hora de dimensionar e colocar esses projetos em
prática.

Um ciclo de vida de ciência de dados é um conjunto interativo de etapas


executadas com o objetivo de entregar um projeto ou produto de ciência
de dados. Como cada projeto e cada equipe de ciência de dados tem
suas especificidades, cada ciclo de vida específico de ciência de dados
também é diferente. No entanto, a maioria dos projetos de ciência de
dados tendem a seguir o mesmo ciclo de vida geral.
Alguns ciclos de vida da ciência de dados concentram-se apenas
nas etapas de dados, modelagem e avaliação, ao passo que
outros são mais abrangentes, isto é, começam com o
entendimento do negócio e terminam com a implantação.

Ao utilizar esses fluxos para novas descobertas, responder


perguntas e tomar decisões, estamos realizando uma
mineração de dados. A mineração de dados envolve coleta e
armazenamento de dados, assim como processamento
computacional. Além disso, podemos utilizar algoritmos
sofisticados para segmentar dados e avaliar probabilidade de
eventos futuros, e quanto mais sofisticado for o algoritmo, mais
independerá de um usuário humano para construir modelos de
exploração específicos.
O conteúdo a seguir está disponível no Podcast “Análise de dados”
Podcast “Análise de dados”

Sabemos que o mercado é orientado por dados, e big data é uma


pauta recorrente quando falamos sobre o volume de dados gerados a cada
segundo. Entretanto, apenas capturar e armazenar um grande volume de
dados pode não ser a solução ideal para a maior parte das empresas.
Portanto, para gerar um diferencial competitivo e transformar os bilhões de
dados em insights decisivos, precisamos utilizar técnicas e ferramentas para
analisar esses dados, e para isso utilizamos mineração de dados, ciência de
dados ou mesmo técnicas mais avançadas como aprendizado de máquinas e
inteligência artificial.
Podcast “Análise de dados”

A análise de dados, de um modo geral, é o processo utilizado para


encontrar anomalias, padrões e correlações em grandes conjuntos de dados
para prever tendências e resultados significativos. Esse processo nos ajuda a
tomar decisões, reduzir riscos, identificar problemas e soluções para esses
problemas, entre outras funções importantes para a evolução de uma
organização.

Dessa forma, a análise de dados pode ser usada de várias maneiras, tais
como: banco de dados de saúde pública, gestão de risco epidemiológico,
detecção de fraudes, triagem de informações ou até mesmo para analisar o
sentimento das pessoas.
Podcast “Análise de dados”

Essa capacidade de interpretar qualquer tipo de informação


permite que as organizações analisem dados em tempo real e descubram
oportunidades a todo instante. Cabe destacar que a análise de dados não se
resume apenas a tecnologia, pois é necessário conhecimento aprofundado
sobre negócios para se definir uma estratégia de análise e os caminhos a
serem seguidos para a correta tomada de decisão. Isso acontece porque
existem diversas técnicas para analisar os dados, porém, cada órgão e cada
segmento se comporta de forma diferente e também podemos ter
indicadores de desempenho de negócios que variam de acordo com o objetivo
específico de cada área.
Podcast “Análise de dados”

Essa cA análise de dados envolve coleta e armazenamento de


dados, e também processamento computacional. Além disso, podemos
utilizar algoritmos sofisticados para segmentar dados e avaliar probabilidade
de eventos futuros, e quanto mais sofisticado for o algoritmo, mais
independerá de um usuário humano para construir modelos de exploração
específicos.
Etapas do processo de análise de dados

A análise de dados é, basicamente, o processo em que se extrai informações


de vários conjuntos de dados, e, por meio de técnicas específicas, obtém-se
conhecimento sobre um determinado conjunto de dados, e então esse
conhecimento pode ser usado para fins de aprendizagem ou processamento.

Conforme o volume de dados cresce, os desafios para conseguir relatórios e


análises consistentes também vão aumentando. Nesse sentido, as empresas
vêm desenvolvendo metodologias para entender melhor suas necessidades e
tomar decisões mais precisas e extrair valor de seus dados.
Existem diversas metodologias, como o CRISP-DM (do inglês, Cross-industry
Standard Process for Data Mining — ou Processo Padrão da Indústria Cruzada
para Mineração de Dados), que é muito utilizada em processos de análise de
dados e também uma das técnicas mais completas, o método Semma (do
inglês, Sample, Explore, Modify, Model and Assess — ou Exemplificar,
Explorar, Modificar, Modelar e Avaliar), que foca basicamente na criação de
modelo e deixa de fora questões de negócios, e o KDD (do inglês, Knowledge
Discovery in Databases — Descoberta de Conhecimento em Bases de Dados),
que é uma das técnicas mais antigas e que foca no processo de descoberta
de conhecimento a partir dos dados.
Como cada empresa ou
departamento pode seguir uma
metodologia diferente, ou ainda
criar sua própria metodologia,
vamos focar nas principais etapas,
que são: compreensão de negócios,
compreensão dos dados,
preparação dos dados, modelagem,
avaliação e implementação.
Compreensão de negócios: Esta etapa consiste na compreensão de todos objetivos e
requisitos de negócios. Por ser considerada um dos passos mais importantes dessa
metodologia, é necessário envolver a área de negócio e responder alguns aspectos
em relação ao modelo de atuação da empresa, tais como:

• Objetivo de negócio: Nesta fase é preciso entender completamente, de uma


perspectiva de negócios, o que o cliente realmente deseja realizar e, em
seguida, definir os critérios de sucesso do negócio.

• Objetivo do projeto: Além de definir os objetivos de negócios, é necessário definir


o que é sucesso, por uma perspectiva técnica de análise de dados.

• Plano de atuação: É necessário selecionar tecnologias e ferramentas, além de


definir planos detalhados para cada fase do projeto.
Embora muitas equipes passem
rapidamente por esta etapa,
estabelecer um forte
conhecimento de negócios é
fundamental para qualquer
projeto de análise de dados.
Compreensão dos dados: Esta etapa consiste em coletar, organizar e documentar
todos os dados disponíveis para realizar a análise exploratória para verificar a
qualidade dos dados. Esta etapa conta com mais quatro tarefas principais:

• Coletar o dado inicial: coletar os dados necessários para análise.

• Descrever os dados: avaliar as propriedades, o formato dos dados, os números de


registros e os campos disponíveis.

• Explorar os dados: nesta fase é possível utilizar técnicas e ferramentas para


visualizar, entender os dados, procurar correlações entre as variáveis e identificar
padrões nos dados.

• Verificar a qualidade dos dados: procurar por informações faltantes ou


discrepantes e garantir a integridade dos dados.
Preparação dos dados: Preparar os dados extraídos para serem utilizados em um
processo posterior. Esta etapa também conta com alguns passos importantes, quais
sejam:

• Selecionar os dados: determinar quais conjuntos de dados serão usados e


documentar os motivos para inclusão/exclusão. Por exemplo: deve-se utilizar um
valor discrepante? Será necessário utilizar todas as colunas da tabela? É preciso
adicionar mais dados?

• Limpar dados: frequentemente, esta é a tarefa mais demorada, uma vez que os
dados não virão da melhor forma possível, além da possibilidade de haver dados
em formatos incorretos, valores errados ou variáveis inconsistentes. Uma prática
comum durante esta tarefa é identificar, corrigir, adicionar ou remover valores
errados.
• Construir dados: criar novas variáveis pode ser útil para o negócio. Por exemplo,
criar um indicador que represente a meta da área ou adicionar indicador a fim de
eliminar vieses durante as análises, por exemplo, incluir todos os feriados e que
dias eles caem.

• Integrar os dados: tarefa necessária quando for preciso criar novos conjuntos de
dados combinando dados de diversas fontes.
Modelagem: É o processo de modelar os dados fornecidos de acordo com a
necessidade do usuário. É nesta etapa que selecionamos nossos algoritmos. Esta
etapa possui quatro fases:

• Selecionar a técnica: determinar qual algoritmo será testado (por exemplo:


regressão linear, árvore de decisão ou redes neurais).

• Design de teste: verificar a necessidade de dividir a base em treino, validação e


teste ou se será necessário realizar a amostragem.

• Construção do modelo: executar o modelo de acordo com a técnica selecionada.

• Avaliar o modelo: interpretar o resultado dos modelos de acordo com o critério


definido nas etapas anteriores.
Avaliação: É nesta etapa que se deve conferir todos os aspectos do processo para
verificar possíveis falhas ou problemas durante o processo, e analisar, de forma mais
ampla, qual modelo atende melhor ao negócio e o que fazer a seguir de acordo com
os objetivos definidos na primeira etapa. Esta etapa é composta por três tarefas:

• Avaliar os resultados: verificar se os modelos atendem aos critérios de sucesso


do negócio e qual ou quais devem ser aprovados para o negócio.

• Processo de revisão: analisar o trabalho realizado, conferir se alguma coisa foi


esquecida, se todas as etapas foram executadas corretamente; ou seja, avaliar
as descobertas e corrigir o que for necessário.

• Próximas etapas: com base nas tarefas anteriores, determinar se já é possível


prosseguir com a implantação, se é necessário realizar mais testes mais ou
avançar para novos projetos.
Técnicas de análise de dados

Sabemos que, atualmente, as empresas possuem acesso a mais dados do


que antes. No entanto, o maior desafio é entender o comportamento de cada
setor e extrair informações relevantes para o negócio em meio a esse grande
volume de dados estruturados e não estruturados.

A análise de dados é o processo pelo qual as empresas detectam padrões nos


dados para gerar insights relevantes de acordo com a necessidade do
negócio. Conforme a tecnologia evoluiu, as empresas passaram a utilizar
diversas técnicas para transformar dados brutos em tomada de decisão, e
isso pode ser feito das mais variadas formas, desde a aplicação de técnicas de
análise exploratória de dados até o desenvolvimento de algoritmos avançados
de inteligência artificial.
Limpeza e preparação de dados: A limpeza e a preparação de dados
configuram-se como uma parte vital do processo de análise de dados. Os
dados brutos devem ser limpos e formatados para serem utilizados em
diferentes métodos de análise. O processo de limpeza e preparação de dados
inclui diferentes elementos de modelagem, transformação, migração,
extração, transformação, carregamento (ETL), integração e agregação. Trata-
se de uma etapa necessária para compreender os recursos e atributos básicos
dos dados para determinar seu melhor uso.

Identificar padrões: Uma das técnicas mais básicas é aprender a reconhecer


padrões em seus conjuntos de dados. Isso geralmente possibilita o
reconhecimento de alguma discrepância nos dados acontecendo em intervalos
regulares, ou o comportamento de uma determinada variável ao longo do
tempo. Por exemplo, é possível observar que o consumo de um determinado
medicamento parece disparar logo após feriados ou perceber que o clima mais
seco leva mais pessoas a se consultar em unidades básicas de saúde.
Associação: A associação está relacionada aos padrões de rastreamento dos
dados, mas é mais específica para variáveis que possuam relação de forma
dependente. Nesse caso, devemos procurar eventos ou atributos específicos
que são altamente correlacionados com outro evento ou atributo. Por
exemplo, é possível notar que quando um paciente tem um determinado
sintoma, ele também pode ter outro sintoma associado.

Detecção de outlier: Em muitos casos, somente reconhecer o padrão nos


dados pode não fornecer uma compreensão clara do conjunto de dados. É
preciso identificar anomalias ou outliers nos dados. Por exemplo, se os
pacientes de uma unidade de saúde têm idade entre 45 e 60 anos, mas,
durante uma semana atípica de julho, há um grande aumento repentino no
número de pacientes com idade entre 10 e 15 anos, um gestor vai querer
investigar esse fato para que possa replicá-lo ou compreender melhor o motivo
que levou a esse aumento repentino.
Classificação: A classificação é uma técnica de análise de dados mais
complexa que permite analisar variáveis categóricas e tirar conclusões
adicionais. Por exemplo, ao avaliar dados sobre histórico de saúde de pacientes
individualmente, poderá classificá-los como riscos de saúde “baixo”, “médio”
ou “alto”, e então aprender ainda mais sobre esses clientes e fazer previsões,
além de poder usar essa classificação para uma triagem na fila de um pronto-
socorro, por exemplo.

Agrupamento: Técnica utilizada para agrupar indivíduos e/ou instituições que


possuem características similares. Por exemplo, agrupar unidades de saúde
por quantidade de pacientes atendidos por dia, quantidade e tipos de
procedimentos realizados, profissionais disponíveis e gastos. Isso permite
comparar cada grupo, além de garantir que os hospitais dentro de cada grupo
sejam similares, bem como identificar o que os diferencia dos demais grupos.
Regressão: O foco principal da regressão é ajudar a descobrir a relação exata
entre duas ou mais variáveis em um determinado conjunto de dados. Por
exemplo, pode-se utilizar esse processo para projetar um determinado preço
de um medicamento, com base em outros fatores, como disponibilidade,
demanda e competição.

Previsão: A previsão é uma das técnicas mais valiosas, uma vez que é usada
para projetar dados no futuro. Em muitos casos, apenas reconhecer e
compreender as tendências históricas é suficiente para traçar uma previsão
um tanto precisa do que acontecerá no futuro. Por exemplo, revisar os
históricos de saúde de pacientes e dados de exames para prever se há risco de
doenças no futuro.
Visualização: A visualização de dados é outro elemento importante da análise
de dados, pois está relacionada à comunicação. Esse processo fornece aos
usuários uma visão dos dados com base nas percepções sensoriais das
pessoas. As visualizações de dados de hoje são dinâmicas, úteis para projeção
de dados em tempo real, além de serem caracterizadas por cores diferentes
que revelam diferentes tendências e padrões nos dados.

Os painéis, também conhecidos como dashboards, são uma maneira poderosa


de usar visualizações de dados para descobrir oportunidades. As organizações
podem basear os painéis em diferentes métricas e usar visualizações para
destacar visualmente padrões nos dados, em vez de simplesmente usar saídas
numéricas de modelos estatísticos.

Você também pode gostar