Você está na página 1de 13

Big Data

Capítulo 4
Grupo:
Carlos Augusto Teixeira Analisando os dados
Felipe Soares da Silva
Silas José dos Santos
Washington de Rezende Santos
Sumário;

• 4.1 Análise de dados;


• 4.2 O processo de análise de dados;
• 4.3 Preparando os dados;
• 4.4 Construindo o modelo;
• 4.5 Validando o modelo;
• 4.6 Tecnologias de Big Data para análise de dados;
• 4.7 Big Data Analytics;
• 4.8 Classificação de mensagens usando R;
• 4.9 Considerações.
ANÁLISE DE DADOS

A análise de dados é um processo de inspeção,


limpeza, transformação e modelagem de dados com
o objetivo de descobrir informações úteis, informar
conclusões e apoiar a tomada de decisões.

Analisar uma grande base de dados em busca de


padrões pode significar muitas vezes um processo
análogo ao de procurar uma agulha em um palheiro.
Essa analogia existe pelo fato de que encontrar um
padrão diante de uma infinidade de dados é uma
tarefa muitas vezes complexa e demorada.
O PROCESSO DE ANÁLISE DE DADOS

Por meio de metodologia de análise de dados, é


possível tomar decisões com maior segurança e
implementar estratégias mais eficazes em •Definição do objeto de análise;
diferentes aspectos do negócio.
•Escolha o tipo de dados que serão
analisados;

•Defina como será a mensuração dos


dados;

•Realize a coleta de dados;

•Analise os dados;

• Interpretação dos resultados.


PREPARANDO OS DADOS

A fase de preparação, tratamento ou pré processamento O processo de limpeza requer uma inspeção
dos dados é essencial na análise de dados, sendo a tarefa minuciosa dos dados, bem como a realização de
que demanda maior tempo e trabalho. Quando falamos de operações de correção e remoção, conforme a
análise dos dados no contexto de Big Data, essa fase se
necessidade. Para exemplificar, considere os
tornou ainda mais importante, uma vez que muitas vezes
os dados usados estão em seu formato original, sem registros a seguir, referentes aos dados cadastrais
nenhuma "lapidação" realizada sobre eles. dos clientes da Big Compras.

Limpeza dos dados


PREPARANDO OS DADOS

Redução dos dados

Mesmo com as possibilidades oferecidas pelas tecnologias


de Big Data para processar um grande volume de dados, é
possível que o processamento de uma base de dados com
centenas de variáveis e milhões de registros seja muito caro
computacionalmente, resultando em um gargalo de
desempenho em alguns algoritmos. Para casos como esses,
são aplicadas técnicas de redução e sintetização de dados
em busca de reduzir a dimensionalidade dos dados.
CONSTRUINDO O MODELO

Com os dados preparados para a análise, A figura a seguir apresenta uma lista de
damos início à fase de modelagem dos dados. tarefas comuns em mineração de dados para
É nessa etapa que utilizamos um algoritmo obtenção dessas respostas. Em geral, essas
para gerar a resposta que estamos tarefas podem ser divididas em duas
procurando. categorias: descritiva e preditiva.
VALIDANDO O MODELO

Quanto mais serviços forem realizados com base


em informações obtidas da análise de dados, maior
a importância de se validar os modelos e assim ter
resultados mais assertivos. Dessa forma, após ter
realizado o tratamento dos dados e construído o
modelo de acordo com a análise desejada, deve ser
iniciado a fase de validação do modelo

• Utilização de medidas estatísticas para validar se os dados de


treinamento e o modelo foram corretamente utilizados;
• Separação da base de dados em treinamento e teste, permitindo
avaliar o desempenho do modelo antes de usá-lo em um
ambiente de produção;
• Avaliação perante profissionais especializados em análise de
dados e na área de negócio em que o modelo foi aplicado, para
que eles possam determinar se a descoberta ou predição foi
condizente e significativa.
TECNOLOGIAS DE BIG DATA PARA ANÁLISE DE DADOS

Com o advento de Big Data, surgiram novas


possibilidades relacionadas à análise de dados.
Entretanto, há muitos anos essa prática já é
realizada pelas empresas, existindo diversas
ferramentas para esse fim.

Temos como exemplo o Microsoft Excel, SAS,


SPSS, R, Weka e Cognos. Cada uma tinha como
objetivo oferecer funcionalidades para
aperfeiçoar a inteligência dos negócios.
BIG DATA ANALYTICS

Com a quantidade massiva de dados gerados atualmente,


novos desafios foram surgindo à análise de dados. Para
possibilitar o avanço das análises realizadas, métodos
estatísticos, algoritmos de aprendizado de máquina e
técnicas de mineração de dados precisaram ser adaptados
para suportar modelos de processamento paralelo e
distribuídos. Dessa forma, as tecnologias de
processamento de Big Data, somadas à evolução dessas
abordagens, culminaram em formas inovadoras de
obtenção de insights sobre dados.
BIG DATA ANALYTICS

Podemos observar na figura a seguir claramente


quais questões são respondidas por cada categoria
de analytics. Uma empresa que utiliza essas quatro
categorias tem a capacidade de tomar decisões
apoiada por dados, obtendo percepções claras sobre
a real situação de seu negócio.
CLASSIFICAÇÃO DE MENSAGENS USANDO R

Devemos realizar a seguinte sequência de


passos:

Passo 1: tratamento da base de dados;


Passo 2: construção do modelo;
Passo 3: teste e verificação do modelo.
CONSIDERAÇÕES FINAIS

Vimos neste capítulo as diferentes estratégias Os resultados dessas análises são normalmente apresentados
para realizar a análise de dados. É importante ter em uma estrutura que muitas vezes é legível somente para o
o conhecimento da existência dessas técnicas, analista. Entretanto, para transmitir o resultado a uma
saber o objetivo e característica de cada uma audiência, um meio eficaz é o uso de técnicas de visualização
delas, para que o analista saiba identificar qual de dados, que serão apresentadas no próximo capítulo.
melhor se enquadra em seu contexto.

Você também pode gostar