2021
Técnicas para Análise de Dados
Bootcamp Analista de Dados
Guilherme Francis de Noronha
© Copyright do Instituto de Gestão e Tecnologia da Informação.
Todos os direitos reservados.
Histograma ..................................................................................................... 17
Identificação de anomalias................................................................................... 25
Algoritmos de classificação............................................................................. 32
Autocorrelação ..................................................................................................... 35
Sazonalidade ....................................................................................................... 36
Estacionariedade ................................................................................................. 37
ARIMA ............................................................................................................ 39
Distribuição .......................................................................................................... 43
Segmentação ....................................................................................................... 44
Preparação .......................................................................................................... 47
Análise de textos.................................................................................................. 49
Extração de texto.............................................................................................50
Visualização ......................................................................................................... 52
Referências................. ............................................................................................ 54
A coleta de dados aumenta dia após dia e o conceito de big data se torna
cada vez mais comum no cotidiano das pessoas. Aprender a domar esses dados virou
uma profissão requisitada. Profissionais que conseguem organizar e transformar os
dados em informação relevante estão entre os que mais geram valor para uma
empresa.
Além disso, uma razão fundamental para fazer a AED é permitir ao analista
ter uma familiaridade com os dados para que possa organizá-los e sintetizá-los
adequadamente. Dessa maneira, o analista conseguirá responder aos objetivos que
foram traçados na etapa de planejamento.
‒ Gráfico;
‒ Não Gráfico.
‒ Univariada;
‒ Multivariada.
Univariado Multivariado
– Histograma. – Gráfico de barras
– Diagrama de ramos e agrupadas.
Gráfico folhas. – Diagrama de caixas.
– Diagrama de caixas. – Gráfico de dispersão.
Etapas da AED
A forma mais usada para preparação de dados são as tabelas. Cada linha da
tabela representa um registro diferente do conjunto de dados. As colunas, por sua
vez, representam as características. Se os dados coletados serão usados para
classificação supervisionada em aprendizado de máquina, então a última coluna deve
ser reservada para a classificação do registro.
Cada tipo de dado citado acima exigirá do analista uma abordagem diferente
de fazer análise. Essas análises incluem a escolha da representação gráfica e para
determinar as escolhas de medidas central e de dispersão.
O objetivo mais comum da AED para dados univariados é ter uma noção do
conjunto de dados por meio de uma análise da amostra. Embora essas análises
sejam quantitativas, devemos considerar sua análise como qualitativa, pois análise
amostral pode ter diferentes resultados a depender da amostra selecionada.
Dados Categóricos
Histograma
Ramo Folha
0 1
1 2, 6
2 2, 3, 4
15 2
Diagrama de caixas
Tabelas de contingência
Teste de Qui-Quadrado
Covariância e Correlação
Por fim, quando a análise é feita sobre duas variáveis quantitativas, o gráfico
recomendado é o gráfico de dispersão com cada variável num eixo distinto. Quando
uma variável é explicativa, recomenda-se colocá-la no eixo Y enquanto as variáveis
resultado são colocadas no eixo X (SELTMAN, 2012).
A análise exploratória de dados deve ser considerada uma arte. Ela exige que
o cientista de dados tenha intuição para manipular os dados e isso não pode ser
mensurado quantitativamente. É necessário conhecer os dados, verificar possíveis
problemas, entender as distribuições e relações entre as variáveis. É uma habilidade
que requer tempo para dominar e os conceitos apresentados neste capítulo são
apenas o primeiro passo. O passo seguinte é praticar bastante.
▪ Identificação de anomalias;
▪ Descoberta;
Identificação de anomalias
Atualmente, existe uma série de técnicas para análise preditiva, sendo elas
classificadas em aprendizado de máquina e regressão.
Técnicas de regressão
A regressão linear avalia a relação entre duas variáveis por meio de uma
função linear calculada. A regressão permite que as variáveis de predição sejam
inseridas na função e prevê uma resposta com um determinado grau de precisão.
Algoritmos de classificação
Algoritmos de regressão
Uma rede neural possui diferentes camadas que aceitam uma entrada (dados
para serem processados), processam esses dados (calculam predições em camadas
ocultas) e gera uma saída (resposta para o problema). As redes neurais vêm
mostrando aplicações em diferentes contextos, como processamento de imagem,
texto, voz etc. Os principais algoritmos de redes neurais são: CNN, RNN, LSTM etc.
Árvores de decisão
Cada nó da árvore possui uma condição que o algoritmo analisa para navegar
para os nós mais baixos da árvore, afunilando as opções que descrevem qual a
decisão a ser tomada pelo algoritmo.
Por exemplo: dado informações sobre uma residência como bairro, idade da
construção, histórico de enchentes e preço, é possível gerar uma recomendação de
compra ou não para um corretor de imóveis. Outro exemplo é a análise de dados de
uma pessoa como estado civil, emprego, escolaridade e educação para autorização
de empréstimo.
Uma série temporal tem como característica que as análises vizinhas são
dependentes. Podemos dividir o estudo de séries temporais em três assuntos:
▪ Modelagens;
▪ Análise de dependência;
Autocorrelação
Sazonalidade
Uma série de modelos preveem que as séries sejam estacionárias. Por esse
motivo, o uso de dados estacionários é muito comum na análise de série temporal.
Para isso, as séries não estacionárias são transformadas para se adequarem às
características estacionárias. Uma forma de fazer isso é subtrair o valor seguinte pela
média da série ou pelo valor anterior.
Média Móvel
Suavização exponencial
ARIMA
▪ Conectividade;
▪ Distribuição;
▪ Segmentação.
Conectividade
Os nós numa rede social podem ser identificados em três tipos: fontes de
informação, ralos (que recebem a informação, mas não propagam), ou ambos
(HANNEMAN; RIDDLE, 2005). A conectividade de uma rede social é a relação que
um nó possui com outro por meio de uma aresta de ligação. Essa relação pode ter
vários significados, como parentesco, amizade, colegas de trabalho etc.
Quanto mais conexões um nó possui, significa que ele está mais exposto a
mais informações e de forma mais diversa. Quando um nó possui um alto grau de
saída, quer dizer que esse nó é mais influente na rede e que pode exercer mais
influência sobre os nós aos quais está conectado. Outra característica envolve a
disseminação de informação que é maior onde há mais conexões. Quando um nó
possui alto grau de entrada, pode haver vários significados. Esse nó pode ser
influente, poderoso ou fonte de ruído (excesso de informação). As conexões da rede
social, geralmente, se manifestam em homofilia, multiplexidade, reciprocidade, redes
fechadas e propinquidade (KADUSHIN, 2012).
Uma rede social pode ter várias formas e conhecê-las é importante para fazer
as análises. Conceitos como ponte, centralidade, densidade, distância, buracos
estruturais e força de conexão são importantes para entender a distribuição de uma
rede social (HANNEMAN; RIDDLE, 2011).
O fluxo de uma rede mede todas as conexões existentes entre os nós. Essa
métrica é útil para analisar como que a informação se espalha pela rede. Se um nó
recebe uma informação de mais de uma fonte, pressupõe-se que ele aceitará aquela
informação e que estará mais propício a repassá-la. Junto com a análise de
centralidade, o fluxo é usado para definir estratégias de marketing, pois os nós
centrais com maiores conexões possuem maior poder de influência e disseminação
da informação.
A distância entre nós é outra característica de análise numa rede social. Para
medir a distância entre um nó e outro, conta-se quantas conexões são necessárias
para que eles se conectem. O cálculo de distância entre nós é interessante para
determinar características macro da rede social, como o custo de difusão de uma
informação. A menor distância entre dois nós é chamada de distância geodésica e
é bastante utilizada na análise, pois calcula o custo da difusão de informação com
maior precisão. É possível calcular a média da distância geodésica entre os nós, se
a média for baixa, pode ser um indicativo de rede densa onde os nós possuem alto
grau de conectividade. A distância também pode ser usada para calcular o diâmetro
da rede. O diâmetro é a maior distância geodésica encontrada na rede, quanto maior
o diâmetro, mais esparsa é a rede. O diâmetro também é usado como métrica de
estudo para limitar a quantidade de conexões que serão analisadas. As conexões
entre os nós que são estudados são limitadas pelo diâmetro da rede.
Segmentação
Por fim a coesão é a métrica que determina o grau em que cada nó está
conectado a outro. Ela usa das informações de acessibilidade e distância para
identificar a conexão dos nós. A análise coesão também traz o conceito de coesão
estrutural que é identificar quais são os nós capazes de desfazer um grupo caso
sejam desconectados da rede. Identificar a coesão estrutural de grupos na rede pode
ser importante para a tomada de decisões estratégias.
▪ Sentenças inteiras;
▪ Documentos inteiros.
Uma vez que o analista de dados entenda em qual escala ele terá que fazer
a análise de texto, ele pode preparar as etapas de análise. As etapas de análise de
texto são: coleta de dados, preparação, análise e visualização. As duas primeiras
etapas são tarefas do engenheiro de dados enquanto as duas últimas são do analista
de dados. Apesar disso, a seguir serão explicados os processos de cada etapa.
Coleta de dados
Preparação
A preparação de textos envolve uma série de técnicas que são usadas para
otimizar a análise. Faz parte dessa etapa também padronizar os documentos
coletados na etapa anterior e armazená-los numa estrutura adequada para
persistência e consulta (geralmente um banco de dados).
Etiquetagem de Partes-do-Discurso
Remoção de stopwords
Stopwords são palavras que existem no texto, mas que trazem pouco ou
nenhum significado semântico. Elas geralmente são artigos, preposições, conjunções
e alguns verbos. Para várias tarefas de análise de textos, recomenda-se remover as
stopwords para não causar ruídos nos algoritmos de aprendizado.
Análise de textos
Classificação de texto
Extração de texto
Uma palavra é considerada chave quando sua presença traz relevância para
o documento ao qual ela está inserida. A extração de palavras-chave ajuda o
analista de dados a entender o conteúdo dos documentos que ele tem em mãos. Elas
são úteis também para indexação de documentos e visualização da representação
dos dados textuais.
Visualização
BHANDARI, P. Central tendency: Mean, median and mode, 30 jul. 2020. Scribbr.
Disponível em: https://www.scribbr.com/statistics/central-tendency/. Acesso em: 23
jul. 2021.
HANNEMAN, R. A.; RIDDLE, M. Concepts and measures for basic network analysis.
In: SCOTT, J.; CARRINGTON, P.J. (eds.). The SAGE handbook of social network
analysis, Thousand Oaks: SAGE Publicattions, 2011. p. 340–369.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM
Journal of research and development, San José, CA, v. 3, n. 3, p. 210–229, 1959.
SWAIN, M. et al. An approach for iris plant classification using neural network.
International Journal on Soft Computing, Citeseer, v. 3, n. 1, p. 79, 2012.
VESSET, D. Diagnostic analytics 101: Why did it happen?, 2018. Henry + Horny.
Disponível em: https://www.hhcpa.com/blogs/income-tax-accountants-
cpa/diagnostic-analytics-why-did-it-happen/. Acesso em: 23 jul. 2021.