Escolar Documentos
Profissional Documentos
Cultura Documentos
DE DADOS
UNIASSELVI-PÓS
Programa de Pós-Graduação EAD
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI
Rodovia BR 470, Km 71, no 1.040, Bairro Benedito
Cx. P. 191 - 89.130-000 – INDAIAL/SC
Fone Fax: (47) 3281-9000/3281-9090
Diagramação e Capa:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Copyright © UNIASSELVI 2019
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.
SI586a
Silva, Amanda Souza da
ISBN 978-85-7141-300-9
1.Estatística empresarial – Brasil. II. Centro Universitário Leonardo
Da Vinci.
CDD 658.00727
Impresso por:
Sumário
APRESENTAÇÃO...........................................................................05
CAPÍTULO 1
Análise Estatística de Dados no Mundo Corporativo............. 7
CAPÍTULO 2
Princípios Fundamentais do Data Science
Para Negócios............................................................................. 49
CAPÍTULO 3
Modelagem Multivariada............................................................ 99
APRESENTAÇÃO
Dentro de uma organização, analisar a concorrência é importante, sem
deixar de lado a satisfação dos consumidores, compreendendo suas expectativas
e moldando seus produtos de acordo com seus interesses, e sempre manter-
se atualizado sobre as tendências do mercado. Sem esses preceitos, uma
empresa pode ficar obsoleta perante as inovações das demais organizações,
não conseguindo alcançar de maneira eficiente os objetivos dos consumidores
e, consequentemente, não atingir suas metas. Portanto, conhecer o mercado é o
primeiro passo para realizar planejamentos estratégicos.
Com base nisso, este material foi dividido em três partes. O primeiro capítulo
fala sobre técnicas de estatística descritiva, a utilização delas em um negócio. E
como é realizada a inferência sobre dados.
8
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
1 Contextualização
Conhecer as expectativas e tendências do mercado é muito importante
para que seja viável consolidar estratégias para um negócio. Para que isto seja
possível, a análise de dados possui um conjunto de métodos específicos capazes
de transformar um agrupamento de dados em informações que auxiliam todos
os setores de uma organização. A geração de dados decorre de várias fontes,
desde a opinião de usuários, clientes, internet, e por meio de todos os setores da
empresa.
2 A Importância da Análise de
Dados Para um Negócio
À medida que o mercado se torna mais impulsionado pela tecnologia e
rapidez nas informações, a análise de dados tem um papel cada vez mais
importante nos negócios.
9
Análise Estatística de Dados
1) Melhorar a eficiência:
Todos os dados coletados pela empresa não estão relacionados apenas aos
indivíduos externos à organização. A maioria dos dados coletados pelas empresas
é analisada internamente. Esses dados ajudam a conhecer o desempenho dos
funcionários e também dos negócios.
2) Compreensão do mercado:
A análise de dados permite coletar uma maior quantidade de dados de uma ampla
variedade de consumidores. Por exemplo, verificar se os clientes da empresa
estão satisfeitos ou não com o novo horário de atendimento da loja.
3) Redução de custos:
Com a análise de dados é possível identificar as mais eficientes formas de fazer
negócios. Isso é uma característica bem relevante, pois ajuda na economia
dos custos de desenvolver um produto que se adéque ao padrão esperado
pelo consumidor ou verificar qual o melhor local para construir um novo
empreendimento.
5) Novos produtos/serviços:
Com o poder da análise de dados, as necessidades e satisfação dos clientes são
detectadas mais rapidamente, e atendidas de uma maneira melhor. Isso ajuda a
garantir que o produto/serviço esteja alinhado com os valores do público-alvo.
10
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
6) Conhecimento da indústria:
Com as informações inferidas pode-se conhecer de maneira aprofundada o
comportamento da indústria e mostrar como uma empresa pode funcionar em um
futuro próximo.
11
Análise Estatística de Dados
A pesquisa pode ter várias frentes e o seu foco pode estar concentrado no
consumidor, concorrente, fornecedor ou em qualquer situação que precisa ser
investigada. Uma definição mais formal de pesquisa de mercado, segundo a
Associação Nacional de Empresas de Pesquisa de Mercado (ANEP):
A pesquisa de mercado é uma maneira de obter uma visão geral dos desejos,
necessidades e crenças dos consumidores. Também pode envolver descobrir
como eles agem. A pesquisa pode ser usada para determinar como um produto
pode ser comercializado. Com base nas informações colhidas da pesquisa de
mercado é possível:
12
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
1. Informação de mercado:
Por meio das informações de mercado pode-se conhecer os preços de diferentes
empresas no mercado, bem como a situação de oferta e demanda.
2. Segmentação de mercado:
Dividir o mercado em subgrupos com estímulos parecidos.
3. Tendências de mercado:
Os movimentos anteriores e posteriores do mercado, durante um determinado
período de tempo, com o propósito de determinar o tamanho do mercado.
13
Análise Estatística de Dados
Portanto, para que a análise tenha bons resultados é necessário fazer um bom
planejamento, que envolve as diretrizes e finalidades das pesquisas. Pesquisas
desde as mais simples até as complexas devem ser elaboradas previamente para
evitar erros de todos os tipos, desde a escolha incorreta do método a ser usado,
até a importância das informações obtidas para o processo decisório.
14
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
Bom, vimos que antes de fazer as análises dos dados, existem algumas
fases antes que precisam ser feitas!
Agora, vamos estudar o que é necessário para fazer uma boa coleta de
dados!
Mas, como pode ser feita a extração e análise de dados de forma que auxilie
na tomada de decisão e gerar lucros para um negócio? Para isso existem alguns
passos.
15
Análise Estatística de Dados
16
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
17
Análise Estatística de Dados
Coletar dados não é uma tarefa muito simples, pois exige uma
metodologia bem definida e suporte tecnológico. Então é preciso
planejar e conhecer de maneira clara os objetivos da análise, e como
ela pode ajudar nas decisões a serem tomadas pela empresa, antes
de iniciar a coleta.
3 Análise de Dados
As medidas estatísticas permitem comparar grupos de variáveis relacionadas
e obter um quadro simples e resumido do cenário de uma empresa, a sua aplicação
em um negócio pode incentivar a reagir de modo inteligente aos acontecimentos
do contexto corporativo.
18
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
1. Pesquisas on-line.
2. Pesquisas em papel.
3. Pesquisas móveis e quiosques.
4. Entrevistas presenciais.
5. Entrevistas telefônicas.
6. Estudos longitudinais.
7. Interceptadores de sites.
Dados qualitativos/categorias
Variável nominal
19
Análise Estatística de Dados
● Alcoólatra ou não.
● Doente ou sadio.
Variável ordinal
● Escolaridade.
● Mês.
● Ano.
● Idade.
O Big Data
De acordo com os sites Canal Tech e Totvs, o Big Data Analytics é uma
potente ferramenta que auxilia na organização de como lidar com os dados e
utilizá-los para encontrar inferências. Isso leva a movimentos de negócios mais
inteligentes, lucros mais altos, operações eficientes e clientes satisfeitos. A ideia
é compartilhar as perspectivas de negócios de uma maneira melhor no futuro e
usá-las com o conceito de análise. É uma ferramenta capaz de construir análises
complexas, com base em um grande volume de dados por meio de complexos
algoritmos. Big Data é a expressão que descreve o grande volume de dados
estruturados e não estruturados que podem trazer grandes impactos aos negócios
diariamente. Ele é formado por uma variedade de aplicações usadas para analisar
dados, transformando-os em um modelo visual, como gráficos e tabelas que
permitem análises sofisticadas da realidade e das tendências do negócio.
Porém, ainda existem empresas que não têm a análise estatística como
estratégia de gestão e isso pode significar a falta de atualização perante as
tendências do mercado e seus clientes, pois a demanda do fluxo de informações
acontece de maneira dinâmica. Sem o hábito da coleta e análise contínua de
dados, negócios podem correr alguns riscos, como:
20
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
21
Análise Estatística de Dados
1. Testes.
2. Dinâmicas.
3. Avaliações qualitativas em suas atribuições.
22
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
Esses métodos utilizados são importantes nas mais variadas áreas, como:
● Ciências sociais.
● Saúde.
● Educação.
● Negócios.
23
Análise Estatística de Dados
Um negócio é planejado para ter um bom lucro e crescer entre seus clientes.
Para isso, o uso das análises estatísticas se faz necessário para tornar mais
confiáveis e sólidas as atividades que envolvam a empresa. Logo, podemos
concluir que a estatística é uma ferramenta fundamental desde o início e
desenvolvimento das organizações, dado que não faz apenas a monitoração do
progresso, como também para melhoria dos resultados.
24
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
25
Análise Estatística de Dados
Distribuição de Frequências
26
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
Valor Investido
Meses
(Frequência Relativa)
Abril 9,444%
Maio 10,493%
Junho 4,197%
Julho 13,641%
Agosto 16,055%
Setembro 20,986%
Outubro 25,184%
FONTE: O autor.
Agrupamento em classes
27
Análise Estatística de Dados
Salário (em reais) Freq. Absoluta (F) Freq. Acumulada (Fa) Freq. Relativa (Fr)
28
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
• Regra de Sturges.
• Critério da raiz quadrada.
a) Limite inferior: É o valor da esquerda. Vamos abreviar o limite inferior por Li.
Na Tabela 2 o primeiro limite inferior é: 1000.
b) Limite superior: É o valor da direita. Vamos abreviar o limite superior por Ls.
Na Tabela 2 o primeiro limite superior é: 1500.
c) Ponto médio: O ponto médio de cada classe é obtido somando os limites
superior e inferior da classe e dividindo o resultado por 2.
(Li - Ls)/2
L - xmax - xmin
h - Li - Ls
29
Análise Estatística de Dados
6 Gráficos
Para analisar os dados de um negócio de uma maneira mais clara e assertiva
e visualizar as informações mais completas, podemos usar as ferramentas de
construção de gráficos. Eles identificam padrões, resultados e comparam medidas
de forma mais rápida e simples, em relação a outras medidas estatísticas.
30
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
FONTE: O autor.
FONTE: O autor.
31
Análise Estatística de Dados
c) Gráfico de barras:
• Este gráfico possui colunas horizontais ou verticais.
• Quanto maior o comprimento das barras, maior o valor.
• Usa-se com frequência para comparar um único valor entre vários grupos, e
comparar variável qualitativa ou quantitativa discreta.
Com base nos exemplos dos clientes do banco vamos construir os próximos
gráficos de barras. A seguir, o exemplo do gráfico horizontal para os rendimentos
mensais.
FONTE: O autor.
FONTE: O autor.
d) Histograma:
• Este gráfico não contém intervalos entre as colunas.
• Usa-se para representar dados da medição de uma variável contínua.
• Os pontos de dados individuais são agrupados em classes para mostrar a
frequência dos dados em cada classe.
32
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
FONTE: O autor.
FONTE: O autor.
33
Análise Estatística de Dados
7 Medidas-Resumo
Depois que vimos as fases iniciais do planejamento e coleta dos dados, e as
maneiras como esses dados podem ser agrupados e visualizados, agora chegou
o momento de estudarmos como os métodos estatísticos descritivos podem nos
ajudar a avaliar os dados e extrair a maior quantidade de informações possível.
Vamos lá?
Porém, fica difícil avaliar todos os dados de uma única vez. Então, para
facilitar nossas análises, podemos usar as medidas que resumem os dados, elas
apresentam somente o valor que represente toda série dos dados (MORETTIN,
2017).
Medidas de Posição:
34
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
Segundo Morettin (2017), a média é dada pela soma das observações, dividida
pelo número delas.
(3 + 4 + 6 + 9) / 4 = 5,5.
Ou
35
Análise Estatística de Dados
TABELA 3 - NOTAS
Aluno 1 6,7
Aluno 2 7
Aluno 3 8,7
Aluno 4 9,4
Aluno 5 5,3
Aluno 6 3,1
FONTE: O autor.
36
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
37
Análise Estatística de Dados
Exemplo: O peso (em kg) correspondente a oito pessoas: 56; 78; 59; 74; 81; 82;
91 e 70 - este conjunto de valores não possui uma moda, então podemos chamar
de amodal.
8 Medidas de Dispersão
Na seção anterior estudamos as medidas de posição. Porém, usar
somente as medidas de posição pode não ser muito confiável, pois os dados
podem conter uma grande variedade de valores. Agora vamos estudar as
medidas de posição e como elas se comportam.
Segundo Morettin (2017), resumir o conjunto de dados por uma única medida
de posição central pode esconder informações importantes sobre a variabilidade
do conjunto de observações. As medidas de posição servem para verificar a
representatividade das medidas de posição, pois é muito comum encontrar
distribuições que possuem a mesma média, porém são compostas de maneira
diferentes (FONSECA, 1996).
a) Amplitude Total ( )
É a diferença entre o maior e o menor valor da série. Logo, podemos definir como
38
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
=(x- ).
Em que:
• representa cada uma das observações do conjunto de dados;
39
Análise Estatística de Dados
Então, podemos concluir que a loja pode ter vendido 2,65 retrovisores a mais ou a
menos em torno da média.
40
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
41
Análise Estatística de Dados
● 1º Quartil (Q1): divide 25% dos elementos. O valor é situado de tal modo na
série que uma quarta parte (25%) dos dados é menor que ele e as três quartas
partes restantes (75%) são maiores.
● 2º Quartil (Q2): divide os dados em 50%, isto é, o valor da mediana. O valor
é situado de maneira que deixa metade (50%) dos dados à esquerda dele e a
outra metade à direita.
● 3º Quartil (Q3): é o valor situado na série, onde as três quartas partes (75%)
dos dados são menores e uma quarta parte restante (25%) é maior.
FIGURA 1: BOXPLOT
FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/boxplot1-700x354.png> Acesso em: 12 out. 2018.
42
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
O boxplot também pode ser usado para comparar dois ou mais grupos, em
que duas ou mais caixas são colocadas lado a lado e se compara a variabilidade
entre elas.
Outliers
43
Análise Estatística de Dados
Usinagem
903,88 1036,92 1098,04 1011,26
1020,70 915,38 1014,53 1097,79
934,52 1214,08 993,45 1120,19
860,41 1039,19 950,38 941,83
936,78 1086,98 1144,94 1066,12
FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/ex3.1.1-750x371.png> Acesso em: 12 out. 2018.
Uma indústria produz uma peça automotiva cujo valor de referência é 75cm.
Após verificar lotes com peças fora de especificação, enviaram duas equipes
44
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/ex3.1.3-500x500.png> Acesso em: 12 out. 2018.
45
Análise Estatística de Dados
Atividades de Estudos:
a) FFVV.
b) FVVV.
c) VVVV.
d) FFVF.
46
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo
Algumas Considerações
Este capítulo apresentou conceitos sobre a importância da análise de
dados e como ela é fundamental para o negócio. Com base nas informações
extraídas da análise de dados, a organização pode ficar à frente de suas
concorrentes, acompanhar as tendências do mercado e auxiliar na tomada de
decisão de todas as áreas da empresa. Podendo montar estratégias que têm o
foco no cliente, produto, ou alavancar os lucros.
47
Análise Estatística de Dados
Referências
AZEVEDO, Gustavo Carrer. Pesquisa de Mercado: São Paulo: Sebrae, 2004.
14 slides, color. Disponível em: <http://www.portalaction.com.br/sites/default/files/
resize/EstatisticaBasica/figuras/ex3.1.3-500x500.png>. Acesso em: 12 out. 2018.
PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you
need to know about data mining and data-analytic thinking. " O'Reilly Media,
Inc.", 2013.
48
C APÍTULO 2
Princípios Fundamentais do Data
Science Para Negócios
A partir da perspectiva do saber-fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:
50
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
1 Contextualização
A aprendizagem supervisionada pode ser usada em vários contextos como,
por exemplo, para classificar clientes em potenciais devedores ou não devedores,
ou prever a chance de os clientes do negócio aprovarem a atualização de um
aplicativo interno. As técnicas de classificação e previsão são as mais usadas
no aprendizado supervisionado, porém elas precisam de dados a priori para que
possam fazer as análises.
51
Análise Estatística de Dados
2 Aprendizagem Supervisionada e
Aprendizagem não Supervisionada
Iniciaremos o capítulo com um exemplo:
Neste caso, o agrupamento está sendo feito pelo motivo específico: tomar
medidas com base na probabilidade de o cliente cancelar o serviço. Podemos
chamar esse tipo de problema de mineração de dados de aprendizagem
supervisionada.
52
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
53
Análise Estatística de Dados
● Histórico familiar?
● Tipo de trabalho?
● Local de residência?
● Renda?
● Idade?
54
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
Para o exemplo dado, cada atributo assume um único valor discreto (por
exemplo, cor do cogumelo = preto). Foram utilizados 5.644 exemplos do conjunto
de dados, compreendendo 2.156 venenosos e 3.488 cogumelos comestíveis.
55
Análise Estatística de Dados
FONTE: <https://docs.aws.amazon.com/pt_br/machine-learning/latest/
dg/collecting-labeled-data.html> Acesso em: 16 nov. 2018.
2.2 Classificação
O objetivo dessa técnica é classificar um indivíduo em uma classe ou
conjunto (WEBB, 2002). As classes são mutuamente exclusivas, de acordo com
Provost (2013).
56
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
2.3 Regressão
A regressão tenta estimar ou prever para cada indivíduo o valor numérico de
alguma variável que pertença a ele (CHARNET, 1999).
57
Análise Estatística de Dados
Classificação X Regressão
58
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
59
Análise Estatística de Dados
Neste caso temos dados sobre o produto? Não. Então, não temos os
dados iniciais para fazer algum tipo de previsão ou classificação, e neste caso o
aprendizado não supervisionado é o mais indicado.
O que é similaridade?
Medida usada para determinar o grau de semelhança
entre os objetos e realiza o agrupamento de acordo com a sua
homogeneidade. Conforme Witten e Frank (2005), as medidas de
similaridade são aprendizado baseado em instância, em que cada
nova instância é comparada com as existentes usando uma métrica
de distância, e a instância existente mais próxima é usada para
atribuir a classe à nova.
60
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
61
Análise Estatística de Dados
Conforme Provost (2013), deve-se elaborar os cenários de uso com base nas
seguintes perguntas:
62
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
esses dados podem não ser suficientes, eles podem ter falta de informações ou
ausência de dados.
Por exemplo:
Quanto mais os dados são consolidados por diferentes formas, mais soluções
podem ser descobertas e os esforços da equipe podem aumentar.
Os gastos feitos com o cartão aparecem na conta de cada cliente, por isso,
cobranças fraudulentas geralmente são capturadas, inicialmente pela empresa,
e depois pelo cliente quando a atividade da conta é revisada (PROVOST, 2013).
63
Análise Estatística de Dados
As fraudes são identificadas e rotuladas de forma não confiável, uma vez que o
cliente legítimo e a pessoa responsável pela fraude são pessoas diferentes e têm
diferentes objetivos. As transações com cartões de crédito têm rótulos confiáveis
(fraudulentos e legítimos) que podem servir como alvos para uma técnica
supervisionada.
64
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
FONTE: <http://professor.ufabc.edu.br/~ronaldo.prati/DataMining/
Preprocessamento.pdf> Acesso em: 15 out. 2018.
65
Análise Estatística de Dados
Colunas do modelo
66
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
● Input
● Predict
● Onlyou Key
A modelagem é feita com base nas colunas que foram incluídas a partir
dos dados, e estas foram definidas na estrutura de mineração. Pode-se
decidir quais colunas da estrutura de mineração devemos usar no modelo
e criar cópias das colunas da estrutura de mineração e renomeá-las ou
alterar seu uso. Como parte do processo de criação de modelo, devemos
definir o uso da coluna pelo modelo. Isso inclui informações como: se a
coluna é uma chave, se é usada para previsão, ou se pode ser ignorada
pelo algoritmo.
67
Análise Estatística de Dados
Quando percebemos que uma coluna não deve ser usada, às vezes
não é necessário excluí-la definitivamente do modelo, além do que, pode-
se resolver apenas definindo sinalizador na coluna que tem a capacidade
de especificar se a coluna deve ser ignorada durante a criação do modelo.
Com isso, a coluna continua na estrutura de mineração, mas não será
usada no modelo de mineração.
68
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
69
Análise Estatística de Dados
70
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
3.7 Estatística
Estatística significa uma informação numérica expressa em termos. Essas
informações podem estar relacionadas a todos os fenômenos que desejam ser
estudados. Os dados não possuem limites quanto à sua referência, cobertura e
escopo.
1. Podemos usar para calcular valores numéricos que sejam interessantes, por
exemplo: quando precisamos coletar algumas estatísticas sobre a opinião
dos nossos clientes para identificar os pontos negativos e positivos da nossa
71
Análise Estatística de Dados
72
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
● Planejamento de projetos.
● Planejamento e controle orçamentário.
● Planejamento e controle de inventário.
● Controle de qualidade.
● Marketing.
● Produção.
● Administração de pessoal.
Alguns autores, como Irving (1942), citam que a estatística pode ser usada
em uma organização industrial para os seguintes propósitos:
● Pesquisa de mercado.
● Design de desenvolvimento e especificação.
● Compra.
● Produção.
● Inspeção.
● Embalagem e transporte.
● Vendas.
● Reclamações.
● Inventário.
● Manutenção.
● Custos.
● Controle de gestão.
● Engenharia industrial.
● Pesquisa.
Nos negócios as técnicas estatísticas são usadas na gestão para fixar
salários, normas de incentivo e avaliação de desempenho de funcionário
individual, pois, com base na medição da produtividade, são concedidos bônus
aos funcionários.
73
Análise Estatística de Dados
● Oracle.
● Microsoft SQL Server.
Podemos citar exemplos de aplicativos de banco de dados de software livre:
● PostgreSQL
E sob licença pública:
● MySQL.
O analista pode executar a consulta para recuperar uma lista dos clientes
que trazem mais lucros para a empresa. Essa atividade é diferente da mineração
de dados, pois não há descoberta de padrões ou modelos.
74
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
Se esses homens serão alvo de uma oferta, uma ferramenta de consulta pode
ser usada para recuperar todas as informações sobre eles da tabela CLIENTES
no banco de dados.
75
Análise Estatística de Dados
76
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
77
Análise Estatística de Dados
78
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
Arquitetura de Dados
79
Análise Estatística de Dados
base em suposições sobre o que deve ou não ser levado em consideração, ou, às
vezes, com base em restrições sobre informações (PROVOST, 2013).
Por exemplo:
80
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
81
Análise Estatística de Dados
82
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
● Regressão linear.
● Regressão por mínimos quadrados ordinários.
83
Análise Estatística de Dados
Por exemplo, um gerente de uma loja de carros pode acreditar que a expansão
do horário de funcionamento da loja pode impactar nas vendas. Com base na
análise de regressão, porém, pode ser verificado que o fato de a loja ter um maior
aumento de suas horas de funcionamento não aumenta significativamente as
vendas. Pelo contrário, a taxa não significante de vendas pode mostrar que não
é viável o aumento do horário de funcionamento, pelos custos que a loja terá, por
exemplo, pagar horas extras para seus vendedores. Dessa forma, a regressão
pode fornecer suporte quantitativo para as decisões.
84
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
x
FONTE: O autor.
85
Análise Estatística de Dados
x
FONTE: O autor.
A fórmula é a seguinte:
Yˆ= a + bX
86
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
Onde:
∑=
d ∑(y − y )
i
2
i c
2
Em que:
yi = valor observado de y,
Algumas observações:
Tendo presente que Cov(x,y) = rxy sx sy, o coeficiente b será igual a estas
quatro fórmulas possíveis:
n ( ∑ xy ) − ( ∑ x )( ∑ y ) Cov ( x, y ) rxyσ xσ y σ
=b = = = rxy y
( 2
)
n ∑ x − (∑ x)
2
Var ( x ) σx2
σx
a=
∑ y − b∑ x= Y −bX
n
87
Análise Estatística de Dados
Então, dado um conjunto de n pares de observações (x1, y1), (x2, y2), ... , (xn,
yn), pode-se mostrar que os estimadores de quadrados mínimos são:
b= βˆ=
∑ ( x − x )( y − y )
i i
∑(x − x )
2
i
e,
a= αˆ= y − bx
Fórmulas:
( ∑ x )( ∑ y )
∑ ( xi − x )( yi − =
y ) ∑ xi yi −
i i
n
(∑ x )
2
∑( x − x ) = ∑ x
2 i
i
2
i − σ y/ x
n
88
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
TABELA 2 - VALORES DE X E Y
Xi Y_i X2 Y2
7 4 12,3
17,1 9 32,5
49,5 25 98
130,4 64 265,7
193 100 372,5
308,4 144 660,5
89
Análise Estatística de Dados
FONTE: O autor.
βˆ =
−0,98 + 2,16 X i
b>0 b<0
FONTE: O autor.
90
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
ei =yi − yˆi (i =
1, ..., n)
● Resíduos padronizados.
● Resíduos estudentizados.
4.4 Correlação
Para uma análise ficar de maneira consistente é desejado que se avalie a
relação entre as variáveis do modelo, pois é importante conhecer se elas possuem
algum tipo de dependência entre si, ou seja, se valores altos/baixos de uma das
variáveis implicam em valores altos/baixos da outra variável (LIRA, 2004). Por
exemplo:
91
Análise Estatística de Dados
Definição: sejam x1, x2, ..., xn; y1, y2, ..., yn os valores observados de X e Y,
respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y
o número dado por:
r =
∑ xi yi − ( ∑ xi ∑ yi ) / n ∑ x y − nx y
i i
x 2 − ( x )2 / n y 2 − ( y )2 / n
∑ i ∑i ∑ i ∑ i
( ∑ x − nx )( ∑ x − ny )
2
i
2 2
i
2
Propriedades
● r varia entre -1 e + 1
FONTE: O autor.
92
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
● É importante saber que r = 0 não quer dizer que existe ausência de relação
entre duas variáveis, apenas que ela é baixa.
sY2 − sY2 / X
r² =
sY2
93
Análise Estatística de Dados
a = intercepto do eixo y.
bi = coeficiente angular da i-ésima variável.
k = número de variáveis independentes.
Na regressão simples:
b = aumento em Y, decorrente de um aumento unitário em X.
Na regressão múltipla:
bi = aumento em Y se Xi for aumentado de 1 unidade, mantendo-se
constantes todas as demais variáveis Xj.
Exercícios de fixação
1) Qual a diferença entre aprendizagem Regressão e
Classificação?
a) Regressão: tenta estimar ou prever, para cada indivíduo, o valor
numérico de alguma variável para esse indivíduo. Classificação:
a estimativa de classificar um indivíduo em uma classe.
b) Regressão: tenta estimar ou prever, para cada indivíduo,
apenas um valor numérico de alguma variável para esse
indivíduo. Classificação: a estimativa de classificar um indivíduo
em uma classe.
c) Regressão: tenta estimar, prever ou classificar, para cada
indivíduo, apenas um valor numérico de alguma variável para
esse indivíduo. Classificação: a estimativa de classificar ou prever
um indivíduo em uma classe.
d) Regressão: tenta estimar ou prever, para cada indivíduo,
apenas um valor numérico de alguma variável para esse
indivíduo. Classificação: a estimativa de classificar e prever um
indivíduo em uma classe.
94
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
95
Análise Estatística de Dados
Algumas Considerações
Neste capítulo discutimos a importância da mineração de dados para
negócios. É uma técnica bastante usada para identificar padrões em dados,
podendo ser usada em todas as áreas da empresa, como para inferir sobre o
perfil do cliente, até mesmo em produção para detectar potenciais falhas e
anomalias nos produtos fabricados. Foram apresentados todos os detalhes do
seu processo, que vai de compreensão do negócio, nesta fase são levantados
todos os problemas para serem solucionados, até a fase da modelagem.
96
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios
Referências
BARTHOLOMEW, David J.; KNOTT, Martin. Latent variable models and factor
analysis. London: Arnold, 1999.
INMON, William H. Building the data warehouse. John Wiley & Sons, 2005.
97
Análise Estatística de Dados
PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you
need to know about data mining and data-analytic thinking. " O'Reilly Media,
Inc.", 2013.
WITTEN, Ian H., FRANK, Eibe. Data Mining: practical machine learning tools
and techniques. 2ª edição (2005). Morgan Kaufmann series in data management
systems. ISBN: 0-12-088407-0
98
C APÍTULO 3
Modelagem Multivariada
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:
100
Capítulo 3 Modelagem Multivariada
1 Contextualização
Com a grande quantidade de informações produzidas por diversos meios,
como a internet, grandes volumes de dados são gerados a cada momento. Esses
dados, muitas vezes, têm múltiplas variáveis, e por esse motivo, fazer uso de
técnicas mais simples, por exemplo, a análise de regressão simples, não é viável.
2 Regressão Logística
O que é Análise Multivariada?
101
Análise Estatística de Dados
simples, mas quando temos dados múltiplos é preciso usar técnicas estatísticas
multivariadas mais complexas para converter tais dados em conhecimento (HAIR,
2009).
102
Capítulo 3 Modelagem Multivariada
W1 X1 + W2 X2 + W3 X3 + ... + Wn Xn
Em que:
X1= variável observada.
W1= peso determinado pela técnica multivariada.
103
Análise Estatística de Dados
● Raça.
● Gênero.
● Doença.
● Morte.
Características:
104
Capítulo 3 Modelagem Multivariada
Onde:
105
Análise Estatística de Dados
106
Capítulo 3 Modelagem Multivariada
107
Análise Estatística de Dados
Atividade de estudos:
Exercício: Sobre o modelo logístico, coloque F para falso e V para
verdadeiro, nas alternativas abaixo:
a) ( ) Os parâmetros do modelo devem seguir normalidade.
b) ( ) Ele é usado frequentemente para variáveis quantitativas.
c) ( ) Podemos usá-lo no caso univariado.
d) ( ) As variáveis do modelo devem ser dicotômicas.
Atividade de estudos:
Exercício: Vamos supor que temos um conjunto de dados em que
devemos analisar a predominância de uma criança ter câncer ou
não. Qual seria a melhor de fazer essa previsão?
3 Análise de Cluster
A Análise de Cluster também é conhecida por Análise por Agrupamento, tem
o propósito de descrever as diversas técnicas que têm por objetivo classificar os
valores de uma matriz de dados sob estudo em grupos de variáveis discretas.
108
Capítulo 3 Modelagem Multivariada
FIGURA 2 - AGRUPAMENTOS
Atividade de estudos:
Exercício: Sobre os conceitos iniciais da análise multivariada
podemos afirmar:
a) ( ) Ela é usada apenas para dados bivariados.
b) ( ) Classifica objetos de maneira que cada objeto seja semelhante
aos outros no agrupamento.
c) ( ) O principal propósito é fazer previsões sobre seus objetos no
mesmo grupo.
d) ( ) O principal propósito é fazer previsões sobre seus objetos em
grupos diferentes.
109
Análise Estatística de Dados
Para o mercado ela tem grande potencial para agrupar indivíduos, podendo
ser frequentemente usada para:
110
Capítulo 3 Modelagem Multivariada
111
Análise Estatística de Dados
112
Capítulo 3 Modelagem Multivariada
( X 2 − X 1 ) + (Y2 − Y1 )
2 2
Distância =
113
Análise Estatística de Dados
Atividade de estudos:
Pergunta: Para as alternativas abaixo, responda F para falso e V
para verdadeiro.
a) ( ) A análise multivariada usa a similaridade para determinar o
grau de semelhança entre os objetos dos grupos.
b) ( ) A análise multivariada usa a similaridade para determinar a
previsão de um elemento em comparação a outro elemento no
mesmo grupo.
c) ( ) A distância Euclidiana é definida pela soma das diferenças
entre x e y em cada dimensão.
d) ( ) A distância de Mahalanobis é definida como a soma da
raiz quadrada da diferença entre x e y em suas respectivas
dimensões.
114
Capítulo 3 Modelagem Multivariada
115
Análise Estatística de Dados
FIGURA 4 - DENDOGRAMA
A1 A2 A3
A1 0 0,2 0,4
A2 0,2 0 0,3
A3 0,4 0,5 0
FONTE: O autor.
116
Capítulo 3 Modelagem Multivariada
Atividade de estudos:
Pergunta: Conforme a tabela a seguir, quais são as variáveis que
têm agrupamento similar?
Y1 Y2 Y3
Y1 0 0,2 0,1
Y2 0,5 0 0,6
Y3 0,1 0,5 0
117
Análise Estatística de Dados
1 n
CA
= ∑1 − d (i)
n i
118
Capítulo 3 Modelagem Multivariada 39
FONTE:Hierárquico
Figura 7: Método < https://www.maxwell.vrac.puc-rio.br/7975/7975_4.
Divisivo - Dendograma
PDF > Acesso em: 27 nov. 2018.
Grupos
dessa divisão é expressa por h1. Nesse momento existem 2 agrupamentos (C,A).
No passo seguinte, o agrupamento C é dividido em dois agrupamentos c e B. A
medidaOdeMétodo de Distância
similaridade dessa édivisão
aplicado para medir
é expressa o grau
por de similaridade
h2. Nesse momentoentre os
existem
agrupamentos, isto é, o grau de similaridades entre os objetos (HAIR, 2009). Os
3 agrupamentos (A, B, c). O agrupamento B é então dividido entre os
métodos mais conhecidos são: ligação individual, ligação completa, ligação
agrupamentos d e centroide
média, método e. A medida de similaridade
e método de Ward. dessa divisão é expressa por h3.
Nesse momento existem 4 agrupamentos (A, c, d, e). No último passo, o
a) Ligação individual (simples): Essa ligação é definida pela semelhança
agrupamento A é dividido entre
entre agrupamentos, comoosa agrupamentos a edeb.qualquer
menor distância A medidaelemento
de similaridade
de um
dessa agrupamento a qualquer
divisão é expressa elemento
por h4. em outro grupo
Nesse momento (HAIR,
existem 2009).
5 agrupamentos (a, b, c,
d, e).
120
Capítulo 3 Modelagem Multivariada
Atividade de estudos:
121
Análise Estatística de Dados
Outliers
Outliers são dados que se diferenciam drasticamente de todos os
outros, são pontos fora da curva. Em outras palavras, um outlier é um
valor que foge da normalidade e que pode (e provavelmente irá) causar
anomalias nos resultados obtidos por meio de algoritmos e sistemas de
análise.
Algumas observações sobre outliers:
● Os outliers podem viesar negativamente todo o resultado de uma
análise.
● O comportamento dos outliers pode ser justamente o que está sendo
procurado.
● Os outliers possuem diversos outros nomes, como: dados discrepantes,
pontos fora da curva, observações fora do comum, anomalias, valores
atípicos, entre outros.
FONTE: <https://www.aquare.la/o-que-sao-outliers-e-como-trata-
los-em-uma-analise-de-dados/> Acesso em: 22 nov. 2018.
122
Capítulo 3 Modelagem Multivariada
VANTAGENS DESVANTAGENS
Métodos Simples: Como os Métodos
As combinações feitas inicialmente
Hierárquicos possuem desenvolvimento em
que são indesejáveis podem continuar
estruturas de árvore para retratar o processo
na análise e conduzir a observações
de agrupamento, isso faz com que eles
atípicas. Logo, esse problema pode causar
tenham descrições simples e abrangente dos
impactos negativos no resultado final.
intervalos de soluções do agrupamento.
Medidas de similaridade: Devido aos métodos
hierárquicos possuírem uma quantidade
Para solucionar o impacto que têm as
extensa de aplicações, isso faz com que
observações atípicas, o pesquisador
eles tenham um grande desenvolvimento de
pode analisar os dados várias vezes, e a
medidas de similaridade para praticamente
cada análise tentar eliminar observações
quaisquer tipos de variáveis de agrupamento.
que podem trazer problemas.
As técnicas hierárquicas podem ser aplicadas
a quase todo tipo de questão de pesquisa.
123
Análise Estatística de Dados
Rapidez: Eles têm a vantagem de gerar um O processo que envolve métodos hierárquicos
conjunto inteiro de soluções de agrupamento é consideravelmente rápido, porém eles não
de uma maneira rápida. Essa característica são tratáveis para amostras muito grandes.
faz com que o pesquisador examine várias No momento em que o tamanho amostral
soluções diferentes, em que pode variar aumenta, é preciso um bom armazenamento
as medidas de similaridade e métodos para comportar todos esses dados. Por
de ligação de uma maneira eficiente. conta dessa exigência, as aplicações em
alguns casos podem ficar limitadas.
124
Capítulo 3 Modelagem Multivariada
k = número de grupos.
125
Análise Estatística de Dados
Atividade de estudos:
Atividade de estudos:
126
Capítulo 3 Modelagem Multivariada
127
Análise Estatística de Dados
FONTE: <http://www.siqueiracampos.com/_downloads/cluster_
analysis_TDC2017.pdf> Acesso em: 29 nov. 2018.
Obtenção de agrupamentos
Como foi visto, existem várias formas de obter agrupamentos por meio
dos algoritmos hierárquicos, cada uma com vantagens e desvantagens:
128
Capítulo 3 Modelagem Multivariada
129
Análise Estatística de Dados
130
Capítulo 3 Modelagem Multivariada
FIGURA 10 - K=1
131
Análise Estatística de Dados
FIGURA 11 - K =20
FONTE: <https://kevinzakka.github.io/assets/20nearestneigh.
png> Acesso em: 30 nov. 2018.
132
Capítulo 3 Modelagem Multivariada
133
Análise Estatística de Dados
● Iris Setosa.
● Iris Versicolour.
● Iris Virginica.
● Comprimento da sépala.
● Largura da sépala.
● Comprimento da pétala.
● Largura da pétala.
134
Capítulo 3 Modelagem Multivariada
135
Análise Estatística de Dados
Algumas Considerações
Neste capítulo abordamos sobre os conceitos de análise multivariada, a
qual é bastante utilizada para analisar dados. Estas técnicas têm a finalidade
de auxiliar na tomada de decisões quando tratamos de dados múltiplos. Com
a grande quantidade de informações geradas a todo o momento, é cada vez
maior a necessidade de fazer uso desse tipo de abordagem.
136
Capítulo 3 Modelagem Multivariada
137
Análise Estatística de Dados
Referências
BAEZA-YATES, R. A. Introduction to Data Structures and Algorithms
Related to Information-Retrieval. In Information Retrieval: Data Structures and
Algorithms, W. B. Frakes and-R. Baeza-Yates (eds.). Upper Saddle River, NJ:
Prentice Hall, p. 13–27. 1992.
BARROSO, Lúcia P.; ARTES, Rinaldo. Análise multivariada. Lavras: Ufla, 2003.
138
Capítulo 3 Modelagem Multivariada
JAIN, A. K.; R. C. Dubes. Algorithms for Clustering Data. Upper Saddle River,
NJ: Prentice Hall. 1988.
139
Análise Estatística de Dados
PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you need
to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.",
2013.
WITTEN, Ian H., FRANK, Eibe. Data Mining: practical machine learning
tools and techniques. 2ª edição – (2005). Morgan Kaufmann series in data
management systems. ISBN: 0-12-0884.
140