Você está na página 1de 600

Big Data Real-Time Analytics com

Python e Spark

www.datascienceacademy.com.br
Análise Estatística de Dados

www.datascienceacademy.com.br
Os números constituem a única verdade universal.

Nathanael West

www.datascienceacademy.com.br
Introdução
Análise Estatística de Dados

www.datascienceacademy.com.br
Introdução
O que é Estatística?

www.datascienceacademy.com.br
Introdução

É a ciência que nos permite aprender a


partir dos dados.

www.datascienceacademy.com.br
Introdução

Com a Estatística nós podemos:

www.datascienceacademy.com.br
Introdução
Coletar dados

O principal objetivo é determinar quais os dados são mais relevantes no


momento do levantamento dos dados. A qualidade e confiabilidade da
análise estatística está diretamente ligada à qualidade e a confiabilidade
dos dados.

www.datascienceacademy.com.br
Introdução
Interpretar
Coletar
os Dados

Descrever Organizar

Apresentar

www.datascienceacademy.com.br
Introdução

Tipos de Dados

www.datascienceacademy.com.br
Introdução

Exemplo

www.datascienceacademy.com.br
Introdução
Sistema de Cotas

Branco Negro

Pardo

www.datascienceacademy.com.br
Introdução
Idade dos Estudantes
27
17
1
7
18

19 19

25
20

www.datascienceacademy.com.br
Tipos de Dados
Qualitativos Quantitativos
(categóricos) (numéricos)

Nominais Ordinais Discretas Contínuas

• Número de
• Escolaridade Filhos • Altura
• Profissão • Classe Social • Peso
• Número de
• Sexo • Fila • Salário
carros
• Religião
• Número de
acessos

www.datascienceacademy.com.br
Introdução

Exemplo

www.datascienceacademy.com.br
Dados Qualitativos Nominais – representam
descrições para os dados e não permitem
ranqueamento. Exemplo: CEP (70.098-080).

www.datascienceacademy.com.br
Dados Qualitativos Ordinais - existe uma ordenação
entre as categorias (ranqueamento) e os dados
podem ser medidos.

www.datascienceacademy.com.br
Dados Quantitativos Discretos – valores baseados
em observações que podem ser contados,
normalmente representados por valores inteiros.

www.datascienceacademy.com.br
Dados Quantitativos Contínuos – valores baseados
em observações que podem ser medidas e
normalmente representados por valores decimais.

www.datascienceacademy.com.br
Introdução

Exercício

www.datascienceacademy.com.br
Introdução
Dados Tipo de Dados

1 – Masculino / 2 - Feminino
Qualitativo
Branco / Pardo / Negro

Quantitativo Discreto
3.125,44

3 filhos Quantitativo Contínuo

1 – Acima da Média /
2 – Abaixo da Média
www.datascienceacademy.com.br
Introdução

Níveis de Medição dos Dados

Razão/Ratio
Intervalar
Ordinal
Nominal

www.datascienceacademy.com.br
Introdução

A População é a coleção completa de todos os


dados de interesse que estão sob observação.

www.datascienceacademy.com.br
População

www.datascienceacademy.com.br
Introdução

Censo é a colação de dados de cada membro


da população

www.datascienceacademy.com.br
Introdução

O tamanho da população = número de membros

www.datascienceacademy.com.br
Introdução

O tamanho da população = número de membros

www.datascienceacademy.com.br
Introdução

Exemplo

www.datascienceacademy.com.br
São Paulo
Roraima
44,4 505,7 mil
milhões
0,2%
21,7%

Número de Brasileiros =
Minas Gerais
N= 204.450.649
20,86 milhões
População

Rio de
Janeiro Bahia
16,55 15,2 milhões
milhões

Fonte IBGE 2010

www.datascienceacademy.com.br
São Paulo
Roraima
44,4 505,7 mil
milhões
0,2% 1,09% da
21,7%
população é
amarela
Número de Brasileiros =
Minas Gerais
N= 204.450.649
20,86 milhões
População

Rio de
Janeiro Bahia
16,55 15,2 milhões
milhões

Fonte IBGE 2010

www.datascienceacademy.com.br
Introdução

Amostra é a parte da população da qual os


dados foram recolhidos.

www.datascienceacademy.com.br
Introdução

O Tamanho da Amostra = número de objetos


pertencentes à amostra

www.datascienceacademy.com.br
www.datascienceacademy.com.br
Introdução

Exemplo

www.datascienceacademy.com.br
População

www.datascienceacademy.com.br
Amostra

18% = 180 g/L

www.datascienceacademy.com.br
Introdução

Investigação:
O propósito de um estudo estatístico está na
razão ou motivo da pesquisa ou investigação.

www.datascienceacademy.com.br
Introdução

Perguntas tais:

 Quem são os membros de interesse da população?


 Quais dados são os mais relevantes para pesquisa?
 Como os dados devem ser coletados?

www.datascienceacademy.com.br
Introdução

Exercício

www.datascienceacademy.com.br
Introdução

Identificar o problema a ser investigado da população


e da amostra a seguir. E determinar se a amostra é
representativa da população.

www.datascienceacademy.com.br
Introdução
A Universidade de Brasília,
deseja saber a nota média
do Enem para os alunos que
se candidatam para o curso
de medicina. E que estão
cursando a disciplina
Fundamentos de Morfologia.

www.datascienceacademy.com.br
Introdução

Métodos de Amostragem
Amostragem: é a técnica, processo ou a pesquisa que
podem ser realizadas para obter uma amostra.

www.datascienceacademy.com.br
Introdução
Amostragem

Amostragem Probabilística Amostragem Não-Probabilistica

Aleatória Simples Conveniência

Sistemática

Estratificada

Conglomerados

Reamostragem (Bootstrap)

www.datascienceacademy.com.br
Introdução
Amostragem probabilística é uma amostra em que todos os
membros da população tem chance de pertencer a amostra.

www.datascienceacademy.com.br
Introdução

Exemplo

www.datascienceacademy.com.br
Introdução

Amostragem Não Probabilística


A amostra em que a probabilidade de selecionar um membro
da população para a amostra, não é conhecida, é criada
através de amostragem não-probabilística.

www.datascienceacademy.com.br
Introdução
Pesquisa de internet, aquelas enquetes que você vê quando
acessa os mais diversos sites.

www.datascienceacademy.com.br
Introdução
As pessoas ficam impressionadas quando veem os números
nas pesquisas, normalmente respondidas por milhares de
pessoas (internautas).

www.datascienceacademy.com.br
Introdução

Exemplo

www.datascienceacademy.com.br
Introdução
Sem querer entrar em polêmicas aqui, talvez você se
lembre de uma pesquisa feita no site da FIFA alguns
anos atrás. Nela, o organizador perguntava: Quem foi o
melhor jogador de futebol do século?

www.datascienceacademy.com.br
Introdução
Na pesquisa feita pela
internet, Maradona foi
escolhido o melhor jogador
do século e Pelé ficou em
segundo. 1º

www.datascienceacademy.com.br
Introdução

Quando a pesquisa foi feita usando amostragem


probabilística (selecionando para a amostra técnicos,
jornalistas esportivos, ex-jogadores e profissionais do
futebol).

www.datascienceacademy.com.br
Introdução
Maradona ficou em quinto lugar e Pelé em primeiro.

1º 2º 3º
4º 5º
www.datascienceacademy.com.br
Introdução
A que se atribui tal diferença?

www.datascienceacademy.com.br
Introdução
Veja a pesquisa aqui:

https://pt.wikipedia.org/wiki/Melhor_Jogador_do_S%C3%A9culo_da_FIFA

www.datascienceacademy.com.br
Introdução

Não ter controle sobre a amostra, reduz muito a


confiabilidade dos resultados de análise.

www.datascienceacademy.com.br
Introdução

A amostragem é uma técnica fabulosa, que nos


permite obter informações sobre uma população
inteira, analisando apenas uma porção dos
dados.

www.datascienceacademy.com.br
Introdução
Valores que descrevem características da
Parâmetro população, como média e mediana da
população.

Estatística Valores calculados a partir da amostra,


como média e mediana da amostra.

www.datascienceacademy.com.br
Introdução

Erro de amostragem = x - 
Onde:

x = média da amostra
 = média da população

www.datascienceacademy.com.br
Introdução

Exemplo

www.datascienceacademy.com.br
Introdução
Em uma pesquisa eleitoral para senador foi divulgado o
resultado:
Pesquisa Eleitoral

10%
Senador A
47% Senador B
43%
Senador C

www.datascienceacademy.com.br
Introdução
Considerando uma margem de erro de 0.03 para mais ou
para menos:

Pesquisa Eleitoral

10%
Senador A
47% Senador B
43%
Senador C

www.datascienceacademy.com.br
Introdução
Pesquisa Eleitoral Senador A tem a proporção de
votos de 47%.
10%
Senador A
47%
43%
Senador B
Senador C
A proporção real fica entre:
0,47 + 0,03 = 50% ( para mais)
0,47 – 0,03 = 44% (para menos)

Portanto, a margem de erro é a distância entre o


valor populacional e o valor amostral.

www.datascienceacademy.com.br
Introdução

Estudos Estatísticos

www.datascienceacademy.com.br
Introdução

Há dois tipos de estudos estatísticos:

 Observacional
 Experimental

www.datascienceacademy.com.br
Introdução

Em um estudo de observação, os dados e as


características específicas são recolhidas e
observadas, entretanto, não há iniciativa de
modificar os estudos que estão sendo
realizados.

www.datascienceacademy.com.br
Introdução

Exemplo

www.datascienceacademy.com.br
Introdução
50 alunos receberam um formulário de avaliação
educacional.
o 25 alunos receberam a instrução de enviar a
resposta por e-mail.
o 25 alunos receberam a instrução de enviar a
resposta por carta sem identificação.

www.datascienceacademy.com.br
Introdução

Em um estudo experimental, cada indivíduo é


aleatoriamente atribuído a um grupo de
tratamento, em seguida, os dados e as
características específicas são observadas e
coletadas

www.datascienceacademy.com.br
Introdução
A Análise de Dados é o meio através do qual
utilizamos a estatística para apresentar e demonstrar
os resultados dos dados que foram avaliados.

www.datascienceacademy.com.br
Introdução
Estatística não tem sido usada apenas por técnicos, mas
também por gestores de todos os níveis.

Para onde se olha, se vê Estatística sendo aplicada, desde o


planejamento corporativo, até decisões simples do dia a dia.

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Análise Estatística de Dados

www.datascienceacademy.com.br
A matemática é o alfabeto que Deus usou para escrever o universo.

Galileu Galilei

www.datascienceacademy.com.br
Estatística Descritiva

www.datascienceacademy.com.br
Estatística Descritiva

É um conjunto de métodos estatísticos


utilizados para descrever as principais
características dos dados.

www.datascienceacademy.com.br
Estatística Descritiva
O principal propósito de métodos gráficos é
organizar e apresentar os dados de forma
gerencial e ágil.

www.datascienceacademy.com.br
Estatística Descritiva
A Estatística Descritiva tem por objetivo sumarizar e mostrar
os dados, de forma que se possa rapidamente obter uma visão
geral da informação que está sendo analisada.

www.datascienceacademy.com.br
Estatística Descritiva
Por meio da Estatística Descritiva entendemos melhor um
conjunto de dados através de suas características.
As três principais características são:

www.datascienceacademy.com.br
Estatística Descritiva

Um valor representativo do conjunto de dados. Ex.: uma


média

www.datascienceacademy.com.br
Estatística Descritiva

Uma medida de dispersão ou variação. Ex: Variância,


desvio padrão.

www.datascienceacademy.com.br
Estatística Descritiva

A natureza ou forma da distribuição dos dados: sino,


uniforme ou assimétrica

www.datascienceacademy.com.br
Estatística Descritiva

Visualização de dados

www.datascienceacademy.com.br
Estatística Descritiva
Um dos meios mais simples de descrever dados é
através de tabelas de frequência, que refletem as
observações feitas nos dados.

www.datascienceacademy.com.br
Estatística Descritiva
Número de tablets vendidos por dia Frequência
0 5
1 8
2 14
3 13
4 6
Exemplo de uma tabela de frequência

www.datascienceacademy.com.br
Estatística Descritiva
Cada linha em uma tabela de frequência corresponde a
uma classe.
Número de tablets vendidos por dia Frequência

0 5
1 8
2 14 Classe
3 13
4 6

www.datascienceacademy.com.br
Estatística Descritiva
Número de tablets vendidos por dia Frequência

0 5
1 8
2 14
Classe
3 13
4 6

Cada classe corresponde a uma categoria em uma


tabela de frequência.
www.datascienceacademy.com.br
Estatística Descritiva

Distribuição de Frequência

www.datascienceacademy.com.br
Distribuição de Frequência

Mostra o número de observações de dados que estão


em um intervalo específico.

www.datascienceacademy.com.br
Estatística Descritiva
Como construir uma Distribuição de Frequência?

www.datascienceacademy.com.br
Para construir uma tabela de Distribuição de Frequência nós precisamos:

1 Criar o Rol

2 Definir a Amplitude

3 Determinar o Número de Classes

4 Determinar o Tamanho do Intervalo de Classes

5 Fazer a Distribuição de Frequência

www.datascienceacademy.com.br
Estatística Descritiva

Exemplo

www.datascienceacademy.com.br
Fazer a Distribuição de Frequência das Notas de 30
alunos da Turma C, do Colégio BluSky.

www.datascienceacademy.com.br
Fazer a Distribuição
de Frequência das
Notas de 30 alunos
da Turma C, do
Colégio BluSky.

www.datascienceacademy.com.br
1 Criar o Rol é…

Colocar os números em uma ordem de grandeza crescente


ou decrescente. O rol representa o conjunto dos dados
organizados.

www.datascienceacademy.com.br
2 Definir a Amplitude é…

Estabelecer a diferença entre os valores extremos do


conjunto de dados.

Fórmula: At = Vmáx - Vmín


At = Amplitude Total
Onde: Vmáx = Maior Valor
Vmín = Menor Valor
www.datascienceacademy.com.br
Resposta: Amplitude Total é = 9

At = Vmáx - Vmín
At = 10,0 – 1,0 = 9

www.datascienceacademy.com.br
3 Determinar o Número de Classes é…

Definir a quantidade de intervalos de dados que iremos


trabalhar, ou seja, quantas linhas terão a tabela de
distribuição de frequência.
Para determinar o número de classes nós podemos
utilizar:
4 regras:

www.datascienceacademy.com.br
Resposta: O número de classe é = 6

K= nn

K= 30

K = 5,4772

Obs: Nesse caso arredondamos para 6, pois não é possível termos 5,4772 linhas

www.datascienceacademy.com.br
4 Determinar o Tamanho do Intervalo de Classe é…

Realizar a razão da Amplitude Total pelo número de classes.

At
Fórmula: h=
K
h= Tamanho do intervalo
Onde: At = Amplitude Total
K = Número de classes

www.datascienceacademy.com.br
Resposta: O tamanho do intervalo de classe é = 1,50

At
h=
K
9
h=
6
h = 1,50
www.datascienceacademy.com.br
5 Fazer a Distribuição de Frequência é…

Montar a sua Tabela de Distribuição de Frequência a partir dos


dados coletados selecionando o tipo de distribuição desejada.

Para tanto, vamos apresentar os 4 tipos de distribuição de


Frequência:

www.datascienceacademy.com.br
Vamos apresentar os 4 tipos de distribuição de
Frequência:

1 Distribuição de Frequência Simples ou Absoluta - fi

2 Distribuição de Frequência Relativa Simples - fri


3 Distribuição de Frequência Acumulada - Fi
4 Distribuição de Frequência Relativa Acumulada - Fri

www.datascienceacademy.com.br
5.1
Distribuição de Frequência Simples ou Absoluta - fi

São os valores que representam o número de dados de cada classe.


A soma das frequências simples é igual ao número total dos dados.

Fórmula: fi = n

www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Simples é = 30
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1
2.0 1
3.0 3
4.0 3 fi = n
5.0 6
6.0 2
7.0
8.0
5
3
fi = 30
9.0 3
10.0 3
Total 30
www.datascienceacademy.com.br
5.2
Distribuição de Frequência Relativa Simples - fri

Permite visualizar os valores das razões entre as Frequências Simples e


a Frequência Total.

fi
Fórmula:
fri =
fi

Sempre = 1 ou 100%

www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Relativa Simples
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0
2.0
1 1 / 30
1 1 / 30
3%
3%
fri = fi
3.0 3 3 / 30 10%
4.0 3 3 / 30 10% fi
5.0 6 6 / 30 20%
6.0 2 2 / 30 7%
7.0 5 5 / 30 17% 1
8.0
9.0
3 3 / 30
3 3 / 30
10%
10%
fri = 30
10.0 3 3 / 30 10%
Total 30 30 / 30 100%
www.datascienceacademy.com.br
5.3
Distribuição de Frequência Acumulada - Fi

Permite visualizar o total das Frequências de todos os valores inferiores


ao limite superior do intervalo de uma dada classe.

Fórmula:
Fk = f1 + f2 + … +
fk

www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Acumulada
Colegio BlueSky - Turma C
Notas fi fri Fi Fri
1.0 1 1 / 30 3% 1 Fk = f1 + f2 + … + fk
2.0 1 1 / 30 3% 2
3.0 3 3 / 30 10% 5
4.0 3 3 / 30 10% 8
5.0 6 6 / 30 20% 14
6.0 2 2 / 30 7% 16
7.0 5 5/ 30 17% 21
8.0 3 3 / 30 10% 24
9.0 3 3 / 30 10% 27
10.0 3 3 / 30 10% 30
Total 30 30 / 30 100%
www.datascienceacademy.com.br
5.4
Distribuição de Frequência Relativa Acumulada - Fri

Permite visualizar a frequência acumulada da classe, dividida pela


frequência total da distribuição.

Fi
Fórmula:
Fri =
fi

www.datascienceacademy.com.br
Resposta: Distribuição de Frequência Relativa Acumulada
Colegio BlueSky - Turma C
Notas fi fri Fi Fri Fi
1.0 1 1 / 30 3% 1 3% Fri =
2.0 1 1 / 30 3% 2 6% fi
3.0 3 3 / 30 10% 5 16%
4.0 3 3 / 30 10% 8 26%
5.0 6 6 / 30 20% 14 46% 14
6.0 2 2 / 30 7% 16 53% Fri =
7.0 5 5/ 30 17% 21 70% 30
8.0 3 3 / 30 10% 24 80% Obs: Posso
9.0 3 3 / 30 10% 27 90% demonstrar em %
10.0 3 3 / 30 10% 30 100% multiplicando por 100
Total 30 30 / 30 100%
www.datascienceacademy.com.br
Estatística Descritiva

Visualização de Dados

www.datascienceacademy.com.br
Nós já sabemos que Dados qualitativos descrevem
características dos dados, tais como sexo, nível de educação
ou cor dos olhos. Estes tipos de dados são tratados de forma
diferente dos dados quantitativos.

www.datascienceacademy.com.br
Quais as principais ferramentas e/ou elementos usadas para
visualização de dados qualitativos?

www.datascienceacademy.com.br
Quais as principais ferramentas e/ou elementos usadas para
visualização de dados qualitativos?

Tabela de Frequência Gráfico de Pizza Ramos e Folhas

Gráfico de Barras Gráfico de Linha Pontos de Dispersão

Gráfico de Pareto Tabela de Contingência Histograma

www.datascienceacademy.com.br
Gráfico de Barras

Grades Frequência
A 7
B 14
C 6
D 1
E 0
F 2

www.datascienceacademy.com.br
Frequência
16

14
14

12

Grades Frequência 10

A 7

Frequencia
B 14 8

C 6
7
D 1 6
6
E 0
F 2
4

2
2

1
0
A B C Grades de Notas D 0E F

www.datascienceacademy.com.br
Gráfico de Pareto
Frequencia
Frequência Frequência
Razões de Atraso de Voo Relativa
(fi) Relativa (fri)
Acumulada (Fri)
Mau Tempo 44 0.489 0.489
Tráfego Aéreo 18 0.200 0.689
Problemas Mecanicos 14 0.156 0.844
Tripulação Reduzida 7 0.078 0.922
Abastecimento 5 0.056 0.978
Outros 2 0.022 1.000
Total 90 1.000

www.datascienceacademy.com.br
Gráfico de Pareto
Frequencia
Razões de Atraso de Frequência Frequência
Relativa
Voo (fi) Relativa (fri)
Acumulada (Fri)
Mau Tempo 44 0.489 0.489
Tráfego Aéreo 18 0.200 0.689
Problemas Mecanicos 14 0.156 0.844
Tripulação Reduzida 7 0.078 0.922
Abastecimento 5 0.056 0.978
Outros 2 0.022 1.000
Total 90 1.000

www.datascienceacademy.com.br
Gráfico de Pizza
Número Computadores
Empresa
Vendidos
HPTP 4228
Dello 3996
Acert 2076
Applex 1135
Tosser 1005
Outros 2837
Total 15277

www.datascienceacademy.com.br
Gráfico de Pizza
Número Computadores Vendidos

HPTP
14%
Número Computadores
Empresa Dello
Vendidos 13%
Total
HPTP 4228 50%

Dello 3996 Acert


7%
Acert 2076 Applex
Applex 1135 Tosser 4%
Tosser 1005 3%
Outros
Outros 2837 9%

Total 15277

HPTP Dello Acert Applex Tosser Outros Total

www.datascienceacademy.com.br
Gráfico de Linhas
Faturamento Vendas
Ano
XPTO - Milhões de Reais

2004 8.5
2005 10.4
2006 12.5
2007 18.7
2008 11.4
2009 22.8
2010 21.4
2011 23.7
2012 24
2013 25
2014 28.6
2015 32.4
www.datascienceacademy.com.br
Gráfico de Linhas
Faturamento Vendas Faturamento de Vendas
Ano
XPTO - Milhões de Reais 2060

2004 8.5 2050


2005 10.4
2040
2006 12.5
2007 18.7 2030
2008 11.4
2020
2009 22.8
2010 21.4 2010
2011 23.7
2000
2012 24
2013 25 1990
2014 28.6
1980
2015 32.4 1 2 3 4 5 6 7 8 9 10 11 12

Ano Faturamento Vendas XPTO - Milhões de Reais

www.datascienceacademy.com.br
Tabela de Contingência
Cliente Sexo Condição de Pagamento

1 Feminino Dinheiro
2 Masculino Cartão
3 Masculino Dinheiro
4 Masculino Dinheiro
5 Feminino Cartão
6 Feminino Cartão
7 Masculino Dinheiro
8 Feminino Cartão
9 Masculino Cartão
10 Feminino Dinheiro
11 Masculino Cartão
12 Feminino Cartão
13 Masculino Dinheiro
14 Feminino Cartão
15 Feminino Dinheiro

www.datascienceacademy.com.br
Tabela de Contingência
Cliente Sexo Condição de Pagamento

1 Feminino Dinheiro
2 Masculino Cartão Soma de Cliente Rótulos de Coluna
3 Masculino Dinheiro Rótulos de Linha Cartão Dinheiro Total Geral
4 Masculino Dinheiro
5 Feminino Cartão Feminino 45 26 71
6 Feminino Cartão
7 Masculino Dinheiro Masculino 22 27 49
8 Feminino Cartão
Total Geral 67 53 120
9 Masculino Cartão
10 Feminino Dinheiro
11 Masculino Cartão
12 Feminino Cartão
13 Masculino Dinheiro
14 Feminino Cartão
15 Feminino Dinheiro

www.datascienceacademy.com.br
Gráfico de Dispersão
Tamanho da TV LED Preço da TV R$
46 2600
46 3980
32 1200
40 1480
26 970
32 1115
46 3400
46 5560
32 2400
40 1120
26 1130
32 1320
www.datascienceacademy.com.br
Gráfico de Dispersão
Tamanho da TV LED Preço da TV R$ Preço da TV R$
6000
46 2600
46 3980 5000
32 1200
40 1480 4000
26 970
3000
32 1115
46 3400
2000
46 5560
32 2400 1000
40 1120
26 1130 0
32 1320 0 5 10 15 20 25 30 35 40 45 50

www.datascienceacademy.com.br
Histograma
Pontuação
Frequência Frequência Relativa
Campeonato Frequência
Relativa Acumulada
Golf
275-279 5 0.083 0.083
280-284 17 0.283 0.367
285-289 21 0.350 0.717
290-294 13 0.217 0.933
295-299 3 0.050 0.983
300-304 1 0.017 1.000
Total 60 1.000

www.datascienceacademy.com.br
Histograma
Histograma
Pontuação Frequência Relativa
Frequência Frequência Relativa 25
Campeonato Golf Acumulada
20
275-279 5 0.083 0.083
280-284 17 0.283 0.367

Frequencia
15
285-289 21 0.350 0.717
290-294 13 0.217 0.933 10
295-299 3 0.050 0.983
5
300-304 1 0.017 1.000
Total 60 1.000 0
275-279 280-284 285-289 290-294 295-299 300-304
Pontuação

www.datascienceacademy.com.br
Histograma
Histograma
Pontuação Frequência Relativa
Frequência Frequência Relativa 25
Campeonato Golf Acumulada
20
275-279 5 0.083 0.083
280-284 17 0.283 0.367

Frequencia
15
285-289 21 0.350 0.717
290-294 13 0.217 0.933 10
295-299 3 0.050 0.983
5
300-304 1 0.017 1.000
Total 60 1.000 0
275-279 280-284 285-289 290-294 295-299 300-304
Pontuação

www.datascienceacademy.com.br
Histograma

Exemplo

www.datascienceacademy.com.br
Histograma
Considerando uma pesquisa realizada em 4 regiões do país
para identificar o número de Taxoplasmose congênita (doença
que pode ser fatal ou levar a cegueira, icterícia que é a pele
amarelada, convulsões ou retardo mental) em crianças de 0 a
12 anos de idade.

www.datascienceacademy.com.br
Histograma

www.datascienceacademy.com.br
Histograma

www.datascienceacademy.com.br
Histograma

www.datascienceacademy.com.br
Histograma

www.datascienceacademy.com.br
Caule e Folha
O Gráfico Caule e Folha, divide os dados em duas partes:
O caule (ramo): são os valores maiores e ficam à esquerda do
traço vertical.

www.datascienceacademy.com.br
Caule e Folha
As folhas são os menores valores, ficam à direita do traço
vertical. Listando todas folhas à direita de cada caule,
podemos graficamente descrever como os dados estão
distribuídos.

www.datascienceacademy.com.br
Caule e Folha
A beleza do Caule e folha é a simplicidade. Ele não requer um
software para ser construído, mostra cada um dos valores e
prove uma visão tipo histograma da distribuição dos dados.

www.datascienceacademy.com.br
Caule e Folha

Exemplo

www.datascienceacademy.com.br
Considerando essa tabela fictícia de notas de Exame, vamos
montar o gráfico de Caule e Folha:

Notas dos Exames


80 86 78 80 81 82 92 90
79 83 84 95 85 88 80 78
84 79 80 83 79 87 84 80

www.datascienceacademy.com.br
1º Passo
Ordenar os valores.

Notas dos Exames


78 78 79 79 79 80 80 80
80 81 81 82 83 83 84 84
84 85 86 87 88 90 92 95

www.datascienceacademy.com.br
2º Passo
Traçar a linha vertical

www.datascienceacademy.com.br
Notas dos Exames

3º Passo 78
80
78
81
79
81
79
82
79
83
80
83
80
84
80
84
84 85 86 87 88 90 92 95
Colocar os valores das dezenas

7
8
9

www.datascienceacademy.com.br
Notas dos Exames

4º Passo 78
80
78
81
79
81
79
82
79
83
80
83
80
84
80
84
84 85 86 87 88 90 92 95
Fazer a distribuição das unidades

7 8 8 9 9 9
8 0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8
9 0 2 5

www.datascienceacademy.com.br
Notas dos Exames
Gráfico Concluído 78
80
78
81
79 79 79 80
81 82 83 83
80
84
80
84
84 85 86 87 88 90 92 95

7 8 8 9 9 9
8 0 0 0 0 1 1 2 3 3 4 4 4 5 6 7 8
9 0 2 5

www.datascienceacademy.com.br
Você como um Analista de Dados deve ter os conceitos
de estatística em seu rol de conhecimentos e saber
utilizar as ferramentas adequadas para realizar o
trabalho de análise de Dados.

www.datascienceacademy.com.br
www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Medidas de Tendência Central e
Dispersão

www.datascienceacademy.com.br
Os números governam o mundo

Pitágoras

www.datascienceacademy.com.br
Média, Mediana, Desvio Padrão e Variância

São as principais medidas de tendência central


utilizadas em Análise Exploratória de Dados

www.datascienceacademy.com.br
Altura Idade Sexo
1
2
133
135
11
12
F
M
Análise
3
4
137
145
11
17
M
F
Exploratória
5
6
168
173
14
15
F
F de Dados
7 194 19 M
8 205 22 M
9 180 19 M
10 160 19 F
11 160 18 M
12 168 22 M
13 173 19 M
14 194 19 F
15 205 20 M

www.datascienceacademy.com.br
Estatística
Altura Idade Descritiva
Count 15 15
mean 169 17
std 24.22 3.68
min 133 11
25% 152.5 14.5
50% 168 19
75% 187 19
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205
Média = __________________________________________________________________
15

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

133 + 135+137+145+168+173+194+205+180+160+160+168+173+194+205
Média = __________________________________________________________________
15

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20
Média = __________________________________________________________________
15

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

11 + 12 + 11 + 17 + 14 + 15 + 19 + 22 + 22 + 19 + 19 + 18 + 22 + 19 + 19 + 20
Média = __________________________________________________________________
15

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

Desvio = 169-133 = 36

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

Desvio = 169-133 = 36

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

Desvio = 169-133 = 36
36 ^ 2 = 1296

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

Variância = Soma dos quadrados de todos os desvios / 15

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

Std = Raíz quadrada da Variância Variância

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 Q1= 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 133 1 133 11 F

Count 15 15 135 2
3
135
137
12
11
M
M
137
mean 169 17 145 4
5
145
168
17
14
F
F
160
std 24.22 3.68 160 6
7
173
194
15
19
F
M
168
min 133 11 168 8 205 22 M
173 9 180 19 M
25% 152.5 14.5 173 10 160 19 F
11 160 18 M
50% 168 19 180
194 12 168 22 M
13 173 19 M
75% 187 19 194
205 14 194 19 F
15 205 20 M
max 205 22 205

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6 173 15 F
7 194 19 M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

www.datascienceacademy.com.br
Altura Idade Sexo
Altura Idade 1 133 11 F

Count 15 15 2
3
135
137
12
11
M
M
mean 169 17 4
5
145
168
17
14
F
F
std 24.22 3.68 6
7
173
194
15
19
F
M
min 133 11 8 205 22 M
9 180 19 M
25% 152.5 14.5 10 160 19 F
11 160 18 M
50% 168 19 12 168 22 M
13 173 19 M
75% 187 19 14 194 19 F
15 205 20 M
max 205 22

Mode = 160 e 19

www.datascienceacademy.com.br
Sem dúvida, médias são as formas mais simples de
identificar tendências em um conjunto de dados.
Entretanto, médias podem trazer armadilhas que levam
a conclusões distorcidas.

www.datascienceacademy.com.br
O que usar? Vantagens Desvantagens
 Relativamente fácil de  Pode ser muito afetada por
Média calcular valores extremos
 Fácil de compreender seu
significado
 Não é afetada por valores  Requer mais esforço para
Mediana extremos ser determinada que a
Média
 Pode ser usada com dados  Pode não existir em um
Moda descritivos conjunto de dados
 Pode não ser única (pode
existir mais de uma moda)

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Medidas de Forma

www.datascienceacademy.com.br
Você quer ficar o resto da sua vida vendendo água com açúcar ou
você quer uma chance de mudar o mundo?

Steve Jobs

www.datascienceacademy.com.br
Medidas de Forma

As medidas de assimetria (skewness) e curtose (kurtosis)


caracterizam a forma da distribuição de elementos da população
amostrados em torno da média.

www.datascienceacademy.com.br
Medidas de Assimetria

www.datascienceacademy.com.br
Medidas de Assimetria

Distribuição Assimétrica Distribuição Assimétrica


Distribuição Simétrica
Positiva ou à direita Negativa ou à esquerda

www.datascienceacademy.com.br
Medidas de Curtose

www.datascienceacademy.com.br
Medidas de Curtose

Mesocúrtica

www.datascienceacademy.com.br
Medidas de Curtose

Platicúrtica

www.datascienceacademy.com.br
Medidas de Curtose

Leptocúrtica

www.datascienceacademy.com.br
Coeficiente de Curtose

Se k = 0,263 – curva mesocúrtica


Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica

www.datascienceacademy.com.br
Coeficiente de Curtose

Se k = 0,263 – curva mesocúrtica


Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica

www.datascienceacademy.com.br
Coeficiente de Curtose

Se k = 0,263 – curva mesocúrtica


Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica

www.datascienceacademy.com.br
Coeficiente de Curtose

Se k = 0,263 – curva mesocúrtica


Se k > 0,263 – curva platicúrtica
Se k < 0,263 – curva leptocúrtica

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Aquilo a que chamamos acaso não é, não pode deixar de ser, senão a
causa ignorada de um efeito conhecido.

Voltaire

www.datascienceacademy.com.br
Introdução à Probabilidade

Blaise Pascal Pierre de Fermat

Carl Friedrich Gauss

Lenis Poisson
www.datascienceacademy.com.br
Introdução à Probabilidade
A probabilidade
é uma medida matemática do acaso

www.datascienceacademy.com.br
Introdução à Probabilidade
Probabilidade é um valor numérico que indica a chance, ou
probabilidade, de um evento específico ocorrer. Este valor
numérico vai estar entre 0 e 1 .

Se um evento não possui chance de ocorrer, sua probabilidade


é 0 (ou 0%) .

Se temos certeza sobre a ocorrência do evento, sua


probabilidade é 1 (ou 100%).

www.datascienceacademy.com.br
Introdução à Probabilidade
Evento – um ou mais resultados de um experimento.

O resultado e/ou resultados são um subconjunto do espaço da


amostra.

www.datascienceacademy.com.br
Introdução à Probabilidade
Probabilidade Clássica : é usada quando nós sabemos o número
de possíveis resultados do evento de interesse e podemos
calcular a probabilidade do evento com a seguinte fórmula:

P(A) = Número de possíveis resultados do evento A


Número total de possíveis resultados dentro do
espaço da amostra

Onde: P(A) é a probabilidade de um evento ocorrer.

www.datascienceacademy.com.br
Introdução à Probabilidade
A Probabilidade Empírica, envolve conduzirmos um
experimento, para observarmos a frequência com que um
evento ocorre.
Para calcularmos a probabilidade empírica, usamos a fórmula:

P(A) = Frequência em que o evento A ocorre


Número total de observações

www.datascienceacademy.com.br
Introdução à Probabilidade
Usamos Probabilidade Subjetiva, quando:

Dados ou experimentos não estão disponíveis para calcular a


probabilidade.

www.datascienceacademy.com.br
Introdução à Probabilidade

1ª Regra

Se P(A) = 1, então podemos garantir que o evento A ocorrerá.

www.datascienceacademy.com.br
Introdução à Probabilidade

2ª Regra

Se P(A) = 0, então podemos garantir que o evento A NÃO ocorrerá.

www.datascienceacademy.com.br
Introdução à Probabilidade
3ª Regra

A probabilidade de qualquer evento sempre será entre 0 e 1.


Probabilidades nunca podem ser negativas ou maior que 1.

www.datascienceacademy.com.br
Introdução à Probabilidade

4ª Regra
A soma de todas as probabilidades para um evento simples, em um
espaço de amostra, será igual a 1.

www.datascienceacademy.com.br
Introdução à Probabilidade
5ª Regra

O complemento do evento A é definido como todos os resultados em


um espaço de amostra, que não fazem parte do evento A. Ou seja:

P(A) = 1 – P(A’), onde P(A’) é o complemento do evento A.

www.datascienceacademy.com.br
Introdução à Probabilidade

Tabela de Contingência

www.datascienceacademy.com.br
Introdução à Probabilidade
As Tabelas de Contingência são os meios de organizar as
informações correspondentes aos dados classificados segundo
dois critérios.

www.datascienceacademy.com.br
Introdução à Probabilidade

As Tabelas de Contingência permitem representar os


dados quer sejam eles qualitativos ou quantitativos.

www.datascienceacademy.com.br
Introdução à Probabilidade

Nas Tabelas de Contingência podemos ter os dados


das linhas representados por um critério e os dados
das colunas representados por outro critério
totalmente diferente.

www.datascienceacademy.com.br
Introdução à Probabilidade
Nós usamos Tabela de Contingência para comparar 2
variáveis.

www.datascienceacademy.com.br
Introdução à Probabilidade

As Tabelas de Contingência, são muito utilizadas com


probabilidades.

www.datascienceacademy.com.br
Introdução à Probabilidade

Exemplo

www.datascienceacademy.com.br
Introdução à Probabilidade
Tabela de Contingência

Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado
Masculino (M) 200 250 650 740 150 40 15 2045
Feminino (F) 310 560 800 900 270 80 35 2955
Total 510 810 1450 1640 420 120 50 5000

www.datascienceacademy.com.br
Introdução à Probabilidade
Dessa Tabela de Contingência nós podemos tirar as
seguintes conclusões:

www.datascienceacademy.com.br
Introdução à Probabilidade

1ª Conclusão: O número de homens que concluíram o


mestrado é de 40.
Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado

Masculino (M) 200 250 650 740 150 40 15 2045


Feminino (F) 310 560 800 900 270 80 35 2955

www.datascienceacademy.com.br
Introdução à Probabilidade

2ª Conclusão: A probabilidade de Homens que concluem o


doutorado é de apenas 1%.
Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado

Masculino (M) 200 250 650 740 150 40 15 2045


Feminino (F) 310 560 800 900 270 80 35 2955

www.datascienceacademy.com.br
Introdução à Probabilidade
3ª Conclusão: O número de mulheres com curso superior
completo é de 900.
Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado

Masculino (M) 200 250 650 740 150 40 15 2045


Feminino (F) 310 560 800 900 270 80 35 2955

www.datascienceacademy.com.br
Introdução à Probabilidade
4ª Conclusão: o percentual de mulheres que concluem o 2º
grau é de 69%, enquanto que o percentual de homens que
concluem o 2º grau é de somente 31%.
Grau de Instrução
Sexo 3o Grau 3o Grau Pós- Total
1o Grau 2o Grau Incompleto Completo Graduação Mestrado Doutorado

Masculino (M) 200 250 650 740 150 40 15 2045


Feminino (F) 310 560 800 900 270 80 35 2955

www.datascienceacademy.com.br
Introdução à Probabilidade

Ou seja, para essa amostra de estudantes, um


Analista de dados pode tirar n conclusões e utilizá-las
para realizar diversos cálculos e estruturar sua
pesquisa para alcançar os seus objetivos finais.

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
A Matemática apresenta invenções tão sutis que poderão servir não só
para satisfazer os curiosos, como também para auxiliar as artes e
poupar trabalho aos homens.

Descartes

www.datascienceacademy.com.br
Introdução à Probabilidade

Árvore de Decisão

www.datascienceacademy.com.br
Árvore de Decisão é um instrumento de apoio à
tomada de decisão que consiste em uma representação
gráfica das alternativas disponíveis, geradas a partir de
uma decisão inicial.

www.datascienceacademy.com.br
Árvore de Decisão é um instrumento de apoio à tomada de
decisão que consiste em uma representação gráfica das
alternativas disponíveis, geradas a partir de uma decisão inicial.
Analista de Dados?

Está Estudando
Excelente Salário
Estatística?

Está Pensando em Conseguirá uma


Estudar? Colocação no Mercado

Vai Perder uma Grande


Oportunidade Parabéns!!!
www.datascienceacademy.com.br
Introdução à Probabilidade
Uma das grandes vantagens da Árvore de Decisão é a
possibilidade de transformação/decomposição de um
problema complexo em diversos subproblemas mais simples.

www.datascienceacademy.com.br
Introdução à Probabilidade
Para efetuar a representação gráfica da Árvore de Decisão são
geralmente usadas linhas para identificar a decisão (por
exemplo "sim" ou "não") e nós para identificar as questões
sobre as quais se deve decidir.

www.datascienceacademy.com.br
Introdução à Probabilidade

Cada um dos ramos formado por linhas e nós termina numa


espécie de folha que identifica a consequência mais provável
da sequência de decisões tomadas.

www.datascienceacademy.com.br
Introdução à Probabilidade
Além da gestão, Árvores de Decisão são também muito
utilizadas em outras áreas, com especial destaque para a
criação de algorítmos de computação e análise de dados.

www.datascienceacademy.com.br
Introdução à Probabilidade

Exemplo

www.datascienceacademy.com.br
Introdução à Probabilidade

www.datascienceacademy.com.br
Introdução à Probabilidade

Árvores de Decisão são similares a regras Se-então. Que é uma


estrutura muito usada na implementação de sistemas de
computação e em problemas de classificação.

www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão são similares a regras Se-então. Que é uma
estrutura muito usada na implementação de sistemas de
computação e em problemas de classificação.

www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão tomam como entrada uma situação
descrita por um conjunto de atributos e retorna uma decisão,
que é o valor previsto para o valor de entrada.

www.datascienceacademy.com.br
Introdução à Probabilidade
Árvores de Decisão também são muito usadas em aprendizado
de máquina (Machine Learning), onde computadores são
programados para tomar decisão baseados em respostas aos
eventos.

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Uma verdade matemática não é simples nem complicada por si mesma.
É uma verdade.

Emile Lemoine

www.datascienceacademy.com.br
Introdução à Probabilidade

Análise Combinatória

www.datascienceacademy.com.br
Introdução à Probabilidade
As principais ferramentas da Análise Combinatória são:

Permutação

Arranjo

Combinação

www.datascienceacademy.com.br
Introdução à Probabilidade
Qual delas utilizar para resolver um problema específico?

www.datascienceacademy.com.br
Introdução à Probabilidade

Permutação

www.datascienceacademy.com.br
Introdução à Probabilidade

Uma permutação de n elementos distintos é um agrupamento


ordenado desses elementos.

www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Permutação=

Pn = n!

www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Permutação – Quando Usar?

www.datascienceacademy.com.br
Introdução à Probabilidade
Você deve usar a Fórmula Permutação quando você quiser
contar quantas possibilidades existem de se organizar um
número de objetos de forma distinta.

www.datascienceacademy.com.br
Introdução à Probabilidade

Exemplo

www.datascienceacademy.com.br
Introdução à Probabilidade

Qual o número de anagramas da palavra FORÇA?

www.datascienceacademy.com.br
Introdução à Probabilidade
O número de anagramas da palavra FORÇA é uma permutação
de 5 elementos, calculada através de:

5! = 5 x 4 x 3 x 2 x 1 = 120.

www.datascienceacademy.com.br
Introdução à Probabilidade
O número de anagramas da palavra FORÇA é uma permutação
de 5 elementos, calculada através de:

5! = 5 x 4 x 3 x 2 x 1 = 120.

Uma vez que, para a primeira posição você pode colocar


5 letras. Para a segunda, restaram 4, para a terceira, 3 e
assim por diante.

www.datascienceacademy.com.br
Introdução à Probabilidade

Qual o número de filas que podem ser formadas com 15


pessoas?

www.datascienceacademy.com.br
Introdução à Probabilidade
O número de filas que podem ser formadas com 15 pessoas é
15! (15 fatorial), calculada através de:

15! = 15 x 14 x 13 x 12 x 11x...1

Pois, para o primeiro lugar da fila temos 15 possibilidades, para


o segundo 14 e assim por diante...

www.datascienceacademy.com.br
Introdução à Probabilidade

Arranjo

www.datascienceacademy.com.br
Introdução à Probabilidade
Um arranjo de n elementos dispostos p a p, com p menor ou
igual a n, é uma escolha de p entre esses n objetos na qual a
ordem importa.

www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Arranjo =

www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula Arranjo – Quando Usar?

www.datascienceacademy.com.br
Introdução à Probabilidade
Devemos usar o arranjo quando o que importa é a ordem dos
elementos.

www.datascienceacademy.com.br
Introdução à Probabilidade

Exemplo

www.datascienceacademy.com.br
Introdução à Probabilidade
Em uma competição de 20 jogadores, quantas são as
possibilidades de se formar um pódio com os três primeiros
lugares?

www.datascienceacademy.com.br
Introdução à Probabilidade
Note que, neste problema, queremos dispor 20 jogadores em 3
lugares, onde a ordem importa, afinal o pódio formado por
Marcelo, por Josias e por Damião não é o mesmo formado por
Damião, por Marcelo e por Josias.

www.datascienceacademy.com.br
Introdução à Probabilidade
Outro exemplo é o número de possibilidades de se formar
uma foto com n pessoas.

www.datascienceacademy.com.br
Introdução à Probabilidade
Perceba que as permutações nada mais são do que casos
particulares de arranjos onde n = p.

www.datascienceacademy.com.br
Introdução à Probabilidade

Combinação

www.datascienceacademy.com.br
Introdução à Probabilidade

As Combinações de n elementos tomados p a p são escolhas


não ordenadas desses elementos.

www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula da Combinação =

www.datascienceacademy.com.br
Introdução à Probabilidade
Fórmula da Combinação – Quando Usar?

www.datascienceacademy.com.br
Introdução à Probabilidade
Devemos usar a combinação quando o importante do
resultado deva ser a natureza, ou seja, os elementos devem
ser diferentes.

www.datascienceacademy.com.br
Introdução à Probabilidade

Exemplo

www.datascienceacademy.com.br
Introdução à Probabilidade
Como formar uma comissão de 3 pessoas escolhidas entre 10
pessoas?

www.datascienceacademy.com.br
Introdução à Probabilidade
Diferentemente do pódio do exemplo anterior, uma comissão
formada por Mauro, por Joana e por Paula é a mesma
comissão formada por Joana, por Paula por Mauro.

www.datascienceacademy.com.br
Introdução à Probabilidade
Se desejarmos saber quantas duplas podemos fazer com 7
jogadores de vôlei, usaremos a combinação, uma vez que, o
importante é a natureza, ou seja os jogadores devem ser
diferentes, pois a dupla Marcelo e Tedy é a mesma que Tedy e
Marcelo.

www.datascienceacademy.com.br
Introdução à Probabilidade
Trabalhar como um Analista de dados, requer tomar
decisões probabilísticas, avaliar riscos e manipular
números.

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Distribuição de Probabilidade

www.datascienceacademy.com.br
É claro que meus filhos terão computadores, mas antes terão livros.

Bill Gates

www.datascienceacademy.com.br
Em estatística, uma Distribuição de Probabilidade descreve a
chance que uma variável (discreta ou contínua) pode assumir
ao longo de um espaço de valores.

www.datascienceacademy.com.br
Variáveis Aleatórias

www.datascienceacademy.com.br
Variáveis Aleatórias

Discreta Contínua

www.datascienceacademy.com.br
Distribuição de Probabilidade
Tipos de Distribuição
de Probabilidade

Distribuição Distribuição
Discreta Contínua

Binomial Normal

Poisson Uniforme

Bernoulli Exponencial

Geométrica Gama

Hipergeométrica tStudent

www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta

Distribuição Binomial

www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta

A Distribuição Binomial é utilizada para descrever


cenários em que os resultados de uma variável
aleatória podem ser agrupados em duas categorias.

www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta

No geral, as duas categorias de uma distribuição


binomial são classificadas como:
Sucesso
Falha

www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta

Portanto, a probabilidade de sucesso podemos


chamar de p.

E, a probabilidade de falha vamos chamar de q.

www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta
Ou seja:
p=1–q
Onde:
p = probabilidade de sucesso
q = probabilidade de fracasso

www.datascienceacademy.com.br
Distribuição Binomial
São realizadas n repetições no experimento, onde n é
uma constante.

Só existem dois resultados possíveis em cadas


repetição, Sucesso e Falha.

A probabilidade de sucesso e a de falha permanencem


constantes em todas as repetições.

Todas as repetições são independentes. Os resultados


não são influenciados por resultados externos.

www.datascienceacademy.com.br
Distribuição Binomial
Os parâmetros da Distribuição
Binominal são n e p.
A Média de uma Distribuição Binomial,
representa a média de longo prazo de
sucessos esperados, baseado no
número de observações.
Fórmula:
Média = = n.P

Onde: n = número de tentativas


p = probabilidade de sucesso

www.datascienceacademy.com.br
Distribuição Binomial
A Variância de uma Distribuição
Binomial, representa a variação que
existe no número de sucessos (p) sobre
um número (n) de observações.
Fórmula:
Variância = 2 = (n.p).(1-p)

Onde: n = número de tentativas


p = probabilidade de sucesso

www.datascienceacademy.com.br
Distribuição Binomial

Exemplo

www.datascienceacademy.com.br
Distribuição Binomial
Numa fábrica de HD (Discos Rígidos) de computador, um
engenheiro extrai uma amostra de HD para cada 15 HD’s
aleatoriamente fabricados.
Sabendo que 85% dos HD’s são aceitáveis.
Qual a probabilidade de que 10 HD’s extraídos sejam
aceitáveis?

www.datascienceacademy.com.br
Distribuição Binomial

p= 1 – q
p = 0,85% (probabilidade de sucesso) 0,85 = 1 – q
q = 0,15% (probabilidade de fracasso) q = 0,15
x = 10
n = 15 (amostra extraída)

www.datascienceacademy.com.br
Distribuição Binomial
Fórmula da Função binomial

P (x) = 4,5%

www.datascienceacademy.com.br
Distribuição Binomial

E = 10 x 0.27
E = 2,70

www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta

Distribuição Poisson

www.datascienceacademy.com.br
Distribuição Poisson
A Distribuição Poisson é utilizada para descrever
cenários onde existe a probabilidade de ocorrência de
um intervalo contínuo.

www.datascienceacademy.com.br
Distribuição Poisson
O número de ocorrências dependem do tamanho do
intervalo.

As ocorrências não interferem sobre as ocorrências de


intervalos externos.

A probabilidade de duas ou mais ocorrências


acontecerem num mesmo intervalo de tempo é muito
pequena.

www.datascienceacademy.com.br
Distribuição Poisson
O único parâmetro da
Distribuição Poisson é
chamado λ (lambda),
que representa a taxa
de eventos por
unidade.

www.datascienceacademy.com.br
Distribuição Poisson

www.datascienceacademy.com.br
Distribuição Poisson

Exemplo

www.datascienceacademy.com.br
Distribuição Poisson

Um consultório médico recebe 5 pacientes por hora.


Qual a probabilidade de receber 2 pacientes numa
hora aleatória?

www.datascienceacademy.com.br
Distribuição Poisson

X=2
λ=5

www.datascienceacademy.com.br
Distribuição Poisson

X=2
λ=5

P= 8,42%

www.datascienceacademy.com.br
Distribuição de Probabilidade Discreta

Distribuição Hipergeométrica

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Um dos pontos chave das Distribuições Binomial e


Poisson é que os eventos são independentes uns dos
outros.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Cada amostra de cada experimento é um conjunto novo
de dados.

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Desta forma, a probabilidade de sucesso ou de


número de ocorrências, se mantém constante.

www.datascienceacademy.com.br
A Distribuição Hipergeométrica é uma distribuição de
probabilidade discreta que descreve o número de
sucesso numa sequência de n extrações de uma
população finita, ou seja, sem reposição.

www.datascienceacademy.com.br
A Distribuição Hipergeométrica é usada quando as
amostras são colhidas de uma população finita sem ser
substituída.

www.datascienceacademy.com.br
Quando a amostragem é sem substituição, a
probabilidade de sucesso muda durante o processo de
amostragem, isso viola os requisitos para uma
distribuição de probabilidade binomial.

Então, nesse caso use a Distribuição Hipergeométrica.

www.datascienceacademy.com.br
Fórmula da Distribuição Hipergeométrica

Cn - x × R C x
P( x) = N -R

N Cn
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra
x = Número de sucessos da amostra

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Exemplo

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Considerando um comércio onde 5 de 50 contas estão


inadimplentes. Se um auditor seleciona aleatoriamente
10 contas sem substituição, qual é a probabilidade de
que pelo menos uma conta possa ser inadimplente?

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Precisamos encontrar:

P(x ≥ 1) = 1 – P(x = 0)

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Considerando um comércio onde 5 de 50 contas estão
inadimplentes. Se um auditor seleciona aleatoriamente 10
Usamos: contas sem substituição, qual é a probabilidade de que pelo
menos uma conta possa ser inadimplente?

N = 50 = Tamanho da população
R = 5 = O número de sucessos da população
n = 10 = Tamanho da Amostra
x = 0 = Número de sucessos da amostra

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Fórmula:
Cn - x × R C x
P( x) = N -R Sendo:
N Cn P(0) = 0.31,
C10 - 0 ×5 C0 C10 ×5 C0 P(x ≥ 1) = 1 – P(x = 0)
P (0) = 50 - 5
= 45
= 1 – 0.31
50 C10 50 C10
= 0.69
45! 5!
×
(45 - 10)! (10)! (5 - 0)! (0)!
= = 0.31
50!
(50 - 10)! (10)!

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Sendo:
P(0) = 0.31,
P(x ≥ 1) = 1 – P(x = 0)
= 1 – 0.31
= 0.69
Assim, a probabilidade de que pelo menos uma conta inadimplente
será encontrada numa amostra de dez contas é de 69%.

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Assim como as outras distribuições, a Distribuição


Hipergeométrica também possui média e desvio
padrão.

www.datascienceacademy.com.br
Fórmula para Média da Distribuição Hipergeométrica

nR
m=
N
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra

www.datascienceacademy.com.br
Fórmula para Desvio Padrão da Distribuição
Hipergeométrica

nR( N - R) N - n
s=
N 2
N -1
onde:
N = Tamanho da população
R = O número de sucessos da população
n = Tamanho da Amostra

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Exemplo I

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Para o exemplo da conta inadimplente: A média da


Distribuição Hipergeométrica é

nR (10)(5)
m= = = 1.0
N 50
www.datascienceacademy.com.br
Distribuição Hipergeométrica
nR (10)(5)
m= = = 1.0
N 50

A média é de 1,0: 10% da população é inadimplente


(5 de 50) então, nós esperamos que 10% da amostra
seja inadimplente (1 de 10).

www.datascienceacademy.com.br
Para o exemplo da conta inadimplente: O Desvio
Padrão da Distribuição Hipergeométrica é
nR ( N - R) N - n (10)(5)(50 - 5) 50 - 10
s = =
N 2
N -1 (50)2 50 - 1

= 0.9 0.8163 = (0.9487)(0.9035) = 0.8571

σ = 0,8571 representa a variação que esperamos ver


no número de contas inadimplentes encontrados em
uma amostra de dez contas.

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Exemplo II

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Imagine uma rede de supermercados que possuem 22
funcionários, sendo que 8 possuem idade superior a 55
anos (vamos nos referir aos funcionários com mais de 55
anos como “funcionários antigos” para diferenciar do
outro grupo, que chamaremos de “funcionários novos”)

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Devido a uma recente crise econômica, o supermercado
decide demitir 7 funcionários, destes, 5 são funcionários
antigos.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Se os funcionários foram demitidos randomicamente,
qual a probabilidade de eles serem funcionários
antigos?

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Esta informação seria útil para advogados tentando
identificar se houve ou não discriminação na escolha dos
funcionários a serem demitidos.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Vamos definir como sucesso, um funcionário antigo ser
selecionando randomicamente para demissão.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Este é um exemplo claro de uma amostra de uma
população finita, cuja variável não pode ser reposta, pois
uma vez que um funcionário foi selecionado para
demissão, ele não poderá ser selecionado novamente.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Consequentemente, a probabilidade de funcionários
antigos serem selecionados para demissão, muda a
cada seleção.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Evento A = randomicamente selecionar funcionários
antigos para demissão:

P(A) = 8 / 22

P(A) = 0.364

www.datascienceacademy.com.br
Distribuição Hipergeométrica

Entretanto, a probabilidade não é constante neste


processo.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Vamos supor que o primeiro funcionário selecionado
para demissão foi um funcionário antigo.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Qual a probabilidade que o próximo selecionado também
seja funcionário antigo?

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Perceba que o número de funcionários antigos diminuiu
de 8 para 7, pois um já foi selecionado. Desta forma:

P(A) = 7 / 21 = 0.333

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Perceba que a Probabilidade de Sucesso em nosso
exemplo muda, durante o processo de amostragem.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Isso viola uma das regras da Distribuição Binomial e
por isso ela não poderia ser usada neste caso.

www.datascienceacademy.com.br
Distribuição Hipergeométrica
E qual a regra de Distribuição que devemos usar nesse
caso?

www.datascienceacademy.com.br
Distribuição Hipergeométrica
Muito bem!!!

Usamos a regra de Distribuição


Hipergeométrica.

www.datascienceacademy.com.br
Distribuição de Probabilidade Continua

www.datascienceacademy.com.br
Distribuição de Probabilidade Continua

Distribuição Normal

www.datascienceacademy.com.br
Distribuição Normal

www.datascienceacademy.com.br
A Distribuição Normal é útil quando os dados tendem a
estar próximos ao centro da distribuição (próximos da
média) e quando valores extremos (outliers) são muito
raros.

www.datascienceacademy.com.br
Distribuição de Probabilidade Continua

Distribuição Uniforme

www.datascienceacademy.com.br
A Distribuição Uniforme é usada para descrever os
dados quando todos os valores têm a mesma chance de
ocorrer.

www.datascienceacademy.com.br
Distribuição de Probabilidade Continua

Distribuição Exponencial

www.datascienceacademy.com.br
A Distribuição Exponencial é usada para descrever os
dados quando valores mais baixos tendem a dominar a
distribuição e quando valores muito altos não ocorrem
com frequência .

www.datascienceacademy.com.br
Distribuição de Probabilidade Continua

Distribuição t de Student

www.datascienceacademy.com.br
A Distribuição t de Student é uma das principais
distribuições de probabilidade, com inúmeras aplicações
em inferência estatística.

www.datascienceacademy.com.br
Resumindo

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Quando achamos a matemática e a física teórica muito
difíceis, voltamo-nos para o misticismo.

Stephen Hawking

www.datascienceacademy.com.br
Teorema do Limite Central

www.datascienceacademy.com.br
Teorema do Limite Central
Teorema do Limite Central – é fundamental para a estatística,
uma vez que diversos procedimentos estatísticos comuns
requerem que os dados sejam aproximadamente normais e o
Teorema do Limite Central permite aplicar esses
procedimentos úteis a população que são fortemente não-
normais.

www.datascienceacademy.com.br
Teorema do Limite Central
Esse teorema possibilita medir o quanto sua média amostral
irá variar, sem ter que pegar outra média amostral para fazer
a comparação. Ou seja, permite-nos conduzir alguns
procedimentos de inferência sem ter qualquer conhecimento
de distribuição da população.

www.datascienceacademy.com.br
Teorema do Limite Central
Esse teorema basicamente diz que sua média amostral tem
uma distribuição normal, independente da aparência da
distribuição dos dados originais.

www.datascienceacademy.com.br
Teorema do Limite Central

O formato da Distribuição de Frequência está relacionado a


concentração de valores no intervalo de variação da variável.

www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
O formato da Distribuição de Frequência está relacionado a
concentração de valores no intervalo de variação da variável.
Mudanças de uma medida de variação provocam alterações
no aspecto visual do gráfico de Distribuição de Frequencia .

O formato de uma distribuição de frequência está relacionado


aos conceitos de Simetria e Curtose.

www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Simetria indica que o formato de distribuição é o mesmo à
esquerda e a direita do eixo de um gráfico.

www.datascienceacademy.com.br
Numa distribuição simétrica a média é o ponto de simetria.

Dessa forma, os valores do intervalo serão os mesmos à


direita e à esquerda.

média

www.datascienceacademy.com.br
Numa distribuição Unimodal a Simetria implica que a média,
mediana e moda são coincidentes, ou estejam muito
próximas.

Média=moda=mediana

www.datascienceacademy.com.br
Muitos procedimentos pressupõem que uma Distribuição
Normal é uma Distribuição Simétrica.

www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Assimetria indica variação no formato de distribuição.

Assimetria Positiva - Implica em uma


concentração maior de valores menores, e o
gráfico possuirá uma cauda mais longa à
direita.

Distribuição Assimétrica
Positiva :

www.datascienceacademy.com.br
Formatos de Distribuição de Frequência
Assimetria indica variação no formato de distribuição.

Assimetria Negativa - implica em uma


concentração de valores maiores, e o gráfico
possuirá uma cauda maior à esquerda.

Distribuição Assimétrica
Negativa

www.datascienceacademy.com.br
Curtose vem da palavra grega, Kurtos, que significa Curvatura. Esse
termo está relacionado com o grau de concentração das
observações no centro e nas caudas de distribuição dos gráficos. Ou
seja, o grau de achatamento da curva.

www.datascienceacademy.com.br
Classificação da Curtose

Mesocúrtica: quando a concentração das


observações ocorre da mesma forma que na
Distribuição normal.

Leptocúrtica: Ocorre quando há alta concentração de


valores no centro e na cauda

Platicúrtica: Ocorre quando a concentração


no centro é baixa, tornando a distribuição
mais achatada que a distribuição normal.
www.datascienceacademy.com.br
Teorema do Limite Central

Distribuição Normal

www.datascienceacademy.com.br
Distribuição Normal
Os valores de grandes conjuntos de dados,
normalmente se localizam ao redor da média ou da
mediana.

Desta forma, um histograma dos dados, mostraria


uma curva simétrica bem definida (em forma de sino).

www.datascienceacademy.com.br
Distribuição Normal
Em uma distribuição normal de dados, simétrica, nós
podemos esperar que 68%, 95% e 99.7% dos valores estarão
em, respectivamente, 1, 2 e 3 desvios padrões acima e abaixo
da média.

www.datascienceacademy.com.br
Distribuição Normal

Ou seja, em uma curva simétrica dos dados, praticamente


todos os dados estarão em até 3 desvios padrões do centro
dos dados (média).

www.datascienceacademy.com.br
Distribuição Normal
Perceba que este conceito somente se aplica, quando os
dados criam um histograma simétrico.

www.datascienceacademy.com.br
Distribuição Normal
A Distribuição Normal também é utilizada para ajudar a medir a
precisão de muitas estatísticas, incluindo a média, por meio da
utilização de um importante resultado em estatística como o
Teorema do Limite Central.

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Amostragem

www.datascienceacademy.com.br
A Matemática não mente. Mente quem faz mau uso dela

Albert Einstein

www.datascienceacademy.com.br
Populações
Finitas x Infinitas

www.datascienceacademy.com.br
Amostragem

www.datascienceacademy.com.br
Principais Técnicas de Amostragem

www.datascienceacademy.com.br
Amostragem Probabilística ou Aleatória

www.datascienceacademy.com.br
Principais Técnicas de Amostragem Probabilística

• Amostragem Aleatória Simples


• Amostragem Aleatória Simples sem reposição
• Amostragem Aleatória Simples com reposição

www.datascienceacademy.com.br
Amostragem Sistemática

www.datascienceacademy.com.br
Amostragem Estratificada

www.datascienceacademy.com.br
Amostragem Por Conglomerados

www.datascienceacademy.com.br
Resumindo

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Devemos investigar e aceitar os resultados. Se não resistirem a estes
testes, até as palavras de Buda devem ser rejeitadas.

Dalai Lama

www.datascienceacademy.com.br
Teste de Hipótese

www.datascienceacademy.com.br
Teste de Hipótese
Um Teste de Hipótese Estatística é um procedimento de
decisão que nos possibilita decidir entre Ho (hipótese nula)
ou Ha (hipótese alternativa), com base nas informações
contidas na amostra

www.datascienceacademy.com.br
Teste de Hipótese
Ho = é a hipótese que assumimos como verdade para construção
do teste
Ha = é a hipótese que consideramos caso a hipótese nula não
tenha evidência.
Erro Tipo I = é a probabilidade de rejeitarmos a hipótese nula
quando ela é efetivamente verdadeira
Erro Tipo II = é a probabilidade de rejeitarmos a hipótese
alternativa quando ela é efetivamente verdadeira.

www.datascienceacademy.com.br
Procedimento para o Teste de Hipótese

Se a média
Escolher um Se a média
da amostra
Coletar uma Traçar a nível de Calcular a da amostra
estiver na
Formular as amostra de média da significância estatística, estiver em
região
hipóteses tamanho n amostra no  com base os valores uma das
branca do
nula e e calcular a eixo x da na críticos e a caudas nós
gráfico NÃO
alternativa. média da distribuição gravidade região rejeitamos a
rejeitamos a
amostra. da amostra. do erro tipo crítica. hipótese
hipótese
I. nula.
nula.

www.datascienceacademy.com.br
Teste de Hipótese

Teste de Hipótese Unilateral

www.datascienceacademy.com.br
Teste de Hipótese
O teste Unilateral ou Unicaudal é usado quando a
hipótese alternativa é expressa como:

< ou >

www.datascienceacademy.com.br
O teste Unilateral ou Unicaudal é usado quando a
hipótese alternativa é expressa como < ou >.

H0: μ = 1.8 H0: μ =1.8


HA: μ > 1.8 HA: μ < 1.8

Teste Cauda Superior: nós assumimos que μ = 1.8 a Teste Cauda Inferior: nós assumimos que μ = 1.8 a
menos que a média da amostra seja maior que the 1.8 menos que a média da amostra seja menor que 1.8

Não rejeitar H0 Rejeitar Rejeitar Não rejeitar H0


H0 H0
x scale x scale
escala
1.8 escala 1.8
H
H 0 0

Não rejeitar H0 Rejeitar H0 Rejeitar H0 Não rejeitar H0

www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Não rejeitar H0
Rejeitar H0

1.8 x scale
escala
H 0

Não rejeitar H0 Rejeitar H0

Teste Unilateral Direito

www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Teste Unilateral Direito:
Não rejeitar H0
Rejeitar H0 (Superior)
H0: μ = valor numérico
1.8 x scale
escala
H 0
HA: μ > valor numérico
Não rejeitar H0 Rejeitar H0

Teste Unilateral Direito

www.datascienceacademy.com.br
Se a média estiver dentro da região branca do gráfico,
não rejeitamos a hipótese nula, caso contrário, a
rejeitamos.
Não rejeitar H0
Teste Unilateral Esquerdo:
Rejeitar (Inferior)
H0
1.8 x scale
escala H0: μ = valor numérico
H 0

Rejeitar H0 Não rejeitar H0


HA: μ < valor numérico

Teste Unilateral Esquerdo

www.datascienceacademy.com.br
Teste de Hipótese

Exemplo

www.datascienceacademy.com.br
Teste de Hipótese
Uma escola possui um grupo de alunos (população)
considerados obesos. A distribuição de probabilidade do peso
dos alunos dessa escola entre 12 e 17 anos é normal com uma
média de 80 kgs e desvio padrão de 10 kgs. O diretor da escola
propõe uma campanha de tratamento com acompanhamento
médico para combater a obesidade. Esse tratamento será
composto por dietas, exercícios físicos e mudança de hábito
alimentar. O médico afirma que o resultado do tratamento será
apresentado em 4 meses. E que os alunos terão seus pesos
diminuídos nesse período.
www.datascienceacademy.com.br
Teste de Hipótese
Portanto, as hipóteses que deverão ser testadas são:

H0: μ = 80
HA: μ < 80

Onde: μ = média dos pesos dos alunos após os


4 meses.

www.datascienceacademy.com.br
Teste de Hipótese

Teste de Hipótese Bilateral

www.datascienceacademy.com.br
O teste Bilateral é usado sempre que a hipótese alternativa é
expressa como ≠ de:
H0: μ = 1.8 Nós assumimos que μ = 1.8 a menos que a média da
HA: μ ≠ 1.8 amostra seja ≠ que 1.8

Rejeitar Rejeitar
Não Rejeitar H0
H0 H0

1.8 x scale
escala
H 0

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

www.datascienceacademy.com.br
Rejeitar Rejeitar
Não Rejeitar H0
H0 H0

1.8 x scale
escala
H 0

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

A curva acima representa a distribuição da


amostragem da média de utilização de banda larga.
Assume-se que a média da população é 1.8 GB, de
acordo com a hipótese nula H0 :  = 1.8.

www.datascienceacademy.com.br
Rejeitar Rejeitar
Não Rejeitar H0
H0 H0

1.8 x scale
escala
H 0

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

Por existirem duas regiões de rejeição no gráfico (regiões


em amarelo), este é chamado teste de hipótese bilateral
ou bicaudal.

www.datascienceacademy.com.br
Rejeitar
Rejeitar Não Rejeitar H0
H0
H0
1.8 x scale
escala
H 0

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

Como a hipótese nula é expressa como ≠ ela pode ser


maior ou menor que, por isso o teste é bilateral.

www.datascienceacademy.com.br
Teste Bilateral:

H0 : μ = Valor numérico.

HA : μ ≠ Valor numérico.

www.datascienceacademy.com.br
Teste de Hipótese

Exemplo

www.datascienceacademy.com.br
Uma fábrica de biscoitos
empacota as caixas com peso de
500 gramas. O peso é monitorado
periodicamente. O departamento
de qualidade estabeleceu que o
peso deve ser mantido em 500
gramas. Qual a condição para que o
departamento de qualidade
interrompa a produção dos
biscoitos?
www.datascienceacademy.com.br
Portanto, as hipóteses que deverão ser testadas são:

H0: μ = 500
HA: μ ≠ 500
A condição requerida para
a empresa continuar
empacontando os biscoitos.
www.datascienceacademy.com.br
Teste de Hipótese

Erros Tipo I e Tipo II

www.datascienceacademy.com.br
O propósito do teste de hipótese é verificar a validade
de uma afirmação sobre um parâmetro da população,
baseado em amostragem.

www.datascienceacademy.com.br
Como estamos tomando amostra como base, estamos
expostos ao risco de conclusões erradas sobre a
população, por conta de erros de amostragem.

www.datascienceacademy.com.br
A hipótese nula pode ser verdadeira,
caso tenhamos coletado uma amostra
que não seja representativa da
população.

Ou

talvez, a amostra tenha sido muito


pequena.

www.datascienceacademy.com.br
Vimos que para testar a H0, é preciso definir uma regra
de decisão com o objetivo de estabelecer uma zona de
rejeição da hipótese, ou seja, definir um nível de
significância,  , sendo os mais consensuais os alfas
0.10, 0.05 e 0.01.

Grau de Nível de Significância


Confiança
90% 0,10
95% 0,05
99% 0,01

www.datascienceacademy.com.br
Se o valor do parâmetro da população, defendido pela
H0, cair na zona de rejeição, então esse valor é muito
pouco provável de ser o valor verdadeiro da população e
a H0 será rejeitada em favor da HA.

Não Rejeitar H0 Rejeitar


Rejeitar H0
H0
n x scale
escala
H 0

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

www.datascienceacademy.com.br
Pode acontecer, que apesar de rejeitada com base em
dados de uma amostra, a H0 de fato seja verdadeira.
Nesse caso, estaríamos cometendo um erro de decisão.

Esse erro é chamado de Erro Tipo I, cuja probabilidade


de ocorrência depende do alfa escolhido.

www.datascienceacademy.com.br
Quando o valor defendido pela H0 cair fora da zona de
rejeição, então consideramos que não há evidência para
rejeitar H0 em prejuízo da HA. Mas aqui, também
podemos estar cometendo um erro se a HA, apesar de
descartada pelos dados em mãos, for de fato verdadeira.

Esse erro é chamado Erro Tipo II.

www.datascienceacademy.com.br
Portanto,
A Hipótese Nula é A Hipótese Nula
Condição Verdadeira é Falsa
D Decidimos rejeitar a Erro Tipo I Decisão correta
E hipótese nula. (Rejeição de uma
C hipótese nula
I verdadeira)
S Não rejeitamos a Decisão correta Erro Tipo II
à hipótese nula. (Não rejeição de
O uma hipótese
nula falsa)

www.datascienceacademy.com.br
Teste de Hipótese

Exemplo

www.datascienceacademy.com.br
A eficácia de certa vacina após um ano é de 25% (isto é,
o efeito imunológico se prolonga por mais de 1 ano em
apenas 25% das pessoas que a tomam). Desenvolve-se
uma nova vacina, mais cara e deseja-se saber se esta é,
de fato, melhor.

www.datascienceacademy.com.br
A eficácia de certa vacina após um ano é de 25% (isto é,
o efeito imunológico se prolonga por mais de 1 ano em
apenas 25% das pessoas que a tomam). Desenvolve-se
uma nova vacina, mais cara e deseja-se saber se esta é,
de fato, melhor.

Que hipóteses devem ser formuladas?


Que erros podemos encontrar?

www.datascienceacademy.com.br
Resposta:

Hipótese Nula H0 : p = 0,25


Hipótese alternativa HA : p > 0,25

Erro Tipo I : aprovar a vacina quando, na realidade, ela não


tem nenhum efeito superior ao da vacina em uso.

Erro Tipo II : rejeitar a nova vacina quando ela é,


de fato, melhor que a vacina em uso.

www.datascienceacademy.com.br
A probabilidade de se cometer um Erro Tipo I depende
dos valores dos parâmetros da população e é designada
por  (alfa - nível de significância).
Dizemos então que o nível de significância alfa de um
teste, é a probabilidade máxima com que desejamos
correr o risco de um Erro Tipo I.
O valor alfa é tipicamente predeterminado e escolhas
comuns são  = 0.05 e  = 0.01

www.datascienceacademy.com.br
A probabilidade de se cometer um Erro Tipo II é
designada por .

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
A estatística mostra que este ano aumentou em 60% o
roubo nos bancos brasileiros. Não diz de que lado.

Millôr Fernandes

www.datascienceacademy.com.br
Intervalo de Confiança é uma amplitude (ou um
intervalo) de valores que tem a probabilidade de conter
o valor verdadeiro da população.

Desculpe
, Não
podemos
confiar
em você

www.datascienceacademy.com.br
Intervalo de Confiança

Observe que na definição de intervalo de confiança, está


associado uma probabilidade. A esta probabilidade
chamamos de:

www.datascienceacademy.com.br
Observe que na definição de intervalo de confiança, está
associado uma probabilidade. A esta probabilidade
chamamos de:

www.datascienceacademy.com.br
Intervalo de Confiança
Essas probabilidades podem vir a partir de escolhas
comuns do grau de confiança que se deseja alcançar,
dentre os mais comuns temos:

Grau de Nível de Significância Valor Crítico


Confiança Z
90% 0,10 1,645
95% 0,05 1,96
99% 0,01 2,575

www.datascienceacademy.com.br
Descrição dos termos:
Considerando:

Probabilidade {c1 <=  <= c2} = 1 - 


Onde:

 O intervalo (c1, c2) é chamado de intervalo de confiança.


  = média da população.
  é o nível de significância.
 100 (1 - ) é nível de confiança.
 1 -  é o coeficiente de confiança.
www.datascienceacademy.com.br
Um Intervalo de Confiança funciona como um indicador
da precisão da sua medida. E indica qual o grau de
estabilidade da sua estimativa, a qual pode ser
calculada para determinar o quanto você está próximo de
sua estimativa original quando realiza um ou mais
experimentos.

www.datascienceacademy.com.br
Intervalo de Confiança

Intervalo de Confiança está associado a um grau de


confiança que é uma medida da nossa certeza de que o
intervalo contém o parâmetro populacional.

www.datascienceacademy.com.br
Significância Estatística
O principal objetivo da análise estatística de
dados é estabelecer se os resultados possuem
ou não significância estatística, de acordo com
os parâmetros estabelecidos.

www.datascienceacademy.com.br
Significância Estatística
Ao formular uma hipótese sob uma
determinada característica de uma
população.

www.datascienceacademy.com.br
Significância Estatística
O nível de significância é o limite que se
estabelece para afirmar que um certo desvio
é decorrente de acaso ou não.

www.datascienceacademy.com.br
Significância Estatística

P=0,05 •5%

P=0,01 •1%

www.datascienceacademy.com.br
Intervalo de Confiança

Exemplo

www.datascienceacademy.com.br
Em uma pesquisa eleitoral para senador foi divulgado o
resultado:
Pesquisa Eleitoral

10%
Senador A
47% Senador B
43%
Senador C

www.datascienceacademy.com.br
Considerando uma margem de erro de 0.03 para mais
ou para menos:

Pesquisa Eleitoral

10%
Senador A
47% Senador B
43%
Senador C

www.datascienceacademy.com.br
Pesquisa Eleitoral
Senador A tem a proporção
10% de votos de 47%.
Senador A
47% Senador B
43%
Senador C

www.datascienceacademy.com.br
Pesquisa Eleitoral
A proporção real fica entre:
10% Senador A 0,47 + 0,03 = 50% ( para
47% Senador B
43% Senador C mais)
0,47 – 0,03 = 44% (para
menos)

a margem de erro = intervalo de


confiança

www.datascienceacademy.com.br
Uma das mais importantes Funções da estatística no
mundo atual é coletar informações sobre uma amostra
e então usar esta informação para analisar a população
da qual a amostra foi extraída.

www.datascienceacademy.com.br
O que fará um Analista de Dados com essas
informações?

www.datascienceacademy.com.br
O Analista de Dados irá utilizar recursos de intervalo de
confiança diariamente para:

www.datascienceacademy.com.br
Calcular a variabiliade de tempo de atendimento à
clientes (bancos, centrais de atendimento,
estabelecimentos em geral)

www.datascienceacademy.com.br
Calcular o tempo de aterrissagem de voo

www.datascienceacademy.com.br
Calcular o tempo de substituição de aparelhos
eletrônicos em uma Central de Processamento de
Dados inteligentes.

www.datascienceacademy.com.br
Calcular a vida útil de componentes elétricos e eletrônicos
em ambientes de trabalho e domésticos.

www.datascienceacademy.com.br
Calcular os resultados de pesquisas eleitorais ou outras
pesquisas em geral

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Porque eu fazia do amor um cálculo matemático errado: pensava que,
somando as compreensões, eu amava. Não sabia que, somando as
incompreensões é que se ama verdadeiramente

Clarice Lispector

www.datascienceacademy.com.br
Intervalo de Confiança
Intervalos de Confiança para Desvio
Padrão da População Conhecido

www.datascienceacademy.com.br
Intervalo de Confiança
Vamos assumir que o desvio padrão da população 
(sigma) é conhecido.

www.datascienceacademy.com.br
Intervalo de Confiança
O propósito de gerar um Intervalo de Confiança é
prover uma estimativa para o valor da média da
população.

www.datascienceacademy.com.br
Intervalo de Confiança

O intervalo de confiança para a média tem um limite de


confiança máximo e um limite de confiança mínimo.

www.datascienceacademy.com.br
Intervalo de Confiança
O intervalo de confiança para a média tem um limite de
confiança máximo e um limite de confiança mínimo.

LMax = limite máximo de confiança

www.datascienceacademy.com.br
Intervalo de Confiança
O intervalo de confiança para a média tem um limite de
confiança máximo e um limite de confiança mínimo.

LMax = limite máximo de confiança


LMin = limite mínimo de confiança

www.datascienceacademy.com.br
Intervalo de Confiança
Os limites descrevem o range em que nós temos um
grau de confiança onde a média da população será
encontrada.

www.datascienceacademy.com.br
Intervalo de Confiança
A Margem de erro, são os valores adicionados ou
subtraídos da estimativa pontual, para formar o intervalo
de confiança.

www.datascienceacademy.com.br
Margem de Erro
A Margem de erro, são os valores adicionados ou
subtraídos da estimativa pontual, para formar o intervalo
de confiança.
Margem de erro Margem de erro

Limite Limite
mínimo de máximo de
confiança Estimativa Pontual confiança
Intervalo de confiança

www.datascienceacademy.com.br
Margem de Erro

A margem de erro representa a largura do intervalo de


confiança entre a média da amostra e seu limite máximo
e entre a média e seu limite mínimo de confiança.

www.datascienceacademy.com.br
Margem de Erro

Margem de erro Margem de erro

Limite Limite
mínimo de máximo de
confiança Estimativa Pontual confiança
Intervalo de confiança

www.datascienceacademy.com.br
Margem de Erro
Calculamos a Margem de Erro (ME) da seguinte forma:

MEx = zα/ 2σ x
Onde:

LMax = Média + Margem de erro


LMin = Média – Margem de erro

www.datascienceacademy.com.br
Margem de Erro

Podemos reduzir a margem de erro e ainda manter um


nível de confiança de 90%, simplesmente aumentando o
tamanho da amostra.

www.datascienceacademy.com.br
Intervalo de Confiança

Exemplo

www.datascienceacademy.com.br
Intervalo de Confiança

Desejamos estimar a média de dinheiro que uma pessoa


de uma determinada cidade, gasta comprando produtos
anunciados em um canal de televisão.
Para começar, precisamos coletar uma amostra
aleatória.

www.datascienceacademy.com.br
Intervalo de Confiança
Considerando que a média da amostra seja R$ 129,20.
Com uma margem de erro de R$11,80 e limites de
confiança máximo e mínimo de R$117.40 e R$141.00
respectivamente.

www.datascienceacademy.com.br
Intervalo de Confiança
Interpretar o intervalo de confiança, não é simples
como parece. Um erro muito comum, é fazer a seguinte
afirmação:

www.datascienceacademy.com.br
Intervalo de Confiança
Interpretar o intervalo de confiança, não é simples
como parece. Um erro muito comum, é fazer a seguinte
afirmação:

“Há 90% de probabilidade de que a média de gastos


com produtos anunciados em propagandas de TV
esteja entre R$117.40 e R$141.00”.

www.datascienceacademy.com.br
Interpretar o intervalo de confiança, não é simples
como parece. Um erro muito comum, é fazer a seguinte
afirmação:

Embora a afirmação acima pareça bastante


razoável, ela não pode ser suportada com os
cálculos do intervalo de confiança.
www.datascienceacademy.com.br
Vamos coletar mais amostras e calcular os intervalos de
confiança:
90% de nível de confiança
Média da Margem de Limite Limite
Amostra
Amostra Erro Mínimo Máximo
1 R$ 129,20 R$11,80 R$117,40 R$141.00
2 R$ 132,00 R$11,80 R$120,20 R$143,80
3 R$ 117,50 R$11,80 R$105,70 R$129,30
4 R$ 128,20 R$11,80 R$116,40 R$140,00
5 R$ 108,80 R$11,80 R$97,00 R$120,60
6 R$ 130,10 R$11,80 R$118,30 R$141,90
7 R$ 117,90 R$11,80 R$106,10 R$129,70
8 R$ 120,10 R$11,80 R$108,30 R$131,90
9 R$ 133,80 R$11,80 R$122,00 R$145,60
10 R$ 119,00 R$11,80 R$107,20 R$130,80
www.datascienceacademy.com.br
Intervalo de Confiança
Um ponto importante que precisa ser esclarecido aqui, é
que cada amostra extraída da população, tem seu
próprio intervalo de confiança, conforme pudemos ver
na tabela anterior.

www.datascienceacademy.com.br
Intervalo de Confiança
Note que a margem de erro é a mesma, pois o tamanho
da amostra e o desvio padrão da população não foram
alterados e todos os intervalos representam 90% de nível
de confiança.
90% de nível de confiança
Média da Margem de Limite Limite
Amostra
Amostra Erro Mínimo Máximo
1 R$ 129,20 R$11,80 R$117,40 R$141.00

www.datascienceacademy.com.br
A média da população é R$125,00.

www.datascienceacademy.com.br
Intervalo de Confiança
Ou seja, os intervalos de confiança realmente incluem
a média da população.

www.datascienceacademy.com.br
Entretanto, olhe a amostra 5. Ela não contém a média
da população.

90% de nível de confiança


Média da Margem de Limite Limite
Amostra
Amostra Erro Mínimo Máximo
1 R$ 129,20 R$11,80 R$117,40 R$141.00
2 R$ 132,00 R$11,80 R$120,20 R$143,80
3 R$ 117,50 R$11,80 R$105,70 R$129,30
4 R$ 128,20 R$11,80 R$116,40 R$140,00
5 R$ 108,80 R$11,80 R$97,00 R$120,60
6 R$ 130,10 R$11,80 R$118,30 R$141,90
7 R$ 117,90 R$11,80 R$106,10 R$129,70
8 R$ 120,10 R$11,80 R$108,30 R$131,90
9 R$ 133,80 R$11,80 R$122,00 R$145,60
10 R$ 119,00 R$11,80 R$107,20 R$130,80
www.datascienceacademy.com.br
www.datascienceacademy.com.br
Intervalo de Confiança
Sendo assim, fazer a afirmação a seguir seria um erro:

“Há 90% de probabilidade de que a média de


gastos com produtos anunciados em
propagandas de TV esteja entre R$117.40 e
R$141.00”.

www.datascienceacademy.com.br
Intervalo de Confiança
Veja que a amostra 5 não contém a média da
população. Sendo assim, fazer a afirmação abaixo seria
um erro:

“Há 90% de probabilidade de que a média de gastos


com produtos anunciados em propagandas de TV esteja
entre R$117.40 e R$141.00”.

www.datascienceacademy.com.br
Intervalo de Confiança

A lição aqui é: não há garantia que cada intervalo de


confiança irá incluir a média da população.

www.datascienceacademy.com.br
Além disso, perceba que 9 das 10 amostras coletadas,
incluem a média da população.
90% de nível de confiança
Média da Margem de Limite Limite
Amostra
Amostra Erro Mínimo Máximo
1 R$ 129,20 R$11,80 R$117,40 R$141.00
2 R$ 132,00 R$11,80 R$120,20 R$143,80
3 R$ 117,50 R$11,80 R$105,70 R$129,30
4 R$ 128,20 R$11,80 R$116,40 R$140,00
5 R$ 108,80 R$11,80 R$97,00 R$120,60
6 R$ 130,10 R$11,80 R$118,30 R$141,90
7 R$ 117,90 R$11,80 R$106,10 R$129,70
8 R$ 120,10 R$11,80 R$108,30 R$131,90
9 R$ 133,80 R$11,80 R$122,00 R$145,60
10 R$ 119,00 R$11,80 R$107,20 R$130,80
www.datascienceacademy.com.br
Intervalo de Confiança
Esta é a correta definição do nível de confiança.

Nós esperamos que 90% das médias das amostras de


uma população, irão produzir um intervalo de confiança
que inclua a média da população.

www.datascienceacademy.com.br
Intervalo de Confiança
Entretanto, não há garantia que 9 de cada 10 intervalos
de confiança irão incluir a média da população.

www.datascienceacademy.com.br
Intervalo de Confiança
Entretanto, não há garantia que 9 de cada 10 intervalos
de confiança irão incluir a média da população.

Isso é uma estimativa.

O mesmo raciocínio pode ser aplicado para 95% e 99%


de nível de confiança.

www.datascienceacademy.com.br
Intervalo de Confiança
No caso anterior, lidamos com tamanho de amostra
superior a 30 elementos.

www.datascienceacademy.com.br
Intervalo de Confiança
No caso anterior, lidamos com tamanho de amostra
superior a 30 elementos.

Sob estas condições, as médias das amostras tendem a


seguir uma distribuição de probabilidade normal,
independente do formato da distribuição de probabilidade
da população.

www.datascienceacademy.com.br
Intervalo de Confiança
Mas o que acontece quando o tamanho da amostra é
menor que 30, assumindo que o desvio padrão da
população é conhecido?

www.datascienceacademy.com.br
Intervalo de Confiança
Bem, neste caso não podemos mais nos apoiar no
Teorema do Limite Central.

www.datascienceacademy.com.br
Intervalo de Confiança
Até agora, assumimos que o desvio padrão da
população  (sigma) era conhecido.

www.datascienceacademy.com.br
Intervalo de Confiança
Entretanto, na maioria das vezes, não temos
conhecimento deste valor, ou seja, o desvio padrão da
população é desconhecido.

www.datascienceacademy.com.br
Intervalo de Confiança
Sob estas circunstâncias, nós substituímos s (desvio
padrão da amostra) e no seu lugar calculamos o erro
padrão.

www.datascienceacademy.com.br
Intervalo de Confiança
Sob estas circunstâncias, nós substituímos s (desvio
padrão da amostra) e no seu lugar calculamos o erro
padrão.
n onde:
å (x - x )
i
2 x = média da amostra
n = tamanho da amostra (quantidade de
s= i =1
valores)
n -1 (xi – x ) = diferença entre cada valor e a
média da amostra

www.datascienceacademy.com.br
Intervalo de Confiança
Fórmula para o erro padrão aproximado da média

onde:
s
σˆ x 
n = Erro padrão aproximado da média
= Desvio padrão da amostra

= Raíz do tamanho da amostra

www.datascienceacademy.com.br
Intervalo de Confiança
E quando:

O tamanho da amostra é menor que 30:

N < 30

www.datascienceacademy.com.br
Intervalo de Confiança
E quando:

O tamanho da amostra é menor que 30:


N < 30
E o desvio padrão da população é desconhecido:

=?

www.datascienceacademy.com.br
Intervalo de Confiança
O que devo fazer?

www.datascienceacademy.com.br
Intervalo de Confiança

Devemos usar a Distribuição t (t de student)!

www.datascienceacademy.com.br
Distribuição T - Student
A distribuição t de Student é uma
distribuição de probabilidade estatística
contínua, publicada por um autor que se
chamou de Student, pseudônimo de William
Sealy Gosset, que não podia usar seu nome
verdadeiro para publicar trabalhos enquanto
trabalhasse para a cervejaria Guinness.
William Sealy Gosset

www.datascienceacademy.com.br
Distribuição T - Student

A distribuição t de Student é uma das distribuições mais


utilizadas na estatística, com aplicações que vão desde a
modelagem estatística até testes de hipóteses.

www.datascienceacademy.com.br
Distribuição T - Student
A distribuição t de Student é usada no lugar da
distribuição normal de probabilidade quando o desvio
padrão da amostra (s) é usado no lugar do desvio padrão
da população ().

www.datascienceacademy.com.br
Distribuição T - Student
A distribuição t de Student, ou simplesmente,
distribuição t possui as seguintes propriedades:

www.datascienceacademy.com.br
Distribuição T - Student
É em formato de sino e simétrica em torno da média.

O formato da curva depende do grau de liberdade, que


corresponde ao número de valores que são livres para
variar.

Quando lidamos com a média da amostra, o grau de


liberdade é igual a n – 1.

A área em torno da curva é igual a 1.

www.datascienceacademy.com.br
Distribuição T - Student
É simétrica e semelhante à curva normal padrão, porém
com caudas mais largas, ou seja, uma simulação da t de
Student pode gerar valores mais extremos que uma
distribuição normal.

A distribuição t é na verdade uma família de distribuições.


À medida que o grau de liberdade aumenta, o formato da
distribuição t se torna uma distribuição normal.

www.datascienceacademy.com.br
Distribuição T - Student

Com mais de 100 graus de liberdade (tamanho da amostra


superior a 100), as duas distribuições (t e normal) são
praticamente idênticas.
Quando usamos distribuição t de Student, precisamos
assumir que a população de interesse segue uma
distribuição de probabilidade normal.

www.datascienceacademy.com.br
Graus de Liberdade
Normalmente as pessoas tem dificuldade em compreender
o conceito de graus de liberdade.

www.datascienceacademy.com.br
Graus de Liberdade
Em estatística, o número de graus de liberdade é o
número de valores no cálculo final de uma estatística que
são livres para variar.

www.datascienceacademy.com.br
Graus de Liberdade
O número de maneiras independentes por um sistema
dinâmico que pode mover-se, sem violar nenhuma
restrição imposta sobre ele, é chamado número de graus
de liberdade.

www.datascienceacademy.com.br
Graus de Liberdade
O número de graus de liberdade pode ser definido como
o número mínimo de coordenadas independentes que
podem especificar a posição do sistema completamente.

www.datascienceacademy.com.br
Graus de Liberdade
Quando se usa uma distribuição t (t de student) para
estimar uma média populacional, o número de graus de
liberdade é igual ao tamanho da amostra menos 1.

Graus de Liberdade = n - 1

www.datascienceacademy.com.br
Você como um Analista de
Dados, precisa ter em
mente essas regras aqui
aplicadas.

www.datascienceacademy.com.br
O Intervalo de confiança é o
valor estimado onde a média
de um parâmetro de uma
amostra tem uma dada
Probabilidade de ocorrer.

www.datascienceacademy.com.br
O Intervalo de confiança é
usado para apresentar a
confiabilidade de uma
estimativa.

www.datascienceacademy.com.br
Cuidado com os seguintes equívocos:

 Um intervalo de confiança de 99% não siginifica que,


para um dado intervalo calculado a partir dos dados,
haverá uma probabilidade de 99% do parâmetro da
população estar dentro do intervalo.

www.datascienceacademy.com.br
Portanto,

Você analista de dados irá lidar com incertezas, que


farão parte do resultado de derivação dos dados que
também fazem parte de um conjunto selecionado
aleatoriamente a partir de uma população.

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Estatística: a ciência que diz que se eu comi um frango e tu não
comeste nenhum, teremos comido, em média, meio frango cada um.

Dino Segre

www.datascienceacademy.com.br
O teorema de Bayes
relaciona informações, com a
probabilidade de ocorrência,
para gerar uma nova
probabilidade quando os
fatos acontecem de maneira
relacionada ou são
dependentes.
Thomas Bayes (1701-1761)

www.datascienceacademy.com.br
Teorema de Bayes

www.datascienceacademy.com.br
Teorema de Bayes
Inferências Intuitivas

Inferências Experimentais

www.datascienceacademy.com.br
Teorema de Bayes

No Teorema de Bayes as probabilidades associadas a


um dados evento devem ser definidas previamente e
atualizadas assim que se recebem novas informações.

www.datascienceacademy.com.br
Teorema de Bayes

Treinamento
Profissional

www.datascienceacademy.com.br
Teorema de Bayes

Machine Lerning

www.datascienceacademy.com.br
Teorema de Bayes

www.datascienceacademy.com.br
Teorema de Bayes

www.datascienceacademy.com.br
Teorema de Bayes

Exemplo

www.datascienceacademy.com.br
Teorema de Bayes

Em uma fábrica de HD’s para computador, as linhas de


montagem I, II e III respondem respectivamente por 50, 30 e 20
porcento da produção.
Alguns HD’s saem destas linhas com defeitos. A porcentagem de
HD’s defeituosos é de 0,4%, 0,6% e 1,2% respectivamente para
as linhas I, II e III.

www.datascienceacademy.com.br
Teorema de Bayes
Para evitar que os HD’s defeituosos cheguem ao mercado, o
controle de qualidade realiza inspeções individuais em todos os
HD’s fabricados.Calcule as seguintes probabilidades:

a) de um HD qualquer produzido ser defeituoso.


b) de um HD defeituoso ter sido produzido na linha de produção I.

www.datascienceacademy.com.br
Teorema de Bayes
Considere os seguintes eventos:

A = o monitor foi produzido na linha I, logo P(A) = 0,50;


B = o monitor foi produzido na linha II, logo P(B) = 0,30;
C = o monitor foi produzido na linha III, logo P(C) = 0,20;
D = o monitor apresentou defeito;

www.datascienceacademy.com.br
Teorema de Bayes
Portanto:

P(D|A) = probabilidade do monitor defeituoso ter sido produzido


na linha I = 0,004;

P(D|B) = probabilidade do monitor defeituoso ter sido produzido


na linha II = 0,006;

P(D|C) = probabilidade do monitor defeituoso ter sido produzido


na linha III = 0,012;

www.datascienceacademy.com.br
Teorema de Bayes

O problema pede para calcularmos duas probabilidades: a


probabilidade de um monitor qualquer fabricado nesta empresa
ser defeituoso = P(D)
e a probabilidade de um monitor defeituoso ter sido fabricado
na linha I = P(A|D).

www.datascienceacademy.com.br
Teorema de Bayes

Logo :

P(D) = 0,0020 + 0,0018 + 0,0024 = 0,0062

P(A|D) = P(A) x P(D|A) = (0,50) x (0,004) = 0,3226


P(D) (0,0062)

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
A Estatística é a gramática da ciência.

Karl Pearson

www.datascienceacademy.com.br
Modelos de Regressão

O modelo de regressão é um dos métodos


estatísticos mais usados para investigar a
relação entre variáveis.

www.datascienceacademy.com.br
Modelos de Regressão
Modelo de
Regressão

Simples Múltiplo

Não Linear
Linear Não Linear Linear

www.datascienceacademy.com.br
Modelos de Regressão
1 Varível Dependente Y
2 Variáveis Independente X, Xi
1 Varível Dependente Y
1 Variável Independente X Modelo de
Regressão

Simples Múltiplo

Não Linear
Linear Não Linear Linear

www.datascienceacademy.com.br
Relação Linear

A relação entre duas variáveis pode ser:


Linear
Não Linear

www.datascienceacademy.com.br
Relação Linear

Relação Relação Relação


Linear Não Linear Inexiste

www.datascienceacademy.com.br
A presença ou ausência de relação linear
pode ser investigada sob dois pontos de vista:

Quantificando a força dessa relação Correlação

Quantificando a forma dessa relação Regressão

www.datascienceacademy.com.br
Análise de Regressão

Análise de regressão: metodologia estatística que


estuda (modela) a relação entre duas ou mais
variáveis.

www.datascienceacademy.com.br
Análise de Regressão

Regressão Linear Simples: Examina a relação linear


entre duas variáveis contínuas: uma dependente (Y)
e uma independente (x). Quando as duas variáveis
são relacionadas é possível predizer um valor de
resposta com uma precisão independente.

www.datascienceacademy.com.br
Análise de Regressão

Regressão Linear Múltipla: examina as relações


lineares existes entre uma resposta contínua a duas
ou mais variáveis independentes.

www.datascienceacademy.com.br
Coeficiente de Correlação

A análise de correlação é usada para medir o grau de


associação entre variáveis quantitativas.

www.datascienceacademy.com.br
Coeficiente de Correlação

Quanto maior a correlação maior a força.

www.datascienceacademy.com.br
Coeficiente de Correlação

O Coeficiente de Correlação
é um valor numérico, para o grau de
associação entre duas variáveis.

O coeficiente de correlação pode variar entre:


–1 (correlação negativa perfeita) e
+1 (correlação positiva perfeita).

www.datascienceacademy.com.br
Coeficiente de Correlação

Correlação positiva

www.datascienceacademy.com.br
Coeficiente de Correlação

Correlação negativa

www.datascienceacademy.com.br
Análise de Correlação
Para realizar a Análise de Correlação nós podemos utilizar dois
coeficientes:

Coeficiente de Correlação de Pearson

Coeficiente de Correlação de Spearman

www.datascienceacademy.com.br
Coeficiente de Correlação de Pearson
O coeficiente de correlação de Pearson mede o grau de associação
entre as variáveis mas não é sensível às unidades de medida.

O coeficiente de correlação de Pearson é bastante sensível à presença


de outliers.

O coeficiente de correlação de Pearson entre as variáveis x e y é


calculado dividindo a covariância entre x e y pelos seus desvios
padrões:

O coeficiente de correlação pode assumir valores entre -1 e +1.


www.datascienceacademy.com.br
Coeficiente de Correlação de Spearman
• Avalia a relação monotônica entre duas variáveis, ou seja,
as variáveis tendem a mudar mas numa velocidade
diferente.
• Se baseia nos valores classificados de cada variável. Ao
invés de se balizar em dados brutos.
• É muito utilizado para avaliação de relações de variáveis
ordinais.
• O coeficiente de correlação pode assumir valores
entre -1 e +1.

www.datascienceacademy.com.br
A existência de correlação não implica causalidade

www.datascienceacademy.com.br
Erro Amostral

www.datascienceacademy.com.br
Erro Amostral

www.datascienceacademy.com.br
www.datascienceacademy.com.br
Intercepto β0 - valor esperado para a
variável dependente y quando x é igual
a zero

Coeficiente angular β1 - variação


esperada na variável dependente,
quando a variável independente
aumenta uma unidade

www.datascienceacademy.com.br
Método dos Mínimos Quadrados

O Método dos Quadrados Mínimos, ou Quadrados


Mínimos Ordinários (MQO) ou OLS (do inglês Ordinary
Least Squares) é uma técnica que objetiva minimizar os
resíduos encontrados no modelo de regressão linear.

www.datascienceacademy.com.br
Método dos Mínimos Quadrados

www.datascienceacademy.com.br
Método dos Mínimos Quadrados

www.datascienceacademy.com.br
Avaliando Modelos de Regressão

Após contruir os modelos de regressão nós podemos


utilizar alguns critérios para avaliar e comparar os modelos
criados.

www.datascienceacademy.com.br
Avaliando Modelos de Regressão
RMSE
Mede a taxa de erro de
Root Mean
um modelo de regressão
Square Error
em unidades
semelhantes.
Onde:
Erro Médio a = valor observado
p = valor previsto
Quadrático

www.datascienceacademy.com.br
Avaliando Modelos de Regressão
RMSLE
Root Mean Aplica a transformação
Square Log log (Y+1) nas previsões.
Error Para medir a precisão de
algoritmos
Erro de Log
da Raíz
Quadrada

www.datascienceacademy.com.br
Avaliando Modelos de Regressão
RSE
Relative Mede a taxa de erro de
Square Error um modelo de regressão
em unidades diferentes.

Onde:
Erro Relativo a = valor observado
Quadrático p = valor previsto

www.datascienceacademy.com.br
Avaliando Modelos de Regressão
MAE
Mede a taxa de erro de
Mean
um modelo de regressão
Absolute
em unidades
Error
semelhantes em escalas
de menor magnitude.
Onde:
Erro Médio a = valor observado
Absoluto p = valor previsto

www.datascienceacademy.com.br
Avaliando Modelos de Regressão
RAE
Relative
Mede a taxa de erro de
Absolute
um modelo de regressão
Error
em unidades diferentes.

Onde:
Erro Relativo a = valor observado
Absoluto p = valor previsto

www.datascienceacademy.com.br
Coeficiente de Determinação

A divisão entre SSR (Soma dos Quadrados da Regressão)


e SST (Soma dos Quadrados Totais)nos dá uma medida da
proporção da variação total que é explicada pelo modelo
de regressão. Essa medida é o coeficiente de Determinação
(r2)

www.datascienceacademy.com.br
Coeficiente de Determinação

Onde:
SSR = Soma dos Quadrados da Regressão
SST = Soma dos Quadrados Totais
SSE = Soma dos Quadrados dos Resíduos

www.datascienceacademy.com.br
Coeficiente de Determinação

Esse coeficiente pode ser utilizado como uma medida da


confiança depositada na equação de regressão como
instrumento de previsão.

Modelo linear pouco adequado

Modelo linear muito adequado

www.datascienceacademy.com.br
Coeficiente de Determinação
Modelo linear pouco adequado

Modelo linear muito adequado

www.datascienceacademy.com.br
Coeficiente de Determinação – R2

www.datascienceacademy.com.br
Coeficiente de Determinação – R2

SSE = 0 Modelo de Regressão


r2 = 1 Linear perfeito

www.datascienceacademy.com.br
Coeficiente de Determinação – R2

O Modelo de
Regressão não pode
Se o SSE = SST explicar a variância e
o r2 é igual a 0.

www.datascienceacademy.com.br
Coeficiente de Determinação – R2

Exemplo

www.datascienceacademy.com.br
Coeficiente de Determinação – R2
Imagine que você está trabalhando para um banco e precisa
desenvolver um modelo de regressão para prever as condições futuras
do mercado.

www.datascienceacademy.com.br
Coeficiente de Determinação – R2
No primeiro modelo aplicado você encontrou um r2 = 89%.

www.datascienceacademy.com.br
Coeficiente de Determinação – R2
No primeiro modelo aplicado você encontrou um r2 = 89%.
Ao aplicar uma nova previsão trocando suas variáveis o r2 caiu para
49%.

www.datascienceacademy.com.br
Coeficiente de Determinação – R2
No primeiro modelo aplicado você encontrou um r2 = 89%.
Ao aplicar uma nova previsão trocando suas variáveis o r2 caiu para
49%.
Isso pode indicar um modelo super-ajustado.

www.datascienceacademy.com.br
Coeficiente de Determinação – R2
Contudo, o modelo não irá ajudá-lo a realizar novas previsões mais
exatas a partir das suas novas observações, pois ele ajusta seus dados
existentes.

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

www.datascienceacademy.com.br
Teste qui-quadrado

X 2

www.datascienceacademy.com.br
O que sabemos é uma gota; o que ignoramos é um oceano.

Isaac Newton

www.datascienceacademy.com.br
Medidas de Associação entre Variáveis Qualitativas

www.datascienceacademy.com.br
Medidas de Associação entre Variáveis Qualitativas

• Estatística qui-quadrado – utilizada para variáveis qualitativas


nominais e ordinais

• Coeficiente de Spearman – para variáves qualitativas ordinais

• Coeficiente Phi - coeficiente de contingência

• Coeficiente V de Cramer – para variáveis nominais e baseadas no qui-


quadrado

www.datascienceacademy.com.br
Estatística qui-quadrado

A estatística qui-quadrado (χ2) mede a discrepância entre uma


tabela de contingência observada e uma tabela de contingência
esperada, partindo da hipótese de que não há associação entre
as variáveis estudadas.

www.datascienceacademy.com.br
Teste qui-quadrado

É usado para testar se uma distribuição de frequência se encaixa


em uma distribuição esperada.

www.datascienceacademy.com.br
Teste qui-quadrado
Suponha um determinado experimento que observou um
conjunto de eventos possíveis:

E1, E2, E3, …, En

Em que ocorram as frequências observadas:

O1, O2, O3, ..., On

www.datascienceacademy.com.br
Teste qui-quadrado
Suponha um determinado experimento que observou um conjunto de
eventos possíveis:

E1, E2, E3, …, En

Em que ocorram as frequências observadas:

O1, O2, O3, ..., On


Pelas regras da probabilidade, espera-se que ocorra as frequências observadas O1, O2,
etc...a diferença entre o observado e o esperado nesse caso é a estatística qui-
quadrado.

www.datascienceacademy.com.br
Teste qui-quadrado

Esta fórmula representa o teste do qui-quadrado

Onde:

K = número de categorias de variável qualitativa


Oi = número de frequências observadas
Ei = número de frequências esperadas

www.datascienceacademy.com.br
Teste qui-quadrado
O teste qui-quadrado é representado pelas seguintes hipóteses:

Não há diferença significativa entre as frequências observadas


H0
e as frequências esperadas.
Há diferença significativa entre as frequências observadas e
Ha
esperadas.

www.datascienceacademy.com.br
Teste qui-quadrado
Pela regra de rejeição nós temos:

Se X2 calculado > X2a, rejeitar H0

Caso contrário, não rejeitar H0

www.datascienceacademy.com.br
Teste qui-quadrado
O gráfico ao lado mostra a divisão
entre as distribuições das
hipóteses H0 e Ha, sendo ambas
separadas pelo valor do qui-
quadrado definido em uma tabela
padrão.
Se o valor do teste qui-quadrado
Ha for menor que X2 da tabela,
aceitamos a hipótese H0.

www.datascienceacademy.com.br
Teste qui-quadrado

Para encontrar o valor do qui-quadrado (X2) que


faz a divisão das regiões de H0 e Ha, devemos
saber o número de graus de liberdade da tabela
do qui-quadrado.

Calculamos o número de graus de liberdade por:

Ha gl = (número de linhas -1)(número de colunas – 1)

www.datascienceacademy.com.br
Teste qui-quadrado

Os valores de referência de X2a para tomada de decisão em função dos


graus de liberdade para 95% de confiança:

gl 1 2 3 4 5 6 7 8 9
X2a 3,84 6 7,8 9,5 11,1 12,6 14,1 15,5 16,9

www.datascienceacademy.com.br
Teste qui-quadrado

Exemplo

www.datascienceacademy.com.br
Teste qui-quadrado

Vamos considerar que você como Analista de Dados, foi procurado pelo seu
gerente para realizar um teste para saber se o lançamento de um novo produto
irá impactar no percentual das ações da Empresa para qual você trabalha.

www.datascienceacademy.com.br
Passo
1

Você precisa analisar o cenário e coletar os dados:


 Coletar o percentual das ações da sua empresa - TecEx e de algumas
concorrentes:
Exemplo:
Empresa Loroy = 50%
Empresa CVVA = 20%
Empresa TecEx = 30%

 Estimar o número de consumidores: (amostra)


2000 consumidores

www.datascienceacademy.com.br
Passo
2

 Questionar os 2000 consumidores sobre qual a empresa eles preferem


realizar a compra e calcular a frequência observada da preferência dos
consumidores.

Empresa Loroy = 980 (consumidores)


Empresa CVVA = 540 (consumidores)
Empresa TecEx = 480 (consumidores)

www.datascienceacademy.com.br
Passo
3

 Analisar as hipóteses H0 e Ha

H0 = p(Loroy) = 0,50 ; p(Cvva) =0,20 ; p(TecEx) = 0,30

Ha = p(Loroy 0,50 ; p(Cvva) 0,20 ; p(TecEx) 0,30

www.datascienceacademy.com.br
Passo
4

 Calcular a Frequência Esperada

Empresa Loroy = 2000 x 0,50 = 1000


Empresa CVVA = 2000 x 0,20 = 400
Empresa TecEx = 2000 x 0,30 = 600

www.datascienceacademy.com.br
Passo
5

 Calcular o Qui-Quadrado = X2

X2 = (480 – 600)2 + (980 – 1000)2 + (540 – 400)2


600 1000 400

X2 = 73,4

www.datascienceacademy.com.br
Passo
6

 Encontrar o Valor Crítico (X2a)

 n-1 = 3 – 1 = 2
 = 0,05

X2a = 5,991

www.datascienceacademy.com.br
Passo
7

 Conclusão

 Como X2 calculado > X2a, rejeita-se H0


 73,4 > 5,991

www.datascienceacademy.com.br
Passo
8

 Conclusão

 Como X2 calculado > X2a, rejeita-se H0


 73,4 > 5,991

H0 = p(Loroy) = 0,50 ; p(Cvva) =0,20 ; p(TecEx) = 0,30

www.datascienceacademy.com.br
Teste qui-quadrado

www.datascienceacademy.com.br
Obrigado

Muito Obrigada por Participar!

Você também pode gostar