Você está na página 1de 71

Probabilidade e Estatística

Prof. Dr. Jhames Sampaio


pesquisas
sobre
fumo
pesquisas
sobre
fumo

“Meu tio fuma duas


carteiras por dia e está
em perfeitas condições
de saúde"
pesquisas
sobre evidência
fumo anedótica

“Meu tio fuma duas


carteiras por dia e está
em perfeitas condições
de saúde"
pesquisas
sobre evidência
fumo anedótica

“Meu tio fuma duas “fumar é um


carteiras por dia e está comportamento humano
em perfeitas condições complexo, por natureza
de saúde" di=ícil de estudar,
confundido pela natureza
humana"
populações
e
amostras
populações
e pesquisa
amostras

Os consumidores
de uma certa
marca de bebidas
tem maior
probabilidade de
parar na
emergência com
contusões?
populações
e pesquisa população
amostras

Os consumidores
de uma certa
marca de bebidas
tem maior
Todo
probabilidade de mundo
parar na
emergência com
contusões?
populações
e pesquisa população amostra
amostras

Os consumidores
de uma certa
marca de bebidas
tem maior
Todo
probabilidade de mundo
parar na
emergência com
contusões?
populações
e pesquisa população amostra
amostras

Os consumidores
de uma certa Estudantes
marca de bebidas
tem maior
Todo da UnB
probabilidade de mundo matriculados
parar na em PE
emergência com
contusões?
populações generalizar
e pesquisa população amostra para
amostras

Os consumidores
de uma certa Estudantes
marca de bebidas
tem maior
Todo da UnB Estudantes
probabilidade de mundo matriculados da UnB
parar na em PE
emergência com
contusões?
População
Conjunto de todos os
elementos de interesse
População

Indivíduo
Subconjunto finito da
população

População Amostra
População Amostra
Análise de
dados
Coleta, organização e
descrição dos dados
População Amostra
Análise de
dados

Cálculo de
Probabilidades
Estudo das incertezas
População Amostra
Análise de
dados

Cálculo de
Erro Probabilidades
População Amostra
Análise de
dados

Inferência Análise e interpretação


Estatística dos dados

Cálculo de
Erro Probabilidades
Variável
Características dos elementos observados e/ou
medidos em uma população ou amostra sob as
mesmas condições
Variável

Qualitativa
Atributos
Variável

Qualitativa Quantitativa
Atributos Numerário
Variável

Qualitativa Quantitativa
Numerário

Ordinal Nominal
Ordem Nomes
Variável

Qualitativa Quantitativa
Numerário

Ordinal Nominal
Ordem Nomes
Excelente
Bom
Péssimo
Variável

Qualitativa Quantitativa
Numerário

Ordinal Nominal
Ordem Nomes
Excelente Sexo
Bom Cor
Péssimo Naturalidade
Variável

Qualitativa Quantitativa

Ordinal Nominal Discreta Contínua


Ordem Nomes Contável Não contável
Excelente Sexo
Bom Cor
Péssimo Naturalidade
Variável

Qualitativa Quantitativa

Ordinal Nominal Discreta Contínua


Ordem Nomes Contável Não contável
Excelente Sexo Chutes a gol
Bom Cor Cliques numa página
Péssimo Naturalidade Jogos da mega-sena
Variável

Qualitativa Quantitativa

Ordinal Nominal Discreta Contínua


Ordem Nomes Contável Não contável
Excelente Sexo Chutes a gol Altura
Bom Cor Cliques numa página Peso
Péssimo Naturalidade Jogos da mega-sena Preço de uma ação
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

pais: Nome dos países


Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

re_cto: Número de solicitações de remoção de conteúdo feitas ao Google


Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

re_cto: Número de solicitações de remoção de conteúdo feitas ao Google

quantitativa
discreta
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

re_cump: Percentual de solicitações de remoção de conteúdo cumpridas pelo Google


Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

re_cump: Percentual de solicitações de remoção de conteúdo cumpridas pelo Google

quantitativa
contínua
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

du_cr: Número de solicitações de dados de usuários investigados criminalmente


Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

du_cr: Número de solicitações de dados de usuários investigados criminalmente

quantitativa
discreta
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

du_cr: Percentual de solicitações de dados de usuários investigados criminalmente cumpridas pelo Google
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

du_cr: Percentual de solicitações de dados de usuários investigados criminalmente cumpridas pelo Google

quantitativa
contínua
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

hemisferio: Hemisfério no qual o país está localizado


(norte, sul)
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

hemisferio: Hemisfério no qual o país está localizado


(norte, sul)

qualitativa
nominal
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

idh: Índice de Desenvolvimento Humano


(muito alto, alto, medio, baixo)
Dados de solicitação de remoção de
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muito alto
AUS 10 40 361 73 … sul muito alto
BEL <10 100 90 67 … norte muito alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito alto

idh: Índice de Desenvolvimento Humano


(muito alto, alto, medio, baixo)

qualitativa
ordinal
Variáveis qualitativas
Conjunto de dados

Cor declarada antes do julgamento


Branco Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Variáveis qualitativas
A ideia é contar o número de ocorrências em cada categoria da
variável

Por exemplo, vamos considerar o conjunto de dados relativo à


composição de um juri em um julgamento realizado no Brasil
★ Os elementos do juri declaram sua cor antes do julgamento
✓ 74 brancos
✓ 26 negros
✓ 25 pardos
✓ 19 outros
Variáveis qualitativas
Distribuição de Frequências

É interessante facilitarmos a visualização das informações


Isso pode ser feito construindo uma tabela de contingência
ou, popularmente falando, distribuição de frequências:

frequência
cor frequência relativa
branco 74 0,5139

negro 26 0,1806

pardo 25 0,1319

outros 19 0,1736

Total 144 1,0000


Variáveis qualitativas
Gráficos
Gráfico em Barras da Cor Gráfico em Pizza da Cor

frequência
cor frequência relativa branco 51%
60

branco 74 0,5139

negro 26 0,1806
Observações

40
pardo 25 0,1319
negro 18% pardo 17%
outros 19 0,1736
outro 13%
Total 144 1,0000
20

branco negro outros pardo


Cor
Variáveis quantitativas discretas
Conjunto de dados

Numero de filhos dos funcionários


- 1 2 - - 0

- - 1 - 2 -

- 3 0 - 1 2

- - 1 - - 0

2 2 - 0 5 2

- 1 3 - 2 3
Variáveis quantitativas discretas
Considere uma amostra de 20 funcionários de uma empresa que
responderam a uma questão sobre o número de filhos que possuem:
✓ 4 funcionários não possuem filhos
✓ 5 funcionários possuem 1 filho
✓ 7 funcionários possuem 2 filhos
✓ 3 funcionários possuem 3 filhos
✓ 1 funcionário possui 5 filhos

Aqui também faz sentido contarmos o número de ocorrências em


cada categoria
Variáveis quantitativas discretas
Distribuição de Frequências

• Podemos construir uma tabela de contingência para


melhor obser varmos os dados:

filhos frequência frequência


relativa
0 4 0,20
1 5 0,25
2 7 0,35
3 3 0,15
5 1 0,05
Total 20 1,00
Variáveis quantitativas discretas
Gráficos
Número de filhos dos funcionários
Número de filhos dos funcionários

filhos frequência frequência


relativa

Observações
4

0 4 0,20
1 5 0,25
2

2 7 0,35
3 3 0,15
0
5 1 0,05 0 1 2 3 4 5
Filhos
Total 20 1,00

0 2 4
Filhos
Variáveis quantitativas discretas
Gráficos

Se um de terminado conjunto de dados possuir uma


quan t idade mui to grande de informaçõe s, pode se r
impraticável construirmos uma tabela de contingência;
Nesse sentido, os gráficos se tornam ainda mais importantes
para uma rápida visualização;
Vamos tomar agora uma base de dados obtida ao entrevistar
alunos de uma universidade. Eles responderam sobre o
primeiro beijo e o número de vezes que visitam o Facebook em
um dia.
Variáveis quantitativas discretas
Gráficos

Com quantos anos deu seu primeiro beijo? Quantas vezes você visita o Facebook por dia?

0 5 10 15 20 0 50 100 150 200


Primeiro beijo Visitas ao Facebook por dia
Variáveis quantitativas contínuas
Conjunto de dados

Salários dos funcionários (x salário mínimo)


4,00 4,56 5,25 5,73 6,26 6,66

6,86 7,39 7,59 7,44 8,12 8,46

8,74 8,95 9,13 9,35 9,77 9,80

10,53 10,76 11,06 11,59 12,00 12,79

13,23 13,60 13,85 14,69 14,71 15,99

16,22 16,61 17,26 18,75 19,40 23,30


Variáveis quantitativas contínuas
Vamos tomar, novamente, os dados relativos aos 36 funcionários
de uma empresa e olhar para os salários destes funcionários
Como a variável é contínua, não faz sentido pensarmos em cada
valor registrado separadamente. Isso seria ainda pior se a base de
dados fosse muito extensa
Apesar de não sermos capazes de contar o número de elementos
num conjunto contínuo, podemos separá-lo em intervalos que
possamos contabilizar
Variáveis quantitativas contínuas
Distribuição de Frequências

• Podemos construir uma tabela de contingência para


melhor obser varmos os dados:

salários frequência frequência


relativa
04 |— 08 10 0,2778
08 |— 12 12 0,3333
12 |— 16 8 0,2222
16 |— 20 5 0,1389
20 |—24 1 0,0278
Total 36 1,0000
Variáveis quantitativas contínuas
Distribuição de Frequências

• Podemos construir uma tabela de contingência para


melhor obser varmos os dados:

salários frequência frequência


relativa
04 |— 08 10 0,2778
08 |— 12 12 0,3333

Classes 12 |— 16 8 0,2222
16 |— 20 5 0,1389
20 |—24 1 0,0278
Total 36 1,0000
Variáveis quantitativas contínuas
Distribuição de Frequências

• Podemos construir uma tabela de contingência para


melhor obser varmos os dados:
a |— b
Simboliza o intervalo
frequência [a,b)
salários frequência
relativa
04 |— 08 10 0,2778
08 |— 12 12 0,3333

Classes 12 |— 16 8 0,2222
16 |— 20 5 0,1389
20 |—24 1 0,0278
Total 36 1,0000
Variáveis quantitativas contínuas
Distribuição de Frequências

• Podemos construir uma tabela de contingência para


melhor obser varmos os dados:
a |— b
Simboliza o intervalo
frequência [a,b)
salários frequência
relativa
04 |— 08 10 0,2778
Para cada classe i temos
08 |— 12 12 0,3333
I S
Classes 12 |— 16 8 0,2222 [Li , Li )
16 |— 20 5 0,1389
20 |—24 1 0,0278
Limite inferior Limite superior
Total 36 1,0000
da classe i da classe i
Variáveis quantitativas contínuas
Distribuição de Frequências

• Podemos construir uma tabela de contingência para


melhor obser varmos os dados:
a |— b
Simboliza o intervalo
frequência [a,b)
salários frequência
relativa
04 |— 08 10 0,2778
Para cada classe i temos
08 |— 12 12 0,3333
I S
Classes 12 |— 16 8 0,2222 [Li , Li )
16 |— 20 5 0,1389
20 |—24 1 0,0278
Limite inferior Limite superior
Total 36 1,0000
da classe i da classe i

Ai = LSi LIi Amplitude da classe i


Variáveis quantitativas contínuas
Gráfico
• O gráfico adequado a esse tipo de dados 12.5
Salários dos funcionários

é o histograma
• Nós utilizamos cada classe como base de 10.0

um re tângulo com alt ura dada pela


frequência 7.5

Frequência
salários frequência frequência 5.0

relativa
04 |— 08 10 0,2778
2.5
08 |— 12 12 0,3333
12 |— 16 8 0,2222
16 |— 20 5 0,1389
0.0
20 |—24 1 0,0278
4 8 12 16 20 24
Total 36 1,0000 Salários
Variáveis quantitativas contínuas
Gráfico
• O gráfico adequado a esse tipo de dados Salário dos funcionários altura
é o histograma 0.08
0,0694

• Nós utilizamos cada classe como base de 0,0833

um re tângulo cuja áre a é dada pela 0.06


0,0556

frequência relativa 0,0347

0,0069

Altura
0.04

salários frequência frequência


relativa
04 |— 08 10 0,2778
0.02
08 |— 12 12 0,3333
12 |— 16 8 0,2222
16 |— 20 5 0,1389
0.00
20 |—24 1 0,0278
4 8 12 16 20 24
Total 36 1,0000 Salários

Altura = Frequência relativa / Amplitude da classe


Variáveis quantitativas contínuas
Gráfico
• Uma alternativa interessante para Salários dos funcionários
visualizarmos melhor a distribuição 8

dos dados é alterar a amplitude dos


inter valos à partir da frequência ou
frequência relativa 6

Frequência
salários frequência frequência
relativa
4
04 |— 06 4 0,1111
06 |— 08 6 0,1667
08 |— 10 8 0,2222
10 |— 12 4 0,1111 2
12 |— 14 5 0,1389
14 |— 16 3 0,0833
16 |— 18 3 0,0833
0
18 |— 20 2 0,0556
20 |— 22 0 0,0000 4 6 8 10 12 14 16 18 20 22 24
Salários
22 |— 24 1 0,0278
Total 36 1,0000
Variáveis quantitativas contínuas
Gráfico
• Uma alternativa interessante para Salário dos funcionários altura
visualizarmos melhor a distribuição
0,0556
dos dados é alterar a amplitude dos 0,0833
inter valos à partir da frequência ou 0.09
0,1111
frequência relativa 0,0556
0,0694
salários frequência frequência
relativa 0.06 0,0417

Altura
04 |— 06 4 0,1111 0,0417
06 |— 08 6 0,1667
0,0278
08 |— 10 8 0,2222
0,0000
10 |— 12 4 0,1111 0.03
0,0139
12 |— 14 5 0,1389
14 |— 16 3 0,0833
16 |— 18 3 0,0833
0.00
18 |— 20 2 0,0556
20 |— 22 0 0,0000 4 8 12 16 20 24
Salários
22 |— 24 1 0,0278
Total 36 1,0000
Variáveis quantitativas contínuas
Gráfico
• Quanto mais dados estiverem disponíveis em relação a uma variável, melhor poderemos aproximar a
distribuição destes e poderemos vê-los segundo uma curva que fornece a distribuição de acordo com a área
abaixo dela

Salário dos funcionários Salário dos funcionários

0.08

0.09

0.06

0.06
Altura

Altura
0.04

0.03
0.02

0.00 0.00

4 6 8 10 12 14 16 18 20 22 24 4 6 8 10 12 14 16 18 20 22 24
Salários Salários
Variáveis quantitativas
Formas - Simetria
• O histograma pode nos revelar importantes características da distribuição de um conjunto de dados

Assimétrica à esquerda Simétrica Assimétrica à direita


1000

1500
1500

750

1000
1000
500

500 500
250

0 0 0

−6 −4 −2 0 −2.5 0.0 2.5 0 1 2 3 4 5


Variáveis quantitativas
Formas - Simetria
• O histograma pode nos revelar importantes características da distribuição de um conjunto de dados

Assimétrica à esquerda Simétrica Assimétrica à direita


1000

1500
1500

750

1000
1000
500

500 500
250

0 0 0

−6 −4 −2 0 −2.5 0.0 2.5 0 1 2 3 4 5


Variáveis quantitativas
Formas - Modalidade

Uniforme Unimodal
400

1000

300

750

200
500

100
250

0 0

0 10 20 30 −2.5 0.0 2.5


Variáveis quantitativas
Formas - Modalidade

Uniforme Unimodal
400

1000

300

750

200
500

100
250

0 0

0 10 20 30 −2.5 0.0 2.5


Variáveis quantitativas
Formas - Modalidade

Bimodal Multimodal
2000

750

1500

500

1000

250
500

0 0

−1 0 1 2 −1 0 1 2
Variáveis quantitativas
Formas - Modalidade

Bimodal Multimodal
2000

750

1500

500

1000

250
500

0 0

−1 0 1 2 −1 0 1 2
Variáveis quantitativas
Formas - Modalidade

Bimodal Multimodal
2000

750

1500

500

1000

250
500

0 0

−1 0 1 2 −1 0 1 2

Altura dos professores


Altura dos alunos