Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística População
É uma ciência baseada na Teoria das Probabilidades, cujo Em estatística utilizaremos extensivamente os termos população
objetivo principal é nos auxiliar a tomar decisões ou obter e amostra. Assim, definiremos esses termos no contexto da
conclusões em situação de incerteza, a partir de informações estatística:
numéricas.
População: conjunto de todos os indivíduos, objetos ou
Grandes áreas da Estatística informações que apresentam pelo menos uma característica
(observável) comum cujo comportamento interessa-nos
Estatística Descritiva = coleta de dados, organização,
analisar.
apresentação e sintetização dos dados.
Quanto ao número de elementos, a população pode ser:
Estatística Inferencial = consiste em inferir (deduzir ou tirar
conclusões a respeito das) propriedades de um universo a Finita;
partir de uma amostra.
Infinita.
3 4
5
População Amostra 6
1
13/11/2013
INDUÇÃO
Há situações em que a amostragem se impõe. Na maioria das pesquisas científicas é praticamente impossível
O caso em que a população de estudo é muito grande, se avaliar todos elementos que compõem uma população de
sendo impraticável o levantamento total. interesse de estudo (censo).
Amostragem Amostragem
No cotidiano é comum o uso de amostragem:
Como um cozinheiro verifica o tempero de um
prato que está preparando?
2
13/11/2013
?
dúvida. Agora eu Qual o protocolo da ocasião?
Qual roupa devo vestir? Está frio ou calor?
tenho 10.
Etc? Etc? Etc?
?
? ?? ?
? ??
? ? ? ?
Adaptado do slide Cáldulo da Amostra de Lauris, J. R. P. Adaptado do slide Cáldulo da Amostra de Lauris, J. R. P.
3
13/11/2013
Quantidade da Amostra
A quantidade adequada de elementos da amostra pode ser
calculada.
O cálculo depende:
Relação
das características da população. Quantidade e Qualidade
das características da pesquisa. da Amostra
do grau de precisão desejado pelo pesquisador.
do tamanho da população.
POPULAÇÃO POPULAÇÃO
AMOSTRA
AMOSTRA
Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P. Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P.
do tamanho da população.
4
13/11/2013
POPULAÇÃO POPULAÇÃO
AMOSTRA
AMOSTRA
Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P. Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P.
do tamanho da população.
Utilizar a maior variabilidade possível.
de como a amostra é selecionada (tipo de amostragem).
Estimar certos parâmetros populacionais, ou seja, limita-se a Testar hipóteses estatísticas acerca da população
5
13/11/2013
Exemplo: Considere a população constituída por todas as Exemplo: Em pesquisa eleitoral, pode-se escolher aleatoriamente
indústrias localizadas no estado da Bahia. Estas indústrias uma quantidade de zonas eleitorais, por exemplo 30, e pesquisar
podem ser divididas em pequenas, médias e grandes segundo o todos os eleitores das zonas selecionadas.
número de funcionários.
6
13/11/2013
4. Crítica dos questionários: leitura dos questionários, observação 7. Análise e interpretação dos dados: O interesse maior consiste em
de respostas incompletas, erradas. Supressão de valores tirar conclusões que auxiliem o pesquisador a resolver seu
estranhos ao levantamento. problema. A análise dos dados estatísticos está ligada
essencialmente ao cálculo de medidas, cuja finalidade principal
é descrever o fenômeno. Assim, o conjunto de dados a ser
4. Apuração dos dados: consiste em resumir os dados, através de analisado pode ser expresso por números-resumos, as
sua contagem e agrupamento. Nos dias atuais esta apuração estatísticas, que evidenciam características particulares desse
tornou-se sinônimo de organização de base de dados, que é conjunto.
realizada em computadores.
41 42
7
13/11/2013
As características associadas a cada elemento da população são Quanto à sua natureza, as variáveis são classificadas como
comumente chamadas de variáveis.
Exemplo:
Salário dos profissionais da indústria;
Concentração de álcool em determinada solução;
Tipo de erros encontrados na superfície de uma peça;
Setor de trabalho dos funcionários de uma fábrica;
Porte das indústrias do Estado da Bahia.
43 44
Ordinal
Variáveis quantitativas
Envolve dados que podem ser dispostos em alguma ordem, mas as
Se os resultados das observações serão expressos sempre através diferenças entre os valores dos dados não podem ser determinadas
de números, que representam contagens ou medidas. ou não tem sentido.
Exemplo: Idade, altura, peso, número de filhos, salário, … Exemplo: Nível de escolaridade, grau de satisfação, classe social, …
45 46
8
13/11/2013
53 54
9
13/11/2013
55 56
57 58
Cabeçalho
Coluna indicadora
Fonte
59 60
10
13/11/2013
Apresentação Tabular das Séries Estatísticas Apresentação Tabular das Séries Estatísticas
Elementos complementares:
Nota
Informações gerais para esclarecer o conteúdo das tabelas.
Chamadas
Esclarecer minúncias em relação às células, colunas ou linhas da
tabela.
61 62
63 64
11
13/11/2013
67 68
69 70
12
13/11/2013
13
13/11/2013
79 80
14
13/11/2013
Histograma Histograma
87 88
Histograma Histograma
(Classes desiguais)
89 90
15
13/11/2013
Assimétrico à Assimétrico à
Simétrico esquerda direita
93 94
16
13/11/2013
Gráfico interessante
“...curvas de magnitudes bem distantes
sob a mesma escala, a visualização da
variação fica bastante prejudicada.”
Mediana
Valores que resumem um conjunto de dados podem ser
classificados em: Moda
Separatrizes
Medidas de posição ou localização;
Se as medidas forem calculadas para os dados de uma
Medidas de dispersão ou variabilidade;
amostra, elas são chamadas de estatísticas da amostra.
Medidas de assimetria e curtose.
Se as medidas forem calculadas para os dados de uma
população, elas são chamadas de parâmetros populacionais.
101 102
17
13/11/2013
3,2 3,2 2,8 2,9 3,1 3,2 3,0 3,5 4,0 2,1
in1 xi
Média Amostral x
n Calcule o peso médio dos recém-nascidos.
iN1 xi
Média Populacional
N
103 104
in1 xi . f i
x
in1 f i
in1 xi . pi
x
in1 pi Para dados agrupados em intervalos de classes.
in1 mi . f i
Exemplo: Um estudante obteve na 1ª unidade a nota 7,0, na 2ª x
nota 9,0 e na 3ª nota 8,0. A nota final do semestre é uma in1 f i
média ponderada, em que as três unidades têm pesos 2, 3 e 5,
respectivamente. Logo, qual será a nota final deste aluno? sendo 𝒎𝒊 o ponto médio da i-ésima classe.
105 106
18
13/11/2013
Vantagem
Somando-se (ou subtraindo-se) um valor constante e A média é um valor “típico” (característico) do conjunto de dados.
arbitrário a cada um dos elementos de um conjunto de
É a principal medida de tendência central.
números, a média fica somada (ou subtraída) por essa
constante. Leva em consideração todas as observações efetuadas.
Calcula-se com facilidade.
Multiplicando-se (ou dividindo-se) cada elemento de um
conjunto de números por um valor constante e arbitrário, a
Desvantagem
média fica multiplicada (ou dividida) por essa constante.
Muito sensível a valores extremos, isto é, a valores
Exemplo: Salário médio mensal de cinco empregados de uma certa empresa. excessivamente pequenos ou grandes, em relação às demais
observações do conjunto de dados.
Dados em reais: 123 145 210 225 2.500
109 110
Mediana Mediana
É o valor central em uma distribuição, quando o conjunto de
Exemplo: Calcule a mediana dos conjuntos a seguir.
dados está ordenado.
Conjunto 1 = {10, 29, 26, 28, 15}
Divide a distribuição em duas partes iguais, de modo que 50%
Conjunto 2 = {500, 600, 800, 50.000, 1.000, 500}
dos valores observados são iguais ou inferiores ao valor mediano
e 50% iguais ou superiores a esse valor.
111 112
19
13/11/2013
Moda Separatrizes
Exemplo: Estudo sobre os principais defeitos de fabricação de Permitem calcular valores da variável que dividem a
capas de livro de uma determinada editora. distribuição em partes iguais. Existem quatro tipos de
separatrizes, também chamada de quantis.
Tipo de erro Frequência (%)
Mediana
Impressão 40
Comprimento da caixa 30 Quartis
Largura da caixa 20 Decis
Altura da caixa 10
Total 100 Centis ou Percentis
Qual a moda?
115 116
Separatrizes Separatrizes
Enquanto a mediana separa a distribuição em duas partes Cálculo do percentil de ordem 𝑗:
iguais, a característica principal das outras separatrizes é:
1. Ordenar os dados de forma crescente;
Quartis (Qi): dividem a distribuição em quatro partes iguais;
2. Calcular a posição (𝑃𝑜𝑠𝑗 ) do percentil j
Decis (Di): dividem em dez partes iguais;
Centis ou Percentis (Pi): dividem em cem partes iguais.
𝑗
𝑃𝑜𝑠𝑗 = ×𝑛
100
Relação entre as separatrizes:
3. 𝑃𝑜𝑠𝑗 é um número inteiro?
Os quartis Q1, Q2 e Q3 são os percentis P25, P50 e P75.
Os decis D1, D2, … e D9 são os percentis P10, P20, … e P90. SIM - O percentil 𝑗 será calculado como a média aritmética dos
elementos que ocupam a posição 𝑃𝑜𝑠𝑗 e a posição 𝑃𝑜𝑠𝑗 + 1.
Md = Q2 = D5 = P50.
NÃO - O percentil 𝑗 é o elemento que ocupa a posição 𝑃𝑜𝑠𝑗 , sendo
117
que 𝑃𝑜𝑠𝑗 será arredondado para o maior inteiro mais próximo. 118
Desvio padrão
119 120
20
13/11/2013
121 122
Eduardo? N n 1
21
13/11/2013
131 132
22
13/11/2013
133 134
135 136
137 138
23
13/11/2013
139 140
141 142
Construa um boxplot para a variável teor de nicotina. Q1 = 1,635 Q2 = 1,77 Q3 = 2,00 d = 0,365
143 144
24
13/11/2013
Box-Plot e Assimetria
O que fazer se são detectados
outliers em um conjunto de dados?
147 148
149 150
25
13/11/2013
Análise Bivariada
Até o momento todas as análises foram discutidas para
cada variável individualmente. A técnica a ser estudada a
seguir refere-se a problemas que envolvam conjuntos de
dados que possuem duas ou mais variáveis qualitativas ou
quantitativas.
Muitas vezes queremos realizar uma análise descritiva de
duas variáveis simultâneamente, ou seja, verificar se há
uma relação entre duas variáveis.
Universidade Federal da Bahia
Instituto de Matemática Queremos conhecer o grau de dependência entre as variáveis
Departamento de Estatística para prever melhor o resultado de uma delas quando
Disciplina: MAT021 – Estatística I-B
conhecermos a realização da outra.
Professor: Jonatas SES
2012.2
Qualitativa x Qualitativa
Quantitativa x Quantitativa
Qualitativa x Quantitativa
A opinião sobre o aborto
independe da renda familiar?
Variáveis Qualitativas
Exemplo 1: Há indícios de associação entre o sexo e o hábito
Deseja-se verificar independência entre as variáveis em de fumar?
estudo, ou seja, ausência de associação entre elas.
26
13/11/2013
Exemplo 2: Há indícios de associação entre o hábito de Exemplo 3: Existe ou não associação entre o sexo e a carreira
fumar e câncer de pulmão ? escolhida por 200 alunos de Engenharia e Contábeis?
Sexo
Curso Total
Masculino Feminino
Engenharia 100 20 120
Contábeis 40 40 80
Total 140 60 200
Coeficiente de YULE
Existindo associação entre as variáveis, torna-se
interessante quantificar essa associação. Permite verificar a existência de associação entre duas
variáveis qualitativas. Cada variável com apenas duas
De modo geral, a quantificação do grau de associação categorias.
entre duas variáveis é feita pelos chamados coeficientes Variável 2
de associação ou correlação. Variável 1 Categoria Categoria 2 Total
1
Usualmente variam entre 0 e 1, ou entre -1 e +1, Categoria 1 a b a+b
indicando falta de associação a proximidade do zero. Categoria 2 c d c+d
Total a+c b+d N
Existem muitas dessas medidas, veremos a seguir o
Coeficiente de Yule.
ad bc
Y
ad bc
3) Y ≠ 0 corresponde a associação entre as variáveis. É lícito concluir (ou pelo menos suspeitar) à luz destes dados que o
curso está associado com a aprovação do bacharel no exame do CFC?
27
13/11/2013
Variáveis Quantitativas
𝑎𝑑 − 𝑏𝑐 130 𝑋 160 − (70 𝑋 80) 15200 A investigação da relação de duas variáveis deste
𝑌= = = = 0,58 tipo usualmente começa com uma análise gráfica
𝑎𝑑 + 𝑏𝑐 130 𝑋 160 + (70 𝑋 80) 26400
dos dados, através do gráfico de dispersão.
Exemplo 5 Exemplo 6
Exemplo 6 Exemplo 7
28
13/11/2013
Exemplo 7
x y
i 1
i i nx y
r 0
r X X Y
. Correlação linear Correlação linear
n n positiva perfeita positiva
i 1
xi 2 nx 2
i 1
yi 2 ny 2
Y
1 r 0 Y r 1
X
Correlação nula
O coeficiente de correlação, mede a força da associação linear entre
as duas variáveis avaliadas, sendo uma medida válida se as duas
variáveis estão relacionadas linearmente, ou seja, se a relação X
X
visualizada no gráfico de dispersão lembrar o desenho de uma reta. Correlação linear Correlação linear
negativa perfeita negativa
Calcule o coeficiente de correlação linear entre as variáveis X Um dos cuidados que devemos ter quando a correlação é
e Y. interpretada é saber que correlação não é o mesmo que
i X Y X.Y X2 Y2 n causalidade (relação de causa e efeito).
1
2
2
4
10
8
20
32
4
16
100
64
x y nx y
i 1
i i
r . Quando duas variáveis são altamente correlacionadas, não
3 6 6 36 36 36 n 2 n 2 significa, necessariamente, que uma causa a outra.
4 8 10 80 64 100
i 1
2
xi nx yi ny
i 1
2
5 10 12 120 100 144
Um outro cuidado que deve ser tomado ao se interpretar
Σ 30 46 288 220 444
correlação é associar um diagrama de dispersão ao
conjunto de dados.
288 −5 𝑥 6 𝑥 9,2
𝑟= =0,41
(220 −5 𝑥 62 )(444 −5 𝑥 9,22 )
29
13/11/2013
Cuidados que devemos ter quando a correlação Cuidados que devemos ter quando a correlação
30