Escolar Documentos
Profissional Documentos
Cultura Documentos
Curitiba
2012
1 . Conceitos e definições
1.1 O que é Estatística?
Podemos entender o termo Estatística como sendo um conjunto de técnicas que permitem,
de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos
ou experimentos, realizados em qualquer área do conhecimento.
A grosso modo podemos dividir a Estatística em três áreas:
Estatística Descritiva
Probabilidade
Inferência Estatística
É, em geral, utilizada na etapa inicial da análise, quando tomamos contato com os dados
pela primeira vez. Objetivando tirar conclusões de modo informal e direto, a maneira mais
simples seria a observação dos valores colhidos. Assim, a estatística descritiva pode ser
definida como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de
que possamos tirar conclusões a respeito de características de interesse.
1.1.2 Probabilidade
Probabilidade pode ser pensada como a teoria matemática utilizada para estudar a incerteza
oriunda de fenômenos de caráter aleatório.
Observação. Alguns autores consideram a Probabilidade como uma das divisões da
Estatística.
A coleta pode ser direta e indireta. É direta quando feita sobre elementos informativos de
registros obrigatórios (nascimentos, casamentos, importação e exportação de mercadorias),
elementos pertinentes aos prontuários dos alunos de uma escola, ou ainda, quando os
dados são coletados pelo próprio pesquisador através de inquéritos e questionários, como é
o caso das notas de verificação e de exames do censo demográfico, etc.
A coleta direta de dados pode ser classificada relativamente ao fator tempo em:
a) contínua – também denominada registro, é feita continuamente, tal como a de
nascimentos, casamentos e óbitos ou como no de vendas a vista de uma empresa
comercial;
b) periódica – quando feita em intervalos constantes de tempo, como os censos em geral
(de 10 em 10 anos) e os balanços de uma empresa comercial;
c) ocasional – quando feita de tal modo que não se considera o tempo em continuidade e
nem periódico, a saber, independente do tempo e é feita quando a requer o estudo de um
fenômeno. São realizadas a fim de atender a uma conjuntura ou a uma emergência, como
no caso de epidemias que assolam ou dizimam rebanhos inteiros.
A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do
conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como por
exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados
colhidos por uma coleta direta. É coleta indireta também, a pesquisa sobre a duração de
vida do ser humano que pode ser feita com os dados colhidos através da coleta direta,
obtidos pelos cartórios ou os valores representativos das vendas de uma empresa que são
extraídos das notas fiscais e do caixa.
Com o propósito de identificar possíveis falhas e imperfeições que possam ocasionar erros
grosseiros ou de certo vulto e assim, influenciar os resultados, os dados devem se
cuidadosamente criticados.
A crítica pode ser externa ou interna.
a) Externa: quando visa às causas dos erros por parte do informante, por distração ou má
interpretação das perguntas que lhe foram feitas;
b) Interna: quando visa observar os elementos originais dos dados da coleta.
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser
apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame
daquilo que está sendo objeto de tratamento estatístico e posterior obtenção de médias,
modas, medianas, etc.
1.3 Variável
1.3.1 Variável qualitativa – quando seus valores são expressos por atributos: sexo
(masculino – feminino), cor da pele (branca, preta, amarela, vermelha, parda), tamanho
(pequeno, médio ou grande) etc.
1.3.1.2 Qualitativa nominal – quando não é possível estabelecer uma ordem natural.
Exemplo. Fuma (sim, não).
1.3.2 Variável quantitativa – quando seus valores são expressos em números (salários dos
operários, idade dos alunos de uma escola etc.).
1.3.2.2 Variável contínua – uma variável quantitativa que pode assumir, teoricamente,
qualquer valor entre dois limites, chama-se variável contínua.
Por exemplo, na determinação das alturas dos adolescentes de uma escola, a variável
“altura” é continua. Seja uma classe onde o menor aluno possui 155 cm e o mais alto 190
cm, os demais alunos podem assumir qualquer altura nesse intervalo, digamos 168,5 cm.
1.4.2 Amostra
1.4.3 Amostragem
É uma técnica especial para recolher amostras, de uma mesma população, que garanta,
tanto quanto possível, o acaso na escolha.
Dessa forma, cada elemento da população passa a ter a mesma chance de ser escolhido, o
que garante à amostra o caráter de representatividade, da população da qual foi extraída.
Uma amostra é representativa de uma população quando é composta por elementos
escolhidos de forma não tendenciosa, geralmente, por um procedimento que garanta a
casualidade, procedimento importante para a confiabilidade dos resultados e necessário à
inferência.
Como é difícil conhecer a população dos indivíduos pesquisados, utilizamos a amostragem
para tentar obter as características da população utilizando alguns indivíduos apenas.
A amostragem deve ser usada quando:
a) a população é particularmente grande ou infinita;
b) as observações ou mensurações têm alto custo;
c) as medidas exigem testes destrutivos;
d) há necessidade de rapidez etc.
Exemplo
Suponhamos uma rua contendo novecentos prédios, dos quais desejamos obter uma
amostra formada por cinqüenta prédios. Podemos, neste caso, usar o seguinte
procedimento: como 900/50 = 18, escolheremos por sorteio casual um número de 1 a 18
(inclusive), o qual indicaria o primeiro elemento sorteado para a amostra; os demais
elementos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado
fosse o 4, tomaríamos, pelo lado direito da rua, o 4º prédio, o 22º, o 40º etc, até voltarmos
ao início da rua, pelo lado esquerdo.
Sempre é possível que a amostra obtida seja tendenciosa ou viciada, isto é, não
representativa da população.
2. Apresentação de Dados
3. Distribuições de Frequências
Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem
assumir, para que tenhamos uma visão ampla da variação dessa ou dessas variáveis. E
isso ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos.
São aqueles que ainda não foram organizados. Um exemplo é o conjunto das alturas de 100
estudantes tirado de uma lista alfabética do registro da universidade.
3.2 Rol.
Frequência simples ou absoluta (fi) do valor xi é o número de vezes que a variável estatística
assume o valor xi.
Mas o processo dado pode ser inconveniente, já que exige muito espaço, mesmo quando o
número de valores da variável é de tamanho razoável. Sendo possível, a solução mais
aceitável, pela própria natureza da variável contínua, é o agrupamento de valores em vários
intervalos. Deste modo, estaremos agrupando os valores da variável em intervalos, sendo
que, em Estatística, preferimos chamar de classes.
Chamando de frequência de uma classe o número de valores da variável pertencentes à
classe.
Obs. Segundo Resolução 886/66 do IBGE o intervalo de classe deve ser fechado à
esquerda e aberto à direita, e utiliza-se o símbolo |.
R = 22 – 19 = 3
f
i 1
i ou f i
3.9.1 Propriedades do somatório
P4) O somatório de uma diferença de variáveis é igual à diferença dos somatórios de cada
uma das variáveis:
x i y i xi y i
4. Representação Gráfica
Após a coleta de dados em uma pesquisa, vimos que uma maneira de organizar dados de
forma concisa é construir tabelas de frequências. Uma vez obtida a tabela de frequências
podemos visualizar melhor os dados destas, construindo-se gráficos.
A apresentação em gráficos, das distribuições de freqüências de uma variável em estudo,
permite ao leitor uma visualização acurada dos resultados inseridos nas tabelas.
Existem diversos tipos de gráficos e a escolha adequada depende basicamente do tipo de
dado e da finalidade da apresentação. Os gráficos podem ser facilmente elaborados com
uso de softwares específicos, tal como o software Excel.
4.5 Histograma.
Dividem-se em:
Matemáticas:
Média aritmética;
Média geométrica;
Média harmônica.
Não matemáticas:
Moda;
Mediana.
x média da amostra;
média populacional.
x x2 xn x i
x 1 i 1
.
n n
x1 x 2 x n x N
xi
i 1
.
N N
b) Séries agrupadas ( f i )
n
x f x2 f 2 xn f n x i fi
x 1 1 i 1
.
f1 f 2 f n n
f
i 1
i
x f x2 f 2 xn f n x N f N x i fi
x 1 1 i 1
.
f1 f 2 f n f N N
f
i 1
i
5.2 Média geométrica
Seja x x1 , x2 , ..., xn uma amostra com n observações no formato de uma PG, a média
geométrica simples desse conjunto de dados é obtida por:
n
G n x1 .x2 ..x n n x
i 1
i .
b) Séries agrupadas ( f i )
Seja x x1 , x2 , ..., xn uma amostra com n observações no formato de uma PG, onde
podem ocorrer repetições nos valores observados. Temos que a média geométrica desse
conjunto de dados é obtida por:
n
G i x1f1 .x1f 21 ..x1f n fi xifi .
f
i 1
Podemos ver que quando trabalhamos com a média geométrica para séries agrupadas,
temos a multiplicação de valores com uma potência relacionada, assim podendo conduzir a
valores elevados. Uma solução alternativa que se apresenta nesses casos consiste em
utilizar logaritmos e transformar as expressões para as que seguem:
log G
log x i
log G
log x f i i
n f i
ln G
ln x i
ln G
ln x f
i i
n f i
É um tipo especial de média, deve ser usada quando a série apresentar uma relação inversa
entre os dados, por exemplo, nos casos de cálculo de velocidade média ou consumo médio,
pois, à medida que a velocidade ou consumo aumentam, o tempo envolvido diminui.
Seja x x1 , x2 , ..., xn uma amostra com n observações, a média harmônica desse
conjunto de dados é:
n
H .
1
x
i
b) Séries agrupadas ( f i )
H
f i
.
f
xi
i
5.4 Mediana
0% Me 100%
Por estar no centro da série em termos da quantidade de elementos, a mediana não sofre
interferência dos valores extremos. Por isso acaba sendo uma medida mais útil e mais
interessante do que a própria média, principalmente para a análise e interpretação de fatos
socioeconômicos, onde é frequente a presença de valores extremos fortemente
diferenciados.
Cálculo da mediana
A mediana corresponde a média aritmética simples dos valores dos dois termos centrais.
c) Série Agrupada
n 1
n ímpar, a mediana será o elemento central ;
2
n n
n par, a mediana será a média entre os elementos centrais e 1 .
2 2
5.5 Moda (Mo)
É utilizada para destacar o elemento que mais se repete num conjunto de dados, ou seja,
moda é o elemento que tiver a maior frequência.
Cálculo da moda
b) Série agrupada ( f i )
São medidas utilizadas para fazer cortes ordenados em uma série (amostra), visando
identificar características relevantes. Dividem-se em:
Mediana;
Quartis;
Decis;
Percentis.
6.1 Mediana
É o elemento que divide a série em partes iguais (50% abaixo e 50% acima do seu valor).
6.2 Quartis
São elementos que dividem a amostra (série) em quatro partes iguais, ou seja, de 25% em
25%.
6.3 Decis
São elementos que dividem a série em dez partes iguais, ou seja, de 10% em 10%.
6.4 Percentis
São elementos que dividem a série em cem partes iguais, ou seja, de 1% em 1%.
Podemos notar que a mediana, quartis e os decis são conjuntos de percentis, assim
podemos substituir todas as separatrizes apenas pelos percentis.
Como podemos substituir qualquer uma das três medidas pelos percentis, apenas uma
equação é necessária:
n 1 x 1
100% 0% p 0%
onde:
n é o número de observações;
x é a ordem de uma determinada observação;
p é o percentil desejado expresso em %.
p
x (n 1) 1.
100
7. Medidas de dispersão
São medidas utilizadas para avaliar o grau de dispersão, ou variabilidade, dos valores em
torno da média. Servem para medir a representatividade da média.
x ou
R xmax xmin .
7.2 Variância
d i xi x ou d i xi
d i 0
( d i ) 2 ( xi x ) 2 ou ( d i ) 2 ( xi ) 2
Populacional – 2 ;
Amostral – S 2 .
d (x x xi
2
)2
2 2
.
2 i i i
N N N N
Para dados agrupados:
d (x x xi f i
2
)2 fi
2 2
fi fi
2 i i i
N N N N
A variância, S 2 , de uma amostra com n observações é igual a soma dos quadrados dos
desvios, dividido por (n 1) , assim:
d
2
(x x)2 1
x i
xi
2
.
2 i i 2
S
n 1 n 1 n 1 n
Para dados agrupados:
d
2
fi (x x)2 fi 1
x i f i
xi f i
2
.
2 i i 2
S
n 1 n 1 n 1 n
O desvio padrão reflete a variação média absoluta dos dados em torno da média aritmética.
A teoria dos seis sigmas (seis desvios padrão) na área da qualidade, busca reduzir ainda
mais a variabilidade dos processos produtivos, ou seja, busca reduzir a possibilidade do
processo apresentar defeito.
S
CV .100 ou CV .100 .
x
onde:
Existe baixa dispersão – boa representatividade para a média aritmética como medida
CV 15% como medida de posição;
Há média dispersão – a representatividade da média aritmética como medida de
15% CV 30% posição
Há elevada dispersão – a representatividade da média aritmética como medida de
30% CV posição é ruim.
7.5 Escore padronizado
( xi x ) ( xi )
Zi ou Zi .
S
Às vezes quando trabalhamos com amostras de observações reais podemos nos deparar
valores extremos muito diferentes da media. Chamamos tais valores de outliers.
Esses valores podem provocar distorções na análise dos resultados. Portanto, é
interessante identificar-los, antes mesmo de iniciar as análises.
1º Método:
2º Método:
I Q3 Q1 .
Os dados situados fora dos intervalos que serão anunciados a seguir, podem ser
considerados dados extremos moderados.
Outliers moderados:
Linf Q1 3I
Linf Q1 3I
x Me Mo
Mo Me x
x Me Mo
1º Coeficiente de Pearson:
(x M 0 ) ( M 0 )
AS1 ou AS1
S
2º Coeficiente de Pearson:
Q3 Q1 2M e
AS1
Q3 Q1
Se:
É utilizado para calcular o achatamento de uma série estatística, podendo ocorrer três
possibilidades:
P75 P25
K
2( P90 P10 )
Interpretação:
É o conjunto de todos os eventos simples possíveis, ou seja, todos os valores que podem
aparecer, no caso do dado, ou todos os fenômenos possíveis de acontecer.
Exemplo: Na previsão do clima para uma cidade, temos três tipos de fenômenos possíveis:
C {chuva, sol, nublado} , que é o espaço amostral para o clima.
1
P(3)
6
que é a probabilidade para qualquer outro número sair.
Tal escola considera a probabilidade como a medida de uma crença pessoal de que
determinado evento tenha ocorrido, ocorrerá ou esteja ocorrendo.
Uma declaração do grau de crença em um acontecimento, com base em considerações
pessoais, denomina-se probabilidade subjetiva. Quando um gerente declara que é de 80% a
probabilidade de êxito do lançamento de um produto, ele está utilizando a probabilidade
subjetiva em face do acontecimento de um evento, no caso, lançamento do produto.
0 P( A) 1 0% P( A) 100%
P( A B) P( A) P( B) P( A B)
P( A B) P( A) P( B) .
Podemos estender essa idéia para um conjunto A* ( A1 , A2 , ..., Ap ) formado por eventos
mutuamente exclusivos:
P( A1 A2 ... Ap ) P( A1 ) P( A2 ) ... P( Ap ) P( Ai ) .
P( Ac ) 1 P( A) .
P( A B) P( A).P( B) .
P( A1 A2 ... Ap ) P( A1 ) P( A2 )...P( Ap ) P( Ai ) .
P( A B)
P( A / B) .
P( B)
P( A B) P( A) P( B / A) P( B) P( A / B) .
Se:
P( A B) P( A) P( B / A)
com P( B) P( B / A) temos
P( A B) P( A) P( B) .
P( E i ) P( A / Ei )
P( Ei / A) .
P( E 1) P( A / E1 ) P( E 2 ) P( A / E 2 ) ... P( E k ) P( A / Ek )
Seja X uma variável aleatória. Se o número de valores possíveis de X for finito ou infinito
enumerável, denominaremos X de variável aleatória discreta.
Seja X uma variável aleatória discreta. Sejam x1 , x2 , ... seus possíveis valores. A cada
resultado xi associaremos um número p( xi ) P( X xi ) , denominando probabilidade de
xi , tal que:
a) p( xi ) 1 ; x i ;
b) p( x ) 1 .
i
F ( x ) p ( xi ) .
xi x
k
( x ) E[ x] xi p( xi ) .
i 1
(2x ) E[ x 2 ] 2
onde E[ x 2 ] x 2
i p ( xi ) e x i p ( x i ) .
( x ) (2x ) .
Lançar uma moeda e verificar a face que cai voltada para cima.
Se a moeda for não viciada, assumindo que a face voltada para cima seja cara como
sucesso, temos que coroa é um fracasso.
p 1 e q (1 p) 1 .
2 2
Uma variável aleatória Bernoulli com como probabilidade de “sucesso” tem função de
probabilidade dada por:
P x ( x) Px ( X x) x (1 )1 x ; x 0,1; 0 1
E[x] e V [ x] (1 ) .
n
P Y ( y) PY (Y y ) y (1 ) n y ; y 0,1, 2, ... ; 0 1,
y
E[ x] n e V [ x] n (1 ) .
Exemplos:
K N K
Px ( X x)
x n x
N
n
K K N K N n
E[ x] n e V [ x] n . . ,
N N N N 1
x 0,1, 2, ..., n ;
K 0,1, 2, ..., N ;
n 1, 2, ..., N ;
N 0,1, 2, ... .
x .e
Px ( X x) x 0,1, 2, ... ; 0
x!
E[x] e V [x] .