Escolar Documentos
Profissional Documentos
Cultura Documentos
Arthur Lima
Nome do curso Aula 00
1 de 23| www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Sumário
ESTATÍSTICA DESCRITIVA ............................................................................................................................... 2
MEDIDAS DE ASSIMETRIA .................................................................................................................................................................. 8
PROBABILIDADE............................................................................................................................................ 9
ESTIMAÇÃO PONTUAL.................................................................................................................................. 13
1 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Estatística Descritiva
Conceitos básicos
- Histograma é um gráfico de barras que representa, no seu eixo horizontal, as classes de valores que uma
variável pode assumir, e em seu eixo vertical os valores das frequências de cada classe.
- Ogiva: gráfico de freqüências acumuladas, onde ligamos os pontos extremos (limites superiores) das
classes de valores. Chamamos a figura formada no gráfico de polígono de freqüências.
- Assimetria à direita (assimetria positiva): temos um pico, e os dados se estendem para a direita (sentido
positivo).
Medidas de posição
Média: soma de todos os valores da variável observada, dividida pelo total de observações. Fórmula para
dados em rol (listados):
ou
n
Xi
Média = i =1
n
Para dados em tabela de frequências:
Média = Soma dos produtos de cada valor da variável multiplicado pela respectiva frequência dividida
pela soma das frequências da variável
n
( Xi Fi )
Média = i =1
n
Fi
i =1
2 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Média = Soma dos produtos do ponto médio (PM) cada intervalo de classe da variável multiplicado pela
respectiva frequência da classe, dividida pela soma das frequências dos intervalos de classe da variável
n
( PMi Fi )
Média = i =1
n
Fi
i =1
- multiplicando-se ou dividindo-se todos os valores observados por um valor constante, a média desse
novo conjunto será multiplicada ou dividida pelo mesmo valor.
- o valor da média é calculado utilizando todos os valores da amostra. Portanto, qualquer alteração nesses
valores poderá alterar a média (ela é afetada pelos valores extremos).
média ponderada: é uma média onde cada um dos valores observados tem um peso diferente, ou uma
ponderação diferente. O cálculo é muito similar àquele que vimos ao trabalhar com tabelas, usando a fórmula
abaixo, onde cada “peso” substitui um valor de frequência (Fi):
n
( Xi Fi )
Média = i =1
n
Fi
i =1
Mediana: é a observação “do meio” quando os dados são organizados do menor para o maior (listados
em rol) . Sendo n o tamanho da população ou amostra, temos que a mediana é o termo da posição (n+1)/2, se
n for ímpar. E é a média aritmética dos termos ao redor de (n+1)/2, se n for par.
Caso os dados estejam organizados em intervalos de classe, o cálculo da mediana é feito através do
método da interpolação linear no passo a passo a seguir:
1º passo: calcular a divisão n/2, onde n é o número total de frequências, obtendo a posição da mediana.
3º passo: montar a proporção entre as frequências acumuladas e os limites da classe da mediana. Ex.:
Frequência: 26 40 45
|-----------------------------|----------------|
3 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
|-----------------------------|----------------|
- A mediana é única para um conjunto de dados, e não é afetada pela inclusão ou exclusão de algum valor
extremo (máximo ou mínimo) na amostra.
Moda: valor da observação com maior número de frequências. Uma amostra pode ter 1, 2 ou mais modas
(ser unimodal, bimodal etc.). Quando os dados estiverem agrupados em classes, seguir os passos:
1. Descobrir qual é a classe modal (CM): aquela com maior número de frequências.
2. Identificar a classe posterior (post) e a classe anterior (ant).
3. Aplicar uma das duas fórmulas abaixo, dependendo do método de cálculo da moda indicado pelo
exercício:
Moda de King:
fpost
Moda = li + c
fant + fpost
Moda de Czuber:
fcm − fant
Moda = li + c
2 fcm − ( fant + fpost )
- O valor da moda não é afetado pelos valores extremos (mínimos e máximos) da amostragem.
Simetria
4 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Valor esperado: é a soma dos produtos entre cada valor que a variável pode assumir e a probabilidade de
cada valor ser obtido. Utilizamos ainda os nomes “Esperança de X” ou “Expectância de X” como sinônimos do
“Valor esperado de X”. E utilizamos o símbolo E(X) para representá-lo. Em regra, o valor esperado também é a
média aritmética. Assim, sendo X uma variável aleatória, temos que o valor esperado dessa variável, chamado
de E(X), pode ser dado por:
E ( X ) = xi p( xi ) , sendo p(xi) a probabilidade de a variável X assumir o valor xi
i =1
b) E(aX + b) = aE(X) + b → sendo a e b duas constantes, a variável aleatória Y = aX + b tem o valor esperado
igual a aE(X) + b. Ex.: sendo Y = 2X + 1, então:
c) E(aX + bY) = aE(X) + bE(Y) → sendo X e Y duas variáveis aleatórias, então a esperança da variável Z =
aX + bY é igual a aE(X) + bE(Y). Ex.: sendo Z = 2X + 3Y, então:
Quartis: Assim como a mediana divide os dados em 2, os quartis dividem os dados em 4. Isto é, abaixo do
primeiro quartil estão ¼, ou 25% das observações. Dele até o segundo quartil, outros 25%. E assim por diante.
Note que o segundo quartil é a própria mediana. Assim, sendo n o número de observações, temos a seguinte
tabela:
Quartil Posição
1 (n+1)/4
2 2(n+1)/4
3 3(n+1)/4
Medidas de dispersão:
- Chamamos de variância a média do quadrado das distâncias de cada observação até a média aritmética.
A distância de uma observação Xi até a média aritmética X é dada pela subtração X i − X . O quadrado desta
5 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
distância é ( X i − X ) . A média do quadrado dessas distâncias é dado pelo somatório de todos os valores
2
( Xi − X ) 2
Variancia = 1
n
- para dados em tabela de frequências, sendo Fi a frequência da variável Xi:
n
[ Fi ( Xi − X ) ] 2
Variancia = 1
n
Fi
1
- para dados em tabela com intervalos de classes, sendo PMi o ponto médio do intervalo e Fi a frequência
do intervalor:
n
[ Fi ( PMi − X ) ] 2
Variancia = 1
n
Fi
1
Para calcular a variância sem precisar calcular anteriormente a média, podem ser usadas as fórmulas
abaixo:
2
n
1 n
X i − 2
Xi
n i =1
Variância = i =1
n
ou
2
n
1 n
( X i Fi ) − ( X i Fi )
2
n i =1
Variância = i =1
n
ou
2
n
1 n
( PM i Fi ) − ( PM i Fi )
2
n i =1
Variância = i =1
n
6 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Obs.: para calcular a variância AMOSTRAL, é preciso substituir n por “n-1” nos denominadores das fórmulas,
n n
ou substituir Fi por
1
Fi − 1 (também apenas nos denominadores).
1
= Variancia
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒
𝐷𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 <
2
A amplitude é dada pela diferença entre a maior e a menor observação do conjunto de dados.
- se somarmos ou subtrairmos um mesmo valor de todos os elementos de uma amostra, o desvio padrão
e a variância permanecem inalterados
- se multiplicarmos ou dividirmos todos os elementos da amostra pelo mesmo valor, o desvio padrão é
multiplicado/dividido por este mesmo valor. Já a variância é multiplicada/dividida pelo quadrado desse valor
(pois ela é igual ao quadrado do desvio padrão).
- se temos uma variável X e criamos uma variável Y tal que Y = aX + b (onde a e b são valores constantes),
o desvio padrão de Y é “a” vezes maior que o de X, e a variância de Y é “a2” vezes maior que a de X.
- Coeficiente de variação (CV): CV =
- o CV é uma medida de dispersão RELATIVA, própria para a comparação de amostras.
Técnicas de amostragem
- Amostragem aleatória simples: escolha aleatória dos indivíduos da população que farão parte da
amostra (em uma lista, por exemplo). É preciso que você tenha acesso aos dados de todos os indivíduos da
população.
7 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
- Amostragem acidental: o pesquisador fica em um local com grande circulação de pessoas e vai
entrevistando pessoas ao acaso (acidentalmente).
- Amostragem intencional: entrevistador escolhe pessoas que ele acredita serem relevantes para a sua
pesquisa.
- Amostragem por cotas: consiste em dividir a população em grupos e, a seguir, extrair quantidades pré-
definidas (“cotas”) de indivíduos de cada grupo para se montar a amostra.
- Amostragem de voluntários: como o nome diz, é composta por indivíduos que voluntariamente
participam da pesquisa.
MEDIDAS DE ASSIMETRIA
8 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
𝑄3 + 𝑄1 − 2. 𝑀𝑑
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑄𝑢𝑎𝑟𝑡í𝑙𝑖𝑐𝑜 =
𝑄3 − 𝑄1
Sendo Q3 o 3º quartil, Q1 o 1º quartil e Md a mediana
(𝑀é𝑑𝑖𝑎 − 𝑀𝑜𝑑𝑎)
𝑃𝑟𝑖𝑚𝑒𝑖𝑟𝑜 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛 =
𝐷𝑒𝑠𝑣𝑖𝑜 𝑃𝑎𝑑𝑟ã𝑜
(𝑀é𝑑𝑖𝑎 − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝑆𝑒𝑔𝑢𝑛𝑑𝑜 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛 = 3.
𝐷𝑒𝑠𝑣𝑖𝑜 𝑃𝑎𝑑𝑟ã𝑜
Probabilidade
Probabilidade do Evento=
número de resultados favoráveis P(A B)=P(A) P(B)
número total de resultados
P ( A B ) = P ( A ) + P (B ) − P ( A B ) P( A B) = 0
Probabilidade(E) = 1 - Probabilidade(E C ) P( A B)
P( A / B) =
P (B )
9 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
- representa situações em que a variável pode assumir apenas e exatamente 2 valores, que serão representados por 0 ou
1;
- média: E(X) = p;
Distribuição Binomial
- parâmetros: número fixo de tentativas(n), número desejado de sucessos(k), probabilidade de sucesso em cada
tentativa(p);
n
P(k , n, p ) = p k (1 − p ) n −k
k
- média: E(X) = n x p;
Distribuição de Poisson
- útil em fenômenos que ocorrem ao longo do tempo com uma regularidade conhecida;
𝑒 −𝜆 . 𝜆𝑘
𝑓(𝑘, 𝜆) =
𝑘!
- média: E(X) = 𝝀;
- variância: Var(X) = 𝝀.
10 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Distribuição Geométrica
- distribuição discreta
- parâmetros: número fixo de tentativas(n), número de tentativas necessárias até a obtenção do primeiro sucesso(k),
probabilidade de sucesso em cada tentativa(p);
- média: E(X) = 1/ p;
Distribuição Normal
- presente em fenômenos da natureza em que a maior parte dos valores está próxima da média, mas há valores mais
afastados da média para ambos os lados;
- se os dados tem distribuição normal, pode-se dizer que cerca de 68% encontram-se entre − e + . Da mesma
forma, 95% dos dados encontram-se entre − 2 e + 2 , e 99,7% entre − 3 e + 3 ;
- para transformar uma distribuição normal qualquer em uma normal padrão, basta usar a transformação:
X −
Z=
- a distribuição é simétrica, de modo que P(X > a) é igual a P (X < -a), e média = mediana = moda.
Distribuição Qui-quadrado
11 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
- média: E(X) = n;
Distribuição t de Student
- média: E(X) = 0;
- variância: Var (t n ) =
n
n−2
Distribuição Exponencial
f ( x; ) = e − x , se x 0
e
f ( x; ) = 0, se x 0
1
E( X ) =
- variância:
1
Var ( X ) =
2
- função de distribuição acumulada:
F ( x; ) = 1 − e − x
12 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
1
P=
K2
Estimação Pontual
- Parâmetro: característica da população (ex.: idade média populacional);
- Estimador: função matemática usada para obter a estimativa (ex.: somar todos os valores e dividir pela
quantidade)
- Viés: “parcialidade” ou “tendência” do estimador. Um estimador não viesado tem como valor esperado o
próprio valor do parâmetro;
- Consistência: um estimador consistente converge para o valor do parâmetro à medida que o número de
observações aumenta (e a sua variância tende a zero);
- Eficiência: entre dois estimadores, o mais eficiente é o que possui MENOR variância;
- Suficiência: o estimador suficiente capta todas as informações sobre o parâmetro a ser estimado.
ESTIMADOR IDEAL
- mediana amostral: é não-viesada e consistente, mas é menos eficiente que a média amostral
- Variância (com “n” no denominador): é viesado. Colocando-se n-1 no denominador, fica não-viesado
(variância amostral).
13 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Estimação Intervalar
TEOREMA CENTRAL DO LIMITE E DISTRIBUIÇÕES AMOSTRAIS
Ele nos diz que a Distribuição Amostral da Média é uma distribuição Normal. Além disso, a média da
Distribuição Amostral da Média converge para a média populacional e o seu desvio padrão é dado pelo desvio
padrão populacional divido pela raiz de n, em que n é o tamanho das amostras. Logo, sendo 𝜇 a média
populacional da variável e 𝜎 o desvio padrão populacional da variável, temos que a média e o desvio padrão da
distribuição amostral da MÉDIA dessa variável são dados por:
𝑝 (1 − 𝑝 )
𝐸=√ → 𝑒𝑟𝑟𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑛𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑝𝑟𝑜𝑝𝑜𝑟çõ𝑒𝑠
𝑛
𝜎
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 2. 𝑍𝛼 .
2 √𝑛
ou
𝑠
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 2. 𝑡𝛼 .
2 √𝑛
𝜎
𝑀𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜 = 𝑍𝛼 .
2 √𝑛
ou
𝑠
𝑀𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜 = 𝑡𝛼 .
2 √𝑛
14 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
1−𝑝
𝑃𝑟𝑜𝑝𝑜𝑟çã𝑜 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 (𝑝) ± 𝑍𝛼 . √𝑝.
2 𝑛
1−𝑝
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 2 . 𝑍𝛼 . √𝑝.
2 𝑛
1−𝑝
𝑀𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜 = 𝑍𝛼 . √𝑝.
2 𝑛
TAMANHO DE AMOSTRAS
𝑍𝛼⁄2 . 𝜎 2
𝑛=( ) → 𝑝𝑎𝑟𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑚é𝑑𝑖𝑎𝑠
𝑑
𝑍𝛼⁄2 2
𝑛=( ) . 𝑝. 𝑞 → 𝑝𝑎𝑟𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑝𝑟𝑜𝑝𝑜𝑟çõ𝑒𝑠
𝑑
- as fórmulas acima consideram que a população é infinita (amostragem com reposição)
Testes de Hipóteses
RECEITA DE BOLO – TESTES DE HIPÓTESES PARA MÉDIAS
15 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
2 – Rascunhar a curva normal, marcando as regiões de aceitação e de rejeição (região crítica) de acordo com o nível de
significância 𝛼 e o tipo de teste (bilateral, se H1 for do tipo “média diferente de”, ou unilateral, se H1 for do tipo “maior que”
ou “menor que”)
Usar t de Student se n < 30 e o desvio padrão populacional for desconhecido. Neste caso,
𝑋̅ − 𝜇
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝑠
√𝑛
Número de graus de liberdade = n – 1
H0 é Verdadeira H0 é falsa
16 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Análise de Regressão
COVARIÂNCIA:
- Calcular a média de X
- Calcular a média de Y
Logo:
cov(aX + b, cY + d) = a.c.cov(X,Y)
CORRELAÇÃO:
cov( X , Y )
correlação( X , Y ) =
x y
- a correlação varia de -1 a +1.
Tanto a Correlação como a Covariância nos informam o sentido da associação entre as variáveis – positiva ou negativa.
Entretanto, somente a correlação nos informa a INTENSIDADE da associação (mais forte, se próxima de -1 ou de 1, e mais
fraca, se mais próxima de 0).
Se duas variáveis aleatórias são independentes, a correlação e a covariância são iguais a ZERO.
17 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
REGRESSÃO LINEAR:
Yi = + X i + i
- i é o erro aleatório.
- o coeficiente é chamado coeficiente linear. Ele indica em que ponto a reta de regressão cruza o eixo vertical,
ou seja, o valor de Y para quando X é igual a zero.
- é o coeficiente angular. Ele indica a inclinação da reta de regressão, que pode ser crescente (se >0) ou
decrescente (se <0).
Y = + X
Média de Y = + . (Média de X)
n ( XY ) − X Y
=
n X 2 − ( X ) 2
Y = + X
cov( X ,Y )
=
sx 2
COEFICIENTE DE DETERMINAÇÃO R2
- interpretação: é o percentual das variações da variável dependente que são explicadas pela variável independente.
- Sua fórmula é:
18 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
{ [( X i − X )(Yi − Y )]} 2
R =
2
( X i − X )2 (Yi − Y )2
Y = + 1 X 1 + 2 X 2 + 3 X 3
Lei FRACA dos grandes números Lei FORTE dos grandes números
ANÁLISE DE RESÍDUOS
- trata-se do estudo do comportamento do resíduo (erro aleatório) da regressão linear
Séries Temporais
Conjunto de observações de uma variável aleatória ordenadas no tempo.
19 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
variações cíclicas: são outras variações que ocorrem no gráfico de forma cíclica.
Série temporal é estacionária quando ela possui uma média constante ao longo do tempo.
Série temporal é estocástica quando possui uma componente aleatória, e determinística quando não possui,
podendo ser descrita por uma função matemática.
Modelos autorregressivos
Modelo autorregressivo de primeira ordem – AR(1): série em que Xt depende somente do estado
imediatamente anterior, ou seja, Xt-1. Isto é:
Xt = c + a.Xt-1 + et
Média:
𝒄
Média de Xt = E(Xt) =
𝟏−𝒂
Variância:
𝝈𝟐𝜺
𝑽𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 𝒅𝒐 𝒑𝒓𝒐𝒄𝒆𝒔𝒔𝒐 = 𝝈𝟐𝒙 =
𝟏 − 𝒂𝟐
𝝈𝟐𝒙
𝜸(𝑻) = . 𝒂𝑻
𝟏 − 𝒂𝟐
𝝆(𝑻) = 𝒂𝑻
20 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
Médias Móveis
∑𝑖𝑗=𝑡−𝑖 𝑥𝑡
𝑴é𝒅𝒊𝒂 𝑴ó𝒗𝒆𝒍𝑡 =
𝑖
• Com menos dados incluídos na média: A média se apresenta mais sensível as últimas mudanças.
• Com mais dados incluídos na média: A média se apresenta menos sensível as últimas mudanças.
21 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo
22 de 21 | www.direcaoconcursos.com.br