Você está na página 1de 23

Prof.

Arthur Lima
Nome do curso Aula 00

1 de 23| www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Sumário
ESTATÍSTICA DESCRITIVA ............................................................................................................................... 2
MEDIDAS DE ASSIMETRIA .................................................................................................................................................................. 8

PROBABILIDADE............................................................................................................................................ 9

PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE DISCRETAS ........................................................................ 10

PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE CONTÍNUAS ....................................................................... 11

ESTIMAÇÃO PONTUAL.................................................................................................................................. 13

PROPRIEDADES DOS ESTIMADORES ........................................................................................................... 13


ESTIMADOR IDEAL ....................................................................................................................................... 13
ESTIMADORES IMPORTANTES PARA A MÉDIA............................................................................................. 13
OUTROS ESTIMADORES IMPORTANTES ...................................................................................................... 13

ESTIMAÇÃO INTERVALAR ............................................................................................................................. 14

TEOREMA CENTRAL DO LIMITE E DISTRIBUIÇÕES AMOSTRAIS ................................................................... 14


ERRO PADRÃO NA ESTIMATIVA ................................................................................................................... 14
INTERVALO DE CONFIANÇA PARA A MÉDIA ................................................................................................. 14
INTERVALO DE CONFIANÇA PARA PROPORÇÕES ........................................................................................ 15
INTERVALOS DE CONFIANÇA VS. INTERVALOS DE CREDIBILIDADE............................................................. 15
TAMANHO DE AMOSTRAS ........................................................................................................................... 15

TESTES DE HIPÓTESES ................................................................................................................................. 15

ERROS EM TESTES DE HIPÓTESES ............................................................................................................... 16


OUTROS CONCEITOS EM TESTES DE HIPÓTESES ........................................................................................ 16

ANÁLISE DE REGRESSÃO .............................................................................................................................. 17


LEIS DOS GRANDES NÚMEROS ........................................................................................................................................................ 19
ANÁLISE DE RESÍDUOS ..................................................................................................................................................................... 19

SÉRIES TEMPORAIS ...................................................................................................................................... 19

1 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Estatística Descritiva
Conceitos básicos

- População: são todas as entidades sob estudo

- Censo: análise de todos os indivíduos que compõem aquela população

- Amostra: subconjunto daquela população

- Variável: um determinado atributo os integrantes da população. Pode ser ou quantitativa. As variáveis


quantitativas podem ser ou discretas. Chamamos uma variável de Variável Aleatória quando ela pode assumir,
de maneira aleatória, qualquer dos seus valores possíveis.

- Observação: valor da variável para um determinado membro da população.

- Histograma é um gráfico de barras que representa, no seu eixo horizontal, as classes de valores que uma
variável pode assumir, e em seu eixo vertical os valores das frequências de cada classe.

- Ogiva: gráfico de freqüências acumuladas, onde ligamos os pontos extremos (limites superiores) das
classes de valores. Chamamos a figura formada no gráfico de polígono de freqüências.

- Assimetria à direita (assimetria positiva): temos um pico, e os dados se estendem para a direita (sentido
positivo).

- Assimetria à esquerda (negativa): os dados se estendem para a esquerda (sentido negativo).

Medidas de posição

Média: soma de todos os valores da variável observada, dividida pelo total de observações. Fórmula para
dados em rol (listados):

Média = Soma dos valores da variável dividida pela quantidade de elementos

ou
n

 Xi
Média = i =1
n
Para dados em tabela de frequências:

Média = Soma dos produtos de cada valor da variável multiplicado pela respectiva frequência dividida
pela soma das frequências da variável
n

 ( Xi  Fi )
Média = i =1
n

 Fi
i =1

Para dados agrupados em classes (usar ponto médio):

2 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Média = Soma dos produtos do ponto médio (PM) cada intervalo de classe da variável multiplicado pela
respectiva frequência da classe, dividida pela soma das frequências dos intervalos de classe da variável
n

 ( PMi  Fi )
Média = i =1
n

 Fi
i =1

Principais propriedades da média:

- somando-se ou subtraindo-se um valor constante em todas as observações, a média desse novo


conjunto será somada ou subtraída do mesmo valor

- multiplicando-se ou dividindo-se todos os valores observados por um valor constante, a média desse
novo conjunto será multiplicada ou dividida pelo mesmo valor.

- a soma das diferenças entre cada observação e a média é igual a zero.

- o valor da média é calculado utilizando todos os valores da amostra. Portanto, qualquer alteração nesses
valores poderá alterar a média (ela é afetada pelos valores extremos).

média ponderada: é uma média onde cada um dos valores observados tem um peso diferente, ou uma
ponderação diferente. O cálculo é muito similar àquele que vimos ao trabalhar com tabelas, usando a fórmula
abaixo, onde cada “peso” substitui um valor de frequência (Fi):
n

 ( Xi  Fi )
Média = i =1
n

 Fi
i =1

Mediana: é a observação “do meio” quando os dados são organizados do menor para o maior (listados
em rol) . Sendo n o tamanho da população ou amostra, temos que a mediana é o termo da posição (n+1)/2, se
n for ímpar. E é a média aritmética dos termos ao redor de (n+1)/2, se n for par.

Caso os dados estejam organizados em intervalos de classe, o cálculo da mediana é feito através do
método da interpolação linear no passo a passo a seguir:

1º passo: calcular a divisão n/2, onde n é o número total de frequências, obtendo a posição da mediana.

2º passo: identificar a classe onde se encontra a mediana

3º passo: montar a proporção entre as frequências acumuladas e os limites da classe da mediana. Ex.:

Frequência: 26 40 45

|-----------------------------|----------------|

3 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Valores: 1,60 X 1,70

|-----------------------------|----------------|

4º passo: calcular a mediana (X):


𝑠𝑒𝑔𝑚𝑒𝑛𝑡𝑜 𝑣𝑒𝑟𝑚𝑒𝑙ℎ𝑜 𝑑𝑎𝑠 𝑓𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎𝑠 𝑠𝑒𝑔𝑚𝑒𝑛𝑡𝑜 𝑣𝑒𝑟𝑚𝑒𝑙ℎ𝑜 𝑑𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠
=
𝑠𝑒𝑔𝑚𝑒𝑛𝑡𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑎𝑠 𝑓𝑟𝑒𝑞𝑢ê𝑛𝑐𝑖𝑎𝑠 𝑠𝑒𝑔𝑚𝑒𝑛𝑡𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠

- A mediana é única para um conjunto de dados, e não é afetada pela inclusão ou exclusão de algum valor
extremo (máximo ou mínimo) na amostra.

Moda: valor da observação com maior número de frequências. Uma amostra pode ter 1, 2 ou mais modas
(ser unimodal, bimodal etc.). Quando os dados estiverem agrupados em classes, seguir os passos:

1. Descobrir qual é a classe modal (CM): aquela com maior número de frequências.
2. Identificar a classe posterior (post) e a classe anterior (ant).
3. Aplicar uma das duas fórmulas abaixo, dependendo do método de cálculo da moda indicado pelo
exercício:

Moda de King:

  fpost 
Moda = li + c   
  fant + fpost  
Moda de Czuber:

  fcm − fant 
Moda = li + c   
  2 fcm − ( fant + fpost )  

- O valor da moda não é afetado pelos valores extremos (mínimos e máximos) da amostragem.

Simetria

Simetria Média, Mediana e Moda

Simétrica Média = Mediana = Moda*

Assimétrica positiva (à direita) Média > Mediana > Moda

Assimétrica negativa (à esquerda) Média < Mediana < Moda

4 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Valor esperado: é a soma dos produtos entre cada valor que a variável pode assumir e a probabilidade de
cada valor ser obtido. Utilizamos ainda os nomes “Esperança de X” ou “Expectância de X” como sinônimos do
“Valor esperado de X”. E utilizamos o símbolo E(X) para representá-lo. Em regra, o valor esperado também é a
média aritmética. Assim, sendo X uma variável aleatória, temos que o valor esperado dessa variável, chamado
de E(X), pode ser dado por:

E ( X ) =  xi  p( xi ) , sendo p(xi) a probabilidade de a variável X assumir o valor xi
i =1

Propriedades do valor esperado:

a) E(k) = k → a esperança de uma função constante é igual à própria constante.

b) E(aX + b) = aE(X) + b → sendo a e b duas constantes, a variável aleatória Y = aX + b tem o valor esperado
igual a aE(X) + b. Ex.: sendo Y = 2X + 1, então:

E(Y) = E(2X + 1) = 2E(X) + 1

c) E(aX + bY) = aE(X) + bE(Y) → sendo X e Y duas variáveis aleatórias, então a esperança da variável Z =
aX + bY é igual a aE(X) + bE(Y). Ex.: sendo Z = 2X + 3Y, então:

E(Z) = E(2X + 3Y) = 2E(X) + 3E(Y)

Quartis: Assim como a mediana divide os dados em 2, os quartis dividem os dados em 4. Isto é, abaixo do
primeiro quartil estão ¼, ou 25% das observações. Dele até o segundo quartil, outros 25%. E assim por diante.
Note que o segundo quartil é a própria mediana. Assim, sendo n o número de observações, temos a seguinte
tabela:

Quartil Posição

1 (n+1)/4

2 2(n+1)/4

3 3(n+1)/4

Medidas de dispersão:

- Chamamos de variância a média do quadrado das distâncias de cada observação até a média aritmética.
A distância de uma observação Xi até a média aritmética X é dada pela subtração X i − X . O quadrado desta

5 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

distância é ( X i − X ) . A média do quadrado dessas distâncias é dado pelo somatório de todos os valores
2

( X i − X ) 2 , dividido pelo total de observações (n). Portanto, a fórmula da variância é:

- para dados em rol (listados):


n

 ( Xi − X ) 2

Variancia = 1
n
- para dados em tabela de frequências, sendo Fi a frequência da variável Xi:
n

 [ Fi  ( Xi − X ) ] 2

Variancia = 1
n

 Fi
1

- para dados em tabela com intervalos de classes, sendo PMi o ponto médio do intervalo e Fi a frequência
do intervalor:
n

 [ Fi  ( PMi − X ) ] 2

Variancia = 1
n

 Fi
1

Para calcular a variância sem precisar calcular anteriormente a média, podem ser usadas as fórmulas
abaixo:
2
n
1 n 
 X i −  2
Xi 
n  i =1 
Variância = i =1
n
ou
2
n
1 n 
 ( X i  Fi ) −   ( X i  Fi ) 
2

n  i =1 
Variância = i =1
n
ou
2
n
1 n 
 ( PM i  Fi ) −   ( PM i  Fi ) 
2

n  i =1 
Variância = i =1
n

6 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Obs.: para calcular a variância AMOSTRAL, é preciso substituir n por “n-1” nos denominadores das fórmulas,
n n
ou substituir  Fi por
1
 Fi − 1 (também apenas nos denominadores).
1

- Desvio-padrão (  ): é a raiz quadrada da variância:

 = Variancia
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒
𝐷𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 <
2
A amplitude é dada pela diferença entre a maior e a menor observação do conjunto de dados.

Propriedades do desvio padrão e da variância:

- se somarmos ou subtrairmos um mesmo valor de todos os elementos de uma amostra, o desvio padrão
e a variância permanecem inalterados

- se multiplicarmos ou dividirmos todos os elementos da amostra pelo mesmo valor, o desvio padrão é
multiplicado/dividido por este mesmo valor. Já a variância é multiplicada/dividida pelo quadrado desse valor
(pois ela é igual ao quadrado do desvio padrão).

- se temos uma variável X e criamos uma variável Y tal que Y = aX + b (onde a e b são valores constantes),
o desvio padrão de Y é “a” vezes maior que o de X, e a variância de Y é “a2” vezes maior que a de X.


- Coeficiente de variação (CV): CV =

- o CV é uma medida de dispersão RELATIVA, própria para a comparação de amostras.

Técnicas de amostragem

Técnicas de amostragem casual (probabilísticas):

- Amostragem aleatória simples: escolha aleatória dos indivíduos da população que farão parte da
amostra (em uma lista, por exemplo). É preciso que você tenha acesso aos dados de todos os indivíduos da
população.

- Amostragem sistemática: consiste na criação de um sistema de escolha de indivíduos a partir de critérios


pré-determinados.

- Amostragem por conglomerados (ou agrupamentos): dividir a população em subgrupos


(“conglomerados”) e então escolher alguns destes subgrupos para serem totalmente analisados. Os
conglomerados devem ser mutuamente exclusivos, isto é, cada indivíduo só fará parte de 1 conglomerado.

- Amostragem estratificada: dividir a população em estratos, que são subconjuntos da população


compostos por indivíduos com algumas semelhanças entre si. Os estratos também devem ser mutuamente
exclusivos.

7 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

- Técnicas não-casuais de amostragem (não probabilísticas):

- Amostragem acidental: o pesquisador fica em um local com grande circulação de pessoas e vai
entrevistando pessoas ao acaso (acidentalmente).

- Amostragem intencional: entrevistador escolhe pessoas que ele acredita serem relevantes para a sua
pesquisa.

- Amostragem por cotas: consiste em dividir a população em grupos e, a seguir, extrair quantidades pré-
definidas (“cotas”) de indivíduos de cada grupo para se montar a amostra.

- Amostragem de voluntários: como o nome diz, é composta por indivíduos que voluntariamente
participam da pesquisa.

Diagrama Box Plot

Limite Superior → MENOR valor entre o valor máximo e Q3 + 1,5.(Q3-Q1)

Limite Inferior → MAIOR valor entre o valor mínimo e Q1 – 1,5.(Q3 – Q1)

Outliers (valores atípicos) → acima do Limite Superior ou abaixo do Limite Inferior

MEDIDAS DE ASSIMETRIA

8 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

𝑃90 + 𝑃10 − 2. 𝑃50


𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑃𝑒𝑟𝑐𝑒𝑛𝑡í𝑙𝑖𝑐𝑜 =
𝑃90 − 𝑃10
Sendo P90 o percentil 90, P10 o percentil 10 e P50 o percentil 50 (corresponde à mediana)

𝑄3 + 𝑄1 − 2. 𝑀𝑑
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑄𝑢𝑎𝑟𝑡í𝑙𝑖𝑐𝑜 =
𝑄3 − 𝑄1
Sendo Q3 o 3º quartil, Q1 o 1º quartil e Md a mediana

(𝑀é𝑑𝑖𝑎 − 𝑀𝑜𝑑𝑎)
𝑃𝑟𝑖𝑚𝑒𝑖𝑟𝑜 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛 =
𝐷𝑒𝑠𝑣𝑖𝑜 𝑃𝑎𝑑𝑟ã𝑜

(𝑀é𝑑𝑖𝑎 − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝑆𝑒𝑔𝑢𝑛𝑑𝑜 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛 = 3.
𝐷𝑒𝑠𝑣𝑖𝑜 𝑃𝑎𝑑𝑟ã𝑜

Probabilidade

Definição: Eventos independentes:

Probabilidade do Evento=
número de resultados favoráveis P(A  B)=P(A)  P(B)
número total de resultados

Probabilidade da união de eventos: Eventos mutuamente excludentes:

P ( A  B ) = P ( A ) + P (B ) − P ( A  B ) P( A  B) = 0

Eventos complementares: Probabilidade condicional:

Probabilidade(E) = 1 - Probabilidade(E C ) P( A  B)
P( A / B) =
P (B )

9 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Principais distribuições de Probabilidade Discretas


Distribuição Bernoulli

- distribuição discreta (assume apenas dois valores);

- representa situações em que a variável pode assumir apenas e exatamente 2 valores, que serão representados por 0 ou
1;

- a probabilidade de 0bter o valor 1 é chamada de p;

- média: E(X) = p;

- variância: Var(X) = p x (1 – p).

Distribuição Binomial

- distribuição discreta (assume apenas dois valores: sucesso ou fracasso);

- parâmetros: número fixo de tentativas(n), número desejado de sucessos(k), probabilidade de sucesso em cada
tentativa(p);

- probabilidade de se obter exatamente k sucessos em n tentativas:

n
P(k , n, p ) =    p k  (1 − p ) n −k
k 
- média: E(X) = n x p;

- variância: Var(X) = n x p x (1 – p).

Distribuição de Poisson

- distribuição discreta (assume apenas valores inteiros);

- útil em fenômenos que ocorrem ao longo do tempo com uma regularidade conhecida;

- cada observação é independente das demais;

- parâmetro 𝜆: representa o número de observações esperadas dentro do prazo de análise;

- probabilidade de se obter exatamente k observações no prazo de análise:

𝑒 −𝜆 . 𝜆𝑘
𝑓(𝑘, 𝜆) =
𝑘!
- média: E(X) = 𝝀;

- variância: Var(X) = 𝝀.

10 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Distribuição Geométrica

- distribuição discreta

- parâmetros: número fixo de tentativas(n), número de tentativas necessárias até a obtenção do primeiro sucesso(k),
probabilidade de sucesso em cada tentativa(p);

- probabilidade de serem necessários k experimentos até a obtenção do primeiro sucesso:

P(X = k) = p.(1 – p)k-1

- média: E(X) = 1/ p;

- variância: Var(X) = (1 – p)/p².

Principais distribuições de Probabilidade Contínuas


- Nas distribuições contínuas, a probabilidade de qualquer valor exato é ZERO

Distribuição Normal

- distribuição de variável contínua;

- presente em fenômenos da natureza em que a maior parte dos valores está próxima da média, mas há valores mais
afastados da média para ambos os lados;

- se os dados tem distribuição normal, pode-se dizer que cerca de 68% encontram-se entre  − e  +  . Da mesma
forma, 95% dos dados encontram-se entre  − 2 e  + 2 , e 99,7% entre  − 3 e  + 3 ;

- a distribuição normal padrão tem média 0 e desvio padrão 1;

- para transformar uma distribuição normal qualquer em uma normal padrão, basta usar a transformação:

X −
Z=

- a distribuição é simétrica, de modo que P(X > a) é igual a P (X < -a), e média = mediana = moda.

Distribuição Qui-quadrado

- distribuição de variável contínua;

- formada pela soma dos quadrados de “n” distribuições normais;

11 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

- possui “n” graus de liberdade;

- média: E(X) = n;

- variância: Var(X) = 2n;

- quanto mais graus de liberdade, mais próxima da distribuição normal.

Distribuição t de Student

- distribuição de variável contínua;

- aproximação teórica da distribuição normal;

- possui “n” graus de liberdade;

- média: E(X) = 0;

- variância: Var (t n ) =
n
n−2

Distribuição Exponencial

- distribuição de variável contínua;

- função densidade de probabilidade:

f ( x;  ) = e −  x , se x  0
e

f ( x;  ) = 0, se x  0

- média ou valor esperado:

1
E( X ) =

- variância:

1
Var ( X ) =
2
- função de distribuição acumulada:

F ( x;  ) = 1 − e −  x

- Teorema de Tchebyshev: a proporção máxima de valores fora do intervalo [  - k  ;  + k  ] é dada por:

12 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

1
P=
K2

Estimação Pontual
- Parâmetro: característica da população (ex.: idade média populacional);

- Estimativa: valor obtido a partir de uma amostra (ex.: média amostral);

- Estimador: função matemática usada para obter a estimativa (ex.: somar todos os valores e dividir pela
quantidade)

PROPRIEDADES DOS ESTIMADORES

- Viés: “parcialidade” ou “tendência” do estimador. Um estimador não viesado tem como valor esperado o
próprio valor do parâmetro;

- Consistência: um estimador consistente converge para o valor do parâmetro à medida que o número de
observações aumenta (e a sua variância tende a zero);

- Eficiência: entre dois estimadores, o mais eficiente é o que possui MENOR variância;

- Suficiência: o estimador suficiente capta todas as informações sobre o parâmetro a ser estimado.

ESTIMADOR IDEAL

não-viesado (não tendencioso), consistente, eficiente e suficiente.

ESTIMADORES IMPORTANTES PARA A MÉDIA

- média amostral: é não-viesada e consistente

- mediana amostral: é não-viesada e consistente, mas é menos eficiente que a média amostral

- primeiro item coletado: é não-viesado, mas não é consistente

OUTROS ESTIMADORES IMPORTANTES

- Variância (com “n” no denominador): é viesado. Colocando-se n-1 no denominador, fica não-viesado
(variância amostral).

- Desvio padrão (com “n” ou com “n-1” no denominador): é viesado.

13 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Estimação Intervalar
TEOREMA CENTRAL DO LIMITE E DISTRIBUIÇÕES AMOSTRAIS

Ele nos diz que a Distribuição Amostral da Média é uma distribuição Normal. Além disso, a média da
Distribuição Amostral da Média converge para a média populacional e o seu desvio padrão é dado pelo desvio
padrão populacional divido pela raiz de n, em que n é o tamanho das amostras. Logo, sendo 𝜇 a média
populacional da variável e 𝜎 o desvio padrão populacional da variável, temos que a média e o desvio padrão da
distribuição amostral da MÉDIA dessa variável são dados por:

𝑀é𝑑𝑖𝑎 = 𝑚é𝑑𝑖𝑎 𝑑𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜 (𝜇)


𝜎
𝐷𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 =
√𝑛

ERRO PADRÃO NA ESTIMATIVA


𝜎
𝐸= → 𝑒𝑟𝑟𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑛𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑚é𝑑𝑖𝑎𝑠
√𝑛

𝑝 (1 − 𝑝 )
𝐸=√ → 𝑒𝑟𝑟𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑛𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑝𝑟𝑜𝑝𝑜𝑟çõ𝑒𝑠
𝑛

INTERVALO DE CONFIANÇA PARA A MÉDIA


𝜎
𝑀é𝑑𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 ± 𝑍𝛼 .
2 √𝑛
ou
𝑠
𝑀é𝑑𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 ± 𝑡𝛼 .
2 √𝑛
- Usar a segunda SOMENTE quando n < 30 e o desvio padrão populacional for desconhecido

- número de graus de liberdade (t de Student) = n – 1

𝜎
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 2. 𝑍𝛼 .
2 √𝑛
ou
𝑠
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 2. 𝑡𝛼 .
2 √𝑛

𝜎
𝑀𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜 = 𝑍𝛼 .
2 √𝑛
ou
𝑠
𝑀𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜 = 𝑡𝛼 .
2 √𝑛

14 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

INTERVALO DE CONFIANÇA PARA PROPORÇÕES

1−𝑝
𝑃𝑟𝑜𝑝𝑜𝑟çã𝑜 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 (𝑝) ± 𝑍𝛼 . √𝑝.
2 𝑛

1−𝑝
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 2 . 𝑍𝛼 . √𝑝.
2 𝑛

1−𝑝
𝑀𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜 = 𝑍𝛼 . √𝑝.
2 𝑛

INTERVALOS DE CONFIANÇA VS. INTERVALOS DE CREDIBILIDADE

Intervalos de Confiança Intervalos de Credibilidade

Estatística Frequentista Estatística Bayesiana

Não dependem da distribuição a priori Utilizam informações da distribuição a priori


(criando intervalo de probabilidade a
posteriori)

TAMANHO DE AMOSTRAS

𝑍𝛼⁄2 . 𝜎 2
𝑛=( ) → 𝑝𝑎𝑟𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑚é𝑑𝑖𝑎𝑠
𝑑

𝑍𝛼⁄2 2
𝑛=( ) . 𝑝. 𝑞 → 𝑝𝑎𝑟𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑖𝑣𝑎 𝑑𝑒 𝑝𝑟𝑜𝑝𝑜𝑟çõ𝑒𝑠
𝑑
- as fórmulas acima consideram que a população é infinita (amostragem com reposição)

- quando p e q forem desconhecidos, usar p = q = 0,5

Testes de Hipóteses
RECEITA DE BOLO – TESTES DE HIPÓTESES PARA MÉDIAS

1 – Formular a hipótese nula (H0) e a hipótese alternativa (H1) – mutuamente excludentes

15 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

2 – Rascunhar a curva normal, marcando as regiões de aceitação e de rejeição (região crítica) de acordo com o nível de
significância 𝛼 e o tipo de teste (bilateral, se H1 for do tipo “média diferente de”, ou unilateral, se H1 for do tipo “maior que”
ou “menor que”)

3 – Obter Ztabelado com base no nível de significância e tipo de teste


𝑋̅−𝜇
4 – Obter Zcalculado por meio da expressão 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝜎
√𝑛

5 – Posicionar Zcalculado no gráfico e obter a conclusão do teste – aceitação ou rejeição de H0

Usar t de Student se n < 30 e o desvio padrão populacional for desconhecido. Neste caso,

𝑋̅ − 𝜇
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝑠
√𝑛
Número de graus de liberdade = n – 1

Se for um teste de hipóteses para proporções, usar


(𝑝 − 𝑝0 )
𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
√𝑝0 . 1 − 𝑝0
𝑛
onde p é a proporção obtida na amostra e p0 está nas hipóteses do teste.

ERROS EM TESTES DE HIPÓTESES

H0 é Verdadeira H0 é falsa

CERTO Erro tipo II (falso negativo,


H0 é Aceita
probabilidade 𝛽)

Erro tipo I (falso positivo, CERTO


H0 é Rejeitada
probabilidade 𝛼)

OUTROS CONCEITOS EM TESTES DE HIPÓTESES

- Poder (Potência) do Teste: probabilidade de rejeitar corretamente a hipótese nula (1 − 𝛽)

- p-valor (nível descritivo, probabilidade de significância): 𝑝 − 𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼 → 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0

16 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Análise de Regressão

COVARIÂNCIA:

cov(X, Y) = E(XY) – E(X).E(Y)

Passos para calcular a covariância

- Calcular os valores de X.Y

- Calcular a média de X.Y

- Calcular a média de X

- Calcular a média de Y

- Aplicar a fórmula da covariância

var(a.X + b.Y) = a2.Var(X) + b2.Var(Y) + 2.a.b.cov(X,Y)

Logo:

var(X+Y) = var(X) + var(Y) + 2cov(X,Y)

var(X-Y) = var(X) + var(Y) - 2cov(X,Y)

cov(aX + b, cY + d) = a.c.cov(X,Y)

CORRELAÇÃO:

cov( X , Y )
correlação( X , Y ) =
 x y
- a correlação varia de -1 a +1.

Tanto a Correlação como a Covariância nos informam o sentido da associação entre as variáveis – positiva ou negativa.
Entretanto, somente a correlação nos informa a INTENSIDADE da associação (mais forte, se próxima de -1 ou de 1, e mais
fraca, se mais próxima de 0).

Se duas variáveis aleatórias são independentes, a correlação e a covariância são iguais a ZERO.

Correlação(a.X + b, c.Y + d) = sinal(ac) Correlação(X, Y)

17 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

REGRESSÃO LINEAR:

Yi =  +  X i +  i

-  i é o erro aleatório.

- o coeficiente  é chamado coeficiente linear. Ele indica em que ponto a reta de regressão cruza o eixo vertical,
ou seja, o valor de Y para quando X é igual a zero.

-  é o coeficiente angular. Ele indica a inclinação da reta de regressão, que pode ser crescente (se  >0) ou
decrescente (se  <0).

Y = +  X

Média de Y =  +  . (Média de X)

PASSOS PARA CALCULAR UMA RETA DE REGRESSÃO:

1 – Obter o coeficiente angular da reta, por meio da expressão:

n ( XY ) −  X  Y
=
n X 2 − ( X ) 2

2 – Obter o coeficiente linear da reta, usando a relação entre médias:

Y = +  X

- Outra forma de calcular o coeficiente angular:

cov( X ,Y )
=
sx 2

COEFICIENTE DE DETERMINAÇÃO R2

- é o quadrado do coeficiente de correlação

- mede o ajustamento da regressão ao modelo linear

- varia entre 0 e 1 (quanto mais próximo de 1, melhor o ajustamento)

- interpretação: é o percentual das variações da variável dependente que são explicadas pela variável independente.

- Sua fórmula é:

18 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

{ [( X i − X )(Yi − Y )]} 2
R =
2

( X i − X )2   (Yi − Y )2

- Regressão linear múltipla:

Y =  + 1 X 1 +  2 X 2 + 3 X 3

LEIS DOS GRANDES NÚMEROS


- afirmam que a média amostral converge para média populacional à medida que aumentamos o tamanho da
amostra.

Lei FRACA dos grandes números Lei FORTE dos grandes números

A convergência ocorre em PROBABILIDADE A convergência é CERTA / QUASE CERTA

Se o número de elementos da amostra é A partir de um tamanho de amostra “n”


suficientemente grande, a convergência é suficientemente grande, a convergência é CERTA /
PROVÁVEL QUAE CERTA

ANÁLISE DE RESÍDUOS
- trata-se do estudo do comportamento do resíduo (erro aleatório) da regressão linear

- características desejáveis do resíduo:

- média igual a zero

- variância constante (homoscedasticidade, e NÃO heterocedasticidade)

- normalidade (resíduos com distribuição normal em torno do zero)

- diagrama de dispersão de resíduos (gráfico de resíduos): permite verificar a homoscedasticidade e a presença


de outliers

- quando a suposição da homoscedasticidade é violada, a distribuição de probabilidade do modelo é afetada,


mas não o valor esperado

Séries Temporais
Conjunto de observações de uma variável aleatória ordenadas no tempo.

Principais movimentos da série:

19 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

tendência secular: trata-se da tendência geral do gráfico.

variações sazonais ou estacionais: variação que ocorre em intervalos bem definidos.

variações cíclicas: são outras variações que ocorrem no gráfico de forma cíclica.

variações aleatórias: outras variações oriundas de uma componente aleatória.

Série temporal é estacionária quando ela possui uma média constante ao longo do tempo.

Série temporal é estocástica quando possui uma componente aleatória, e determinística quando não possui,
podendo ser descrita por uma função matemática.

Modelos autorregressivos

Xt = c + a1Xt-1 + a2Xt-2 + ... + apXt-p + et

Modelo autorregressivo de primeira ordem – AR(1): série em que Xt depende somente do estado
imediatamente anterior, ou seja, Xt-1. Isto é:

Xt = c + a.Xt-1 + et

• parâmetros de um modelo AR(1):

• é estacionário se |a| < 1;

Média:
𝒄
Média de Xt = E(Xt) =
𝟏−𝒂

Variância:

𝝈𝟐𝜺
𝑽𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 𝒅𝒐 𝒑𝒓𝒐𝒄𝒆𝒔𝒔𝒐 = 𝝈𝟐𝒙 =
𝟏 − 𝒂𝟐

Função autocovariância (para dois termos a “T” posições de distância):

𝝈𝟐𝒙
𝜸(𝑻) = . 𝒂𝑻
𝟏 − 𝒂𝟐

Função autocorrelação (para dois termos a “T” posições de distância):

𝝆(𝑻) = 𝒂𝑻

20 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

Médias Móveis

A média móvel corresponde à média aritmética das últimas i observações 𝑥𝑡 . Veja:

∑𝑖𝑗=𝑡−𝑖 𝑥𝑡
𝑴é𝒅𝒊𝒂 𝑴ó𝒗𝒆𝒍𝑡 =
𝑖
• Com menos dados incluídos na média: A média se apresenta mais sensível as últimas mudanças.

• Com mais dados incluídos na média: A média se apresenta menos sensível as últimas mudanças.

21 de 21 | www.direcaoconcursos.com.br
Prof. Arthur Lima
Direção Final – Receita Federal – Estatística Resumo

22 de 21 | www.direcaoconcursos.com.br

Você também pode gostar