Você está na página 1de 81

Estatística | Fabricio Biazotto

ESTATÍSTICA

ESTATÍSTICA

I. ESTATÍSTICA DESCRITIVA

1. CONCEITOS INICIAIS

Estatística – é um conjunto de métodos e processos matemáticos desenvolvidos para


a coleta, classificação, apresentação, analise e interpretação de dados acerca de um
fenômeno observado, possibilitando a tomada de decisões face às incertezas.

1.1 – Ramos da Estatística:

Estatística Descritiva (ou dedutiva) – voltada à coleta, organização, apresentação,


analise e interpretação dos dados observados através de gráficos e tabelas, além da
análise e desses dados.

Estatística Indutiva (ou Inferência Estatística) – processo de generalização que


permite tirar conclusões a respeito do comportamento do fenômeno estudo.

População (ou Universo Estatístico) – é um conjunto de dados, obtidos na


observação de um fenômeno, que apresentam pelo menos uma característica em
comum. Pode ser finita ou infinita.

Censo – é o levantamento envolvendo todos os elementos da população.

Amostra – é qualquer subconjunto finito e não vazio de uma população, excetuando-


se a própria população. O processo de retirada da amostra requer cuidados especiais
na tentativa de resguardar a fidelidade e a representatividade da população.

www.focusconcursos.com.br | 1
Estatística | Fabricio Biazotto

ESTATÍSTICA

Experimento aleatório – é aquele que, mesmo repetido em idênticas condições,


produz resultados imprevisíveis.

1.2 – Aspectos de um dado:

Qualitativo – característica do elemento em estudo, denominado atributo

Quantitativo – determina a intensidade com que o atributo ocorre no fenômeno


estudado, e é representado por uma variável.

Série estatística – é uma sucessão de dados estatísticos referidos a caracteres


qualitativos. Se a sucessão for quantitativa, configurará uma seriação.

1.3 – Tipos de séries estatísticas:

– Temporal (cronológica, histórica ou evolutiva) – a variável é o fator tempo.

– Geográfica (territorial, espacial ou de localização) – a variável é o fator


geográfico.

– Específica (especificativa ou categórica) – a variável é o fenômeno.

– Mista – ocorre a variação de pelo menos dois dos fatores: tempo, local ou fenômeno.

Distribuição de frequência (seriação) – neste caso, todos os elementos (época, local

www.focusconcursos.com.br | 2
Estatística | Fabricio Biazotto

ESTATÍSTICA

ou fenômeno) são fixos, variando apenas a intensidade de ocorrência do fenômeno.

1.4 – ORGANIZAÇÃO DOS DADOS ESTATÍSTICOS

Normas para apresentação tabular de dados Elementos essenciais:

Título – indicação contida na parte superior da tabela, onde deve estar definido o fato
observado, com a especificação de local e época referentes ao fato;

Cabeçalho – parte da tabela que apresenta a natureza do conteúdo de cada coluna;

Coluna indicadora – indica o conteúdo das linhas;

Célula (casa ou cela) – é o espaço resultante do cruzamento de uma linha com uma
coluna, onde se registra a frequência ou o valor da variável ou atributo.

Corpo – é a parte da tabela onde se encontram o cabeçalho, a coluna indicadora e as


linhas e colunas que contem a serie estatística;

Elementos complementares:

Fonte – designação da entidade que forneceu os dados estatísticos;

Notas – esclarecimentos de natureza geral;

Chamadas – esclarecimentos de natureza específica.

www.focusconcursos.com.br | 3
Estatística | Fabricio Biazotto

ESTATÍSTICA

Exemplo

Frota de veículos (em mil unidades) – 1996

PARANÁ BRASIL

Automóveis 1.224 18.727

Picapes 193 2.980

Caminhões 158 1.630

Ônibus 19 317

Motocicletas 218 2.919

Total 1.812 26.573

Fonte: Denatran

As Tabelas podem ser:

Simples – formadas por uma coluna indicadora (coluna matriz), onde são inscritos os
valores ou modalidades classificadas, e por uma coluna onde se inserem as
ocorrências ou as intensidades do fenômeno analisado.

Dupla entrada – apresenta séries conjugadas.

Tabela Simples:

População economicamente ativa por setor de atividade – Brasil/1940

Setor
Populaçã

www.focusconcursos.com.br | 4
Estatística | Fabricio Biazotto

ESTATÍSTICA

(1.000
hab.)

Primário 8.968

Secundário 1.414

Terciário 3.620

Fonte:IP
EA

Tabela de Dupla
Entrada

População
economicamente
ativa

Por setor de atividade


– Brasil

População (1.000
hab.)

194
Setor 0 1950 1960

8.96 12.16
Primário 8 10.255 3

Secundário 2.437 2.962


1.41

www.focusconcursos.com.br | 5
Estatística | Fabricio Biazotto

ESTATÍSTICA

3.62
Terciário 0 4.156 7.525

Fonte: IPEA

2 - Distribuição de frequências (seriação)

Dados brutos – são os dados coletados, ainda não organizados.

Rol – lista em que os valores são dispostos em uma determinada ordem (crescente
ou decrescente.

Tabela de frequência – representação na qual os valores se apresentam com sua


incidência de repetição, evitando que eles apareçam mais de uma vez.

Distribuição de frequências de Dados Não-Agrupados em Classes – tabela onde


os valores aparecem individualmente, utilizado para variáveis discretas.

2.1 – Elementos

Amplitude total (At) – é a diferença entre o maior e o menor valor da série.

Frequência absoluta simples (fi) – é o número de repetições de cada valor.

Frequência total (fi ou n) – é a soma das frequências absolutas simples.

Frequência relativa simples (fri) – é o quociente entre a frequência absoluta simples

www.focusconcursos.com.br | 6
Estatística | Fabricio Biazotto

ESTATÍSTICA

e a frequência total da série. Pode ser representada sob a forma unitária ou percentual
(fri%)

Frequência absoluta acumulada (Fi ou fac) – é a soma das frequências absolutas


simples de um determinado valor da tabela com as frequências absolutas simples de
todos os valores anteriores. É também denominada de frequência absoluta “abaixo
de”.

Frequência absoluta acumulada “acima de” (Fi+) – é a soma das frequências


absolutas simples de um determinado valor da tabela com as frequências absolutas
simples de todos os valores posteriores.

Obs.:  ... somatório

Exemplo

No de aparelhos defeituosos da Empresa X

Fri%
xi fi fri fri% Fi Fi+ Fri Fri% Fri+ +

0 5

1 10

2 18

3 12

4 5

Distribuição de frequências de Dados Agrupados em Classes – os dados são


apresentados de forma resumida, de forma agrupada. É recomendado,

www.focusconcursos.com.br | 7
Estatística | Fabricio Biazotto

ESTATÍSTICA

principalmente, para variáveis contínuas.

2.3 – Elementos

Classe – é cada um dos grupos ou intervalos de valores obtidos a partir de um


agrupamento de dados. Representação de uma classe:

a I––– b ... inclusive a, e exclusive b

a –––I b ... exclusive a, e inclusive b

a I–––I b ... inclusive a, e inclusive b

a ––– b ... exclusive a, e exclusive b

Limites de classe – são os valores extremos de uma classe.

a I––– b – a ... limite inferior (Li) b ... limite superior (Ls)

Ponto médio de uma classe (PMi ou Xi) – é a média aritmética dos limites superior
e inferior de uma classe.

Amplitude do intervalo de classe (h) – é a diferença entre os limites superior e


inferior de uma classe.

Exemplo

Notas de uma prova de Estatística

www.focusconcursos.com.br | 8
Estatística | Fabricio Biazotto

ESTATÍSTICA

xi fi PMi fri fri% Fi Fi+ Fri Fri%

0 I––– 20 10

20 I––– 40 30

40 I––– 60 40

60 I––– 80 15

80 I––– 100 5

3. GRÁFICOS

a) de Linha – representado em um plano cartesiano, através de pontos ligados por


segmentos de reta, mostrando a evolução do fenômeno estudado.

b) em Barras (horizontais) – têm por finalidade comparar grandezas por meio de


retângulos horizontais de larguras iguais e alturas proporcionais às respectivas
grandezas.

c) em Colunas (ou em barras verticais) – representados por retângulos verticais,


prestam-se à mesma finalidade que os gráficos em barras sendo, entretanto,
preferíveis a esses últimos, quando as legendas a se inscreverem sob os retângulos
forem breves

d) em Setores (pizza) – são representados por círculos divididos proporcionalmente


em segmentos circulares de acordo com os dados do fenômeno ou do processo a ser
representado. Os valores são expressos em números ou em porcentagens.

Exemplos:

www.focusconcursos.com.br | 9
Estatística | Fabricio Biazotto

ESTATÍSTICA

3.1 – Gráficos representativos de uma Distribuição de Frequências

Histograma – formado por um conjunto de retângulos justapostos de larguras

www.focusconcursos.com.br | 10
Estatística | Fabricio Biazotto

ESTATÍSTICA

homogêneas, de forma que a altura de cada retângulo seja proporcional à frequência


da classe que representa.

Polígono de frequências – representação gráfica obtida a partir da união, através de


segmentos, dos pontos médios das bases superiores dos retângulos do histograma.

Exemplo:

Notas de uma prova de Estatística

xi fi fri%

0 I––– 20 20

20 I––– 40 60

40 I––– 60 80

60 I––– 80 30

80 I––– 100 10

www.focusconcursos.com.br | 11
Estatística | Fabricio Biazotto

ESTATÍSTICA

OBS.: Os gráficos representativos de distribuições de frequências acumuladas


são denominados Ogivas (Ogiva de Galton).

Exemplo: O atributo do tipo contínuo X, observado como um inteiro, numa


amostra de tamanho 100 obtida de uma população de 1000 indivíduos, produziu
a tabela de frequências seguinte:

Frequência ( f
Classes )

29,5-39,5 4

39,5-49,5 8

49,5-59,5 14

59,5-69,5 20

69,5-79,5 26

79,5-89,5 18

89,5-99,5 10

Assinale a opção que corresponde à estimativa do número de indivíduos na


população com valores do atributo X menores ou iguais a 95,5 e maiores do que
50,5.

www.focusconcursos.com.br | 12
Estatística | Fabricio Biazotto

ESTATÍSTICA

a) 700

b) 638

c) 826

d) 995

e) 900. Letra C

4. MEDIDAS DE POSIÇÃO

Pela dificuldade de se trabalhar com uma distribuição de frequências completa,


costuma-se lançar mão de determinadas medidas que sumarizam certas
características importantes da distribuição.

Dentre as diversas medidas quem possibilitam condensar as informações dentro na


fase analítica da Estatística Descritiva, dois tipos são os mais importantes: as medidas
de posição (especialmente as de tendência central) e as medidas de dispersão (ou de
heterogeneidade).

As medidas de posição podem se apresentar de várias formas, dependendo daquilo


que se pretende conhecer a respeito dos dados estatísticos.

4.1 – Medidas de tendência central (ou promédios)

São medidas de posição em torno das quais os dados tendem a se agrupar. Os três
promédios mais utilizados para resumir o conjunto de valores representativos de
fenômeno que se deseja estudar são: a média aritmética, a moda e a mediana. Outros

www.focusconcursos.com.br | 13
Estatística | Fabricio Biazotto

ESTATÍSTICA

promédios menos usados são as médias: geométrica, harmônica, etc.

a) Médias

Média Aritmética Simples (x ou µ) – a média aritmética simples de um conjunto de


números é igual ao quociente entre a soma de valores do conjunto e o número total
de valores.

∑ 𝑿𝒊
𝑿=
𝒏

Média Aritmética Ponderada (P) - utilizada quando os valores do conjunto tiverem


pesos diferentes. É obtida através do quociente entre a soma dos produtos dos pesos
pelos respectivos valores e a soma dos pesos.

∑ 𝑿𝒊 𝒙 𝒇𝒊
𝑿=
∑ 𝒇𝒊

Esta equação é para dados não agrupados, caso sejam agrupados em classes, o Xi é o
mesmo que o PMi.

Desvio (di) – é o afastamento de cada valor do conjunto em relação a um valor fixo


x0:

di = xi – x0

Propriedades da média aritmética:

www.focusconcursos.com.br | 14
Estatística | Fabricio Biazotto

ESTATÍSTICA

1ª) a soma algébrica dos desvios dos valores em relação à média aritmética é igual a
zero.

2ª) a soma algébrica dos quadrados dos desvios dos valores em relação à média
aritmética é um mínimo.

3ª) sendo n o número de incidência de cada média aritmética x, de cada conjunto k


de valores, então a média aritmética de todos os valores dos k conjuntos é a média
ponderada das médias aritméticas dos respectivos conjuntos. Essa média é
denominada média global.

4ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, a
média aritmética desta série fica somada (ou subtraída) dessa constante.

5ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valor da série,
a média aritmética desta série fica multiplicada (ou dividida) por essa constante.

Processo breve para o cálculo da média aritmética (para dados tabulados em


classes)

A partir das duas últimas propriedades citadas anteriormente, é possível calcular a


média aritmética utilizando uma variável transformada (di), denominada variável
reduzida:

OBS: Recomenda-se utilizar para o valor de A o ponto médio da classe de maior


frequência se o número de classes k for par, ou o ponto médio da classe
intermediária se o número de classes for ímpar.

𝒙𝒊 − 𝑨
𝒅𝒊 =
𝒄

www.focusconcursos.com.br | 15
Estatística | Fabricio Biazotto

ESTATÍSTICA

Exemplo: calcular a média aritmética na tabela a seguir.

Notas de uma prova de Estatística

xi fi PMi di fi.di

0 I––– 20 10

20 I––– 40 30

40 I––– 60 40

60 I––– 80 15

80 I––– 100 5

Média Geométrica ( G ) – á média geométrica de um conjunto de n valores é a raiz


n–ésima do produto de todos os valores do conjunto dado.

𝒏
𝑮 = √∏ 𝒙𝒊 (𝒐𝒏𝒅𝒆 ∏ 𝒑𝒓𝒐𝒅𝒖𝒕ó𝒓𝒊𝒐 )

Média Harmônica ( H ) – á média harmônica de um conjunto de n valores é o inverso


da média aritmética dos inversos de todos os valores do conjunto dado.

𝒏
𝑯=
𝟏

𝒙𝒊
Obs.: H  G  X

Exemplo. Em um ensaio para o estudo da distribuição de um atributo financeiro


(X) foram examinados 200 itens de natureza contábil do balanço de uma

www.focusconcursos.com.br | 16
Estatística | Fabricio Biazotto

ESTATÍSTICA

empresa. Esse exercício produziu a tabela de frequências abaixo. A coluna Classes


representa intervalos de valores de X em reais e a coluna P representa a
frequência relativa acumulada. Não existem observações coincidentes com os
extremos das classes.

Classes P (%)

70-90 5

90-110 15

110-
130 40

130-
150 70

150-
170 85

170-
190 95

190-
210 100

Assinale a opção que dá o valor médio amostral de X.

a) 140,10

b) 115,50

c) 120,00

d) 140,00

e) 138,00.

Letra E

www.focusconcursos.com.br | 17
Estatística | Fabricio Biazotto

ESTATÍSTICA

b) Moda (Mo)

O valor de maior frequência da série, também chamado norma, valor dominante ou


valor típico.

Exemplos:

1) Rol (dados não tabulados)

Determinar a moda nos conjuntos a seguir:

A = { 2, 2, 3, 3, 3, 3, 5 ,5 ,5 ,5 ,5 ,5 ,6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 9, 9} Mo =

B = { 2, 2, 3, 3, 3, 3, 5 ,5 ,5 ,5, 5, 5 ,5, 6, 6, 6, 6, 6, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9} Mo =

C = { 2, 3, 5, 7, 8, 9} Mo =

Dados Tabulados Não-Agrupados em classes

Exemplo: determinar o valor da moda na tabela a seguir.

xi fi

1 5

2 10

3 18

4 12

www.focusconcursos.com.br | 18
Estatística | Fabricio Biazotto

ESTATÍSTICA

5 4

Dados Tabulados Agrupados em Classes

Classe modal: é classe de maior frequência.

Determinação da Moda:

– Moda Bruta: é o método mais rudimentar de cálculo da moda, que consiste em


considerá-lo como sendo o ponto médio da classe modal.

– Método de King: baseia-se na influência das frequências das classes adjacentes à


classe modal.

𝒇𝒑ó𝒔
𝑴𝒐 = 𝑳𝒊 + 𝒉 𝒙
𝒇 𝒂𝒏𝒕 + 𝒇 𝒑ó𝒔

Li – limite inferior da classe modal

h (ou c) – amplitude do intervalo de classe

fpos – frequência da classe posterior à classe modal

fant – frequência da classe anterior à classe modal

– Método de Czuber: utiliza a frequência da classe modal e as das classes adjacentes.

www.focusconcursos.com.br | 19
Estatística | Fabricio Biazotto

ESTATÍSTICA

∆𝟏
𝑴𝒐 = 𝑳𝒊 + 𝒉 𝒙 , 𝒐𝒏𝒅𝒆: ∆𝟏 = 𝒇𝒎𝒐 − 𝒇𝒂𝒏𝒕 𝒆 ∆𝟐 = 𝒇𝒎𝒐 − 𝒇𝒑𝒐𝒔
∆𝟏 + ∆𝟐

c) Mediana ( Md )

O valor central de uma série ordenada.

A mediana é considerada uma separatriz, por ser um promédio que divide a série em
partes iguais; e, pelo fato de ocupar uma determinada posição na série ordenada, o
número que indica a sua posição é denominado elemento mediano (Em).

Determinação da mediana para dados não tabulados

Uma vez ordenados os valores da série (Rol), a mediana será:

– O valor central da série, se o número de valores (n) for ímpar,

– A média aritmética dos dois valores centrais da série, se o número de valores for par.

Exemplos:

1) Rol (dados não tabulados)

Determinar a mediana nos conjuntos a seguir:

A = { 2, 2, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 9, 9} Md =

www.focusconcursos.com.br | 20
Estatística | Fabricio Biazotto

ESTATÍSTICA

B = { 2, 2, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9} Md=

C = { 2, 2, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9} Md =

2) Dados Tabulados Não-Agrupados em classes

O procedimento a ser adotado é praticamente idêntico ao anterior.

Exemplo: calcular a mediana na tabela a seguir.

xi fi

1 5

2 10

3 18

4 12

5 4

3) Dados Tabulados Agrupados em classes

𝒏
( − 𝑭𝒂𝒏𝒕)
𝑴𝒅 = 𝑳𝒊 + 𝒉 𝒙 𝟐
𝒇𝒎𝒅

n – frequência total

Fant – frequência acumulada da classe anterior à classe mediana

fmd - frequência da classe mediana

www.focusconcursos.com.br | 21
Estatística | Fabricio Biazotto

ESTATÍSTICA

h - Amplitude da classe mediana

Li - Limite inferior da classe mediana

OBS: classe mediana ... é a classe onde se encontra o elemento de posição n/2.

Exemplo: Determinar a moda e a mediana na tabela a seguir.

Notas de uma prova de Estatística

xi fi Fi

0 I––– 20 10

20 I––– 40 30

40 I––– 60 40

60 I––– 80 15

80 I––– 100 5

d) Outras separatrizes

Quartil (Q) – divide a série em 4 partes iguais.

∑ 𝒇𝒊
(𝒏𝑸 𝒙 − 𝑭𝒂𝒏𝒕)
𝑸 = 𝑳𝒊 + 𝒉 𝒙 𝟒
𝒇𝑸
Decil (D) – divide a série em 10 partes iguais.

www.focusconcursos.com.br | 22
Estatística | Fabricio Biazotto

ESTATÍSTICA

∑ 𝒇𝒊
(𝒏𝑫 𝒙 − 𝑭𝒂𝒏𝒕)
𝑫 = 𝑳𝒊 + 𝒉 𝒙 𝟏𝟎
𝒇𝑫

Centil ou Percentil (P) – divide a série em 100 partes iguais.

∑ 𝒇𝒊
(𝒏𝑷 𝒙 − 𝑭𝒂𝒏𝒕)
𝑷 = 𝑳𝒊 + 𝒉 𝒙 𝟏𝟎𝟎
𝒇𝑷

Exemplo 1. O atributo do tipo contínuo X, observado como um inteiro, numa


amostra de tamanho 100 obtida de uma população de 1000 indivíduos, produziu
a tabela de frequências seguinte:

Frequência ( f
Classes )

29,5-39,5 4

39,5-49,5 8

49,5-59,5 14

59,5-69,5 20

69,5-79,5 26

79,5-89,5 18

89,5-99,5 10

Assinale a opção que corresponde ao valor modal do atributo X no conceito de


Czuber.

a) 69,50

www.focusconcursos.com.br | 23
Estatística | Fabricio Biazotto

ESTATÍSTICA

b) 73,79

c) 71,20

d) 74,53

e) 80,10. Letra B

Exemplo 2. Considerando a distribuição de frequência relativa ao salário, em


milhares de reais, de professores de uma faculdade, os valores salariais do
terceiro quartil e do nonagésimo percentil são respectivamente:

Salários
i fi
R$

1 0 |-- 2 8

2 2 |-- 4 12

3 4 |-- 6 22

4 6 |-- 8 25

5 8 |-- 10 18

6 10 |-- 12 15

a) R$ 8.880 e R$10.660

b) R$ 6.650 e R$ 4.480

c) R$ 2.920 e R$ 6.560

d) R$ 6.650 e R$10.660

e) R$ 6.560 e R$8.880.

Letra A

www.focusconcursos.com.br | 24
Estatística | Fabricio Biazotto

ESTATÍSTICA

5. MEDIDAS DE DISPERSÃO

As medidas de dispersão permitem avaliar o grau de variabilidade ou dispersão dos


valores de um conjunto de números, proporcionando um conhecimento mais
completo do fenômeno a ser analisado, permitindo estabelecer comparações entre
fenômenos de mesma natureza e mostrando até que ponto os valores se distribuem
acima ou abaixo da tendência central.

5.1. Medidas de Dispersão Absoluta

Amplitude Total ou Intervalo Total (AT) – é a diferença entre os valores extremos


do conjunto.

Desvio Médio ou Média dos Desvios (Dm)

∑ | 𝒙𝒊− 𝒙| ∑ | 𝒙𝒊− 𝒎𝒅|


𝑫𝒎 = ou. 𝑫𝒎 =
𝒏 𝒐𝒖 𝒏−𝟏 𝒏 𝒐𝒖 𝒏−𝟏

Desvio Quartil ou Amplitude Semi-Interquartílica (Dq ou Q)

𝑸𝟑 − 𝑸𝟏
𝑸=
𝟐

No intervalo (Md  Q) encontram-se aproximadamente 50% da distribuição. Essa


porcentagem será exata se a distribuição for simétrica.

Desvio Padrão (S ou )

www.focusconcursos.com.br | 25
Estatística | Fabricio Biazotto

ESTATÍSTICA

∑(𝒙𝒊 − 𝒙)𝟐 𝟏 (∑ 𝒙𝒊)𝟐


𝑺= √ 𝒐𝒖. √ 𝟐
𝒙 [ ∑ 𝒙𝒊 − ]
𝒏 𝒐𝒖 𝒏 − 𝟏 𝒏 𝒐𝒖 𝒏 − 𝟏 𝒏

Obs.: quando o desvio padrão representar uma descrição da amostra e não da


população, caso mais frequente em estatística, o denominador das expressões
será n – 1, ao invés de n, pois assim se obtém uma estimativa melhor do
parâmetro de população. Para valores grandes de n (n > 30), não há grande
diferença; entretanto, a utilização de n– 1 proporciona uma estimativa mais justa
do desvio-padrão da população.

Ou também pode ser com frequências:

∑ 𝒇𝒊(𝒙𝒊− 𝒙)𝟐 𝟏 (∑ 𝒇𝒊.𝒙𝒊)𝟐


𝑺= √ 𝒐𝒖. √ 𝒙 [ ∑ 𝒇𝒊. 𝒙𝒊𝟐 − ]
𝒏 𝒐𝒖 𝒏−𝟏 𝒏 𝒐𝒖 𝒏−𝟏 𝒏

Forma simplificada:

𝑺 = √𝒙𝟐 − ( 𝒙 )𝟐

E também pelos desvios (di) como na média:

∑ 𝒇𝒊(𝒅𝒊 − 𝒅)𝟐 𝟏 (∑ 𝒇𝒊. 𝒅𝒊)𝟐


𝑺= 𝒉𝒙√ 𝒐𝒖. 𝒉 𝒙 √ 𝟐
𝒙 [ ∑ 𝒇𝒊. 𝒅𝒊 − ]
𝒏 𝒐𝒖 𝒏 − 𝟏 𝒏 𝒐𝒖 𝒏 − 𝟏 𝒏

Onde:
𝒙𝒊 − 𝒙𝟎
𝒅𝒊 =
𝒉

www.focusconcursos.com.br | 26
Estatística | Fabricio Biazotto

ESTATÍSTICA

h = amplitude do intervalo de classe e recomenda-se utilizar para o valor de x0 o


ponto médio da classe de maior frequência se o número de classes for par, ou o ponto
médio da classe intermediária se o número de classes for ímpar.

Propriedades do desvio-padrão:

1ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, o
desvio-padrão desta série não se altera.

2ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valor da série,
o desvio-padrão desta série fica multiplicada (ou dividida) por essa constante.

3ª) o desvio-padrão é maior que o desvio médio.

Processo breve para o cálculo do desvio-padrão (para dados tabulados em classes)

A partir das duas primeiras propriedades citadas anteriormente, é possível calcular a


média aritmética utilizando uma variável transformada (di), como no cálculo da média
aritmética pelo processo breve:

Exemplo: calcular o desvio padrão na tabela a seguir.

Notas de uma prova de Estatística

xi fi PMi di di2 fi.di fi.di2

0 I––– 20 10

20 I––– 40 30

40 I––– 60 40

60 I––– 80 15

www.focusconcursos.com.br | 27
Estatística | Fabricio Biazotto

ESTATÍSTICA

80 I––– 100 5

Resposta: S 19,95

e) Variância (S2 ou 2) – é o quadrado do desvio-padrão.

Propriedades da variância:

1ª) somando-se (ou subtraindo-se) uma constante arbitrária x a cada valor da série, a
variância desta série não se altera.

2ª) multiplicando-se (ou dividindo-se) uma constante arbitrária c a cada valor da série,
a variância desta série fica multiplicada (ou dividida) pelo quadrado desta constante.

5.2. Medidas de Dispersão Relativa

Resultam, em geral, de comparação entre uma medida de dispersão absoluta e um


promédio, sendo expresso em termos percentuais. Proporcionam uma avaliação mais
apropriada do grau de dispersão da variável e ainda, comparar duas ou mais
distribuições, mesmo de fenômenos diferentes expressas em unidades de medidas
distintas.

a) Desvio Quartil Reduzido (Qr)

𝑸 𝑸𝟑 − 𝑸𝟏
𝑸𝒓 = =
| 𝑴𝒅| 𝟐 𝒙 | 𝑴𝒅 |

www.focusconcursos.com.br | 28
Estatística | Fabricio Biazotto

ESTATÍSTICA

b) Coeficiente de Variação

𝑺 𝑺
𝑷𝒆𝒂𝒓𝒔𝒐𝒏: 𝑪𝑽 = 𝒐𝒖. 𝑻𝒉𝒐𝒎𝒅𝒊𝒌𝒆: 𝑪𝑽 = 𝒐𝒖. 𝑸𝒖𝒂𝒓𝒕í𝒍𝒊𝒄𝒐: 𝑪𝑽
|𝒙| | 𝑴𝒅 |
𝑸𝟑 − 𝑸𝟏
=
| 𝑸𝟑 + 𝑸𝟏|

Exemplo. Uma empresa verificou que, historicamente, a idade média dos


consumidores de seu principal produto é de 25 anos, considerada baixa por seus
dirigentes. Com o objetivo de ampliar sua participação no mercado, a empresa
realizou uma campanha de divulgação voltada para consumidores com idades
mais avançadas. Um levantamento realizado para medir o impacto da campanha
indicou que as idades dos consumidores apresentaram a seguinte distribuição:

Idade Frequên Porcentag


(X) cia em

18 ‫ו‬- 25 20 40

25 ‫ו‬- 30 15 30

30 ‫ו‬- 35 10 20

35 ‫ו‬- 40 5 10

Total 50 100

Assinale a opção que corresponde ao resultado da campanha considerando o


𝟐𝜹𝒙
seguinte critério de decisão: se 𝒙 − 𝟐𝟓 for maior que o valor então a
√𝒏
campanha de divulgação surtiu efeito, isto é, a idade média aumentou; caso
contrário, a campanha de divulgação não alcançou o resultado desejado.

2𝛿𝑥
a) A campanha surtiu efeito, pois 𝑥 − 25 = 2,1 é maior que = 1,53
√𝑛
2𝛿𝑥
b) A campanha não surtiu efeito, pois 𝑥 − 25 = 0 é menor que = 1,64
√𝑛

www.focusconcursos.com.br | 29
Estatística | Fabricio Biazotto

ESTATÍSTICA
2𝛿𝑥
c) A campanha surtiu efeito, pois 𝑥 − 25 = 2,1 é maior que = 1,41
√𝑛
2𝛿𝑥
d) A campanha não surtiu efeito, pois 𝑥 − 25 = 0 é menor que = 1,53
√𝑛
2𝛿𝑥
e) A campanha surtiu efeito, pois 𝑥 − 25 = 2,5 é maior que = 1,41. LETRA A
√𝑛

II – AMOSTRAGEM

Amostragem – é o ato de obter amostra de uma população. O levantamento por


amostragem objetiva a redução do custo e tempo do processo estatístico. O tamanho
da amostra deve ser no mínimo 10% da população, para que haja uma maior
fidedignidade dos fatos.

1 – Conceitos em Amostragem

Inferência Estatística - é o processo de obter informações sobre uma população a


partir de resultados observados na amostra.

Amostragem - É o processo de retirada de informações dos "n" elementos amostrais,


na qual deve seguir um método adequado (tipos de amostragem).

2 – Plano de Amostragem

www.focusconcursos.com.br | 30
Estatística | Fabricio Biazotto

ESTATÍSTICA

1º) Definir os Objetivos da Pesquisa

2º) População a ser amostrada

Parâmetros a ser estimados (Objetivos)

3º) Definição da Unidade Amostral

Seleção dos Elementos que farão parte da amostra

4º) Forma de seleção dos elementos da população

aleatória simples
sistemática

Tipo de Amostragem: 
estratificada
conglomerados

5º) Tamanho da Amostra

Exemplo: Moradores de uma Cidade (população alvo)

 própria

Objetivo: Tipo de Residência  alugada
emprestada

Unidade Amostral: Domicílios (residências)

Elementos da População: Família por domicílio

www.focusconcursos.com.br | 31
Estatística | Fabricio Biazotto

ESTATÍSTICA

3 – Tipos de Amostragem

A) Probabilísticos:

Amostragem Simples ou Ocasional

É o processo mais elementar e frequentemente utilizado. Todos os elementos da


população têm igual probabilidade de serem escolhidos. Para uma população finita o
processo deve ser sem reposição. Todos os elementos da população devem ser
numerados. Para realizar o sorteio dos elementos da população pode-se usar a Tabela
de Números Aleatórios ou gerar números aleatórios por meio de um software;

Amostragem Sistemática

Trata-se de uma variação da Amostragem Aleatória Ocasional, conveniente quando a


população está naturalmente ordenada, como fichas em um fichário, lista telefônica,
etc.

Ex.: N = 500 (População)

n = 50 (Amostra)

então r = N/n = 500/50 = 10, (teremos uma Progressão Aritmética (PA) de razão
10)

www.focusconcursos.com.br | 32
Estatística | Fabricio Biazotto

ESTATÍSTICA

Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x=3), o


número sorteado refere-se ao 1o elemento da amostra, logo os elementos da amostra
serão:

3 13 23 33 43 ......

Para determinar qualquer elemento da amostra podemos usar a fórmula do termo


geral de uma P.A.

an  a1  (n  1).r

Amostragem Estratificada

É um processo de amostragem usado quando nos depararmos com populações


heterogêneas, na qual pode-se distinguir subpopulações mais ou menos
homogêneas, denominados estratos.

Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada uma
subpopulação (estrato).

As diversas subamostras retiradas das subpopulações devem ser proporcionais aos


respetivos números de elementos dos estratos, e guardarem a proporcionalidade em
relação a variabilidade de cada estrato, obtendo-se uma estratificação ótima.

Tipos de variáveis que podem ser usadas em estratificação: idade, classes sociais, sexo,
profissão, salário, procedência, etc.

Amostragem por Conglomerados (ou Agrupamentos)

Algumas populações não permitem, ou tornam-se extremamente difícil que se


identifiquem seus elementos, mas podemos identificar subgrupos da população. Em

www.focusconcursos.com.br | 33
Estatística | Fabricio Biazotto

ESTATÍSTICA

tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) podem
ser escolhidas, e uma contagem completa deve ser feita no conglomerado sorteado.

Agregados típicos são: quarteirões, famílias, organizações, agências, edifícios, etc.

B) Não Probabilísticos:

Por julgamento – os elementos são escolhidos de modo intencional.

Por quotas – também baseado em um julgamento (escolha intencional). Os grupos


(quotas) extraídos têm número proporcional àquele em que se encontram na
população.

4 – Tamanho da Amostra

Os pesquisadores de todo o mundo, na realização de pesquisas científicas, em


qualquer setor da atividade humana, utilizam as técnicas de amostragem no
panejamento de seus trabalhos, não só pela impraticabilidade de poderem observar,
numericamente, em sua totalidade determinada população em estudo, como devido
ao aspecto econômico dessas investigações, conduzidos com um menor custo
operacional, dentro de um menor tempo, além de possibilitar maior precisão nos
respectivos resultados, ao contrário, do que ocorre com os trabalhos realizados pelo
processo censitário.

A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de


alguma didática mais adequada aos pesquisadores iniciantes.

Na teoria da amostragem, são consideradas duas dimensões:

www.focusconcursos.com.br | 34
Estatística | Fabricio Biazotto

ESTATÍSTICA

1ª) Dimensionamento da Amostra;

2ª) Composição da Amostra.

III. VARIÁVEIS ALEATÓRIAS

Variável representa a intensidade com que o atributo ocorre no fenômeno estudado.

a) Uma variável pode ser:

Discreta (ou descontinua) – quando a menor diferença não-nula entre dois valores
possíveis dessa variável é finita. Normalmente resulta de contagem.

Continua – pode assumir o valor de qualquer número real. Normalmente resulta de


mensuração.

IV. DISTRIBUIÇÕES DE PROBABILIDADE

Em Estatística, uma Distribuição de Probabilidade descreve a chance que uma variável


pode assumir ao longo de um espaço de valores.

Principais Distribuições de Probabilidade

1 – Variáveis Aleatórias Discretas

a) Distribuição de Bernoulli

www.focusconcursos.com.br | 35
Estatística | Fabricio Biazotto

ESTATÍSTICA

Consideremos uma única tentativa de um experimento aleatório. Podemos ter sucesso


ou fracasso nessa tentativa.

Seja p a probabilidade de sucesso e q a probabilidade de fracasso, com p + q = 1, ou


seja,

q = 1 − p.

Seja X o número de sucessos em uma única tentativa do experimento. X assume o


valor 0 que corresponde ao fracasso, com probabilidade q, ou o valor 1, que
corresponde ao sucesso, com probabilidade p.

P(X = 0) = q e P(X = 1) = p

Nessas condições a variável aleatória X tem distribuição de BERNOULLI, e sua função


de probabilidade é dada por:

P(X = x) = p(x)· q(1-x)

A esperança da distribuição de Bernoulli é

E(X) = p

Variância é V (X) = p.q.

b) Distribuição Binomial

A probabilidade de um evento A ocorrer exatamente k vezes em um determinado


experimento aleatório é dada por:

www.focusconcursos.com.br | 36
Estatística | Fabricio Biazotto

ESTATÍSTICA

𝒏!
𝑷(𝑨) = 𝑪𝒌𝒏 𝒙 𝒑𝒌 𝒙 𝒒𝒏−𝒌 , 𝒐𝒏𝒅𝒆 𝑪𝒌𝒏 =
𝒌! 𝒙 (𝒏 − 𝒌)!

Onde: n = número de eventos e k = é o número de favoráveis dentro dos eventos

Vale observar que se a probabilidade de realização de um evento (sucesso) é p, a


probabilidade de não realização desse evento (insucesso) é 1 – p = q.

A esperança da distribuição Binomial é

E(X) = n . p

Variância é V (X) = n.p.q

c) Distribuição de Poisson

Na distribuição binomial, se n for muito grande, enquanto a probabilidade p da


ocorrência de um evento for próxima de zero, o evento será denominado raro. Na
prática, considera-se um evento como raro quando o número de tentativas é, pelo
menos, igual a 50 (n ≥ 50), ao passo que n.p é menor que 7. Nesses casos, a
distribuição binomial é muito aproximada da de Poisson, com λ = n.p.

A distribuição de Poisson

Esta é uma distribuição associada a “eventos raros”. As razões para isso se tornarão
mais claras a medida que a aplicação desse modelo for descrita. Os eventos podem
ser:
 acidentes automotivos
 erros de digitação
 chegada de um cliente em um banco
 entre outros eventos…

www.focusconcursos.com.br | 37
Estatística | Fabricio Biazotto

ESTATÍSTICA

A distribuição de Poisson é aplicável quando o número de possíveis ocorrências


discretas é muito maior do que o número médio de ocorrências em um determinado
intervalo de tempo ou espaço. O número de possíveis ocorrências, muitas vezes não
se sabe exatamente. Os resultados devem ocorrer de forma aleatória, ou seja,
totalmente por acaso e da probabilidade de ocorrência não deve ser afetado por se
ou não os resultados ocorrido anteriormente, de modo que as ocorrências são
independentes. Em muitos casos, embora possamos contar as ocorrências, como a de
uma tempestade, não podemos contar as não ocorrências correspondentes. (Nós não
podemos contar “não-tempestades”!).

De modo geral, dizemos que a variável aleatória X tem uma distribuição de Poisson
com parâmetro λ > 0, se:

𝒆−𝝀 𝒙 𝝀𝒌
𝑷=
𝒌!
,

Onde k = 0, 1, 2, ... (número de ocorrências em determinado intervalo de tempo), e


representa o número médio de eventos ocorrendo no intervalo considerado.

e = 2,71828... (número neperiano).

A esperança da distribuição Poisson é

E(X) = n . p =  = V(x)

Onde: p =  / n

d) A Distribuição Exponencial (ou exponencial negativa)

www.focusconcursos.com.br | 38
Estatística | Fabricio Biazotto

ESTATÍSTICA

A distribuição exponencial pode ser associada com a distribuição geométrica. Porém


antes de tratarmos das similaridades da propriedade dessas duas distribuições
avaliaremos as características da variável aleatória.

De uma forma bastante resumida imagine uma variável aleatória Poisson, onde temos
a contagem do número de ocorrências em um intervalo. Suponha agora que
estejamos interessados em verificar a probabilidade do tempo transcorrido entre duas
ocorrências consecutivas. Essa última é considerada uma variável aleatória
exponencial.

Essa distribuição contínua que pode ser utilizada para descrever as probabilidades
envolvidas no tempo que decorre para que um determinado evento aconteça. Existe
uma conexão muito próxima entre a distribuição exponencial e a de Poisson. Ou seja,
é Utilizada para descrever o tempo entre as ocorrências de sucessivos eventos de uma
distribuição de Poisson. As relações entre as distribuições podem ser associadas a um
processo estocástico, chamado de processo de Poisson.

Para simplificar a abordagem imagine um processo de chegada sendo monitorando


ao longo do tempo (sendo o tempo uma variável contínua).

a) Função de Distribuição Cumulativa:

𝑷(𝑿 ≤ 𝒙) = 𝟏 − 𝒆−𝝀𝒙 ou
𝑷(𝑿 ≥ 𝒙) = 𝒆−𝝀𝒙

b) Esperança e Variância:

𝟏
𝑬(𝒙) =
𝝀

𝟏
𝑽(𝒙) =
𝝀𝟐

EXEMPLO. Em um experimento binomial com três provas, a probabilidade de


ocorrerem dois sucessos é doze vezes a probabilidade de ocorrerem três
sucessos. Desse modo, as probabilidades de sucesso e fracasso são, em
percentuais, respectivamente, iguais a:

a) 80 % e 20 %

www.focusconcursos.com.br | 39
Estatística | Fabricio Biazotto

ESTATÍSTICA

b) 30 % e 70 %

c) 60 % e 40 %

d) 20 % e 80 %

e) 25 % e 75 %.

Letra D

EXEMPLO. O número de petroleiros que chegam a uma refinaria ocorre segundo


uma distribuição de Poisson, com média de dois petroleiros por dia. Desse modo,
a probabilidade de a refinaria receber no máximo três petroleiros em dois dias é
igual a:

a) 32/73 e^-4
b) 71/3 e^4
c) 71/3 e^-4
d) 71/3 e^-2
e) 32/3 eˆ-2.
Letra C

2 – Variável Aleatória Contínua (VAC)

A probabilidade de uma VAC X assumir um determinado valor dentro de um intervalo


[a,b] de valores é dada por:
𝒃
𝑷(𝒂 ≤ 𝒙 ≤ 𝒃) = ∫ 𝒇(𝒙)𝒅𝒙
𝒂

A função f(x) é chamada Função Densidade de Probabilidade (f.d.p.) da variável X.

Teoricamente, qualquer função f , que não seja negativa e cuja área total sob a curva
seja igual à unidade, caracterizará uma VAC; ou seja:

∫ 𝒇(𝒙)𝒅𝒙 = 𝟏
−∞

www.focusconcursos.com.br | 40
Estatística | Fabricio Biazotto

ESTATÍSTICA

a) Esperança de uma Variável Aleatória Contínua

Se uma variável aleatória X possui uma distribuição contínua com f.d.p. f(x), então a
esperança E(X) é definida por:

𝑬(𝒙) = ∫ 𝒙 . 𝒇(𝒙)𝒅𝒙
−∞

b) Variância de uma Variável Aleatória Contínua

Suponha que uma v.a. X possua uma distribuição contínua, cuja f.d.p. é f(x). Então:


𝟐) 𝟐 𝟐
𝑽𝒂𝒓(𝒙) = 𝑬(𝒙 − (𝑬(𝒙)) = ∫ [𝑬(𝒙𝟐 ) − (𝑬(𝒙)) ]𝒇(𝒙)𝒅𝒙
−∞

c) O Desvio Padrão (DP) será dado por

E(x) = (x); Var(x) = (x)2 e DP = S = (x)

IV – Principais Modelos de Distribuições de Probabilidade

a) O Modelo Uniforme

É o modelo mais simples para v.a. contínua.

Uma v.a. X tem Distribuição Uniforme no intervalo [ ,  ] se sua f.d.p. é dada por

www.focusconcursos.com.br | 41
Estatística | Fabricio Biazotto

ESTATÍSTICA

𝟏
, 𝒔𝒆 𝜶 ≤ 𝒙 ≤ 𝜷
𝒇(𝒙) = {𝜷 − 𝜶
𝟎, 𝒄𝒂𝒔𝒐 𝒄𝒐𝒏𝒕𝒓á𝒓𝒊𝒐

A Esperança e a Variância são dadas por

𝜶+ 𝜷 (𝜷 − 𝜶)𝟐
𝑬(𝒙) = ( )
𝒆. 𝑽𝒂𝒓 𝒙 =
𝟐 𝟏𝟐

EXEMPLO. A função densidade de probabilidade de uma variável aleatória


contínua x é dada por:
𝟑𝒙𝟐 , 𝒔𝒆 − 𝟏 ≤ 𝒙 ≤ 𝟎
𝒇(𝒙) = { .
𝟎, 𝒄𝒂𝒔𝒐 𝒄𝒐𝒏𝒕𝒓á𝒓𝒊𝒐

Para esta função, a média de x, também denominada expectância de x e


denotada por E(x) é igual a:

a) 4/3.

b) 3/4.

c) – 3/4.

d) – (3/4) x.

e) – (4/3) x.

Letra C

IV – Distribuição Normal

A distribuição normal é a mais importante distribuição estatística, considerando a


questão prática e teórica. Esse tipo de distribuição apresenta-se em formato de sino,
unimodal, simétrica em relação a sua média. Considerando a probabilidade de

www.focusconcursos.com.br | 42
Estatística | Fabricio Biazotto

ESTATÍSTICA

ocorrência, a área sob sua curva soma 100%. Isso quer dizer que a probabilidade de
uma observação assumir um valor entre dois pontos quaisquer é igual à área
compreendida entre esses dois pontos.

Na figura, as barras verticais representam os desvios padrões. Quanto mais afastado


do centro da curva normal, mais área compreendida abaixo da curva haverá. O traço
horizontal menor indica que 68,26% das observações estão contidas no intervalo entre
um desvio padrão para a direita e um desvio padrão para a esquerda da média (centro
da distribuição). O segundo traço indica que a dois desvios padrões em torno da
média possuímos 95,44% dos dados e, finalmente a três desvios temos 99,73% (traço
horizontal maior). Podemos concluir que quanto maior a variabilidade dos dados em
relação à média, maior a probabilidade de encontrarmos o valor que buscamos
embaixo da normal.

Características:

1 – É uma curva com a forma de um “sino”, com um eixo de simetria;

www.focusconcursos.com.br | 43
Estatística | Fabricio Biazotto

ESTATÍSTICA

2 – Muitas populações reais seguem a distribuição normal;

3 – Numa população com média  e desvio-padrão  :

– aproximadamente 68 % se encontram dentro do intervalo  ± 

– aproximadamente 95 % se encontram dentro do intervalo  ± 2;

– aproximadamente 99,7 % se encontram dentro do intervalo  ± 3.

Para achar a área sob a curva normal devemos conhecer dois valores numéricos, a
média e o desvio padrão.

Para cada valor de e/ou temos uma curva de distribuição de probabilidade. Porém,
para se calcular áreas específicas, faz-se uso de uma distribuição particular: a
"distribuição normal padronizada", o qual é a distribuição normal com = 0 e = 1.
Para obter tal distribuição, isto é, quando se tem uma variável X com distribuição
normal com média diferente de 0 (zero) e/ou desvio padrão diferente de 1 (um),
devemos reduzi-la a uma variável Z, efetuando o seguinte cálculo:

𝒙− 𝝁
𝒁=
𝝈

Assim, a distribuição passa a ter média = 0 e desvio padrão = 1. Pelo fato de a


distribuição ser simétrica em relação à média = 0, a área à direita é igual a área à
esquerda de . Por ser uma distribuição muito usada, existem tabelas a qual
encontramos a resolução de suas integrais.

Assim, a tabela fornece áreas acima de que vão desde -3,99 até 3,99. Veja o gráfico da
curva Normal padronizada na Figura abaixo.

www.focusconcursos.com.br | 44
Estatística | Fabricio Biazotto

ESTATÍSTICA

A probabilidade de ocorrência de valores menores ou iguais a um valor genérico z


dessa distribuição é dada por:
𝒛 𝒛 −𝒖𝟐
𝟏
𝑷 ( 𝒁 ≤ 𝒛) = 𝝓(𝒛) = ∫ 𝝓(𝒖) 𝒅𝒖 = ∫ 𝒆 𝟐 𝒅𝒖
−∞ √𝟐𝝅 −∞

Isso representa a área (entre −∞ e z) sob a curva da função de densidade.

A Tabela III (em anexo) dá os valores de área sob a curva entre 0 e z conforme indicado
na Figura (a). Portanto, é a fórmula anterior modificada para:

www.focusconcursos.com.br | 45
Estatística | Fabricio Biazotto

ESTATÍSTICA

Desde que a distribuição normal é simétrica, para calcular a área entre −∞ e z basta
somar 0,5 aos valores da tabela.

www.focusconcursos.com.br | 46
Estatística | Fabricio Biazotto

ESTATÍSTICA

www.focusconcursos.com.br | 47
Estatística | Fabricio Biazotto

ESTATÍSTICA

www.focusconcursos.com.br | 48
Estatística | Fabricio Biazotto

ESTATÍSTICA

EXEMPLO. O Sr. Ramoile, professor de Estatística aposentado, vem há muito


tempo acompanhando os dados sobre custos e faturamento do restaurante de
sua filha Cecília. O restaurante funciona todos os dias da semana e o Sr. Ramoile

www.focusconcursos.com.br | 49
Estatística | Fabricio Biazotto

ESTATÍSTICA

concluiu que: o custo diário do restaurante segue uma distribuição normal, com
média igual a R$ 500,00 e desvio-padrão igual a R$ 10,00 e que o faturamento
diário, também, apresenta uma distribuição normal, com média R$ 800 e desvio-
padrão R$ 20. Como o Sr. Ramoile conhece muito bem os princípios básicos da
estatística, ele sabe que, se uma variável Z seguir uma distribuição normal
padrão, então Z tem média 0 e variância 1. Ele também sabe que a probabilidade
dessa variável Z assumir valores no intervalo entre 0 < Z < 2 ─ ou seja, entre a
média 0 e 2 desvios-padrão ─ é, aproximadamente, igual a 0,4772. Cecília, muito
preocupada com o futuro de seu restaurante, perguntou a seu pai se ele poderia
verificar a probabilidade de, em um dia qualquer, o custo ser maior do que R$
520,00 e o faturamento ficar no intervalo entre R$ 760,00 e R$ 840,00. Após
alguns minutos, o Sr. Ramoile disse, acertadamente, que as respectivas
probabilidades são, em termos percentuais, iguais a

a) 2,28; 95,44.

b) 52,28; 95,44.

c) 2,28; 98,69.

d) 98,69; 95,44.

e) 98,65; 2,28.

Letra A

TEOREMA DE CHEBYCHEV (A DESIGUALDADE DE TCHEBYCHEFF)

A proposta do pesquisador russo Pafnuty Lvovich Tchebycheff fornece meios para


compreender como a variância mede a variabilidade em relação ao valor esperado.

Se conhecermos a distribuição de probabilidade, podemos calcular E(x) e V(x). No


entanto, se conhecermos E(x) e V(x), não é possível reconstruir a distribuição de
probabilidade. Dessa forma, sabendo apenas a variância e a esperança não podemos
calcular P(|x – E(x)|  c), onde c é um valor pequeno qualquer.

Apesar da impossibilidade de calcular P(|x – E(x)|  c) é possível estabelecer limites

www.focusconcursos.com.br | 50
Estatística | Fabricio Biazotto

ESTATÍSTICA

superiores e inferiores para a variabilidade ao redor do valor esperado.

A EQUAÇÃO:

ANTES É PRECISO LEMBRAR OS INTERVALOS BÁSICOS DAS DISTRIBUIÇÕES QUE SÃO:

intervalo  ±  ; intervalo  ± 2 ; intervalo  ± 3.

1
(I) COMPLEMENTAR: P(|x – c|  𝜀 )  . 𝐸(𝑥 − 𝑐)2
𝜀2

1 𝛿2
(II) PARA c =  : P(|x – |  𝜀 )  . 𝐸 (𝑥 − )2 = P(|x – |  𝜀 ) 
𝜀2 𝜀

1
(III) PARA c =  E 𝜀 = 𝐾 : P(|x – |  𝐾 ) 
𝐾2

Unindo as três equações acima, para cálculo entre intervalos, chega-se a equação:

𝟏
𝟏− ≤ 𝟏 − (𝑷[𝒙 ≤ 𝝁 − 𝒌𝜹] + [𝒙 ≥ 𝝁 + 𝒌𝜹])
𝒌𝟐

Onde K é o número de desvios padrões do intervalo que se deseja.

Vale atentar para os seguintes valores:

Quando K = 2 (intervalo  ± 2): Ao menos 3/4 (75%) de todos os valores estão no


intervalo;

Quando K = 3 (intervalo  ± 3): Ao menos 8/9 (89%) de todos os valores estão no


intervalo;

www.focusconcursos.com.br | 51
Estatística | Fabricio Biazotto

ESTATÍSTICA

APROXIMAÇÃO DA DISTRIBUIÇÃO BINOMIAL PELA DISTRIBUIÇÃO NORMAL.

Aumentando-se o tamanho da amostra a distribuição de probabilidade binomial se


aproxima da normal, passando a mesma variável do tipo discreto a ter o mesmo
tratamento que uma variável do tipo contínuo, com E(x) = n . p e V(x) = n . p . q.

𝑥 − 𝑛. 𝑝
𝑧=
√𝑛 . 𝑝 . 𝑞

Distribuição “t” de Student

Esta distribuição “t” ou Student foi estudada por Gosset em 1908 e se refere a
pequenas amostras, isto é, quando n < 30. Sua curva representativa é bem semelhante
à curva normal, sendo também simétrica em relação a ordenada máxima, mas
apresentando as extremidades com maior comprimento e mais elevadas, fato este que
determina uma variância maior do que a distribuição normal.

É MUITO IMPORTANTE ATENTAR PARA OS SÍMBOLOS:

̅ = MÉDIA DA AMOSTRA;
𝑿
 = MÉDIA DA POPULAÇÃO;
S = DESVIO PADRÃO DA AMOSTRA;
 = DESVIO PADRÃO DA POPULAÇÃO;
 = GRAU DE LIBERDADE.

Na distribuição normal verificamos que ela depende dos parâmetros  e . Mas na


maioria das vezes, a variância populacional não é conhecida e as investigações ou
análises são feitas a partir de amostras retiradas dessa população. Nessas condições
o desvio padrão amostral S corresponderá a uma estimativa de , logo:

∑(𝑋𝑖 − 𝜇)
𝑆= √
𝑛−1

onde n-1 corresponderá ao número de graus de liberdade , ou seja, o número de


variáveis independentes, fixada uma condição.

www.focusconcursos.com.br | 52
Estatística | Fabricio Biazotto

ESTATÍSTICA

Para cada amostra da população teremos:

𝑥̅ − 𝜇
𝑡=
𝑆𝑥

Onde: 𝑥̅ = média da amostra


 = média da população
𝑠
𝑆𝑥 =
√𝑛

A medida que o grau de liberdade aumenta t Z, observando que ao ultrapassar 30


graus de liberdade já é possível usar a distribuição normal, pois a diferença entre os
resultados será bastante pequena.

Genericamente, existe uma família de distribuições “t”, cuja forma tende à distribuição
normal reduzida, à medida que n cresce (pois S tende a  e, portanto, t tende a Z).

Distribuição Qui-quadrado(x2)

A distribuição Qui-quadrado possui numerosas aplicações em inferência estatística,


tais como os testes não paramétricos. Sejam X1, X2, ..., Xn, variáveis aleatórias
independentes, normalmente distribuídas com média zero e variância 2. Define-se a
variável aleatória x2, com  graus de liberdade como sendo a soma do quadrado de 
variáveis normais padronizadas e independentes, isto é:

𝑥− 𝜇 2
𝑥𝛿2 = ∑ 𝑧 2 = ∑( )
𝜎

A distribuição x2 assume diversas formas gráficas dependendo do número de graus


de liberdade

www.focusconcursos.com.br | 53
Estatística | Fabricio Biazotto

ESTATÍSTICA

𝑆𝑒 𝑛 → ∞ , 𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑡𝑒𝑛𝑑𝑒 𝑎 𝑛𝑜𝑟𝑚𝑎𝑙;


𝑆𝑒 𝛿 = 1 → 𝑥12 = 𝑧 2 , ( 𝑢𝑚𝑎 𝑛𝑜𝑟𝑚𝑎𝑙 𝑟𝑒𝑑𝑢𝑧𝑖𝑑𝑎 ).

Parâmetros da Distribuição:

E(x) =  e V(x) = 2

Distribuição F de Snedecor.

A distribuição F de Snedecor também conhecida como distribuição de Fisher é


frequentemente utilizada na inferência estatística para análise da variância

A distribuição F é uma distribuição de amostragem contínua da razão de duas


variáveis aleatórias independentes com distribuição qui-quadrado, cada uma dividida
por seus graus de liberdade. O distribuição F é assimétrica à direita e descrito pelos
graus de liberdade de seu numerador (ν1) e denominador (ν2). Os gráficos a seguir
mostram o efeito de diferentes valores de graus de liberdade na forma da distribuição,
como por exemplo a curva abaixo:

www.focusconcursos.com.br | 54
Estatística | Fabricio Biazotto

ESTATÍSTICA

Onde V1 = 1 e V2 = 9

Utiliza-se a distribuição F, quando uma estatística de teste é a razão entre duas


variáveis que tenham, cada uma delas, uma distribuição do qui-quadrado. Por
exemplo, use a distribuição F na análise de variância e em testes de hipóteses para
determinar se duas variâncias de população são iguais.

A) Principais Características:

 Cada par de graus de liberdade da origem a uma distribuição F diferente;

 A distribuição F depende de dois parâmetros. O primeiro (ν1) é o grau de


liberdade do numerador e o segundo (ν2) do denominador;

 A variável aleatória Fé não-negativa, e a distribuição é assimétrica à direita;

 A distribuição F se parece com a distribuição qui-quadrado, no entanto, os


parâmetros ν1 e ν2 fornecem flexibilidade extra em relação à forma;

B) Teorema:

Sejam Q1 e Q2 variáveis aleatórias independentes, com distribuição qui-quadrado


com ν1 e ν2 graus de liberdade, respectivamente. Então, a variável aleatória

𝑄1
𝐹 = 𝑉1
𝑄2
𝑉2

tem distribuição F de Snedecor com ν1 graus de liberdade no numerador e ν2 graus


de liberdade no denominador.

C) RELAÇÕES IMPORTANTES:

𝑭𝟏− 𝜶,𝟏,𝒗 = 𝒕𝟐𝟏− 𝜶/𝟐,𝒗


𝒙𝟐𝜶,𝒗
𝑭𝜶,𝒗,∞ =
𝒗
𝟏
𝑭𝟏− 𝜶,𝟏,𝒗 =
𝑭𝜶,𝒗,∞

www.focusconcursos.com.br | 55
Estatística | Fabricio Biazotto

ESTATÍSTICA

Observação:

Suponha que temos duas populações independentes tendo distribuições normais


com variâncias iguais a σ2. Considere Y11, ... ,Y1n uma amostra aleatória da primeira
população com n observações e Y21, ... ,Y2m uma amostra aleatória da segunda
população com m observações. Então, a estatística

(𝑛 − 1)𝑆12
(𝑛 − 1)𝜎 2
𝐹=
(𝑚 − 1)𝑆22
(𝑚 − 1)𝜎 2

tem distribuição F de Snedecor com (n−1) graus de liberdade no numerador e (m−1)


graus de liberdade no denominador, onde S1 e S2 são os desvios padrão amostrais
da primeira e da segunda amostra, respectivamente.

EXEMPLO. Em uma distribuição de probabilidade, a esperança matemática é 75,


com uma variância de 25 e deseja-se calcular a probabilidade de uma variável
aleatória X estar entre os limites de 67 a 83:

a) 75% de probabilidade.

b) 25% de probabilidade.

c) 60,9% de probabilidade.

d) 39,1% de probabilidade.

e) 89% de probabilidade.

Letra c

V. TESTE DE HIPÓTESE

Quando não temos certeza a respeito de uma afirmação sobre um parâmetro

www.focusconcursos.com.br | 56
Estatística | Fabricio Biazotto

ESTATÍSTICA

estatístico (média, desvio-padrão), dizemos que essa afirmação é uma hipótese

Um teste de hipótese é um processo estatístico que tem como finalidade verificar se


uma determinada afirmação é verdadeira.

Erros em um teste de Hipótese:

Podemos cometer um erro ao analisar uma afirmação.

A probabilidade de se cometer um erro do tipo I é denominada de nível de


significância

P(erro I) = 

Tipos de Testes:

a) Bilateral: H0:  = P e H1:   P (Rejeitar se Zcalc < – Z ou Zcalc > Z)


b) Unilateral à esquerda: H0:   P e H1:  < P (Rejeitar se Zcalc < – Z)

www.focusconcursos.com.br | 57
Estatística | Fabricio Biazotto

ESTATÍSTICA

c) Unilateral à direita: H0:   P e H1:  > P (Rejeitar se Zcalc > Z)

Estrutura de um teste de hipótese:

a) formular as hipóteses H0 e H1

b) escolher uma distribuição adequada (comumente a distribuição normal) para testar


a média.

c) escolher um nível significância (valor crítico).

d) calcular a estatística teste

www.focusconcursos.com.br | 58
Estatística | Fabricio Biazotto

ESTATÍSTICA

𝝁𝟎 − 𝝁
𝒁𝒕𝒆𝒔𝒕𝒆 = 𝝈
√𝒏
Onde:  = média afirmada em H0

0 = média da amostra testada

 = desvio-padrão da população (ou amostra com n  30)

n = número de elementos da amostra

e) comparar a estatística teste com a estatística tabelada (Zteste e Ztab)

f) rejeitar H0 se o valor de Zteste estiver na zona de rejeição, ou aceitar H0 se Zteste


na área de aceitação

DETERMINAÇÃO DO TAMANHO DE UMA AMOSTRA COM BASE NA ESTIMATIVA


DA MÉDIA POPULACIONAL

Suponha, por exemplo, que queiramos estimar a renda média de pessoas que
concluíram um curso superior, no primeiro ano após a formatura. QUANTAS rendas
devemos incluir em nossa amostra? A determinação do tamanho de uma amostra é
problema de grande importância, porque:

 amostras desnecessariamente grandes acarretam desperdício de tempo e de


dinheiro;

 e amostras excessivamente pequenas podem levar a resultados não confiáveis.

Em muitos casos é possível determinar o tamanho mínimo de uma amostra para


estimar um parâmetro estatístico, como por exemplo, a média populacional () .

A fórmula para cálculo do tamanho da amostra para uma estimativa confiável da


média populacional é dada por:

𝑍𝛼/2 . 𝜎 2
𝑛=( )
𝐸

www.focusconcursos.com.br | 59
Estatística | Fabricio Biazotto

ESTATÍSTICA

Onde:
n = Número de indivíduos na amostra
Z/2 = Valor crítico que corresponde ao grau de confiança desejado.
 = Desvio-padrão populacional da variável estudada.
E=Margem de erro ou ERRO MÁXIMO DE ESTIMATIVA (Identifica a diferença máxima
entre a média amostral (X) e a verdadeira média populacional (), ou seja: 𝑥̅ − 𝜇 ).

EXEMPLO. Suponhamos que uma indústria compre de certo fabricante parafusos


cuja carga média de ruptura por tração é especificada em 50 Kg, o desvio-padrão
das cargas de ruptura é suposto ser igual a 4 Kg.

O comprador deseja verificar se um grande lote de parafusos recebidos deve ser


considerado satisfatório, no entanto existe alguma razão para se temer que a
carga média de ruptura seja eventualmente inferior à 50 Kg. Se for superior não
preocupa o comprador pois neste caso os parafusos seriam de melhor qualidade
que a especificada.

A hipótese do comprador é que a carga média da ruptura é inferior a 50 Kg. O


comprador pode ter o seguinte critério para decidir se compra ou não o lote:
resolve tomar uma amostra aleatória simples de 25 parafusos e submetê-los ao
ensaio de ruptura. Se a carga média de ruptura observada nesta amostra for
maior que 48 Kg, com nível de significância de 5%, ele comprará o lote, caso
contrário se recusará a comprar.

Resposta: 𝑷(𝝁 < 𝟒𝟖) = 𝑷(𝒁 < −𝟐, 𝟓) = 𝟎, 𝟎𝟎𝟔𝟐. 𝑹𝑬𝑱𝑬𝑰𝑻𝑨𝑹 𝑯𝟎

EXEMPLO. Em um teste de hipóteses bilateral, com nível de significância α, cujas


estatísticas de teste calculadas e tabeladas são designadas por Tc e T /2,
respectivamente, pode-se afirmar que:

a) Se – T/2  Tc  T/2, rejeita-se H0

www.focusconcursos.com.br | 60
Estatística | Fabricio Biazotto

ESTATÍSTICA

b) Se – T/2  Tc  T/2, não se pode rejeitar H0

c) a probabilidade de se rejeitar H0, sendo H0 verdadeira, é igual a /2

d) ocorre erro tipo I quando se aceita H) e H0 é falsa

e) se  for igual a 5%, então a probabilidade de ocorrer erro tipo II é 95% LETRA B

Análise de Variância – ANOVA

Técnica utilizada para comparação entre dois ou mais níveis de tratamento, de uma
ou mais variáveis de teste (fatores de controle)

Para o cálculo da ANOVA é de fundamental importância primeiro calcular a Média e


o Desvio Padrão de cada uma das varáveis a serem testadas.

Na ANOVA, a hipótese nula H0 determina que:

 Não exista diferença significativa entre as variáveis testadas;


 Amostras de uma mesma população de resultados.

H0: A = B ... = n

Isto contra uma hipótese alternativa H1, que determina que:

 Existe diferença significativa entre as variáveis testadas

𝐻1 : 𝜇𝐴 ≠ 𝜇𝐵 ≠ ⋯ ≠∶ 𝜇𝑛

www.focusconcursos.com.br | 61
Estatística | Fabricio Biazotto

ESTATÍSTICA

Assim, tem -se que:

Caso Ho seja verdadeiro, existem duas para ter a análise:

 Média das variâncias de cada amostra: (Dentro do Tratamento = Erro)

(𝑆𝐴2 + 𝑆𝐵2 + … + 𝑆𝑛2 )


𝛿 = 𝑆̅ =
2
𝑛

 A partir da variância das médias amostrais, veja que para cada variável existe
uma média, assim fazer a variância destas médias (Entre Tratamentos)
∑ 𝑛𝑡 (𝑥̅𝑡 − 𝑥̿ )2
2 ̅ 2
𝛿 = 𝑆 = 𝑆𝑋 𝑥 𝑛 =
𝐾−1
(onde n = tamanho das amostras de tratamento)

Assim a relação entre estes dois métodos, que uma distribuição de probabilidades (Z)
já tabelado, gerando assim a estatística F:

𝑉𝑎𝑟 𝑑𝑎𝑠 𝑀é𝑑𝑖𝑎𝑠


𝐹=
𝑀é𝑑𝑖𝑎𝑠 𝑑𝑎𝑠 𝑉𝑎𝑟

Desta forma existem as seguintes relações:

 F>> 1 = Rejeitar Ho ( o que quer dizer que as populações são muito diferentes)
 F  1 = Aceitar Ho, logo confirma-se a teoria inicial, de aceitar Ho e com isso as
populações são muito parecidas)

www.focusconcursos.com.br | 62
Estatística | Fabricio Biazotto

ESTATÍSTICA

Quadro de ANOVA:

Onde:

K = número de tratamentos ( variáveis)

nt = tamanho da amostra

N = Total de dados (soma dos dados de todas as amostras de cada variável N =


n1 + n2 + ... + nn)

EXEMPLO. Uma metalúrgica deseja fazer o teste de vida útil de brocas de corte. Foram
escolhidos três fabricantes diferentes e foram obtidos os seguintes dados:

FATOR DE CONTROLE

A B C

245 257 281

259 227 276

255 252 257

247 237 261

241 238 254

251 220 260

271 216 254

256 229 258

www.focusconcursos.com.br | 63
Estatística | Fabricio Biazotto

ESTATÍSTICA

Sabendo que: Xa = 253,23 ; Sa = 9,6 ; Xb = 234,5 ; Sb = 14,5 ; Xc = 262,63 ; Sc = 10,2.

Pela análise da variância, a hipótese nula deve:

a) Ser rejeitada
b) Ser aceita
c) Não existem informações suficiente para análise
d) Está dentro do nível de significância F
e) É melhor rejeitar a hipótese alternativa H1.
Letra A

ANÁLISE DE REGRESSÃO

A análise de regressão tem por objetivo descrever, através de um modelo matemático,


a relação existente entre duas variáveis.

1 – Regressão Linear Simples

Dado um conjunto de valores observados de X e Y, construir um modelo de regressão


linear de Y sobre X consiste em obter, a partir desses valores, uma reta que melhor
represente a relação entre essas variáveis. A determinação dos parâmetros dessa reta
é denominada ajustamento.

O processo de ajustamento deve partir da escolha da função através do qual os valores


de X explicarão os de Y; para isso recorre-se a um gráfico conhecido como diagrama
de dispersão. A função escolhida será aquela que for sugerida pelo conjunto dos
pontos dispostos no diagrama.

No exemplo a seguir, tem -se um conjunto de pontos sugerindo uma função linear.

www.focusconcursos.com.br | 64
Estatística | Fabricio Biazotto

ESTATÍSTICA

A reta é ajustada por:


̂ = 𝜶 + 𝜷𝒙. 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝑨𝒏𝒈𝒖𝒍𝒂𝒓: 𝜷
𝒚
∑𝒙 .∑𝒚
∑ 𝒙𝒚 −
= 𝒏 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝑳𝒊𝒏𝒆𝒂𝒓: 𝜶 = 𝒚 − 𝜷. 𝒙
𝟐 ∑ 𝒙𝟐
∑𝒙 −
𝒏

2 – Método dos Mínimos Quadrados


O primeiro passo na análise de regressão é obter as estimativas 𝛽 ̂1 dos
̂0 𝐸 𝛽
parâmetros do modelo. Os valores dessas estimativas serão obtidos a partir de uma
amostra de n pares de valores(Xi, Yi), i=1,...,n que correspondem a n pontos em um
gráfico, como na Figura 1.2.1. No método de Mínimos Quadrados, não é necessário
conhecer a forma da distribuição dos erros.
Suponha que é traçada uma reta arbitrária 𝛽0 + 𝛽1 𝑥 passando por esses pontos. No
valor Xi da variável explicativa, o valor predito por esta reta é 𝛽0 + 𝛽1 𝑥𝑖 , enquanto o
valor observado é Yi. Os desvios (erros) entre estes dois valores é 𝜀𝑖 = 𝑌𝑖 − [𝛽0 +
𝛽1 𝑥𝑖 ] , que corresponde a distância vertical do ponto à reta arbitrária.
O objetivo é estimar os parâmetros 𝛽0 𝑒 𝛽1 de modo que os desvios (𝜀𝑖 ) entre os valores
observados e estimados sejam mínimos. Isso equivale a minimizar o comprimento do
vetor de erros,

𝜀 = (𝜀1 , 𝜀2 , 𝜀3 , … , 𝜀𝑛 ) .

Uma forma de obter essas estimativas é o Método de Mínimos Quadrados. Este


método consiste em minimizar a soma dos quadrados dos desvios L, como na
expressão abaixo:

www.focusconcursos.com.br | 65
Estatística | Fabricio Biazotto

ESTATÍSTICA

𝐿 = ∑ 𝜖𝑖2 = ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 ] 2

Obviamente, que poderíamos calcular a distância entre a reta e os valores observados


de diferentes formas. Por exemplo, poderíamos utilizar o módulo ao invés do
quadrado, ou qualquer função de distância apropriada. A escolha do quadrado está
na simplicidade dos cálculos envolvidos

∑ 𝒙𝒊 𝒚𝒊 − 𝒏. 𝒙
̅. 𝒚
̅
̂1 =
𝛽
∑ 𝒙𝟐 − 𝒏. 𝒙 ̅𝟐

3 – Regressão Linear Múltipla

A equação de regressão estimada pode ser vista como uma tentativa para explicar as
variações na vaiável dependente Y, que resultam das alterações das variáveis
independentes X1,X2,...,Xk.

Seja 𝑦 a média dos valores observados para a varável dependente.

Uma medida útil associada ao modelo de regressão é o grau em que as predições


baseadas na equação , 𝑦, superam as predições baseadas em 𝑦.

Se a dispersão (erro) associada equação é muito menor que a dispersão (erro)


associada a 𝑦, as predições baseadas no modelos serão melhores que as baseadas em
𝑦.

Dispersão em torno de 𝒚 ou Variação Total (SST):

𝑺𝑸𝑻 = ∑(𝒚 − 𝒚)𝟐 (Soma dos Quadrados Totais) (n – 1 grau de liberdade)

Dispersão em torno da regressão 𝒚


̂ = Variação não Explicada (SSE)

̂)𝟐 (Soma dos Quadrados dos Resíduos) ( 1 grau de liberdade)


𝑺𝑸𝑬 = ∑(𝒚 − 𝒚

www.focusconcursos.com.br | 66
Estatística | Fabricio Biazotto

ESTATÍSTICA

OBS: O ajustamento será tanto melhor quanto menor for SSE relativamente a SST

Dispersão em torno de 𝒚 e ŷ = Variação Explicada (SSR)

̂ − 𝒚)𝟐 (Soma dos Quadrados da Regressão) ((n – 2 grau de liberdade)


𝑺𝑸𝑹 = ∑(𝒚

Assim: SST = SSE + SSR

E o quociente entre SSR e SST é o coeficiente de determinação (r2)

𝑺𝑺𝑹 𝑺𝑺𝑬
𝒓𝟐 = =𝟏−
𝑺𝑺𝑻 𝑺𝑺𝑻

Note que: 0 ≤ r2 ≤ 1;

r2  1 (próximo de 1) significa que grande parte da variação de Y é explicada


linearmente pelas variáveis independentes;

r2  0 (próximo de 0) significa que grande parte da variação de Y não é explicada


linearmente pelas variáveis independentes.

Ou também este coeficiente pode ser utilizado como uma medida da qualidade do
ajustamento, ou como medida da confiança depositada na equação de regressão
como instrumento de previsão:

r2  0 →modelo linear muito pouco adequado;


r2  1→modelo linear bastante adequado.

www.focusconcursos.com.br | 67
Estatística | Fabricio Biazotto

ESTATÍSTICA

EXEMPLO. Os dados a seguir referem-se ao volume de precipitação


pluviométrica (em mm) e ao volume de produção de leite tipo C (em milhões de
litros), em determinada região do país.

Produção de Leite C Índice Pluviométrico (mm)

ANO

1970 26 23

1971 25 21

1972 31 28

1973 29 27

1974 27 23

1975 31 28

1976 32 27

1977 28 22

1978 30 26

1979 30 25

A partir dos dados fornecidos, pede-se:

a) ajustar os dados através de um modelo linear. 𝒚


̂ = 𝟖, 𝟗 + 𝟎, 𝟖𝒙

b) admitindo-se, em 1980, um índice pluviométrico de 24 mm, qual deverá ser o


volume esperado de produção do leite tipo C? 28,1

EXEMPLO. Um modelo de regressão linear múltipla foi estimado pelo método de


Mínimos Quadrados, obtendo-se, com um nível de confiança de 95%, os

www.focusconcursos.com.br | 68
Estatística | Fabricio Biazotto

ESTATÍSTICA

seguintes resultados:

̂ = 𝟏𝟎 + 𝟐, 𝟓 𝒙𝟏 + 𝟎, 𝟑 𝒙𝟐 + 𝟐𝒙𝟑
𝑰. 𝒚
𝑰𝑰. 𝑶 𝒄𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒅𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐 𝒓𝟐 é 𝒊𝒈𝒖𝒂𝒍 𝒂 𝟎, 𝟗𝟓𝟑𝟐
𝑰𝑰𝑰. 𝑶 𝑽𝒂𝒍𝒐𝒓 − 𝒑 = 𝟎, 𝟎𝟎𝟑

Desse modo, pode-se afirmar que:

a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo de 2,5 %.

b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada.

c) x3 explica 95,32% das variações de Y em torno de sua média.

d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são, respectivamente,


iguais a 5% e 95%.

e) se no teste de hipóteses individual para β2 se rejeitar a hipótese nula (H0), então


tem-se fortes razões para acreditar que x2 não explica Y. LETRA B

TESTE DO QUI-QUADRDO.

Este teste objetiva verificar se a frequência absoluta observada de uma variável


é significativamente diferente da distribuição de frequência absoluta esperada.

1 – TESTE DO QUI-QUADRADO PARA UMA AMOSTRA.

Aplica-se quando se quer estudar a dependência entre duas variáveis, através


de uma tabela de dupla entrada ou também conhecida como tabela de contingência.

Condições para a execução do teste:

1 – Exclusivamente para variáveis nominais e ordinais;


2 – Observações independentes;
3 – Não se aplica se 20% das observações forem inferiores a 5;
4 – Não pode haver frequências inferiores a 1.

www.focusconcursos.com.br | 69
Estatística | Fabricio Biazotto

ESTATÍSTICA

Nos dois últimos casos, se houver incidências desta ordem, aconselha-se


agrupar os dados segundo um critério em específico.

Procedimento para a execução do teste:

1 – Determinar H0. Será a negativa da existência de diferenças entre a distribuição de


frequência observada e a esperada;
2 – Estabelecer o nível de significância (µ );
3 – Determinar a região de rejeição de H0. Determinar o valor dos graus de liberdade
(φ), sendo K – 1 (K = número de categorias). Encontrar, portanto, o valor do Qui-
quadrado tabelado;
4 – Calcular o Qui Quadrado, através da fórmula.
𝒅𝟐 = ( 𝒐 − 𝒆)𝟐
onde, o = frequência observada para cada classe;
e = frequência esperada para aquela classe
(∑ 𝒍𝒊𝒏𝒉𝒂 𝒙 ∑ 𝒄𝒐𝒍𝒖𝒏𝒂)
ATENÇÃO: O CÁCULO DO VALOR ESPERADO É: 𝒆 = ∑
(NÃO ESQUEÇER
𝒕𝒐𝒕𝒂𝒍
QUE A TABELA É UMA MATRIZ (aij)).

A média dos desvios é nula, porem a elevação ao quadrado transforma todos


os desvios em valores positivos, tornando possível a soma dos desvios sem haver
cancelamento.

O teste x2 é, essencialmente, um mecanismo pelo qual os desvios de uma


proporção hipotética são reduzidos a um único valor, que permite determinar uma
probabilidade a respeito da casualidade ou não dos desvios entre as proporções
observadas e esperadas, assim:
𝟐
𝒅𝟐
𝒙 = ∑
𝒆

Assim, quando as frequências observadas são muito próximas às esperadas, o valor


de x2 é pequeno, e quando as divergências são grandes, consequentemente assume
valores altos.

2 – DISTRIBUIÇÃO DO QUI-QUADRADO.

www.focusconcursos.com.br | 70
Estatística | Fabricio Biazotto

ESTATÍSTICA

Valores de x2 menores que 3,841têm 95% de probabilidade de ocorrência.


Valores de x2 menores que 6,635 têm 99% de probabilidade de ocorrência.

3 – TESTE DE HIPÓTESES.

•Hipótese nula (H0) – frequências observadas =frequências esperadas. Não há


associação entre os grupos (casualidade).

•Hipótese alternativa (H1) – as frequências observadas ≠ frequências esperadas. Os


grupos estão associados.

•Nível de significância (): significa o risco de se rejeitar uma hipótese verdadeira.


Deverá ser estabelecido antes da analise de dados e é usualmente fixado em 5%
(P=0,05).

•O valor de x2 ao nível de significância  é denominado qui-quadrado crítico ou


tabelado (x2c).

•Graus de Liberdade (G.L.) : é a diferença entre o numero de classes de resultados e o


número de informações da amostra que são necessários ao cálculo dos valores
esperados nessas classes.

Regras de Decisão:

www.focusconcursos.com.br | 71
Estatística | Fabricio Biazotto

ESTATÍSTICA

•É necessário obter duas estatísticas : X²calculado: obtido diretamente dos dados das
amostras e X² tabelado: depende do número de graus de liberdade e do nível de
significância adotado.

•SeX² calculado ≥X² tabelado:Rejeita-seHo.SeX² calculado <X² tabelado: Aceita-se Ho.

•Quando se consulta a tabela deX² observa-se que é determinada uma probabilidade


(P) de ocorrência de um determinado acontecimento.

•Rejeita-se uma hipótese quando a máxima probabilidade de erro ao rejeitar aquela


hipótese for baixa OU quando a probabilidade dos desvios terem ocorrido pelo
simples acaso é baixa.

4 – TESTE DO QUI-QUADRADO PARA INDEPENDÊNCIA (DUAS AMOSTRAS).

A utilização do presente teste em pesquisa visa verificar se as distribuições de


duas ou mais amostras não relacionadas diferem significativamente em relação à
determinada variável.

•Ao aplicar o teste do X², supõe-se que o tamanho amostral será relativamente
grande;

•Quando a amostra é pequena e/ou que a frequência esperada em uma das classes
é pequena(tipicamente, quando for menor que 5) a fórmula de obtenção de X² poderá
produzir um valor significativo (> do que o X² crítico), e, portanto, maior do que o
valor real;

𝟐
(𝒐𝟏 − 𝒆𝟏)𝟐 (𝒐𝟐 − 𝒆𝟐)𝟐 (𝒐𝒏 − 𝒆𝒏)𝟐
𝒙 = + + ⋯+
𝒆𝟏 𝒆𝟐 𝒆𝒏

•Nos casos de tabelas 2x2, caso necessário, Fisher recomenda o uso de um fator de
correção de continuidade de YATES para cada classe, a fim de evitar eventuais
conclusões erradas.

(|𝒐𝟏 − 𝒆𝟏| − 𝟎, 𝟓)𝟐 (|𝒐𝟐 − 𝒆𝟐| − 𝟎, 𝟓)𝟐


𝟐
𝒙 = +
𝒆𝟏 𝒆𝟐

www.focusconcursos.com.br | 72
Estatística | Fabricio Biazotto

ESTATÍSTICA

•De modo geral, usa-se a correção de Yates quando:

1)o valor de Qui-Quadrado obtido é maior que o crítico e o valor de N é menor que
40 ou;

2) o valor de Qui-Quadrado obtido é maior que o crítico e há pelo menos uma classe
com frequência esperada menor que 5.

5 – COEFICIENTE DE CONTIGENCIA (CC).

O CC é um indicador do grau de associação entre duas variáveis analisadas pelo Qui-


quadrado.

Quanto mais próximo de 1, melhor o coeficiente de contingência, que varia de 0 a 1,


ou seja:

ENTRE 0 E 0,5: DE FRACO A MODERADO


ENTRE 0,5 E 1: DE MODERADO A FORTE

𝒙𝟐 𝒌
𝑪𝑪 = √ + √
𝒙𝟐 + 𝒏 𝒌−𝟏

Onde: n = somatório total das linhas e colunas


K = o menor número possível de linhas ou colunas da tabela

EXEMPLO. Em um certo hospital, foi feita uma pesquisa entre vacinas e resfriados
de seus pacientes, gerando a seguinte tabela:

FICAR RESFRIADO
VACINAÇÃO
RESFRIADO NÃO RESFRIADO

VACINADO 15 20

NÃO VACINADO 25 40

www.focusconcursos.com.br | 73
Estatística | Fabricio Biazotto

ESTATÍSTICA

Foi feito então um estudo para se saber através destes dados, as relações entre
resfriado e vacinação. Após o tratamento estatístico dos dados, através dos qui-
quadrados, chegou-se a seguinte conclusão:

a) X2 = 0,183 ; CC = 0,6 ; Associação Forte

b) X2 = 0,0183 ; CC = 0,06 : Associação Fraca

c) X2 = 0,183 ; CC = 0,06: Associação Fraca

d) X2 = 0,183 ; CC = 0,6 ; Associação Fraca

e) X2 = 0,0183 ; CC = 0,06 : Associação Forte LETRA C

CORRELAÇÃO

1. Conceitos iniciais

Correlação é um valor que indica o grau de inter-relação de influência – algum tipo


de associação – entre duas ou mais variáveis (por exemplo: grau de escolaridade e
número de livros que uma pessoa possui).

Para se determinar a Correlação são necessárias as seguintes medidas estatísticas:


Desvio Padrão (S), Variância (S2) e Covariância (Cov).

O Desvio Padrão e a Variância, já estudados anteriormente, são Medidas de Dispersão


utilizadas quando desejamos saber o quão próximos ou quão afastados estão os
elementos de um conjunto, em relação a um determinado referencial (a média
aritmética do conjunto)

www.focusconcursos.com.br | 74
Estatística | Fabricio Biazotto

ESTATÍSTICA

Propriedades da Variância:

1ª) a Variância não é influenciada por operações de soma e subtração: S2X + ou -K =


S2X, onde K é uma constante.

2ª) a Variância é influenciada por operações de produto e divisão: S2K+ ou - X = K2 S2X,


onde K é uma constante.

3ª) Propriedade da Variância de Duas Variáveis (Xi e Yi):

1 - S2X+Y = S2X + S2Y + 2.Cov(X,Y)

2 - S2X-Y = S2X + S2Y - 2.Cov(X,Y)

No entanto, em algumas situações, é necessário o conhecimento de uma informação


adicional para uma análise mais apurada (por exemplo: peso e altura para uma análise
do aspecto físico de um grupo de pessoas).

Para a análise da dispersão conjunta de duas variáveis temos a medida estatística


denominada Covariância:

𝑪𝒐𝒗 (𝒙, 𝒚) = 𝒙𝒚 − 𝒙 . 𝒚

Propriedades da Covariância:

1ª) a covariância não é influenciada por operações de soma e subtração: Cov(X A,Y B)
= Cov(X,Y), onde A e B são constantes.

www.focusconcursos.com.br | 75
Estatística | Fabricio Biazotto

ESTATÍSTICA

2ª) a covariância é influenciada por operações de produto e divisão: Cov(A X,B Y) =


A.B. Cov(X,Y), onde A e B são constantes.

2. Cálculo da Correlação (r)

Fator de Correlação Linear de Pearson


𝑪𝒐𝒗(𝒙, 𝒚)
𝒓(𝒙, 𝒚) =
𝑺𝒙 . 𝑺𝒚
O valor da correlação varia de -1 a 1

 Se r = - 1, Correlação negativa perfeita (linear decrescente)


 Se -1 < r < 0, Correlação negativa
 Se r = 0, Correlação linear inexistente
 Se 0 < r < 1, Correlação positiva
 Se r = 1, Correlação positiva perfeita (linear crescente)

A correlação é positiva quando aumentando o valor de uma variável aumentará


também o da outra, ou quando diminuindo o valor da primeira, a segunda também
diminui; ou seja, teremos correlação positiva quando as duas variáveis oscilarem
sempre no mesmo sentido.

A correlação é negativa quando as duas variáveis oscilarem em sentido inverso; ou


seja, aumentando uma, diminuirá a outra, e vice-versa.

Propriedade: “A Correlação não é influenciada pelas operações algébricas”.

EXEMPLO. Considere a seguinte tabela, que apresenta valores referentes às


variáveis x e y, porventura relacionadas:

Valores das variáveis x e y relacionadas

x y x2 y2 xy

www.focusconcursos.com.br | 76
Estatística | Fabricio Biazotto

ESTATÍSTICA

1 5 1 25 5

2 7 4 49 14

3 12 9 144 36

4 13 16 169 52

5 18 25 324 90

6 20 36 400 120

1.11
21 75 91 1 317

Marque a opção que representa o coeficiente de correlação linear entre as


variáveis x e y.

a) 0,903

b) 0,926

c) 0,947

d) 0,962

e) 0,989

Letra E

Números Índices Simples:


Os números índices simples podem ser chamados (como também os compostos) de
relativos de base fixa ou relativos de ligação.

Números Índices Simples -Relativos de base fixa:


Neste caso um período é escolhido como referência, ou base, e todos os índices são
computados em relação aos registros deste período específico. Usualmente no
período base o índice recebe o valor 100. Os números índices simples podem ser de
preço (quando calcula-se a razão entre o preço observado de um artigo em um
período qualquer e o preço do mesmo artigo no período base), de quantidade
(quando calcula-se a razão entre a quantidade observada de um artigo em um período

www.focusconcursos.com.br | 77
Estatística | Fabricio Biazotto

ESTATÍSTICA

qualquer e a quantidade no período base), e de valor (quando a razão é calculada pelo


produto de preço e quantidade do artigo em um período qualquer e o produto de
preço e quantidade do mesmo artigo no período base). Vejamos as equações:

Onde p0 é o preço do artigo no período base, pt é o preço do artigo em um período


qualquer, q0 é quantidade do artigo no período base e qt é a quantidade do artigo
em um período qualquer.

Números Índices Relativos de Ligação:


Provavelmente devido à cultura inflacionária existente no Brasil não costumamos
encontrar índices em valores absolutos. É bastante comum nos depararmos com os
Números Índices Relativos de Ligação, que sintetizam as variações econômicas entre
dois períodos consecutivos. Quando o IBGE divulga o IPC -A de determinado mês é
apresentada apenas a variação percentual em relação ao mês imediatamente anterior.
Para obter os números índices relativos de ligação de um período basta dividir o índice
do período de interesse pelo do período imediatamente anterior.

Números Índices Compostos:


Os números índices compostos expressam variações no preço, quantidade ou valor
de um grupo de itens. São chamados de agregados simples quando atribuem a
mesma ponderação para todos os itens, desconsiderando a importância relativa de
cada um. Já os índices agregados ponderados atribuem ponderações diferentes para
os itens, o que pode permitir dar maior ênfase às variações em determinado item,
sendo a forma mais utilizada. Os índices compostos mais utilizados são:
 Índice de Laspeyres (época básica): ponderação é feita em função dos preços
ou quantidades do período base. Podem ser calculados índices de preço e
quantidade.
 Índice de Paasche (época atual): ponderação é feita em função dos preços ou
quantidades do período “atual”. Podem ser calculados índices de preço e
quantidade.
 Outros índices: Fischer, Marshall -Edgeworth, Drobish, Divisia, e os índices de
preços normalmente utilizados no Brasil(IGP-M, INPC, IPC-A, ICV do DIEESE, IPC
da FIPE).5.2.1

www.focusconcursos.com.br | 78
Estatística | Fabricio Biazotto

ESTATÍSTICA

Índice de Laspeyres.
No índice de Laspeyres a ponderação é feita em função dos preços e quantidades do
período base. Por causa disso ele tende a exagerar a alta, por considerar as
quantidades (ou preços) iguais aos do período base. As equações:

Onde n é o número de itens, pt,i é o preço de um item qualquer no período "atual",


p0,i é o preço de um item qualquer no período base, qt,i é a quantidade de um item
qualquer no período atual, e q0,i é a quantidade de um item qualquer no período
base.

Índice de Paasche.
No índice de Paasche a ponderação é feita em função dos preços e quantidades do
período atual. Por causa disso ele tende a exagerar a baixa, por considerar as
quantidades (ou preços) iguais aos do período atual. A mudança constante da época
“atual” pode encarecer a pesquisa para identificar os pesos. Por essa razão os índices
de preços, que costumam fazer as ponderações dos diversos itens com base em
pesquisas de orçamentos familiares, geralmente utilizam a fórmula de Laspeyres (ou
alguma modificação dela).

Onde n é o número de itens, pt,i é o preço de um item qualquer no período "atual",


p0,ié o preço de um item qualquer no período base, qt,i é a quantidade de um item
qualquer no período atual, e q0,i é a quantidade de um item qualquer no período
base.

Mudança de base de um número índice.


A escolha da base de um número índice é muitas vezes uma tarefa difícil. É preciso
escolher um período relativamente estável, o mais "típico" possível, quando a
atividade econômica não estiver sendo afetada por variações estruturais ocasionais.
No Brasil, onde a economia parece estar sendo sempre sacudida, em maior ou menor
grau, por flutuações e crises de todo tipo a escolha da base torna-se ainda mais
controvertida: talvez por isso haja tanta predileção pelos índices relativos de ligação.

www.focusconcursos.com.br | 79
Estatística | Fabricio Biazotto

ESTATÍSTICA

De qualquer forma, independente do índice, pode ser interessante, ou necessário,


mudar a base de um número índice por duas razões:

 para atualizar a base, tornando-a mais próxima da realidade atual (por este
motivo, periodicamente o IBGE realiza pesquisas de orçamento familiar, com a
finalidade de incluir as mudanças nos hábitos de consumo nas ponderações dos
seus índices).
 para permitir a comparação de duas séries de índices que tenham bases
diferentes.

O procedimento é extremamente simples: basta dividir toda a série de números


índices originais pelo número índice do período escolhido como nova base. Isso
preservará as diferenças relativas entre eles.

Série temporal.
“As variações de preço, causadas por inflação ou deflação, podem obscurecer as
variações de quantidade”. Isso significa que às vezes o que parece ser um crescimento
de vendas, ou aumento na participação no mercado (por apresentar maior
faturamento) deve-se mais a flutuações de preços, ou desvalorizações cambiais, do
que realmente a acréscimos nas quantidades vendidas. Este problema torna-se mais
grave se examinamos longas séries temporais, incluindo vários anos (considerando,
no caso do Brasil, as grandes mudanças estruturais que a economia sofreu, o problema
torna-se ainda mais sério).
É preciso fazer a deflação da série temporal. Em outras palavras, remover o efeito da
inflação nos valores da série temporal. Devemos procurar um número índice
apropriado para isso:
 se for uma empresa que vende diretamente ao consumidor final, no varejo,
utilizar como deflator um índice de preços ao consumidor (como o IPC-A do
IBGE, o IPC da FIPE, etc.);
 se a empresa vender bens de capital, ou realizar vendas no atacado, devemos
utilizar um índice que retrate as flutuações de tal mercado (como o IGP-M da
Fundação Getúlio Vargas, do qual 60% deve-se ao Índice de Preços por Atacado,
calculado pela mesma instituição);
 se a empresa exporta, seria interessante incluir também a flutuação da taxa de
câmbio do país (ou países de destino).
É importante ressaltar que é preciso ter os números índices de base fixa. Se apenas os
relativos de ligação forem disponíveis é necessário aplicar o procedimento visto no
número índice relativo de ligação para obter os números índices de base fixa.
Independente do deflator (índice) escolhido o procedimento é similar:

www.focusconcursos.com.br | 80
Estatística | Fabricio Biazotto

ESTATÍSTICA

Valor deflacionado = (valor original/índice) x 100

EXEMPLO. usando 2016 como base, obtenha os índices de Paasche de preços e


quantidades e de Laspeyres de preço e quantidade.

www.focusconcursos.com.br | 81

Você também pode gostar