Você está na página 1de 54

REPÚBLICA DE ANGOLA

MINISTÉRIO DO ENSINO SUPERIOR


UNIVERSIDADE AGOSTINHO NETO
FACULDADE DE ECONOMIA
Departamento De Métodos Quantitativos

TRABALHO: DE ESTATÍSTICA II

TEMA: ESTATÍSTICA INDUTIVA

TURMA: SALA MAGNA


CURSO: CICLO BÁSICO DE LICENCIATURA DA FEC-UAN
PERIODO: NOITE
ANO: 2ª
Grupo 7ª

O Docente
_________________________
Prof. José Yeze

LUANDA, 2019
REPÚBLICA DE ANGOLA
MINISTÉRIO DO ENSINO SUPERIOR
UNIVERSIDADE AGOSTINHO NETO
FACULDADE DE ECONOMIA
Departamento De Métodos Quantitativos

TRABALHO: DE ESTATÍSTICA II

TEMA: ESTATÍSTICA INDUTIVA

LUANDA, 2019
CONSTITUINTES DO GRUPO

Nomes Nº do Estudante

António Gomes da Costa Massiala 93432


Erves Mbundu Simão Mvumbi 120833
Emanuel Leu Nvunge 121269
Yuri da Conceição Diogo António 103952
Maria de Fátima dos Santos de Almeida 103807
Acácio Vitangui de Jesus Guelegue 103471
Francelina de Fátima Maior Pedro 120975
Vasco Serafim Muassoca 113774
Dianguivula Carlos Tchingani 103599
João Paulo Nvumbi Padi 120991
Orlando Paulo Bernardo Ngunza 121348
Maria Marques Francisco 103815

DEDICATÓRIA
Dedicamos este trabalho a todos os estudantes que acreditam num aprendizado qualificado, aos nossos
pais e aos professores que acreditam no nosso potencial e em particular aos amantes da tão
magnífica cadeira de Estatística, para que consigamos atingir os nossos objectivos, todos juntos é
possível.

AGRADECIMENTO
Queremos agradecer a Deus por ter-nos ajudado a superar as dificuldades e a tornar possível a
realização de um trabalho muito importante para nós.

Não podemos esquecer todo apoio dado através dos recursos disponíveis e de toda estrutura
que facilitou a grande harmonia entre todos os intervenientes.

Ao Professor YEZI, reconhecemos profundamente a confiança e a orientação.

Por fim, mas não menos importante, deixamos uma palavra de gratidão a todas as pessoas que
de alguma forma transmitiram força e confiança em nós.

RESUMO
Neste trabalho focalizaremos sobre os Números Índices as Teorias de Estimação Hipóteses e
Analises de variâncias, correlações e regressões, envolvendo também as séries temporais.

Durante a abordagem, observa-se que a análise de variância é um teste estatístico amplamente


difundido entre os analistas, e visa fundamentalmente verificar se existe uma diferença
significativa entre as médias e se os factores exercem influência em alguma variável
dependente. Os factores propostos podem ser de origem qualitativa ou quantitativa, mas a
variável dependente necessariamente devera ser contínua. Doutro lado, principal aplicação da
ANOVA (Anallysis of variance) é a comparação de medidas oriundas de grupos diferentes,
também chamados tratamentos, como por exemplo médias históricas de questões de
satisfação, empresas que operam simultaneamente com diferentes rendimentos, entre muitas
outras aplicações.

Destaca-se que a Analise de regressão e correlação, compreende a análise de dados amostrais


para saber se e como as duas ou mais variáveis estão relacionadas uma com a outra numa
população. Por fim, temos que uma série temporal, também denominada série histórica, é uma
sequência de dados obtidos em intervalos regulares de tempo durante um período específico.
Na análise de uma série temporal, primeiramente deseja-se modelar o fenómeno estudado
para, a partir dai, descrever o comportamento da série, fazer estimativas e, por último, avaliar
quais os factores que influenciaram o comportamento da série, buscando definir relações de
causa e efeito entre duas ou mais séries, para tanto, há um conjunto de técnicas estatísticas
disponíveis que dependem do modelo definido (ou estimado para a série), bem como do tipo
de série analisada e do objectivo do trabalho. Para análise de tendências, podem se ajustar
modelos de regressão polinomial baseados na série inteira ou em vizinhança de um
determinado ponto. Isso também pode ser realizado com funções matemáticas. Define-se
como um fenómeno sazonal aquele que ocorre regularmente em períodos fixos de tempo e, se
existir sazonalidade dita determinística na série, podem-se utilizar modelos de regressão que
incorporem funções do tipo seno ou co-seno a variável tempo.

ÍNDICES

/3
/4

/5

/6

/7

/8

/9

4
1. INTRODUÇÃO

Em alguma fase de seu trabalho, o pesquisador depara-se com o problema de analisar e


entender um conjunto de dados relevantes ao seu particular objecto de estudos. Ele necessitará
trabalhar os dados para transforma-los em informações, para compara-los com outros
resultados, ou ainda para julgar sua adequação a alguma teoria.

De modo bem geral, podemos dizer que a essência da ciência e a observação e que seu
objectivo básico e a inferência, que pode ser dedutiva (na qual se argumenta das premissas as
conclusões) ou indutiva (por meio da qual se vai do especifico ao geral).

A inferência estatística e uma das partes da Estatística. Esta é a parte da metodologia da


Ciência que tem por objectivo a colecta, redução, análise e modelagem dos dados, a partir do
que, finalmente, faz-se a inferência para uma população da qual os dados (a amostra) foram
obtidos. Um aspecto importante da modelagem dos dados e fazer previsões, a partir das quais
se podem tomar decisões.

Nos três temas deste trabalhou científico estaremos interessados na redução, análise e
interpretação dos dados sob consideração, dotando um enfoque de análise exploratória de
dados. Nessa abordagem tentaremos obter dos dados a maior quantidade possível de
informação, que indique modelos plausíveis a serem utilizados numa fase posterior, a análise
confirmatória de dados (ou inferência estatística).

Tradicionalmente, uma análise descritiva de dados limita-se a calcular algumas medidas de


posição e variabilidade, como a média e variância, por exemplo. Contraria a essa tendência,
uma corrente mais moderna, liderada por Turkey (1977), utiliza principais técnicas gráficas,
em oposição a resumo numéricos. Isso não significa que sumários não devam ser obtidos, mas
uma análise exploratória de dados não deve se limitar a calcular tais medidas

2. NÚMEROS ÍNDICES

1
Muitos dos dados estatísticos sobre variados assuntos apresentam-se de uma forma peculiar,”
repetem-se ao longo de vários períodos de tempo” que podem ser anos, meses, semanas ou
mesmo dias. Estes conjuntos de dados constituem as chamadas séries ou sucessões
cronológicas

Séries Cronológicas: É o conjunto de dados quantitativos recolhidos em intervalos de tempo


fixo.

Exemplos: As séries de preços dos consumidores de vários produtos incluídos no cabaz de


compras, e as séries de produção industrial, exportação e importação.

As sucessões muitas das vezes são apresentadas sob as formas de números índices.

2.1. Definição de Números Índices

Números Índices: É um quociente entre dois valores de uma mesma variável, referentes a
diferentes pontos no tempo e no espaço que normalmente é expresso em percentagem. Os
números índices podem ser:

 Temporais – quando se referem aos diferentes pontos no tempo.


 Regionais – quando se referem aos diferentes pontos no espaço.

Em termos matemáticos, um número índice para t com base em 0 é definido do seguinte


modo:

It Vt
= ₓ 100
o Vo

Sendo Vt e Vo os valores das variáveis em estudo nos períodos t e o, respectivamente, para o


caso de índices temporais. No que concerne aos índices regionais, Vt é o valor da variável
para a região t e Vo é o valor para a região considerada como base.

Os números índices foram especialmente concebidos para medir modificações associadas com
as variáveis económicas e financeiras, como é o caso do exemplo seguinte.

Exemplo 1 Preço de produção de determinado produto têxtil de 2003 -2007 (euros/metro)

Ano Preço
2003 6,00 ( Base)

2
2004 6,00
2005 6,50
2006 7,00
2007 7,5

Na sua forma mais simples um número índice, não é nada mais do que uma percentagem
(proporção relativa), indicando a relação entre dois valores referentes a diferentes períodos de
tempo ou regiões. Assim, para comparar os preços da série anterior basta:

1. Dividir o preço de cada ano pelo preço de 2003;


2. Exprimir cada um dos valores obtidos, sob a forma de percentagem.

Cálculo de Números Índices:

Anos Preço do ano/ Preço Preços relativos Números Índices


de 2003

2003 6,00/6,00 1,00x100 100

2004 6,00/6,00 1,00x100 100

2005 6,50/6,00 1,083x100 108,3

2006 7,00/6,00 1,167x100 116,7

2007 7,50/6,00 1,250x100 125,0

Os valores da última coluna permitem - nos já fazer comparações entre os preços dos vários
anos. Por exemplo, verifica-se que de 2003- 2004 não houve alteração no preço; Mas em 2006
os preços aumentaram 16,7% relativamente aos verificados em 2003.

2.2. Vantagens dos Números Índices

Os números índices, sendo instrumentos estatísticos que medem variações no tempo ou no


espaço, permitem sintetizar e comunicar de uma maneira eficaz a natureza das mudanças
verificadas numa ou mais variáveis.

A utilização dos números índices proporcionam – nos inúmeras vantagens, dentre elas
destacam-se:

- Permitem simplificar os dados e uma maior facilidade de comunicação.

- Com um só valor nós podemos avaliar a evolução de um conjunto complexo de variáveis.

3
2.3 Tipos de Números Índices

Os números índices podem ser:

1. Simples
2. Compostos
3. Compósitos ou Sintéticos
4. Territorial

No quadro anterior, os índices calculados permitem descrever as mudanças ocorridas numa


variável apenas - o preço de determinado produto têxtil, tratando-se portanto de um índice
simples. No exemplo anteriormente apresentado refere-se ao IPC, um índice agregado ou
composto que utiliza o preço de algumas centenas de produtos, isto é, permite a comparação
simultânea e múltiplas variáveis, todas elas expressas na mesma unidade de medida. Mas é
também possível construir índices sintéticos ou compósitos a partir de variáveis expressas em
diferentes unidades de medida.

Índice Territorial – Indica o grau de desenvolvimento que olha para a disparidade de acesso
de recurso territorial e as oportunidades da população, no acesso de recursos para a satisfação
das necessidades.

Os números índices podem ainda serem classificados de uma outra forma, podendo apresentar
diferenças entre:

1. Índices de Preços;
2. Índices de Quantidades;
3. Índices de Valores.

Dentro de cada tipo de índice podem aplicar-se diferentes métodos de cálculo, de modo a
obter índices simples, agregados ou compósitos.

Os índices de preços são calculados para medir” unicamente variações relativas de preços”
estando a sua utilização generalizada e sendo múltiplos os exemplos que deles se podem
apresentar.

2.3.1 Propriedades Dos Números Índices Simples

Os números índices simples comportam três propriedades importantes que são:

4
 Transitividade: Um índice para o período i cuja base é o período 0 (base), pode ser
calculado através do produto de dois índices. O do período i com base em k e o do
período k com base em 0.

Ii/k
∗Ik /0
Ii 100 Com i˃k˃0
= ∗100
0 100

Por exemplo

I 80 I 80 I 75
= ×
70 75 70

 Reversibilidade: O índice para o período i com base 0, é igual ao inverso do mesmo


índice para o ano zero com base i.

Ii /0 100
=
100 I 0/i

Por Exemplo

I 80/70 100
=
100 I 70/80

Encadeamento: Qualquer índice para o período i com base 0 pode ser decomposto no produto
dos índices para todos os períodos desde i até 0, cada um deles tendo como base o período
imediatamente anterior.

2.3.2 Manipulação Dos Números Índices

Devido a necessidade de comparar diferentes séries de números índices obriga a certo tipo de
manipulação como:

a) Mudança do período base


b) A construção de índices em cadeia ou simplesmente o cálculo das alterações
percentuais para cada período.

O cálculo das alterações percentuais para cada período de uma série de números índices
permite-nos saber de imediato, quais as alterações verificadas em cada período, mas
relativamente sempre ao período base. No entanto, poderá ser mais útil conhecer as alterações
verificadas em relação ao período anterior, o que já não é tão imediato. Para tal não é correcto

5
efectuar apenas a subtracção dos valores do índice entre cada dois períodos consecutivos. É
necessário também relacionar essa diferença com o valor inicial e a mudança percentual entre
os períodos i+i+1 é imediatamente obtida através d a seguinte fórmula:

Ii+ 1−Ii
Δ= x 100 Alteração percentual entre dois períodos i e i+1.
Ii

Exemplo:

Pretende – se calcular, para a seguinte série de índices de preços referentes aos anos 5 a 8, as
alterações percentuais verificadas em cada ano.

Índices de Preços Mudança percentual

125

135 (135-125) /125.100 8%

145 (145-135) /135.100 7,4%

155 (155-145) /145.100 6,8%

Apesar de as diferenças nos valores dos índices serem constantes, as alterações percentuais
mostram uma tendência decrescente para o aumento do nível de preços ao longo do período
considerado.

2.4 Mudança do Período Base

Quando se pretende comparar séries de índices com diferentes períodos base é, necessário
proceder a uma transformação das séries de modo que todas tenham uma base comum.

Tal mudança resume – se a uma alteração proporcional em todos os valore de uma ou todas as
séries. O 1º passo consiste em definir o novo período base, sendo necessário de seguida
dividir o valor da série para esse período por 100 no sentido de se encontrar o factor
proporcionalidade. Por último dividem – se todos os restantes índices da série pelo mesmo
factor de proporcionalidade, resultando disto uma nova série de números índices com um
novo período base.

It It /b
Fórmula: = .100
a Ia /b

Exemplo: O quadro a seguir mostra – nos como alterar uma série de índices com período base
no ano 1 para uma outra série em que a base é o ano 3.

6
Anos Série antiga Factor Nova série (base 3)
proporcionalidade

1 100 90,909

2 105 95,454

3 110 110/100= 1,1 100

4 118 107,272

5 126 114,545

6 135 122,727

Nota: Ligações de diferentes séries de números índices publicadas durante períodos longos
são objectos de mudança de base de tempos a tempos para que os seus valores não se tornem
demasiados.

2.5 Deflação das Séries Temporais

A maior parte das séries temporais relativas as actividades económicas e gestão empresarial,
são definidas em unidades monetárias e referem-se aos preços correntes, em cada período de
tempo.

Exemplos: As vendas, custos, preços de matérias-primas, valores de cotações na bolsa.

Embora seja útil examinar o andamento destes valores a preços correntes, corre-se o risco de
não se detectar as verdadeiras mudanças ocorridas e que se encontram disfarçadas sobre o
efeito de inflação.

Este problema é facilmente resolvido através da deflação das séries temporais, isto é, através
da utilização de um índice de preços que permite retirar à série os efeitos da inflação e
transformar os preços correntes em preços constantes.

O processo de deflação de uma série, consiste na divisão de valores monetários à preços


correntes da série temporais ou cronológicas por um IPC, multiplicando o resultado por 100.

Exemplo: A empresa Vunge Lda, efectuou entre 1983 e 1987, vendas a preços correntes das
séries temporais por um IPC para o mesmo período.

Anos Vendas a preços IPC Vendas a preços

7
correntes constantes (1983 -1987)

1983 120.345 100 120.345

1984 150.765 118 127.767

1985 180.555 135 133.744

1986 200.690 150 133.793

1987 264.540 162 163.296

2.6 IPC

O único problema quando se pretende deflacionar uma série temporal é encontra um índice
fidedigno e que represente realmente o efeito da inflação sobre a série temporal.

O IPC é o mais utilizado, é um indicador fundamental para acompanhar a variação média de


preços. O IPC tem como finalidade medir a evolução dos preços no tempo, de um conjunto de
bens e serviços considerados representativos da estrutura de consumo de determinado espaço
geográfico e de um ou vários estratos sócio – económicos.

Para a construção de qualquer índice há um conjunto de problemas a resolver. É necessário


que se saiba qual é o objectivo do índice, a população de referência, os bens e serviços a
utilizar, os coeficientes de ponderação, a recolha de informações convenientes sobre as
quantidades e sobre os preços, e a escolha da fórmula de cálculo.

O primeiro problema diz respeito ao seguinte: “ O objectivo do índice que se pretende


construir". O IPC destina – se a medir as variações de preços de um conjunto de produtos
consumidos por um determinado estrato populacional. Algumas das utilizações do IPC são as
seguintes:

 Utilização pelo governo na definição da política económica, em geral e, em particular,


na política de preços, medida da taxa de inflação ou da variação de preços com o fim
de avaliar a competitividade do país.
 Comparações dos ritmos de crescimento dos preços quer a nível interno, quer a nível
externo e a deflação das contas nacionais, isto é “ a passagem de valores nominais
para valores reais.
 O IPC é ainda usado nas negociações dos contratos colectivos de trabalho, na
elaboração de políticas de segurança social e em diversos contratos como cláusula de
actualização de montantes fixados.

8
População de Referência – É preciso determinar se o índice é para toda a população ou se é
apenas para uma subpopulação e, nessa caso defini-la de forma clara.

Também os bens e serviços que entram na definição do índice devem ser seleccionados e
claramente definidos com as respectivas unidades em que os mesmos são expressos.

No IPC, os bens são seleccionados a posterior com base no inquérito dos orçamentos
familiares que é realizado periodicamente pelo INE tendo em conta o peso percentual das
despesas dos agregados familiares. Desta forma chega-se a um cabaz de bens e serviços.

No IPC, os preços dos bens são observados sempre junto dos mesmos informadores, numa
determinada semana de cada mês. Esses preços referem – se aos preços das transacções a
retalho, a pronto pagamento. “ Não são considerados quaisquer preços de saldos, descontos,
promoções, preços de lançamentos ou de campanha.

Finalmente, o IPC é calculado recorrendo-se à fórmula de Laspeyres.

2.6.1 Alguns Problemas na Determinação do IPC

 Enviesamento de Substituição
 Enviesamento de Qualidade
 Enviesamento resultante do aparecimento de novos produtos
 Enviesamento da abertura de novos estabelecimentos.

Enviesamento de Substituição – Com as alterações no nível geral de preços verificam – se


alterações dos preços relativos. Os consumidores tendem a substituir os bens que se tornaram
relativamente mais caros, pelos que se tornaram mais baratos, alterando o consumo de cabaz.

Como o IPC é calculado medindo o custo de um determinado cabaz fixo de bens, não são
consideradas as alterações do padrão de consumo em resposta as alterações dos preços
relativos. Assim o IPC sobreavalia a compensação de rendimento necessário para manter
constante o nível de bem-estar dos consumidores. Esta sobre avaliação constitui o
enviesamento de substituição do IPC.

Enviesamentos de Qualidade – Alguns dos bens incluídos no IPC, estão sujeitos a alterações
consideráveis das suas características, traduzindo variações de qualidade. A evolução dos
equipamentos informáticos, dos automóveis e da generalidade dos electrodomésticos têm um
efeito significativo na variação gradual na qualidade dos bens e serviços.

9
10
2.7 Teoria da Estimação

Um dos métodos para realizar inferências a respeito dos parâmetros é a estimação, que
determina estimativas dos parâmetros populacionais. Consiste em utilizar dados amostrais
para estimar (ou prever) os valores de parâmetros populacionais desconhecidos, tais como
média, desvio padrão, proporções, entre outros parâmetros.

Existem dois tipos de estimação de um parâmetro populacional:


 Estimação por ponto
 E a estimação por intervalo.

2.7.1 Estimação por ponto

É a estimativa de um parâmetro populacional dada por um único número.

A partir das observações, usando o estimador, procura-se encontrar um valor numérico único
(estimativa) que esteja bastante próximo do verdadeiro valor do parâmetro.

Este procedimento não permite julgar a magnitude do erro que podemos estar cometendo, mas
a distribuição por amostragem dos estimadores torna possível o estudo das qualidades do
estimador.

Na estimativa pontual, raramente os estimadores estatísticos coincidem com os valores


populacionais. Assim, é importante delimitar a faixa de valores onde o parâmetro
populacional deve ser procurado. Isso ocorre através das estimativas intervalares.

2.7.2 Estimação por intervalo

Essa estimativa consiste em uma amplitude (ou um intervalo) de valores, no qual se admite
esteja o parâmetro populacional.

Procura determinar um intervalo que contenha o valor do parâmetro populacional, com certa
margem de segurança. Este procedimento permite julgar a magnitude do erro que podemos
estar cometendo.

11
2.7.3 Intervalo de Confiança

Quando se constrói um intervalo de confiança são determinados dois limites entre os quais se
espera estar o parâmetro da população, de acordo com um risco conhecido de erro (ou nível
de confiança).

As informações sobre a precisão de uma estimativa de intervalo são transmitidas pela sua
extensão. Se o nível de confiança for alto e o intervalo resultante, bastante restrito, o
conhecimento do valor do parâmetro será razoavelmente preciso. Um intervalo de confiança
muito amplo passa a ideia de que há muita incerteza com relação ao valor que estamos a
estimar.

Com base na amostra, uma maneira de expressar a precisão da estimação é calcular os limites
de um intervalo, o Intervalo de Confiança (IC), tais que (1 – α) seja a probabilidade de que o
verdadeiro valor do parâmetro esteja contido nele.
Portanto: 
α = Grau de desconfiança, nível de incerteza ou nível de significância.
1-α = Coeficiente de confiança ou nível de confiabilidade;

Os valores de α mais utilizados são:

α = 0,10 →(1 – α) = 0,90 ou 90%


α = 0,05 →(1 – α) = 0,95 ou 95%
α = 0,01 →(1 – α) = 0,99 ou 99%

Estima-se que o verdadeiro valor do parâmetro estará contido em (1 – α). Algumas


estimativas intervalares incluem e outras não incluem o verdadeiro valor do parâmetro da
população. Ao se retirar uma amostra e calcular um intervalo de confiança não se sabe, na
verdade, se o parâmetro da população se encontra naquele intervalo calculado. O importante é
saber que se está utilizando um método com (1 – α) de probabilidade de sucesso.

2.7.4 Intervalo de confiança para a média quando a variância é conhecida

Utiliza-se quando por quantidade de medidas ou por conhecimento histórico do processo de


medida, o valor do desvio padrão está perfeitamente estabelecido de modo que o mesmo pode
ser considerado como desvio padrão da população.

12
Para grandes amostras, utiliza-se a seguinte fórmula:

Para populações finitas, utiliza-se a seguinte fórmula:

Intervalo de confiança para a proporção (grandes amostras)

Para populações finitas o IC será:

2.8 Testes de hipóteses

Estudaremos neste capítulo outros aspectos da inferência estatística: O teste de hipóteses, cujo
objectivo é decidir se uma afirmação, em geral, sobre parâmetros de uma ou mais populações
é, ou não, apoiado pela evidência obtida de dados amostrais. Tal afirmação é o que se chama
Hipótese Estatística e a regra usada para decidir se ela é verdadeira ou não, é o Teste de
Hipóteses. Iremos ilustrá-lo por meio de um exemplo.

Exemplo 1.Uma suinicultura usa uma ração A que garante, desde a desmama até a idade de
abate, um ganho em peso de 500 g/dia/suíno ( =25g). O fabricante de uma ração B afirma
que nas mesmas condições, sua ração propicia um ganho de 510 g/dia ( =25g). É evidente
que em termos financeiros, se for verídica a afirmação do fabricante da ração do tipo B, esta
deve ser usada em substituição à do tipo A.

13
Se o criador tem de decidir com base em uma amostra, se o ganho em peso dos suínos dando
a nova ração é 510 g/dia, o problema pode ser expresso na linguagem de teste estatístico de
hipóteses.

2.8.1 Hipóteses estatísticas

Em experimentos comparativos, nos quais um novo produto ou nova técnica é comparado


com o padrão, para determinar se sua superioridade pode ser corroborada pela evidência
experimental, é necessário formular:

Hipótese nula (H0), cujo termo é aplicado para a hipótese a ser testada, e a

¿ Hipótese alternativa (H1)

A hipótese nula (H0) é a hipótese de igualdade entre o novo e o produto padrão, ou seja, a
designação “hipótese nula” decorre da suposição que a diferença entre eles é nula ou zero.

A análise de cada situação indicará qual deve ser considerada a hipótese nula e qual a hipótese
alternativa. Uma especificação de H0 e H1 no exemplo seria:

H0:  = 500 g/dia (a ração B não é melhor)

¿¿H1:  = 510 g/dia (a ração B é melhor)


Ou

H0:  = 0
H1:  = 1

Onde: 1>0e = 25

Se uma hipótese estatística especifica o valor do parâmetro, ela é referida como hipótese
simples; se não, é referida como composta. Assim, no exemplo, a hipótese alternativa  = 510
é simples. Seria composta, por exemplo, se > 500, visto que não fixa um valor específico
para o parâmetro. Em H0, o valor do parâmetro tem de ser especificado.

A hipótese preferencial é H0 e é sustentada como verdadeira, a menos que os dados se


coloquem firmemente contra ela. Em tal caso, H 0 seria rejeitada a favor de H 1. Rejeitar
erradamente H0 é visto como um erro mais grave do que não rejeitar H 0 quando H1 é
verdadeira.

14
2.8.2 Erros tipos I e II

O problema proposto consiste em verificar se com a utilização da nova ração, a média de


ganho em peso seria estatisticamente maior que 500g e caso se verifique, a suinicultura
passaria a utilizá-la. Caso contrário, continuaria com a ração do tipo A, que já foi testada
(conhecida a priori).

Para a tomada de decisão, deve-se extrair uma amostra aleatória (por exemplo, n = 50) de
suínos, fornecendo à mesma, desde a desmama até a idade de abate, a ração B, e após o
término da prova, calcula-se a média amostral ( x̄ a) do ganho diário em peso no período,
que é, no caso, a estatística teste.

Estatística teste. A estatística teste é o valor amostral da estatística utilizada para testar um
parâmetro no teste de hipóteses. Parece razoável estabelecer que se x̄ a estiver próxima de
500g, não se deve rejeitar H0, e a conclusão é que a ração do tipo B é estatisticamente igual a
do tipo A.

Por outro lado, se x̄ a estiver próxima ou for superior à 510g, a tomada de decisão é que a
ração do tipo B é superior à do tipo A (rejeitar H0) e que a suinicultura passe a utilizá-la. A

média amostral ( x̄ ) é, no entanto, uma variável aleatória que pode assumir qualquer valor
a

entre 500 e 510g. Assim, deve-se estabelecer um critério de decisão para aceitar ou rejeitar
H0. Isto é feito determinando um valor k (ponto) entre 500 e 510g, chamado valor crítico

( x̄ c ) , e adoptando a seguinte regra de decisão:

“Se a média amostral ( x̄ a) estiver à direita de k, rejeita-se H0, caso contrário não se rejeita”

Graficamente tem-se a seguinte situação:

15
Região de aceitação para H0 Região de rejeição para H0

500
k=
x̄ c 510

Figura 1. Região de rejeição de H0 para o teste  = 0 vs. = 1

Um teste de hipóteses é completamente especificado pela estatística teste e a região de


rejeição. A região de rejeição ou região crítica (RC) é o conjunto de valores da estatística teste
para os quais H0 é rejeitada. O procedimento do teste, então, divide os possíveis valores da
estatística teste em dois subconjuntos:

Uma região de aceitação e uma de rejeição para H0, o que pode levar a dois tipos de erros.
Por exemplo, se o verdadeiro valor do parâmetro  é 500g e incorrectamente concluímos que
 = 510g, cometeremos um erro referido como erro tipo I. Por outro lado, se o verdadeiro
valor de  é 510g e incorrectamente concluímos que = 500 g, cometeremos uma segunda
espécie de erro, referido como erro tipo II.

O quadro abaixo resume a natureza dos erros envolvidos no processo de decisão, por meio dos testes
de significância:

Situação específica na população


Conclusão do teste H0 verdadeira H0 falsa
Não rejeitar H0 Decisão correcta Erro tipo II (perdas potenciais
para o criador)
Rejeitar H0 Erro tipo I (perdas reais para Decisão correcta
o criador)

Denota-se:

 = P (erro tipo I) = P (rejeitar H0/H0 é verdadeira)

 = P (erro tipo II) = P (não rejeitar H0/H0 é falsa)

16
Assim, o tamanho da região crítica é exactamente a probabilidade  de cometer
o erro tipo I . Essa probabilidade é também chamada de nível de significância
do teste. O nível de significância do teste (  ) é, portanto, a probabilidade com
que desejamos correr o risco de cometer o erro tipo I, ou seja, em  % dos casos
de rejeição de H 0 , estaremos tomando decisão errada.

Escolhendo um valor para


x̄ c , pode-se determinar as probabilidades ede cometer cada
tipo de erro. Mas, o procedimento que se usa na prática para construir a regra de decisão é
fixar, a probabilidade do erro tipo I (rejeitar H 0 quando ela for verdadeira). O valor é
arbitrário e o resultado da amostra é tanto mais significante para rejeitar H 0 quanto menor for
esse nível. Geralmente, o valor é fixado em 5%, 1% ou 0,1%.

Exemplo 1, fixemos em 5%, ou seja, P (erro I) = P(


X̄ ≥ x̄ c / H 0 é verdadeira) = 5%, e
vejamos qual a regra de decisão correspondente.

Quando H0 é verdadeira ( = 500g), sabe-se do Teorema Limite Central, que X̄ , a média


de amostras de tamanho 50, terá distribuição aproximadamente.

σ 2 (=625 g2 )
N [ μ(=500 ) ; ]
n (=50 ) Ou seja, N (500 g ; 12,5 g2 ) . Assim,

2
P(erro I )=P [ X̄ ≥ x̄ c / X̄ : N (500 g ; 12, 5 g )]=5 %

x̄ c− μ 0 x̄ c−500
P[ Z≥
σ
]=P[ Z≥
3,5
]=5 % x̄ c −500
=1 , 65
√n  3,5

Ou seja, x̄ c=k=(3,5. 1 ,65 )+500=505 , 78 g

17
Então, RC = { X̄  R/ X̄  505,78 g} e a regra de decisão é:“se x̄ a RC, rejeita-se H0
e a conclusão é que a ração B é superior ao de A; se, não se rejeita H0, e a conclusão é que
as rações são estatisticamente iguais”.

Convém observar que a RC é sempre construída usando os valores hipotéticos por H 0 ou seja,
sob a hipótese H0 ser verdadeira.

Com essa regra de decisão:

 = P (erro II) = P [ X̄ <505,78/ X̄ : N (510g, 12,3 g2)]

505 ,78−510
 = P [Z < 3,5 ] = P [Z <-1,21] = 11,31 %

Há uma relação inversa entre e, ou seja, se a probabilidade de um tipo de erro é reduzida,
aquela do outro tipo é aumentada (Verifique na Figura 1). No caso da escolha de um valor

para
x̄ c , por exemplo, 505kg (o ponto médio entre 500 e 510kg), podem-se reduzir as
probabilidades de ambos os tipos de erros, aumentando o tamanho da amostra (n). Este
resultado também pode ser facilmente verificado a partir da Figura 1, considerando que, da

x̄ c−μ
z c= σ
transformação para a normal reduzida, √n .

A probabilidade com que o teste de significância, com  fixado, rejeita H0, quando o particular
valor alternativo do parâmetro é verdadeiro, é chamada poder do teste. O poder do teste é um
menos a probabilidade do erro tipo II ou seja, (1 -). No exemplo, o poder do teste é: 1 -  = 1
– 0,1131 = 0,8869 (88,7%).

Frequentemente, no entanto, não são especificados valores fixos para o parâmetro em H1.
Então, sua caracterização dependerá do grau de conhecimento que se tem do problema. A
alternativa mais geral é:

H1: 0 (teste bilateral)

Neste caso, a regra de decisão deverá indicar dois pontos


x̄ c1 e x̄ c2 , tais que, H será
1

sustentada se a média da amostra for muito grande ou muito pequena. Então, a estrutura
apropriada da região de rejeição ou crítica (RC) é:

18
“Rejeita-se H0se
X̄ ≤ x̄ c 1 ou X̄≥ x̄ c 2 ”

/2 /2

x c1 0 x c2
RC RC

Com esta regra de decisão, não podemos encontrar , consequentemente, não podemos controlar o
erro tipo II, pois o valor do parâmetro sob a hipótese alternativa não é especificado. Voltando ao
problema proposto, e testando:

H0:  = 500g vs. H1:  500g

Tem-se, fixando  = 5%,


P (erro I) = P[ X̄  c 1 ou X̄  x̄ c 2 / X̄ : N (500 g, 12,3 g2)] = 5%

= P[Z  -1,96 ou Z  1,96) = 5%

x̄ c 1 −500
−1 , 96= x̄ c1 =493 , 1 g
3,5 

x̄ c 2 −500
1 ,96= x̄ c 2 =506 , 9 g
3,5 

Assim,

RC = { X̄  R/ X̄  493,1g ou X̄  506,9 g}

A extensão para testes unilaterais das formas:

H1: >0 (teste unilateral à direita) e

H1: <0 (teste unilateral à esquerda), é imediata.

19
Exemplo 2. No caso da suinicultura, considerando a amostra de 50 leitões (n = 50),
aos quais foi fornecida a nova ração (B), deve-se ou não adoptar essa ração,
admitindo-se como resultado um ganho em peso médio diário de 504 g (

x̄ a =504 g ), fixando  = 5%?


Solução:

H0:  = 500g

H1:  = 510g

x̄ a =504 g n = 50  = 0,05  = 25 g

x̄ c−μ 0 x̄ c −500
z c=
σ /√n  1,65 = 25/ √ 50  x̄ c = 505,78 g

RC = { X̄  505,78 g}

Conclusão:

Como
x̄ a  RC, não se rejeita H ao nível de significância de 5%, ou seja, a ração B não é
0

melhor do que A. Portanto, a suinicultura não deve adoptá-la.

Equivalentemente, os testes descritos podem ser baseados na estatística:

X̄−μ0
Z=
σ /√n , Obtendo-se as regiões críticas na distribuição N (0,1).

Esta expressão corresponde à seguinte fórmula geral:

estimativa do parâmetro − valor do parâmetro hipotetizado por H 0


Estatística teste=
erro padrão da estimativa do parâmetro

Que será aplicada daqui em diante em testes de hipóteses. Assim procedendo na resolução do
Exemplo 2, o valor observado do estatístico teste (Zobs) é dado por:

20
x̄ a −μ 0 504−500
z obs=
σ /√ n = 25/ √ 50 = 1,14

= 5%
Z
0 zc = 1,65

RC

RC = {Z  1,65}

Como zobs<zc, não se rejeita H0 ao nível de 5%.

2.8.3 Passos para a construção de um teste de hipóteses

Nos itens anteriores foram introduzidos os conceitos básicos e as terminologias que são
aplicados em testes de hipóteses. Um resumo dos principais passos que podem ser usados
sistematicamente para qualquer teste de hipóteses apresentaremos aqui:

(a) Fixe a hipótese H0 a ser testada e a alternativa H1;

(b) Use a teoria estatística e as informações disponíveis para decidir qual estatística
(estimador) será usada para testar a hipótese H 0, obtendo-se suas propriedades
(distribuição, estimativa, erro padrão);

(c) Fixe a probabilidade  de cometer o erro tipo I e use este valor para construir a RC
(região crítica). Lembrando-se sempre que a RC é construída para a estatística definida
no passo (a), usando os valores hipotéticos por H0;

(d) Use as informações da amostra para calcular o valor da estatística do teste; e

(e) Se o valor da estatística calculado com os dados da amostra não pertencer à RC, não
rejeite H0; caso contrário, rejeite H0.

2.8.4 Teste sobre a média de uma população com variância conhecida

21
Descreveremos agora, de modo sucinto, os passos básicos definidos na secção anterior, para
testar a hipótese de que a média de uma população  é igual a um número fixado 0, supondo
que a população tem distribuição normal, cuja variância (2), embora seja uma condição
irreal, é conhecida.

2.8.5 Hipótese simples vs. Alternativa simples

(a) Teste unilateral à direita

H0:  = 0

H1:  = 1 (1>0)

x
x x
0
x 0

Com fixado,
x̄ c−μ 0
z c=
RC = { X̄  R/ X̄  x̄ c}, onde: x̄ c é obtido a partir de σ /√n ,

Sendo zc: N (0,1), tal que P(Z zc) = 

Equivalentemente,

X̄−μ0
Z=
RC = {Z zc}, onde: σ /√n

(b) Teste unilateral à esquerda

H0:  = 0

H1:  = 1 (1<0)

22
-zc Z

RC = {Z  - zc }

2.8.6 Hipótese simples vs. Alternativa composta

(i) H0:  = 0

H1: >0 RC idêntica de(a)

(ii) H0:  = 0

H1: <0 RC idêntica à de (b)

(iii) H0:  = 0

H1: 0

Teste bilateral da forma:

/2
1- /2

-zc zc Z

RC = {Z zc ou Z  - zc}

Exemplo 3. Usando os dados do Exemplo 1, testar a hipótese de  = 500g contra a hipótese


alternativa  500g, ao nível de significância de 5%.

Solução:

H0:  = 500g
x̄ a =504 g  = 5%

H1:  500 g

23
x̄ a −μ 0 504−500
z obs=
RC = {Z  1,96 ou Z - 1,96} σ /√ n = 25/ √ 50 = 1,14

Conclusão:

Como zobs RC, não se rejeita H0 ao nível de 5%, ou seja, a ração B não é estatisticamente
melhor do que A.

2.9 Probabilidade de significância (valor-p)

Existem duas opções para expressar a conclusão final de um teste de hipóteses:

- Comparar, como descrito anteriormente, o valor da estatística teste com o valor obtido a
partir da distribuição teórica, específica para o teste, para um valor pré-fixado do nível de

significância (α ) ;

- Quantificar a chance do que foi observado ou resultados mais extremos, sob a hipótese nula
(H0) ser verdadeira. Essa opção baseia-se na probabilidade de ocorrência de valores iguais ou
superiores ao assumido pela estatística teste, dado que a hipótese H0 é verdadeira. Este número
é chamado de probabilidade de significância ou valor-p e frequentemente é indicado apenas
por p.

Obs. Valor-p e nível de significância (α ) não são sinónimos. O valor-p é sempre obtido de
uma amostra, enquanto o nível de significância é geralmente fixado antes da colecta dos
dados.

Definição: valor-p, também denotado como nível descritivo do teste, é o nome que se dá à
probabilidade de se observar um resultado tão ou mais extremo que o da amostra, supondo
que a hipótese nula seja verdadeira. No caso de um teste de hipóteses no qual o valor da
estatística teste é Zobs, o valor-p é dado por:

P = P(Z  Zobs|H0).

Em outras palavras, o valor-p corresponde ao menor nível de significância que pode ser
assumido para rejeitar a hipótese nula. Dizemos então que há significância estatística quando

o valor-p é menor que o nível de significância adoptado (α ) .

24
Para exemplificar a definição de valor-p, consideremos primeiro o caso de um teste de

hipóteses monocaudal para a média. Vide Exemplo 2, onde α=0,05 e Zobs = 1,14. Assim,

p = P(Z Zobs) = P(Z  1,14) = 0,12714

Portanto, podemos concluir que, para qualquer nível de significância maior que 0,12714,
temos evidências para rejeitar a hipótese nula. Observe que o valor-p é maior que o nível de

significância proposto ( p >α ) , assim como concluído, nós não rejeitamos a hipótese nula
(H0:  = 500g). Além disso, quanto maior (ou menor) for o valor-p, mais “próximo” (ou
“distante”) estamos da hipótese nula (H0). Do que se deduz que o valor-p tem mais
informações sobre a evidência contra hipótese H 0 e deste modo o experimentador tem mais
informações para decidir sobre ela, com o nível de significância apropriado. Ao contrário, se o

valor-p for menor que o nível de significância proposto ( p <α ) , rejeita-se H0.

Considerando agora o teste para a média como bicaudal (vide Exemplo 3), segue que o valor-
p é dado por:

p = P(Z Zobs) + P(Z  -Zobs) = P(Z  1,14) + P(Z  -1,14) = 0,2542

Donde podemos concluir que, para qualquer nível de significância menor que 0,2542, temos
evidências, como no caso do exemplo, para não rejeitar a hipótese nula.

Em geral, os resultados podem ser interpretados como:

Valor-p próximo de 0 - Um indicador de que a hipótese nula é falsa.

Valor-p próximo de 1 - Não há evidência suficiente para rejeitar a hipótese nula.

Normalmente considera-se um valor-p de 0,05 como o patamar para avaliar a hipótese nula (H 0). Se o
valor-p for inferior a 0,05 podemos rejeitar H0. Em caso contrário, não temos evidência que nos
permita rejeitá-la (o que não significa automaticamente que seja verdadeira). Em situações de maior
exigência é usado um valor-p inferior a 0,05.
Na maioria dos softwares, a significância estatística é expressa pelo nível descritivo (valor-p).

2.10 Teste para a proporção

Considere uma população e uma hipótese sobre uma proporção p dessa população:

25
H0 : p = p0

O problema fornece informações sobre H1, que pode ser:

(a) H1: p = p1 (p1> p0)(teste monocaudal à direita)

(b) H1: p = p( p1 < p0) (teste monocaudal à esquerda)

(c) H1: p> p (teste monocaudal à direita)

(d) H1:p <p0 (teste monocaudal à esquerda)

(e) H1: p  p0 (teste bicaudal)

Quando n (tamanho da amostra) é grande,

p^ − p
Z=
√ p(1− p )/n ~ N(0,1)

Onde: ^p é a proporção da amostra

Sob H0 verdadeira,

p^ − p0
Z=
√ p0 (1− p0 )/ n ~ N(0,1)

e para todas as formas de H1

^p −p 0
z obs=
√ p 0( 1− p 0)/ n ~ N (0,1)

As regiões críticas são idênticas às mostradas em (3) e os valores de z c, fixando-se, são


obtidos na distribuição N (0,1).

Exemplo 4. Um laboratório de vacinas contra febre-amarela reivindicou que ela imuniza 90%
da população. Em uma amostra de 200 pessoas, nos quais foram aplicados a vacina, 160
foram imunizados. Verificar se a declaração do fabricante é verdadeira ao nível de 5%.

Solução:

26
H0: p = 0,90 (p0)

H1: p <0,90

160
^p=
n = 200 200 = 0,80  = 0,05

^p −p 0 0, 80−0, 90
z obs=
√ p 0( 1− p 0)/ n = √(0,90.0, 10)/200 = - 4,72

RC = {Z  -1,65}

Decisão:

Como zobs<zc, rejeita-se H0 ao nível de 5%, ou seja, a proporção de imunização é menor do


que 90%.

Conclusão:

A declaração do laboratório é falsa ao nível de 5%.

2.11 Teste para a média de uma população N( , 2), 2 desconhecido

Hipóteses

H0:  = 0

H1: 0[ou >0 ou <0], onde0é um valor conhecido.

Estatística teste: Neste caso, a exemplo do que foi feito na construção de intervalos de
confiança, a estatística a ser usada para testar a hipótese H0 é:

X̄−μ0
t= s/ √ n

Que tem distribuição t de Student com n – 1 graus de liberdade (tn-1).

Região crítica: Fixado  , a região crítica (RC) é:

RC : t n−1 <−t α /2 , n−1 ou t n−1 >t α /2 , n−1

27
Ou
RC : |t n−1|>tα /2 , n−1 .

Os valores de t/2, n-1 podem ser obtidos na Tabela 4, apresentada no capítulo anterior.

Resultado da amostra: Colhida uma amostra aleatória de tamanho n, calculada sua média

( x̄ a ) e desvio padrão (s a ), calcula-se:

x̄ a −μ0

tobs =
s a / √n

Análise do resultado: Se tobs RC, rejeita-se H0; caso contrário, não se rejeita

Esse teste é chamado teste t de Student ou, simplesmente, teste t.

Se n for grande (n  30), x̄ , como já visto, pode ser tratada como uma variável

σ2
N(μ, )
aproximadamente normal n , em virtude da aplicação do teorema limite central.
Além disso,  pode ser substituído por s sem afectar consideravelmente a distribuição. Assim,
um teste aproximado de H0:  = 0 pode ser executado usando-se a estatística Z, consultando a
tabela normal para a região de rejeição.

Exemplo 5. As especificações de uma dada droga veterinária exigem 23,2g de álcool etílico.
Uma amostra de 10 análises do produto apresentou um teor médio de álcool de 23,5g com
desvio padrão de 0,24g. Pode-se concluir ao nível de significância de 1% que o produto satisfaz
as condições exigidas ( 23,2g).

Solução:

H0:  = 23,2g

H1:  23,2g

 = 0,01
x̄ a =23 ,5 g s = 0,24 n = 10
a

Consultando a Tabela 4, tc(0,01; 9) = 3,25, de modo que

RC = t> -3,25 ou t> 3,25

28
x̄ a−μ 0 23 , 5 g−23 ,2 g
t obs= = 0 ,24
=3 , 95
sa
√10
√n

Conclusão: como tobs RC, rejeita-se H0 ao nível de 1%, ou seja, o teste indica que o produto
não satisfaz as condições exigidas.

2.12 Análise De Variância (A Nova)

Análise de Variância e um teste de hipótese utilizado para a comparação de mais de uma


população, Análise de variância consiste em comprar a variabilidade entre as médias dos
grupos e a variabilidade dentro destes mesmos grupos.

Se a variabilidade entre as médias dos grupos for muito maior que a variabilidade dentro dos
grupos teremos que supor, que as médias dos grupos não são iguais. Logo a comparação das
variâncias são realizadas por meio da razão das variâncias que segue a distribuição F.

2.12.1 Análise de variância simples: Soma de quadrados

Para realizar uma análise de variância, dividimos a variância total de um conjunto de


tratamento a serem comparados com as suas respectivas repetições. No nosso exemplo, os
sectores da indústria correspondem aos tratamentos. Se tivermos dois componentes:

 Variação ENTRE
 E variação DENTRO

I. A variação ENTRE correspondera a variação encontrada entre as médias dos


tratamentos, em relação a uma média geral. Esta variação mede a diferença que ocorre
entre os tratamentos.
II. Já a variação DENTRO do tratamento, como o próprio nome diz, é a variação que
ocorre entre as repetições de cada tratamento. Podemos ver que as avaliações das
repetições dentro de cada tratamento correspondem a variação de acaso. Em seguida
ilustraremos o seguinte quadro, que sintetiza tudo aquilo que nós discutimos.

VARIAÇÃO TOTAL = VARIAÇÃO ENTRE + VARIAÇÃO DENTRO

29
OU

VARIAÇÃO TOTAL = VARIAÇÃO NÃO ALEATÓRIA+ VARIAÇÃO


ALEATÓRIA

Em seguida apresentaremos possíveis cálculos de variação ENTRE e DENTRO e da Variação


total. Apresentaremos expressões simplificadas para o cálculo das variações. Estas variações
correspondem a cálculos de soma de quadrados semelhantes as apresentadas na unidade
acima para cálculo da variância.

Definições da Variação ENTRE e da Variação DENTRO de Tratamento

 A variação ENTRE de tratamento é aquela que é atribuída estritamente a variabilidade


das médias dos tratamentos em relação a média geral.
 A variação DENTRO de tratamento é aquela que divide a variação de cada observação
em relação a média do tratamento. É a variação devida, a todas as fontes que causam
variações nos experimentos (acaso), exceptuando os tratamentos.

A variação total é a variação de cada observação em relação a média geral.

Então teremos, a seguir as expressões para cálculo das somas de quadrados:

t r
Variação Total = SQtotal =∑ ❑ ∑ ( Yij−Y ) ²=Y −¿ 2
∑ ¿
i=1 j=1 ¿
(∑ Y ) ² ¿¿

Onde y: É a média geral de todos os tratamentos, r: número de repetições e t : número de


tratamentos.

i
Variação Entre = SQTratamento = ∑ Trj² - C
i=1

Em que:

T= Total do tratamento i

∑ ❑∑ Y ᵢ
C= factor de correcção = ( t.r ) ²

30
Como já sabemos, a variação Total é igual a variação ENTRE mais variação
DENTRO. Portanto, o cálculo da variação DENTRO (efeito do acaso) ou a soma
de quadrado DENTRO é obtida por meio de seguinte diferença:

SQDENTRO = SQTOTAL SQENTRE

O valor de soma de quadrado DENTRO é obtido por diferença, devido a maior dificuldade da
sua obtenção, principalmente em esquemas de análise de variância mais complexos.

Esse tipo de análise de variância é chamado de análise com um factor ou de um critério. É o


mais simples de todos os esquemas de análise de variância, sendo recomendado quando todas
as condições experimentais são homogéneas (não há uma variação em uma determinada
direcção). É próprio para situações (experimentos) nas quais se possa garantir
homogeneidade.

Este processo foi desenvolvido por Fisher com o objectivo de repetir a variância de uma
variável aleatória em partes ortogonais (independentes) correspondentes a tratamentos (factor)
e erros experimental (variações do acaso).

2.12.2 Valor do teste

As hipóteses na análise de variância são:

1. H₀: t₁ = t₂....tᵼ ( não existe diferença entre as medias dos tratamentos )


2. H₁ : no mínimo, um dos tratamentos difere dos demais.
3. Na análise de variância, são obtidas os quadrados médios (QM), que são estimativas
não tendenciosas das variâncias envolvidas na análise. Daí vem o nome “análise de
variância”. Estes quadrados médios são pela adição da soma de quadrado pelo
respectivo grau de liberdade. Então teremos:

SQTrat
QMTrat =
G. L .Trat

SQResí duo
QM Resíduo =
G. LRes í duo

31
2.13 Graus de Liberdade

A forma pela qual obtemos os graus de liberdade é representada nas seguintes tabelas:

Fonte de variaçao G.L. ( graus de liberdade)


Tratamento ( Entre) t – 1 = número de tratamentos menos um
Residou ( Dentro ) t( r- 1) = número de tratamento vezes número de repetiçoes menos um
Total tr – 1 = número de tratamento vezes número de repetiçoes menos um

O quadro da análise de variância

Fonte de variação G.L. S.Q. Q.M. Fcale F ( v1, v2)

Tratamento t-1 SQTrat QMTrat F calculado F tabela

Resíduo t(r-1) SQResíduo QM


Resíduo

Total tr-1 SQTotal

G.L = graus de liberdade

Exemplos

Vamos, exemplificar para melhor entendermos esta análise, com o objectivo de comparar um
determinado índice inflacionário em três regiões metropolitanas em um período de cinco
meses, consideramos os seguintes resultados.

Verificamos por meio de uma análise de variância, se as médias são estatisticamente iguais ou
não.

Regiões metropolitanas

Meses R1 R2 R3

1 1,60 1,20 2,00

2 2,00 1,10 1,80

3 2,20 1,20 1,40

4 1,70 1,30 1,60

5 1,80 1,00 1,90


32
Total 5,30 5,80 8,70
As hipóteses desta análise de variância serão: H₀ : R₁ = R₂ = R₃ (não existe diferença entre as
medias das regiões)

H₁ : pelo menos uma das regiões difere das demais em média. As repetições, ou seja, os meses
são independentes, pois são considerados apenas repetições.

OBS: O teste F para análise de variância será sempre um teste unilateral a direita, em função
de tipo de hipótese alternativa.

2.14 Cálculos das somas dos quadrados

i

SQENTRE ¿ ∑ −C
i=1 rȷ

1
SQENTRE = ( 9,3 2+5,8 2+8,7 2 )− 23,8 ² =39,164−37,7626=1,401
( )
5 15

Y
SQ = ∑ Y ²−¿ (∑ )
rt
²¿

SQTOTAL = (1,6²+2,0²+.....+1,9²) - ( 23,8


15 )
²
=1,9173

SQDENTRO = SQTOTAL – SQENTRE = 0,516

33
FV G.L SQ QM F Significância

Entre 2 1,401 0,701 1,2943 0,0006

Dentro 12 0,516 0,043

Total 14 1,9173

2.14.1 Análise da Variância

Conclusão: Existe diferença significativa entre as regiões, pois o F tabelado (tabela de 5% e


V₁ = 2 gl e V₂ = 12gl) foi menor que o calculado (16,29), fazendo assim com que o F
calculado tenha caído na região de rejeição da hipótese H₀

2.15 Correlação e Regressões

Em estatística correlação e um parâmetro que indica o grau de correspondência entre duas


variáveis ou seja a correlação mostra a intensidade com a qual dois conjuntos de dados estão
relacionados mutuamente.

A correlação indica o comportamento de conjuntos de duas variáveis, podendo utilizar a


correlação para responder várias questões como:

 O salário de um trabalhador estará directamente relacionado com a escolaridade do


mesmo.

Podemos verificar o quanto duas variáveis estão relacionada entre si seguindo uma função do
I grau (relação linear), podemos calcular um parâmetro que indica correlação linear entre duas
variáveis

Exemplo

xᵢ 0 1 2 3 4 5

yᵢ 0 3 6 9 12 15

Tabela evidenciando as correspondências:

x₁ = 0 com y₁ = 0 , x₂ = 1 com , y₂ = 3 , x₃ = 2 ,y₃ = 6 , x₄ = 3 , y₄ = 9 ,x₅ = 4 , y₅ = 12 , x₆ = 5


, y₆ = 15.

34
Procedimento para o calculo de correlação.
xᵢ yᵢ xᵢ² yᵢ² xᵢ . yᵢ
0 0 ( 0 )² = 0 ( 0 )² = 0 (0).(0)=0
1 3 (1 )² = 1 ( 3 )² =9 ( 1 ) .( 3 ) = 3
2 6 ( 2)² =4 ( 6 )² = 36 ( 2 ) . ( 6 ) = 12
3 9 ( 3 )² = 9 ( 9 )² = 81 ( 3 ) . ( 9 ) = 27
4 12 ( 4 )² = 16 ( 12)² = 144 ( 4 ) . ( 12) =
48
5 15 ( 5 )² = 25 ( 15 )² = 225 ( 5 ) . ( 15 ) =
75
∑ x ᵢ=15 ∑ y ᵢ=45 ∑ x ᵢ²=55 ∑ y ᵢ ²=495 ∑ x ᵢ. y ᵢ=165

∑ x ᵢ=0+1+2+3+ 4+5+ ¿ 15
∑ y ᵢ=0+ 3+6+9+ 12+15=45
∑ x ᵢ²=0+1+ 4+ 9+16+25=55
∑ y ᵢ2=0+ 9+36+81+144 +225=495
∑ x ᵢ. y ᵢ=0+3+12+27+ 48+75=165
A medida para o grau de correlação entre duas variáveis e o coeficiente de correlação de
Pearson (também conhecido como correlação linear)

r = n . ∑ x ᵢ− y ᵢ−¿ ¿ ¿

onde n representa o número de pares de dados em estudo

6,165−( 15 ) .( 45)
r=
√¿ ¿ ¿

Quando, r = 1 significa que as variáveis estão perfeitamente relacionadas

Exercícios sobre correlação

Um pesquisador indagou 7 pessoas (todas com 40 anos de idade) que aguardavam o trem em
uma paragem do metro as seguintes questões são consideradas:

 Qual é a sua escolaridade, quantos anos de escolaridade possuem?


 Quantos livros já leram?

OBS: o número de anos de escolaridade que possuem (xᵢ)

35
O número de livros que já leram (yᵢ)
xᵢ 3 5 7 9 10 14 16
yᵢ 1 2 3 5 7 10 13

Obtendo assim:

xᵢ xᵢ² xᵢ² yᵢ² xᵢ.yᵢ


3 1 (3)² = 9 (1)² = 1 ( 3 ) .( 1 ) = 3
5 2 (5)² = 25 (2)² = 4 ( 5 ) .( 2 ) = 10
7 3 (7)² = 49 (3)² = 9 (7).(3) = 21
9 5 (9)²= 81 (5)² = 25 ( 9 ) .( 5 ) = 45
10 7 (10)² = 100 (7)² = 49 (10) .( 7 ) = 70
14 10 (14)² = 196 (10)² = 100 ( 14).( 10) =
140
16 13 (16)² = 256 (13)² = 169 ( 16) .( 13)=
208
∑ x ᵢ=64 ∑ y ᵢ=41 ∑ x ᵢ²=716 ∑ y ᵢ ²=357 ∑ x ᵢ=497

Neste caso o coeficiente de correlação linear será:


∑ r=n . ∑ x ᵢ . y ᵢ−¿ ¿ ¿ ¿

7,497−( 64 ) .( 41) 3479−2624


Teremos: r = = =0,988
√ ( 7,497−( 64 )2 ) .(7,357−(41) ²) √ 916,818

Nota: Salientamos ainda que, quando (X) ¨ aumenta ¨(y) também aumenta, a dispersão
dos dados. Lembra-nos o comportamento de uma recta embora os dados não seguem
perfeitamente a lógica de uma recta.

A correlação não conclui a respeito de relação de causa e efeito entre duas variáveis, ou seja
um elevado grau de correlação entre dois conjuntos de dados, isso não quer dizer que um seja
causa e o outro seja o efeito.

2.15.1 Diagrama de Dispersão

 O diagrama de dispersão é um gráfico cartesiano em que cada um dos eixos corresponde


as variáveis correlacionadas. A variável dependente (Y) situa-se no eixo vertical e o eixo
das abcissas é reservado para a variável independente (X). Os pares ordenados formam
uma nuvem pontos.

36
A configuração geométrica do diagrama de dispersão pode estar associada a uma linha recta
(correlação linear), uma linha curva (correlação curvilínea) ou, ainda ter os pontos dispersos
de maneira que não definam nenhuma configuração linear, nesta ultima situação, não há
correlação.

O primeiro exemplo explica-nos que os possíveis valores de correlação linear variam de -1 a 1


ou: -1 ≤ r≤ 1.

Evidenciando assim as seguintes equações:

 r = -1 : Correlação negativa perfeita


 r = -0,75 : Correlação negativa forte
 r = -0,50 : Correlação negativa médio
 r = -0,25 : Correlação negativa fraca
 0: Correlação linear inexistente
 r = + 0,25 : Correlação positiva fraca
 r = + 0,50 : Correlação positiva média
 r = + 0,75 : Correlação positiva forte
 r = +1 : Correlação positiva perfeita

Observamos que na correlação positiva, as variáveis em estudo alteram-se no mesmo sentido


(se uma variável “aumenta, a outra também aumenta”). Na correlação negativa, as variáveis
em estudo alteram-se no sentido oposto (se uma variável aumenta, a outra variável diminui).

2.15.2 Regressão simples

Muitas vezes é de interesse estudarmos um elemento em relação a dois outros ou variáveis


simultaneamente. Nesse caso presume-se que ao menos duas observações são feitas sobre

37
cada elemento de amostra. A amostra consistirá então de pares de valores, um valor para cada
uma das variáveis designadas por (Xᵢ, Yᵢ).

O objectivo visado quando se regista pares de valores (observações) em uma amostra, é o


estudo das relações entre as variáveis X e Y. Para a analisar de regressão interessam
principalmente os casos em que a variação de um atributo é sensivelmente dependente do
outro atributo.

O problema consiste em estabelecer a função matemática que melhor exprime a relação entre
as duas variáveis. Simbolicamente a relação é expressa por uma equação de regressão e
graficamente por uma curva de regressão.

Constitui uma tentativa de estabelecer uma equação matemática linear que descreva o
relacionamento entre duas variáveis (uma dependente a outra independente). A equação de
regressão tem por finalidade Estimar valores de uma variável, com base em valores
conhecidos da outra.

Ex: peso x idade, vendas x lucros, Nota x hora de estudo.

2.15.3 Método dos mínimos quadrados ordinários

A correlação linear é uma correlação entre duas variáveis, cujo gráfico aproxima-se de uma
linha.

O gráfico cartesiano que representa essa linha é denominado diagrama de dispersão. Para
poder avaliar melhor a correlação entre as variáveis, interessa obter a equação de recta, “essa
recta é chamada de recta de regressão e a equação que a representa é a equação de regressão”.
O diagrama de dispersão é dado pela expressão:

Y = aX + b →Y = Ax + b

Onde: X é a variável independente

38
Y → Y ¨ é a variável dependente, na verdade correlacionada com a variável X e sobre a qual
se obtém um valor estimado.

Esse tipo de notação, de Y para Y, caracteriza que não se trata de uma relação funcional para
a determinação da recta, e sim de uma relação estatística, em que a distribuição está baseada
em estimativa de dados colhidos por amostragem.

Sendo a e b os parâmetros de equações das rectas, esses podem ser calculados por meio das
formulas:

a =n ∑ x ᵢ ²−¿ ¿ ¿

b = y – ax

Sabemos que:

n = número de observações dos dados amostrais


y = valor médio da variável y, o calculo faz-se pela expressão

y=
∑ yᵢ
n

x = valor médio de x, o calculo faz-se pela expressão

x=
∑ xᵢ
n

Exemplo
Determine a equação da recta de regressão, que trata de uma pesquisa entre o peso total dos
resíduos descartados por dia, com o peso do papel contido nesse resíduo.

Para obtermos a equação da recta de regressão, elabora-se inicialmente uma tabela contendo
nas colunas as variáveis dependentes (yᵢ), as independentes (xᵢ) e os produtos (xᵢ.yᵢ) e xᵢ²

Cálculo do parâmetro da equação da recta

a=

n ∑ x ᵢ y ᵢ−∑ x ᵢ. ∑ y ᵢ 10∗2396,68−288∗75,24 23966,8−21669,12 2297,68


= = = =0,215
n ∑ x ᵢ²−( ∑ x ᵢ)² 10,9377,52−( 288,21)² 93775,2−83065 10710,5

39
Cálculo para o parâmetro de B da equação da recta

75,24 288,21
y= =7,53 e x= =28,82
10 10

b = y – ax = 7,53 – 0,213 . 28,82 = 7,53 – 6,14 = 1,39

Uma vez calculados os parâmetros A e B, pode se escrever a equação de recta:

y = 0,213x+1,39

Para nós traçarmos uma recta, basta que se conheça dois de seus pontos. Assim, com base na
equação da recta podemos estabelecer dois pontos para X e Y.

 Para X = 0, temos Y = 1,39


 Para X = 50, temos y = 12,03

Com base no conhecimento da equação da recta, pode se interpretar e extrapolar valores.

 Interpolação: A interpolação ocorre quando o valor considerado pertence ao intervalo


de tabela, porém não figura entre os dados colectados. Supondo que o valor 15kg, seja
para o peso total do resíduo descartado, pode se estimar o peso do papel contido nesse
resíduo.
 Uma vez que 15kg não é um dado colectado e consequentemente não pertence a tabela
de dados, utiliza-se a equação da recta para determinar o valor correspondente ao peso
do papel. Para 15kg de resíduo descartado, estima-se que haja 4,58kg de resíduo
contido nesse resíduo.
 Extrapolação: A extrapolação ocorre quando o valor considerado não pertence ao
intervalo da tabela, e também não figura entre os dados colectados. Supondo que o
peso do resíduo descartado seja de 60kg. Esse valor não é um dado colectado e nem se
encontra dentro do intervalo {10,47,49,14}. Essa situação é semelhante ao anterior e
utiliza-se a equação de recta para determinar o peso do resíduo. Para 60kg de resíduo
descartado, estima-se por extrapolação que haja 14,16kg de papel contido nesse
resíduo.

2.16 Regressões lineares


A regressão é o processo de traduzir o comportamento de um determinado conjunto de duas
variáveis na forma da ¨LEI MATEMÁTICA DENOMINADA EQUAÇÃO DE

40
REGRESSÃO¨ dando suporte desta forma aos conceitos de correlação e regressão, sendo
desta forma indissociáveis.

 A regressão é dita linear quando o diagrama de dispersão de dados em estudos,


sugerem a interpolação de uma recta pelos mesmos. Na prática trabalharemos com
diversos experimentos como “ Método dos mínimos quadrados” que estabelece a
melhor recta que se ajusta a todos os pontos experimentais do diagrama de dispersão.
A esta recta chama-se recta de interpoladora.

Exemplos

xᵢ xᵢ -x (xᵢ - x)²

0 0 – 2,5 = -2,5 ( -2,5)² = 6,25

1 1 – 2,5 = -1,5 (-1.5)² = 2,25

2 2 – 2,5 = 0,5 ( -0,5)² = 0,5

3 3 – 2,5 = 0,5 ( 0,5)² = 2,25

4 4 – 2,5 = 1,5 ( 1,5)² = 6,25

5 5 – 2,5 = 2,5 (2,5)² = 17,50

∑ x ᵢ=15

X=
∑ x ᵢ = 15 =2,5
n 6

Sᵢ =
√ ∑ ( x ᵢ−x ) ²
ᵢ=1
n−1
=
√ 17,50
5
=1.871

2.16.1 A análise da variância para regressão

A soma de quadrados da regressão (SQ Regressão), segue uma distribuição de X² (qui-


quadrado) com (1) grau de liberdade, enquanto a soma de quadrado do resíduo (SQ Resíduo)
segue a mesma distribuição, porém com (n-2) grau de liberdade. O quociente é:

41
SQRegress ã o 1 QMRegress çã o
= ,
SQResidou n−2 QMResidou

Segue-se uma distribuição F de Snedecor com a e (n-2) grau de liberdade. Esse facto nos
permite empregar a distribuição F de Snedecor para testar a significância de regressão, através
de chamada análise de variância, sintetizada no quadrado abaixo:

Análise de Variância

Causas G.L SQ QM F
QMRegr essão QMRegressão
Regressão 1 SQRegressão
1 QMResidou
QMResidou
Residou n-2 SQResidou .....
n−2
Total n-1 SQTotal ..... .....

Respectivos graus de liberdade. Para testar a significância de regressão, formula-se as


seguintes hipóteses:
H₀: β = 0 contra H1: β‡ 0,onde β representa o coeficiente de regressão paramétrico
Se o valor de F, calculado a partir do quadro anterior, superar o valor teórico de F, com 1 e (n-
2) graus de liberdade para o nível de significância α rejeita-se H₀ e conclui-se que a regressão
é significativa
Se F calc> F α {1,(n-2)}, rejeita-se H₀.

Exemplo prático
Ex: Vendas (x1000) X Lucros ( x 100 )

Obs. 1 2 3 4 5 6 7 8

Vendas 201 225 305 380 560 600 685 735

Lucros 17 20 21 23 25 24 27 27

Para facilitar os cálculos da recta de regressão, acrescentamos três novas colunas na tabela
dada.
Obs. Venda Xᵢ Lucros Yᵢ Xᵢ² Yᵢ² Xᵢ .Yᵢ²
1 201 17 40401 289 3417
2 225 20 50625 400 4500
3 305 21 93025 441 6405

42
4 380 23 144400 529 8740
5 560 25 313600 625 14000
6 600 24 360000 576 14400
7 685 27 469225 729 18495
8 735 27 540225 729 19845
∑❑ 3691 184 2011501 4318 89802
Yᵢ = 0,0159xᵢ + 15,66

n n n

[
SQ Regressão = a n ∑ x ᵢ y ᵢ−∑ x ᵢ ∑ y ᵢ
i=1 i=1 i=1
]
SQ Regressão =0,0159[8(89802)-(3691)(184)] =624,42

n n
SQ Total = n∑ y ᵢ ²−¿
i=1
(∑ )
i=1
y ²¿

SQ Total = 8(4318) – (184) ² = 688

Causas de variação G.L SQ QM F


Regressão 1 624,42 624,42000 58,93
Residou 6 63,58 10,59587 ........
Total ..... 688,00 .............. ........

H₀ : β = 0 e H₁ : β‡0

Comparado com Fcale = 58,93 com o Ftab = F 0,05 = 5,99

Conclui-se que a regressão de y sobre x segundo o modelo y = 0,0159+15,66 é significativa


ao nível de significância de 5%. Uma vez estabelecida é testada a equação de regressão. A
mesma pode ser usada para explicar o relacionamento entre as variáveis e também para fazer
previsões dos valores de Y para valores fixado de X.

Coeficiente de determinação de regressão

 É o grau em que as predições são baseadas na equação de regressão suprema. As


predições são baseadas em y, ou ainda é a proporção entre a variância explicada pela
variância total.

Variância Total = soma dos desvios ao quadrado.

43
n n n
VT = SQ Total =∑ ( y ᵢ− y ) =n ∑ y ᵢ ²−¿
i=1
2

i =1
(∑ )i=1
yᵢ ²¿

Variância Não – explicada = soma de quadrados dos desvios em relação a recta y

n
VNE = ∑ ( y ᵢ− y ᵢ ) ²
i=1

Para facilitar os cálculos usaremos:

n n n

r² =
( n ∑ xy−∑ x ∑ y ²
i=1 i=1 i=1
) =
COV ᵪᵧ
n n n n S ᵪᵪ . S ᵧᵪ
[ n ∑ x ²−
i=1
( ) ][
∑ x ² n ∑ y ²−
i=1 i=1
(∑ ) ]
i=1
y ²

[ 8 ( 89802 )− ( 3691 )(184 )] ²


r² = =0,908
[ 8 ( 2011501 )−(3691)² ][ 8 ( 4318 ) −(184)² ]

O valor de r² varia de 0 a 1, logo o facto de r² = 0,908 (no exemplo), indica que


aproximadamente 91% da variação do lucro estão relacionados com a variação das vendas,
em outras palavras 9% da variação dos lucros não são explicados pelas vendas.

2.17 Análise de séries temporais

2.17.1 Definição

Séries Temporais são um conjunto de observações sobre uma variável, ordenado no tempo, e
registado em períodos regulares. Podemos enumerar os seguintes exemplos de séries
temporais:

 Temperaturas máximas e mínimas diárias em uma cidade


 Vendas mensais de uma empresa entre outros.

O problema fundamental é utilizar um modelo que permite incluir os vários tipos de padrões,
possibilitando realizar previsões. O ponto de partida é realizar a decomposição da série em
padrões

2.17.2 Componentes de Séries temporais

44
1. Tendência – movimento subjacente de longo prazo que caracteriza a evolução do nível
médio da série.
2. Componente Sazonal – movimentos estritamente periódicos, ocorrendo em séries de
dados relativos a períodos infra-anuais, decorrentes das características meteorológicas
ou de factores culturais e institucionais.
3. Componente cíclica – movimentos oscilatórios de tipo recorrente, mas sem
periodicidade específica, ligados à evolução geral da actividade económica. Apesar de
historicamente reconhecíveis, em geral não apresentam regularidade suficiente para
serem deterministicamente previsíveis.
4. Componente errática/ irregular – movimentos aleatórios decorrentes de uma
multiplicidade de factores e de natureza imprevisível.

Nem todas as séries apresentam a totalidade de componentes, por definição, as séries de dados
anuais não apresentam componente sazonal. Mas também nem todas as séries de dados de
período infra-anual apresentam componente sazonal (a presença de uma componente sazonal
deve ser testada)

Na maior parte dos casos quando os objectivos são a previsão de curto prazo, não é habitual
separar a componente cíclica da tendência. Tal distinção é sempre artificial, integrando os
dois efeitos na tendência – ciclo.

A desconstrução conceptual de uma série nas suas componentes implica que consideremos
alguns modelos de articulação entre as componentes. Os modelos mais utilizados são:

 Modelo Aditivo: yₜ = aₜ+sₜ+ℇₜ


 Modelo Multiplicativo: yₜ = aₜ .sₜ .ℇₜ

Modelo Aditivo:

Yᵼ= aᵼ+sᵼ+Ɛᵼ

Onde aₜ é a tendência – ciclo e sₜ é o factor sazonal, enquanto Ɛₜ é a componente irregular,


IID IID (0 , Ỽ2 Ɛ ). Neste modelo não há interdependência entre as componentes e, sendo L o
numero de observações por ano, admite que

Com Ɛₜ

L
❑ ❑
∑ sₜ ₊ i=L
i=1

45
Modelo Multiplicativo

Yᵼ= aₜ.sₜ.Ɛₜ onde: aₜ é a tendência – ciclo, sₜ - factor sazonal e Ɛₜ é o componente irregular.


Com Ɛₜ ~ IID (1,Ỽ 2 Ɛ ¿ , não – negativa. Nesse modelo admite – se que existe interdependência
entre as componentes e, sendo L o número de observações por ano.

∑ s ₜ +¿❑ ᵢ=L¿
I=1

2.17.3 Obtenção da Tendência

A tendência descreve o comportamento da variável retratada na série temporal no longo


prazo. Há 3 objectivos básicos na sua identificação:

Avaliar o seu comportamento para utiliza-lo em provisões, removê-la da série para facilitar a
visualização das outras componentes, ou ainda identificar o nível da série (o valor ou faixa
típica de valores que a variável pode assumir, se não for observado comportamento crescente
ou decrescente no longo prazo). A obtenção da tendência pode ser feita de 3 formas:

1. Através de um modelo de regressão (como o modelo linear – recta).


2. Através de médias móveis, ou de ajuste exponencial (que não deixa de ser uma média
móvel)

3. CONCLUSÃO

Concluir que, a estatística com feição científica é baptizada por GODOFREDO


ACHENWALL. As tabelas ficam mais completas, surgem as primeiras representações
gráficas e os cálculos de probabilidades. A estatística deixa de ser uma simples tabulação de

46
dados numéricos para se tornar "O estudo de como se chegar a conclusão sobre uma
população, partindo da observação de partes dessa população (amostra)".

É uma parte da matemática aplicada que fornece métodos para colecta, organização,
descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de
decisões.

A colecta, a organização, a descrição dos dados, o cálculo e a interpretação de coeficientes


pertencem à ESTATÍSTICA DESCRITIVA, enquanto a análise e a interpretação dos dados,
associado a uma margem de incerteza, ficam a cargo da ESTATÍSTICA INDUTIVA ou
INFERENCIAL, também chamada como a medida da incerteza ou métodos que se
fundamentam na teoria da probabilidade.

4. Bibliografia

MIA VETA, Andre.Nlando. Estatistica Aplicada, Tekute Editora, lda.

VAIRINHO, Valter Martins. Introdução á Estatística, Harbra lda

CRESPO, A.. A. Estatística fácil. 18a ed. São Paulo: Saraiva: 2002.

CUNHA, E. Estatística descritiva na psicologia e na educação. Rio de Janeio: Forense: 1968.

FONSECA, J. S. Curso de estatística. 6a ed. São Paulo: Atlas, 1996.

SPIEGEL, M. R. Estatística. 3a ed. São Paulo: Makron Books, 1993.

47