Análise de Dados PDF

Análise de Dados
Introdução às técnicas de Amostragem

Introdução à Estimação
Introdução aos testes
Métodos não paramétricos
Maria Eugénia Graça Martins

Faculdade de Ciências da Universidade de Lisboa
Março 2009
ÍNDICE
Capítulo 1 – Introdução às técnicas de Amostragem

1.1 Introdução – A Estatística estuda a variabilidade apresentada pelos dados.......................1
1.2 Probabilidade e Estatística .................................................................................................2
1.3 Aquisição de Dados .................................................................................................6
1.3.1 Introdução .................................................................................................6
1.3.2 Técnicas de amostragem aleatória ....................................................................9
1.3.2.1 Amostra aleatória simples.....................................................................9
1.3.2.2 Amostra aleatória sistemática...............................................................12
1.3.2.3 Amostra estratificada ............................................................................13
1.3.2.4 Amostragem por clusters ou grupos .....................................................14
1.3.3 Amostragem não aleatória .................................................................................14
1.3.4 Outros tipos de erros num processo de aquisição de dados.............................14
1.4 Estimador centrado e não centrado. Precisão ......................................................................15
1.5 Qual a dimensão que se deve considerar para a amostra....................................................17
1.6 Estimação do valor médio utilizando amostras aleatórias simples .......................................18
1.6.1 Distribuição de amostragem da média ..............................................................19
1.6.1.1 Distribuição de amostragem exacta......................................................19
1.6.1.2 Distribuição de amostragem aproximada .............................................27
1.6.2 Distribuição aproximada da média, como estimador do valor médio de uma
população finita, mas de dimensão suficientemente grande.............................27
1.7 Distribuição de amostragem da média em amostragem com reposição ..............................28
1.8 Forma da distribuição de amostragem da média em populações infinitas ou
amostragem com reposição .................................................................................................32
1.8.1 Valor médio e desvio padrão da média .............................................................35
1.8.2 Distribuição da média, para populações normais ..............................................35
1.8.2.1 Desvio padrão σ conhecido ..................................................................35
1.8.2.2 Desvio padrão σ desconhecido ............................................................36
1.8.3 Distribuição da média para populações não normais. Teorema Limite
Central .................................................................................................37
1.9 Distribuição de amostragem da proporção............................................................................38
1.9.1 Distribuição de amostragem da proporção para populações finitas..................38
1.9.2 Distribuição de amostragem da proporção para populações infinitas ou com
reposição .................................................................................................40
Capítulo 2 – Introdução à estimação

2.1 Introdução .................................................................................................41
2.2 Estimação da proporção. Intervalo de confiança para a proporção......................................43
2.3 Estimação do valor médio. Intervalo de confiança para o valor médio.................................49
2.3.1 Intervalo de confiança para o valor médio – σ conhecido .................................49
2.3.2 Intervalo de confiança para o valor médio – σ desconhecido ...........................53
Capítulo 3 – Introdução aos testes de hipóteses
3.1 Introdução .................................................................................................59
3.2 Outros exemplos .................................................................................................62
3.3 Hipótese nula e Hipótese alternativa; erros de tipo 1 e tipo 2; estatística de teste; região
de rejeição .................................................................................................63
3.4 Testes de hipóteses para a proporção p ...............................................................................65
3.4.1 Determinação dos pontos críticos......................................................................68
3.4.2 P-Value .................................................................................................69
3.5 Vamos conversar acerca de testes .......................................................................................70
3.6 Testes de hipóteses sobre o valor médio..............................................................................74
3.6.1 P-value .................................................................................................78
Capítulo 4 – Testes à igualdade de duas populações

4.1 Inferência sobre a diferença entre as proporções de duas populações ..............................83
4.1.1 Testes de hipóteses sobre a diferença de proporções......................................84
4.1.2 Intervalo de confiança para a diferença de proporções.....................................85
4.2 Inferência sobre a diferença entre os valores médios de duas populações .........................85
4.2.1 Inferência sobre a diferença entre valores médios de populações
independentes .................................................................................................86
4.2.1.1 As populações são normais e as variâncias conhecidas .....................87
4.2.1.2 As populações são normais e as variâncias são iguais e
desconhecidas – teste t para amostras independentes .......................88
4.2.1.3 As populações são normais e as variâncias são diferentes e
desconhecidas ......................................................................................89
4.2.1.4 As populações não são normais e as amostras são de grande
dimensão...............................................................................................90
4.2.2 Amostras emparelhadas ....................................................................................90
4.2.2.1 Populações normais, pequenas amostras – teste t emparelhado........91
4.2.2.2 Grandes amostras.................................................................................92
4.2.3 Que tipo de planeamento fazer..........................................................................93
4.3 Teste para a igualdade de variâncias em populações normais ............................................94
Capítulo 5 – Métodos não paramétricos

5.1 Introdução .................................................................................................97
5.2 Testes de ajustamento .................................................................................................99
5.2.1 Introdução .................................................................................................99
5.2.2 Generalização do modelo Binomial – o modelo Multinomial .............................99
5.2.3 Teste de ajustamento do Qui-quadrado ............................................................103
5.2.3.1 Análise de dados qualitativos ...............................................................103
5.2.3.2 Análise de dados discretos ...................................................................107
5.2.3.3 Análise de dados contínuos ..................................................................111
5.2.4 Teste de Kolmogorov-Smirnov...........................................................................117
5.2.5 Comparação entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov....120
5.3 Problema da localização e da localização e simetria – teste dos sinais e teste de
Wilcoxon .................................................................................................122
5.3.1 Introdução .................................................................................................122
5.3.2 Teste dos Sinais.................................................................................................123
5.3.2.1 Teste dos Sinais para amostras emparelhadas ...................................126
5.3.3 Teste de Wilcoxon..............................................................................................127
5.3.3.1 Distribuição de amostragem de Tn+ .......................................................130
5.3.3.2 Teste de Wilcoxon para amostras emparelhadas ................................134
5.3.3.3 O teste de Wilcoxon e o teste-t.............................................................135
5.4 Testes de hipóteses em modelos não paramétricos para testar a homogeneidade de
várias populações independentes .........................................................................................135
5.4.1 Comparação de duas populações independentes ............................................135
5.4.1.1 Teste de Mann-Whitney-Wilcoxon ........................................................135
5.4.1.1.1 Distribuição de amostragem de W m,n ................................136
5.4.1.1.2 O teste de Mann-Whitney-Wilcoxon e o teste-t para
duas amostras ...................................................................139
5.4.1.1.3 Forma alternativa para a estatística de Mann-Whitney-
Wilcoxon ............................................................................141
5.4.1.2 Teste de Kolmogorov-Smirnov para duas amostras ............................143
5.4.2 Comparação de mais de duas populações independentes...............................146
5.4.2.1 Teste de Kruskal-Wallis ........................................................................146
5.4.2.1.1 Comparações múltiplas .....................................................152
5.4.2.2 Teste do Qui-quadrado em tabelas de contingência para testar a
homogeneidade ....................................................................................153
5.5 Testes de hipóteses em modelos não paramétricos para testar a independência ...............156
5.5.1 Teste do Qui-quadrado em tabelas de contingência para testar a
independência de duas populações ..................................................................156
5.5.2 Coeficiente de correlação ordinal de Spearman................................................158
5.5.3 Índice de Friedman ............................................................................................162
Bibliografia
Conover, W.J. (1980) – Practical Nonparametric Statistics, John Wiley & Sons
De Veaux, R. Et al. (2004) – Intro Stats, Pearson, Addison Wesley
Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com complementos de
Excel, SPE
Graça Martins, M. E. et al. (1999) – Probabilidades e Combinatória, Ministério da Educação,
Departamento do Ensino SEcundário
Mendenhall, W., et al. (1987) – Statistics: a Tool for the Social Sciences, PWSKent
Montgomery, D. et al. (1999) – Applied Statistics and Probability for Engineers, John Wiley & Sons,
Inc. New York
Murteira, B. et al. (2002) – Introdução à Estatística, McGraw-Hill de Portugal
Sprent, P. (1989) – Applied Nonparametric Statistical Methods, Chapman and Hal
Tannenbaum. P. et al. (1998) – Excursions in Modern Mathematics, Prentice Hall
Análise de Dados 1
Introdução às técnicas de amostragem 1

Introdução às técnicas de amostragem. Distribuição de amostragem de algumas
estatísticas baseadas em amostras aleatórias simples e em amostragem com
reposição. Estudo dos estimadores Média e Proporção amostral.
1.1 ► Introdução – A Estatística estuda a variabilidade apresentada

pelos dados
Da experiência que temos no dia a dia com os dados já concluímos, com certeza, que
estes apresentam variabilidade. Por exemplo é comum que um pacote de açúcar que
na embalagem tenha escrito um quilograma, não pese exactamente um quilograma.
Por outro lado ao pesar duas vezes o mesmo pacote possivelmente não obteremos o
mesmo valor. Assim, ao dizermos que o peso do pacote é um determinado valor, não
podemos ter a certeza que esse valor seja correcto. Esta variabilidade está presente
em todas as situações do mundo que nos rodeia, pelo que as conclusões que tiramos a
partir dos dados que se nos apresentam, têm inerente um certo grau de incerteza.
A Estatística trata e estuda esta variabilidade apresentada pelos dados. Permite-nos a
partir dos dados retirar conclusões, mas também exprimir o grau de confiança que
devemos ter nessas conclusões. É precisamente nesta particularidade que se
manifesta toda a potencialidade da Estatística.
Podemos então, e tal como refere David Moore em Perspectives on Contemporary

Statistics, considerar três grandes áreas nesta ciência dos dados:
• Aquisição de dados
• Análise dos dados
• Inferência a partir dos dados

Análise de Dados 2
Vamos, numa das secções seguintes, abordar o primeiro tema considerado, ou seja o
que diz respeito à Aquisição de Dados, numa perspectiva de que pretendemos obter
dados, para respondermos a determinadas questões, isto é, para posteriormente
retirarmos conclusões para as Populações a partir das quais esses dados são
adquiridos – contexto em que tem sentido fazer inferência estatística. Vamos assim,
preocupar-nos em obter amostras representativas de Populações que se pretendem
estudar.
1.2 ► Probabilidade e Estatística
A Probabilidade é o instrumento que permite ao estatístico utilizar a informação

recolhida da amostra para descrever ou fazer inferências sobre a População de onde a
amostra foi recolhida. Podemos ainda dizer que os objectivos da Probabilidade e da
Estatística são, de certo modo, inversos. Alguns exemplos ajudar-nos-ão a
compreender melhor esta ideia.
EXEMPLO 1.1 (Graça Martins, M.E. et al, 1999) Suponha que tem uma moeda equilibrada e que
lança a moeda uma série de vezes, registando em cada lançamento a face que fica voltada para cima. O
resultado dos registos é uma sucessão de F e de C, onde utilizamos a letra F para designar cara (face) e
a letra C para designar coroa. Como admitimos que a moeda é equilibrada, isto é, estamos a adoptar um
determinado modelo probabilístico, esperamos que o número de F’s seja aproximadamente metade do
número de lançamentos efectuados. Se, por outro lado, considerarmos uma amostra de dimensão 1, isto
é, fizermos unicamente um lançamento, dizemos que a probabilidade de obter F é 1/2, já que existe igual
possibilidade de obter F ou C (ao dizer que a moeda é equilibrada estamos a atribuir igual probabilidade
à saída de cara ou de coroa num lançamento).
Suponha agora que a sua moeda não era equilibrada. Neste caso quando procedemos a vários
lançamentos já não sabemos qual a proporção de caras que esperamos obter, uma vez que a População
não é perfeitamente conhecida – conhecemos os resultados possíveis em cada lançamento – cara ou
coroa, mas o modelo não está completamente especificado, uma vez que as probabilidades associadas a
esses resultados não são conhecidas (estamos a assumir que a moeda não é equilibrada). Então um
modo possível de obter mais alguma informação sobre o modelo probabilístico é proceder a um certo
número de lançamentos e calcular a frequência relativa da saída de cara, nos lançamentos efectuados.
Este valor vai-nos servir para estimar a probabilidade da saída de cara. Por exemplo, se em 1000
lançamentos se obtiveram 324 caras, dizemos que um valor aproximado para a probabilidade de se

Análise de Dados 3
verificar cara é 0.324 (ao fim de 1000 lançamentos verificou-se uma certa estabilidade à volta deste valor)
e o valor aproximado para a probabilidade de sair coroa será 0.676.
Com este exemplo procuramos exemplificar o papel relativo da Probabilidade e da

Estatística:
Enquanto que ao assumirmos um determinado modelo de probabilidade – População
conhecida, o que foi feito ao admitir que a moeda era equilibrada, estamos aptos a
raciocinar do geral para o particular, isto é, da População para a Amostra, quando a
População não é conhecida utilizamos a Estatística para fazer raciocínios no sentido
inverso, isto é, inferir para a População resultados observados na Amostra.
Para esclarecer melhor esta ideia, consideremos ainda os seguintes exemplos:
EXEMPLO 1.2 (Adaptado de Murteira, B. et al., 2002) Consideremos um conjunto numeroso de

pessoas, por exemplo os alunos matriculados na FCUL no ano lectivo de 2005/2006. Relativamente a
esta população, existe uma percentagem p, de alunos que praticam desporto. Escolhem-se (sem
reposição) ao acaso 10 alunos. Se p fosse conhecido, por exemplo 0.3, podíamos calcular a
probabilidade de encontrar x praticantes de desporto, com 0≤x≤10, nesse grupo de 10 alunos,
probabilidade que se sabe ser determinada pela expressão
⎛ 10 ⎞
⎜⎜ ⎟⎟ 0.3x 0.710-x
⎝x⎠
Como a população era numerosa, podemos admitir que o número de estudantes que praticam desporto,
em 10 estudantes retirados aleatoriamente da população, é bem modelado pelo modelo Binomial, de
parâmetros 10 e 0.3 (a composição da população praticamente não se altera, quando retiramos alguns
elementos, pelo que podemos admitir que temos provas de Bernoulli). Trata-se de um problema de
probabilidade. Pode, no entanto, suceder, que p seja desconhecido, sendo esta, aliás, a situação mais
corrente. Então, neste caso, vamos utilizar a informação sobre o número de praticantes de desporto na
amostra de 10, nomeadamente a proporção x/n, para tirar conclusões sobre a proporção de praticantes
de desporto da população. Trata-se de um problema de inferência estatística.
EXEMPLO 1.3 Sabe-se que determinado tipo de componentes electrónicas tem um tempo de vida
que não depende da idade, isto é, a falha pode ocorrer em qualquer instante e não depende de há
quanto tempo as componentes já estão em funcionamento. Sabe-se ainda que estas componentes
podem falhar em qualquer altura, não tendo, portanto, um tempo de garantia. Se se souber que o tempo
médio θ até à falha é 100 horas, então o tempo de vida T, deste tipo de componentes, pode ser bem

Análise de Dados 4
modelado por uma exponencial, com função densidade de probabilidade e função distribuição,
respectivamente
1 t t
f (t) = exp(- ), t>0 e F(t) = 1 – exp(- )
100 100 100
Então, assumindo o modelo anterior, podemos calcular, por exemplo, a probabilidade de uma destas
componentes não falhar antes de 200 horas:
P(T>200) = 1 – F(200) = exp(-2) = 0.135
Na realidade, a situação corrente é que aquele valor médio θ é desconhecido e o modelo probabilístico
para o tempo de vida das componentes é conhecido a menos de um parâmetro, sendo a sua função
densidade
1 t
f(t) = exp(- ), θ>0, t>0
θ θ
Como estimar θ? Um estimador natural é considerar uma amostra de n componentes que se colocam em
teste, observar os tempos até à falha e tomar a média desses tempos, como estimativa do tempo médio
até à falha, já que, no modelo exponencial tal como foi apresentado anteriormente, o parâmetro θ é o
valor médio de T.
EXEMPLO 1.4 Numa Universidade os inquéritos pedagógicos são lidos através de leitura óptica.
Sabe-se que estes leitores, embora raramente, podem cometer alguns erros. Um processo de controlar a
qualidade da leitura é seleccionar aleatoriamente uns tantos inquéritos e verificar quantos erros foram
cometidos pela leitura óptica, em cada um dos inquéritos.
Admitindo que o número de erros, Z, por inquérito, pode ser bem modelado por uma Poisson, temos para
função massa de probabilidade da v.a. Z
λk
P(Z=k) = exp-λ , k=0, 1, 2, ...
k!
Se soubermos que, em média, se detectam 0,2 erros por página, podemos calcular, por exemplo, a
probabilidade de não encontrarmos nenhum erro num inquérito escolhido aleatoriamente. Efectivamente,
neste caso, λ=0.2, pelo que a probabilidade pretendida será P(Z=0) = exp(-0.2) (0.2)0/0!= 0,82. No
entanto, numa situação em que, à partida, não se conheça o desempenho dos leitores ópticos, terá de se
estimar o parâmetro λ. Uma estimativa para este parâmetro obtém-se seleccionando alguns inquéritos já
lidos, e depois de contar o número de erros cometidos em cada um, calcular a média dos valores obtidos.
EXEMPLO 1.5 Uma equipa móvel de colheita de sangue, estacionada no Saldanha, interpela as
pessoas que passam, no sentido de as sensibilizar a darem sangue, investigando nomeadamente o seu

Análise de Dados 5
grupo sanguíneo. Qual a probabilidade de, em certo dia, só encontrarem um indivíduo de grupo O RH-,
ao 10 indivíduo que abordam? Estamos numa situação em que temos uma população constituída por
indivíduos pertencentes a uma de 2 categorias – ter sangue O RH-, ou não ter este tipo de sangue.
Pretendemos fazer um raciocínio probabilístico sobre a variável aleatória X, que representa o número de
indivíduos inquiridos (insucessos) até se encontrar um com sangue O RH- (sucesso). Para obter um
modelo probabilístico para esta variável aleatória, vamos começar por admitir que desta experiência
aleatória, que consiste em perguntar a cada indivíduo o seu grupo sanguíneo, resultam provas de
Bernoulli: efectivamente em cada prova podemos ter sucesso ou insucesso e podemos considerar as
provas independentes, com probabilidade de sucesso constante, uma vez que, embora a população seja
finita, as provas ainda podem ser consideradas independentes, pois a dimensão da amostra
seleccionada é muito pequena, quando comparada com a dimensão da população.
Então, se representarmos por p a proporção de indivíduos da população com sangue O RH-, um modelo
para X (modelo geométrico) será
P(X=k) = (1-p)k-1p, k=1, 2, ...
Se conhecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretendida:
P(X=10) = (1-0.06)9 0.06 = 0.034
E se a probabilidade p for desconhecida? Neste caso temos de a estimar. Tendo em consideração que o
valor médio de X é 1/p, uma estimativa natural para p pode ser obtida recolhendo uma amostra, em que
cada elemento é o número de indivíduos abordados até se obter sucesso, calcular a média dessa
amostra e considerar como estimativa de p, o inverso da média obtida.
EXEMPLO 1.6 O sr. Silva, industrial têxtil, decidiu começar a fabricar camisas de homem, destinadas
a serem vendidas em Portugal. Precisava de ter alguma informação sobre os moldes que devia utilizar,
nomeadamente sobre o comprimento R, adequado para as mangas. Um estatístico, a quem pediu ajuda,
passado algum tempo, sugeriu-lhe o modelo Normal. O sr. Silva ficou muito espantado, pois tinha alguns
estudos, embora poucos, de Estatística e uma das coisas que se lembrava era de que o suporte do
modelo Normal era R. Ora nós sabemos que o comprimento do braço é necessariamente positivo! Na
verdade, o que acontece é que se tentassemos encontar um modelo com suporte positivo, teríamos
grandes dificuldades e na realidade, adoptando um modelo normal, com valores convenientes para os
parâmetros valor médio (μ) e desvio padrão (σ), podemos verificar, que a probabilidade de obtermos
valores para R inferiores a determinado valor é praticamente nula. Estes valores convenientes são
estimados a partir de uma amostra de comprimentos de braços de homem, para a qual se calculam a
média e o desvio padrão, que são utilizados como estimativas dos parâmetros desconhecidos.

Análise de Dados 6
Os exemplos apresentados anteriormente mostram a importância de encontrarmos

modelos probabilísticos para as situações reais descritas. Em algumas das situações
tivémos de propor modelos que não descrevem perfeitamente a situação real, mas que
consideramos úteis, pois nos permitem tomar decisões. Nesta reflexão sobre qual o
modelo a adoptar para traduzir um fenómeno aleatório, vem a propósito lembrar o que
diz Box:
Todos os modelos são maus, alguns são úteis
Na secção seguinte abordamos o problema da aquisição de dados e a sua importância

e cuidados necessários para, numa fase seguinte, procedermos a inferências sobre as
populações de onde os dados foram retirados.
1.3 ► Aquisição de dados
1.3.1 ► Introdução
Abordaremos de seguida (Graça Martins, M. E., 2005) algumas das técnicas de

aquisição de dados, em que se distinguem as
Sondagens e Experimentações (aleatoriezadas)
Gostaríamos desde já de realçar que o objectivo desta secção é o de explorar, de uma

forma simples, algumas das técnicas de amostragem, com vista à realização de
sondagens, situações que se encontram de um modo geral nas Ciências Sociais, ao
contrário das Ciências experimentais, tais como Física ou Química, em que a recolha
de dados se faz fundamentalmente recorrendo a experiências. Por exemplo, a
população constituída pelos eleitores, a população constituída pela contas sedeadas
num banco, etc, só contêm um número finito de elementos, ao contrário da População
conceptual de respostas geradas por um processo químico.
Não é demais realçar a importância desta fase, a que chamamos de Produção ou

Aquisição de Dados. Como é referido em Tannenbaum (1998), página 426: “Behind
every statistical statement there is a story, and like a story it has a beginning, a middle,
an end, and a moral. In this first statistics chapter we begin with the beginning, which in
statistics typically means the process of gathering or collecting data. Data are the raw

Análise de Dados 7
material of which statistical information is made, and in order to get good statistical
information one needs good data”.
Sondagem, População, Amostra
População, unidade, amostra

População é o conjunto de objectos, indivíduos ou resultados experimentais acerca do
qual se pretende estudar alguma característica comum. As Populações podem ser
finitas ou infinitas, existentes ou conceptuais. Aos elementos da população chamamos
unidades estatísticas.
Amostra é uma parte da população que é observada com o objectivo de obter
informação para estudar a característica pretendida.
O objectivo de uma sondagem é o de recolher informação acerca de uma população,

seleccionando e observando um conjunto de elementos dessa população.
Sondagem – Estudo estatístico de uma população, feito através de uma amostra,

destinado a estudar uma ou mais características tais como elas se apresentam nessa
população.
Se se observarem todos os elementos da população tem-se um recenseamento
Geralmente, há algumas quantidades numéricas acerca da população que se

pretendem conhecer. A essas quantidades chamamos parâmetros. Os parâmetros são
estimados por estatísticas, que são números calculados a partir da amostra. Estas
quantidades são conceptualmente distintas, pois enquanto a característica populacional
pode ser considerada um valor exacto, embora desconhecido, a característica amostral
é conhecida, embora contendo um certo erro, inerente à amostra seleccionada, mas
que todavia pode ser considerada uma estimativa útil da característica populacional
respectiva.

Análise de Dados 8
População
Amostra
Parâmetro Estatística
No entanto, para se poder utilizar as estatísticas – estimadores, para estimar

parâmetros é necessário que as amostras sejam representativas das populações de
onde foram retiradas.
Amostra enviesada. Amostra aleatória e amostra não aleatória.
Uma amostra que não seja representativa da População diz-se enviesada e a sua
utilização pode dar origem a interpretações erradas
Um processo de amostragem diz-se enviesado quando tende sistematicamente a

seleccionar elementos de alguns segmentos da População, e a não seleccionar
sistematicamente elementos de outros segmentos da População.
Surge assim, a necessidade de fazer um planeamento da amostragem, onde se

decide quais e como devem ser seleccionados os elementos da População, com o fim
de serem observados, relativamente à característica de interesse.
Amostra aleatória e amostra não aleatória – Dada uma população, uma amostra
aleatória é uma amostra tal que qualquer elemento da população tem alguma
probabilidade de ser seleccionado para a amostra. Numa amostra não aleatória, alguns
elementos da população podem não poder ser seleccionados para a amostra.
Normalmente obtêm-se amostras enviesadas quando existe a intervenção do factor

humano. Com o objectivo de minimizar o enviesamento, no planeamento da escolha da
amostra deve ter-se presente o princípio da aleatoriedade de forma a obter uma
amostra aleatória.

Análise de Dados 9
Quando se pretende recolher uma amostra de dimensão n, de uma População de

dimensão N, podemos recorrer a vários processos de amostragem. Como o nosso
objectivo é, a partir das propriedades estudadas na amostra, inferir propriedades para a
População, gostaríamos de obter processos de amostragem que dêem origem a “bons”
estimadores e consequentemente “boas” estimativas. Acontece que as propriedades
dos estimadores, como veremos a seguir, só podem ser estudadas se conseguirmos
estabelecer um plano de amostragem que atribua a cada amostra seleccionada uma
determinada probabilidade, e esta atribuição só pode ser feita com planos de
amostragem aleatórios. Assim, é importante termos sempre presente o princípio da
aleatoriedade, quando vamos proceder a um estudo em que procuramos alargar para a
População as propriedades estudadas na amostra.
1.3.2 ► Técnicas de amostragem aleatória
Seguidamente apresentaremos algumas dos planeamentos mais utilizados para

seleccionar amostras aleatórias. Dos vários tipos de planeamento utilizados, destacam-
se os que conduzem a amostras aleatórias simples, amostras sistemáticas e amostras
estratificadas.
1.3.2.1 ► Amostra aleatória simples
O plano de amostragem aleatória mais básico é o que permite obter a amostra aleatória
simples:
Amostra aleatória simples - Dada uma população, uma amostra aleatória simples de
dimensão n é um conjunto de n unidades da população, tal que qualquer outro conjunto
de n unidades teria igual probabilidade de ser seleccionado.
Se uma população tem dimensão N e se pretende uma amostra aleatória simples de

⎛ N⎞
dimensão n, esta amostra é recolhida aleatoriamente de entre todas as ⎜ ⎟ amostras
⎝ n⎠
distintas que se podem recolher da população. Isto implica que cada amostra tenha a

Análise de Dados 10
−1
⎛ N⎞
mesma probabilidade ⎜ ⎟ de ser seleccionada. Uma amostra destas pode ser
⎝ n⎠
escolhida sequencialmente da população, escolhendo um elemento de cada vez, sem

reposição, pelo que em cada selecção cada elemento tem a mesma probabilidade de
ser seleccionado. Um esquema de amostragem aleatória simples, conduz a que cada
elemento da População tenha a mesma probabilidade de ser seleccionado para a
n1
amostra, podendo-se demonstrar que é igual a . No entanto existem outros
N
esquemas de amostragem em que cada elemento tem igual probabilidade de ser
seleccionado, sem que cada conjunto de n elementos tenha a mesma probabilidade de
ser seleccionado. É o que se passa com a amostragem aleatória sistemática, em
determinadas situações particulares.
Como seleccionar uma amostra aleatória simples?
1. Para seleccionar uma amostra aleatória simples, teoricamente o processo mais

simples consiste em colocar objectos identificadores (bolas, bocados de papel de igual
dimensão, etc) de todos os elementos da população numa caixa, e retirar um a um,
sequencialmente, sem reposição. Os elementos seleccionados serão observados
relativamente à característica de interesse.
2. O processo anterior é pouco prático, pelo que é normalmente substituído por uma
selecção feita utilizando uma tabela de dígitos aleatórios:
Dígitos aleatórios (ou números aleatórios) - Uma tabela de dígitos aleatórios é uma
listagem dos dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que:
- qualquer um dos dígitos considerados tem igual possibilidade de figurar em qualquer
posição da lista;
- a posição em que figura cada dígito é independente das posições dos outros dígitos.
1 ⎛ N − 1⎞
O nº de amostras de n elementos que não contêm um dado elemento é ⎜⎜ ⎟⎟ . A probabilidade de qualquer elemento não ser
⎝ n ⎠
⎛ N − 1⎞ ⎛ N ⎞
incluído é portanto igual a ⎜⎜ ⎟⎟ / ⎜⎜ ⎟⎟ , ou seja (N-n)/N. Assim, a probabilidade de um determinado elemento ser seleccionado é
⎝ n ⎠ ⎝n⎠
1-(N-n)/N, ou seja n/N.

Apresenta-se a seguir um extracto de uma tabela de números aleatórios (Moore, 1997).

O facto de os dígitos se apresentarem agrupados 5 a 5 é só para facilidade de leitura.
Linha
101 19223 95034 05756 28713 96409 12531 42544 82853
102 73676 47150 99400 01927 27754 42648 82425 36290
103 45467 71709 77558 00095 32863 29485 82226 90056
104 52711 38889 93074 60227 40011 85848 48767 52573
105 95592 94007 69971 91481 60779 53791 17297 59335
106 68417 35013 15529 72765 85089 57067 50211 47487
107 82739 57890 20807 47511 81676 55300 94383 14893
108 60940 72024 17868 24943 61790 90656 87964 18883
109 36009 19365 15412 39638 85453 46816 83485 41979
A partir da tabela de dígitos aleatórios podem-se obter números aleatórios de 2 dígitos -

qualquer par dos 100 pares possíveis 00, 01, …98, 99, tem igual probabilidade de ser
seleccionado, de 3 dígitos - qualquer triplo dos 1000 triplos possíveis 000, 001, …998,
999, tem igual probabilidade de ser seleccionado, etc, tomando os dígitos da tabela 2 a
2, 3 a 3, etc, a partir de uma linha qualquer e percorrendo-a da esquerda para a direita.
Para seleccionar uma amostra de uma população utilizando a tabela procede-se em

duas etapas:
1. atribui-se um número a cada elemento da população. Esta atribuição terá de

ser feita com as devidas precauções, de forma a que cada número tenha o
mesmo número de dígitos, para ter igual probabilidade de ser seleccionado;
2. a partir da tabela escolhe-se uma linha ao acaso e começa-se a percorrê-la da

esquerda para a direita, tomando de cada vez os dígitos necessários.
EXEMPLO 1.7 Considerando a população constituída por 18 alunos de uma turma, vamos numerá-
los com os números 01, 02, 03, …, 17, 18 (podia ser utilizado qualquer outro conjunto de 18 números de
2 dígitos). Para seleccionar uma amostra de dimensão 4 fixamo-nos numa linha qualquer da tabela, por
exemplo a linha 107 e começamos a seleccionar os números de dois dígitos, tendo-se obtido:
82 73 95 78 90 20 80 74 75 11 81
67 65 53 00 94 38 31 48 93 60 94
07 20 24 17 86 82 49 43 61 79 09

Tivemos de ler 33 números, dos quais só aproveitámos 4, pois os outros não correspondiam a elementos
da população.
Como obter uma tabela de números aleatórios?
Um processo poderá consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e

fazer várias extracções de uma bola, tantas quantas os dígitos que se pretendem para
constituir a tabela. De cada vez que se faz uma extracção, lê-se o número da bola,
aponta-se e repõe-se a bola na caixa - extracção com reposição. Com este processo
qualquer dígito tem igual probabilidade de ser seleccionado. Além disso a saída de
qualquer um dos dígitos em qualquer momento, é independente dos dígitos que já
saíram anteriormente.
Além das tabelas de números aleatórios também existe a possibilidade de utilizar o

computador para os gerar ou uma simples máquina de calcular. Este é o processo mais
utilizado hoje em dia, mas convém ter presente que os números que se obtêm são
pseudo-aleatórios, já que é um mecanismo determinista que lhes dá origem, embora se
comportem como números aleatórios (passam numa bateria de testes destinados a
confirmar a sua aleatoriedade). Sugere-se a utilização do Excel para seleccionar
amostras aleatórias simples2.
1.3.2.2 ► Amostra aleatória sistemática

Na prática o processo de seleccionar uma amostra aleatória simples de uma população
com grande dimensão, não é tão simples como o descrito anteriormente. Se a
dimensão da população for grande o processo torna-se muito trabalhoso. Então uma
alternativa é considerar uma amostra aleatória sistemática. Por exemplo, se
pretendermos seleccionar uma amostra de 150 alunos de uma Universidade com 6000
alunos, considera-se um ficheiro com o nome dos 6000 alunos ordenados por ordem
alfabética. Considera-se o quociente 6000/150=40 e dos primeiros 40 elementos da
lista, selecciona-se um aleatoriamente. A partir deste elemento seleccionamos
sistematicamente todos os elementos distanciados de 40 unidades. Assim, se o
elemento seleccionado aleatoriamente de entre os primeiros 40, foi o 27, os outros
2
Consultar, por exemplo, Graça Martins, M. E. – Introdução à Probabilidade e à Estatística, Com complementos de Excel, 2005

elementos a serem seleccionados são 67, 107, 147, etc. Obviamente que o quociente
entre a dimensão da população e a da amostra não é necessariamente inteiro, como
anteriormente, mas não há problema pois considera-se a parte inteira desse quociente.
Amostra aleatória sistemática – Dada uma população de dimensão N, ordenada por

algum critério, se se pretende uma amostra de dimensão n, escolhe-se aleatoriamente
um elemento de entre os k primeiros, onde k é a parte inteira do quociente N/n. A partir
desse elemento escolhido, escolhem-se todos os k-ésimos elementos da população
para pertencerem à amostra.
A amostra aleatória sistemática não é uma amostra aleatória simples, já que nem todas
as amostras possíveis de dimensão n, têm a mesma probabilidade de serem
seleccionadas. No entanto, se o quociente N/n for inteiro, mostra-se que a
probabilidade de qualquer elemento ser seleccionado é igual a n/N3.
1.3.2.3 ► Amostra estratificada
Pode acontecer que a população possa ser subdividida em várias subpopulações, mais
ou menos homogéneas relativamente à característica a estudar. Por exemplo, se se
pretende estudar o salário médio auferido pelas famílias lisboetas, é possível dividir a
região de Lisboa segundo zonas mais ou menos homogéneas, estratos, quanto à
característica em estudo – salário médio, e posteriormente extrair de cada um destes
estratos uma percentagem de elementos que irão constituir a amostra, sendo esta
percentagem, de um modo geral, proporcional à dimensão dos estratos.
Amostra estratificada – Divide-se a população em várias subpopulações – estratos, e

de cada uma destes estratos extrai-se aleatoriamente uma amostra. O conjunto de
todas estas amostras constitui a amostra pretendida.
EXEMPLO 1.8 - Suponhamos que se pretendia estudar o volume das vendas de prestação de
serviços, das empresas de construção civil. Podemos à partida considerar a População das empresas
3
Pensemos nos N elementos colocados em circulo e seja N=nk. Comecemos por fixar uma posição inicial j. A probabilidade de um
N N
elemento A ser seleccionado é igual a ∑ P( A ε amostra/ posição inicial é j) P(posição inicial ser j) = ∑ Nn × N1 = Nn .
j=1 j=1

divididas em 3 estratos, quanto ao número de trabalhadores que emprega: pequenas - 10 ou menos

trabalhadores, médias - entre 11 e 40 e grandes - mais de 41 trabalhadores. Uma vez identificados os
estratos, procede-se numa segunda etapa à recolha de uma amostra aleatória simples dentro de cada
estrato. Admitindo que a População em estudo é constituída por 500 empresas, das quais 55% são
pequenas, 35% são médias e 10% são grandes e que a dimensão da amostra pretendida é de 85,
seleccionaríamos amostras de dimensão 47 (85x0.55=46.75), 30 (85x0.35=29.75) e 8 (85x0.10=8.5),
respectivamente do conjunto das pequenas, das médias ou das grandes empresas.
Existe um tipo de amostragem não aleatória, muito semelhante à amostragem

estratificada, que é a amostragem por quotas. Neste tipo de amostragem,
consideram-se os estratos, mas depois em vez de se recolher uma amostra aleatória de
dentro de cada estrato, extrai-se uma amostra não aleatória, de dimensão proporcional
à do estrato na população.
1.3.2.4 ► Amostragem por “clusters” ou grupos
Por exemplo, suponha que se pretende estudar o nível de satisfação dos trabalhadores
têxteis, das empresas do Norte do País. Não dispondo de uma lista com todos os
trabalhadores, considera-se uma lista de todas as empresas têxteis – “clusters”,
admitindo-se que o conjunto de trabalhadores de cada empresa caracteriza
convenientemente a população que se pretende estudar. A partir dessa lista
seleccionam-se aleatoriamente algumas empresas e considera-se a amostra
constituída por todos os trabalhadores das empresas seleccionadas.
Amostra por clusters – A população é dividida em clusters, onde cada cluster é

representativo da população. Selecciona-se aleatoriamente um conjunto de clusters e a
amostra é constituída por todos os elementos dos clusters seleccionados.
1.3.3 ► Amostragem não aleatória

Amostragem por conveniência e amostragem por resposta voluntária são exemplos de
amostragem não aleatória.

1.3.4 ► Outros tipos de erro num processo de aquisição de dados, sem serem
erros de amostragem
1 - A população inquirida diferente da população alvo ou população objectivo
2 – Informação recolhida não é verdadeira
3 – Problema da não resposta
4 – Erros de processamento
1.4 ► Estimador centrado e não centrado. Precisão
Uma vez escolhido um plano de amostragem aleatório, ao pretendermos estimar um

parâmetro, pode ser possível utilizar várias estatísticas (estimadores) diferentes. Por
exemplo, quando pretendemos estudar a variabilidade presente numa População, que
pode ser medida pela variância populacional σ2, sabemos que podemos a partir de uma
amostra, obter duas estimativas diferentes para essa variância, a partir das expressões
n n
2
∑ (x
i =1
i − x)
2
2
∑ (x
i =1
i − x) 2
s = ou s’ =
n −1 n
Quais as razões que nos podem levar a preferir uma das estatísticas relativamente à
outra?
Um critério que costuma ser aplicado é o de escolher um “bom” estimador como sendo
aquele que é centrado e que tem uma boa precisão. Escolhido um plano de
amostragem, define-se:
Estimador centrado – Um estimador diz-se centrado quando a média das estimativas

obtidas para todas as amostras possíveis que se podem extrair da População, segundo
o esquema considerado, coincide com o parâmetro a estimar. Quando se tem um
estimador centrado, também se diz que é não enviesado.
No capítulo seguinte abordaremos com mais detalhe este assunto do não

enviesamento dos estimadores. Veremos assim, que uma das razões que nos levam a
preferir o estimador S2 para a variância, relativamente a S’2, é o facto de praticamente
não apresentar enviesamento (Mostra-se mais à frente que E(S2)= N
σ2).
N −1

Para se evitar o enviesamento, é necessário estarmos atentos, primeiro na escolha do

plano de amostragem e depois na escolha do estimador utilizado para estimar o
parâmetro desconhecido. O facto de utilizarmos um estimador centrado, não nos
previne contra a obtenção de más estimativas, se o plano de amostragem utilizado,
sistematicamente favorecer uma parte da População (isto é, fornecer amostras
enviesadas).
Precisão - Ao utilizar o valor de uma estatística para estimar um parâmetro, vimos que
cada amostra fornece um valor para a estatística que se utiliza como estimativa desse
parâmetro. Estas estimativas não são iguais devido à variabilidade presente na
amostra. Se, no entanto, os diferentes valores obtidos para a estatística forem
próximos, e o estimador for centrado, podemos ter confiança de que o valor calculado a
partir da amostra recolhida (na prática recolhe-se uma única amostra) está próximo do
valor do parâmetro (desconhecido).
A falta de precisão juntamente com o problema do enviesamento da amostra são

dois tipos de erros com que nos defrontamos num processo de amostragem (mesmo
que tenhamos escolhido um “bom” estimador). Não se devem, contudo, confundir.
Enquanto o enviesamento se manifesta por um desvio nos valores da estatística,
relativamente ao valor do parâmetro a estimar, sempre no mesmo sentido, a falta de
precisão manifesta-se por uma grande variabilidade nos valores da estatística, uns
relativamente aos outros. Por outro lado, enquanto o enviesamento se reduz com o
recurso a amostras aleatórias, a precisão aumenta-se aumentando a dimensão da
amostra.
Como veremos a seguir o estudo de um estimador é feito através da sua distribuição de

amostragem, ou seja, da distribuição dos valores obtidos pelo estimador, quando se
consideram todas as amostras possíveis.
Distribuição de amostragem – Distribuição de amostragem de uma estatística é a

distribuição dos valores que a estatística assume para todas as possíveis amostras, da
mesma dimensão, da população.

A maior parte das vezes não se consegue obter a distribuição de amostragem exacta,
mas tem-se uma distribuição aproximada, considerando um número suficientemente
grande de amostras da mesma dimensão e calculando para cada uma delas uma
estimativa do parâmetro em estudo (problema a estudar posteriormente).
1.5 ► Qual a dimensão que se deve considerar para a amostra?
Outro problema que se levanta com a recolha da amostra é o de saber qual a

dimensão desejada para a amostra a recolher. Este é um problema para o qual, nesta
fase, não é possível avançar nenhuma teoria, mas sobre o qual se podem tecer
algumas considerações gerais. Pode-se começar por dizer que, para se obter uma
amostra que permita calcular estimativas suficientemente precisas dos parâmetros a
estudar, a sua dimensão depende muito da variabilidade da população subjacente. Por
exemplo, se relativamente à população constituída pelos alunos do 10º ano de uma
escola secundária, estivermos interessados em estudar a sua idade média, a dimensão
da amostra a recolher não necessita de ser muito grande já que a variável idade
apresenta valores muito semelhantes, numa classe etária muito restrita. No entanto se
a característica a estudar for o tempo médio que os alunos levam a chegar de casa à
escola, já a amostra terá de ter uma dimensão maior, uma vez que a variabilidade da
população é muito maior. Cada aluno pode apresentar um valor diferente para esse
tempo. Num caso extremo, se numa população a variável a estudar tiver o mesmo valor
para todos os elementos, então bastaria recolher uma amostra de dimensão 1 para se
ter informação completa sobre a população; se, no entanto, a variável assumir valores
diferentes para todos os elementos, para se ter o mesmo tipo de informação seria
necessário investigar todos os elementos.
Chama-se a atenção para a existência de técnicas que permitem obter valores mínimos
para as dimensões das amostras a recolher e que garantem estimativas com uma
determinada precisão exigida à partida. Uma vez garantida essa precisão, a opção por
escolher uma amostra de maior dimensão, é uma questão a ponderar entre os custos
envolvidos e o ganho com o acréscimo de precisão. Vem a propósito a seguinte frase
(Statistics: a Tool for the Social Sciences, Mendenhall et al., 1987, pag. 226):

"Se a dimensão da amostra é demasiado grande, desperdiça-se tempo e talento; se a

dimensão da amostra é demasiado pequena, desperdiça-se tempo e talento".
Convém ainda observar que a dimensão da amostra a recolher não é directamente

proporcional à dimensão da população a estudar, isto é, se por exemplo para uma
população de dimensão 1000 uma amostra de dimensão 100 for suficiente para o
estudo de determinada característica, não se exige necessariamente uma amostra de
dimensão 200 para estudar a mesma característica de uma população análoga, mas de
dimensão 2000, quando se pretende obter a mesma precisão. Como explicava George
Gallup, um dos pais da consulta da opinião pública (Tannenbaum, 1998),: Whether you
poll the United States or New York State or Baton Rouge (Louisiana) … you need … the
same number of interviews or samples. It´s no mystery really – if a cook has two pots of
soup on the stove, one far larger than the other, and thoroughly stirs them both, he
doesn´t have to take more spoonfuls from one than the other to sample the taste
accurately”.
Finalmente chama-se a atenção para o facto de que se o processo de amostragem

originar uma amostra enviesada, aumentar a dimensão não resolve nada, antes pelo
contrário!
1.6 ► Estimação do valor médio utilizando amostras aleatórias

simples
Quando se pretende estimar um parâmetro, uma vez definido o esquema de

amostragem, considera-se uma estatística conveniente, isto é, uma função adequada
das observações, função esta que para cada amostra observada dará uma estimativa
do parâmetro que se pretende estimar. Quando o parâmetro a estimar é o valor médio
ou média populacional, então é natural considerar como estimador a função média,
que para cada amostra observada dará uma estimativa do parâmetro.

Como é que podemos saber se a média é um “bom” estimador para o valor

médio?
Será que para as diferentes amostras que podemos obter da população, as diferentes
estimativas são próximas umas das outras e do parâmetro valor médio? É que se isso
acontecer, temos uma certa garantia que a amostra que seleccionámos, já que na
prática só se selecciona uma amostra, nos fornece uma estimativa razoável. A resposta
à questão anterior á dada construindo a distribuição de amostragem da média, em
que, como vimos anteriormente, se define distribuição de amostragem de uma
estatística como sendo a distribuição dos valores que a estatística assume para todas
as possíveis amostras, da mesma dimensão, da população.
São as distribuições de amostragem das estatísticas que nos vão permitir fazer
inferências sobre os parâmetros populacionais correspondentes. A aleatoriedade
presente no processo de selecção das amostras, faz com que se possa utilizar a
distribuição de amostragem de uma estatística para descrever o comportamento dessa
estatística, quando se utiliza para estimar um determinado parâmetro. Podemos dizer
que é através da distribuição de amostragem que introduzimos a probabilidade num
procedimento estatístico, em que a partir das propriedades estudadas na amostra,
procuramos tirar conclusões para a população.
1.6.1 ► Distribuição de amostragem da média, como estimador do valor médio de

uma População finita
1.6.1.1 ► Distribuição de amostragem exacta

Seguidamente vamos exemplificar o processo de obtenção da distribuição de
amostragem da Média, e consequente estudo das suas propriedades como estimador
do valor médio de uma População finita. Vamos considerar uma População de
dimensão suficientemente pequena, para que o problema possa ser tratado dentro dos
limites do razoável.
Consideremos a seguinte população constituída pelos 9 alunos de uma classe infantil

Nº Aluno Peso (kg) Altura (cm) Nº irmãos

1 Maria 12.5 65 0
2 Teresa 11.6 68 1
3 Tiago 13.4 61 0
4 David 14.1 64 1
5 Rita 12.0 59 2
6 Ana 10.8 69 1
7 Joana 11.9 58 0
8 Bernardo 12.7 61 1
9 Leonor 9.6 63 1
Algumas características desta população são:
Val. médio Desvio padrão Mín. Máx. Mediana
Peso 12.07 1.34 9.6 14.1 12
Altura 63.11 3.57 58 69 63
Nº irmãos 0.78 0.67 0 2 1
Esta população é tão pequena, que para a estudar não tivemos necessidade de
recorrer a amostras para estimar alguns parâmetros desconhecidos, tais como altura
média, peso médio, etc. Vamos, no entanto utilizá-la para exemplificar como se pode
estimar a altura média a partir da média de amostras de dimensão 3. Como a nossa
População tem dimensão 9, vamos utilizar a porção de tabela de dígitos aleatórios
considerada na página 7, seleccionando números de 1 dígito. Considerando ao acaso
uma das linhas, por exemplo a linha 104, os elementos seleccionados são o 5, o 2 e o
7, sobre os quais vamos recolher a informação relevante ou seja a altura:
Nº Nome Altura
5 Rita 59
2 Teresa 68
7 Joana 58
A média das alturas observadas é 61.7, que é uma estimativa da altura média da
População.
Como neste caso conhecemos o valor do parâmetro, podemos dizer que a estimativa
está razoavelmente próxima do parâmetro a estimar. Obviamente que se recolhermos
outras amostras, obteremos outras estimativas. Então vamos seleccionar mais 9
amostras de dimensão 3, com o auxílio da tabela:

Amostra 1 2 3 4 5 6 7 8 9 10
5 59 1 65 8 61 7 58 2 68 1 65 8 61 6 69 3 61 5 59
2 68 3 61 9 63 4 64 7 58 8 61 4 64 7 58 9 63 9 63
7 58 8 61 3 61 6 69 4 64 5 59 7 58 5 59 5 59 2 68
Na obtenção das amostras anteriores tivemos o cuidado de fazer a selecção sem
reposição, o que significa que ao obter cada amostra, um elemento seleccionado não
poderia voltar a ser seleccionado. Também tivemos o cuidado de verificar se as
amostras eram todas distintas (constituídas por elementos diferentes). Os valores
obtidos para as médias das 10 amostras foram:
Amostra 1 2 3 4 5 6 7 8 9 10
61.7 62.3 61.7 63.7 63.3 61.7 61.0 62.0 61.0 61.5
Obtivemos vários valores diferentes como estimativas, sendo esta variabilidade
resultado da variabilidade presente na amostra. Os valores apresentados pelas médias
das 10 amostras, não diferem muito entre si, nem do valor do parâmetro. Mas como é
que podemos ter a garantia que se recolhermos outra amostra, não vamos obter como
estimativa do valor médio da altura, um valor muito diferente do verdadeiro valor do
parâmetro? Por outras palavras, gostaríamos de poder responder à seguinte questão:
Para este processo de amostragem, como é que podemos concluir que a média
(amostral) é um “bom” estimador do valor médio (média populacional)?
Teremos de estudar a distribuição de amostragem da média, que neste caso consiste

⎛ 9⎞
em estudar como se comporta a distribuição das médias obtidas para as ⎜ ⎟ = 84
⎝ 3⎠
amostras diferentes, de dimensão 3, que se podem extrair da População.
Considerando então todas as amostras aleatórias simples, diferentes, de dimensão 3,

obtemos
Am. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65
68 68 68 68 68 68 68 61 61 61 61 61 61 64 64 64 64 64 59 59 59
61 64 59 69 58 61 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61
média 64.7 65.7 64.0 67.3 63.7 64.7 65.3 63.3 61.7 65.0 61.3 62.3 63.0 62.7 66.0 62.3 63.3 64.0 64.3 60.7 61.7

Am. 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
65 65 65 65 65 65 65 68 68 68 68 68 68 68 68 68 68 68 68 68 68
59 69 69 69 58 58 61 61 61 61 61 61 61 64 64 64 64 64 59 59 59
63 58 61 63 61 63 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61
média 62.3 64.0 65.0 65.7 61.3 62.0 63.0 64.3 62.7 66.0 62.3 63.3 64.0 63.7 67.0 63.3 64.3 65.0 65.3 61.7 62.7
Am. 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63
68 68 68 68 68 68 68 61 61 61 61 61 61 61 61 61 61 61 61 61 61
59 69 69 69 58 58 61 64 64 64 64 64 59 59 59 59 69 69 69 58 58
63 58 61 63 61 63 63 59 69 58 61 63 69 58 61 63 58 61 63 61 63
média 63.3 65.0 66.0 66.7 62.3 63.0 64.0 61.3 64.7 61.0 62.0 62.7 63.0 59.3 60.3 61.0 62.7 63.7 64.3 60.0 60.7
Am. 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
61 64 64 64 64 64 64 64 64 64 64 59 59 59 59 59 59 69 69 69 58
61 59 59 59 59 69 69 69 58 58 61 69 69 69 58 58 61 58 58 61 61
63 69 58 61 63 58 61 63 61 63 63 58 61 63 61 63 63 61 63 63 63
média 61.7 64.0 60.3 61.3 62.0 63.7 64.7 65.3 61.0 61.7 62.7 62.0 63.0 63.7 59.3 60.0 61.0 62.7 63.3 64.3 60.7
Uma vez que o plano de amostragem considerado, foi a amostragem aleatória simples,
cada amostra tem igual probabilidade (=1/84) de ser seleccionada, pelo que podemos
considerar os diferentes valores obtidos para a variável Média, assim como as
respectivas probabilidades – ou seja, estamos em condições de considerar a seguinte
função massa de probabilidade para a variável Média, que vamos designar por Média3,
para realçar o facto de as amostras a partir das quais se obtiveram os seus valores,
terem dimensão 3:
Média3 59.3 60.0 60.3 60.7 61.0 61.3 61.7 62.0 62.3 62.7 63.0 63.3
Prob. 2/84 2/84 2/84 3/84 4/84 4/84 5/84 4/84 5/84 7/84 5/84 6/84
Média3 63.7 64.0 64.3 64.7 65.0 65.3 65.7 66.0 66.7 67.0 67.3
Prob. 5/84 6/84 5/84 4/84 4/84 3/84 2/84 3/84 1/84 1/84 1/84

Algumas características da variável Média3 são:
Valor médio Desvio padrão Mínimo Máximo Mediana

Média3 63.11 1.79 59.3 67.3 62.83
Repare-se que:
• o valor médio da variável Média3 coincide com o valor médio da População – Altura,
de onde se recolheram as amostras;
• o desvio padrão da variável Média3 é bastante menor que o da variável Altura.
As observações anteriores permitem-nos concluir que a Média3, como estimador do

parâmetro - valor médio da Altura, é um estimador centrado, já que o seu valor médio
coincide com parâmetro a estimar.
A partir da distribuição de probabilidade da Média3, podemos ainda concluir que a

probabilidade de obtermos estimativas no intervalo [61.3, 65.3] é de 0.75, assim como a
probabilidade de obtermos essas estimativas no intervalo [59.5, 66.7] é superior a 95%.
Este resultado significa que, ao recolhermos uma amostra de dimensão 3 e ao
calcularmos a partir dela uma estimativa para o valor médio, estamos confiantes, com
uma confiança superior a 95%, de que essa estimativa não se afasta do parâmetro a
estimar de uma distância superior a 3.6, aproximadamente (63.1–59.5=3.61; 66.7–63.1=3.6).
Chamamos a atenção para que a confiança anterior, não nos dá a garantia de que a
estimativa que nós calculamos, para a amostra seleccionada, esteja naquele intervalo.
Temos “fé” que sim!
E se as amostras tiverem maior dimensão? O que é que ganhamos com isso?
Repetindo o processo anterior, mas agora para amostras de dimensão 5, será que a
variabilidade apresentada pelo estimador diminui? Já que temos mais informação, é de
esperar algum “ganho” na precisão do estimador!
Vamos então considerar a distribuição de amostragem da média para amostras de

dimensão 5. O processo é em tudo idêntico ao considerado anteriormente, mas agora
será um pouco mais trabalhoso já que o número de amostras distintas, de dimensão 5,
⎛ 9⎞
que podemos extrair da População de dimensão 9 é ⎜ ⎟ = 126.
5 ⎝ ⎠

Os resultados obtidos para a distribuição de amostragem da média, para amostras de

dimensão 5, foi:
Média5 60.4 60.6 60.8 61.0 61.2 61.4 61.6 61.8 62.0 62.2 62.4 62.6 62.8 63.0
Probab 0.008 0.008 0.008 0.016 0.016 0.032 0.024 0.040 0.040 0.056 0.063 0.048 0.063 0.079
Média5 63.2 63.4 63.6 63.8 64.0 64.2 64.4 64.6 64.8 65.0 65.2 65.4 65.8
Probab 0.063 0.071 0.056 0.056 0.048 0.048 0.048 0.024 0.024 0.024 0.016 0.016 0.008
Algumas características da variável Média5 são:
Valor médio Desvio padrão Mínimo Máximo Mediana

Média5 63.11 1.13 60.4 65.8 63.1
Repare-se que:
• o valor médio da variável Média5 coincide com o valor médio da População –
variável Altura, de onde se recolheram as amostras;
• o desvio padrão da variável Média3 é bastante menor que o da População – variável
Altura e é ainda inferior ao da variável Média3.
Na figura seguinte apresentamos as distribuições de amostragem da Média3 e da

Média5:

Conclusão: a precisão do estimador aumenta, à medida que se aumenta a dimensão da

amostra. Recordamos que quanto menor for a variabilidade apresentada pelo
estimador, maior é a precisão.
Resultado teórico:
Dada uma População de dimensão N, de valor médio μ e variância σ2, quando se

considera um plano de amostragem aleatória simples, e como estimador de μ a Média,
calculada a partir de amostras de dimensão n, então:
• O valor médio da Média é μ, isto é, a Média como estimador do valor médio é um
estimador centrado;
σ 2 N -n
• A variância da Média é igual a ( )
n N -1
N - n S2
• ( ) é um estimador não enviesado da variância da Média
N n
Nota: A demonstração destes resultados é apresentada a seguir, depois de algumas considerações

sobre as expressões apresentadas.
A expressão obtida para a variância é muito interessante pela informação que contém.
Nomeadamente:
• Confirma o que já havíamos esperado, no sentido de que ao aumentar a dimensão
da amostra, aumentamos a precisão do estimador (na medida em que diminui a
sua variabilidade).

• Permite-nos ainda concluir que, para obter a mesma precisão, quando estimamos
o valor médio de Populações da mesma dimensão, a dimensão da amostra terá de
ser tanto maior, quanto maior for a variabilidade presente na População.
• Mas mais interessante, embora menos intuitivo, permite-nos concluir que se a
dimensão da População for substancialmente maior que a da amostra, então a
precisão do estimador não depende da dimensão dessa População, mas
unicamente da variabilidade aí presente (pois (N-n)/(N-1) ≈1).
Demonstração:
Seja Y1, Y2, ...,Yn uma amostra aleatória simples de uma população de valores {u1, u2, ..., uN}.
N N
Considerando um Yi, tem-se E(Yi)= ∑i=1
ui
1
N
=μ e V(Yi)= ∑ (u - μ)
i=1
i
2 1
N
= σ2 . Representando a média dos
n
Yi por Y, tem-se E( Y )=
1
n ∑E(Y ) =μ. Por outro lado,
i =1
i
N N
∑ N(N − 1) 1
∑u )
uiu j
Cov(Yi, Yj) = E[(Yi -μ)(Yj-μ)]= E(YiYj) – μ2= - ( i
2
=
N2
i≠ j i =1
⎡ N N ⎤
N N ⎡ N N ⎤
⎢(
⎢ ∑ u i )2 − u i2 ∑
N
⎥
⎥
∑ N(N − 1) ∑ 1 ⎢
∑ ∑ 2⎥
∑
uiu j uiu j 1 ⎢ i =1
u i )2 ⎥
1 1 i =1 1
− ( ui )2 = − ( u ) ⎥= − ( =-
N⎢ N⎢ ⎥
i
N2 ( N − 1) N N −1 N
i≠ j i =1 ⎣⎢ i ≠ j i =1 ⎦⎥ ⎢ i =1 ⎥
⎢ ⎥
⎣⎢ ⎦⎥
⎡ N ⎛ N ⎞ ⎤⎥
2
N
1 ⎢ 1
⎢
N ⎢ N −1 ∑ 2
ui −
1 ⎜
N( N − 1) ⎜⎜
⎟
∑
ui ⎟ ⎥
⎟ ⎥
=-
1
N( N − 1) ∑ ( u − μ)
i
2
=-
1
N −1
σ2.
⎣⎢
i =1 ⎝ i =1 ⎠ ⎥⎦ i =1
⎛ n ⎞ ⎡ n ⎤
Como Var( Y ) = Var ⎜⎜
1
⎜n
∑ ⎟
Yi ⎟ =
1 ⎢
⎟ n2 ⎢
⎢ σ2 + 2 ∑ ∑∑ ⎥
Cov(Yi , Yj )⎥
⎥⎦
então
⎝ i =1 ⎠ ⎣ i =1 i< j
⎛ n 2 ⎞⎟
1 ⎜ 1 ⎧⎪ 2 2σ 2 n (n − 1) ⎫⎪
Var( Y ) = ⎜
n2 ⎜
∑ σ2 + 2 ∑∑ N− σ− 1 ⎟⎟ = ⎨nσ −
n 2 ⎪⎩ N −1 2 ⎪
⎬
⎭
pois há n(n-1)/2 pares (i,j) seleccionados de
⎝ i =1 i< j ⎠
entre os inteiros 1,2, ..., n tais que i<j. Portanto
σ2 N - n
Var( Y )=
n N-1
n
N − n S2
∑ (Y − Y )
1 2
Pode-se ainda mostrar que , com S2= i , é um estimador não enviesado de
N n N −1 i=1
2
N 2 N−n S
Var( Y ). Efectivamente E(S2) = σ , donde E( ) = Var( Y ).
N -1 N n

1.6.1.2 ► Distribuição de amostragem aproximada

Quando a população é finita, e a amostragem se faz sem reposição, existem algumas
condições necessárias e suficientes para que se possa considerar a distribuição da
média aproximada pela distribuição Normal. Não vamos apresentar essas condições,
embora admitamos que elas estão satisfeitas e enunciamos o seguinte resultado:
Suponhamos que uma amostra aleatória simples é seleccionada de uma População de
dimensão N, em que a variável em estudo tem valor médio μ e variância σ2. Então, se a
dimensão n da amostra for suficientemente grande (um valor que é usual considerar
como suficientemente grande é 30), a distribuição de amostragem da média pode ser
σ 2 N -n
aproximada pela distribuição Normal com valor médio μ e variância ( ). A
n N -1
aproximação verifica-se para amostras de dimensão suficientemente grande,
independentemente da forma da distribuição da População.
O resultado anterior permite concluir que quanto maior for a dimensão da amostra,
menor é a variabilidade apresentada pelo estimador.
1.6.2 ► Distribuição de amostragem aproximada da média, como estimador do

valor médio de uma População finita, mas de dimensão suficientemente
grande
Na maior parte dos casos em que é necessário recolher uma amostra para estudar uma
característica de uma População, não se conhece a dimensão desta. Então costuma-se
assumir que é suficientemente grande de modo que se diz que se tem uma População
de dimensão infinita. Em termos práticos costuma-se considerar que se tem uma
população de dimensão infinita quando n≤N/20. Nestas condições o factor (N-n)/(N-1)
que aparece na expressão da variância da Média toma um valor aproximadamente
igual a 1, pelo que temos o seguinte resultado, conhecido como Teorema Limite
Central (TLC), de que o resultado anterior é uma versão para Populações finitas:


dimensão grande, em que a variável em estudo tem valor médio μ e variância σ2. Então,
se a dimensão n da amostra for suficientemente grande (um valor que é usual
considerar como suficientemente grande é 30), a distribuição de amostragem da média
σ2
pode ser aproximada pela distribuição Normal com valor médio μ e variância . A
n
aproximação verifica-se para amostras de dimensão suficientemente grande,

independentemente da forma da distribuição da População subjacente às amostras.
Mais uma vez chamamos a atenção para a seguinte propriedade, já anteriormente

referida: quanto maior for a dimensão da amostra, menor é a variabilidade apresentada
pelo estimador. Além disso, também concluímos que, para Populações de dimensão
suficientemente grande, esta não tem influência sobre a variabilidade do estimador.
Em conclusão, a precisão de um estimador, para Populações de grande dimensão,

não depende do tamanho da População, mas sim da variabilidade aí presente. Quando
pretendemos estimar um parâmetro da População, para obter uma determinada
precisão, a dimensão da amostra terá de ser tanto maior, quanto maior for a
variabilidade existente na População. No entanto, se a dimensão da População já
não for suficientemente grande, essa dimensão terá interferência na precisão do
estimador.
1.7 ► Distribuição de amostragem da média, em amostragem com

reposição
Será interessante estudarmos a distribuição de amostragem da Média, quando se faz

amostragem com reposição, de uma População com dimensão N e comparar com o
que se obtém em amostragem sem reposição.
Agora, cada elemento da População tem uma probabilidade constante e igual a 1/N de
ser seleccionado para pertencer à amostra, já que quando um elemento é
seleccionado, uma vez a informação recolhida, ele é novamente reposto na População.

Este processo é equivalente a seleccionarmos uma amostra aleatória de dimensão n de

uma população uniforme discreta no conjunto dos valores da característica a estudar da
População, que podemos representar por y1, y2, …, yN. Então cada vez que se
selecciona um elemento da População é como se obtivéssemos um valor da variável Y
que assume os valores yi considerados anteriormente, com probabilidade 1/N.
Seleccionar uma amostra de dimensão n significa seleccionar n variáveis Y1, Y2, …, Yn,
independentes e com distribuição idêntica à de Y. Então a Média será uma variável cujo
valor médio é o valor médio μ da População (ou da distribuição uniforme) e cuja
variância é σ2/n, onde σ2 é a variância da População (ou da distribuição uniforme
subjacente).
A amostragem sem reposição é mais eficiente do que a amostragem com reposição
σ2
Comparando o resultado , para a variância da Média, com o resultado apresentado
n
σ 2 N -n
quando se faz amostragem sem reposição, nomeadamente ( ) , conclui-se que
n N -1
a amostragem sem reposição é mais eficiente, quando se pretende estimar o valor
médio da População, uma vez que produz um estimador com uma variância mais
pequena, isto é, que apresenta menor variabilidade.
EXEMPLO 1.9 Considere uma população constituída pelos elementos 1, 2, 3, 4 e 5. Pretende estimar
o valor médio desta população, pelo que decide recolher uma amostra de dimensão 2, com reposição. e
calcular a sua média. Obtenha a distribuição de amostragem do estimador utilizado para estimar o valor
médio da população.
Resolução: A População anterior é constituída pelos elementos 1, 2, 3, 4 e 5, tendo cada um uma
probabilidade constante e igual a 1/5 de ser seleccionado para pertencer a uma amostra:
População X 1 2 3 4 5
Probabilidade 1/5 1/5 1/5 1/5 1/5
Propriedades da População:
Valor médio = 3
Desvio padrão = √2.

A metodologia seguida para obter a distribuição de amostragem consiste em obter todas as amostras de
dimensão 2, com reposição, calcular o valor da estatística média para cada uma delas e depois
representar a distribuição dos valores obtidos:
Amostras (1,1) (1,2) (1,3) (1,4) (1,5) (2,5) (3,5) (4,5) (5,5)
(2,1) (2,2) (2,3) (2,4) (3,4) (4,4) (5,4)
(3,1) (3,2) (3,3) (4,3) (5,3)
(4,1) (4,2) (5,2)
(5,1)
média 1 1.5 2 2.5 3 3.5 4 4.5 5
De acordo com a tabela anterior obtemos a seguinte distribuição de amostragem para o estimador
Média2 (assim representado por se obter a partir de amostras de dimensão 2)
Média2 1 1.5 2 2.5 3 3.5 4 4.5 5

Probabilidade 1/25 2/25 3/25 4/25 5/25 4/25 3/25 2/25 1/25
1 1.5 2 2.5 3 3.5 4 4.5 5
Características da distribuição de amostragem da Média para amostras de dimensão 2:

Valor médio = 3
Desvio padrão = 1
Algumas observações:
• O centro da distribuição de amostragem do estimador Média utilizado para estimar o valor médio da
população (igual a 3), coincide com o parâmetro a estimar .
• O desvio padrão da população inicial é igual a 2 , enquanto que o desvio padrão da média,
calculada a partir de amostras de dimensão 2 é 1 ( 2 / 2 =1 – resultado considerado anteriormente).
Se repetirmos a metodologia seguida no processo do exemplo anterior, considerando agora amostras de

dimensão 3, o problema torna-se mais trabalhoso, já que o número de amostras possíveis é 53=125.
Assim, abstemo-nos de apresentar todas essas amostras, limitando-nos a apresentar a distribuição de
amostragem da Média3:

Média3 1 1.33 1.67 2 2.33 2.67 3 3.33 3.67 4 4.33 4.67 5

Proba. .008 .024 .048 .080 .120 .144 .152 .144 .120 .080 .048 .024 .008
1 2 3 4 5
Características da distribuição de amostragem:

Valor médio = 3
Desvio padrão = 0.816
Algumas observações:
• O centro da distribuição de amostragem do estimador Média3 utilizado para estimar o valor médio da
população (igual a 3), coincide com o parâmetro a estimar .
• O desvio padrão da população inicial é igual a 2 , enquanto que o desvio padrão da Média3,
calculada a partir de amostras de dimensão 3 é 0.816 ( 2 / 3 =0.816 – o que condiz com o resultado
apresentado anteriormente, de que a variância da Média é σ2/n).
• A variabilidade apresentada pela distribuição de amostragem é inferior à obtida quando se
consideram amostras de dimensão 2. Este resultado indicia que quanto maior for a dimensão da
amostra, menor é a variabilidade apresentada pela distribuição de amostragem.
Se a dimensão da População for muito grande, a probabilidade de extrairmos o mesmo elemento duas
vezes é extremamente pequena. Assim, os dois processos de amostragem, com reposição e sem
reposição, são praticamente equivalentes, quando estamos a estimar a média populacional.
A conclusão anterior vai de encontro com a que se pode obter também se tomarmos
atenção às variâncias das Médias de amostras de dimensão n, quando se faz extracção
com e sem reposição. Efectivamente o factor
N−n N n
= × (1− )
N−1 N-1 N
que aparece na expressão da variância num processo de amostragem aleatória simples
(sem reposição) assume um valor próximo de 1, quando N é razoavelmente grande e n

n
é razoavelmente pequeno, quando comparado com N. Ao quociente costuma-se
N
chamar fracção de amostragem. Já apontamos anteriormente que se considera uma
População “grande” se a sua dimensão for cerca de 20 vezes superior à dimensão da
amostra, ou seja, quando a fracção de amostragem for menor que 0.05.
1.8 ► A forma da distribuição de amostragem da Média em popula-

ções infinitas ou amostragem com reposição
Vimos anteriormente que o estimador Média é um estimador centrado do valor médio

da população, quer a população seja finita ou infinita e a amostragem com reposição ou
sem reposição. Vimos também a expressão para a variância, em qualquer das
situações consideradas.
Vamos agora admitir que estamos a realizar uma amostragem com reposição, ou que a
população a estudar, X, é infinita, situação em que a selecção de um elemento para a
amostra, pode ser considerada independente da selecção dos outros elementos. Assim,
consideremos a amostra aleatória (X1, X2, ..., Xn) onde as variáveis aleatórias X1, X2, ...,
Xn são indepententes e identicamente distribuídas a X, como se apresenta no seguinte
esquema:
Se tivermos k amostras de dimensão n, recolhidas da População X:
População X
1ª amostra 2ª amostra k-ésima amostra

x x x ... x x x x ... x x x x ... x
x x x
Relativamente às amostras anteriores, podemos considerar o seguinte:

x11, x21, ...,xk1 são os valores observados de uma v.a. com distribuição idêntica à
de X, mas que representamos por X1, para significar que foi o 1º
elemento recolhido nas diferentes amostras;
x12, x22, ...,xk2 são os valores observados de uma v.a. com distribuição idêntica à
de X, independente de X1 (numa amostra aleatória, os valores não
podem depender uns dos outros), mas que representamos por X2,
para significar que corresponde ao 2º elemento recolhido;
x1n, x2n, ...,xkn são os valores observados de uma v.a. com distribuição idêntica à
de X, independente de X1, X2,... que representamos por Xn, para
significar que foi o enésimo elemento a ser recolhido.
Com esta notação, as amostras (x11, x12, x13,..., x1n ), ( x21, x22, x23,..., x2n ) ..., ( xk1, xk2,
xk3,..., xkn ) são amostras observadas da amostra aleatória
(X1, X2, …, Xn)
Admitindo que a população X, que estávamos a estudar, era constituída pelas alturas
(em cm) dos alunos inscritos na FCUL, no ano lectivo de 2005/2006, era tal que
X∩N(165,10), podemos obter várias amostras observadas, de dimensão 10:
(158, 163, 171, 150, 149, 167, 158, 172, 149, 150)
(167, 149, 168, 153, 162, 160, 170, 161, 160, 149)
… … … … … … … …
(170, 160, 158, 168, 165, 159, 163, 159, 172, 150)
da amostra aleatória (X1, X2, …, X10), em que todas as v.a. Xi, i=1,…,10, são
independentes e têm distribuição Normal de valor médio 165 e desvio padrão 10.
Tendo em consideração o que foi dito anteriormente, podemos afirmar que

x1 , x 2 , … , x k , são valores observados da variável aleatória
n
∑X
i =1
i
X=
n
onde X1, X2, … , Xn são variáveis aleatórias independentes e com a mesma distribuição
que uma variável aleatória X ( população em estudo). Sendo a estatística uma variável
aleatória tem uma distribuição de probabilidades, a que damos o nome de distribuição
de amostragem, como já vimos nas secções consideradas anteriormente.

São as distribuições de amostragem das estatísticas que nos vão permitir fazer
inferências sobre os parâmetros populacionais correspondentes. Ao aleatoriezarmos o
processo de selecção das amostras, faz com que se possa utilizar a distribuição de
amostragem de uma estatística para descrever o comportamento dessa estatística,
quando se utiliza para estimar um determinado parâmetro. Por outro lado, para
podermos utilizar os resultados da Teoria das Probabilidades, o processo de
amostragem que se considera é o de amostragem com reposição. Esta observação é
relevante, sobretudo para populações de dimensão pequena, em que a composição da
população, relativamente à característica de interesse, se altera quando se retiram
alguns elementos; esta situação não se verifica com populações de grande dimensão,
que é normalmente a situação de interesse em Estatística.
Assim, se uma população tiver N elementos, para obter as distribuições de amostragem

de estatísticas, a partir de amostras de dimensão n, teríamos de seleccionar Nn
amostras distintas. Então, para calcular a distribuição de amostragem da média, será
necessário considerar todas as amostras possíveis e calcular as respectivas médias?
Felizmente não é necessário estar com tanto trabalho, graças a um dos resultados mais
importantes da Teoria das Probabilidades, conhecido como Teorema Limite Central,
que nos fornece um modelo matemático para a distribuição de amostragem da média,
como veremos a seguir.
Algumas questões que se podem levantar acerca da distribuição de amostragem da

estatística média, são as seguintes:
• A distribuição da média, depende da distribuição da população X, subjacente às
amostras?
• Será sempre possível conhecer essa distribuição?
No que se segue procuraremos responder a estas questões, adiantando desde já que,

na verdade, a distribuição de amostragem da média depende da distribuição da
população subjacente às amostras. Veremos também, que nem sempre é possível
obter a distribuição exacta da média, mas sim uma distribuição aproximada.

1.8.1 ► Valor médio e desvio padrão da média
Dada uma população X de valor médio μ e desvio padrão σ, então, tendo em

consideração as propriedades do valor médio e da variância, pode-se mostrar
facilmente que
σ2
E( X ) = μ e Var( X ) =
n
Obs: Não esquecer que X é uma combinação linear de variáveis aleatórias

independentes e com a mesma distribuição.
Chamamos a atenção para o facto do valor médio da v.a estimador X , coincidir com o
parâmetro que estamos a estimar, o valor médio, µ, da população. Dizemos que o
estimador é centrado ou não enviesado. Além disso, a variância do estimador
decresce com a dimensão da amostra, o que permite concluir que, à medida que
aumentamos a dimensão da amostra a variabilidade do estimador, em torno do
parâmetro, diminui. Diz-se então que o estimador é consistente. Estas propriedades de
não enviesamento e de consistência fazem com que a média seja um “bom” estimador
do valor médio.
1.8.2 ► Distribuição da média, para populações Normais
Para obter a distribuição de X , vamos distinguir o caso de a população X ser Normal e

não Normal, distinguindo ainda se o desvio padrão σ é conhecido ou não.
1.8.2.1 ► Desvio padrão σ conhecido

Já dissemos quando estudamos a distribuição Normal, que qualquer combinação linear
de variáveis aleatórias independentes, com distribuição Normal, ainda tem distribuição
Normal. Como a média é uma combinação linear de variáveis aleatórias Xi,
independentes, com distribuição idêntica à de X, que por hipótese é Normal(μ,σ), vem
σ
imediatamente que X tem distribuição Normal, com valor médio μ e desvio padrão ,
n
pelo que procedendo à standardização, se obtém o seguinte resultado

Populações Normais, σ conhecido

X - μ
Z= ∩ N(0,1)
σ/ n
1.8.2.2 ► Desvio padrão σ desconhecido
Quando o parâmetro σ é desconhecido, situação que ocorre com frequência, já o

resultado anterior não é válido. Assim, estima-se o desvio padrão desconhecido pelo
desvio padrão empírico, S, em que
∑ (X i − X)2
S2 = i =1
n −1
e tem-se o seguinte resultado
Populações Normais, σ desconhecido
X−μ
T= S ∩ t(n -1)
n
o que significa que se conhece a distribuição exacta da variável aleatória T, que é a

chamada distribuição t-Student (t de Student), com (n-1) graus de liberdade e que se
representa por t(n-1).
Este modelo tem uma função densidade semelhante à da Normal, mas com as caudas
mais altas, isto é, não é tão concentrada. No entanto, à medida que o número de graus
de liberdade aumenta (isto é, à medida que n aumenta), a t-Student confunde-se com a
Normal. Do mesmo modo que a Normal, também a distribuição t-Student se encontra
tabelada.

1.8.3 ► Distribuição da média, para populações não normais. Teorema Limite

Central
Quando a distribuição da população X já não é Normal, a distribuição de amostragem
da média dependerá da distribuição de X, não sendo em geral conhecida. No entanto,
um dos teoremas fundamentais das probabilidades, dá-nos uma indicação do
comportamento da distribuição da média de um número suficientemente grande de
variáveis aleatórias independentes e identicamente distribuídas:
Teorema limite central

Se X1, X2, …, Xn são variáveis aleatórias independentes e identicamente distribuídas a
2
uma variável aleatória X com valor médio µ e variância σ , finita, então a distribuição da
Sn
soma Sn = X1+ X2+ …+ Xn, ou da média X = tende a aproximar-se da distribuição
n
Normal, para n suficientemente grande
S n − nμ X−μ
P( ≤ z ) ≈ Φ(z) e P( ≤ z ) ≈ Φ(z)
σ n σ
n
O teorema limite central dá-nos uma justificação teórica para a grande utilização da
distribuição Normal, como modelo de fenómenos aleatórios. Quantidades tais como
alturas e pesos de uma população relativamente homogénea, podem ser consideradas
como somas de um grande número de causas genéticas e efeitos devido ao meio
ambiente, mais ou menos independentes entre si, cada um contribuindo com uma
pequena quantidade para a soma.
O que é que se entende por um valor de n suficientemente grande?
Uma questão que se pode pôr é a seguinte: quando queremos aplicar o teorema do
limite central: qual o valor de n, para que se possa considerar que temos uma boa
aproximação para a distribuição Normal?
Este valor de n depende da distribuição subjacente à amostra e será tanto maior quanto
mais enviesada for a distribuição da população (o termo enviesado aplica-se como
contrário a simétrico).

1.9 ► Distribuição de amostragem da proporção
Anteriormente estudámos a estimação do valor médio e vamos, neste capítulo, ver

como os resultados que se obtiveram podem ser traduzidos para o estudo da estimação
do parâmetro proporção de elementos da População que satisfazem determinada
propriedade ou verificam determinada característica.
1.9.1 ► Distribuição de amostragem da proporção para populações finitas
Consideremos então uma população de dimensão N e seja p a proporção

(desconhecida) de elementos de uma população que verificam determinada
característica. Na metodologia que vamos utilizar, no estudo da estimação da
proporção, começamos por verificar que uma proporção é uma média de 0’s e 1’s em
que atribuímos o valor 1 a um elemento da população que verifique a característica em
estudo e o valor 0 a um elemento que não verifique essa característica. Assim, a
proporção p não é mais do que o valor médio desta população cujos elementos são
0’s e 1’s, pelo que o estudo feito para a estimação do valor médio será facilmente
adaptado para a estimação da proporção.
Para esta população tão particular, constituída por 0’s e 1’s, em que a média
populacional é a proporção populacional, a média amostral também será a proporção
amostral, que será assim, o estimador intuitivo para a proporção populacional.
Como no capítulo anterior estudámos a distribuição de amostragem da média, tendo

concluído que a média é um “bom” estimador para o valor médio, imediatamente
concluímos que a proporção amostral é um “bom” estimador para a proporção
populacional.
A fim de utilizar os resultados enunciados para a distribuição de amostragem da média,

vejamos a que é igual a variância de uma população constituída por 0’s e 1’s em que a
percentagem de 1’s é p.

Variância σ2 da população em estudo:

A partir da expressão da variância, temos que
(1 - p)2 Np + (0 - p)2 N(1- p)
σ2 =
N
σ2 = p (1- p)
A variância de uma população constituída por 0’s e 1’s, em que a percentagem de 1’s é
p, é igual a p(1- p).
As conclusões a que chegámos no capítulo anterior, permitem-nos agora enunciar os

seguintes resultados:
Dada uma população de dimensão N, em que p é a percentagem de elementos da
população que verificam determinada característica, quando se considera um esquema
de amostragem aleatória simples, e como estimador de p, a proporção amostral pˆ , isto
é a proporção de elementos com a característica em estudo, existente em amostras de
dimensão n, então:
• O estimador p
ˆ de p é um estimador centrado, já que o seu valor médio coincide
com p;
p(1-p) N -n
• A variância de p
ˆ é igual a ( ).
n N -1
O resultado teórico conhecido como Teorema Limite Central toma agora a seguinte
expressão:
dimensão grande, em que a característica em estudo está presente numa proporção p
(desconhecida) Então, se a dimensão n da amostra for suficientemente grande (um
valor que é usual considerar como suficientemente grande é 30), a distribuição de
amostragem da proporção amostral p

ˆ pode ser aproximada pela distribuição Normal
p(1- p)
com valor médio p e variância .
n

1.9.2 ► Distribuição de amostragem da proporção para populações infinitas ou

com reposição
Neste caso, em que a população é infinita ou a amostragem se faz com reposição, as n

variáveis aleatórias X1, X2, ..., Xn (n provas) que consistem em seleccionar outros tantos
elementos da população e verificar se sim ou não têm a característica em estudo
(sucesso ou insucesso), que existe na população com uma proporção p, são variáveis
de Bernoulli. Assim, a v.a. X que representa o nº de sucessos nas n provas tem
distribuição Binomial de parâmetros n e p, Bin(n,p). Um estimador da proporção p é a
X
proporção amostral p
ˆ= , cujas propriedades podem ser deduzidas a partir do facto da
n
distribuição de X ser conhecida. Efectivamente
E( X) np Var ( X) np(1 − p) p(1 − p)

E( p
ˆ)= = =p e Var( p
ˆ)= = =
n n n2 n2 n
Por outro lado, se a dimensão da amostra for suficientemente grande, a distribuição

Bin(n,p) pode ser aproximada por uma distribuição Normal(np, np(1 − p) ), pelo que a
p(1 − p)
distribuição de p
ˆ pode ser aproximada por uma distribuição Normal (p, ),
n
como já havíamos concluído anteriormente.

Introdução à estimação 2
Introdução à estimação. Estimação pontual e intervalar. Intervalo de confiança com uma
confiança de 100(1-α)%. Dimensão da amostra necessária para obter um intervalo de
confiança com uma determinada precisão e uma determinada confiança.
Margem de erro.
2.1 ► Introdução
Dada uma amostra, vimos que é possível fazer a sua redução, através do cálculo de
certas estatísticas. No entanto, a importância destas características amostrais não se
fica por aqui, pois o nosso objectivo vai ser utilizá-las para inferir algo sobre a
população subjacente à amostra. Foi nesta perspectiva que falámos em utilizar:
i) a média x como estimativa do valor médio µ;
ii) a proporção pˆ =x/n, onde x representa o nº de sucessos obtidos numa certa amostra
de dimensão n, como estimativa da probabilidade p de sucesso, na distribuição
Binomial, etc.
Quer dizer que as estatísticas referidas permitem-nos obter determinados valores que
servem como estimativas dos parâmetros (desconhecidos) ou características das
distribuições populacionais - a estes valores chamamos estimativas pontuais. Por
vezes interessa-nos obter, não um valor que estime o parâmetro em causa, mas um
intervalo que contenha, com determinada probabilidade, esse parâmetro - neste caso
pretendemos uma estimativa intervalar ou um intervalo de confiança.
Um estimador é uma variável aleatória, função da amostra aleatória, que para valores
observados da amostra fornece estimativas pontuais ou estimativas intervalares do
parâmetro populacional desconhecido. Então, a v.a. X é um estimador do valor médio,

X
assim como pˆ = é um estimador da probabilidade p. De um modo geral quando nos
n
referimos ao estimador utilizamos letra maiúscula, enquanto que a estimativa se
representa com letra minúscula. Esta metodologia por vezes não é seguida, como é por
exemplo, no caso anteriormente considerado da proporção.
O que é um "bom" estimador?
O facto de termos escolhido a média como estimador do valor médio, não se deve
unicamente à analogia existente, entre parâmetros populacionais e parâmetros
amostrais. Comom vimos no capítulo 1, existem alguns critérios que definem à partida,
se um estimador é "bom" ou "mau". Assim, o critério mais utilizado exige que o
estimador seja não enviesado ou centrado, isto é, que o seu valor médio coincida com o
parâmetro populacional a estimar, e de entre os que satisfazem esta condição deve ter
variância mínima. Estas duas propriedades são, de certo modo intuitivas, pois ao
considerar um estimador esperamos que as estimativas que ele fornece coincidam, em
média, com o parâmetro a estimar, e além disso a variabilidade dessas estimativas, em
torno do parâmetro, deve ser pequena. Por exemplo, no caso concreto de populações
simétricas, podem existir vários estimadores centrados para o valor médio,
nomeadamente a média e a mediana. No entanto, escolhe-se o que tem variância
mínima, que é a média.
No que diz respeito à variância populacional σ2, alguns estimadores possíveis são
Σ (Xi − X) 2 Σ (Xi − X) 2
S2= ou S'2=
n −1 n
Ao considerar estas duas estatísticas, costuma-se dizer que por razões que se
prendem com a inferência estatística, a estatística mais utilizada é S2. Neste momento
Σ (Xi − X) 2
já podemos dar a razão que nos leva a escolher - é o facto de este estimador,
n −1
Σ (Xi − X) 2 2 2
ao contrário de , ser centrado, pois pode-se mostrar que E [S ]=σ com Xi
n
, i=1,...,n variáveis aleatórias independentes e identicamente distribuídas a X, enquanto

2 n −1 2
que E [S’ ]= σ . Assim, quando a dimensão da amostra é suficientemente grande,
n
2 n −1
S’ é assintóticamente centrado, pois → 1, sendo indiferente utilizar um ou outro
n
estimador.
2.2 ► Estimação da proporção. Intervalo de confiança para a

proporção
Já vimos no capítulo 1 que se tivermos uma população constituída por indivíduos que
pertencem a uma de duas categorias, que representamos por A e Ac em que p é a
proporção (desconhecida) de indivíduos que pertencem à categoria A, um estimador
desta proporção é pˆ . Vimos que pˆ é um estimador centrado ou não enviesado e tem
uma variabilidade que tende para 0, à medida que a dimensão da amostra recolhida
aumenta. Podemos dizer que temos um bom estimador, pelo menos relativamente ao
critério considerado anteriormente!
Então, quando pretendemos fazer inferência sobre p, recolhemos uma amostra de
dimensão n e calculamos pˆ . O valor obtido é uma estimativa pontual de p. Se
recolhermos várias amostras da mesma dimensão e calcularmos outras tantas
estimativas para p, não temos possibilidade de saber qual o erro associado com cada
uma dessas estimativas. O verdadeiro valor da percentagem p é desconhecido, pelo
que não sabemos se as estimativas que obtivemos são boas ou más, portanto não
sabemos qual a confiança com que devem ser encaradas, e não temos assim
possibilidade de saber qual a que devemos utilizar. Por exemplo, se dois jornais
distintos apresentarem, no mesmo dia, as percentagens de 45% e 52% de pessoas que
votarão “Sim” à Constituição Europeia, não sabemos qual a que nos merece mais
confiança. Perante esta incapacidade de medir o erro cometido ao tomar uma
estimativa pontual, abordamos o problema de outra forma e vamos procurar uma
estimativa intervalar, isto é, um intervalo da forma [a,b], que contenha o verdadeiro
valor da percentagem (desconhecida), com uma determinada confiança, que definimos
à priori, isto é,
Prob( [a,b] conter p ) = 1-α

De um modo geral a confiança exprime-se na forma 100(1-α)%, com α pequeno.

Como determinar os limites a e b do intervalo de confiança?
Já que, como vimos na secção anterior, a distribuição de amostragem de pˆ pode ser

aproximada pela distribuição Normal, quando a dimensão n da amostra utilizada for
suficientemente grande, então é possível, dada uma probabilidade P, por exemplo .95,
obter o valor de z tal que se tenha
| p̂ − p |
P( ≤ z ) = .95.
p(1 − p)
n
| p̂ − p | | p̂ − p |
Se P( ≤ z ) = .95 então z=1.96, ou seja P( ≤ 1.96 ) = .95.
p(1 − p) p(1 − p)
n n
Trabalhando a expressão anterior obtemos

p(1− p) p(1− p)
P( p̂ -1.96 ≤ p ≤ pˆ +1.96 ) = .95
n n
Se n é suficientemente grande pˆ está suficientemente próximo de p, pelo que na

p(1 − p)
expressão anterior vamos substituir p por pˆ em , obtendo-se
n
p̂(1 − p̂) p̂(1 − p̂)

P( pˆ -1.96 ≤ p ≤ pˆ +1.96 ) ≈ .95
n n
p̂(1 − p̂) p̂(1 − p̂)

Dizemos que o intervalo [ pˆ -1.96 , pˆ +1.96 ] é um intervalo aproximado
n n
de confiança para p, com uma confiança de 95%.
De um modo geral se considerarmos uma confiança de 100(1-α)% (representamos por

α uma probabilidade pequena, que associamos à desconfiança ou ao erro cometido na
obtenção do intervalo de confiança), o intervalo de confiança para p assume o
aspecto
p̂(1 − p̂) p̂(1 − p̂)

[ pˆ -z1-α/2 , pˆ +z1-α/2 ]
n n
onde representamos por z1-α/2 o quantil de probabilidade (1-α/2) da N(0,1) e pˆ é a
proporção de elementos da amostra pertencentes à categoria em estudo.

EXEMPLO 2.1 (Adaptado de De Veaux and al, 2004) Os corais estão em declínio, em todo o
mundo, possívelmente devido à poluição ou mudança da temperatura da água do mar. A morte dos
recifes de corais pode ser um aviso das mudanças climáticas e poderá ter um impacto económico ainda
não calculado. Uma espécie muito bonita de coral, conhecida como Leque do Mar, é particularmente
afectada pela poluição e pela doença aspergillosis. Em Junho de 2000, uma equipa de investigadores
recolheu uma amostra de corais desta espécie, a uma profundidade de 40 pés, em Las Redes Reef,
Akumal, México. Verificaram que 54 dos 104 corais que recolheram, estavam infectados com aquela
doença. O que é que se pode dizer sobre a prevalência desta doença, sobre aquele tipo de corais? Para
já, temos uma proporção de corais doentes de 51.9%, mas ninguém nos garante que os investigadores
obteriam a mesma proporção se recolhessem outra amostra de 104 corais.O que é que podemos dizer
efectivamente sobre a proporção p de corais infectados? Apresentamos a seguir uma lista de coisas que
poderíamos dizer, ou que por vezes se dizem, e a razão pela qual não são correctas a maior parte delas:
1. “51.9% de todos os corais da espécie Leque do Mar, em Las Redes Ref, estão infectados” – Não
temos informação suficiente para fazer esta afirmação. Só poderíamos fazer esta afirmação se
tivéssemos investigado o que se passava com todos os corais. Assim, se recolhessemos outra
amostra, obteríamos outra percentagem.
2. “Provavelmente é verdade que 51.9% de todos os corais da espécie Leque do Mar, em Las Redes
Ref, estejam infectados” – Não podemos fazer esta afirmação. Podemos ter quase a certeza de que,
qualquer que seja a verdadeira proporção de corais infertados, ela não será exactamente igual a
51.900%.
3. “Não sabemos exactamente qual a proporção de corais infectados, da espécie Leque do Mar, em
Las Redes Ref, mas sabemos que essa proporção está no intervalo 51.9% ±1.96
0.519 × (1 − 0.519)
, ou seja 51.9%±9.6%, ou seja ainda entre 42.3% e 61.5%”. Ainda não podemos
104
fazer esta afirmação, pois não podemos ter a certeza que a verdadeira proporção esteja neste
intervalo, ou noutro qualquer.

4. “Não sabemos exactamente qual a proporção de corais infectados da espécie Leque do Mar, em Las
Redes Ref, mas o intervalo de 42.3% a 61.5% provavelmente contém a verdadeira proporção”.
Agora sim, podemos fazer esta afirmação. Começámos por dar o intervalo e em seguida admitir que
pensamos que esse intervalo provavelmente contém o verdadeiro valor da proporção.
Esta última afirmação está correcta, mas podemos quantificar o que é que entendemos por
provavelmente. Podemos dizer que 95% das vezes que construirmos intervalos do tipo considerado
anteriormente, conseguimos cobrir o valor de p, pelo que podemos estar 95% confiantes de que
aquele intervalo seja um dos que contém p.
5. Temos uma confiança de 95% de que o intervalo entre 42.3% e 61.5% contenha a percentagem de
corais infectados, da espécie Leque do Mar, em Las Redes Reef. A este intervalo chamamos um
intervalo de confiança.
Confiança e precisão
Qual a dimensão da amostra necessária para obter um intervalo de 100(1-α)% de

confiança, cuja amplitude não exceda d?
Repare-se que a amplitude do intervalo nos dá a precisão – quanto menor for a

amplitude, maior será a precisão. Efectivamente não estamos interessados em obter
um intervalo com uma grande amplitude, pois numa situação extrema dizemos que o
intervalo [0, 1] contém a probabilidade p, que pretendemos estimar, com uma confiança
de 100%!
Da forma do intervalo de confiança para p, verificamos que existem duas maneiras de
ˆp(1− ˆp)
diminuir a sua amplitude, que é igual a 2 z1-α/2 . Assim:
n
i) Ou diminuímos a confiança (1-α), o que implica obter um valor mais pequeno

para o quantil z1-α/2, ou
ii) aumentamos a dimensão da amostra.

A solução apresentada em i) não é aconselhável - num caso extremo obteríamos um
intervalo de amplitude nula (estimativa pontual!), mas com uma confiança de 0%!
Então vejamos como proceder adoptando a solução preconizada em ii). Pretendemos
que

ˆp(1− ˆp)
2 z1-α/2 ≤d
n
de onde
2z1− α/2 2
n≥( ) pˆ (1− pˆ )
d
Se não tivermos uma estimativa de p, então devemos considerar o valor máximo do 2º
1
membro da desigualdade anterior, que se obtém quando ˆp= , donde um limite
2
superior para n será
z 1−α / 2 2
n≈( )
d
Chamamos a atenção para que este valor de n, de um modo geral, peca por excesso,
já que foi obtido para a pior situação do valor do parâmetro a estimar estar próximo de
0.5. Assim, é aconselhável proceder a um estudo prévio, ou recolher informação
eventualmente existente, para ter uma ideia do valor do parâmetro, se os custos com a
recolha da amostra forem elevados.
Chama-se margem de erro, a metade da amplitude do intervalo de confiança.

Representando a margem de erro por ME, temos na expressão anterior que dá o valor
adequado para a dimensão da amostra:
)2
z 1− α / 2
n≈(
2ME
Repare que, fixando a dimensão da amostra, quanto maior for a confiança, maior será a
margem de erro. Podemos aumentar a confiança até 100%. Mas, na verdade, qual a
utilidade de um intervalo, com essa confiança?
EXEMPLO 2.2 Numa cidade com 25000 habitantes considerou-se uma amostra de 1600 pessoas
para estimar a percentagem de eleitores que votavam num certo candidato. Dos 1600 inquiridos, 917
declararam ter a intenção de votar no dito candidato. Determine um intervalo de 95% de confiança para a
proporção de eleitores da cidade que pensam votar no candidato.
Resolução: Uma estimativa de p é ˆp =917/1600=.57. O intervalo de confiança pretendido será
.57 × .43 .57 × .43

[.57 - 1.96 , .57 + 1.96 ], ou seja [.55, .59], pelo que o intervalo tem amplitude .04.
1600 1600

Qual a dimensão da amostra necessária para reduzir a metade a amplitude anterior? Como
1.962
consideramos o mesmo nível de significância, vem n ≈ ≈ 9604. Repare-se que neste caso já não
.022
estão satisfeitas as condições para podermos aplicar o modelo Binomial, pois a dimensão da amostra é
muito grande, quando comparada com a dimensão da população.
Interpretação do intervalo de confiança
Ao interpretar o intervalo de confiança deve-se ter em atenção que o que é aleatório é o

intervalo e não a percentagem p desconhecida - a variabilidade existe no processo de
amostragem e não no parâmetro. Quando se recolhem várias amostras, o valor de pˆ é
diferente de amostra para amostra, pelo que os limites do intervalo variam.
Ao calcular um intervalo com 95% de confiança (a partir de uma amostra entretanto

recolhida), não significa que a probabilidade do intervalo conter o parâmetro é .95, já
que o intervalo contém ou não contém o parâmetro. Como deve ser interpretado o
intervalo de confiança é da seguinte forma: ao recolher 100 amostras da mesma
dimensão e ao calcular os intervalos correspondentes, aproximadamente 95 destes
intervalos contêm o parâmetro p, enquanto que 5 não o contêm,

p̂i (1 − p̂i )
com ai= . Na figura anterior representámos 3 intervalos, dos quais 2 contêm p,
n
enquanto um terceiro não contém o valor de p. Chamamos a atenção para que quando
calculamos um intervalo de confiança para a proporção, nunca sabemos se ele contém
ou não o verdadeiro valor da proporção. Estamos confiantes que sim, já que em 95%
das vezes que calculamos esses intervalos, eles contêm o valor de p. Já seria muito
azar, o nosso intervalo ser um dos 5% de intervalos que não contêm o valor de p!
2.3 ► Estimação do valor médio. Intervalo de confiança para o valor

médio
Dada uma população X, com valor médio µ, desconhecido, e desvio padrão ,

suponhamos que se pretende estimar o parâmetro µ. Já vimos que um bom estimador
para o valor médio é a média, pelo que a maneira de proceder é a seguinte: recolhe-se
uma amostra de dimensão n da população a estudar, x1, x2,…, xn, e calcula-se a média
x =∑xi/n. Este valor é considerado como estimativa pontual de µ.
No entanto, se tivesse sido outra a amostra recolhida, nomeadamente x'1,x'2,…,x'n, seria

natural que a estimativa obtida para µ através desta amostra, diferisse da inicialmente
obtida. Qual a confiança que devemos atribuir a uma ou a outra? Surge assim,
intuitivamente, a necessidade de um outro processo, que não só nos forneça o método
de estimar, mas permita simultaneamente saber qual a confiança que devemos atribuir
ao resultado obtido, tal como no caso da proporção.
2.3.1 ► Intervalo de confiança para o valor médio - σ conhecido
Consideremos a população X com distribuição Normal de parâmetros μ e σ, em que o

parâmetro σ é conhecido. Então, como vimos no capítulo 1, para a distribuição da
média, tem-se,
X ∩ N(µ,σ/ n )
pelo que é possível obter o valor de z tal que

|X −μ |
P[ ≤ z] = .95 ⇒ z=1.96
σ/ n
A probabilidade anterior pode-se escrever
P[ X - 1.96 σ/ n ≤ µ ≤ X + 1.96 σ/ n ] = .95
ou seja, [ X -1.96 σ/ n , X + 1.96 σ/ n ] é um intervalo aleatório, que contém o valor

médio µ, com uma probabilidade ou confiança igual a .95, ou por outras palavras, se
recolhermos um grande número de amostras (de igual dimensão), esperamos que
cerca de 95% dos intervalos [ x -1.96σ/ n , x + 1.96σ/ n ] obtidos, contenham µ,
enquanto 5% dos intervalos não o conterão.
Para considerar um exemplo concreto, admitamos por exemplo, que o peso dos
indivíduos do sexo masculino, de 1.65 m de altura, tem distribuição normal com valor
médio 60 e desvio padrão 4. Nas cidades de Lisboa, Porto, Coimbra, Braga e Évora
recolheram-se amostras de pesos de 10 indivíduos escolhidos ao acaso (com 1.65 m
de altura), tendo-se obtido os seguintes resultados:
Média
L 55.9 56.3 56.8 57.2 61.2 61.9 62.5 63.8 64.4 68.2 60.82
P 55.7 55.8 57.0 57.4 59.0 59.5 59.9 60.4 64.2 67.7 59.66
C 53.0 54.6 54.7 54.8 57.6 58.6 62.4 63.5 65.5 66.6 59.13
B 57.3 58.1 58.6 58.7 59.0 61.9 62.6 64.4 64.9 66.7 61.22
E 49.5 50.4 52.8 54.3 55.3 57.0 61.2 62.6 63.2 64.1 57.04
Qualquer uma das médias obtidas pode ser considerada como estimativa pontual do
valor médio 60. Pensemos ainda na mediana amostral, como estimador de µ (nas
distribuições simétricas o valor médio coincide com a mediana). As estimativas obtidas
para as diferentes amostras seriam:
L 61.55
P 59.25
C 58.10
B 60.45
E 56.15

Dispondo os valores obtidos para as médias e as medianas, num segmento de recta,

verificamos que a mediana apresenta maior variabilidade do que a média, em relação
ao valor médio (embora uma amostra de dimensão 5 não seja significativa!).
Vejamos agora o que se passa com a estimação intervalar. Considerando o intervalo

4 4
aleatório [ X - 1.96 × , X + 1.96 × ], com confiança de 95%, para as amostras
10 10
consideradas anteriormente, chegámos aos seguintes resultados:
Cidade x [ x - 2.48 , x + 2.48]

L 60.82 [58.34 , 63.30]
P 59.66 [57.18 , 62.14]
C 59.13 [56.65 , 61.61]
B 61.22 [58.74 , 63.70]
E 57.04 [54.56 , 59.52] ***
Dos intervalos obtidos, concluímos que 4 contêm o valor médio enquanto que um não o
contém (assinalado com ***).
Uma questão que se levanta neste momento é a seguinte: o que acontece se exigirmos
um intervalo de confiança com uma probabilidade de 99% em vez de 95%? Facilmente
se conclui, que quanto maior for o nível de confiança exigido, maior será a amplitude do
intervalo obtido. Para um nível de confiança de 99% o intervalo de confiança será [ X -
2.58σ/ n , X + 2.58σ/ n ] e na realidade a amplitude pode ser tão grande que deixe de
ter significado o cálculo do intervalo. No limite temos um intervalo de amplitude infinita,
mais precisamente R, com uma confiança de 100%!
De um modo geral, dada uma população N(µ,σ), um intervalo de confiança para o

valor médio, com um nível de confiança de 100(1-α)%, obtém-se considerando
X−μ
P[ -z1-α/2 ≤ ≤ z1-α/2 ] = 1-
σ/ n
onde representamos por z1-α/2 o quantil de probabilidade 1-α/2, da normal (0,1).

A partir da probabilidade anterior conclui-se imediatamente, que o intervalo de

confiança para o valor médio tem a forma
[ X - z 1-α/2 σ/ n , X + z 1-α/2 σ/ n ]
para uma confiança de 100(1-α)%, e qualquer que seja a dimensão da amostra
considerada.
Admitamos agora, que a distribuição da população de que se pretende estimar o valor

médio já não é normal. Neste caso, as conclusões anteriormente obtidas continuam a
ser válidas, mas exige-se que a dimensão da amostra seja suficientemente grande
(n>30), para ser possível aplicar o teorema do limite central - os resultados agora não
serão exactos, mas sim aproximados. Resumindo
Dada uma população N(µ,σ) e uma amostra de dimensão qualquer, ou uma amostra de
dimensão suficientemente grande (n>30), no caso de a população já não ser normal,
conhecido, um intervalo de confiança para o valor médio, com um nível de
confiança de 100(1-α%, tem a forma
[ X - z 1-α/2 σ/ n , X + z 1-α/2 σ/ n ]
onde representamos por z1-α/2 o quantil de probabilidade 1-α/2, da N(0,1).
Suponhamos ainda que a população X tem distribuição normal de valor médio µ

desconhecido e desvio padrão σ conhecido, ou que a dimensão da amostra é
suficientemente grande. Pretende-se determinar para o valor médio, um intervalo de
confiança com um nível de confiança de 100(1-α)% e cuja amplitude não exceda d.
Qual a dimensão exigida para a amostra? Tendo em conta a forma para o intervalo de
confiança, concluímos ainda, que um processo para diminuir a amplitude do intervalo
de confiança, será aumentar a dimensão da amostra e essa dimensão terá de ser tal
que:
2 z1-α/2 σ/ n ≤ d ou n ≥ ( 2 z1-α/2 σ/d)2
Repare-se que da expressão anterior podemos concluir, para já, que a dimensão da
amostra que deve ser recolhida, depende da variabilidade existente na população.

2.3.2 ► Intervalo de confiança para o valor médio - σ desconhecido.
Em todas as conclusões obtidas até aqui, no que respeita à estimação do valor médio,
admitimos que o parâmetro σ era conhecido. No entanto na situação mais vulgar, tanto
µ como σ são desconhecidos. Para resolver o problema, vamos distinguir dois casos:
a) Se a dimensão da amostra for suficientemente grande (n>30), utiliza-se a estatística

S como estimador de σ e o intervalo de confiança, para um nível de confiança de 100
(1-α)% tem a forma
[ X - z1-α/2 S/ n , X + z1-α/2 S/ n ]
onde representamos por z1-α/2 o quantil de probabilidade 1-α/2, da normal (0,1), pois
para n grande, n (X−μ) /S continua a ter distribuição aproximadamente normal.
b) Se a dimensão da amostra for pequena, mas a população tem distribuição normal,

então n (X−μ) /S já não tem distribuição normal, mas sim a chamada distribuição t de
Student com (n-1) graus de liberdade, como já vimos no capítulo 9, no estudo da
distribuição de amostragem da média. Nestas condições o intervalo de confiança para a
média, para um nível de confiança de 100(1-α)% é
[ X - t1-α/2(n-1) S/ n , X + t1-α/2(n-1) S/ n ]
onde representamos por t1-α/2(n-1) o quantil de probabilidade 1-α/2, da distribuição t
de Student, com n-1 graus de liberdade. Esta distribuição, assim como a normal,
encontra-se tabelada.
Convém ainda observar que a distribuição t-Student se aproxima da distribuição normal

reduzida, à medida que o número de graus de liberdade aumenta. Assim, tem toda a
propriedade utilizar a aproximação feita em a), para grandes amostras.
Observação – Para usar o modelo de Student, é necessário que a população seja

Normal. Na prática, é suficiente que os dados sejam provenientes de uma população
unimodal e simétrica, se a dimensão da amostra for superior a 15 (De Veaux and al,
2004).

Qual a dimensão da amostra necessária para que o intervalo de confiança tenha

alguma utilidade?
Já anteriormente definimos margem de erro (ME), como sendo metade da amplitude do

intervalo de confiança e dissemos que quanto menor for a margem de erro, maior será
a precisão, mas menor será a confiança, para uma mesma dimensão da amostra.
Qualquer intervalo de confiança é uma solução de compromisso entre confiança e
precisão. Então o que se faz é fixar a confiança em determinados valores, tais como
90%, 95% ou 99% e recolher uma amostra de dimensão tal que mantenha a margem
de erro dentro de certo limite. Considerando então determinados valores para a
margem de erro e para a confiança, vejamos qual a dimensão da amostra necessária:
ME = t1-α/2(n-1) s/ n
de onde
n= (t1-α/2(n-1) s/ME)2
Na expressão anterior podemos fixar um determinado valor para a margem de erro ME,
mas estamos perante algumas situações problemáticas. Não conhecemos s, antes de
termos recolhido a amostra e precisamente queríamos conhecer n para recolher a
amostra! Normalmente o que se faz nestes casos é fazer um estudo piloto que nos dá
uma ideia do valor de s. Aliás esta situação è idêntica à que já nos deparámos quando
do estudo do intervalo de confiança para a proporção ou probabilidade p, em que era
necessário conhecer umaa estimativa de p. E no que diz respeito ao valor de t1-α/2(n-
1)? Novamente precisamos de conhecer n para calcular o valor do quantil de

probabilidade (1-α/2) de uma t-Student com (n-1) graus de liberdade! Neste caso o que
se pode fazer é substituir o quantil da t-Student pelo quantil z1-α/2 da N(0,1) e ver qual
o valor que vem para n. Se este valor for suficientemente grande, podemos utilizá-lo
como dimensão da amostra a recolher, já que os quantis da t-Student e da Normal(0,1)
são idênticos. Caso contrário, utilizamo-lo para obter o quantil da t-Student e
posteriormente recalcular o valor (de n) a partir da fórmula respectiva.

EXEMPLO 2.3 Uma máquina está afinada para produzir peças de um certo comprimento. Todavia,
observa-se uma certa variação de comprimento de uma peça para outra, podendo tal comprimento ser
considerado uma variável aleatória normal.
a) Suponha que foi extraída uma amostra de 16 peças, tendo sido medido o comprimento de cada uma.
Os resultados obtidos foram os seguintes:
∑ x = 80 cm ∑ x 2 2
i i = 535 cm
Determine um intervalo de 95% de confiança para o valor médio do comprimento das peças.
b) Admita que o verdadeiro valor da variância é igual à estimativa obtida naquela amostra. Determine
novo intervalo de confiança, com esta informação adicional. Que conclusões tira?
c) Repita a alínea b) admitindo que a amostra recolhida tinha dimensão 25.
Resolução:
80 2 535 16× 25
n=16 x= =5 s= - =9
16 15 15
t.975(15) = 2.131
3 3
a) Intervalo de confiança [5 - 2.131 × , 5 + 2.131 × ] = [3.40, 6.60]
4 4
3 3
b) Intervalo de confiança [5 - 1.96 × , 5 + 1.96 × ] = [3.53,6.47]
4 4
O intervalo de confiança agora calculado tem uma amplitude inferior à do calculado na alínea a), o que
seria de esperar pois dispomos de mais informação.
3 3
c) Intervalo de confiança [5 - 1.96 × , 5 + 1.96 × ] = [ 3.82, 6.18]
5 5
A amplitude do intervalo é inferior à do intervalo calculado na alínea b) pois considerámos ainda mais
informação ao dispormos de uma amostra de maior dimensão.
EXEMPLO 2.4 Numa rua que passa à frente de uma escola, chamada Rua Nova, existe uma
passadeira para os peões e um sinal a limitar a velocidade a 50 km por hora. No entanto, a maior parte
das vezes, os carros nem sequer abrandam! A polícia, frequentemente, coloca um radar para controlar a
velocidade e motivar ao cumprimento daquela regra de trânsito. Os pais das crianças é que não
acreditam que esta medida seja suficiente e pretendem que seja colocado um semáforo, que passa a
encarnado com velocidade superior aos 50 Km/h. Para poderem ter argumentos perante as instâncias
camarárias, resolvem fazer um controlo de velocidades e num certo dia útil, pensam recolher as
velocidades médias de alguns dos carros que passarem. Quantos carros devem observar, para obterem
um intervalo de confiança de 95%, cuja margem de erro não ultrapasse 2 Km?

Resolução: Para determinar a dimensão da amostra a recolher, é necessário ter uma ideia de como é
que se distribuem as velocidades, nomeadamente se a distribuição dos dados é unimodal e simétrica.
Além disso é necessário ter um valor aproximado para a variabilidade. Suponhamos então que se
recolheu uma amostra piloto, para recolher a informação necessária:
50 48 57 57 43 50 48 63 52 42 57 53
52 45 62 48 43 40 57 60 52 57 60 35
O histograma que fizémos dos dados mostra que a distribuição é unimodal e aproximadamente simétrica.
Não temos razões que nos levem a duvidar da independência dos dados (estamos a admitir que a
recolha dos dados não se fez em hora de ponta...).
Para a variância amostral obtivémos o valor de s=7.33. Consideranto o quantil de probabilidade 0.975 da
normal, que é igual a 1.96, temos
1.96 × 7.33 2
n= ( ) = 51.5
2
donde necessitamos de uma amostra de dimensão 52. Refazendo os cálculos para a determinação da
dimensão da amostra, considerando agora o quantil da t-Student com 51 graus de liberdade, que é igual
a 2.008, obtivémos para n o valor de 54.
Facilmente se verifica que a margem de erro do intervalo de 95% de confiança, construído com os dados
recolhidos para a amostra piloto, é de 3 Km.
Exercícios
1. Uma fábrica produz peças, havendo uma certa percentagem de defeituosas. O departamento de
controlo de qualidade recolheu uma amostra de 30 peças, encontrando 4 defeituosas. Determine um
intervalo de 95% de confiança para a percentagem de peças defeituosas produzidas pela dita máquina.
Qual a dimensão da amostra necessária para obter um intervalo com 95% de confiança, cuja amplitude
não exceda .1?
2. Perguntou-se a cada um dos 80 estudantes de um determinado curso, qual o seu grau de satisfação
relativamente ao curso que frequenta. Obtiveram-se os seguintes resultados:
NS MB B S NS NS SP SP
NS B NS NS SP B B MB
SP NS NS MB SP B NS B

SP S SP SP NS NS SP S
MB S B MB NS S S S
SP S B NS S S SP B
B B MB NS B S NS NS
B S MB S MB NS MB SP
S S NS B MB NS MB NS
B MB SP MB S SP SP MB
NS-"Não Satisfaz"; SP-"Satisfaz Pouco; S-"Satisfaz"; B- "Bom"; MB- "Muito Bom".
a) Faça uma representação gráfica adequada para os dados e indique uma característica amostral.
b) Admitindo que as opiniões destes estudantes são representativas das opiniões dos estudantes dos
outros cursos, construa um intervalo de 95% de confiança para a probabilidade de um estudante,
escolhido ao acaso, ter uma opinião positiva (Satisfaz, Bom ou Muito Bom) sobre o curso em que está
inscrito.
3 . Um inquérito realizado a 100 potenciais compradores de um carro novo para o próximo ano, revelou
que estão dispostos a pagar em média 14750 euros, com um desvio padrão de 4250 euros.
a) Calcule um intervalo de 95% de confiança para a quantia média que os compradores estão dispostos a
pagar.
b) Foi posto à venda um novo tipo de carro, ao preço de 22500 euros. Será que este valor excede
significativamente o que os compradores pretendem gastar em média?
4. Ao Instituto para a defesa do consumidor têm sido apresentadas queixas, dizendo que as embalagens
de determinado produto congelado têm menos peso do que o indicado nas embalagens. Uma recolha
preliminar de 40 destas embalagens indicou um peso médio de 975 gramas, com um desvio padrão de
85 gramas. Quantas embalagens devem ser examinadas, de forma a obter uma estimativa do peso
médio com erro inferior a 25 gramas, com uma confiança de 95%?
5. Os seguintes dados representam o tempo de reacção (em segundos), de 42 indivíduos, a um estímulo
luminoso :
13.8 19.1 20.4 21.8 22.3 24.0 24.6 25.2 26.1 26.5 26.6 28.7
28.8 30.2 31.2 31.7 31.7 33.6 34.6 34.8 35.4 36.0 36.3 36.8
37.1 38.1 40.3 40.4 41.8 42.2 42.4 43.7 43.8 44.0 44.4 44.6
46.5 48.1 49.9 50.0 50.2 56.4
a) Determine as seguintes características amostrais : média, variância, mediana, Q eQ .

3/5 5/14
b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente
aos dados.
c) Construa um intervalo de 99% de confiança para o tempo médio de reacção.
6. Os seguintes dados representam o tempo de CPU (em segundos), gastos por um programa que utiliza
um determinado software de estatística :
6.2 5.8 4.6 4.9 7.1 5.2 4.4
8.1 3.2 3.4 4.4 8.0 7.9 3.1
6.1 5.6 5.5 3.1 6.8 4.6 7.8

3.8 2.6 4.5 4.6 7.7 3.8 2.9

4.1 6.1 4.1 4.4 5.2 1.5 5.6
a) Determine as seguintes características amostrais : média, variância, mediana , Q eQ .

2/5 3/4
b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente
aos dados.
c) Admitindo a normalidade dos dados, construa um intervalo de 95% de confiança para o valor médio dos
tempos de CPU gastos pelo programa.
7 . Recolheu-se uma amostra de 40 alunos a frequentarem o tronco comum de Matemática Aplicada no ano
lectivo de 98/99, tendo-se verificado que 10 destes alunos frequentam o curso em 1ª opção.
• Com base nos resultados determine um intervalo de 95% de confiança para a verdadeira percentagem
de estudantes do 1º ano que efectivamente escolheram o curso em 1º opção.
• Se pretendesse reduzir a metade a amplitude do intervalo obtido anteriormente, com uma amostra da
mesma dimensão, qual o maior nível de confiança com que devia trabalhar?
• Se recolhesse 200 amostras de dimensão 40, a partir das quais construísse outros tantos intervalos de
confiança, quantos destes intervalos esperaria que contivessem o verdadeiro valor da percentagem de
estudantes que frequentam o curso em 1ª opção?
8. Verifique que o intervalo de 90% de confiança para os dados do exemplo 4 é [47.9km; 54.1km]. Explique,
porque é que não é correcto dizer o seguinte (Adaptado de De Veaux and al, 2004):
a) 90% de todos os veículos que passam na Rua Nova, vão a uma velocidade entre 47.9km e 54.1km.
(Res: O intervalo de confiança diz respeito à velocidade média dos veículos e não à velocidade de cada
um dos veículos).
b) Temos uma confiança de 90% de que um veículo seleccionado aleatoriamente, vá a uma velocidade
entre 47.9km e 54.1km. (Res: Como no caso anterior, estamos a referir-nos a um único veículo, quando,
na verdade, estamos 90% confiantes que o intervalo [47.9km; 54.1km] contenha a velocidade média de
todos os veículos que passam na Rua Nova).
c) A velocidade média dos veículos, é 51km, 90% do tempo. (Res: esta afirmação dá a ideia que a
verdadeira velocidade média varia, quando o que varia é o intervalo, que será diferente, sempre que
recolhermos uma amostra diferente).
d) 90% de todas as amostras têm velocidades médias entre 47.9km e 54.1km. (Res: Esta afirmação dá a
ideia de que este intervalo goza de algum privilégio, relativamente a outros. De facto, este intervalo é tão
bom ou tão mau, como qualquer dos outos. O que deveremos dizer é que 90% de todas as possíveis
amostras permitem construir intervalos que contêm a velocidade média. Nunca saberemos se o nosso
intervalo é um dos que contêm ou não).

Introdução aos testes de hipóteses 3

Introdução aos testes de hipóteses. Hipótese nula e hipótese alternativa. Estatística de
teste. Região de rejeição e de não rejeição. Nível de significância de um teste. P-value.
Testes de hipóteses sobre a proporção e sobre o valor médio e sobre.
3.1 ► Introdução
Já vimos um processo de fazer inferência estatística - a estimação, em que utilizámos o

modelo Binomial e o modelo Normal. Vamos ainda utilizar o modelo Binomial num outro
tipo de inferência estatística a que chamamos testes de hipóteses.
O objectivo dos testes de hipóteses, é determinar se uma dada conjectura ou hipótese

que fazemos acerca de uma população, é plausível, isto é, tem razão de ser.
Precisamente esta plausibilidade é calculada com base na informação obtida a partir de
uma amostra da população.
EXEMPLO 3.1 (Teaching Statistics, vol 15, nº1, 1993) Um professor chega um dia à aula e
resolve pôr a seguinte questão: - Há aqui algum aluno que consiga distinguir, pelo sabor, a Coca-Cola da
Pepsi-Cola?
Um estudante diz que sim, que consegue distinguir, embora o professor pense que ele efectivamente não
o consegue, e se acertar, é por acaso. Depois de alguma discussão em que o aluno afirma que consegue
distinguir e o professor diz que ele está a fazer "bluf", resolvem fazer uma aposta, em que apostam uma
certa quantia.
Algumas questões que se levantam, relativamente a este problema, são:

1 - Com que probabilidade consegue o estudante distinguir entre a Coca e a Pepsi?
2 - Qual o critério que se utiliza para ver quem é o vencedor?
3 - Usando o critério, a definir em 2:
a) Qual a probabilidade do estudante perder, mesmo que tenha razão? ( o estudante pode
ter acordado mal disposto, estar nervoso, pouco concentrado, …)

b) Qual a probabilidade do estudante ganhar a aposta, se de facto adivinhou, mas

efectivamente não consegue distinguir entre a Coca e a Pepsi e responde ao acaso (foi uma
questão de sorte…)?
4 - Quão pequenas devem ser as probabilidades em 3, para que cada um dos apostadores não esteja a
correr um risco muito grande?
A perspectiva de levar a cabo a experiência na turma, em frente de toda a gente, é deveras intimidante,
pelo que não é de esperar que o voluntário consiga distinguir as duas bebidas 100% das vezes. De modo
geral o estudante estabelecerá essa probabilidade entre 0.7 e 0.8 como realística. Para o
prosseguimento da nossa experiência, vamos admitir que é de 0.7.
Temos agora de delinear a experiência e determinar o critério de sucesso para o estudante.
Depois de algumas discussões na aula, o voluntário concorda em provar 15 copos de bebida e dizer se
cada uma é Coca ou Pepsi. De acordo com a probabilidade estabelecida anteriormente, para cada prova
ele terá uma probabilidade de 70% de dar a resposta correcta.
Qual o critério justo, que se deve considerar, para admitir que o estudante tem razão? Ou antes, qual o
critério justo, que se deve considerar, para que as duas pessoas que apostaram não estejam a correr um
risco demasiado grande?
Idealmente, gostaríamos que o risco que correm os dois apostadores fosse aproximadamente igual, isto
é, as probabilidades consideradas em 3. deveriam ser aproximadamente iguais.
Com o objectivo de estabelecer um critério, o voluntário sugere que pelo menos 10 respostas certas
significa que tem razão.
Então, P(estudante ganhar a aposta, sabendo distinguir as bebidas) =
= P(nº respostas certas em 15 ser ≥ 10, sabendo que a probabilidade de sucesso é .7) =
15
∑ ( i ).7 .3
15 i 15 −i
= = .722
i=10
de onde
P(estudante perder a aposta, sabendo distinguir as bebidas) = 1 - .722 = .278
Esta probabilidade de .278 é o risco que o estudante corre.
Qual o risco que o professor corre?
O professor está interessado em calcular a probabilidade de perder o seu dinheiro, se o estudante se

limitou a adivinhar e efectivamente não consegue distinguir a Coca da Pepsi. Esta probabilidade é:
P(professor perder a aposta, se o estudante não sabe distinguir as bebidas) =

P(nº respostas certas em 15 ser ≥ 10, sabendo que a probabilidade de sucesso é .5) =
15
∑ ( i ).5 .5
15 i 15 −i
= = .151
i=10
Esta probabilidade de .151 é o risco que o professor corre.
Nestas circunstâncias estarão eles dispostos a apostar? E se se aumentar o nº de respostas correctas

como critério de ganho ou perca?
1 - Se se aumentar o nº de respostas correctas necessárias, a probabilidade do estudante perder,

embora estando convencido que consegue distinguir, aumenta.
Obs: Se o nº de respostas correctas necessárias fosse k (>10), então o risco que o estudante corria seria
P(nº de respostas certas < k) > P(nº de respostas certas < 10)(= .278)
2 - Por outro lado, aumentando o nº de respostas correctas necessárias, a probabilidade do professor

perder, se o estudante se limita a adivinhar, diminui.
Obs: Se o nº de respostas correctas necessárias fosse k>10, então o risco que o professor corria seria
P(nº de respostas certas ≥ k) < P(nº de respostas certas ≥ 10)(= .151)
Assim, modificando o critério, estamos a aumentar a probabilidade de um dos tipos de erro e a diminuir a
probabilidade do outro tipo de erro.
3 - Sob a hipótese de que a capacidade de decisão (gustativa…) do estudante continua em forma,

aumentando a dimensão da amostra, talvez se consigam diminuir estas probabilidades dos dois tipos de
erros.
Por exemplo, se o nº de provas for 20 e o critério para ganhar for de 12 respostas correctas pelo menos,
recalculando as probabilidades de cometer os dois tipos de erros, ou sejam, de correr os dois tipos de
risco são 0.113 e 0.252, respectivamente, para o estudante e o professor.
Se o professor for um "bom desportista" este critério é razoável, se a quantidade de dinheiro posta em
jogo não for grande.
Este exemplo servirá para introduzir os conceitos formais de testes de hipóteses, erros
de tipo 1 e tipo 2 e as notações associadas com os procedimentos estatísticos. No
entanto vamos antes disso, dar outros exemplos de aplicação de testes de hipóteses.

3.2 ► Outros exemplos
EXEMPLO 3.2 Numa fábrica de determinadas peças, um lote destas peças é considerado aceitável se
tem menos de 8% de peças defeituosas. Já que os lotes têm um grande número de peças, sairia muito
caro inspeccionar todas essas peças. A decisão a favor de não rejeitar o lote será tomada no caso de
uma amostra a retirar do lote, dar indicação nesse sentido.
EXEMPLO 3.3 Supõe-se que os estudantes são a favor da avaliação contínua, isto é, mais de 50%
dos estudantes preferem a avaliação contínua. Para verificar se existem indícios de que esta hipótese
não seja verdadeira, recolhe-se uma amostra de estudantes, registando-se o nº de respostas a favor.
EXEMPLO 3.4 - Um fabricante afirma na garantia que acompanha as lâmpadas que fabrica, que o
tempo médio de vida é superior a 450 horas. Ultimamente alguns clientes têm-se queixado das referidas
lâmpadas. Para testar se os clientes têm razão, recolheu-se uma amostra de algumas lâmpadas,
registando-se o tempo de vida (utilizando os chamados testes de vida acelerados, que provocam a falha
mais rapidamente).
Todos estes exemplos que acabamos de referir, têm algumas características comuns:
• Consideram-se duas hipóteses complementares acerca de uma quantidade

desconhecida da população.
• a informação disponível é dada pela amostra que se recolheu da população

em estudo.
• pretende-se verificar se uma das hipóteses a que damos mais importância, é

sustentada ou rejeitada pela informação recolhida da amostra.
No caso 3.2, por exemplo, as hipóteses a testar são de que o lote é aceitável - p≤.08,
ou não - p>.08. O que se pretende é verificar que não temos razões para rejeitar a
hipótese de que p≤.08.
No caso 3.3, temos as hipóteses p≥.5 e p<.5. O que se pretende testar é se há alguma
razão para rejeitar p≥.5.

3.3 ► Hipótese nula e Hipótese alternativa; erros de tipo 1 e tipo 2;

estatística de teste; região de rejeição
Num teste estatístico temos duas hipóteses em alternativa, a que chamamos hipótese
nula (H0) e hipótese alternativa (H1), sobre um parâmetro desconhecido da
população. A hipótese nula é a hipótese que reflecte a situação em que não há
mudança, sendo pois uma hipótese conservadora e é aquela em que temos mais
confiança (resultado de uma experiência passada).
O objectivo de um teste de hipóteses é o de tomar uma decisão, no sentido de

verificar se existem razões para rejeitar ou não a hipótese nula. Esta decisão é baseada
na informação disponível, obtida a partir de uma amostra, que se recolhe da população.
No caso em estudo vamos considerar as hipóteses
H0: O estudante consegue distinguir contra(versus) H1: O estudante não

Coca da Pepsi consegue distinguir
Estas hipóteses podem-se exprimir em termos da probabilidade de o estudante dar uma
resposta correcta
H0: p= .7 contra H1: p=.5
A amostra recolhida tem dimensão 15 e vamos utilizar como informação relevante, o nº

de respostas correctas, nas 15 provas. Seja X a variável aleatória que representa esse
número. É esta v.a. que vai permitir tomar uma decisão, recebendo o nome de
estatística de teste.
Ao tomar uma decisão podemos cometer dois tipos de erros:
• Decidir que o estudante não consegue distinguir, quando efectivamente ele

consegue, isto é, Rejeitar H0, quando H0 é verdadeiro;
• Decidir que o estudante consegue distinguir, quando efectivamente ele não
consegue e responde ao acaso, isto é, Não rejeitar H0, quando H1 é verdadeiro .
Ao primeiro erro chamamos erro de tipo 1 e ao segundo, erro de tipo 2. Estes erros são
contabilizados em termos de probabilidade.

O nível de significância do teste representa-se por α e é o valor máximo para a

probabilidade de cometer o erro de tipo 1:
P(Rejeitar H0 | H0 é verdadeiro) ≤ α
A probabilidade de cometer o erro de tipo 2 representa-se por β
P(Não rejeitar H0 | H1 é verdadeiro) = β
O risco que o estudante corre é α, enquanto que o risco que o professor corre é β.
O seguinte quadro reflecte a situação verificada quando se realiza um teste de

hipóteses:
Na escolha do teste, o nosso objectivo é controlar o erro de tipo 1, ou seja α.
No caso do exemplo o nosso critério de decisão baseou-se na seguinte regra de

decisão:
Rejeitar H0 se X<10
Considerando a regra anterior vimos que α = .2784.
Poderíamos considerar o problema de outra forma, isto é, partir de um determinado

nível de significância, e determinar os valores de X que levavam à rejeição de H0.
Suponhamos que pretendíamos realizar o teste para o nível de significância de 10%.

Os valores possíveis para X – v.a. que representa o nº de respostas correctas, são

todos os inteiros entre 0 e 15. Destes, pretendemos saber quais os que levam a rejeitar
H0, de modo que o que pretendemos é saber qual o valor de c, tal que
P(X ≤ c | X ∩ B(15, .7)) ≤ 0.10
Obs: Atendendo às hipóteses consideradas somos levados a rejeitar a hipótese nula

quando o nº de respostas correctas do estudante for pequeno (X ≤ c).
Consultando uma tabela da Binomial com parâmetros 15 e 0.7, verificamos que
P(X ≤ 8) = .1311
P(X ≤ 7) = .0500
Então rejeitamos H0 quando o nº de respostas correctas for ≤ 7. Mas para esta região
de rejeição a probabilidade de cometer o erro de tipo 2 é
P(X≥ 8 | X ∩ B(15, .5)) = .5, o qual é muito grande!
3.4 ► Testes de hipóteses para a proporção p
O exemplo apresentado anteriormente é um caso particular de testes de hipóteses para

a proporção p, que vamos formalizar seguidamente.
Suponhamos que temos uma população constituída por indivíduos que pertencem a
uma de duas categorias, que representamos por A e AC. Representemos por p a
proporção (desconhecida) de indivíduos que pertencem à categoria A. Pretendemos
fazer inferência sobre o parâmetro p, pelo que se recolhe da população uma amostra
de dimensão n. A estatística de teste que vamos utilizar, para tomar uma decisão, é X -
v.a. que representa o nº de indivíduos da amostra que pertencem à categoria A. Na
formalização dos testes representamos por p0 o valor da proporção, que se pretende
testar.
Os testes que vamos realizar são os seguintes:

1.
H0: p = p0 contra H1: p > p0
Rejeitamos H0 quando for elevado o nº de indivíduos da amostra pertencentes à

categoria A, ou seja quando X≥xα. (Se H1 verdadeiro, ou seja, p > p0, caso em que
devemos rejeitar H0, então esperamos encontrar na amostra "muitos" indivíduos
pertencentes à categoria A. Entendemos por "muitos", um número de indivíduos à volta
de np, que é superior aos que esperaríamos encontrar caso fosse H0 verdadeiro, ou
seja np0).
A determinação do ponto crítico xα deve fazer-se tendo em atenção o nível de
significância α, ou seja, vamos calcular o menor inteiro xα tal que

P[ X ≥ xα| X ∩ B(n, p0)] ≤ α
isto é, a região de rejeição R é constituída pelos pontos:

n n n n
R = { x ≥ xα| [ ∑ ( i )p (1 − p )
i = xα
i
0 0
n− i
]≤ α e [ ∑ ( )p i0 (1 − p 0 )n − i ]>α}
i = x α −1 i
Obs: A hipótese nula pode-se exprimir na forma p≤p0, já que se obtém um teste
equivalente.
2.
H0: p = p0 contra H1: p < p0
Rejeitamos H0 quando for pequeno o nº de indivíduos da amostra pertencentes à

categoria A, ou seja quando X≤x'α.
0 x'α n
A determinação do ponto crítico x'α deve fazer-se tendo em atenção o nível de
significância α, ou seja, vamos calcular o maior inteiro x'α tal que

P[ X ≤ x'α| X ∩ B(n, p0)] ≤ α

x' α x' α +1
n n
R = { x ≤ x'α| [ ∑ ( )p i0 (1 − p 0 )n − i ]≤ α e [ ∑ ( i )p i
0 (1 − p 0 )n −i ]>α}
i=0 i i =0
Obs: A hipótese nula pode-se exprimir na forma p≥p0, já que se obtém um teste
equivalente.
3.
H0: p = p0 contra H1: p ≠ p0
Rejeitamos H0 quando for pequeno ou elevado o nº de indivíduos da amostra

pertencentes à categoria A, ou seja quando X≤x'α ou X≥xα.
R R
0 x'α xα n
A determinação dos pontos críticos x'α e xα deve fazer-se tendo em atenção o nível de
significância α. Além disso vamos considerar o chamado teste equilibrado, isto é,
atribuir a cada uma das partes da região de rejeição, uma probabilidade igual a metade
do nível de significância:
P[ X ≤ x'α| X ∩ B(n, p0)] ≤ α/2
e
P[ X ≥ xα| X ∩ B(n, p0)] ≤ α/2

x' α n n
n
R = { x ≤ x'α ou x ≥ xα | [ ∑ ( )p i0 (1 − p 0 )n − i ]≤ α/2 e [ ∑ ( )p0 (1 − p0 ) ]≤α/2}
i n− i
i=0 i i = xα i
Dos três tipos de testes considerados anteriormente, os dois primeiros dizem-se

unilaterais, enquanto que o último se chama bilateral.
EXEMPLO 3.5 Uma fábrica produz determinado tipo de peças, e sabe-se que a percentagem de
defeituosas é de 20%. O director da linha de montagem procedeu a algumas alterações no equipamento,

com o objectivo de melhorar a produção, diminuindo nomeadamente a percentagem de peças

defeituosas. Tendo-se recolhido uma amostra de 20 peças, verificou-se que 2 eram defeituosas. Será
que há evidência de mudança na percentagem de peças defeituosas?
Resolução:
H0: p≥ .20 contra H1:p < .20
Pretende-se determinar o valor de x'α tal que
P[ X ≤ x'α| X ∩ B(20, .20)] ≤ α
Consultando uma tabela da Binomial, verificamos que

P(X≤ 0) = .0115
P(X≤ 1) = .0692
P(X≤ 2) = .2061
donde concluímos que:
Se α= 5% R={0}
Se α= 10% R={0,1}
Decisão: Para os níveis usuais de significância, não se deve rejeitar H0, isto é não há evidência de ter
havido alteração (para melhor) no processo de fabrico.
3.4.1 ► Determinação dos pontos críticos x'α e xα para grandes amostras
A determinação dos pontos críticos x'α e xα dos testes anteriores, pode fazer-se
consultando as tabelas com a distribuição Binomial. Pode no entanto acontecer que o
valor de n seja demasiado grande, e já não conste nessas tabelas. Então faz-se uma
aproximação à Normal, como se descreve a seguir.
Tendo em consideração o teorema do limite central, sabe-se que a distribuição Binomial

pode ser aproximada pela distribuição Normal, isto é, se X ∩ B(n,p), então
x − np
P(X ≤ x)≈ Φ( )
np(1 − p)
Considera-se a estatística de teste
X − np0
Z=
np0 (1 − p0 )

cuja distribuição pode ser aproximada por uma Normal(0,1) e a determinação dos
pontos críticos, para os três tipos de testes considerados anteriormente, faz-se da
seguinte forma:
1. P[ X ≥ xα| X ∩ B(n, p0)] ≤ α sendo xα o menor inteiro tal que
xα ≥ 1+np0+z1-α np 0 (1− p 0 )
2. P[ X ≤ x'α| X ∩ B(n, p0)] ≤ α sendo x'α o maior inteiro tal que
x'α ≤ np0+zα np 0 (1− p 0 ) ou x'α ≤ np0 - z1-α np 0 (1− p 0 )
3. P[ X ≤ x'α| X ∩ B(n, p0)] ≤ α/2 e P[ X ≥ xα| X ∩ B(n, p0)] ≤ α/2
x'α ≤ np0 - z1-α/2 np 0 (1− p 0 ) e xα ≥ 1 + np0 + z1-α/2 np 0 (1− p 0 )
(x'α maior inteiro e xα menor inteiro satisfazendo respectivamente cada uma das
desigualdades anteriores).
Observação – Uma alternativa, equivalente, à estatística de teste X, com distribuição

) X
aproximadamente Normal(np0, np 0 (1− p 0 ) ), sob H0, é a estatística p= , com
n
p 0 (1− p 0 )
distribuição aproximadamente N(p0, n
).
3.4.2 ► P-value (valor-p)
Ao realizar um teste de hipóteses, podemos à partida não ter especificado um nível de

significância. Então, um processo alternativo para a realização dos testes anteriores é,
face ao valor observado x0 da estatística de teste X, calcular a seguinte probabilidade:
Caso 1 : P = P[X ≥ x0 |X ∩ B(n, p0)]
Caso 2 : P = P[X ≤ x0 |X ∩ B(n, p0)]
Caso 3 : P = 2 min {P[X≥ x0 |X ∩ B(n, p0)],P[X ≤ x0 |X ∩ B(n, p0)]}
Esta probabilidade P é o menor valor para o nível de significância que levaria à rejeição
da hipótese nula, para a amostra recolhida. A P chamamos P-value. Assim, para

tomarmos uma decisão, calcula-se o P-value e para um dado nível de significância α,

rejeita-se a hipótese nula se
P≤α
A metodologia seguida neste caso é diferente da seguida anteriormente, em que para

tomarmos uma decisão era necessário especificar à partida o nível de significância com
que pretendíamos realizar o teste, de forma a calcular a região de rejeição. Se o valor
observado da estatística de teste pertencesse a essa região então rejeitaríamos a
hipótese nula. Agora calculamos o P-value e não é necessário calcular explicitamente a
região de rejeição, pois se para um determinado nível de significância se verifica que
P≤α, isto significa necessariamente que o valor observado da estatística de teste
pertence à região de rejeição.
3.5 ► Vamos conversar acerca de testes
Ao longo deste texto já temos referido várias vezes que é objectivo da Estatística
arranjar modelos probabilísticos que sirvam para modelar situações do mundo real. Ao
formular uma hipótese (hipótese nula), como as que formulámos anteriormente, não
estamos mais que a propor um modelo para uma situação real. Uma vez o modelo
proposto, vamos recolher informação - os dados, para averiguar da consistência do
modelo. Então, defrontamo-nos com duas situações:
¾ ou os dados são consistentes com o modelo, e nesse caso não vemos razão
para o rejeitar,
¾ ou os dados contradizem fortemente o modelo, e neste caso pensamos que há

evidência para o rejeitar.
Repare-se que na primeira situação, não dissemos que os dados mostravam que a
hipótese é verdadeira! Só dissémos que não víamos razão para a rejeitar. Esta situação
é análoga à que se passa nos tribunais – tem que se começar por admitir a presunção
de inocência e cabe ao juiz, mostrar que os factos contradizem esta presunção, para
admitir a culpabilidade. Na segunda situação, dissémos que pensamos que há
evidência para rejeitar o modelo. Mas fica-nos sempre a dúvida se deveremos tomar

essa opção, já que rejeitar o modelo proposto, se ele fosse efectivamente verdadeiro,
pode acarretar grandes prejuízos. Então precisamos de quantificar essa decisão e essa
quantificação é feita probabilisticamente. Assim, calculamos a probabilidade de obter
dados como os recolhidos, baseando-nos em que o modelo é verdadeiro. Se esta
probabilidade for muito pequena, pensamos que não foi só o acaso, isto é a
aleatoriedade presente na recolha da informação, que nos levou a obter aqueles dados,
mas naturalmente é o próprio modelo que não é o correcto, pois “essa probabilidade é
demasiado pequena, para ser verdade”, e rejeitamos esse modelo. Esta tal
probabilidade – p-value, dá-nos uma medida do erro que cometemos ao rejeitar o
modelo proposto, e quanto menor for, maior será a evidência contra o modelo.
Assim, quando não rejeitamos a hipótese nula, ficamos sempre na dúvida, sobre se terá
sido o teste que não teve capacidade para a rejeitar, mesmo sendo ela falsa. Justifica-
se, assim, que se procure calcular a probabilidade de se rejeitar a hipótese nula,
quando ela é falsa, isto é, P(RejeitarH0‫׀‬H1verdadeira). A esta probabilidade chama-se
potência do teste. Repare-se que para um determinado valor do parâmetro
especificado na hipótese alternativa:
Potência do teste = 1 – P(erro de tipo 2)
Então, de um modo geral, podemos dizer que pretendemos um teste com nível de
significância pequeno e potência grande.
Para visualizar melhor a relação entre estes conceitos, vamos colocar-nos na situação
de estarmos a realizar o seguinte teste:
H0: p=p0 contra H1: p>p0
Rejeitamos H0 para valores grandes de X ou de forma equivalente, para valores

) X ) ) ) x
grandes de p = , nomeadamente para valores de p ≥ p α , onde p α = α , utilizando
n n
notação já introduzida anteriormente.
Se n for grande, a distribuição da estatística de teste é aproximada pela Normal, pelo

que temos:

Na figura anterior apresentamos a distribuição da estatística de teste, para o caso de H0

ser verdadeira (Normal superior) e para um valor específico do parâmetro (p’), no caso
)
de ser H1 verdadeira (Normal inferior). A região de rejeição é dada pelo intervalo [ p α ,
1]. Algumas conclusões são evidentes da figura anterior:

)
¾ Quanto mais p α estiver para a direita, isto é, menor for o nível de significância do
teste, ou a probabilidade de cometer o erro de tipo 1, maior será a probabilidade
de cometer o erro de tipo 2. Assim, não é possível minimizar os dois erros ao
mesmo tempo, a não ser aumentando a dimensão da amostra. Efectivamente, se
se aumentar a dimensão da amostra recolhida, as normais ficam mais “magras”,
já que a variância diminui;
¾ Quanto menor for o erro de tipo 2, maior será a potência do teste;
¾ No caso de H0 ser falsa, a potência do teste será tanto maior, quanto mais
afastado de p0, estiver o verdadeiro valor da proporção p (a Normal de baixo
afasta-se para a direita).

Formalizando um pouco o que dissémos anteriormente, para realizar um teste de

hipóteses, em que as hipótese são quase sempre sobre parâmetros de modelos, é
necessário:
¾ Formular uma hipótese nula H0, que é aquela que reflecte a situação em que não
há mudança e em que assumimos um valor para o parâmetro no modelo
proposto, e uma hipótese alternativa H1, que reflecte a situação que pensamos
ser verdadeira, no caso de não o ser a hipótese nula;
¾ Arranjar uma estatística de teste, que sirva para medir a discrepância entre o que
se observa nos dados e o que se espera quando se considera a hipótese nula
(isto é, uma estatística cuja distribuição de amostragem seja conhecida no caso
da hipótese nula ser verdadeira, pois a discrepância é medida em termos de
probabilidade);
¾ Face à amostra que entretanto se recolheu, calcular o p-value;
¾ Tomar uma decisão, que se exprimirá na seguinte forma:
Rejeitar H0, para o nível de significância α ou
Não rejeitar H0 para o nível de significância α.
¾ Se tivermos possibilidade de escolher entre vários testes, então para o mesmo

nível de significância, deve-se escolher o de potência máxima;
¾ Se tivermos possibilidade de recolher amostras de dimensão maior, melhor será,

pois reduzimos as probabilidades de cometer erros, ao tomar uma decisão,
aumentando também a potência do teste.

3.6 ► Testes de hipóteses sobre o valor médio
Da mesma forma que realizámos testes de hipóteses sobre o parâmetro p, também se

podem realizar sobre o valor médio μ, desconhecido, de uma população. A metodologia
a seguir é a mesma, mas agora temos de considerar outra estatística de teste, sendo
natural considerar a média ou uma função da média para fazer inferência estatística
sobre o valor médio.
Consideremos, por exemplo, um industrial de componentes electrónicas, que afirma

que o tempo médio de vida das componentes que fabrica é de 560 horas. Um cliente
acha este tempo exagerado, pois tem tido mau resultado com este tipo de material.
Então o industrial está interessado em testar que o valor médio da distribuição do
tempo de vida das componentes é igual a 560 horas, ou seja de que tem razão. Temos
assim uma conjectura ou hipótese sobre a população e que em testes de hipóteses se
refere como Hipótese nula e se representa por H0. No entanto a hipótese anterior vai
ser testada contra uma Hipótese alternativa que se representa por H1, que reflicta a
situação que será verdadeira, no caso de não o ser a hipótese nula. Concretamente, no
exemplo anteriormente considerado temos as seguintes hipóteses a serem testadas
(representando por µ o valor médio da população):
H0 : µ=560 horas contra H1: µ<560 horas
Escolhemos a hipótese alternativa anterior, pois ela reflecte a situação real, no caso de
não se provar que H0 é verdadeira (estamos a pensar nas queixas dos clientes).
Vamos exemplificar a realização de um teste de hipóteses sobre o valor médio através

do exemplo dos pesos, referido quando abordámos o problema da estimação.
Suponhamos que estamos interessados em realizar um teste sobre o peso médio da

população, constituída pelos indivíduos de 1.65 m de altura, tendo sido levantadas
algumas dúvidas sobre se o peso seria de 60 kg. Então
H0: µ = 60 kg contra H1: µ ≠ 60 kg

Formulamos a hipótese alternativa deste modo já que à partida não tínhamos qualquer
informação que nos levasse a considerar quer um valor médio superior, quer um valor
médio inferior a 60 kg.
Pensemos na seguinte estatística de teste
X−μ
T=
σ/ n
cuja distribuição é conhecida se H0 verdadeira. É fundamental conhecer a distribuição

de T, no caso de H0 ser verdadeira, pois esse facto vai-nos permitir determinar a região
de rejeição R a partir do nível de significância α, definido à priori,
P[Tε R | H0 verdadeira]= α ou seja
P[|T0|> z1-α/2] = α
onde T0 se obtém de T substituindo µ por µ0, sendo µ0 o valor de µ considerado na

hipótese nula (no caso do exemplo µ0=60).
Então a zona de rejeição é dada pelo seguinte intervalo
R = ]-∞ , -z1-α/2[ ∪ ] z1-α/2 , +∞[
pelo que se rejeita a hipótese H0, sempre que t0 ε R, sendo t0 o valor observado da
estatística de teste. Considerando, no exemplo, a amostra correspondente à cidade de

Lisboa, temos:
t0= 10 (60.82 − 60) /4=.65
pelo que trabalhando com um nível de significância de 5%, se tem a seguinte região de
rejeição:
R = ]-∞ , -1.96[ ∪ ] 1.96 , +∞[
Como 0.65 não pertence à região de rejeição, não vemos razão para rejeitar a hipótese
nula.
Ainda no exemplo que temos vindo a considerar, suponhamos que tínhamos começado
por recolher a amostra referente à cidade de Évora. Mediante o resultado obtido, uma

pessoa mais céptica teria razões para suspeitar que o peso médio seria inferior a 60 kg.
Nestas circunstâncias deveríamos proceder ao seguinte teste:
H0: µ =60 contra H1: µ < 60

Agora a hipótese alternativa especifica que o valor médio é inferior a 60 e se a hipótese
H1 fosse verdadeira esperaríamos obter amostras que levassem a um valor negativo
para t0 (porquê?). Quer dizer que vamos rejeitar a hipótese nula se t0 < zα , pois
P [ T < zα | H0 verdadeira] = α
Para o nível de significância de 5% o quantil z.05 = -1.6449, pelo que a região de
rejeição é
R = ]-∞ , -1.6449[
Considerando então a amostra observada em Évora, obtemos
t0= 10(57.04 − 60) /4 = -2.34
valor que pertence à região de rejeição, donde concluímos que devemos rejeitar a
hipótese nula.
Pensemos agora na cidade de Braga, em que temos razões para suspeitar que os
pesos são mais altos (come-se muito bem no Norte..., o que não quer dizer que se
coma mal em Évora...), pelo que consideramos o seguinte teste:
H0 : µ=60 contra H1 : µ>60

Neste momento a hipótese alternativa indica-nos que a zona de rejeição corresponderá
a valores de t0 demasiado grandes, ou seja t0>z1-α. Como
t0= 10(61.22 − 60) /4=.96 e z.95=1.6449
não vemos razão para rejeitar a hipótese nula.
Repare-se que dos 3 testes considerados anteriormente, o 1º é de índole diferente dos
outros dois, no que diz respeito à hipótese alternativa - no 1º caso estamos perante um
teste bilateral enquanto que os outros 2 se referem a testes unilaterais.
O exemplo anterior pode-se inserir num processo mais geral de testar hipóteses sobre
o valor médio, que podemos resumir do modo seguinte:

1º caso
Dados: É dada uma amostra (x1,x2…,xn), valor observado da amostra aleatória
(X1,X2,…,Xn) em que n≥30.
Se a população tem distribuição aproximadamente normal e variância conhecida, então
a dimensão da amostra pode ser inferior a 30.
Hipótese nula: H0: µ = µ0
(Esta hipótese nula é equivalente a µ≤µ0 ou µ≥µ0 conforme se utilizem as hipóteses
alternativas b) e c) especificadas a seguir)
Estatística de teste: T0= n(X −μ0 ) /σ
Obs. Para n≥30, quando σ é desconhecido, pode ser estimado por s.

Hipótese alternativa Decisão a tomar para um nível de significância α
a) H1: µ ≠ µ0 Rejeita-se H0 se |t0| > z1-α/2
b) H1: µ > µ0 Rejeita-se H0 se t0 > z1-α
c) H1: µ < µ0 Rejeita-se H0 se t0 < zα
2º caso
Dados: É dada uma amostra (x1,x2…,xn), valor observado da amostra aleatória

(X1,X2,…,Xn) de uma população com distribuição Normal e parâmetro σ desconhecido.
Hipótese nula - H0: µ = µ0
(Esta hipótese nula é equivalente a µ≤µ0 ou µ≥µ0 conforme se utilizem as hipóteses
alternativas b) e c) especificadas a seguir)
Estatística de teste : T1 = n(X −μ0 ) /S
Hipótese alternativa Decisão a tomar para um nível de significância α
a) H1: µ ≠ µ0 Rejeita-se H0 se |t1| > t1-α/2(n-1)
b) H1: µ > µ0 Rejeita-se H0 se t1 > t1-α(n-1)
c) H1: µ < µ0 Rejeita-se H0 se t1 < tα(n-1)
onde representamos por tα(n-1) o quantil de probabilidade α da distribuição t de

Student com (n-1) graus de liberdade.

Obs. Quando a dimensão da amostra for suficientemente grande, a distribuição da

estatística T1 é aproximadamente normal, pelo que podemos tratar o segundo caso de
modo análogo ao 1º caso. Na realidade, à medida que a dimensão da amostra aumenta
e consequentemente o número de graus de liberdade, a distribuição t de Student
aproxima-se da distribuição Normal.
3.6.1 ► P-value
Um processo alternativo de realizar os testes de hipóteses anteriores é calcular o P-

value. Mais concretamente, para cada uma das situações consideradas anteriormente,
face ao valor observado t0 ou t1 das estatísticas de teste T0 ou T1, calcula-se:
1º caso:
a) P = 2 min {P[T0≤t0], P[T0≥t0]}
b) P = P[T0≥t0]
c) P = P[T0≤t0]
2º caso:
a) P = 2 min {P[T1≤t1], P[T1≥t1]}
b) P = P[T1≥t1]
c) P = P[T1≤t1]
Decisão: Para um determinado nível de significância α, rejeita-se a hipótese nula

quando P≤α.
Exercícios
1. Admita que a mediana da nota da PE, dos alunos que entraram no ano lectivo 91/92 foi de 35. Com
base na amostra anterior, verifique se existem razões para suspeitar de que os alunos que entraram no
ano lectivo de 92/93, têm tendência para terem notas mais fracas.
Obs. Considere que a população a estudar está dividida em duas categorias: a dos alunos com nota
superior a 35 e dos alunos com nota inferior ou igual a 35.
2. Supõe-se que numa população existem três vezes mais indivíduos não fumadores do que fumadores.
a) Tendo-se recolhido uma amostra de 20 indivíduos, verificou-se que 7 eram fumadores. Teste, ao nível de
significância de 5% se a suposição tem razão de ser.

b) Na população anterior pretende-se estudar a incidência de doença pulmonar. Sabe-se que a

percentagem de doentes entre os fumadores e não fumadores é respectivamente de 60% e 20%.
(i) Determine a probabilidade de um indivíduo ter doença pulmonar.
(ii) Determine a probabilidade de um doente pulmonar ser fumador.
(iii) Qual a probabilidade de numa amostra de 10 doentes, pelo menos três serem fumadores?
(iv) Qual a probabilidade de numa amostra de 225 doentes, mais de metade serem fumadores?
3. O sr. X não consegue chegar a horas ao emprego. Todos os dias marca o ponto depois da hora
estipulada para a sua entrada. No final do mês, juntamente com uma repreensão escrita, recebeu uma
folha com um registo dos seus atrasos (em minutos):
0.01 2.66 3.30 3.77 4.47 5.13 7.56
8.79 10.26 14.36 15.29 19.64 21.45 28.41

a) Investigue a existência de possíveis outliers na amostra.
b) O sr. X acha injusta a repreensão, já que segundo diz, desde que trabalha naquela empresa, mais de
50% das vezes o atraso é inferior a 5 minutos. Com base nos dados anteriores verifique se existe
evidência suficiente para dar razão ao sr. X.
4. Suponha que uma amostra recolhida de rendimentos de famílias de determinada cidade revelou que
55% dos rendimentos da população se situam entre os 60 e os 120 contos. O presidente da câmara
considera-a "ideal" !
Desconfia-se que o bairro X não segue a distribuição "ideal" da cidade. Recolheu-se uma amostra de
valores de rendimentos familiares nesse bairro, tendo-se obtido os seguintes resultados:
15 24 36 55 58 62 65 67 70 71
73 76 89 90 92 97 105 112 118 160

Verifique se esta suspeita tem razão de ser.
5. Um grupo de 20 indivíduos hipertensos, foi submetido durante 30 dias a um regime de dieta sem sal.
Apresentam-se a seguir os valores da pressão sistólica para esses indivíduos:
sexo Antes da dieta Depois da dieta
M 17.0 15.6
M 17.7 16.6
M 17.9 16.9
F 18.1 15.6
F 18.1 16.0
M 18.2 15.5
F 18.3 16.5
M 18.4 17.2
M 18.4 15.0
F 18.5 17.5
F 18.5 15.9
F 18.6 16.2
M 18.7 17.5
M 18.8 15.8
F 18.9 17.2
M 19.2 17.3

M 19.3 17.8
F 19.5 16.0
F 19.8 16.9
F 20.1 17.5
a) Um especialista afirma que após um mês em regime de dieta sem sal, pelo menos 80% dos
indivíduos apresenta uma diminuição da pressão sistólica superior a 10%. Averigúe se existem razões
para duvidar da afirmação do especialista.
6. Recolheu-se a opinião de 20 executivos acerca de máquinas fotocopiadoras, verificando-se que 15
preferiam a marca Kodac relativamente à marca Xerox. Pensa-se, no entanto, que na realidade não
existem diferenças significativas entre as máquinas, pelo que a probabilidade de cada uma ser escolhida
é de 50%. Poderíamos assim considerar as seguintes hipóteses a testar:
H0: p=.5 contra H1: p≠.5
em que representamos por p a probabilidade de ser escolhida a máquina Kodac. Se para 20 executivos
consultados, representar por X o número dos que preferem Kodac, considere a seguinte regra de
decisão:
rejeito H0 se X<6 ou se X>14
a) Qual o nível de significância associado ao teste anterior?
b) Qual a decisão a tomar relativamente á amostra considerada?
c) Para as hipóteses H0 e H1 especificadas, qual a regra de teste se efectivamente o número de
executivos que constituem a amostra fosse de 50, considerando o nível de significância de 5%?
7. Admite-se que a quantidade de nicotina (medida em mg.) existente numa dada marca de cigarros,
tem distribuição normal. Observaram-se 5 cigarros da referida marca tendo-se obtido:
16 16.5 19 15.4 15.6
O fabricante afirma que a quantidade média de nicotina , por cigarro, é de 13.5 mg.
a) Teste, ao nível de significância α= 0.10 a hipótese:
H0 : µ = 13.5 contra H1 : µ > 13.5
b) Determine um intervalo de 95% de confiança para a quantidade média de nicotina existente em cada
cigarro.
8. O departamento de controlo de qualidade de uma fábrica de conservas, está na disposição de mandar
reajustar todo o equipamento, caso se verifique que o peso médio de cada lata é inferior ao especificado
na embalagem. Nomeadamente no caso das latas de sardinha, especifica-se que este peso seja de 150
gramas. Com o objectivo de tomar uma decisão, procedeu-se à recolha de algumas latas de sardinha,
-
que se pesaram, usando-se a média X, como estatística de teste.
a) Formule as hipóteses nula e alternativa, em termos do valor especificado para o peso médio.

b) Tendo em consideração as consequências que advêm de cometer um erro de tipo I, deverá escolher
um nível de significância grande ou pequeno? Justifique convenientemente a sua resposta. Qual ou
quais os valores que escolheria?
c) Admitindo que o peso das latas de sardinha se distribui de acordo com uma Normal e que os valores
observados para os pesos de uma amostra de 10 latas foram ( em gramas):
147 152 145 130 155 148 150 149 146 149
qual a decisão que o gerente da fábrica deve tomar, no que diz respeito ao reajustamento do
equipamento?
9. Um médico receita aos seus doentes um medicamento para diminuir o número de pulsações por
minuto. Recolheu o nº de pulsações a doentes medicados, que já tomam o medicamento há um mês,
tendo obtido o seguinte output, obtido através de um software de Estatística, em que seleccionou como
opção, utilizar a distribuição t-Student:
Com 95% de confiança: 70.887604 < μ <74.497011
a) Quais as hipóteses que o investigador teve de admitir para tomar a opção de seleccionar a
distribuição t-Student?
b) Explique o que significa o output anterior.
c) Qual a margem de erro do intervalo?
d) Se o intervalo fosse calculado com uma confiança de 99%, a margem de erro aumentaria ou
diminuiria?
10. Durante um cateterismo para detectar a a extenção da doença cardíaca, verificando o estado das
artérias, é introduzido um pequeno tubo, o catéter, através de uma artéria da perna. É importante que
catéter tenha um diâmetro de 2.00mm, em média, com um desvio padrão muito pequeno. O processo de
fabrico dos cateteres é submetido a um rigoroso controlo de qualidade, de modo que todos os dias são
recolhidas algumas medidas, para testar a hipótese nula H0: m = 2.00mm, contra a hipótese alternativa
m≠2.00mm, com um nível de significância de 5%, para parar o processo de fabrico, no caso de haver
alterações.
a) Estamos perante um teste unilateral ou bilateral? Porque é que isto é importante, no contexto do
problema?
b) Explicar o que é que acontece se o departamento de controlo de qualidade cometer um erro de tipo 1?
c) E se cometer um erro de tipo 2?
11. Uma fábrica de bolachas com pedacinhos de chocolate, ao anunciar as suas bolachas diz que cada
pacote de meio quilo contém, pelo menos, 1000 pedacinhos de chocolate. Os estudantes do
Departamento de Estatística de determinada Universidade, decidiram comprar alguns destes pacotes e
contar o número de pedacinhos de chocolate, tendo obtido os seguintes resultados:
1219 1214 1087 1200 1419 1121 1325 1345 1244 1258 1356 1132

1191 1270 1295 1135

a) Verifique se estão cumpridas as condições para poder fazer infereência.
b) Obtenha um intervalo de 95% de confiança para o número médio de pedacinhos de chocolate, em
cada pacote.
c) O que é que pode concluir sobre o que diz a empresa que vende as bolachas? Utilize o intervalo
anterior para testar uma hipótese apropriada para tirar conclusões.
Sugestão: Verifique que o intervalo de confiança é (1187.9, 1288.4) e de seguida calcule P(X<1000)
tendo em consideração que a v.a.X, que representa o nº de pedacinhos de chocolate em cada pacote,
tem distribuição Normal N(1188, 94) ou N(1288, 94).

Testes à igualdade de duas populações 4

Teste sobre a diferença de proporções de duas populações independentes.
Testes de hipóteses sobre a diferença de valores médios de duas populações
independentes Normais – variâncias conhecidas, variâncias desconhecidas e iguais ou
variâncias desconhecidas e diferentes. Caso de populações não Normais, mas grandes
amostras. Caso de amostras emparelhadas.
4.1 ► Inferência sobre a diferença entre as proporções de duas

populações
Uma situação que por vezes tem interesse estudar, é a diferença entre proporções
correspondentes a duas populações. Suponhamos, por exemplo, a situação de um
candidato a Presidente da República, que está interessado em saber se a percentegem
de potenciais eleitores que votarão nele é igual para Lisboa e Porto.
Outro exemplo é o de duas máquinas que produzem o mesmo tipo de artigo e estamos
interessados em estudar se a percentagem de defeituosos é igual, para as duas
máquinas.
Temos ainda o caso em que se pretende conhecer se o sucesso no exame nacional de

Matemática, é o mesmo para os alunos de duas escolas distintas.
Sejam então duas populações W1 e W2 e p1 e p2 as percentagens ou proporções que se

pretendem comparar:
p1 → percentagem de elementos da população W1 pertencentes a determinada

categoria;
p2 → percentagem de elementos da população W2 pertencentes a determinada
categoria

Sejam n1 e n2 as dimensões de 2 amostras recolhidas respectivamente das populações

) ) ) R
W1 e W2. Então uma estimativa pontual de p1 – p2 será dada por p1 − p 2 , onde p1 = 1
n1
) R
e p 2 = 2 , sendo R1 e R2, respectivamente o número de elementos das amostras que
n2
pertencem à categoria em estudo. Admitindo que temos populações infinitas ou que a
amostragem se faz com reposição, já vimos no Capítulo 1 que as variáveis aleatórias
R1 e R2 têm, respectivamente, distribuição Binomial de parâmetros (n1, p1) e (n2, p2).
) )
Não é conhecida a distribuição de amostragem exacta de p1 − p 2 , mas admitindo que
as dimensões das amostras são suficientemente grandes, a distribuição de
) )
p1 − p 2 − (p1 − p 2 )
pode ser aproximada pela N(0,1)
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2
Este resultado vai-nos servir para construir os testes de hipóteses sobre a diferença de
proporções p1-p2.
4.1.1. ► Testes de hipóteses sobre a diferença de proporções
Consideremos os seguintes testes, realizados para o nível de significância α:
a) H0: p1-p2 ≤ p0 contra H1: p1-p2 > p0
Se H0 verdadeiro, podemos considerar para estatística de teste

) )
p1 − p 2 − p 0
Z= ) ) ) ) ~ N(0,1)
p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2
Região de rejeição: Valores grandes da estatística de teste ou

) ) ) )
) ) p1 (1 − p1 ) p 2 (1 − p 2 )
Z ≥ z1-α ou p1 − p 2 ≥ p0 + z1-α +
n1 n2
b) H0: p1-p2 ≥ p0 contra p1-p2 < p0
Região de rejeição: Valores pequenos da estatística de teste ou

) ) ) )
) ) p1 (1 − p1 ) p 2 (1 − p 2 )
Z ≤ zα ou p1 − p 2 ≤ p0 + zα +
n1 n2
c) H0: p1-p2 = p0 contra p1-p2 ≠ p0
Região de rejeição: Valores pequenos ou grandes da estatística de teste ou

) ) ) )
) ) p1 (1 − p1 ) p 2 (1 − p 2 )
|Z| ≥ z1-α/2 ou | p1 − p 2 |≥ p0 + z1-α/2 +
n1 n2
Podemos em alternativa calcular o P-value (valor-p), que se obtém, calculando para o

valor observado da estatística de teste, zobs, as seguintes probabilidades:
a) P(Z≥ zobs | H0)
b) P(Z≤ zobs | H0)
c) 2P(Z≥ |zobs|| H0)
4.1.2. ► Intervalo de confiança para a diferença de proporções

Um intervalo de confiança, com uma confiança de 100(1-α)% vem imediatamente a
partir da distribuição de amostragem para a diferença de proporções amostrais:
) ) ) )
) ) p1 (1 − p1 ) p 2 (1 − p 2 )
p1 − p 2 ± p0 + z1-α/2 +
n1 n2
4.2 ► Inferência sobre a diferença entre os valores médios de duas

populações
De um modo geral, quando se está a fazer um estudo comparativo, utiliza-se o termo

estatístico tratamento para referir as características que estão a ser comparadas.
Por exemplo, num estudo para investigar se um novo tipo de semente de trigo produz
maior quantidade de cereal, semearam-se várias porções de terreno, umas com a
semente normal e as outras com a nova semente. As porções de terreno semeadas
com cada tipo de semente foram escolhidas aleatoriamente. Quando o trigo
amadureceu, pesaram-se as quantidades produzidas por cada porção de terreno. Nesta

experiência os dois tipos de semente representam os dois tratamentos. A atribuição de

cada tipo de semente a cada porção de terreno, constitui o que se chama o
planeamento da experiência. Esta fase é crucial para o tratamento futuro dos dados, já
que este planeamento pode, de uma maneira geral, produzir:
• Amostras independentes ou
• Amostras emparelhadas (pares de dados)
O primeiro caso, das amostras independentes, verifica-se quando os indivíduos ou

unidades que vão ser expostas a cada tratamento, são escolhidas aleatoriamente em
dois grupos, atribuindo-se a um dos grupos o tratamento 1 e ao outro grupo o
tratamento 2. Os resultados que se obtêm de cada tratamento constituem uma amostra
de uma dada população, pelo que podemos falar em comparação de populações.
Num planeamento de experiências por pares, os indivíduos ou unidades que vão ser
expostas ao tratamento são escolhidas aos pares, de modo que os membros de cada
par são semelhantes, e um elememto de cada par recebe o tratamento 1, enquanto que
o outro recebe o tratamento 2. assim, ao contrário do que se passa no caso anterior,
esperamos que os resultados de cada par sejam dependentes, já que houve, à partida,
condições marcantes para que isso acontecesse, na escolha de elementos
semelhantes.
Vamos começar por abordar o primeiro caso de amostras independentes de duas

populações.
4.2.1. ► Inferência sobre a diferença entre valores médios de populações

independentes
Consideremos duas populações X1 e X2, independentes, de valores médios e desvios

padrões, respectivamente, μ1 e μ2 e σ1 e σ2.
Sejam X11, X12, ..., X1n1 e X21, X22, ..., X2n2, duas amostras aleatórias de X1 e X2,
respectivamente.
O nosso objectivo, ao pretender comparar os dois tratamentos ou populações, vai ser o

de comparar os seus valores médios. Assim, pretende-se fazer inferência sobre μ1-μ2.

O estimador pontual para a diferença entre os valores médios é, obviamente, X1 − X 2 .

No que diz respeito à distribuição de amostragem deste estimador, tem-se
E( X1 − X 2 ) = μ1-μ2
σ12 σ 22
Var( X1 − X 2 ) = +
n1 n 2
e no que diz respeito à forma da distribuição, podemos considerar os seguintes casos:
4.2.1.1 ► As populações são Normais e as variâncias são conhecidas
Neste caso, tendo em consideração que a combinação linear de variáveis aleatórias,

independentes, com distribuição Normal, ainda tem distribuição Normal, vem
imediatamente
X 1 − X 2 − (μ 1 − μ 2 )
I N(0,1)
σ12 σ 22
+
n1 n 2
Testes de hipóteses sobre μ1-μ2
H0: μ1-μ2 = δ0
X1 − X 2 − δ 0
Estatística de teste sob H0: Z =
σ12 σ 22
+
n1 n 2
Hipótese alternativa H1 Região de Rejeição P-value
μ1-μ2 > δ0 z ≥ z1-α P(Z≥Zobs|H0)
μ1-μ2 < δ0 z ≤ zα P(Z≤Zobs|H0)
μ1-μ2 ≠ δ0 |z| ≥ z1-α/2 2P(Z≥|Zobs||H0)
Intervalo de confiança, com uma confiança de 100(1-α)%, para μ1-μ2
σ12 σ 22
X1 − X 2 ± z1-α/2 +
n1 n2

4.2.1.2 ► As populações são Normais e as variâncias são iguais e desconhecidas

– teste t, para amostras independentes
Se a variância comum σ2 fosse conhecida, então estaríamos no caso anterior. No

entanto, de um modo geral a variância é desconhecida e será estimada a partir das
duas amostras. O estimador utilizado é o chamado pooled variance, que se obtém da
seguinte forma:
(n1 − 1) S12 + (n 2 − 1) S 22
S2 =
n1 + n 2 − 2
X1 − X 2 − (μ 1 − μ 2 )
e com este estimador I t(n1+n2-2)
1 1
S +
n1 n 2
tem como distribuição (exacta) uma t-Student com (n1+n2-2) graus de liberdade.
Testes de hipóteses sobre μ1-μ2, para um nível de significância α
H0: μ1-μ2 = δ0
X1 − X 2 − δ 0
Estatística de teste sob H0: T =
1 1
S +
n1 n 2
μ1-μ2 > δ0 t ≥ t1-α(1) P(T≥Tobs|H0)
μ1-μ2 < δ0 t ≤ tα P(T≤Tobs|H0)
μ1-μ2 ≠ δ0 |t| ≥ t1-α/2 2P(T≥|Tobs||H0)
(1) Quantil de probabilidade (1-α) da t-Student com (n1+n2-2) graus de liberdade.
1 1
X1 − X 2 ± t1-α/2 S +
n1 n 2

4.2.1.3 ► As populações são Normais e as variâncias são diferentes e

desconhecidas
No caso anterior exigimos que as variâncias fossem iguais, para termos uma
distribuição exacta e posteriormente podermos utilizar o teste t. Em termos práticos
S12 1 S12
verifica-se se não é muito diferente de 1. Como regra empírica, se ≤ ≤ 4,
S 22 4 S 22
S12
assume-se a igualdade de variâncias e utiliza-se o processo descrito. Se for muito
S 22
diferente de 1, deve-se suspeitar da igualdade de variâncias e utiliza-se, por exemplo,
um método não paramétrico. A regra que apresentámos é empírica, pelo que em
situações de maior rigor deve-se utilizar um teste de igualdade de variâncias para
populações normais (por exemplo o teste F).
No entanto, ainda para o caso de populações normais, pequenas amostras e variâncias

diferentes, existe um processo aproximado sugerido por Satterthwaite e daí o nome de
aproximação de Satterthwaite, que sugeriu ainda a distribuição aproximada de uma t-
Student para a estatística de teste
X1 − X 2 − (μ 1 − μ 2 )
S12 S 22
+
n1 n 2
mas com o número de graus de liberdade dado pela equação
s12 s 22 2
( + )
n1 n 2
f=
s2 s2
( 1 )2 ( 2 )2
n1 n
+ 2
n1 − 1 n 2 − 1
Os testes sobre μ1-μ2 são idênticos ao caso anterior.

4.2.1.4 ► As populações não são Normais e as amostras têm dimensão grande
No caso em que as amostras têm dimensão suficientemente grande a distribuição de

amostragem de
X1 − X 2 − (μ 1 − μ 2 )
pode ser aproximada pela N(0,1)
S12 S 22
+
n1 n 2
A inferência estatística sobre μ1-μ2 é idêntica à realizada no caso 4.2.1.1 com as

variâncias substituídas pelos estimadores.
4.2.2 ► Amostras emparelhadas
Ao comparar dois tratamentos, seria desejável que os indivíduos ou unidades

experimentais sujeitas a esses tratamentos, fossem tão semelhantes quanto possível,
de modo que as diferenças entre os resultados dos dois grupos pudessem ser
atribuídas às diferenças de tratamento. Na realidade, se algumas condições variarem
de forma incontrolada nos indivíduos sujeitos a tratamento, essas condições podem
introduzir nos resultados uma grande variabilidade.
Por outro lado, a imposição de que todos os indivíduos sejam semelhantes é

demasiado restritiva, podendo, inclusivamente, impedir a recolha de amostras de
dimensão suficiente para determinadas análises estatísticas. Por exemplo, para a
comparação de dois analgésicos, seria impraticável obter um número suficiente de
doentes nas mesmas condições da doença, mesmo sexo, mesma idade, etc. Além
disso seria mais razoável aplicar os analgésicos a indivíduos com características
diferentes.
Estamos numa situação de conflito, em que por um lado exigimos indivíduos com
características semelhantes, mas que também tenham características diferentes! Para
resolver esta questão, entramos com o conceito de “matching” ou “blocking”, que
consiste em escolher os indivíduos por pares ou blocos, de modo que dentro de cada
bloco tenham características semelhantes e sejam diferentes, para blocos diferentes.

Num planeamento de experiências deste tipo, depois de seleccionados os pares (ou

blocos), deve-se aplicar a cada elemento do par o tratamento 1 ou 2 de forma aleatória.
Representando por X1 e X2, respectivamente, as respostas ou resultados ao tratamento

1 ou 2, os dados apresentam-se com a seguinte estrutura:
Par Tratamento 1 Tratamento 2 Diferença D
1 X11 X21 D1
2 X12 X22 D2
3 X13 X23 D3
… … … …
N X1n X2n Dn
As diferenças D1, D2, D3, ..., Dn, constituem a amostra aleatória. Observe-se que,
embora os pares (X1i, X2i) sejam independentes uns dos outros, dentro do mesmo par
não existe independência, tendo em consideração a forma como foi planeada a
experiência.
Algumas das estatísticas de interesse são
1 n 1 n
D= ∑ Di
n i=1
e S D2 = ∑
n − 1 i=1
(D i − D ) 2
A inferência estatística sobre as diferenças entre os valores médios dos resultados

devidos aos dois tratamentops, resume-se a fazer inferência sobre δ = μ1-μ2, e os
processos resumem-se ao que já foi dito atrás sobre a inferência sobre o valor médio
de uma população.
4.2.2.1 – Populações Normais, pequenas amostras – teste t emparelhado
No caso em que temos pequenas amostras, é necessário assumir que a amostra Di =

X1i – X2i, é proveniente de uma população Normal (δ, σD). Então, a estatística de teste
que vamos utilizar tem uma distribuição t-Student, com (n-1) graus de liberdade e a este
tipo de teste chamamos o teste t emparelhado (t-paired test).
Testes de hipóteses sobre μ1-μ2

H0: μ1-μ2 = δ0
D − δ0
Estatística de teste sob H0: T =
SD / n
μ1-μ2 > δ0 t ≥ t1-α(1) P(T≥Tobs|H0)
μ1-μ2 < δ0 t ≤ tα P(T≤Tobs|H0)
μ1-μ2 ≠ δ0 |t| ≥ t1-α/2 2P(T≥|Tobs||H0)
(1) Quantil de probabilidade (1-α) da t-Student com (n-1) graus de liberdade
Observação – Para testar que os dois tratamentos tiveram o mesmo efeito, faz-se δ0=0.
SD
D ± t1-α/2
n
4.2.2.2. – Grandes amostras
Neste caso a distribuição da estatística de teste pode ser aproximada pela distribuição
Normal(0,1), pelo que temos o seguinte:
H0: μ1-μ2 = δ0
D − δ0
Estatística de teste sob H0: Z =
SD / n

μ1-μ2 > δ0 z ≥ z1-α P(Z≥Zobs|H0)
μ1-μ2 < δ0 z ≤ zα P(Z≤Zobs|H0)
μ1-μ2 ≠ δ0 |z| ≥ z1-α/2 2P(Z≥|Zobs||H0)
SD
D ± z1-α/2
n

4.2.3 ► Que tipo de planeamento fazer
Ao planear uma experiência para comparar dois tratamentos, muitas vezes temos a
opção de escolher entre considerar amostras independentes ou amostras
emparelhadas. Vejamos algumas considerações sobre estes dois tipos de
planeamento.
Se considerarmos n pares de observações, obtemos 2n valores, o que corresponde no

caso de amostras independentes a duas amostras de dimensão igual a n. Para o
cálculo da média, é indiferente se as amostras estão emparelhadas ou não, já que
1 n
D= ∑ ( X1i − X 2i ) = X1 − X 2
n i=1
Centrando a nossa atençaõ no caso de termos pequenas amostras, no que diz respeito
aos intervalos de confiança para μ1-μ2, temos
X1 − X 2 ± t1-α/2 * estimador do erro padrão (desvio padrão da diferença das médias)
Amostras independentes Amostras emparelhadas

(n1=n2=n) n pares
Estimativa do erro padrão SD
1 1
s +
n1 n 2 n
Graus de liberdade 2(n-1) n-1
(n − 1)s12 + (n − 1)s 22 s12 + s 22

Obs: s= =
2(n − 1) 2
Do quadro apresentado anteriormente verifica-se que, se considerarmos amostras
emparelhadas, o nº de graus de liberdade diminui, o que implica que para o mesmo
valor de α, o quantil de probabilidade 1-α/2 será maior. Por exemplo com n=10,
t.95(9)=1.833, enquanto que t.95(18)=1.734.
Assim, se o valor estimado para o erro padrão fosse igual nos dois casos, uma
diminuição do número de graus de liberdade, verificada para o caso das amostras
emparelhadas, implicaria um intervalo de confiança maior. Analogamente, nos testes de

hipóteses, este facto resultaria numa perda de potência para detectar diferenças reais
nos valores médios de duas populações.
Na verdade, o grande mérito das amostras emparelhadas, se efectivamentev a escolha
dos pares for feita de modo a cumprir os objectivos deste tipo de planeamento, está em
que os resultados obtidos para os pares são altamente correlacionados, obtendo-se
uma redução na variância das diferenças Di. Esta redução na variância e
consequentemente no valor estimado para o erro padrão, compensa a perca de graus
de liberdade (ex pag 345, Bhattacharya)
4.3 Teste para a igualdade de variâncias em populações Normais
São dadas duas amostras aleatórias X11, X12, ..., X1n1 e X21, X22, ..., X2n2, de populacões
Normais, X1 e X2, independentes, em que os valores médio μ1 e μ2 e as variâncias σ12 e
σ 22 , são desconhecidos. Representando as variâncias amostrais por S12 e S 22 , sabe-se
S12 / σ12
que F= 2 2 tem uma distribuição F com (n1-1) graus de liberdade no numerador e
S2 / σ2
(n2-1) graus de liberdade no denominador, que se representa por F(n1-1; n2-1)4. Este
facto vai-nos servir para testar a igualdade de variâncias, condiderando F como
S12
estatística de teste, uma vez que sob H0: σ = σ , F0= 2 tem distribuição F(n1-1; n2-1).
2
1
2
2
S2
Temos então os seguintes testes:
H0: σ12 = σ 22
S12
Estatística de teste sob H0: F0=
S 22
σ12 ≠ σ 22 f0≥ F1-α/2(n1-1; n2-1) ou 2min{P(F≥Fobs|H0),
f0≤ Fα/2(n1-1; n2-1) P(F≤Fobs|H0)}
4
A distribuição F goza da propriedade de Fα(m;n)=1/F1-α(n;m)

σ12 > σ 22 f0≥ F1-α(n1-1; n2-1) P(F≥Fobs|H0)
σ12 < σ 22 f0 ≤ Fα(n1-1; n2-1) P(F≤Fobs|H0)
Intervalo de confiança, com uma confiança de 100(1-α)%, para σ12 / σ 22 :
s12 σ12 s12

Fα/2(n2-1; n1-1)≤ 2 ≤ 2 F1-α/2(n2-1; n1-1)
s 22 σ2 s2
Exemplo 4.1 (Adaptado de Murteira, B. et al, 2002) Para confrontar dois tipos de máquinas de
ceifar, um trigal foi dividido em secções longitudinais, e cada duas secções adjacentes, tratadas por cada
uma das máquinas. As produtividades alcançadas foram as seguintes:
Máquina A: 8.0 8.4 8.0 6.4 8.6 7.7 7.7 5.6 5.6 6.2
Máquina B: 5.6 7.4 7.3 6.4 7.5 6.1 6.6 6.0 5.5 5.5
Pretendendo averiguar se a produtividade das duas máquinas é idêntica, utilizando o teste t, averigúe da
igualdade das variâncias.
H0: σ A = σ B H1: σ 2A ≠ σ B2
2 2
contra
S 2A
Estatística de teste sob H0: F0= com distribuição F(9;9)
S B2
Decisão: Não rejeitar a igualdade de variâncias.

Observação: O teste F, para a igualdade de variâncias pode ser realizado directamente no Excel. Para
isso basta seleccionar
Tools Data Analysis F-Test Two Samples for Variances


Métodos não paramétricos 5

Métodos não paramétricos como alternativa aos métodos paramétricos. Testes de
ajustamento – teste do Qui-quadrado e de Kolmogorov-Smirnov. Problema da
localização e da localização e simetria – Teste dos Sinais e teste de Wilcoxon. Testes
de hipóteses em modelos não paramétricos para testar a homogeneidade de
populações independentes – Teste de Mann-Whitney e de Kruskal-Wallis. Teste do Qui-
quadrado em tabelas de contingência para testar a homogeneidade e a independência.
Outros testes para testar a independência.
5.1.► Introdução
Vimos nos capítulos anteriores alguns processos de inferência estatística,

nomeadamente os que envolvem pequenas amostras, em que é necessário fazer
hipóteses sobre a forma da distribuição da população subjacente à amostra.
De um modo geral a inferência estatística clássica admite o modelo Normal e temos

assim o teste-t, quando pretendemos fazer testes de hipóteses acerca do valor médio
de uma população ou pretendemos comparar populações, ou o teste F quando
comparamos variâncias. Felizmente alguns destes processos são razoavelmente
robustos para os desvios da normalidade e basta assumir a simetria, para que ainda se
possam utilizar. É exemplo desta situação o teste-t, que é bastante robusto, podendo
ainda continuar a aplicar-se quando a população não é Normal, mas simétrica.
No entanto, nem sempre é apropriado considerar como hipótese, que a população

subjacente a determinada amostra, segue uma família específica de distribuições. Pode
ainda acontecer, por exemplo, que os dados nos sejam dados através de uma
ordenação e não tenhamos acesso aos verdadeiros valores – é o que acontece quando
temos as classificações de um conjunto de candidatos a um lugar, em que esses

candidatos foram ordenados, não dispondo de classificações individuais. Nestes casos

têm de se utilizar os chamados métodos não paramétricos, que são métodos com
uma grande generalidade de aplição, já que as hipóteses subjacentes a essa aplicação
são pouco restritivas, o que não significa que não tenham de se fazer algumas
hipóteses.
Os métodos não paramétricos baseiam-se essencialmente em contagens, ordens e

sinais de diferenças. Como são métodos que funcionam bem para várias distribuições,
dizem-se robustos e as estatísticas utilizadas recebem o nome de estatísticas firmes.
EXEMPLO 5.1 Para testar o efeito de um novo medicamento, considerou-se um grupo de 9 doentes,
tendo-se dado o medicamento a 4 dos doentes escolhidos aleatoriamente. Passadas 3 semanas, os 9
doentes foram examinados por um médico que, com base num conjunto de observações clínicas,
ordenou os doentes, numa escala de 1 a 9, sendo o 1 atribuído ao doente que se apresentava em
melhores condições e o 9 o que se apresentava em piores condioções. Pretende-se testar, com base
nesta informação, o seguinte:
H0: O novo medicamento contra H1: O novo medicamento

não tem efeito tem efeito (bom ou mau)
Uma estatística de teste possível será considerar a soma das ordens dos doentes que tomaram o
medicamento. Se o novo medicamento não tem efeito, as ordens dos doentes que o tomaram podem ser
quaisquer, pelo que o resultado final pode ser qualquer das 126 combinações possíveis das 9 ordens 4 a
4. No entanto, se o medicamento teve efeito benéfico deveremos ter, por exemplo, (1,2,3,4), enquanto
que se fôr prejudicial teríamos (6,7,8,9).
Os valores possíveis para a estatística de teste T, que representa a soma das ordens dos 4 doentes que
tomaram o medicamneto são
T 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Nº de 1 1 2 3 5 6 8 9 11 11 12 11 11 9 8 6 5 3 2 1 1
vezes
A região de rejeição será constituída pelos valores grandes ou pequenos da estatística de teste. Se
rejeitarmos para T= 10, 11, 29 e 30, então o nível de significância do teste será = 4/126 ≈ 0.0318.
Na secção seguinte vamos abordar os testes de ajustamento, que se podem inserir na

categoria dos métodos não paramétricos

5.2 ► Testes de ajustamento
5.2.1 ► Introdução1
Será que existe alguma razão para dizer que os nascimentos são influenciados pelas
fases da Lua? Será que o signo influencia o futuro, mais ou menos brilhante, de cada
indivíduo? Será que é verdade o que a empresa das drageias M&M afirma, sobre as
percentagens de cores das drageias em cada embalagem?
A revista Fortune (De Veaux and al, 2004) recolheu os signos de 256 presidentes de
400 das maiores empresas, tendo obtido a seguinte informação:
Carneiro 23 Balança 18
Touro 20 Escorpião 21
Gémeos 18 Sagitário 19
Caranguejo 23 Capricórnio 22
Leão 20 Aquário 24
Virgem 19 Peixes 29
Na tabela anterior verifica-se que o signo dos Peixes sobressai com maior número de
nascimentos, mas será esta diferença suficiente para dizer que os indivíduos que
nascem sob este signo têm maior probabilidade de sucesso? Se os nascimentos se
distribuissem uniformemente, esperaríamos aproximadamente 21.3 (256/12)
nascimentos em cada signo. De que modo é que os valores observados se “ajustam” à
hipótese (nula) de que os nascimentos se distribuem uniformemente ao longo do ano?
Neste caso já não temos, como no capítulo anterior, um teste sobre uma proporção,
mas sim sobre 12 proporções, uma para cada signo, pelo que precisamos de arranjar
um teste que nos dê uma ideia global sobre se as proporções observadas diferem muito
das conjecturadas (consideradas na hipótese nula).
5.2.2 ► Generalização do modelo Binomial – o modelo Multinomial
Consideremos uma População W dividida em k ≥ 2 categorias disjuntas e exaustivas

A1, A2, S , Ak, pelo que cada indivíduo da população pertence a uma e só a uma das
categorias. Para i=1, S , k, seja pi a proporção de indivíduos da População
pertencentes à categoria i, tendo-se
1
Nesta secção seguimos integralmente Graça Martins, M. E. (2005)

∑p
i=1
i =1
Fazer inferência estatística acerca desta População resume-se a estudar os parâmetros

pi , i=1, S , k.
Recolha-se da População em estudo uma amostra de dimensão n, (x1, x2, S , xn) e

comece-se por construir a tabela de frequências associadas às categorias
Classes Frequência
A1 o1
A2 o2
S S
Ak ok
Da tabela de frequências anterior obtêm-se as estimativas (da máxima verosimilhança)
dos parâmetros pi,
) o
pi = i , i=1, S , k.
n
Temos agora uma generalização dum caso tratado anteriormente, pois ao contrário do
que se passava aí, em que podíamos considerar que estávamos perante n provas de
Bernoulli (cada indivíduo pertencia a uma de 2 categorias, A ou AC, sendo constante a
probabilidade de pertencer à categoria A, e daí termos considerado o modelo Binomial),
temos neste momento n provas multinomiais - uma prova multinomial, com parâmetros
pi , i=1, S , k, é uma prova cujo resultado pode ser um de k possíveis, chamados
classes ou categorias. A probabilidade da ocorrência da k-ésima classe é pi, com
k
0≤pi≤1 e ∑p
i=1
i = 1.
Mais formalmente, temos que a generalização do modelo Binomial é o chamado

modelo Multinomial que consiste no seguinte:
1 – Consideram-se n provas idênticas;
2 – O resultado de cada prova pode pertencer a uma de k classes possíveis A1, A2, S,
A k;

3 - A probabilidade de que o resultado pertença à classe Ai, é pi e é sempre a mesma

de prova para prova, i=1, S, k e p1+p2+S+pk=1;
4 – As provas são independentes;
5 – As variáveis de interesse são O1, O2, S,Ok, em que Oi é o número de vezes em que
o resultado pertence à classe Ai e O1+O2+S+Ok = n.
Enunciamos a seguir algumas definições e resultados úteis para a análise da

População em estudo.
Definição 5.1. Dada uma experiência que consiste em n provas repetidas multinomiais,
independentes, com parâmetros pi, i=1, S , k, seja Oi a v.a. que representa o nº de
provas cujo resultado pertence à i-ésima classe, i=1, S , k. Então (O1, O2, S , Ok) é
uma variável aleatória multinomial com parâmetros n, pi, i=1, S , k.
Teorema 5.1 Se (O1, O2, S , Ok) é uma v. a. multinomial com parâmetros n, pi, i=1, S ,
k, então
n!
P(O1=o1, O2=o2, S , Ok=ok) = p1o1 p o2 2 p kok oi= 0,S, n
o1! o 2 !...o k !
∑o
i=1
i = n; i=1, S , k
Observação: Repare-se que se k=2, estamos no caso Binomial.
Teorema 5.2 Se (O1, O2, S , Ok) é uma v.a. multinomial, com parâmetros n, pi, i=1, S ,
k, então a função distribuição da v.a.
k
(Oi − npi )2
U= ∑ np
i =1 i
aproxima-se da função distribuição dum χ2 com (k-1) graus de liberdade, quando n

→Z∞.
O resultado anterior serve para testar a hipótese de que (O1, O2, S , Ok) é uma v.a.
multinomial com parâmetros n, pi, i=1, S , k. Basta para isso calcular

k
(o i − np i )2
u= ∑
i =1
npi
para uma amostra observada (o1, o2, S , ok) e rejeitar a hipótese se u ≥ χ12−α (k − 1) ,
onde χ12−α (k − 1) é o quantil de probabilidade (1-α) de uma distribuição dum χ2 com (k-1)
graus de liberdade.
Nota - A distribuição aproximada da estatística de teste do Qui-quadrado pode ser

obtida de forma intuitiva da forma seguinte:
Numa experiência multinomial em que cada resultado pode ser um de k possíveis, o

número médio de resultados, em n, que pertencem à classe Ai é npi. Então Oi tem
distribuição Binomial(n,pi), pelo que se n for suficientemente grande e pi suficientemente
pequeno, a distribuição de Oi pode ser aproximada por uma Poisson de valor médio npi,
Oi − npi
pelo que a distribuição de pode ser aproximada por uma Normal(0,1).
np i
2
 O − npi 
Finalmente  i  tem uma distribuição de um χ2 com (1) grau de liberdade e
 npi 
k
(O i − npi )2
∑ np tem uma distribuição dum χ2 com (k-1) graus de liberdade.
i =1 i
Observação - O modelo do χ2 tem uma função densidade com suporte positivo e tem enviesamento para
a direita, dependendo a sua forma do número de graus de liberdade. Apresenta-se a seguir a função
densidade do Qui-quadrado para vários graus de liberdade:

5.2.3 ► Teste de ajustamento do Qui-quadrado
5.2.3.1 ► Análise de dados qualitativos
Considerando então a População em estudo, pretendemos realizar testes de hipóteses

sobre os parâmetros pi, i=1, S , k, sendo as hipóteses a testar
H0: p1= p10 , p2= p 02 , S , pk= p k0 contra H1: pi≠ p i0 para algum i=1,S,k
Estamos em condições, depois dos resultados apresentados anteriormente, de utilizar a

estatística
k
(Oi − e i )2
X2 = ∑ ei
i =1
onde Oi é a v.a. que representa o nº de indivíduos observados na amostra, de
dimensão n, que pertencem à classe Ai e ei=n p i0 , i=1,S,k. Esta estatística, sob a

hipótese de H0 ser verdadeira, tem uma distribuição de amostragem aproximada de um
χ2 com (k-1) graus de liberdade.
Regra de decisão: Para o nível de significância α, rejeita-se a hipótese nula H0 quando

X2 ≥ χ12−α (k − 1) , ou seja, a região de rejeição é constituída pelo intervalo [ χ12− α (k-1), +∞[,
como se pode ver pela figura seguinte
De forma alternativa, face ao valor observado da estatística de teste x 02 , calcula-se o p-
value P= P(X2≥ x 02 ) e rejeita-se H0 quando P≤ α.
Observação: Para se utilizar este teste deve-se ter em consideração que os valores
esperados para cada classe, ei não podem ser muito pequenos. Normalmente exigem-
se que sejam ≥5.

Exemplo 5.2 Utilize os dados apresentados no início deste capítulo, para verificar se existe evidência
de que existam alguns signos mais propícios a que os seus nativos sejam homens de sucesso.
H0: P(Carneiro) = P(Touro) = P(Gémeos) = ... = P(Peixes) = 1/12
contra
H1: Alguma das probabilidades anteriores é diferente de 1/12
2
Sabemos que, sob H0, a estatística de teste tem uma distribuição aproximada dum χ com 11 graus de
liberdade, uma vez que k=12, isto é, temos 12 classes.
Para calcular o valor observado da estatística de teste, vamos considerar a seguinte tabela:
Obtivémos o valor de 5.0938 para a estatística de teste. Será que é um valor grande? Será que é um
2
valor na cauda direita da função densidade? Será que P(X ≥5.0938) é um valor pequeno, quando a
2 2
distribuição de X é um χ com 11 graus de liberdade? Estas três questões, são outras tantas formas de
fazer a mesma pergunta, que é: Há evidência para rejeitar a hipótese nula H0?
Repare-se que neste caso, não temos dificuldade em dizer que não há evidência para rejeitar H0, pois
2
basta ver na figura da função densidade do χ com 11 graus de liberdade, que o valor 5.0938 é
relativamente pequeno. De qualquer modo calculámos o P-value associado a este teste, utilizando a
função CHIDIST(x;deg_freedom) do Excel, que devolve o valor de P(X>x), onde X é uma variável
aleatória com uma distribuição do Qui-quadrado com deg_freedom graus de liberdade. O valor obtido é
0.9265, que se apresenta na figura seguinte:

Decisão: Não há evidência para rejeitar a hipósese de que os nascimentos se distribuem uniformemente
pelos signos.
Não rejeitar a hipótese nula significa que o modelo proposto é o correcto?
Não! Na verdade o facto de os dados não nos levarem a rejeitar o modelo proposto na
hipótese nula, não significa que ele seja verdadeiro. O teste serviu unicamente para
mostrar que os dados são consistentes com a teoria (o modelo proposto), mas não para
provar que ela é verdadeira.
Porque é que não podemos provar a hipótese nula? (De Veaux and al, 2004) – Um
biologista pretende mostrar que a sua teoria, sobre a mosca da fruta, é válida. Segundo
ele, 10% das moscas são de tipo 1, 70% de tipo 2 e 20% de tipo 3. Fez um teste de
ajustamento a partir dos dados que os seus alunos recolheram, sobre 100 moscas,
tendo obtido um P-value de 7%. Celebrou este facto, pois sustentava a sua hipótese,
até que os seus alunos recolheram informação sobre mais 100 moscas. Com 200
moscas o P-value desceu para 2%. Apesar de já estar a adivinhar que a resposta seria
não, ainda perguntou ao estatístico, na esperança de poder deitar fora metade dos
dados e ficar com os 100 primeiros! Ora bem, se isto fosse possível, conseguiríamos
sempre “provar a hipótese nula” não recolhendo muitos dados. Efectivamente, quanto
menos informação tivermos, mais os nossos dados serão consistentes com o que quer
que seja, e também nunca rejeitaremos o que quer que seja! Então um teste assim não
serve para nada. Como já vimos na secção 11.5, diz-se que um teste destes tem pouca
potência, medindo-se a potência de um teste como a probabilidade de rejeitar H0,
quando H0 é falsa. Assim, quantos mais dados, melhor, já que nunca poderemos
“provar” a hipótese nula.

Exemplo 5.3 Suponha que uma marca conhecida de carros pretende averiguar se existe evidência
para afirmar que os compradores mudaram, nos últimos tempos, as suas preferências pelas 4 cores mais
vendidas, nomeadamente o cinza prateado, o preto, o branco e o vermelho, em que estas cores eram
preferidas por, respectivamente 56.25%, 18.75%, 18.75% e 6.25% dos compradores, segundo
informação de alguns anos atrás. Assim, recolheu informação sobre 100 clientes, tendo obtido os
seguintes resultados:
Preto Cinza prateado Vermelho Branco
59 20 11 10
Retire conclusões, para o nível de significância de 5%.

Hipóteses:
H0: P(Cinza prateado) = 0.5625; P(Preto) = 0.1875; P(Branco) = 0.1875; P(Vermelho) = 0.0625
contra
H1: P(Cinza prateado)≠0.5625 ou P(Preto)≠0.1875 ou P(Branco)≠0.1875 ou P(Vermelho)≠0.0625
4
(O i − e i ) 2
Estatística de teste: X =
2
∑
i =1
ei
2
, que sob H0, tem distribuição aproximada dum χ (3).
2
Valor observado da estatística de teste: x = 5.671
2
P-value: P(X ≥5.671)
Para calcular a probabilidade anterior, utilizando o Excel, utiliza-se a função CHIDIST(x;deg_freedom), tal
como já fizémos no exemplo anterior, agora com x=5.671 e deg_freedom=3, obtendo para o P-value =
0.12855
Decisão: Não rejeitar H0, para os níveis usuais de significância, nomeadamente para o nível de
significância de 5%. Só rejeitaríamos H0, para α≥12.855%.
Suponhamos, agora, que tinha sido recolhido uma amostra de dimensão 200, tendo obtido o dobro dos
valores observados, em cada uma das categorias. Qual a conclusão que se tiraria?
Refazendo os cálculos anteriores, temos:

2
Valor observado da estatística de teste: x = 11.342
P-value: P(X2≥11.342) = CHIDIST(11.342;3),
= 0.0100
Decisão: Para o nível de significância de 5%, rejeitar H0, isto é, existe evidência de que os compradores
mudaram de atitude, quanto ao gosto das cores.
Esta conclusão não é de estranhar, embora seja diferente da retirada anteriormente, pois agora temos
mais dados, isto é, mais informação, e podemos dizer que as discrepâncias existentes entre os valores
observados e os valores esperados, mostram “maior evidência” contra a hipótese nula
5.2.3.2 ► Análise de dados discretos
Face à amostra observada (x1, x2, S,xn) de dados discretos quantitativos, associada a
uma característica populacional X, pretende-se inferir algo sobre a função distribuição
de X.
Então começa por se fazer o agrupamento dos dados, o qual no caso dos dados
discretos, de um modo geral, não apresenta dificuldade, uma vez que consiste em
contar o número de vezes que os diferentes elementos surgem na amostra. Constroi-se
assim a tabela de frequências e o diagrama de barras. Sendo o diagrama de barras a
imagem estatística da função massa de probabilidade, esta primeira fase de tratamento
descritivo dos dados vai-nos obter informações para passar à fase seguinte de postular
qual o modelo que melhor se adapta a esses dados. Nesta fase também se entram com
algumas considerações teóricas, que eventualmente sejam conhecidas, sobre a
população de onde se recolheu a amostra.
Uma vez postulado o modelo é necessário testá-lo, utilizando normalmente o teste de

ajustamento do Qui-quadrado.

Comecemos por admitir que na hipótese nula se especifica um modelo discreto de

forma completa, isto é,
H0: X∩F
onde F está perfeitamente especificada, ou então, uma vez que o modelo é discreto, se
especifica através da função massa de probabilidade
H0: P(X=ai) = pi onde aiεD, domínio de variação da v.a. X
Considera-se então uma partição de D, eventualmente constituída pelos pontos ai,

alguns dos quais podem ser agrupados. Representando por A1, A2, S, Ak essa partição,
calculam-se as frequências observadas, que representamos por oi, e estamos no caso
analisado anteriormente, de análise de observações qualitativas pertencentes a uma de
k categorias.
Se o modelo não estiver completamente especificado, terão de se estimar alguns

parâmetros, através de estimativas da máxima verosimilhança e estamos também na
situação descrita anteriormente, da análise de observações pertencentes a uma de k
categorias, mas em que a distribuição da estatística de teste não é a mesma.
Resumindo, temos:
H0: X∩F vs H1: X não tem distribuição F

Classes Freq. observadas Sob a validade de Ho Valores esperados
A1 o1 p1=P(XεA1) np1
A2 o2 p2=P(XεA2) np2
S S S S
Ak ok pk=P(XεAk) npk
k
2 (Oi − e i )2
Estatística de teste: X = ∑ ei
i =1
Distribuição da estatística de teste: Sob a validade de H0

2
a) Se o modelo está completamente especificado, X tem uma distribuição assintótica
2
dum χ (k-1).

b) Se o modelo está especificado a menos de m parâmetros desconhecidos, que terão

2 2
de ser estimados a partir dos dados, X tem uma distribuição assintótica dum χ (k-m-1).
Então, fixando o nível de significância α temos:

2 2 2
a) Rejeita-se H0 se X ≥ χ (k − 1) ou alternativamente, face ao valor observado x da
1− α
2 2 2
estatística de teste X calcula-se P=P(χ (k-1)≥ x ) e se P≤α, rejeita-se H0.
b) Análogo à alínea a), mas a distribuição do Qui-quadrado considerada, em vez de ter
(k-1) graus de liberdade tem, (k-m-1) graus de liberdade. Os m parâmetros
desconhecidos são estimados utilizando as estimativas da máxima verosimilhança.
Exemplo 5.4 A procura diária de um determinado produto, foi, em 60 dias escolhidos ao acaso, a
seguinte:
Nº unidades procuradas 0 1 2 3 4 5 6 7 8 9
Nº dias 2 4 9 11 14 10 5 3 1 1
Haverá evidência para duvidar que tal procura se faça segundo um modelo de Poisson?
Resolução: Seja X a v.a. que representa o nº de unidades procuradas, por dia. Então:
H0: X∩P(λ) contra H1: X não tem uma distribuição P(λ)
Representando o estimador de λ por λ̂ , temos que λ̂ = X (não esquecer que no modelo de Poisson, o
parâmetro é o valor médio da variável aleatória), pelo que uma estimativa para λ, é a média dos dados
-3.8 3.8 k
x =3.8, e as estimativas para as probabilidades pi, obter-se-ão a partir da expressão P(X=k) = e .
k!
Estas probabilidades foram obtidas no Excel através da função Poisson(x; mean; cumulative), em que x é
o valor que a v.a. X assume, mean é o valor médio e cumulative é um valor lógico: para a função
distribuição, usar TRUE; para a função massa de probabilidade usar FALSE. Por exemplo, para obter o
valor 0.085009, colocámos o cursor na célula C3 e inserimos a função =POISSON(B3;3,8;FALSE).

Chamamos a atenção para o facto de as classes Ai deverem constituir uma partição do domínio da v.a. X.
Assim, como o domínio da Poisson é constituído pelos valores inteiros positivos (incluindo o 0)
introduzimos a classe 10 ou mais, cuja probabilidade foi calculada fazendo (1-P(X≤9)) (não esquecer que
∑ P(A ) = 1 ). Por outro lado, tendo em conta a observação feita sobre o valor dos e , que não devem ser
i i
inferiores a 5, agrupámos as classes 0 e 1, numa classe, e as classes 7, 8, 9 e 10 ou mais, noutra classe,

tendo ficado assim 7 classes.
7
(O i − e i ) 2
2
Se H0 for verdadeiro, a estatística de teste X = ∑
i =1
ei
2
tem uma distribuição assintótica dum χ (7-
1-1), ou seja dum Qui-quadrado com 5 graus de liberdade. Segundo a tabela anterior, obtivémos, para a
estatística de teste, o valor observado de 2.2736. Para tomar uma decisão, vamos calcular o P-
2
value:P(X ≥2.2736) = 0.81. Este valor foi obtido, inserindo na célula F13, a função = CHIDIST(E13;5):
Decisão: Não há evidência para dizer que a distribuição do número de unidades procuradas por dia, não
segue uma distribuição de Poisson.

5.2.3.3 ► Análise de dados contínuos
Este caso é em tudo idêntico ao caso anterior, com a excepção de que agora a escolha
das classes Ai, que constituem uma partição do domínio da variável aleatória X, já não
é tão óbvia, como no caso dos dados discretos. Assim, de forma a reduzir a
arbitrariedade na escolha da partição Ai, 1≤i≤k, é usual escolher os Ai, tais que
P(XεAi‫׀‬H0) = 1/k ou seja pi = 1/k, 1≤i≤k.
Como escolher o k?
A escolha de k é feita de modo a garantir que o número esperado ei=npi, de elementos

em cada classe seja ≥5. Assim, deve ter-se n/k≥5, o que implica que k≤n/5. Considera-
se geralmente para k o maior inteiro contido em n/5 (a não ser que este valor seja
demasiado grande, como veremos no exemplo a seguir, em que se escolhe um valor
inferior), e as classes Ai, são assim construídas:
A1 = (-∞, a1[, P(XεA1‫׀‬H0) = 1/k → P(X≤ a1) = F(a1) = 1/k → a1=F-1(1/k)
A2 = [a1, a2[, P(XεA2‫׀‬H0) = 1/k → P(a1<X≤ a2) = F(a2)- F(a1)= 1/k → a2=F-1(2/k)
...
Ak = [ak-1, ∞[, P(XεAk‫׀‬H0) = 1/k → P(X> ak-1) = 1 – F(ak-1)= 1/k → ak-1=F-1((k-1)/k)
A estatística de teste obtém-se da mesma maneira, assim como a distribuição de

amostragem.
Exemplo 5.4 O Sr. Silva, industrial têxtil, decidiu começar a fabricar camisas de homem, destinadas a
serem vendidas em Portugal. Para ter alguma informação sobre os moldes que deve considerar,
nomeadamente no que diz respeito ao comprimento das mangas, resolveu pedir a uma empresa de
Consultoria de Estatística que o ajudasse, dando-lhe algumas indicações sobre a população a que se
destinam as camisas.
Vamos delinear o processo utilizado pela tal empresa, para ajudar o Sr. Silva.
1º passo – Recolha de uma amostra
A empresa de Consultoria encarregou o Departamento de Sondagens de recolher uma amostra de
dimensão 250, tendo esta fornecido os seguintes dados, relativos ao comprimento do braço direito de
250 homens:

51.5 56.0 55.0 58.3 58.4 55.3 56.3 52.2 55.2 57.3
55.4 52.9 54.0 59.7 55.4 53.0 52.6 55.5 53.1 52.4
57.9 57.7 55.3 53.5 55.8 57.9 54.7 55.7 54.0 52.1
57.6 52.9 54.2 52.9 56.2 54.9 58.2 53.2 54.1 53.1
53.9 54.9 56.7 52.1 57.7 55.4 54.9 54.9 55.5 56.6
56.6 54.7 55.6 53.2 54.7 53.0 57.5 55.6 56.9 57.4
49.9 54.7 53.8 58.4 55.7 55.4 54.3 49.1 56.7 55.4
53.0 55.3 55.7 52.1 51.0 53.1 55.3 52.1 54.3 54.9
55.3 56.7 57.1 54.4 53.7 58.9 53.8 54.8 55.7 55.4
56.6 56.8 53.4 53.4 56.0 56.5 56.7 54.0 51.6 52.6
56.4 56.8 57.4 54.7 55.5 53.2 54.7 54.7 58.4 56.3
58.1 53.4 56.7 58.1 54.9 54.2 56.5 53.2 51.3 56.6
56.6 58.8 57.7 52.5 56.2 54.4 56.8 51.8 53.9 58.4
58.7 55.2 53.0 58.0 58.6 52.3 59.2 56.5 57.1 54.2
55.3 55.5 56.1 52.1 53.9 53.2 52.9 58.8 55.0 54.2
54.8 53.4 56.8 51.9 55.0 51.6 58.2 55.5 56.2 53.7
54.6 51.7 55.5 52.8 54.4 55.7 54.0 56.8 53.3 56.8
54.2 50.5 54.3 54.6 53.2 52.2 55.2 55.4 55.8 55.6
60.2 57.0 54.6 55.0 56.6 55.1 58.0 57.3 56.0 51.7
55.1 54.5 53.8 55.1 55.7 57.1 53.2 52.4 55.5 57.2
56.1 55.1 55.2 56.3 57.1 55.5 53.2 54.8 55.6 56.0
60.7 58.3 59.4 52.8 55.8 56.8 56.3 55.7 53.0 53.0
51.9 55.7 53.4 53.8 52.1 57.5 59.8 55.3 55.0 55.0
54.2 57.6 55.1 56.5 58.3 53.1 55.2 53.7 48.4 54.7
55.0 56.5 56.9 57.0 58.2 56.7 54.4 50.2 54.4 56.5
2º passo – Estudo descritivo

Procedeu-se ao estudo descritivo dos dados anteriores, calculando algumas características amostrais e
procedendo à redução dos dados através de uma tabela de frequências e à construção do histograma
correspondente. Apresentam-se a seguir os resultados obtidos:

Decidimos construir uma tabela de frequências com 8 classes, valor sugerido pela regra empírica
enunciada quando da construção do histograma, e considerar como amplitude de classe o valor 1.54
(valor aproximado, por excesso, de (max-min)/8).Construímos uma tabela de frequências e o histograma
associado, utilizando a metodologia das PivotTables.:
O histograma sugere-nos um modelo Normal, pelo que, o passo seguinte será testar se efectivamente
tem sentido ajustar um modelo Normal aos dados. Uma questão que se levanta neste momento é a
seguinte: terá sentido estar a ajustar aos nossos dados um modelo com suporte R, isto é, que pode
assumir qualquer valor real, quando nós sabemos que isso não se passa com o comprimento do braço?
Mas se estamos renitentes em ajustar um modelo com suporte em R, talvez pensassemos que seria mais
+
razoável um cujo suporte fosse R , pois se temos a garantia que o comprimento não pode ser negativo,
não sabemos qual o valor máximo que devemos escolher. Ou poderíamos inventar um valor ao acaso
como limite superior, por exemplo 150 cm, mas com que legitimidade é que escolhemos este e não outro
valor? Também não devemos considerar o valor 60.7 como valor máximo, embora tenha sido o maior
valor da amostra que se recolheu. Ninguém nos garante que na população não haja homens com o
comprimento do braço superior a 60.7! Nesta altura, de reflexão sobre qual o modelo a adoptar,
recordemos o que se disse sobre a escolha de um modelo para traduzir um fenómeno aleatório – todos
os modelos são maus, alguns são úteis. No entanto, além do histograma nos sugerir o modelo Normal,
devido à semelhança com a função densidade da Normal, também dispomos de alguma informação
científica sobre este modelo; e são esses estudos que nos dizem que ele se aplica em situações de
fenómenos que possam ser considerados provenientes de uma contribuição aditiva de várias variáveis,
como é, por exemplo, o caso da variável em estudo. Então, em posse da informação sobre a
proveniência dos dados e dos resultados do estudo descritivo dos mesmos, estamos em condições de
propor o modelo Normal.
3º passo – Teste de ajustamento do modelo sugerido no passo anterior

Representando por X, a v.a. que representa o comprimento do braço, consideremos as seguintes

hipóteses:
H0: X∩N(µ,σ) contra H1: X N(µ,σ)
Para utilizarmos o teste de ajustamento do Qui-qudrado, as classes Ai têm que constituir uma partição do
suporte da v.a. X. Neste momento podemos seguir dois processos, nomeadamente: utilizar a tabela de
frequência anterior, procedendo às modificações adequadas nas classes, de forma a termos uma
partição, ou utilizar o processo enunciado anteriormente, para a formação das classes. Vamos
exemplificar os dois processos:
Processo 1 – Modificação da tabela de frequências, de forma a termos uma partição de R
Para obter uma partição, basta proceder a uma alteração conveniente na primeira e na última classe,
como se apresenta a seguir:
Para calcular estimativas das probabiliaddes pi, utilizámos o modelo Normal(55.14, 2.087), no Excel. Por
exemplo, para calcular a probabilidade do intervalo ]49.94, 51.48], colocámos o cursor na célula G19 e
escrevemos =NORMDIST(51,48;55,14;2,087;TRUE)-NORMDIST(49,94;55, 14;2,087;TRUE).
2
Como estimámos dois parâmetros a partir dos dados, a estatística de teste X , tem uma distribuição
2
assintótica dum χ (8-2-1), ou seja dum Qui-quadrado com 5 graus de liberdade.
Para tomar uma decisão calculámos o P-value, bastando colocar o cursor na célula J26 e escrever
=CHIDIST(I26;5):

Decisão: Não existe evidência para rejeitar a hipótese do modelo Normal.
Processo 2 – Admitindo que não tinha havido uma fase anterior, em que tinha sido necessário proceder a
um agrupamento dos dados, como no caso do exemplo que estamos a tratar, vamos exemplificar o
processo sugerido na secção anterior.
Temos n=250, donde k≤250/5. Vamos considerar k=10, isto é, 10 classes. Então os limites de classe a1,
a2, ..., a9, com a notação introduzida na secção referida, podem ser obtidos no Excel, da seguinte forma:
Uma vez as classes construídas, teremos de contar quais os valores observados. Utilizámos a seguinte
tabela feita no Excel, para determinar esses valores, assim como o valor observado da estatística de
teste:
A estatística de teste é a mesma, mas agora tem uma distribuição de amostragem dum Qui-quadrado
com 7=(10-2-1) graus de liberdade, uma vez que considerámos 10 classes e estimámos 2 parâmetros:

Decisão: Uma vez que o P-value é igual a 32.56%, não existe evidência para rejeitar a hipótese de que
os dados sejam provenientes de um modelo Normal.
4º passo – Transmissão dos resultados ao industrial têxtil
Agora, nesta fase, justificava-se uma conversa com o Sr. Silva, para a apresentação dos resultados.
Pode-se, no entanto, ir adiantando alguma informação, em termos de percentagens dos futuros
compradores das camisas. Assim, temos os seguintes números:
• Aproximadamente 68% dos homens têm o comprimento dos braços no intervalo [53, 57]
P(55.14-2.087≤X≤55.14+2.087)=φ(1)-φ(-1)= 2φ(1)-1≈0.68
P(55.14-2×2.087≤X≤55.14+2×2.087)=φ(2)-φ(-2)= 2φ(2)-1≈0.95
P(55.14-3×2.087≤X≤55.14+3×2.087)=φ(2)-φ(-2)= 2φ(3)-1≈0.997
Utilizando ainda o modelo Normal(55.14, 2.087), podemos ser um pouco mais precisos, informando o Sr.
Silva sobre os valores do 1º e 3º quartis, que são respectivamente 53.7 cm e 56.5 cm:
Assim, o industrial sabe que, por exemplo, só 25% dos homens é que têm o comprimento dos braços
inferior a 53.7 cm e que 50% dos homens têm o comprimento dos braços no intervalo [53.7, 56.5]. Esta
informação é importante, pois permite fazer uma programação adequada da percentagem de camisas
que devem ser fabricadas, para cada tamanho

5.2.4 ► Teste de Kolmogorov-Smirnov
Dada uma população X, contínua, pretende-se testar a hipótese

H0: X∩F(x) contra H1: X∩G(x) com F(x)≠G(x) para algum x
A metodologia seguida na realização do teste de Kolmogorov-Smirnov é a de utilizar a
função distribuição empírica Fn(x), que é um estimador consistente de F(x),
considerando como estatística de teste, uma estatística que seja uma medida da
distância entre a função distribuição empírica e a função distribuição F(x), postuladav
em H0.
Face à amostra aleatória (X1, X2, ..., Xn), consideremos a função distribuição empírica
 0 se x < X1:n
 i
Fn(x) =  se X i:n ≤ x < X i+1:n
 n
 1 se x ≥ X n:n
para i= 1, 2, ..., n-1. Se considerarmos X0:n=-∞ e Xn+1:n=+∞, podemos escrever mais

simplesmente
i
Fn(x) = Xi:n≤x<Xi+1:n, i=0, 1, 2, ..., n
n
Repare-se que nFn(x) é uma variável aleatória discreta, que assume os valores i, com
n
i=0, 1, 2, ..., n e P[nFn(x)=i]=   F(x)i[1-F(x)]n-i, para i=0, 1, 2, ..., n.
i
A v.a. n Fn(x) tem distribuição Binomial (n, F(x)), donde
E[nFn(x)]=nF(x) → E[Fn(x)]=F(x)
F( x )[1 − F( x )]
Var[nFn(x)]=nF(x) [1-F(x)] → Var[Fn(x)]=
n
Assim se conclui que Fn(x) é um estimador centrado e quando n → ∞ , é um estimador
consistente de F(x).
As estatísticas que se consideram são as seguintes:
• Estatística bilateral Dn= sup |Fn(x) – F(x)|
xεR
• Estatística unilateral D n+ = sup [Fn(x) – F(x)]

xεR

• Estatística unilateral D n− = sup [F(x) – Fn(x)]

xεR
As estatísticas unilaterais podem-se apresentar com outro aspecto, como vamos ver:
D n+ = sup [Fn(x) – F(x)]
xεR
 
= max  sup [Fn ( x ) − F( x )]
 i:n
0≤i≤n X ≤ x < X
i +1:n 
i 
= max  − inf F( x )

0 ≤ i≤ n n Xi:n ≤ x < Xi +1:n

i 
= max  − F( X i:n )

0 ≤ i≤ n n

 i  
= max max  − F( X i:n ), o
 1≤i≤n  n  
Analogamente
D n− = sup [F(x) – Fn(x)]

xεR
 
= max  sup [F( x ) − Fn ( x )]
 i:n
0 ≤ i≤ n X ≤ x < X
i +1:n 
 i
= max  inf F( x ) − 

0≤i≤n Xi:n ≤ x < Xi +1:n n
 i
= max F( X i+1:n ) − 
0≤i≤n
 n
  i 
= max  max F(X i + 1:n ) − , o
0 ≤ i ≤ n −1
  n  
  i − 1 
= max max F(X i:n ) − , o
 1≤ i ≤ n  n  
Resumindo, podemos escrever para as estatísticas de Kolmogorov-Smirnov (K-S):

 i  
• D n+ = max max  − F( X i:n ), o
 1≤i≤n  n  

  i − 1 
• D n− = max max F( X i:n ) − , o
1≤ i ≤ n  n  
• Dn= Max { D n+ , D n− }
donde concluímos que a distribuição das estatísticas de teste depende das variáveis
aleatórias F(Xi:n). Como F(Xi:n) é a iésima estatística ordinal de uma amostra cuja
distribuição subjacente é a uniforme no intervalo (0, 1), concluímos que a distribuição
das estatísticas de K-S é independente da distribuição considerada em H0, se esta for
absolutamente contínua.
Teorema 5.3 Se a função distribuição postulada em H0, F(.), for absolutamente

contínua, as estatísticas D n+ , D n− e Dn, têm distribuições independentes de F. As
distribuições exactas e assintóticas destas estatísticas encontram-se tabeladas.
Vejamos quais as regras de teste associadas às diferentes estatísticas de Kolmogorov-

Smirnov:
1. H0: X∩F(x) contra H1: X∩G(x) com F(x)≠G(x) para algum x
Utiliza-se a estatística Dn e face ao valor observado de Dn, dn, rejeita-se H0 se dn≥dn,α, onde
P(Dn≥dn,α) = α.
2. H0: X∩F(x) contra H1: X∩G(x) com G(x)≥F(x) para todo o x e para
algum x, G(x)>F(x)
Utiliza-se a estatística D n+ e face ao valor observado de D n+ , dn+ , rejeita-se H0 se dn+ ≥ dn+,α , onde
+ +
P( D n ≥ dn,α ) = α.
3. H0: X∩F(x) contra H1: X∩G(x) com G(x)≤F(x) para todo o x e para
algum x, G(x)<F(x)
Utiliza-se a estatística D n− e face ao valor observado de D n− , dn− , rejeita-se H0 se dn− ≥ dn−,α , onde
− −
P( D n ≥ dn,α ) = α.
Exemplo 5.5 Considere a seguinte amostra de dimensão 10, que se supõe proveniente de uma
população X, com distribuição uniforme no intervalo (0,1): 0.621, 0.503, 0.203, 0.477, 0.710, 0.581, 0.329,
0.480, 0.554, 0.382. Verifique se existem razões para duvidar da nossa suposição.
Vamos considerar o seguinte teste:

H0: X∩F0(x) contra H1: X não tem a distribuição F0(x) com
0 se x<0

F0(x)= x se 0 ≤ x < 1
1 se x ≥1

Vamos utilizar a estatística de teste bilateral Dn. Realizámos os cálculos numa folha de Excel
e concluímos que dn=0,290. Consultando uma tabela com a distribuição de D10, obtemos que o quantil de
probabilidade 95% é 0,409, d10,.05=0,409, pelo que tomamos a decisão de não rejeitar a hipótese nula,
uma vez que 0,290<0,409.
5.2.5 Comparação entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov
Vamos fazer a comparação entre estes dois testes de ajustamento, em termos das
vantagens e desvantagens de um e outro:
1. O teste do Qui-quadrado pode ser aplicado quando os dados são discretos ou

contínuos, enquanto que o teste de Kolmogorov-Smirnov pressupõe a
continuidade dos dados. A tabela com os pontos críticos da distribuição de
amostragem das estatísticas de teste de K-S só é exacte se a distribuição
subjacente aos dados for contínua. Caso contrário, os quantis conduzem a um
teste conservativo. Existe, no entanto, um processo para obter os pontos críticos
exactos quando a distribuição é discreta (consultar Conover).
2. O teste do Qui-quadrado pode ser facilmente modificado, de modo a permitir a

estimação de parâmetros a partir dos dados, enquanto que o teste de
Kolmogorov-Smirnov não tem essa flexibilidade. No entanto, existem algumas

distribuições importantes, como são o caso da Normal e da Exponencial, para os

quais existem tabelas com os valores corrigidos para os pontos críticos das
estatísticas de teste. O caso mais conhecido é o da Normal, chamando-se neste
caso teste de Lilliefors.
3. O teste de Kolmogorov-Smirnov trata as observações individualmente, enquanto

que o teste dfo Qui-quadrado discretiza os dados, procedendo ao seu
agrupamento, dando origem a perca de informação.
4. O teste de Kolmogorov-Smirnov é aplicável para o caso de pequenas amostras,

enquanto que o teste do Qui-quadrado é essencialmente para grandes amostras,
uma vez que só dispomos da distribuição assintótica da distribuição de
amostragem, da estatística de teste.

5.3.► Problema da localização e da localização e simetria – teste dos

Sinais e teste de Wilcoxon
5.3.1 ► Introdução
Seja (X1, X2, ...,Xn) uma amostra aleatória de dimensão n, proveniente de uma
população com função distribuição F(.) desconhecida. Admitiremos usualmente, no que
se segue, que F(.) é absolutamente contínua, com função densidade f(.).
Seja p um real que assume valores no intervalo (0, 1) e designemos por χ (F) o quantil
p
de probabilidade p, de F(.).
Um problema que tem interesse estudar é o chamado problema da localização, em que

se pretende testar:
H0: χ (F)= χ contra H1: χ (F)> χ ou

p 0 p 0
H1: χ (F)< χ ou
p 0
H1: χ (F)≠ χ
p 0
Um outro problema é o chamado problema da localização e simetria, em que se

pretende testar:
H0: χ (F)= χ e F(.) simétrica contra H1: χ (F)≠ χ ou F(.) não simétrica
0.5 0 0.5 0
O nosso objectivo vai ser o de encontrar estatísticas de teste convenientes, cuja

distribuição de amostragem, sob a validade de H0, seja conhecida.
Exemplo 5.6 Os passageiros que utilizam determinada carreira da Carris, na paragem de

Entrecampos, têm-se queixado alegando que o tempo que esperam pelo autocarro é demasiado, quando
a empresa afirma que a mediana do tempo de espera é inferior a 20 minutos. Haverá razão para duvidar
da afirmação da Carris?
Pretende-se testar se existe evidência para afirmar que a mediana da população constituída pelos
tempos de espera na referida paragem é superior a 20 minutos, ou seja:

H0: χ 0.5 (F)≤20 contra H1: χ 0.5 (F)>20
com base numa amostra de tempos de espera (em minutos) de 12 passageiros escolhidos
aleatoriamente e que foram 25, 15, 19, 16, 21, 24, 18, 18, 24, 28, 25, 21.
Vamos considerar para estatística de teste a variável aleatória R que representa o número de elementos
da amostra superiores a 20, e que sob H0 tem distribuição Binomial(12, 0.5). Como a hipótese alternativa
é que a mediana é superior a 20, então deveremos rejeitar a hipótese nula para valores grandes da
estatística de teste, pois se H1 fosse verdadeira, situação que nos levaria a rejeitar H, esperaríamos
encontrar, na amostra, muitos valores maiores que a mediana. No nosso caso tem-se r0=7, pelo que
vamos calcular o P-value, que é, neste caso, a probabilidade de encontrar um valor igual ou maior que o
valor observado, ou seja
P-value= P(R≥7|R∩B(12, 0.5))=0.387
Decisão: Não há evidência para rejeitar a afirmação da Carris (só rejeitaríamos a hipótese nula para
α≥38.7%).
Este exemplo que acabámos de apresentar é um exemplo de um teste, chamado teste

dos sinais, que vamos introduzir formalmente a seguir.
5.3.2 ► Teste dos Sinais
Consideremos uma população X contínua, com distribuição F(.), da qual se recolheu

uma amostra aleatória (X1, X2, ...,Xn), e sobre a qual pretendemos testar
H0: χ (F)= χ , ou seja P(X≤ χ )=p.

p 0 0
Sob a validade de H0 é de esperar que nos surjam np valores menores do que χ e

0
n(1-p) valores maiores do que χ , dos n valores da amostra. Vamos então considerar
0
uma estatística que conta o número de valores maiores do que χ :
0
n
Sn= ∑ I( X i − χ 0 ) =nº de sinais positivos na amostra {Xi - χ },
i=1
0
1 se X i > χ 0 com probabilidade (1 − p)

já que I(Xi - χ )= 
0 0 se X i ≤ χ 0 com probabilidade p
Então, sob Ho, Sn∩B(n, 1-p).

Como a região de rejeição vai depender da hipótese alternativa que se especificar,

consideremos, então, os seguintes casos:
1º caso:
H0: χ (F)= χ contra H1: χ (F)< χ

p 0 p 0
ou seja P(X≤ χ )=p P(X≤ χ )=p’>p

0 0
Se a hipótese alternativa for verdadeira, temos maior probabilidade de obter valores

menores que χ ou seja, esperamos obter menos valores, na amostra, maiores do que
0
χ 0 , do que os que esperaríamos obter se Ho fosse verdadeira. Então, devemos rejeitar
Ho para valores pequenos da estatística de teste:
Região de rejeição: 0, 1, ..., cα, onde P[Sn≤ cα | Sn∩B(n, 1-p)] ≤α
2º caso:
H0: χ (F)= χ contra H1: χ (F)> χ

p 0 p 0
ou seja P(X≤ χ )=p P(X≤ χ )=p’<p

0 0
Se a hipótese alternativa for verdadeira, temos menor probabilidade de obter valores

menores que χ ou seja, esperamos obter mais valores, na amostra, maiores do que
0
χ 0 , do que os que esperaríamos obter se Ho fosse verdadeira. Então, devemos rejeitar
Ho para valores grandes da estatística de teste:
Região de rejeição: c 'α c 'α +1, ..., n, onde P[Sn≥ c 'α | Sn∩B(n, 1-p)] ≤α
Temos ainda um 3º caso, em que o teste é bilateral, o qual será apresentado no resumo
que se segue, pois é uma situação que se deduz das duas anteriores:

Formalizando o teste em que aplicamos a estatística Sn e a que chamamos teste dos

Sinais, temos, para o nível de significância α:
H0 H1 Região de rejeição
χp (F)= χ 0 χp (F)< χ 0 Sn≤ cα
χp (F)> χ 0 Sn≥ c 'α
χp (F)≠ χ 0 Sn≤ c *α ou Sn≥ c '*α
cα
n
onde cα é o maior inteiro tal que ∑  i (1 − p) p i ( n −i )
≤α
i= 0  
n
n
c 'α é o menor inteiro tal que ∑  i (1 − p) p i ( n −i )
≤α
i= c 'α  
c *α
n
*
c é o maior inteiro tal que
α ∑  i (1 − p) p i ( n −i )
≤ α/2
i= 0  
n
n
e c '*α é o menor inteiro ∑  i (1 − p) p i ( n −i )
≤ α/2
i= c '*α  
Observação: Os valores da amostra que forem iguais a χ são desprezados,
0
diminuindo-se a dimensão da amostra em conformidade com o número de valores
desprezados.
Exemplo 5.7 Os dados seguintes referem-se ao peso (em Kg) de 12 crianças de 6 anos,
seleccionadas aleatoriamente, entre os alunos de uma escola primária: 22.3, 21.7, 19.6, 18.4, 17.7, 19.3,
18.5, 18.6, 17.8, 16.9, 21.4, 20.6. A tabela de pesos para crianças de 6 anos, indica que o valor do 1º
quartil é 19 kg. Uma técnica de saúde, que visitou a escola, apresentou um relatório, reclamando um
suplemento alimentar para as crianças, alegando que elas apresentavem um peso inferior ao tabelado.
Teste a veracidade desta afirmação. Qual o menor nível de significância que leva à rejeição da hipótese
de que as crianças apresentam um peso, dentro do que está tabelado?
Ho: χ 0.25 (F)=19 H1: χ 0.25 (F)<19

onde F é a função distribuição da v.a. X, que representa o peso das crianças de 6 anos. Vamos
considerar como estatística de teste a v.a. S12, que representa o número de crianças, na amostra, com
peso superior a 19, que sob Ho, tem distribuição Binomial(12, 0.75),
S12|Ho∩B(12, 0.75)

Rejeitamos Ho para valores pequenos da estatística de teste, cujo valor observado é s12 =6. Então
P(S12≤6)Ho =0.0544
Decisão: O menor nível de significância que nos levaria a rejeitar a hipótese nula seria α=5.44%. Para
α=10% há evidência para afirmar que as crianças têm peso inferior ao tabelado.
5.3.2.1 ► Teste dos Sinais para amostras emparelhadas
O teste dos sinais pode ser facilmente modificado para se aplicar a amostras
emparelhadas, quando se pretende comparar dois processos associados à amostra
bivariada (Ui, Vi), i=1, 2, ..., n e cujos resultados observados são os pares (ui, vi). Para
utilizar o teste dos Sinais, passamos à amostra Xi= Ui - Vi, admitimos que Xi tem
distribuição absolutamente contínua H(.) e as hipóteses que pretendemos testar são
relativamente a esta função. Uma hipótese que tem interesse testar é a de que a
mediana de X assume um determinado valor, que, sem perda de generalidade,
assumimos ser 0. Então, pretende-se testar
H0: χ (H)=0 contra H1: χ (H)≠0

0 .5 0 .5
Repare-se que a hipótese nula é equivalente a considerar que P(X>0)=P(X<0)=1/2, ou

P(U>V)=P(U<V)=1/2 ou P(+)=P(-)=1/2 e como hipóteses alternativas temos:
• P(U>V)<P(U<V) ⇔ P(+)>P(-) ⇔ χ (H)>0

0 .5
• P(U>V)<P(U<V) ⇔ P(+)<P(-) ⇔ χ (H)<0

0 .5
• P(U>V) ≠P(U<V) ⇔ P(+)≠P(-) ⇔ χ (H) ≠0

0.5
O teste dos sinais é o método não paramétrico, equivalente ao teste-t para amostras
emparelhadas.
Observação: Sempre que se verificarem ligações, isto é, valores ui=vi, esses valores
são desprezados, diminuindo-se a dimensão da amostra, do número de ligações
existentes.
Exemplo 5.8 Os dados seguintes referem-se ao número de batimentos cardíacos, por minuto, de 10
ratos quando sós ou quando na presença de outro rato. Pretende-se averiguar, se o facto de os ratos
estarem acompanhados, faz aumentar o ritmo cardíaco:

Rato 1 2 3 4 5 6 7 8 9 10
Só (U) 463 462 462 456 450 426 418 415 409 402
Acomp. (V) 523 499 461 535 476 454 448 408 470 437
Vamos considerar a amostra xi=ui-vi, proveniente de uma v.a. X, com distribuição H, pretendendo-se
testar:
H0: χ (H)=0 contra H1: χ (H)<0

0.5 0.5
Estatística de teste: S10|Ho∩B(10, 0.5)
Valor observado da estatística de teste: s10=2. Chamamos a atenção para o facto de não ser necessário
obter o valor dos xi, para calcular o valor observado da estatística de teste, já que o que nos interessam
são os valores positivos. Assim, basta conhecer o sinal da diferença entre os ui e os vi, como se
exemplifica a seguir, acrescentando mais uma linha à tabela anterior:
Rato 1 2 3 4 5 6 7 8 9 10
Só (U) 463 462 462 456 450 426 418 415 409 402
Acomp. (V) 523 499 461 535 476 454 448 408 470 437
- - + - - - - + - -
P-value: P=P(S10≤2)Ho =0.0547

Decisão: Rejeitar H0 para α≥5.47%, isto é, para valores do nível de significância superiores a 5.45%, há
evidência para afirmar que os batimentos cardíacos aumentam, quando os ratos estão acompanhados.
5.3.3 ► Teste de Wilcoxon
Ao ignorar a amplitude da diferença entre as observações e o quantil especificado na

hipótese nula, o teste dos Sinais está a desprezar grande parte da informação
disponível na amostra.
O teste de Wilcoxon é um teste alternativo ao teste dos Sinais, para populações

contínuas e simétricas, em que se pretende testar o seguinte:
H0: χ (F)= χ contra H1: χ 0.5 (F)> χ 0 ou
0 .5 0
H1: χ 0.5 (F)< χ 0 ou
H1: χ 0.5 (F)≠ χ 0

Sem perda de generalidade, vamos considerar χ =0, pois caso isso não se verifique,
0
considera-se a amostra {Xi- χ }.
0
Como nas populações simétricas a mediana e o valor médio coincidem, neste teste
podemos falar indiferentemente de valor médio ou mediana.
Para obter as estatísticas de teste, é necessário entrar com o conceito de ordem:

• Considera-se a amostra X1, X2, ..., Xn;
• Considera-se a amostra das estatísticas ordinais X1:n<X2:n<...<Xn:n (não
admitimos ligações);
• Chama-se ordem de Xj ao valor Rj tal que XRj:n=Xj, para 1≤j≤n.
Uma vez o conceito de ordem definido, vejamos como obter as estatísticas de
Wilcoxon:
1. Ordena-se a amostra Yj=|Xj|, onde (X1, X2, ..., Xn) é a amostra dada
(estamos a admitir que χ =0), onde Yj≠0 e não existem ligações;
0
2. Associa-se a cada Yj a sua ordem Rj, 1≤j≤n, mantendo-se informação
sobre o sinal original de Xj, 1≤j≤n.
As estatísticas de Wilcoxon são:
Tn+ = soma das ordens correspondentes aos X’s positivos
n
1 t > 0
= ∑ R I(X )i i em que I(t)= 
i =1 0 t < 0
Tn− = soma das ordens correspondentes aos X’s negativos
+
Tn= max( Tn , Tn− )
n(n + 1)
As estatísticas Tn+ e Tn− estão linearmente relacionadas, já que Tn+ + Tn− = ,
2
fornecendo, portanto, critérios equivalentes. Vamos considerar a estatística Tn+ , e
comecemos por fazer as seguintes considerações.
Sob a validade de H0, é de esperar que a soma das ordens positivas não difira
grandemente da soma das ordens negativas. Uma soma “grande” para as ordens
positivas (negativas), relativamente à soma das ordens negativas (positivas), implica

que a mediana tenha uma pequena probabilidade de ser igual a zero. Então, se
considerarmos a estatística de teste Tn+ , como nos propusemos, vejamos quais as
diferentes regiões de rejeição, face às alternativas usuais:
χ 0.5 (F)= 0 χ 0.5 (F)> 0 Tn+ ≥cα
χ 0.5 (F)< 0 Tn+ ≤ c 'α
χ 0.5 (F)≠ 0 Tn+ ≥ c *α ou Tn+ ≤ c '*α
Exemplo 5.9 Considerando a população constituída pelas percentagens de pessoas com idade maior
ou igual a 60 anos, nos diferentes países, retirou-se desta população uma amostra de dimensão 12,
cujos elementos são: 4.9, 6.0, 6.9, 17.6, 4.5, 12.3, 5.7, 5.3, 9.6, 13.5, 15.7, 7.7. Admitindo a simetria da
população, teste se existe evidência para duvidar que a mediana da população seja igual a 12.
Pretende-se então realizar o seguinte teste:
H0: χ 0.5 (F)= 12 contra H1: χ 0.5 (F)≠ 12
O valor da estatística de teste é igual a 14. Por outro lado T12+ + T12− =12*13/2=78, pelo que verificamos
que o valor observado para a estatística de teste é “demasiado” pequeno para o que estávamos à espera
se a hipótese nula fosse verdadeira! Efectivamente, se H0 fosse verdadeira, esperaríamos obter um valor

para a estatística de teste à volta de 39. Precisamos então de calcular a probabilidade de obter um valor
+
igual ou mais pequeno do que o valor observado para a estatística de teste, ou seja, P( T12 ≤14│H0), mas
para isso é necessário conhecer a distribuição de amostragem de T12+ . Admitindo, para já, a existência de
+
uma tabela com essa distribuição, verificamos que P( T12 ≤14│H0)=0.026. Então o P-value é igual a
0.052, pelo que a decisão a tomar é a de rejeitar a hipótese nula para α≥5.2%.
5.3.3 1 ► Distribuição de amostragem de Tn+
Para obter a distribuição de amostragem de Tn+ , vamos introduzir as seguintes variáveis

aleatórias:

Z(i)= 1 se o Y j = X j com ordem i corresponde a um X j positivo
0 caso contrário
Então, em termos dos Z(i), a estatística de teste Tn+ vem
n
Tn+ = ∑i Z
i =1
(i)
Vamos começar por obter a distribuição assintótica de Tn+ , pelo que temos de calcular
(caso existam!) o seu valor médio e variância, sob H0:
n
E( Tn+ )= ∑ i E(Z
i=1
(i) )
• E(Z(i)) = 1.P(Z(i)=1) = P(Yi:n corresponder a um Xj positivo) = 1/2 (porque sob H0

P(Xj <0)=P(Xj >0)=1/2)
• Var(Z(i)) = E(Z(i)2) – E2(Z(i)) = E(Z(i)) – E2(Z(i)) = 1/4
Então
1 n n(n + 1)
• E( Tn+ )= ∑
2 i=1
i=
4
1 n 2 n(n + 1)(2n + 1)
• Var( Tn+ )= ∑i =
4 i=1 24

Distribuição assintótica de Tn+
Para n grande a condição de Lindeberg é satisfeita, pelo que sendo válida uma
generalização do teorema limite central, vem que, sob H0, a distribuição de
n(n + 1)
Tn+ −
4 pode ser aproximada pela distribuição N(0,1)
n(n + 1)(2n + 1)
24
Distribuição exacta de Tn+
Para o caso de n ser pequeno, a distribuição de Tn+ fica completamente identificada

pelos z(i), i=1, 2, ..., n, pelo que o espaço amostral pode ser considerado como o
conjunto dos 2n n-énuplos (z(1), z(2), ..., z(n)) onde cada z(i)=0 ou 1.
Então, sob H0:
1. Tn+ =0 se todos os Xi’s forem negativos (z(i)=0, i=1, 2, ..., n);
n(n + 1)
2. Tn+ = se todos os Xi’s forem positivos (z(i)=1, i=1, 2, ..., n);
2
n(n + 1)
3. Tn+ é simétrica em torno do seu valor médio ;
4
nº de modos possíveis como se pode obter 

 
k somando inteiros distintos entre 1 e n  n(k)
4. P( Tn+ =k)=  = n
2n 2
Exemplifiquemos para o caso de n=3:

(z(1), z(2), z(3)) n(k)
T3+ = k +
P( T3 =k)
0 (0, 0, 0) 1 1/8
1 (1, 0, 0) 1 1/8
2 (0, 1, 0) 1 1/8
3 (1, 1, 0) 2 2/8
(0, 0, 1)
4 (1, 0, 1) 1 1/8
5 (0, 1, 1) 1 1/8
6 (1, 1, 1) 1 1/8

Observação: Como a v.a. é simétrica relativamente ao seu valor médio, bastaria

calcular a tabela anterior para os valores de k=0, 1, 2 e 3, uma vez que E( T3+ )=3.
Para valores de n pequenos, a distribuição exacta da estatística Tn+ encontra-se

tabelada. Se esta distribuição já não se encontrar tabelada para um determinado valor
de n, significa que podemos utilizar a distribuição assintótica.
No início da definição da estatística de teste de Wilcoxon, dissemos que não se

admitiam ligações, assim como os elementos da amostra eram diferentes da mediana.
Na realidade, tem sentido fazer estas hipóteses, já que se a distribuição da população
em estudo é contínua, a probabilidade de obter dois valores iguais, assim como a
probabilidade de obter valores iguais a um valor prefixado, são nulas. Na prática a
situação é diferente, uma vez que ao medirmos uma variável contínua, necessitamos
de a discretizar, o que faz com que surjam observações iguais entre si ou iguais à
mediana. No caso de existirem ligações, substituímos as ordens desses elementos,
pela média das ordens que teriam se diferissem ligeiramente uns dos outros, mas a
distribuição de amostragem da estatística de teste já não é a mesma. Vejamos o caso
simples de n=4 e de o 1º e 2º elementos y1:4 e y2:4 serem iguais, a que atribuímos a
média das ordens 1 e 2, ou seja 1.5:
0 1.5 3 4 4.5 5.5 6 7 8.5 10
T4+ = k
+ 1/16 2/16 2/16 1/16 2/16 2/16 1/16 2/16 2/16 1/16
P( T4 =k)
O valor médio é o mesmo, que no caso de não haver ligações, ou seja E( T4+ )=5, mas a
variância vem igual a Var( T4+ )=7.375, enquanto que no caso de não haver ligações viria
igual a 7.5 (=4*5*9/24). Efectivamente, se representarmos as ordens, no caso de haver
n n n n
∑ ∑ ∑ ∑i
1 1 1 1
ligações, por ri, tem-se que E( Tn+ )= ri =
+
i , mas Var( Tn )= ri2 ≠ 2
.
2 i=1
2 i=1
4 i=1
4 i=1
Na prática, como as variâncias não diferem muito, utiliza-se a distribuição da estatística,

como se não houvesse ligações.
Relativamente aos valores observados que possam surgir iguais à mediana, é usual
desprezá-los, diminuindo do mesmo número de unidades, a dimensão da amostra.

Exemplo 5.10 (Adaptado de Murteira, B., 2002) Os dados do quadro seguinte constituem uma
amostra de observações da precipitação anual em Beja. Pensa-se que a mediana da população é igual a
650 mm. Verifique se existem razões para duvidar desta hipótese.
607.4 592.8 513.3 602.3 809.1

809.1 345.4 527.4 672.0 721.8
488.8 620.0 497.6 581.1 533.9
481.1 407.7 728.4 464.0 384.2
Seja X a v.a. que representa a precipitação anual em Beja. Então, pretende testar-se
H0: P(X<650)=P(X>650)=1/2 contra H1:P(X<650)≠P(X>650)
Vamos utilizar este exemplo para o resolver pelo teste dos Sinais e pelo teste de Wilcoxon e comparar os
resultados.
Seja S20 a v.a. que representa o nº de elementos da amostra maiores que 650, ou seja, o nº de sinais
positivos nas diferenças (xi-mediana). Sob H0, S20 tem uma distribuição Binomial(20,0.5). Na tabela
anterior acrescentámos os sinais das diferenças
607.4(-) 592.8(-) 513.3(-) 602.3(-) 809.1(+)

809.1(+) 345.4(-) 527.4(-) 672.0(+) 721.8(+)
488.8(-) 620.0(-) 497.6(-) 581.1(-) 533.9(-)
481.1(-) 407.7(-) 728.4(+) 464.0(-) 384.2(-)
obtendo o valor observado da estatística de teste s20=5. Como se rejeita para valores “grandes” ou
“pequenos” da estatística de teste, vem que P-value=2 P(S20≤5)=2×0.0207=0.0414, donde temos a
seguinte decisão:
Rejeitar H0 para α≥4.14%.
Se pensarmos em termos da região crítica, temos que para o nível de significância de 5%, ela é
constituída pelos valores {0, 1, 2, 3, 4, 5, 15, 16, 17, 18, 19, 20}. Isto significa que nenhuma hipótese que
proponha uma mediana maior que 488.8 (observação de ordem 6, quando se considera a amostra
ordenada) ou menor que 620.0 (observação de ordem 15 quando se considera a amostra ordenada),
será rejeitada para o nível de significância de 5%. Desta conclusão podemos concluir que o intervalo
(488.8, 620.0) é um intervalo de confiança, com uma confiança de 95% para a mediana.
Admitindo que a distribuição F da precipitação é simétrica, vamos utilizar o teste de Wilcoxon na

resolução deste problema. As hipóteses a testar são as mesmas, embora as apresentemos com outro
aspecto:
H0: χ 0.5 (F)= 650 contra H1: χ 0.5 (F) ≠ 650

O valor observado para a estatística de teste foi 43, pelo que consultando a tabela da distribuição de
+
Wilcoxon, verificamos que P( T20 ≤43)=0.01, donde o P-value =0.02, pelo que temos a seguinte decisão:
Rejeitar H0 para α≥2%.

Comparando com o resultado obtido pelo teste dos Sinais, verificamos que agora rejeitamos mais vezes,
o que não deve estranhar, pois este teste foi realizado na posse de mais informação: não só admitimos a
simetria da distribuição, como utilizámos mais informação fornecida pelos dados.
5.3.3.2 ► Teste de Wilcoxon para amostras emparelhadas
O teste de Wilcoxon, como o teste dos Sinais, pode ser modificado para se aplicar a
amostras emparelhadas, quando se pretende comparar dois processos associados à
amostra bivariada (Ui, Vi), i=1, 2, ..., n e cujos resultados observados são os pares (ui,
vi). Para utilizar o teste de Wilcoxon, passamos à amostra Xi= Ui - Vi, admitimos que Xi
tem distribuição absolutamente contínua H(.) e simétrica e as hipóteses que
pretendemos testar são relativamente a esta função. Uma hipótese que tem interesse
testar é a de que a mediana ou valor médio de X assume um determinado valor, que,
sem perda de generalidade, assumimos ser 0. Então, pretende-se testar
H0: χ (H)=0 contra H1: χ (H)≠0
0 .5 0 .5

5.3.3.3 ► O teste de Wilcoxon e o teste-t
O teste de Wilcoxon é a versão não paramétrica do teste-t para uma única amostra.
Existem estudos (Montgomery, 1999) que comparam os dois testes e que concluem
que, de um modo geral, o teste de Wilcoxon nunca é muito pior do que o teste-t, e que
na maior parte das situações em que a população subjacente não é Normal, pode ser
superior. Temos assim uma alternativa bastante útil ao teste-t.
5.4.► Testes de hipóteses em modelos não paramétricos para testar a

homogeneidade de várias populações independentes
5.4.1 ► Comparação de duas populações independentes
5.4.1.1 ► Teste de Mann-Whitney Wilcoxon
Consideremos duas populações contínuas X e Y, independentes, em que assumimos

que as suas distribuições têm a mesma forma e variabilidade, só diferindo na
localização. Face a duas amostras independentes, pretende testar-se a sua
homogeneidade, isto é, dadas as amostras independentes (X1, X2, ..., Xm) e (Y1, Y2, ...,
Yn), respectivamente de X e Y, pretende testar-se
H0:FX(x)=GY(x) ∀ x contra H1: alternativa unilateral ou bilateral
O processo que se vai considerar para arranjar uma estatística dec teste, vai ser o de
considerar a amostra conjunta dos X’s e dos Y’s, considerando-se para estatística de
teste a v.a. que conta o nº total de Y’s que são maiores que os Xi, i=1, 2, ..., m. Assim,
considerando
1 Yj > X i
Zij=  para i=1, 2, ..., m; j=1, 2, ..., n
0 Yj ≤ X i
a estatística de Mann-Whitney-Wilcoxon é dada por

m n
W m,n = ∑∑ Z
i=1 j=1
ij cujo domínio de variação é o intervalo [0, mn]
Vejamos então qual a regra de teste, de acordo com a alternativa especificada:

FX(x)=GY(x) ∀ x FX(x)≥GY(x) ∀ x e para W m,n ≥cα

algum x, FX(x)>GY(x)
FX(x)=GY(x) ∀ x FX(x)≤GY(x) ∀ x e para W m,n ≤cα
algum x, FX(x)<GY(x)
FX(x)=GY(x) ∀ x FX(x)≠GY(x) para W m,n ≥ c *α ou W m,n ≤ c '*α
algum x
Observação: Chamamos a atenção para o facto de que dizer que F>G é equivalente a
dizer que X<Y, pois, como se verifica pela figura junta, dado um x qualquer, tem-se
P(X≤x)>P(Y≤x) ou P(X>x)<P(Y>x), isto é,

se F>G, então X toma valores menores
que x com maior probabilidade do que Y
toma valores menores que x, ou tem
menor probabilidade de tomar valores
maiores que x, do que Y.
Este facto faz com que, por exemplo, na primeira situação de teste considerada
anteriormente, se a hipótese alternativa em que admitimos que F>G, for verdadeira,
esperamos encontrar “muitos” Y’s maiores que X’s, na amostra conjunta (já que X<Y),
ou seja um valor “grande” para a estatística de teste. Assim, um valor “grande” para a
estatística de teste leva-nos a rejeitar a hipótese nula. Sabemos que um valor grande
deve situar-se próximo de mn, mas para saber qual o ponto crítico que, para um
determinado nível de significância define a fronteira entre a região de rejeição e a de
não rejeição, temos de conhecer a distribuição de amostragem da estatística de teste.
5.4.1.1 1 ► Distribuição de amostragem de Wm,n
Vamos começar por obter a distribuição assintótica de W m,n, pelo que temos de calcular
o seu valor médio e variância, sob H0:
m n m n
E(W m,n)= ∑∑ E(Z ij ) = ∑∑ P(Y j > X i )
i=1 j=1 i=1 j=1

m n m n
Var(W m,n)= ∑∑∑∑ Cov(Z , Z
i=1 j=1 h =1 k =1
ij hk )
Se H0 verdadeiro, P(Yj>Xi)=1/2, pelo que
mn
E(W m,n)=
2
No que diz respeito à variância, é necessário calcular E(ZijZhk), pelo que vamos
considerar o produto
1 se X i < Y j e X h < Yk
ZijZhk= 
0 caso contrário
Então, sob H0, E(ZijZhk)=P(Xi<Yj e Xh<Yk)=P(Xi<Yj) se i=h e j=k
=P(Xi<Yj)2 se i≠h, j≠k
=P(Xi<Yj, Xh<Yj) se i≠h, j=k ou i=h, j≠k
Para calcular as probabilidades anteriores, basta ter em consideração que, dados 3

elementos de uma amostra X1, X2 e X3, P(X1< X2)=1/2 e P(X1<X2, X3<X2)=2/6=1/3.
Atendendo a que Cov(Zij, Zhk)= E(ZijZhk) – E(Zij)E(Zhk), vem, sob H0:
Cov(Zij, Zhk)= 0 se i≠h, j≠k
1/4 se i=h e j=k
1/12 se i≠h, j=k ou i=h, j≠k
Assim, para obter a variância de W m,n, basta contar o nº de termos em que se verificam
cada uma das situações anteriores, e que é:
Se i=h, j=k o nº de termos é mn
j=k, i≠h “ n×m(m-1)
i=h, j≠k “ m×n(n-1)
mn(m + n + 1)
Finalmente temos que Var(W m,n)=
12
Resumindo, algumas propriedades da estatística W m,n, são:

• Domínio: {0, 1, 2, ..., mn}
mn
• E(W m,n)=
2
mn(m + n + 1)
• Var(W m,n)=
12
• É simétrica relativamente ao seu valor médio. Assim, P(W m,n≤w)=P(W m,n≥mn-w)
Distribuição assintótica de Wm,n
Para valores elevados de m e n, embora as variáveis Zij sejam dependentes, i=1, ..., m;
j=1, ..., n, continua a ser válido um teorema do tipo do teorema limite central, pelo que a
distribuição de amostragem de
mn
Wm,n −
2 pode ser aproximada pela distribuição N(0,1)
mn(m + n + 1)
12
A aproximação anterior é válida para valores suficientemente grandes de m e n e tais

que m/n, seja aproximadamente constante (os valores de m e n não devem diferir
muito).
Distribuição exacta de Wm,n
Para obter a distribuição exacta de W m,n sob a validade de H0, vamos representar a
função massa de probabilidade por pm,n(k)=P(W m,n=k)=P[nº de Zij em que Yj>Xi (na
amostra conjunta) igual a k], com K=0, 1, ..., mn. Considerando a amostra conjunta dos
X’s e dos Y’s, vamos calcular a probabilidade anterior condicionando no maior valor
dessa amostra conjunta, fazendo o seguinte raciocínio:
O maior elemento da amostra conjunta pode ser um elemento pertencente à amostra

m
dos X’s, o que ocorre com probabilidade (não esquecer que sob H0, existe
m+n
homogeneidade), ou pode ser um elemento pertencente à amostra dos Y’s, o que

n
ocorre com probabilidade . Por outro lado, para que W m,n venha igual a k:
m+n

• se o maior elemento for um Xi, é necessário que a amostra constituída pelos

outros (m-1) X’s e n Y’s, contribua com k Zij nas condições exigidas;
• se o maior elemento for um Yj, ele está a contribuir com m Zij para k e é
necessário que os restantes m X’s e (n-1) Y’s contribuam com (k-m).
Assim, pm,n(k)=P(W m,n=k)= P(o maior elemento ser um X)×P(Wm-1,n=k)+P(o maior

elemento ser um Y)×P(W m,n-1=k-m)
m n
pm,n(k)= pm-1,n(k)+ pm,n-1(k-m)
m+n m+n
A equação anterior, juntamente com as condições iniciais seguintes:
1. p0,n(0)=1
2. Pm,0(0)=1
3. Pm,n(k)=0, se k<0, e m,n≥0.
permite obter, de forma recursiva, a função massa de probabilidade de W m,n. Para
valores pequenos de m e n, esta distribuição encontra-se tabelada. Se os valores de m
e n pretendidos já não estiverem nas tabelas, significa que podemos utilizar a
distribuição assintótica.
5.4.1.1 2 ► O teste de Mann-Whitney-Wilcoxon e o teste-t para duas amostras
O teste de Mann-Whitney-Wilcoxon é a alternativa não paramétrica ao teste-t para duas

amostras independentes. Os resultados da comparação entre estes dois testes, são
idênticos aos referidos quando comparámos o teste de Wilcoxon e o teste-t para uma
única amostra. Acresce ainda o facto de que o teste-t, na presença de distribuições com
caudas pesadas, tem um comportamento muito instável pois depende muito das
médias amostrais, as quais são medidas pouco resistentes (Montgomery, 1999). Neste
caso o teste de Mann-Whitney-Wilcoxon é uma boa alternativa.
Exemplo 5.11 Dezassete estudantes foram escolhidos aleatoriamente para participarem num
projecto de investigação educacional. Assim, enquanto 8 estudantes seguiram um curso tradicional de
aprendizagem de uma língua, os restantes seguiram um curso de auto aprendizagem com cassetes
vídeo. Ao fim de 4 semanas realizaram um teste, tendo-se obtido os seguintes resultados:
Método tradicional: 75 82 28 82 94 78 76 64

Método auto aprendizagem: 78 95 63 37 48 74 65 77 63

Teste se existe evidência de diferença significativa entre os dois métodos.
Resolução: Representando por X e Y, respectivamente, os resultados obtidos pelo método tradicional e
pelo método de auto aprendizagem, com funções de distribuição F e G, respectivamente, pretendemos
testar
H0: FX(x)=GY(x) ∀x contra H1: FX(x)≠GY(x) para algum x
Estatística de teste: A v.a. W 8,9, que representa o número de vezes que os Y’s são superiores aos X’s, na
amostra conjunta. Para obter o valor observado para a estatística de teste, uma metodologia possível é a
seguinte:
1º passo: o primeiro “y” que surge na amostra dos y´s, ou seja o 78, é superior a 4 X’S;
2º passo: o segundo “y” que surge na amostra os y’s, ou seja o 95, é superior a 8 x’s;
....
9º passo: o último “y” que surge na amostra os y’s, ou seja o 63, é superior a 1 x’s.
Então, o valor observado da estatística de teste é
w8,9=4+8+1+1+1+2+2+4+1=24
os valores que a estatística de teste pode assumir, variam entre 0 e 72, pelo que se rejeitarmos H0, será
porque 24 é um valor demasiado pequeno, pelo que precisamos de calcular P(W 8,9≤24)
Da consulta das tabelas, verificamos que
P(W 8,9)>60≈0.01 e que P(W 8,9)>49) ≈0.10, pelo
As tabelas disponíveis só apresentam a P(W m,n>w),
que concluímos que P(W 8,9>47)>0.10 e temos um
donde P(W 8,9≤24)=P(W 8,9≥72-24)=P(W 8,9>47)
P-value>20%.
Decisão: Não temos razão para duvidar que os dois métodos sejam idênticos.
Exemplo 5.12 Dois plásticos, cada um produzido pelo seu processo foram testados para avaliar a
sua resistência. As medidas a seguir representam as forças necessárias para danificarem vários pedaços
idênticos dos dois tipos de plástico. Haverá razões para acreditar que o plástico 2 é mais forte que o
plástico 1?
Plástico 1: 15.3 18.7 22.3 17.6 19.1 14.8
Plástico 2: 21.1 22.4 18.3 19.3 17.1 37.7
Representando por F1 e F2, respectivamente a distribuição da força necessária para danificar o plástico 1
e o plástico 2, pretendemos testar:
H0: F1(x)=F2(x) ∀ x contra H1: F1(x)≥ F2 (x) ∀ x e para algum x F1(x)> F2 (x)
Estatística de teste: A v.a. W 6,6, que representa o número de vezes que os valores da amostra 2 são
superiores aos valores da amostra 1, quando se considera a amostra conjunta. O valor observado da
estatística de teste é w6,6=5+6+3+5+2+6=27.

Rejeitamos a hipótese nula para valores grandes da estatística de teste, pelo que pretendemos calcular
P(W 6,6≥27), ou seja P(W 6,6>26). Da consulta das tabelas
P(W 6,6>26)=.10
Decisão: Para o nível de significância de 10%, rejeitamos a hipótese dos dois tipos de ração serem
idênticos. Já não rejeitamos para 5% ou 1%.
Exemplo 5.13 Temos dois tipos de alimentação para porcos A e B, tendo-se começado a desconfiar
que a ração de tipo A é melhor que a de tipo B. Com base em amostras de pesos de porcos, com a
mesma idade e da mesma ninhada, mas em que uns foram alimentados com a ração A e os outros com
a ração B, verifique se a desconfiança tem razão de ser:
Ração A: 73 42 90 58 62
Ração B: 50 23 68 40 45
Resolução: Pretende-se testar
H0: FA(x)=FB(x) ∀ x contra H1: FA(x)≤FB(x) ∀ x e para algum x FA(x)<FB(x)
Estatística de teste: W 5,5 que representa o número de vezes que os pesos B’s são superiores aos A’s.
Valor observado da estatística de teste: w5,5=1+3+1=5
Rejeitamos a hipótese nula para valores pequenos da estatística de teste, pelo que pretendemos calcular
P(W 5,5≤5), ou seja P(W 5,5≤5)=P(W 5,5≥25-5)=P(W 5,5≥20)=P(W 5,5>19). Da consulta das tabelas
P(W 5,5>19)=.10
P(W 5,5>20)=.05
Assim P(W 5,5≤5)=P(W 5,5<6)= P(W 5,5>19)=0.10
Decisão: Para o nível de significância de 10%, rejeitamos a hipótese dos dois tipos de ração serem
idênticos. Já não rejeitamos para 5% ou 1%.
5.4.1.1 3 ► Forma alternativa para a estatística de Mann-Whitney-Wilcoxon
Por vezes, como estatística de Mann-Whitney-Wilcoxon, utiliza-se uma outra estatística,

que consiste em considerar a v.a.
n
Tm.n= ∑ R(Yi ) = soma das ordens dos Y’s na amostra conjunta
i=1
Como R(Yi)=(nº de X’s <Yi)+ordem de Yi nos Y’s, vem que

n n
n(n + 1)
Tm,n= ∑ R(Yi ) = ∑ nº de X' s < Yi ) + , donde
i=1 i=1
2

n(n + 1)
Tm,n=W m,n +
2
Observação: O cálculo directo do valor médio e da variância de Tm,n, prende-se com o

seguinte problema: Considerem-se N bolas numa urna, numeradas de 1 a N. Uma a
uma, retiram-se n dessas bolas, com n<N. Seja T a soma dos números das n bolas
retiradas. Assumindo que as tiragens são aleatórias, calcular o valor médio e a
variância de T.
Podemos considerar T como a soma de n variáveis aleatórias X1, X2, ..., Xn, onde cada
Xi é o número da i-ésima bola extraída:
k k = 1,2,..., N

Xi  1
 P( X i = k ) = N
N
1 N +1 N +1
Então E(Xi)= ∑ k = , pelo que E(T)=n
i=1 N 2 2
n n n
Quanto à Var(T)= ∑ Var ( X i ) + ∑∑ Cov( X i , X j ) (i≠j) (1)
i=1 i =1 j=1
Pode-se mostrar (Conover, pag 37 e segs) que
(N + 1)(N − 1) N +1
Var(Xi) = e Cov(Xi, Xj)=-
12 12
Como na expressão (1) o termo que contém a variância aparece n vezes e o que
contém a covariãncia aparece n(n-1) vezes, vem que
(N + 1)(N − 1) N +1
Var(T)=n +n(n-1)(- )
12 12
n(N + 1)(N − n)
=
12
Exemplo 5.13 Considere duas amostras independentes X1, X2, X3 e Y1, Y2 e a estatística de teste
T3,2, anteriormente considerada. Determine a sua distribuição de amostragem.
Resolução: Vamos considerar uma matriz, onde indicamos as ordens possíveis para Y1 e para Y2, na
amostra conjunta, preenchendo a tabela com a soma dessas ordens, como se apresenta a seguir

OrdemY1
Ordem Y2 1 2 3 4 5
1 X 3 4 5 6
2 2 X 3 4 5
3 4 5 X 7 8
4 5 6 7 X 9
5 6 7 8 9 x
Então a função massa de probabilidade para a estatística vem
T3,2=k 3 4 5 6 7 8 9
P(T3,2=k) .1 .1 .2 .2 .2 .1 .1
5.4.1.2 ► Teste de Kolmogorov-Smirnov para duas amostras

Consideremos duas populações contínuas X e Y, independentes, e duas amostras X1,
X2, ..., Xm e Y1, Y2, ..., Yn, respectivamente de X e Y. Com base nestas amostras
pretende-se testar a homogeneidade das populações subjacentes. No teste de
ajustamento de K-S, considerámos uma estatística de teste baseada na diferença entre
a função distribuição empírica construída a partir da amostra dada, e a função
distribuição da população subjacente à amostra. Agora vamos considerar uma
estatística de teste construída com base na diferença das funções de distribuição
empíricas construídas a partir das amostras dadas.
1. Processo para obter a estatística de teste
Começam por se considerar as estatísticas ordinais e as funções de distribuição
empíricas:
0 se x < X1:m
 k
X1:m, X2:m, ..., Xm:m e Fm* ( x ) =  se X k:m ≤ x < X k +:m k = 1,..., m - 1
m
 1 se x ≥ X m:m
e
 0 se x < Y1:n

 k
Y1:n, Y2:n, ..., Yn:n e Gn* ( x ) =  se Yk:n ≤ x < Yk +:n k = 1,..., n - 1
n
 1 se x ≥ Yn:n
2. Estatísticas de teste

Dm,n= sup Fm* ( x ) − G n* ( x )

x
[ ]
D m+ ,n = sup Fm* ( x ) − G n* ( x )
x
[ ]
D m− ,n = sup G n* ( x ) − Fm* ( x )
x
3. Regra de teste para o nível de significância α

Considerando como hipótese nula
H0: As duas amostras são provenientes de populações homogéneas, ou seja
FX(x)=GY(x), ∀ x, temos as seguintes hipóteses alternativas e as respectivas regiões de
rejeição:
a) H1: FX(x)≠GY(x) para algum x
Utiliza-se a estatística Dm,n e rejeita-se H0 quando Dm,n≥Dm,n,α onde P(Dm,n ≥ Dm,n,α)≤α
b) H1: FX(x) ≥GY(x) ∀ x e para algum x FX(x) >GY(x)
Utiliza-se a estatística D m+ ,n e rejeita-se H0 quando D m+ ,n ≥ D m+ ,n,α onde P( D m+ ,n ≥ D m+ ,n,α )≤α
c) H1: FX(x) ≤GY(x) ∀ x e para algum x FX(x) <GY(x)

Utiliza-se a estatística D m− ,n e rejeita-se H0 quando D m− ,n ≥ D m− ,n,α onde P( D m− ,n ≥ D m− ,n,α )≤α
4. Distribuição das estatísticas de teste

As distribuições das estatísticas de teste encontram-se tabeladas para pequenas
amostras.
Exemplo 5.14 Com o objectivo de estudar o efeito de determinado medicamento, foram recolhidas
amostras de dois grupos de indivíduos – um grupo de controlo, a quem foi dado um placebo e outro
grupo a quem foi administrado o medicamento. Os dados obtidos referem-se a uma variação de uma
determinada substância existente na urina, relativamente a um valor padrão:
Grupo de controlo: 0.22, -0.87, -2.39, -1.79. 0.37, -1.54, 1.28, -0.31, -0.74, 1.72, 0.38, -0.17, -0.62, -1.10,
0.30, 0.15, 2.30, 0.19, -0.50, -0.09
Grupo de tratamento: -5.13, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43, 7.11, 4.87, -3.10, -
5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.50
Verifique se existe evidência de que o tratamento tenha efeito, para um nível de significância de 5%.
Resolução: Representando por FC e GT, respectivamente as funções de distribuição das populações de
onde foram recolhidas as amostras de controlo e de tratamento, vamos fazer o teste bilateral, pelo que as
hipóteses a testar são:
H0: FC(x)=GT(x) ∀ x contra H1: FC(x)≠GT(x) para algum x

As funções de distribuição empírica são:

*
F20 (x)= 0 x<-2.39 G *20 (x)=0 x<-5.80
0.05 -2.39≤x<-1.79 0.05 -5.80≤x<-5.10
0.10 -1.79≤x<-1.54 0.10 -5.10≤x<-3.80
0.15 -1.54≤x<-1.10 0.15 -3.80≤x<-3.30
0.20 -1.10≤x<-0.87 0.20 -3.30≤x<-3.10
0.25 -0.87≤x<-0.74 0.25 -3.10≤x<-2.40
0.30 -0.74≤x<-0.62 0.30 -2.40≤x<-2.20
0.35 -0.62≤x<-0.50 0.35 -2.20≤x<-0.40
0.40 -0.50≤x<-0.31 0.40 -0.40≤x<0.07
0.45 -0.31≤x<-0.17 0.45 0.07≤x<0.50
0.50 -0.17≤x<-0.09 0.50 0.50≤x<1.63
0.55 -0.09≤x<0.15 0.55 1.63≤x<2.58
0.60 0.15≤x<0.19 0.60 2.58≤x<3.50
0.65 0.19≤x<0.22 0.65 3.50≤x<3.76
0.70 0.22≤x<0.30 0.70 3.76≤x<4.32
0.75 0.30≤x<0.37 0.75 4.32≤x<4.87
0.80 0.37≤x<0.38 0.80 4.87≤x<5.18
0.85 0.38≤x<1.28 0.85 5.18≤x<5.76
0.90 1.28≤x<1.72 0.90 5.76≤x<6.31
0.95 1.72≤x<2.3 0.95 6.31≤x<7.11
1.00 2.3≤x 1.00 7.11≤x
*
Então F20 (x) - G *20 (x)= 0 x<-5.80
0.15 0.15≤x<0.19
-0.05 -5.80≤x<-5.10 0.20 0.19≤x<0.22
-0.10 -5.10≤x<-3.80 0.25 0.22≤x<0.30
-0.15 -3.80≤x<-3.30 0.30 0.30≤x<0.37
-0.20 -3.30≤x<-3.10 0.35 0.37≤x<0.38
-0.25 -3.10≤x<-2.40 0.40 0.38≤x<0.50
-0.30 -2.40≤x<-2.39 0.35 0.50≤x<1.28
-0.25 -2.39≤x<-2.20 0.40 1.28≤x<1.63
-0.30 -2.20≤x<-1.79 0.35 1.63≤x<1.72
-0.25 -1.79≤x<-1.54 0.40 1.72≤x<2.30
-0.20 -1.54≤x<-1.10 0.45 2.30≤x<2.58
-0.15 -1.10≤x<-0.87 0.40 2.58≤x<3.50
-0.10 -0.87≤x<-0.74 0.35 3.50≤x<3.76
-0.05 -0.74≤x<-0.62 0.30 3.76≤x<4.32
0 -0.62≤x<-0.50 0.25 4.32≤x<4.87
0.05 -0.50≤x<-0.40 0.20 4.87≤x<5.18
0 -0.40≤x<-0.31 0.15 5.18≤x<5.76
0.05 -0.31≤x<-0.17 0.10 5.76≤x<6.31
0.10 -0.17≤x<-0.09 0.05 6.31≤x<7.11
0.15 -0.09≤x<0.07 0 7.11≤x
0.10 0.07≤x<0.15
O valor observado da estatístiva de teste é d20,20=0.45, como se pode verificar da diferença entre as
funções de distribuição empíricas, anteriormente considerada, e se pode visualizar na figura seguinte,
onde estão representadas graficamente essas funções:

Consultando uma tabela da distribuição D20,20, verificamos que P(D20,20≥0.45)=0.02. Então rejeitamos a
hipótese nula para α≥2%, pelo que rejeitamos a hitótese de que o tratamento não tem efeito, para o nível
de significância de 5%.
5.4.2 ► Comparação de mais de duas populações independentes
5.4.2.1 ► Teste de Kruskal-Wallis
Consideremos p (≥3) populações contínuas, independentes, X1, X2, ..., Xp, com funções
distribuição F1, F2, ..., Fp, de onde se recolheram, respectivamente, as amostras
X11, X12, ..., X1n1
X21, X22, ..., X 2n2
...
Xp1, Xp2, ..., X pnp
Com base nas amostras anteriores, pretende-se testar a hipótese nula de que as p
populações são homogéneas, contra a hipótese alternativa, de que pelo menos uma
das populações fornece observações maiores ou menores.
Para obter a estatística de teste, do mesmo modo que para o teste de Mann-Whitney,
vamos considerar a amostra conjunta, constituída pelas p amostras. No entanto, a partir
daqui vamos trabalhar com as ordens das observações, quando consideradas na
amostra conjunta, pelo que deixaremos de trabalhar com os dados originais. Vamos
delinear, a seguir, a filosofia que está por detrás do teste de Kruskal-Wallis.
p
Seja N a soma das dimensões das p amostras, N= ∑ n i , e representemos por R(Xij),
i=1
i=1,...,p; j=1,...,ni, a ordem de Xij, na ordenação das N observações, onde, se existirem

ligações, se associa a média das ordens. Representemos ainda por R1, R2, ..., Rp, a

soma das ordens das obervações correspondentes, respectivamente, às amostras 1, 2,

..., p:
ni
Ri= ∑ R( X ij ) , i=1, 2, ..., p
j=1
Se a hipótese nula for verdadeira, esperamos que a distribuição das ordens pelas
diferentes amostras se faça aleatoriamente, pelo que nem as ordens pequenas, nem as
ordens grandes terão tendência em concentrar-se numa das amostras. Assim, se se
verificar a homogeneidade entre as populações, esperamos que as p somas das ordens
das observações das p amostras, que representámos por Ri, sejam aproximadamente
iguais, depois de devidamente ajustadas para entrar em linha de conta com as
diferentes dimensões das amostras. Intuitivamente, uma possível estatística de teste,
poderia ser uma estatística que determinasse se as somas das ordens não são
substancialmente diferentes das que obteríamos se considerássemos populações
idênticas. Então, sob a hipótese de homogeneidade, temos que
ni ni ni
1 N n (N + 1)
E(Ri) = E( ∑ R( X ij ) ) = ∑ E(R( Xij )) = ∑ ∑ i= i
j=1 j=1 j=1 N i=1 2
e vamos considerar uma estatística que consiste na soma ponderada dos quadrados
dos desvios entre as somas das ordens e o valor médio anterior, utilizando como
coeficiente de ponderação os inversos das dimensões das amostras:
p 2
1  n i (N + 1) 
D= ∑ R i − 
i=1 n i  2 
(p − 1) N (N + 1)
Pode-se mostrar que E(D) = , utilizando-se então como estatística de
12
12
teste de Kruskal-Wallis a estatística D , que se representa por K n1 ,n2 ,...,np e que se
N(N + 1)
costuma apresentar com o seguinte aspecto:
p
12 R i2
K n1 ,n2 ,...,np = ∑ -3(N+1)
N(N + 1) i=1 ni

com valor médio (p-1), independente das dimensões das amostras. A fórmula anterior
obtém-se no pressuposto de que não existem ligações. Caso isso aconteça, é
necessário introduzir uma correcção, pelo que a estatística de teste a utilizar será:
1  p R i2 N(N + 1) 2 
K n1 ,n2 ,...,np = 2 ∑ − 
S  i=1 n i 4 
1  p ni 2 N(N + 1) 2 
∑∑ R ( X ij ) −
2
onde S= 
N − 1  i=1 j=1 4 
A distribuição de amostragem exacta (1), da estatística de teste, para valores pequenos
das dimensões das amostras, encontra-se tabelada. Se ni≥5 para algum i, i=1,..., p,
então a distribuição da estatística de teste pode ser aproximada pela distribuição do
Qui-quadrado, com (p-1) graus de liberdade (2).
Como regra de teste, rejeita-se a hipótese nula para valores grandes da estatística de
teste, ou seja, para o nível de significância α, rejeita-se H0, quando o valor observado
da estatística de teste for superior a um valor k n1,n2 ,...,np ,α , onde P( K n1 ,n2 ,...,np ≥ k n1 ,n2 ,...,np ,α )≤α.
Alternativamente, face ao valor observado K n01 ,n2 ,...,np da estatística de teste, calcula-se o
P-value, ou seja, P=P( K n1 ,n2 ,...,np ≥ K n01 ,n2 ,...,np ) e rejeita-se H0 para α ≥P.
(1) Distribuição de amostragem exacta para a estatística de Kruskal-Wallis

Para obter a distribuição exacta da estatística de teste K n1 ,n2 ,...,np , basta ter presente que,
sob H0, todos os arranjos das ordens de 1 até N, em grupos de tamanhos n1, n2, ..., np,
são igualmente prováveis. Calcula-se para cada um o valor da estatística de teste e
assim se obtém a f.m.p da estatística. No caso particular de p=3, n1=2, n2=1 e n3=1,
vem :
Arranjo Amostra
1(X1,X2) Ordens 2 (Y) Ordem 2(Z) Ordem K2,1,1
1e2 (X1,X2) ou (X2,X1) (1,2) 3 4 2.7
3e4 (X1,X2) ou (X2,X1) (1,2) 4 3 2.7
5e6 (X1,X2) ou (X2,X1) (1,3) 2 4 1.8
7e8 (X1,X2) ou (X2,X1) (1,3) 4 2 1.8
9 e 10 (X1,X2) ou (X2,X1) (1,4) 2 3 0.3
11 e 12 (X1,X2) ou (X2,X1) (1,4) 3 2 0.3
13 e 14 (X1,X2) ou (X2,X1) (2,3) 1 2 2.7
15 e 16 (X1,X2) ou (X2,X1) (2,3) 2 1 2.7
17 e 18 (X1,X2) ou (X2,X1) (2,4) 1 3 1.8

19 e 20 (X1,X2) ou (X2,X1) (2,4) 3 1 1.8

21 e 22 (X1,X2) ou (X2,X1) (3,4) 1 2 2.7
23 e 24 (X1,X2) ou (X2,X1) (3,4) 2 1 2.7
Da tabela anterior obtém-se para K2,1,1 a seguinte função massa de probabilidade:
K2,1,1=k 0.3 1.8 2.7

P(K2,1,1=k) 4/24 8/24 12/24
Como se disse anteriormente, para obter a distribuição de amostragem da estatística de

Kruskal-Wallis, não será necessário utilizar o processo anterior, pois embora simples, é
trabalhoso, mesmo para o caso de valores pequenos das dimensões das amostras, já
que estas distribuições se encontram tabeladas.
(2) Distribuição de amostragem assintótica para a estatística de Kruskal-Wallis

Na expressão da estatística de teste temos Ri, que é a soma de ni variáveis aleatórias,
pelo que para ni suficientemente grande, pelo Teorema Limite Central, a distribuição de
R i − E(R i )
pode ser aproximada pela distribuição N(0,1). Tendo em conta a observação
Var (R i )
N +1 n (N + 1)(N − n i )
feita na secção 5.4.1.1.3, E(Ri)=ni e Var(Ri)= i . Então, a distribuição
2 12
de
2
 R i − E(R i )  {R i − [n i (N + 1) / 2]}2
  =
 Var (R i )  n i (N + 1)(N − n i ) / 12
pode ser aproximada pela distribuição do Qui-quadrado, com 1 grau de liberdade. Se os
Ri fossem independentes (Conover, pag 235), a soma das p parcelas, idênticas à
expressão anterior, correspondentes às p v.a. Ri, teria uma distribuição aproximada de
um Qui-quadrado, com (p-1) graus de liberdade. No entanto a soma dos Ri é N(N+1)/2,
pelo que existe dependência. Kruskal mostrou que se a parcela correspondente à
variável Ri for multiplicada por (N-ni)/N, para cada i=1, 2, ..., p, então
p
{R i − [ni (N + 1) / 2]}2
∑
i=1 n i (N + 1)N / 12

tem uma distribuição assintótica de um Qui-quadrado, com (p-1) graus de liberdade. A

expressão utilizada como estatística de Kruskal-Wallis não é mais que um rearranjo dos
termos da expressão anterior.
Exemplo 5.15 Um produtor de vinhos seleccionou, aleatoriamente, 3 grupos de provadores de

vinhos, em que cada grupo provava o mesmo vinho. No entanto, cada provador tinha uma entrevista
pessoal, onde lhe era criada uma certa expectativa, quanto ao vinho que iria provar. Esta expectativa era
a mesma dentro de cada grupo, sendo maior para o grupo A e menor para o grupo C. Depois da prova,
cada provador tinha de atribuir uma classificação, numa escala de 1 a 10, em que 10 está no topo da
tabela. As classificações obtidas foram as seguintes:
Grupo A: 6.4, 6.8, 7.2, 8.3, 8.4, 9.1, 9.4, 9.7
Grupo B: 2.5, 3.7, 4.9, 5.4, 5.9, 8.1, 8.2
Grupo C: 1.3, 4.1, 4.9, 5.2, 5.5, 8.2
Verifique se existe evidência de que o método de sugestão utilizado para criar a expectativa, funcionou.
Resolução: Vamos utilizar o teste de K-W, para testar as hipóteses
H0: O método de sugestão não funcionou contra H1: O método de sugestão funcionou
No caso de H0 ser verdadeira, K8,7,6 tem uma distribuição assintótica de Qui-quadrado, com 2 graus de
liberdade.
A metodologia utilizada para obter o valor da estatística de teste de K-W, foi de inserir os dados de cada
grupo, em coluna, numa folha de Excel, indicando na coluna adjacente o grupo a que pertencem.
Ordenámos os dados (esta operação não era necessária, mas é conveniente para nos apercebermos
mais rapidamente da existência de observações iguais, uma vez que, neste caso, as ordens iguais vêm
consecutivas), sem perder a indicação do grupo a que pertencem e utilizando a função RANK do Excel
atribuímos ordens aos dados. No caso de haver observações iguais, substituímos a ordem que o Excel
atribui, pela média das ordens.

O valor observado para a estatística de teste foi de 9.84. Para calcular o valor anterior ignorámos as duas
ligações existentes. Para obter o p-value vamos utilizar a função do Excel CHIDIST(x;deg_freedom)
que, para o valor de x=9.83627 e deg_freedom=2, devolve o valor 0.007313, que é a probabilidade de
uma variável aleatória X, com uma distribuição de um Qui-quadrado, com 2 graus de liberdade, assumir
valores superiores a 9.83627, ou seja, o p-value=0.007313.
Decisão: Rejeitar a hipótese nula para valores de α≥0.7%.
Para utilizar o teste de Kruskal-Wallis, basta que os dados estejam na escala ordinal,
como se exemplifica a seguir:
Exemplo 5.16 Três instrutores decidiram comparar as pontuações dadas no semestre passado, para
averiguar se haveria algum com tendência para dar notas mais baixas. Estes instrutores fizeram parte de
um júri de avaliação, sendo o resultado da avaliação, sobre alunos do mesmo nível, o seguinte:
Pontuação Instrutor1 Instrutor2 Instrutor3

A 4 10 6
B 14 6 7
C 17 9 8
D 6 7 6
E 2 6 1

H0: Os instrutores dão pontuações análogas contra H1: Os instrutores não dão pont. análogas
A tabela anterior apresenta as classificações dadas, numa escala ordinal, em que, por exemplo, a
classificação A foi atribuída a 20 alunos, metade dos quais pelo instrutor2. Como se depreende, temos
dados com muitas ligações, nomeadamente 20 iguais a A, 27 iguais a B, etc. Vamos aproveitar a tabela
anterior para associar as ordens médias a cada uma das pontuações, de forma a calcular o valor
observado para a estatística de Kruskal-Wallis:
Ordens
Pontuação Instrutor1 Instrutor2 Instrutor3 Total linhas médias
21
A 4 10 6 20 (1-20) =10.5
2
21 + 47
B 14 6 7 27 (21-47) =34
2
48 + 81
C 17 9 8 34 (48-81) =64.5
2
82 + 100
D 6 7 6 19 (82-100) =91
2
101 + 109
E 2 6 1 9 (101-109) =105
2
Nº total de
estudantes 43 38 28
R1=4×10.5+14×34+17×64.5+6×91+2×105=2370.5
R2=10×10.5+6×34+9×64.5+7×91+6×105=2156.5
R3=6×10.5+7×34+8×64.5+6×91+1×105=1468
2
Neste caso temos de utilizar a expressão que dá o S para o caso de existirem ligações, obtendo
S2=941.71, donde vem para o valor observado da estatística de teste k43,38,28=0.3209. Sabendo que, se
H0 verdadeira, a distribuição da estatística de teste K43,38,28 é assintoticamente um Qui-quadrado com 2
graus de liberdade, obtemos para o p-value
P-value= P(K43,38,28 ≥ 0.3209)=0.8518 (calculado no Excel)
Decisão: Não existe razão para duvidar que os instrutores dão notas análogas.
5.4.2.1 1.► Comparações múltiplas (Conover, pag 231)
No caso da hipótese nula ser rejeitada, podemos utilizar o seguinte processo para
determinar quais os pares de populações que tendem a diferir. Podemos dizer que as
populações i e j têm tendência para serem diferentes, se a seguinte desigualdade for
satisfeita:
1/ 2 1/ 2
Ri R j  N − 1 − k n1 ,n2 ,...,np  1 1
− > t 1−α / 2 (N − p) S 2   + 
ni n j  N−p  n n 
   i j 

onde t1-α/2 é o quantil de probabilidade 1-α/2 de uma t-Student com (N-p) graus de
liberdade. O nível de significância α é o mesmo que o utilizado no teste de K-W.
Exemplo 5.15 (cont) Para este exemplo, uma vez que rejeitámos a hipótese nula para os níveis
usuais de significância, vamos utilizar o critério definido anteriormente para proceder às comparações
múltiplas. Vamo-nos fixar no nível de significância de 5%.
N(N + 1)  2 N − 1 − k n1,n 2 ,...,np 

2
S= =38.5; S  =21.73
12  N−p 
 
Da tabela anterior concluímos que existe tendência para que a população 1 seja distinta das populações
2 e 3, não havendo razão para dizer o mesmo sobre as populações 2 e 3.
5.4.2.2 ► Teste do Qui-quadrado em tabelas de contingência para testar a

homogeneidade
Consideremos p (≥2) populações independentes, X1, X2, ..., Xp, com funções
distribuição F1, F2, ..., Fp, de onde se recolheram, respectivamente, as amostras
X11, X12, ..., X1n1
X21, X22, ..., X 2n2
...
Xp1, Xp2, ..., X pnp
Com base nas amostras anteriores, pretende-se testar a hipótese nula de que as p
populações são homogéneas, contra a hipótese alternativa, de que pelo menos uma
das populações fornece observações maiores ou menores.
Consideremos uma partição da recta real em c classes A1, A2, ..., Ac e representemos
por nij=#{Xik, 1≤k≤ni; XikεAj}, 1≤i≤p; 1≤j≤c
Com a notação introduzida anteriormente, podemos construir a seguinte tabela de
contingência

A1 A2 q Aj q Ac
X1 n11 n12 n1j n1c n1
X2 n21 n22 n2j n2c n2
q
Xi ni1 ni2 nij nic ni
q
Xp np1 np2 npj npc np
n.1 n.2 n.j n.c
em que a margem vertical é fixa, isto é, é conhecida antes do preenchimento da tabela,

pois é constituída pelas dimensões das amostras recolhidas das p populações, que
representámos por X1, X2, q, Xp.
Representemos por pj|i, a probabilidade de um elemento da amostra Xi, pertencer à

classe Aj. A hipótese de homogeneidade que se põe é
H0: pj|1= pj|2=q= pj|p para 1≤j≤c
a qual vai ser testada contra a alternativa
H1: Existe um par (i,k) com i≠k, tal que pj|i ≠ pj|k
Para obter a estatística de teste e a respectiva distribuição de amostragem (assintótica),
vamos utilizar a seguinte metodologia, recordando o que fizémos quando estudámos o
teste de ajustamento do Qui-quadrado:
1. Se pjIi for conhecido , para todo o i, tal que 1≤i≤p
c (n ij − n i p jIi ) 2
∑j=1
n i p jIi
tem uma distribuição assintótica de um χ c2 −1
2. Como as amostras são independentes, temos p situações multinomiais

independentes, pelo que
p c (n ij − n i p jIi ) 2
∑∑
i=1 j=1
n i p jIi
tem uma distribuição assintótica de um χ p2(c −1)
3. Normalmente terão de se estimar os pjIi, pelo que se H0 verdadeira, teremos

n. j
como estimadores p̂ jIi = , com 1≤j≤c, dos quais só (c-1) são independentes,
n
c
já que ∑p
j=1
jIi =1
4. Então teremos como estatística de teste

n. j
p c (n ij − n i )2
X = ∑∑
2 n com uma distribuição assintótica de um χ (2p−1)(c −1)
i=1 j=1
p jIi
ni
n
já que p(c-1)-(c-1)=(p-1)(c-1).
Regra de decisão para o nível de significância α:
Rejeitar H0 para x2≥ χ 2(1− α ) (p−1)(c −1) (Quantil de probabilidade (1-α) de um χ (2p−1)(c −1) ).
Alternativamente, calcula-se para o valor observado x 02 , a probabilidade P=P(X2≥ x 02 ,) e
rejeita-se H0 para α≥P.
Exemplo 5.17 O Senhor Afonso, director da Academia de Manequins Continental, tem muito orgulho
na sua escola e argumenta que os seus manequins são melhores profissionais do que os da sua
concorrente, a Senhora D. Bárbara, dos Modelos Jovens. Numa avaliação destas duas escolas de
manequins, as classificações obtidas pelos manequins foram:
Muito Bom Suficiente Medíocre Total

Afonso 10 45 5 60
Bárbara 4 35 11 50
Total 14 80 16 110
Com base nas classificações, haverá evidência para duvidar de que as duas escolas fornecem
profissionais do mesmo nível?
Resolução: H0: P(Muito Bom|Afonso)= P(Muito Bom|Bárbara);
P(Suficiente|Afonso)= P(Suficiente|Bárbara);
P(Medíocre|Afonso)= P(Medíocre |Bárbara);
H1: Alguma das igualdades anteriores não se verifica
Estatistica de Teste: X2 que, sob H0, tem distribuição assintótica de um χ (22 −1)(3−1) .
Sob H0, o valor observado da estatística de teste, obtém-se da seguinte forma:

14 2 80 2 16 2 14 2 80 2 16 2
(10 − 60 × ) ( 45 − 60 × ) (5 − 60 × ) ( 4 − 50 × ) (35 − 50 × ) (11 − 50 × )
x 02 = 110 + 110 + 110 + 110 + 110 + 110 = 5.20
14 80 16 14 80 16
60 × 60 × 60 × 50 × 50 × 50 ×
110 110 110 110 110 110
Consultando uma tabela do Qui-quadrado com 2 graus de liberdade, ou o Excel, vem que
P(X
2
≥5.20)=0.074274.
Decisão: Rejeitar a hipótese de que os manequins das duas escolas têm o mesmo nível, para α≥7.43%.

5.5.► Testes de hipóteses em modelos não paramétricos para testar a

independência de várias populações
5.5.1 ► Teste do Qui-quadrado em tabelas de contingência para testar a

independência de duas populações
Consideremos uma amostra de dados bivariados (Xi, Yi), i=1, ...,n, tendo (X, Y) função
de distribuição conjunta F(x,y) com marginais F1(x) = F(x,+∞) e F2(y)=F(+∞,y).
Pretendemos testar
H0: F(x,y)=F1(x) F2(y) ∀(x,y)εR2 contra H1: F(x,y)≠F1(x) F2(y) para algum (x,y)εR2,
isto é, face a uma amostra aleatória (Xi, Yi), i=1,...,n, pretendemos testar a
independência do par (X,Y).
Para obter a estatística de teste começamos por dividir o suporte da variável aleatória X
em p classes A1, A2, ..., Ap, disjuntas e o suporte da variável aleatória Y em c classes
B1, B2, ..., Bc, disjuntas. Representemos por
c p
nij= #{(xk, yk): xkεAi, ykεBj}, ni.= ∑
j=1
n ij n.j= ∑n
i=1
ij
B1 B2 Bj Bc
A1 n11 n12 n1j n1c n1.
A2 n21 n22 n2j n2c n2.
Ai ni1 ni2 nij nic n3.
Ap np1 np2 npj npc np.

n.1 n.2 n.j n.c
pij= P(XεAi e YεBj) e pi.= P(XεAi), p.j= P(YεBj), i=1,...,p; j=1,...,c

Com a notação introduzida anteriormente, as hipóteses a testar têm a forma
H0: pij= pi.× p.j, ∀(i,j) contra H1: pij≠ pi.× p.j, para algum (i,j)
Estatística de teste:
Se as probabilidades pij forem conhecidas, a estatística de teste que se utiliza é
p c (n ij − np ij ) 2
X2= ∑∑ que, sob H0, tem uma distribuição assintótica de um χ (2pc −1)
i=1 j=1
np ij

Se as probabilidades pij não forem conhecidas, vamos substituí-las pelas suas

estimativas, as quais serão, se H0 verdadeira
) ) ) ) n ) n.j
p ij = p i. × p . j onde p i. = i. e p . j = .
n n
Então a estatística de teste tem a forma
p c (n ij − n i.n . j / n) 2
X2= ∑∑
i=1 j=1
n i.n . j / n
que, sob H0, tem uma distribuição assintótica de um χ (2p−1)(c −1) .
Observação: Como estimámos (p-1) + (c-1) parâmetros, o número de graus de

liberdade vem igual a pc-1-(p-1) –(c-1)=(p-1)(c-1).
Chama-se a atenção para o facto de, embora a expressão seja análoga à utilizada no
teste de homogeneidade, o significado da estatística de teste, aqui, é substancialmente
diferente. Assim, num teste de homogeneidade, uma das margens da tabela de
contingência é fixa, pois é constituída pelas dimensões das amostras que estamos a
testar. Num teste de independência, nenhuma das margens é fixa.
Regra de decisão para o nível de significância α:

Rejeitar H0 para x2≥ χ 2(1− α ) (p−1)(c −1) (Quantil de probabilidade (1-α) de um χ (2p−1)(c −1) ).
Alternativamente, calcula-se para o valor observado x 02 , a probabilidade P=P(x2≥ x 02 ,) e
rejeita-se H0 para α≥P.
Regra prática: Como a distribuição da estatística de teste é assintótica, convém que as

células não tenham valores esperados muito pequenos. Como regra prática, utiliza-se a
seguinte: No máximo, 20% das células podem ter frequência esperada <5 e nenhuma
célula deve ter frequência esperada <1.
Exemplo 5.18 Para estudar se haveria alguma relação entre a sensibilidade da pele ao Sol e a cor
dos olhos, considerou-se uma amostra de 100 pessoas que foram sujeitas a uma dose de raios ultra-
violetas, tendo-se obtido os seguintes resultados:
Reacção
++ + -
Azul 19 27 4
Cor dos olhos Cinzenta ou verde 7 8 5
Castanha 1 13 16
Tire conclusões.

Resolução: Vamos testar as seguintes hipóteses

H0: Existe independência entre a sensibilidade da pele e a cor dos olhos
Contra
H1: Não existe independência
2
A estatística de teste X tem uma distribuição assintótica de um χ (24 ) . O valor observado da estatística de
2 2
teste é x =25.13, donde P(X ≥25.13)<.0001, pelo que rejeitamos a hipótese nula. Assim, concluímos que
há evidência para dizer que a cor dos olhos não é independente da sensibilidade da pele.
5.5.2 ► Coeficiente de correlação ordinal de Spearman

Consideremos uma amostra de dados bivariados (Xi, Yi), i=1, ...,n, de uma população
contínua (X, Y).
Pretende-se arranjar um índice que sirva para medir a dependência ou inter-relação
entre a variável X e a variável Y.
Considera-se como hipótese nula

H0: Não existe relação entre as variáveis X e Y, isto é, elas são independentes.
Observação: Num modelo paramétrico e Normal, X e Y são independentes sse o

coeficiente de correlação ρ é igual a 0, isto é, testar H0 é equivalente a testar H0: ρ =0,
pelo que é natural usar o coeficiente de correlação amostral.
Processo para construir a estatística de teste:
O coeficiente de correlação ordinal de Spearman, RS, que é o índice que procuramos, é

essencialmente o coeficiente de correlação amostral, em que os Xi’s e os Yi’s são
substituídos pelas suas ordens:
n n
∑ (X i − X)( Yi − Y ) ∑ (R i − R )(S i − S )
R= i=1
→ RS= i=1
n n n n
∑
i=1
( X i − X) 2
∑
i =1
( Yi − Y ) 2
∑
i=1
(R i − R ) 2 ∑ (S
i=1
i − S)2
Para obter as ordens Ri= ordem de Xi e Si= ordem de Yi, ordenam-se as amostras dos
Xi’s e os Yi’s separadamente. Como se admite que têm distribuição contínua,

obteremos um único conjunto de ordens, isto é, não existem (teoricamente) ligações

entre os Xi’s, nem entre os Yi’s.
O facto de os dados com que estamos a trabalhar serem ordens, permite simplificar a
fórmula de RS. Para já, podemos escrever
n
∑R S i i − nR S
(1) RS= i=1
n n
( ∑R
i =1
2
i − n R 2 )( ∑S
i=1
2
i − nS 2 )
Representando por Di=Ri – Si
D i2 = R i2 + S i2 -2RiSi
n n n
n(n + 1)
∑i=1
Ri = ∑
i=1
Si = ∑i =
i=1
2
n n n
n(n + 1)( 2n + 1)
∑R = ∑ S = ∑i
i=1
2
i
i=1
2
i
i=1
2
=
6
Então
n
n
n(n + 1)( 2n + 1)
∑D 2
i
(2) ∑R S
i=1
i i =
6
- i=1
2
e
(n + 1)
(3) R =S=
2
Introduzindo em (1) as simplificações obtidas, vem

n
12 ∑R S i i
(n + 1)
RS= i=1
-3
n(n − 1)
2 n −1
ou
n
∑D 2
i
RS= 1 - 6 i=1
n(n − 1)
2

Observemos que as ordens de X e Y estão completamente de acordo sse Ri=Si, ∀i, e

em completo desacordo sse Ri = n+1 – Si.
A diferença Di entre Ri e Si mede o grau de não associação entre Ri e Si, no sentido de

n
n(n 2 − 1)
que Di=0 quando Ri=Si, o que implica RS=1 e ∑
i=1
D i2 =
3
quando Ri+Si=n+1, o que
implica RS=-1.
Assim, o grau máximo de associação verifica-se para |RS|=1:

Quando RS=1, existe uma associação directa;
Quando RS=-1, existe uma associação indirecta
Pequenos valores de RS, tendem a suportar a hipótese H0 de não associação entre X e
Y.
Regra de decisão, utilizando a estatística RS:
H0 H1 Rej H0 P-value, sob H0
Não existe Existe associação RS≥c1 P(RS≥r0)
associação directa
Existe associação indirecta RS≤c2 P(RS≤r0)
Existe associação |RS|≥c 2min[P(RS≤r0), P(RS≥r0)]
onde r0 é o valor observado da estatística de teste.
A partir da expressão de RS
n
12 ∑R S i i
(n + 1)
RS= i=1
-3
n(n − 1)
2 n −1
n
12 n +1
vem que E(RS)=
n(n 2 − 1)
E( ∑ R S ) -3 n - 1
i=1
i i
Sob H0, E(R i S i ) = E(Ri)×E(Si)

n +1 2
=( )
2
(Observação: Cada um dos Ri (ou Si) é uma v.a. que, sob H0, assume o valor i, i=1,...,n, com
probabilidade 1/n).
1
pelo que, E(RS) = 0. Pode-se demonstrar que, sob H0, Var(RS)= , donde, para n
n -1
grande a distribuição de
n - 1 RS pode ser aproximada pela N(0,1).

Cálculo da distribuição exacta da estatística RS
Para calcular os pontos críticos necessários para obter a região de rejeição,

necessitamos da distribuição de RS, sob a validade de H0.
Sem perda de generalidade, admitamos que Ri=i, para i=1,...,n. Então Di=i-Si, para
i=1,...,n. Sendo H0 verdadeiro, isto é, X e Y independentes, temos n! possibilidades para
os pares (i, Si), i=1,...,n, todas elas igualmente prováveis. Assim, sob H0,
nº depossibilidades para as quais R S = r
P(RS=r)=
n!
RS pode assumir valores pertencentes ao intervalo [-1, 1], e a distribuição de RS é

simétrica relativamente ao ponto 0.
Exemplo: Cálculo da distribuição exacta para n=3

n
12 ∑ is i
(s1, s2, s3) ∑ is i r= i=1
2
-3
(3 + 1)
3 −1
3(3 − 1)
(1, 2, 3) 14 1.0
(1, 3, 2) 13 .5
(2, 1, 3) 13 .5
(2, 3, 1) 11 -.5
(3, 1, 2) 11 -.5
(3, 2, 1) 10 -1.0
Então
RS=r -1 -.5 .5 1
PH0 (R S = r ) 1/6 2/6 2/6 1/6
Para n=4, obter-se-ia, de forma idêntica,
RS=r -1 -.8 -.6 -.4 -.2 0 .2 .4 .6 .8 1

PH0 (R S = r ) 1/24 3/24 1/24 4/24 2/24 2/24 2/24 4/24 1/24 3/24 1/24

Exemplo 5.19 Dois juízes ordenaram 4 provas do seguinte modo:

Juiz 1: 1 2 3 4
Juiz 2: 2 4 3 1
Verifique se haverá evidência da existência de associação entre as ordens.
Vamos testar as seguintes hipóteses:
H0: Não existe associação contra H1: Existe associação
Σi si = 2+8+9+4=23
O valor observado da estatística de teste é r0=-.4, donde P(|RS|≥.4)=18/24=.75, pelo que decidimos não
rejeitar H0.
Observação: No caso de existir um número pequeno de ligações, atribui-se a média das

ordens e usa-se a mesma distribuição para calcular o P-value.
5.5.3 ► Índice de Friedman

Do mesmo modo que a estatística de Kruskal-Wallis generaliza a estatística de Mann-
Whitney, também o índice de Friedman generaliza a ideia do coeficiente de correlação
ordinal de Spearman.
Suponhamos então que temos uma amostra aleatória (Xi1, Xi2, ..., XiI). i=1, ..., m, de
uma população de tipo contínuo, multivariada de ordem I.
Observação: No caso do coeficiente de correlação ordinal tínhamos

(X11, X12, ..., X1I)
(X21, X22, ..., X2I).
ou seja, m=2 ordenações.
As observações podem ser arranjadas em m linhas e I colunas, chamando-se blocos às

linhas e tratamentos às colunas.
Friedman sugeriu que se substituísse cada observação, pela sua ordem no bloco
respectivo. Admitamos que não existem ligações. Então, inicialmente tínhamos um
conjunto de observações, em que cada observação foi substituída pela sua ordem (no
bloco correspondente):

X11 X12 ... X1I R11 R12 ... R1I

X21 X22 ... X2I → R21 R22 ... R2I
... ... ... ...
Xm1 Xm2 ... XmI Rm1 Rm2 ... RmI
Muito possivelmente o conjunto dos dados para análise já nos são fornecidos na forma
de ordenações.
Outra forma de apresentar os dados é dizer que temos I objectos (tratamentos),

classificados por m juízes (blocos):
Obj 1 2 ... j ... I
Juiz
1 R11 R12 ... R1I
2 R21 R22 ... R2I
... ... ... ... ... ... ...
i Ri1 Ri2 ... RiI
...
m Rm1 Rm2 ... RmI
Em geral, quando vários juízes ordenam vários itens, ou quando obtemos várias
ordenações, esperamos que haja correlação entre as ordenações e é precisamente
isso que pretendemos testar. Assim, as hipóteses que nos interessam considerar são:
H0: Existe independência entre as ordenações (os tratamentos têm todos o mesmo
efeito)
contra
H1: Não existe independência entre as ordenações
Vamos utilizar uma estatística de teste muito semelhante à estatística de Kruskal-Wallis,

(K-W), na forma e na distribuição.
Para calcular a estatística de K-W, substituímos cada observação pela sua ordem, na
amostra conjunta, com o objectivo de comparar cada observação com outra qualquer.
Aqui não faz muito sentido comparar observações correspondentes a linhas diferentes,
pelo que a cada linha corresponde uma observação.

Seja Rj a soma das ordens correspondentes ao j-ésimo objecto, ou seja,

correspondente à j-ésima coluna, j=1, ..., I. Se existir independência entre as
ordenações, esperamos que sob H0
m m 1 I  m(I + 1)
E(Rj) = ∑ E(R ij ) = ∑ ∑ i

 I
=
2
i=1 i=1 i =1 
A soma dos quadrados dos desvios de Rj, relativamente a E(Rj) é, por conseguinte,
uma medida das diferenças nas classificações dos diferentes objectos. Seja
I 2
 m(I + 1) 
S= R j −
i=1 
∑ 2 

Pode-se mostrar que S será igual a 0 se todos os Rj forem iguais (R1=R2=...=RI =

m(I + 1)
), pelo que um valor grande desta estatística denotará um afastamento da
2
hipóteses dos Rj serem iguais ou sensivelmente iguais.
Pode-se mostrar que (ver mais à frente), sob H0:
m(I 2 − 1)
Var(Rj) =
12
m(I + 1)
Rj −
Então, a distribuição de 2 é assintoticamente N(0,1), pelo que
m(I 2 − 1)
12
2
 
m(I + 1) 
I R j −
 2  tem uma distribuição assintótica de um χ 2 , ou seja,
∑ 
j=1 
2
m(I − 1) 
 (I−1)
 12 
I 2
 m(I + 1) 
∑ R
12
F*= − tem uma distribuição assintótica de um χ (2I−1) . Mostraremos
2 
j
m(I 2 − 1)j =1
Im(I 2 − 1)
mais à frente que E(S)= , pelo que a estatística
12
I 2
 m(I + 1) 
∑
12
F= R j −
mI(I + 1) j=1  2 

tem valor médio (I-1), dependendo, portanto, unicamnete do número de objectos que se
pretendem ordenar. É esta estatística F, que se utiliza como estatística de Friedman.
Outra forma de apresentar a estatística F, é a seguinte
I
∑R
12 2
F= j -3m(I+1)
mI(I + 1) j=1
A distribuição exacta de F está tabelada, e a distribuição assintótica é, como vimos

anteriormente, um χ (2I−1) .
Regra de teste: Rejeitar H0, para valores grandes da estatística de teste.
Complementos:
m(I 2 − 1)
1) Mostrar que, sob H0, Var(Rj) =
12
Var(Rj)=E( R 2j ) – E2(Rj)
m
E( R 2j ) =E( ∑R i =1
ij )2
m m m
= ∑ E(R
i=1
ij ) +
2
∑∑ E(R
i=1 k =1
ij )E(R kj ) , com i≠k
I
(I + 1) 2
∑i
1
=m 2
+m(m-1)
I i=1
4
m(I + 1)
= [(I-1)+3m(I+1)]
12
m(I + 1)
Tendo em conta que E(Rj)= , vem o resultado pretendido.
2
Im(I 2 − 1)
2) Mostrar que E(S)=
12
I I
Im 2 (I + 1) 2 m(I + 1)
E(S) = ∑j=1
E(R 2j ) +
4
-2
2 ∑ E(R )
j=1
j
Im(I + 1) Im 2 (I + 1) 2 m(I + 1) Im(I + 1)

= [(I-1)+3m(I+1)]+ -2
12 4 2 2
Im(I 2 − 1)
=
12

Exemplo 5.20 Num festival da canção, em que concorreram 7 países, o júri, constituído por 3
elementos, ordenou as canções pela seguinte ordem:
Portugal Espanha França Suiça Itália Bélgica Reino Unido
Juiz 1 1 5 2 4 7 6 3
Juiz 2 5 2 1 4 6 3 7
Juiz 3 3 4 5 6 7 1 2
Soma ordens 9 11 8 14 20 10 12
Pretende-se saber se existe evidência de alguma das canções ser preferida, relativamente às restantes.
Resolução: Pretende-se testar as hipóteses
H0: Existe independência entre os juízes contra H1: Não existe independência
ou as canções são equivalentes ou algumas canções são melhores
A estatística de teste F tem, sob H0, uma distribuição assintótica de um χ (26 ) e o valor observado de F, é
∑R
12 2
f = j -9×8
3 × 7(7 + 1) j=1
1
= (81+121+64+196+400+100+144)-72
14
=7
Para I=7 e m=3, não temos a distribuição exacta da estatística de teste, pelo que utilizamos a distribuição
assintótica, obtendo-se.30<P(F≥7)<.40, pelo que decidimos não rejeitar H0, para os níveis usuais de
significância, ou seja, não há evidência para dizer que os juízes combinaram a classificação.
Exemplo 5.21 Decidiu-se testar 3 tipos de rações para animais. Escolheram-se 3 grupos de 5 porcos
cada um, em que cada grupo de porcos foi escolhido dentro da mesma ninhada. Apresentamos na
seguinte tabela, os aumentos de pesos (em Kg):
Ração 1 2 3 4 5
A 3.0 7.3 6.1 4.9 6.4
B 6.0 6.7 9.2 4.5 8.9
C 3.8 7.4 6.3 7.2 6.5
Pretende-se testar a hipótese
H0: Não existe diferença entre as rações, isto é, os “tratamentos” são equivalentes, ou ainda, existe
independência entre as ordenações
Para aplicar o teste de Friedman, vamos considerar as ordens
A B C
1 3 2
2 1 3
1 3 2
2 1 3
1 3 2
7 11 12

A estatística F tem, sob H0, uma distribuição assintótica de um χ (22 ) , e o valor observado de F é f=2.8.
Consultando a tabela para m=5 e I=3, verificamos que P(F≥2.8)>0.10, pelo que não rehjeitamos H0, ou
seja, não temos evidência para dizer que as rações não asão equivalentes.

Análise de Dados PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Dados PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de Dados

Introdução às técnicas de Amostragem

Maria Eugénia Graça Martins

Capítulo 1 – Introdução às técnicas de Amostragem

Capítulo 2 – Introdução à estimação

Capítulo 4 – Testes à igualdade de duas populações

Capítulo 5 – Métodos não paramétricos

Introdução às técnicas de amostragem 1

1.1 ► Introdução – A Estatística estuda a variabilidade apresentada

Podemos então, e tal como refere David Moore em Perspectives on Contemporary

Maria Eugénia Graça Martins

1.2 ► Probabilidade e Estatística

A Probabilidade é o instrumento que permite ao estatístico utilizar a informação

Maria Eugénia Graça Martins

Com este exemplo procuramos exemplificar o papel relativo da Probabilidade e da

Para esclarecer melhor esta ideia, consideremos ainda os seguintes exemplos:

EXEMPLO 1.2 (Adaptado de Murteira, B. et al., 2002) Consideremos um conjunto numeroso de

Maria Eugénia Graça Martins

P(T>200) = 1 – F(200) = exp(-2) = 0.135

Maria Eugénia Graça Martins

P(X=k) = (1-p)k-1p, k=1, 2, ...

Se conhecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretendida:

P(X=10) = (1-0.06)9 0.06 = 0.034

Maria Eugénia Graça Martins

Os exemplos apresentados anteriormente mostram a importância de encontrarmos

Na secção seguinte abordamos o problema da aquisição de dados e a sua importância

1.3 ► Aquisição de dados

Abordaremos de seguida (Graça Martins, M. E., 2005) algumas das técnicas de

Sondagens e Experimentações (aleatoriezadas)

Gostaríamos desde já de realçar que o objectivo desta secção é o de explorar, de uma

Não é demais realçar a importância desta fase, a que chamamos de Produção ou

Maria Eugénia Graça Martins

Sondagem, População, Amostra

População, unidade, amostra

O objectivo de uma sondagem é o de recolher informação acerca de uma população,

Sondagem – Estudo estatístico de uma população, feito através de uma amostra,

Se se observarem todos os elementos da população tem-se um recenseamento

Geralmente, há algumas quantidades numéricas acerca da população que se

Maria Eugénia Graça Martins

No entanto, para se poder utilizar as estatísticas – estimadores, para estimar

Amostra enviesada. Amostra aleatória e amostra não aleatória.

Um processo de amostragem diz-se enviesado quando tende sistematicamente a

Surge assim, a necessidade de fazer um planeamento da amostragem, onde se

Normalmente obtêm-se amostras enviesadas quando existe a intervenção do factor

Maria Eugénia Graça Martins

Quando se pretende recolher uma amostra de dimensão n, de uma População de

1.3.2 ► Técnicas de amostragem aleatória

Seguidamente apresentaremos algumas dos planeamentos mais utilizados para

1.3.2.1 ► Amostra aleatória simples

Se uma população tem dimensão N e se pretende uma amostra aleatória simples de

Maria Eugénia Graça Martins

escolhida sequencialmente da população, escolhendo um elemento de cada vez, sem

Como seleccionar uma amostra aleatória simples?

1. Para seleccionar uma amostra aleatória simples, teoricamente o processo mais

Maria Eugénia Graça Martins

Apresenta-se a seguir um extracto de uma tabela de números aleatórios (Moore, 1997).

A partir da tabela de dígitos aleatórios podem-se obter números aleatórios de 2 dígitos -

Para seleccionar uma amostra de uma população utilizando a tabela procede-se em

1. atribui-se um número a cada elemento da população. Esta atribuição terá de

2. a partir da tabela escolhe-se uma linha ao acaso e começa-se a percorrê-la da

Maria Eugénia Graça Martins

Como obter uma tabela de números aleatórios?

Um processo poderá consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e