Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatisca Apo Completa PDF
Estatisca Apo Completa PDF
Probabilidade e Estatstica
Com complementos de Excel
Amostra?
Populao?
ISBN 972889003-6
Depsito Legal n 228501/05
Junho 2005
Nota prvia
rea de Probabilidades e Estatstica, dando uma viso geral do que que se pretende com a
Estatstica e qual a sua utilidade, e ainda porque que necessrio saber Probabilidade, para
fazer Estatstica.
Nesta edio, revista a partir de uma edio de 2000, introduzimos alguns complementos de
Excel. Embora esta folha de clculo no seja um software de Estatstica, j nos permite fazer
muita da Estatstica necessria, a nvel elementar, e tem a grande vantagem de estar acessvel
tambm que o saber trabalhar com esta folha de clculo, permitir minimizar os erros e as
No pretendemos apresentar estas folhas como um produto acabado, mas sim como um novo
passo para um trabalho que possa ser continuamente melhorado com as crticas e sugestes,
que desde j agradeo, da parte dos alunos a que se destinam e da parte dos colegas.
A autora
Aos meus alunos
ndice
Captulo 1
O que a Estatstica 1
1.1 Introduo 1
1.2 Aquisio de dados: sondagens e experimentaes. Populao e amostra 2
1.2.1 Sondagens 2
Tcnicas de amostragem aleatria 6
Amostra aleatria simples 6
Como obter uma tabela de nmeros aleatrios 8
Utilizao do Excel na seleco de uma amostra aleatria simples 8
Amostra aleatria sistemtica 12
Amostragem estratificada 12
Amostragem por Clusters ou grupos 13
Amostragem multi-etapas 13
Utilizao do Excel na seleco de uma amostra aleatria sistemtica 13
Qual a dimenso que se deve considerar para a amostra? 14
Pode-se aumentar a preciso estratificando? 17
1.2.2 Experimentaes 19
1.3 Explorao de dados 21
1.4 Inferncia Estatstica 22
1.5 Estatstica Descritiva e Inferncia Estatstica 23
Interpretao do intervalo de confiana 25
1.6 Exemplos de aplicao da Estatstica 26
Exerccios 28
Captulo 2
Anlise, representao e reduo de dados 29
2.1 Introduo 29
2.2 Tipos de dados 30
2.2.1 Dados qualitativos 30
Variveis nominais 30
Variveis ordinais 30
2.2.2 Dados quantitativos 33
Variveis intervalares 33
Variveis percentuais 33
Outras classificaes 33
Como organizar os dados 34
2.2.2.1 Organizao de dados discretos 34
2.2.2.2 Organizao de dados contnuos 35
Utilizao do Excel na obteno de tabelas de frequncia 37
2.3 Representao grfica de dados 43
2.3.1 Variveis discretas. Diagrama de barras 43
Utilizao do Excel na construo de diagramas de barras 44
2.3.2 Variveis contnuas. Histograma 46
Utilizao do Excel na construo de histogramas 48
2.3.3 Outras representaes grficas 50
2.3.3.1 Diagrama circular 50
2.3.3.2 Caule-e-folhas 51
Utilizao do caule-e-folhas para comparar duas amostras 55
Utilizao do Excel na construo de um caule-e-folhas 56
2.3.3.3 Funo distribuio emprica 58
2.3.3.4 Box-plot ou Box-and-whisker plot (caixa-com-bigodes) 61
Utilizao do Excel na construo de uma Box-plot 66
Exerccios 69
2.4 Dados bivariados 73
Utilizao do Excel na construo de uma tabela de contingncia 77
Exerccios 79
Captulo 3
Caractersticas amostrais 81
3.1 Introduo 81
3.2 Medidas de localizao 82
3.2.1 Mdia 82
3.2.2 Mediana 86
3.2.3 Quantis. Quartis e quartos 88
3.2.4 Mdias aparadas e trimdia 89
3.2.5 Moda 90
Exerccios 91
3.3 Medidas de disperso 94
3.3.1 Varincia 94
3.3.2 Desvio padro 95
3.3.3 Amplitude inter-quartil 98
3.3.4 Disperso relativa 99
Exerccios 100
Utilizao do Excel na obteno das estatsticas descritivas 101
3.4 Associao de variveis 102
3.4.1 Coeficiente de correlao 102
Utilizao do Excel na construo do diagrama de pontos e
no clculo da correlao 108
Exerccios 109
3.4.2 Associao de variveis qualitativas 109
Paradoxo de Simpson 112
Exerccio 115
Captulo 4
Regresso 117
4.1 Introduo 117
4.2 Recta dos mnimos quadrados 118
Utilizao do Excel na construo da recta de regresso 123
Exerccios 123
Captulo 5
Probabilidade 125
5.1 Introduo 125
5.2 Experincia aleatria. Espao de resultados. Acontecimentos 130
5.2.1 Operaes com acontecimentos 136
5.3 Probabilidade de um acontecimento 138
5.3.1 Probabilidade frequencista 139
Utilizao do Excel na simulao de experincias aleatrias 142
5.3.2 Probabilidade Laplaciana (ou definio clssica) 145
5.3.3 Probabilidade subjectivista ou Bayesiana 147
5.3.4 Definio axiomtica de Probabilidade 148
Propriedades da Probabilidade 150
5.4 Probabilidade condicional. Acontecimentos independentes 152
5.4.1 Probabilidade condicional 152
rvore de probabilidades 157
5.4.2 Probabilidade da Interseco de acontecimentos ou probabilidade
conjunta dos acontecimentos A e B ou regra do produto 159
5.4.3 Acontecimentos independentes 160
5.5 Teorema de Bayes 163
Teorema da Probabilidade Total 165
Exerccios 166
Captulo 6
Variveis aleatrias 173
6.1 Introduo 173
6.2 Varivel aleatria 173
6.2.1 Varivel aleatria discreta 175
Funo massa de probabilidade 177
Utilizao do Excel na simulao da experincia do lanamento 180
de trs dados
6.2.2 Varivel aleatria contnua 181
6.3 Funo distribuio 182
6.4 Funo densidade de probabilidade 186
Exerccios 189
6.5 Pares de variveis aleatrias 191
6.5.1 Introduo 191
6.5.2 Distribuio de probabilidade conjunta 191
6.5.3 Variveis aleatrias independentes 193
Exerccios 193
Captulo 7
Caractersticas populacionais 195
7.1 Introduo 195
7.2 Valor mdio 196
Lei dos grandes nmeros 197
7.2.1 Propriedades do valor mdio 199
7.3 Quantil de probabilidade p 200
Mediana 201
7.4 Varincia (populacional) 202
7.4.1 Desvio padro (populacional) 202
7.5 Covarincia 204
7.5.1 Coeficiente de correlao 205
7.6 Regresso de Y em X 206
Coeficiente de determinao 210
Exerccios 211
Captulo 8
Alguns modelos de probabilidade 213
8.1 Introduo 213
8.2 Modelos discretos 214
8.2.1 Modelo Uniforme 214
8.2.2 Modelo Binomial 214
Amostragem com reposio 219
Amostragem sem reposio em populaes infinitas 219
8.2.3 Modelo Binomial Negativa 220
8.2.4 - Modelo de Poisson 223
Aproximao da distribuio Binomial pela distribuio de Poisson 224
8.2.5 Modelo Hipergomtrico 228
Utilizao do Excel para calcular probabilidades dos Modelos
Discretos 231
8.3 Modelos contnuos 233
8.3.1 Modelo Normal 233
8.3.2 Modelo Uniforme 238
Transformao uniformizante 240
8.3.3 Modelo Exponencial 240
Utilizao do Excel para calcular probabilidades dos Modelos
Contnuos. 241
8.4 Compreender a simulao 242
Utilizao do Excel para gerar nmeros pseudo-aleatrios com
determinadas distribuies 244
Exerccios 244
Captulo 9
Distribuies de amostragem 249
9.1 Introduo 249
9.2 Distribuio de amostragem da mdia 251
9.2.1 Valor mdio e desvio padro da mdia 251
9.2.2 Distribuio da mdia para populaes Normais 252
9.2.2.1 Desvio padro conhecido 252
9.2.2.2 Desvio padro desconhecido 252
9.2.3 Distribuio da mdia para populaes no Normais. Teorema
do Limite Central 253
Aplicaes do Teorema Limite Central 258
Aproximao da Distribuio Binomial, pela Normal 258
Aproximao da Distribuio de Poisson, pela Normal 259
9.3 Distribuio de amostragem da proporo 262
9.3.1 Valor mdio e varincia do estimador da proporo populacional 265
9.3.2 Distribuio de amostragem do estimador da proporo 265
Exerccios 266
Captulo 10
Introduo Estimao 269
10.1 Noes prelimunares sobre estimao. Estimadores pontuais e intervalares 269
10.2 Estimao da proporo. Intervalo de confiana 270
Confiana e preciso 273
10.3 Estimao do valor mdio. Intervalo de confiana para o valor mdio 275
10.3.1 Intervalo de confiana para o valor mdio conhecido 275
10.3.2 - Intervalo de confiana para o valor mdio desconhecido 278
Utilizao do Excel para obter quantis da Normal e da t-Student 281
Exerccios 281
Captulo 11
Introduo aos testes de hipteses 285
11.1 Introduo 285
11.2 Outros exemplos 287
11.3 Hiptese nula e Hiptese alternativa; erros de tipo 1 e tipo 2;
estatstica de teste; regio de rejeio 288
11.4 Testes de hipteses sobre a proporo p 290
11.4.1 Determinao dos pontos crticos para grandes amostras 293
11.4.2 P-value 293
11.5 Vamos conversar acerca de testes 294
11.6 - Testes de hipteses sobre o valor mdio 297
11.6.1 P-value 300
Exerccios 300
Captulo 12
Introduo aos testes de ajustamento 305
12.1 Introduo 305
12.2 Generalizao do modelo Binomial: o modelo Multinomial 305
12.3 Teste de ajustamento do Qui-quadrado para variveis qualitativas 307
12.4 - Teste de ajustamento do Qui-quadrado para variveis quantitativas discretas 311
12.5 - Teste de ajustamento do Qui-quadrado para variveis quantitativas contnuas 313
Exerccios 319
Bibliografia 321
Introduo Probabilidade e Estatstica 1
Maria Eugnia Graa Martins DEIO- 2005
Captulo 1
O que a Estatstica?
1.1 - Introduo
No uma tarefa simples definir o que a Estatstica. Por vezes define-se como sendo um
conjunto de tcnicas de tratamento de dados, mas muito mais do que isso! A Estatstica uma
"arte" e uma cincia que permite tirar concluses e de uma maneira geral fazer inferncias a
partir de conjuntos de dados.
At 1900, a Estatstica resumia-se ao que hoje em dia se chama Estatstica Descritiva. Apesar de
tudo, deu contribuies muito positivas em vrias reas cientficas.
A necessidade de uma maior formalizao nos mtodos utilizados, fez com que, nos anos
seguintes, a Estatstica se desenvolvesse numa outra direco, nomeadamente no que diz
respeito ao desenvolvimento de mtodos e tcnicas de Inferncia Estatstica. Assim, por volta de
1960 os textos de Estatstica debruam-se especialmente sobre mtodos de estimao e de
testes de hipteses, assumindo determinadas famlias de modelos, descurando os aspectos
prticos da anlise dos dados.
Porm, na ltima dcada, em grande parte devido s facilidades computacionais postas sua
disposio, os Estatsticos tm-se vindo a preocupar cada vez mais, com a necessidade de
desenvolver mtodos de anlise e explorao dos dados, que dem uma maior importncia aos
dados e que se traduz na seguinte frase: "Devemos deixar os dados falar por si".
O significado dos termos Estatstica Descritiva e Inferncia Estatstica ser precisado, um pouco
mais frente.
O mundo que nos rodeia ser mais facilmente compreendido se puder ser quantificado. Em todas
as reas do conhecimento necessrio saber o que medir e como medir. A Estatstica a
cincia que ensina a recolher dados vlidos, assim como a interpret-los.
2 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
por vezes o estatstico confrontado com conjuntos de dados sem ter qualquer ideia
preconcebida sobre o que que vai encontrar e ento procede a uma anlise
exploratria de dados, quase sempre utilizando processos grficos, anlise esta que
revelar aspectos do comportamento dos dados; neste caso no se fala em amostras,
mas sim conjuntos de dados (Murteira, 1993) e de uma maneira geral a anlise
exploratria suficiente para os fins que se tm em vista;
em outros casos procede anlise de dados com propsitos bem definidos no sentido de
responder a questes especficas. Neste caso os dados tm que ser produzidos por meio
de tcnicas adequadas de forma a que resultem dados vlidos (amostras
representativas). Estas tcnicas, em que fundamental a interveno do acaso,
revolucionaram e fizeram progredir a maior parte dos campos da cincia aplicada. Pode-
se dizer que hoje em dia no existe rea do conhecimento para cujo progresso no tenha
contribudo a Estatstica. Abordaremos de seguida algumas dessas tcnicas de produo
de dados, em que se distinguem as
Sondagens e Experimentaes (aleatorizadas)
1.2.1 - Sondagens
Sondagem Estudo estatstico de uma populao, feito atravs de uma amostra, destinado a
estudar uma ou mais caractersticas tal como elas se apresentam nessa populao.
Por exemplo, numa fbrica de parafusos o departamento de controlo de qualidade pretende saber
qual a percentagem de parafusos defeituosos. Tempo, custos e outros inconvenientes impedem a
inspeco de todos os parafusos. Assim a informao pretendida ser obtida custa de uma
parte do conjunto - amostra, mas com o objectivo de tirar concluses para o conjunto todo -
populao. Se se observarem todos os elementos da populao tem-se um recenseamento. Por
Introduo Probabilidade e Estatstica 3
Maria Eugnia Graa Martins DEIO- 2005
Amostra uma parte da populao que observada com o objectivo de obter informao para
estudar a caracterstica pretendida.
Ao estudar a populao constituda por todos os potenciais eleitores para as legislativas, dois
parmetros que podem ter interesse so:
- idade mdia dos potenciais eleitores que esto decididos a votar;
- percentagem de eleitores que esto decididos a votar.
Para conhecer aqueles parmetros, teria de se perguntar a cada eleitor a sua idade, assim como
a sua inteno no que diz respeito a votar ou no. Esta tarefa seria impraticvel, nomeadamente
por questes de tempo e de dinheiro.
No entanto para se poder utilizar as estatsticas para estimar parmetros necessrio que as
amostras sejam representativas das populaes de onde foram retiradas. Uma amostra que no
seja representativa da Populao diz-se enviesada e a sua utilizao pode dar origem a
interpretaes erradas, como se sugere nos seguintes exemplos:
- utilizar uma amostra constituda por 10 benfiquistas, para prever o vencedor do prximo
Benfica-Sporting!
- utilizar uma amostra constituda por leitores de determinada revista especializada, para tirar
concluses sobre a populao em geral.
Esta recolha de opinies era feita no molde descrito no exemplo anterior, isto , por resposta
voluntria.
Resultado - A utilizao da percentagem de SIMs, que naturalmente se espera elevada, d uma
indicao errada sobre a opinio da populao em geral. As pessoas influenciadas pelo debate e
pelo medo da criminalidade sero levadas a telefonar dando indicao de estarem a favor da
pena de morte.
Amostra 3 - Opinies de alguns leitores de determinada revista tcnica, para representar as
opinies dos portugueses em geral.
Resultado - Diferentes tipos de pessoas lem diferentes tipos de revistas, pelo que a amostra no
representativa da populao. Basta pensar que, de um modo geral, a populao feminina ainda
no adere s revistas tcnicas como a populao masculina. A amostra daria unicamente
indicaes sobre a populao constituda pelos leitores da tal revista.
Amostra 4 - Utilizar alguns alunos de uma turma, para tirar concluses sobre o aproveitamento de
todos os alunos da escola.
Resultado - Poderamos concluir que o aproveitamento dos alunos pior ou melhor do que na
realidade . As turmas de uma escola no so todas homogneas, pelo que a amostra no
representativa dos alunos da escola. Poderia servir para tirar concluses sobre a populao
constituda pelos alunos da turma.
Amostra 5 - Utilizar os jogadores de uma equipa de basquete de uma determinada escola para
estudar as alturas dos alunos dessa escola.
Resultado - O estudo concluiria que os estudantes so mais altos do que na realidade so.
Amostra aleatria e amostra no aleatria Dada uma populao, uma amostra aleatria
uma amostra tal que qualquer elemento da populao tem alguma probabilidade de ser
seleccionado para a amostra. Numa amostra no aleatria, alguns elementos da populao
podem no poder ser seleccionados para a amostra.
Amostra aleatria simples - Dada uma populao, uma amostra aleatria simples de dimenso
N
n um conjunto de n unidades da populao, tal que qualquer outro conjunto dos conjuntos
n
diferentes de n unidades, teria igual probabilidade de ser seleccionado.
Se uma populao tem dimenso N e se pretende uma amostra aleatria simples de dimenso n,
N N!
esta amostra recolhida aleatoriamente de entre todas as = =
n n! (N - n)!
N(N - 1)(N - 2)...(N - n + 1)
= amostras distintas que se podem recolher da populao. Isto implica
n(n - 1)(n - 2)...1
1
N
que cada amostra tenha a mesma probabilidade de ser seleccionada. Uma amostra destas
n
pode ser escolhida sequencialmente da populao, escolhendo um elemento de cada vez, sem
reposio, pelo que em cada seleco cada elemento tem a mesma probabilidade de ser
seleccionado. Um esquema de amostragem aleatria simples, conduz a que cada elemento da
Populao tenha a mesma probabilidade de ser seleccionado para a amostra. No entanto existem
outros esquemas de amostragem em que cada elemento tem igual probabilidade de ser
seleccionado, sem que cada conjunto de n elementos tenha a mesma probabilidade de ser
seleccionado. o que se passa com a amostragem aleatria sistemtica, de que falaremos
adiante.
aleatria simples, constituda pelas alturas dos alunos seleccionados (desde que se tenha o
cuidado de cortar os bocadinhos de papel todos do mesmo tamanho, para ficarem semelhantes, e
de os baralhar convenientemente). A partir de cada amostra, pode-se calcular o valor da
estatstica mdia, que ser uma estimativa do parmetro a estudar - valor mdio da altura dos
alunos da turma. Obter-se-o tantas estimativas, quantas as amostras retiradas.
Chama-se a ateno para o facto de nesta altura no se poder dizer qual das estimativas
"melhor", isto , qual delas uma melhor aproximao do parmetro a estimar, j que esse
parmetro desconhecido (obviamente que nesta populao to pequena seria possvel estudar
exaustivamente todos os seus elementos, no sendo necessrio recolher nenhuma amostra - este
exemplo s serve para ilustrar uma situao)!
Dgitos aleatrios - Uma tabela de dgitos aleatrios uma listagem dos dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que:
- qualquer um dos dgitos considerados tem igual possibilidade de figurar em qualquer posio da lista;
- a posio em que figura cada dgito independente das posies dos outros dgitos.
Apresenta-se a seguir um extracto de uma tabela de nmeros aleatrios (Moore, 1997). O facto
de os dgitos se apresentarem agrupados 5 a 5 s para facilidade de leitura.
Linha
101 19223 95034 05756 28713 96409 12531 42544 82853
102 73676 47150 99400 01927 27754 42648 82425 36290
103 45467 71709 77558 00095 32863 29485 82226 90056
104 52711 38889 93074 60227 40011 85848 48767 52573
105 95592 94007 69971 91481 60779 53791 17297 59335
106 68417 35013 15529 72765 85089 57067 50211 47487
107 82739 57890 20807 47511 81676 55300 94383 14893
108 60940 72024 17868 24943 61790 90656 87964 18883
109 36009 19365 15412 39638 85453 46816 83485 41979
A partir da tabela de dgitos aleatrios podem-se obter nmeros aleatrios de 2 dgitos - qualquer
par dos 100 pares possveis 00, 01, 98, 99, tem igual probabilidade de ser seleccionado, de 3
dgitos - qualquer triplo dos 1000 triplos possveis 000, 001, 998, 999, tem igual probabilidade
de ser seleccionado, etc, tomando os dgitos da tabela 2 a 2, 3 a 3, etc, a partir de uma linha
qualquer e percorrendo-a da esquerda para a direita.
Para seleccionar uma amostra de uma populao utilizando a tabela procede-se em duas etapas:
- atribui-se um nmero a cada elemento da populao. Esta atribuio ter de ser feita com as
devidas precaues, de forma a que cada nmero tenha o mesmo nmero de dgitos, para ter
igual probabilidade de ser seleccionado;
- a partir da tabela escolhe-se uma linha ao acaso e comea-se a percorr-la da esquerda para a
direita, tomando de cada vez os dgitos necessrios.
8 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
No exemplo seguinte, apresentamos uma forma simples de utilizar o Excel para seleccionar uma
amostra aleatria simples e uma amostra aleatria, com reposio, de uma Populao finita, de
que se tenha uma listagem dos elementos.
Exemplo Considere a seguinte a lista de Escolas Secundrias de Portugal continental. Utilizando o Excel, extraia uma
amostra aleatria simples, de 10 escolas.
Comemos por criar um ficheiro, em Excel, com os dados das escolas, considerando ainda uma coluna onde inserimos o
nmero da escola, segundo a ordem pela qual as escolas so apresentadas (esta ordem, que no caso presente, a ordem
cescente, no importante para o que se segue), a que chammos EscolasSec.xls e do qual apresentamos um pequeno
pedao:
Para visualizar as frmulas na folha de Excel, bastou seleccionar: Tools Options View Formulas Ok:
Uma vez que a funo RAND() uma funo voltil, isto , muda quando se recalcula a folha, no caso de pretendermos
ficar com os valores gerados convm ir ao Edit e fazer um Paste Special - Values, como se indica a seguir:
Introduo Probabilidade e Estatstica 11
Maria Eugnia Graa Martins DEIO- 2005
Colmos os valores na coluna F e fizmos o Save. Repare-se que os valores que estavam inicialmente na coluna E foram
alterados, dando origem a novos valores (devido ao facto da funo RAND() ser voltil, como referimos anteriormente);
2 passo Ordenar o ficheiro, utilizando como critrio a coluna F;
3 passo Como pretendemos uma amostra de dimenso 10, seleccionar as primeiras 10 escolas do ficheiro ordenado:
As escolas seleccionadas foram as nmeros 24, 34, 37, 2, 6, 28, 33, 62, 30 e 13.
Nota: Embora os nmeros anteriores sejam referidos como aleatrios, convm ter presente que os nmeros que se obtm
so pseudo-aleatrios, j que um mecanismo determinista que lhes d origem. No entanto comportam-se como nmeros
aleatrios (passam uma bateria de testes destinados a confirmar a sua aleatoriedade) e da a sua utilizao como tal.
Para seleccionar aleatoriamente uma escola da lista anterior utilizamos a funo RANDBETWEEN(m;n), que devolve um
nmero pseudo-aleatrio entre os nmeros m e n especificados (m<n). Como o nosso ficheiro constitudo por 70
escolas, e pretendemos obter uma amostra de dimenso 10, escolhemos as clulas E2:E11 para replicar a funo
RANDBETWEEN(1;70):
A amostra obtida constituda pelas escolas com os nmeros obtidos nas clulas E2:E11. Uma vez que a funo
RANDBETWEEN uma funo voltil, isto , muda quando se recalcula a folha, como pretendamos ficar com os valores
gerados fizmos um Paste Special dos valores obtidos para as clulas F2:F11 e fizmos o Save. Repare-se que os valores
que estavam inicialmente nas clulas E2:E11 foram alterados, dando origem a uma nova amostra. Esta amostra alterar-se-
sempre que procedermos a alguma operao na folha de clculo.
2. Funo Sampling
No Excel existe uma funo, que permite seleccionar, aleatoriamente, um subconjunto de nmeros, de um conjunto mais
vasto de nmeros. Acede-se a esta funo seleccionando Tools Data AnalysisSampling (se o comando Data Analysis
no constar do menu, seleccione Tools e na opo Add-Ins, seleccione Analysis ToolPack) e procedendo como se indica a
seguir:
12 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Funo VLOOKUP
Para seleccionar o nome das escolas correspondentes aos elementos da amostra obtida clulas F2:F11, vamos utilizar a
funo VLOOKUP(a;b;c), que vai tabela das escolas, constituda pelas 2 colunas com o nmero e nome das escolas-
clulas A2:B71 (argumento b), seleccionar os nomes das escolas 2 coluna da tabela seleccionada (argumento c), que
correspondem aos nmeros das clulas F2:F11 (argumento a):
Se pretendssemos seleccionar alm do nome da escola, o seu distrito, ento teramos de considerar como argumento b
da funo VLOOKUP a tabela A2:C71 e como argumento c, o valor 3, uma vez que nos estamos a referir 3 coluna da
tabela considerada.
Na prtica o processo de seleccionar uma amostra aleatria simples de uma populao com
grande dimenso, no to simples como o descrito anteriormente. Se a dimenso da populao
for grande o processo torna-se muito trabalhoso. Ento uma alternativa considerar uma amostra
Introduo Probabilidade e Estatstica 13
Maria Eugnia Graa Martins DEIO- 2005
aleatria sistemtica. Por exemplo, se pretendermos seleccionar uma amostra de 150 alunos de
uma Universidade com 6000 alunos, considera-se um ficheiro com o nome dos 6000 alunos
ordenados por ordem alfabtica. Considera-se o quociente 6000/150=40 e dos primeiros 40
elementos da lista, selecciona-se um aleatoriamente. A partir deste elemento seleccionamos
sistematicamente todos os elementos distanciados de 40 unidades. Assim, se o elemento
seleccionado aleatoriamente de entre os primeiros 40, foi o 27, os outros elementos a serem
seleccionados so 67, 107, 147, etc. Obviamente que o quociente entre a dimenso da populao
e a da amostra no necessariamente inteiro, como anteriormente, mas no h problema pois
considera-se a parte inteira desse quociente.
Amostra aleatria sistemtica Dada uma populao de dimenso N, ordenada por algum
critrio, se se pretende uma amostra de dimenso n, escolhe-se aleatoriamente um elemento de
entre os k primeiros, onde k a parte inteira do quociente N/n. A partir desse elemento escolhido,
escolhem-se todos os k-simos elementos da populao para pertencerem amostra.
Amostragem estratificada
Pode acontecer que a populao possa ser subdividida em vrias subpopulaes, mais ou menos
homogneas relativamente caracterstica a estudar. Por exemplo, se se pretende estudar o
salrio mdio auferido pelas famlias lisboetas, possvel dividir a regio de Lisboa segundo
zonas mais ou menos homogneas, estratos, quanto caracterstica em estudo salrio mdio, e
posteriormente extrair de cada um destes estratos uma percentagem de elementos que iro
constituir a amostra, sendo esta percentagem, de um modo geral, proporcional dimenso dos
estratos.
Por exemplo, suponha que se pretende estudar o nvel de satisfao dos trabalhadores txteis,
das empresas do Norte do Pas. No dispondo de uma lista com todos os trabalhadores,
considera-se uma lista de todas as empresas txteis clusters, admitindo-se que o conjunto de
trabalhadores de cada empresa caracteriza convenientemente a populao que se pretende
14 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Amostra por clusters A populao dividida em clusters, onde cada cluster representativo
da populao. Selecciona-se aleatoriamente um conjunto de clusters e a amostra constituda
por todos os elementos dos clusters seleccionados.
Um outro tipo de amostragem tambm muito utilizado, semelhante ao anterior no que diz
respeito primeira fase da seleco dos clusters como se exemplifica a seguir.
Amostragem multi-etapas
Suponha que em vsperas de eleies presidenciais se pretende obter uma estimativa das
percentagens de cada candidato e no se dispe de uma lista com todos os eleitores, que so
milhes. Mesmo se se dispusesse dessa lista no seria tarefa simples seleccionar aleatoriamente
alguns elementos. Ento considera-se o Pas dividido em algumas regies geogrficas, por
exemplo Norte, Centro e Sul. Dentro de cada regio procede-se ao agrupamento dos centros
populacionais com dimenso semelhante. Depois de cada agrupamento so seleccionadas
aleatoriamente algumas cidades. As cidades por sua vez ainda esto divididas em Juntas de
Freguesia. Algumas destas Juntas de Freguesia so seleccionadas aleatoriamente das cidades
seleccionadas no passo anterior. Finalmente de cada freguesia seleccionada, ainda se escolhem
aleatoriamente alguns lares para inqurir, por exemplo, o adulto mais jovem.
Vamos considerar ainda o ficheiro EscolasSec.xls para exemplificar a utilizao do Excel na seleco de uma amostra
aleatria sistemtica.
Exemplo Considerando ainda a populao finita constituda pelas escolas do ficheiro EscolasSec.xls, seleccione uma
amostra aleatria sistemtica de dimenso 6.
Temos uma populao de dimenso 70, da qual se pretende seleccionar uma amostra de dimenso 6. Vamos utilizar a
seguinte metodologia:
Passo 1 Dividir 70 por 6 e reter a parte inteira que 11;
Passo 2 Dos primeiros 11 elementos da lista ordenada das escolas, seleccionar um elemento ao acaso, utilizando a
funo RANDBETWEEN(1;11), que inserimos na clula I2; copimos o valor obtido, atravs de um Paste Special, para a
clula J2;
Passo 3 Coloque o cursor na clula J3 e escreva =J2+6; replique a frmula da clula J3 pelas clulas J4:J7;
Passo 4 Escreva na clula K2 a funo VLOOKUP(J2;$A$2:$B$71;2) e replique-a atravs das clulas K3:K7:
Introduo Probabilidade e Estatstica 15
Maria Eugnia Graa Martins DEIO- 2005
Outro problema que se levanta com a recolha da amostra o de saber qual a dimenso desejada
para a amostra a recolher. Este um problema para o qual, nesta fase, no possvel avanar
nenhuma teoria, mas sobre o qual se podem tecer algumas consideraes gerais. Pode-se
comear por dizer que, para se obter uma amostra que permita calcular estimativas
suficientemente precisas dos parmetros a estudar, a sua dimenso depende muito da
variabilidade da populao subjacente. Por exemplo, se relativamente populao constituda
pelos alunos do 10 ano de uma escola secundria, estivermos interessados em estudar a sua
idade mdia, a dimenso da amostra a recolher no necessita de ser muito grande j que a
varivel idade apresenta valores muito semelhantes, numa classe etria muito restrita. No entanto
se a caracterstica a estudar for o tempo mdio que os alunos levam a chegar de casa escola, j
a amostra ter de ter uma dimenso maior, uma vez que a variabilidade da populao muito
maior. Cada aluno pode apresentar um valor diferente para esse tempo. Num caso extremo, se
numa populao a varivel a estudar tiver o mesmo valor para todos os elementos, ento bastaria
recolher uma amostra de dimenso 1 para se ter informao completa sobre a populao; se, no
entanto, a varivel assumir valores diferentes para todos os elementos, para se ter o mesmo tipo
de informao seria necessrio investigar todos os elementos.
Chama-se a ateno para a existncia de tcnicas que permitem obter valores mnimos para as
dimenses das amostras a recolher e que garantem estimativas com uma determinada preciso
exigida partida. Uma vez garantida essa preciso, a opo por escolher uma amostra de maior
dimenso, uma questo a ponderar entre os custos envolvidos e o ganho com o acrscimo de
preciso. Vem a propsito a seguinte frase (Mendenhall, 1974,pag. 226):
exige necessariamente uma amostra de dimenso 200 para estudar a mesma caracterstica de
uma populao anloga, mas de dimenso 2000, quando se pretende obter a mesma preciso.
Como explicava George Gallup, um dos pais da consulta da opinio pblica (Tannenbaum, 1998):
Whether you poll the United States or New York State or Baton Rouge (Louisiana) you need
the same number of interviews or samples. Its no mystery really if a cook has two pots of soup
on the stove, one far larger than the other, and thoroughly stirs them both, he doesnt have to take
more spoonfuls from one than the other to sample the taste accurately.
H no entanto (Vicente, 1996) uma situao de excepo relativamente ao que foi dito, isto ,
existe uma situao em que a dimenso da populao interfere directamente na dimenso da
amostra: quando a amostra recolhida sem reposio no h independncia entre os elementos,
facto que ter impacto na frmula do clculo da varincia do estimador a utilizar.
Finalmente chama-se a ateno para o facto de que se o processo de amostragem originar uma
amostra enviesada, aumentar a dimenso no resolve nada, antes pelo contrrio!
Alm do enviesamento, um outro problema que no pode deixar de ser referido o da preciso.
Preciso - Ao utilizar o valor de uma estatstica para estimar um parmetro, vimos que cada
amostra fornece um valor para a estatstica que se utiliza como estimativa desse parmetro. Estas
estimativas no so iguais devido variabilidade presente na amostra. Se, no entanto, os
diferentes valores obtidos para a estatstica forem prximos, podemos ter confiana de que o
valor calculado a partir da amostra recolhida (na prtica recolhe-se uma nica amostra) est
prximo do valor do parmetro (desconhecido).
A falta de preciso juntamente com o problema do enviesamento so dois tipos de erro com
que nos defrontamos num processo de amostragem. No se devem, contudo, confundir.
Enquanto o enviesamento se manifesta por um desvio nos valores da estatstica, relativamente ao
valor do parmetro a estimar, sempre no mesmo sentido, a falta de preciso manifesta-se por
uma grande variabilidade nos valores da estatstica, uns relativamente aos outros. Por outro lado,
enquanto o enviesamento se reduz com o recurso a amostras aleatrias, a preciso aumenta-se
aumentando a dimenso da amostra.
apoiantes do tal candidato. Representando num eixo os valores obtidos, poderamos deparar-nos
com vrias situaes:
Se admitirmos que o valor do parmetro era 0.60, ento a situao 1) reflecte um pequeno ou
ausncia de enviesamento, pois os valores para a estatstica (propores obtidas a partir das
amostras) situam-se para um e outro lado do valor do parmetro, e a existncia de uma pequena
variabilidade entre os resultados obtidos para as vrias amostras, que se traduz em grande
preciso. No caso 2) embora se mantenha a preciso, existe um grande enviesamento, pois os
valores da estatstica situam-se sistematicamente para a direita do valor do parmetro. No caso 3)
voltamos a ter uma situao de pequeno enviesamento, mas de pequena preciso devido
grande variabilidade apresentada pelos valores da estatstica. Finalmente no caso 4) a falta de
preciso da situao 3) acompanhada de um grande enviesamento.
Fazendo analogia com o que se passa com um atirador que aponta vrias setas a um alvo, em
que procurava atingir o centro do alvo, teramos
Alm dos erros apontados anteriormente existem ainda outras fontes de erros que no esto
relacionadas com o mtodo da recolha da amostra nem com a dimenso da amostra, que so os
chamados erros de no amostragem. Se, por exemplo, seleccionarmos uma amostra aleatria
simples a partir de uma listagem de elementos que no contenha todos os elementos da
populao, poderemos obter uma amostra enviesada. Efectivamente, muitas vezes a recolha da
amostra faz-se de uma populao que no a populao que se pretende estudar populao
objectivo, mas sim de outra populao que se pensa representar a primeira populao inquirida.
Por exemplo, se se pretende estudar uma determinada caracterstica dos residentes em Lisboa,
comum recolher uma amostra seleccionando aleatoriamente alguns nmeros de telefones da lista
telefnica de Lisboa, para representar a populao lisboeta. Este processo introduz algum
18 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
enviesamento, pois existem zonas de Lisboa onde a percentagem de pessoas com telefone
pequena. Alm disso, pode acontecer com alguma frequncia telefonarem para casa das pessoas
quando elas esto ausentes, no trabalho, pelo que a amostra subestimar a percentagem dos
lisboetas que trabalham fora de casa. O exemplo que acabmos de descrever refere-se a um erro
de seleco.
Na recolha da informao tambm se pode ainda verificar que a informao dada no seja
verdadeira. Ao responder a um inqurito o inquirido pode sentir-se condicionado pelo inquiridor,
face a determinadas perguntas. Isso poder lev-lo a mentir. Por exemplo ao perguntarem a um
indivduo se ele racista, ele pode dizer que no, quando na verdade o .
Finalmente, pode-se ter feito um planeamento adequado da amostra a recolher, mas ao recolher
a informao de entre os elementos da amostra a pessoa encarregada dessa recolha pode ver-se
defrontada com a no resposta. Este problema acontece com frequncia quando a amostra
constituda por pessoas, das quais algumas das seleccionadas no so encontradas para darem
a informao sobre a varivel em estudo, ou ento se recusam a responder.
Outro problema que pode surgir devido a erros de processamento que no tm nada a ver
com o processo de recolha da amostra, mas que podem influenciar o resultado da estatstica, j
que esta calculada com base na informao recolhida. Estes erros surgem com alguma
frequncia, sendo muitas vezes detectados por serem outliers. Efectivamente, se ao digitar um
conjunto de valores correspondentes a pesos de pessoas adultas aparecer 566 quilogramas, ao
fazer uma representao grfica aparecer este valor como outlier e imediatamente se concluir
que se trata de um problema de processamento: eventualmente ao carregar a tecla do 6 o tempo
de apoio foi um pouco maior e apareceram dois 6.
A seleco de uma amostra estratificada, utilizando o Excel, no apresenta qualquer dificuldade, pois no mais do que a
seleco de amostras aleatrias simples das subpopulaes que constituem os estratos. Vamos, no entanto apresentar
um exemplo sugerido por Hodgson (1998), no pela sua importncia em termos da sua resoluo com o Excel, mas pela
sua relevncia na exemplificao da tcnica de estratificao.
Exemplo Consideremos uma populao constituda por 40 cartes 20 vermelhos e 20 pretos, numerados, de acordo
com a seguinte tabela:
N 6 7 8 9 10 26 27 28 29 30
Freq. 4 4 4 4 4 4 4 4 4 4
Cor Ver Ver Ver Ver Ver Preto Preto Preto Preto Preto
A mdia dos nmeros inscritos nesta populao de 40 cartes de 18 valor mdio da caracterstica populacional em
estudo. Admitindo que o valor mdio anterior era desconhecido e que se pretendia obter uma estimativa, foram-se
seleccionar algumas amostras de dimenso 4 e calcular as mdias das amostras obtidas. Para isso construimos um
ficheiro, em Excel, com o valor dos cartes e a cor:
Introduo Probabilidade e Estatstica 19
Maria Eugnia Graa Martins DEIO- 2005
Da populao anterior seleccionmos 36 amostras de dimenso 4, calculando ainda as mdias dos valores escritos nos
cartes seleccionados. Posteriormente considermos a populao constituda por dois estratos a subpopulao dos
cartes vermelhos e a dos cartes pretos e de cada uma destas subpopulaes extramos 2 cartes, calculando ainda a
mdia dos 4 cartes seleccionados. Os resultados obtidos nos dois processos de amostragem encontram-se na figura
seguinte, respectivamente na tabela do lado esquerdo e do lado direito, para a amostragem sem estratificao e com
estratificao:
Sem estratificao
Com estratificao
De acordo com as consideraes feitas anteriormente sobre a preciso, so bvias as vantagens da estratificao (No
esqueamos que o valor do parmetro a estimar era 18).
1.2.2 - Experimentaes
Exemplo 3 (Moore, 1997) - Ser que a aspirina reduz o perigo de um ataque cardaco? O estudo
conhecido por Physicians Health Study, foi uma experimentao mdica levada a cabo com o
objectivo de responder a esta questo especfica. Metade de um grupo de 22000 mdicos
(homens) foram escolhidos aleatoriamente para tomar uma aspirina todos os dias. A outra metade
dos mdicos tomou um placebo, que tinha o mesmo aspecto e sabor da aspirina. Depois de
vrios anos 239 mdicos do grupo que tomou placebo, contra 139 do grupo que tomou aspirina,
tiveram ataques cardacos. Esta diferena suficientemente grande para evidenciar o efeito da
aspirina na preveno dos ataques cardacos.
Exemplo 4 (Moore, 1997) - Um tratamento utilizado durante vrios anos para tratar lceras do
estmago consistia em pr o doente a aspirar, durante uma hora, uma soluo refrigerada que
era bombeada para dentro de um balo. Segundo o Journal of the American Medical Association,
uma experimentao levada a efeito com este tratamento permitiu concluir que o arrefecimento
gstrico reduzia a secreo de cido, diminuindo a propenso para as lceras. No entanto, veio-
se a verificar mais tarde com um planeamento adequado, que a resposta dos doentes ao
tratamento foi influenciada pelo efeito placebo efeito confounding. O que acontece que h
doentes que respondem favoravelmente a qualquer tratamento, mesmo que seja um placebo,
possivelmente pela confiana que depositam no mdico e pelas expectativas de cura que
depositam no tratamento. Num planeamento adequado feito anos mais tarde, um grupo de
doentes com lcera foi dividido em dois grupos, tratando-se um com a soluo refrigerada e o
outro grupo com um placebo, constitudo por uma soluo temperatura ambiente. Os resultados
desta experimentao permitiram concluir que dos 82 doentes sujeitos soluo refrigerada -
grupo de tratamento, 34% apresentaram melhoras, enquanto que dos 78 doentes que receberam
o placebo - grupo de controlo, 38% apresentaram melhoras.
Esta segunda fase deve ser regida pelo princpio da aleatoriedade. Este princpio tem como
objectivo fazer com que os grupos que vo ser comparados, tenham partida constituio
semelhante, de forma que as diferenas observadas na varivel resposta possam ser atribudas
aos efeitos dos tratamentos. Assim, a atribuio de cada indivduo ao grupo de tratamento ou de
controlo feita de forma aleatria. Combinando a comparao com a aleatoriedade, podemos
esquematizar da seguinte forma o tipo de planeamento mais simples:
Tratamento
Atribuio aleatria
Respostas ao
Grupo 1
tratamento 1
Unidades
Comparao
experimentais
Respostas ao
Grupo 2 tratamento 2
22 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Ao comparar os resultados temos de ter presente que haver sempre alguma diferena que se
tem de atribuir ao facto de os grupos no serem perfeitamente idnticos e algumas diferenas que
se atribuem ao acaso. O que se pretende averiguar se as diferenas encontradas no sero
"demasiado grandes" para que se possam atribuir a essas causas, ou seja, verificar se no tendo
em linha de conta a diferena entre os tratamentos, a probabilidade de obter as diferenas
observadas no seria extremamente pequena. Se efectivamente esta probabilidade for inferior a
um determinado valor (de que falaremos mais tarde) dizemos que a diferena estatisticamente
significativa, sendo de admitir que foi provocada pelos diferentes tratamentos.
Convm ainda observar que numa experimentao os indivduos seleccionados para cada grupo
no devem saber qual o tipo de tratamento a que esto a ser sujeitos, nem o investigador que
est a conduzir a experimentao e a medir os resultados deve saber qual o tipo de tratamento
que cada indivduo seguiu. Temos o que se chama uma experimentao duplamente cega. Esta
precauo uma forma de evitar o enviesamento, quer nas respostas, quer nas medies (um
mdico ao observar o efeito de um tratamento que provoque, por exemplo, uma mancha vermelha
na pele, pode estar condicionado na interpretao da gravidade dessa mancha se souber qual o
tratamento a que o doente foi sujeito).
Nesta seco procurmos abordar alguns problemas relacionados com a fase de recolha da
amostra e motivar os leitores para a sua importncia. O estudo conveniente do planeamento das
experincias, assim como da definio da amostra adequada para o estudo em vista, saem fora
do mbito da disciplina a que estas folhas se destinam, pois contm por si s matria suficiente
para ser objecto de vrias disciplinas num curso de Estatstica, nomeadamente as disciplinas de
Planeamento de Experincias e Amostragem.
Uma vez os dados recolhidos, sob a forma de uma amostra, faz-se a reduo desses dados,
utilizando tabelas, diferentes tipos de grficos e medidas a que chamamos estatsticas, sendo um
dos principais objectivos desta fase, a identificao da estrutura subjacente aos dados, deixando
de lado a aleatoriedade presente.
Introduo Probabilidade e Estatstica 23
Maria Eugnia Graa Martins DEIO- 2005
Nesta fase de anlise dos dados, alm da descrio dos mesmos, em que se procura pr em
evidncia as caractersticas principais e as propriedades, pretende-se formular um modelo. De
um modo geral a situao em estudo bastante complexa, ou nem todos os aspectos da situao
tm interesse para o estudo em vista, de modo que se formula um modelo, que nos d uma viso
simplificada da situao real.
O estatstico George Box afirmava que: Todos os modelos so maus; alguns modelos so teis.
Por exemplo:
1) "Em mdia, cada cigarro que se fuma por dia, reduz o tempo de vida de uma certa quantidade
de tempo, a qual ser estimada com base num grande conjunto de dados"
Este modelo ignora muitos factores, tais como a idade, sexo, tipo de vida, etc. No entanto, pode
dar uma boa ideia do efeito de fumar na sade.
2) " O tempo para amanh depende do tempo de hoje, se tivermos em considerao a presso
atmosfrica, a humidade, formaes de nevoeiro, e velocidades de vento"
Pode no ser um mau modelo para a previso do tempo. No entanto, no passa de um modelo e
todos sabemos que as previses nem sempre saem certas!
Esta fase inicial da anlise dos dados, a que damos o nome de Estatstica Descritiva - por vezes
chamada de Anlise Preliminar de Dados, embora alguns autores (Chatfield, 1985),
contestem esta terminologia, pois afirmam que por vezes a anlise inicial de dados suficiente,
no havendo necessidade de proceder a qualquer tipo de inferncia e da ser abusivo o termo
preliminar.
enquanto que aos outros grupos, C, D e E, se aplicaram 3 mtodos novos. No fim da experincia
todos os estudantes realizaram um teste, cujos resultados se apresentam a seguir:
Mdia Ampl.
Grupo A 17 14 24 20 24 23 16 15 24 19.7 10
Grupo B 21 23 13 19 13 19 20 21 16 18.3 10
Grupo C 28 30 29 24 27 30 28 28 23 27.4 7
Grupo D 19 28 26 26 19 24 24 23 22 23.4 9
Grupo E 21 14 13 19 15 15 10 18 20 16.1 11
Como todos os grupos tm igual dimenso, calculmos a amplitude como medida de disperso.
Ao compararmos as mdias so evidentes as divergncias entre os grupos. Estas divergncias
tornam-se mais evidentes ao construirmos as representaes em Box-plot (a ver posteriormente),
que mostram que efectivamente os 5 mtodos no so equivalentes.
Estatstica Descritiva
Inferncia Estatstica
Ao interpretar o intervalo de confiana deve-se ter em ateno que o que aleatrio o intervalo
e no a percentagem p (desconhecida, mas fixa) - a variabilidade existe no processo de
amostragem e no no parmetro. Quando se recolhem vrias amostras, o valor de p diferente
de amostra para amostra, pelo que os limites do intervalo variam.
Uma vez seleccionada uma amostra e obtido um valor para p , ao calcular um intervalo com 95%
de confiana, no significa que a probabilidade do intervalo conter o parmetro .95, j que o
intervalo contm ou no contm o parmetro. Como deve ser interpretado o intervalo de confiana
da seguinte forma: ao recolher 100 amostras da mesma dimenso e ao calcular os intervalos
correspondentes, aproximadamente 95 destes intervalos contm o parmetro p, enquanto que 5
no o contm:
O processo que acabmos de descrever e que ser desenvolvido num captulo posterior um
exemplo de estimao intervalar.
Exerccios de reviso
1 - Considere a seguinte situao: Um poltico, candidato a Presidente da Repblica, pretende ter
uma ideia de qual a sua representatividade, junto do eleitorado portugus, pelo que encarrega
uma empresa de fazer o estudo conveniente. Identifique: Populao e Amostra.
2 - Diga porque que as seguintes situaes representam ms amostras:
- Para saber qual o candidato mais votado, para a Cmara de determinada cidade,
auscultou-se a opinio dos clientes de determinado supermercado.
- Para conhecer a situao financeira das empresas txteis portuguesas, verificou-se a
situao das empresas que tiveram maior volume de exportaes, no ltimo ano.
28 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
3 - Em 1985 verificaram-se, nos Estados Unidos, 19893 assassnios, enquanto que em 1970 se
tinham verificado 16848 - um aumento de cerca de 20%. Estes nmeros significam que os
Estados Unidos se tornou um pas violento no perodo 1970-1985?
4 - Num determinado distrito de Portugal, foi levada a cabo uma experincia para verificar o efeito
da distribuio de leite s crianas em idade escolar. Assim, foram escolhidas algumas crianas
em cada escola para pertencerem ao grupo de tratamento, a quem foi dado leite e outras a quem
no foi dado leite, constituindo o grupo de controlo. Para tornar os grupos equivalentes em termos
de nvel familiar e de sade, a atribuio de cada criana a cada grupo foi feita aleatoriamente.
Contudo, verificou-se que, apesar da atribuio aleatria, havia ainda pequenas diferenas entre
os grupos. Permitiu-se ento que os professores fizessem a seleco das crianas, com o
objectivo de tornar os grupos comparveis. Ter sido este um procedimento correcto?
5 - De acordo com um estudo observacional, feito na Califrnia, verificou-se que a taxa de cancro
cervical era maior entre as utilizadoras de contraceptivos orais, do que entre as que no os
utilizavam, mesmo tendo em considerao os factores idade, educao, estado civil, religio e o
facto de ser fumadora ou no. Os investigadores concluram que a plula causava o cancro
cervical. O que acha desta concluso?
6 A revista Filhos e Pais pediu a uma empresa de sondagens que elaborasse um estudo sobre
a opinio dos Pais relativamente utilidade, sob o ponto de vista educacional, de bater nos filhos.
Foram postas as seguintes questes aos pais que faziam parte de uma amostra aleatria: i)
Acredita que se deve bater nos filhos? ii) Bateu nos seus filhos? iii) Se a resposta questo
anterior foi sim, com que frequncia?
No estudo anterior poder estar envolvido algum tipo de erro de no amostragem?
7 Um investigador pretendendo fazer um estudo sobre a relao entre a quantidade de ovos
consumidos semanalmente e o nvel do colesterol, pediu a colaborao de voluntrios para
entrarem neste estudo. Apresentaram-se 2589 voluntrios. O investigador colheu informao
sobre a quantidade de ovos consumida e o nvel de colesterol de cada uma das pessoas
apresentadas, tendo concludo que existia um a forte associao entre as duas variveis.
Estamos perante um estudo observacional ou uma experimentao controlada?
Baseado neste estudo pode o investigador concluir que o consumo de ovos aumenta o nvel
de colesterol? Explique.
8 - Quais os objectivos da Estatstica Descritiva e da Inferncia Estatstica?
9 - As inferncias estatsticas so sempre correctas?
Introduo Probabilidade e Estatstica 29
Maria Eugnia Graa Martins DEIO- 2005
Captulo 2
2.1 - Introduo
Neste momento vamos admitir que dispomos de um desses conjuntos de dados, sem nos
preocuparmos como foram obtidos, e pretendemos desenvolver processos de anlise que nos
permitam responder a algumas questes, tais como:
Sero os dados quase todos iguais?
Sero muito diferentes, uns dos outros?
De que modo que so diferentes?
Existe alguma estrutura subjacente ou alguma tendncia?
Existem alguns agrupamentos especiais?
Existem alguns dados muito diferentes da maior parte?
Seguidamente comearemos por dar uma possvel classificao para os dados e os processos
adequados para a sua representao. Estes processos de reduo dos dados permitem realar
30 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
As variveis podem ser de dois tipos: qualitativas e quantitativas. Para os dados tambm se usa
a mesma terminologia, conforme resultam da observao de variveis qualitativas ou
quantitativas.
Os dados de tipo qualitativo ainda se podem exprimir na escala nominal ou na escala ordinal:
a) Variveis nominais
Uma varivel nominal se cada observao pertence a uma de vrias categorias distintas. Estas
categorias no so necessariamente numricas, embora se possa utilizar nmeros para as
representar. Por exemplo, a varivel sexo nominal, j que um indivduo do sexo masculino ou
feminino. Podemos utilizar os smbolos M e F, mas tambm podemos utilizar os nmeros 1 e 2
para as categorias masculino e feminino. Uma varivel nominal pode apresentar duas ou mais
categorias; alguns exemplos de variveis nominais apresentando mais de duas categorias, so a
religio, raa, etc.
A estrutura da escala nominal no destruda por uma substituio biunvoca. Para estes dados
no tem sentido falar em mdia ou mediana. A nica medida de localizao que tem sentido a
moda - categoria com maior nmero de elementos.
b) Variveis ordinais
Para as variveis ordinais tambm se utilizam as categorias mas, no entanto, existe uma relao
de ordem entre elas. Por exemplo uma tabela que classifica os minerais e rochas, quanto
dureza, tem as categorias ordenadas segundo 10 nveis de dureza, do mais duro - Diamante, ao
menos duro - Talco. A estrutura desta escala no distorcida por uma substituio que preserve
Introduo Probabilidade e Estatstica 31
Maria Eugnia Graa Martins DEIO- 2005
a ordem. No exemplo da classificao dos minerais, em vez dos nmeros de 1 a 10, podem-se
utilizar as letras de A a J.
Como evidente, e do mesmo modo que para as variveis nominais, continua a no ter sentido o
clculo da mdia. Pode-se calcular a moda e, j que existe uma ordenao, pode-se calcular a
mediana.
Estes dados so organizados na forma de uma tabela de frequncias, que apresenta o nmero
de elementos - frequncia absoluta (ou s frequncia) de cada uma das categorias ou classes.
Exemplo 1 (De Veaux et al, 2004) O que aconteceu ao Titanic, na noite de 14 de Abril de 1912,
bem conhecido. Apresentamos de seguida alguns dados relativos aos passageiros e tripulao,
nomeadamente no que diz respeito se sim ou no, a pessoa Sobreviveu (Morta ou Viva), a sua
Idade (Adulto ou Criana), Sexo (feminino ou Masculino), e a Classe em que viajava (Primeira,
Segunda, Terceira ou Tripulao):
Sobreviveu Idade Sexo Classe
Morta Adulto Masculino Terceira
Morta Adulto Masculino Tripulao
Morta Adulto Masculino Terceira
Morta Adulto Masculino Tripulao
Morta Adulto Masculino Tripulao
Morta Adulto Masculino Tripulao
Viva Adulto Feminino Primeira
Morta Adulto Masculino Terceira
Morta Adulto Masculino Tripulao
Parte de uma tabela em que se mostra para 9 passageiros, as categorias referentes a 4 variveis
O que fazer com dados como estes? Um princpio bsico de uma anlise de dados de qualquer
tipo proceder sua representao grfica. Para isso necessrio proceder ao seu
agrupamento, atravs de uma tabela de frequncias. Organizando os dados referentes varivel
Classe, obteve-se a seguinte distribuio para os 2201 passageiros:
Classe Freq. Absoluta Freq. relativa
Primeira 325 0.148
Segunda 285 0.129
Terceira 706 0.321
Tripulao 885 0.402
Total 2201 1.000
classe. Estas concluses no eram evidentes a partir dos dados inicialmente considerados. Ao
fazer a reduo, sob a forma de uma tabela de frequncias, a nica informao que se perdeu foi
a ordenao inicial dos dados, que neste caso no era relevante.
Bsico Secund
Pr-escolar Primrio Preparat. Sec. Unific Sec. comp. 12ano Liceal Tcnico
1985-86 5991 41534 29189 28675 14187 3584 3069 2216
1986-87 4583(a) 41553 31742 28751 15171 4136 3454 2656
1987-88 4430 x 29486 32272 18140 4738 4192 2893
1988-89 6368 x 35420 38881 21825 7337 6740 4809
1989-90 7041 x 32731 40065 21628 6079 5471 2857
1990-91 9317 x 33015 42229 23868 7003 6205 3178
(cont)
Cursos Artstico Mdio Superior Total
Profis. Mag.Infantil Mag.Primrio
1985-86 1281 629 535 571 9620 141081
1986-87 969 602 414 485 9234(b) 143750
1987-88 1389 736 x x 10769 x
1988-89 1105 678 x x 12113 x
1989-90 351 716 x x 10405 x
1990-91 372 723 x x 14223 x
Obs: (a) No funcionaram 190 estabelecimentos por diversos motivos
(b) A Univ do Porto apenas enviou os elementos relativos ao pessoal docente das Fac de Economia e Arquitectura
x - informao no disponvel
Das tabelas anteriores pode-se retirar bastante informao, nomeadamente no que diz respeito
evoluo do n de docentes nas diferentes categorias, desde 1985 at 1991.
Para os nicos anos onde existe informao completa, os anos lectivos 1985-1986 e 1986-1987,
considermos a tabela das frequncias relativas, que apresentamos de seguida:
Bsico Secund
Pr-escolar Primrio Preparat. Sec. Unific Sec. comp. 12ano Liceal Tcnico
1985-86 0.042 0.294 0.207 0.203 0.101 0.025 0.022 0.016
1986-87 0.032 0.289 0.221 0.200 0.106 0.029 0.024 0.018
(cont)
Cursos Artstico Mdio Superior Total
Profis. Mag.Infantil Mag.Primrio
1985-86 0.009 0.004 0.004 0.004 0.068 1
1986-87 0.007 0.004 0.003 0.003 0.064 1
Da tabela das frequncias relativas, rapidamente se conclui que a classe predominante a dos
Professores Primrios enquanto que os Professores do ensino Mdio e Artstico, so s uma
pequena percentagem do total de docentes.
Quando se constri uma tabela de frequncias, a partir de uma amostra, um processo de fcil
verificao de que as frequncias esto bem calculadas consiste em som-las para todas as
classes consideradas, pois:
Introduo Probabilidade e Estatstica 33
Maria Eugnia Graa Martins DEIO- 2005
a) Variveis intervalares
Uma varivel intervalar uma espcie de varivel ordinal, mas em que as diferenas entre
valores sucessivos so sempre iguais. Por exemplo a temperatura medida em graus Fahrenheit
(F) intervalar, j que a diferena entre 12 e 13 a mesma que a diferena entre 14 e 15.
Define-se assim uma unidade de medida e um zero arbitrrio. Na realidade, a varivel
temperatura tambm pode ser medida em graus centgrados (C), correspondendo os 0 C aos 32
F. Assim, a transformao linear C = 5/9 (F-32)
transforma a temperatura F, em graus Fahrenheit, na temperatura C, em graus centgrados. A
estrutura desta escala no destruda por uma substituio que preserve a igualdade dos
intervalos.
Para este tipo de variveis j tem sentido o clculo da mdia.
As variveis percentuais so as variveis intervalares para as quais existe um zero absoluto, que
representa a origem das medidas. Por exemplo, a varivel altura percentual - podemos dizer
que uma altura de 164 cm o dobro de uma altura de 82 cm. Se mudarmos a unidade de medida
para o metro, continuamos ainda a dizer que a 1 altura o dobro da 2. A estrutura da escala
percentual no vem distorcida quando se fazem transformaes da forma x'=kx.
Outras classificaes
No caso de dados discretos, a construo da tabela de frequncias anloga que foi feita para
os dados qualitativos, mas em vez das categorias consideram-se os valores distintos que surgem
na amostra, os quais vo constituir as classes.
Podemos no entanto dispor de uma amostra de dados discretos, mas estes assumirem muitos
valores distintos, que torne pouco prtico a construo de uma tabela de frequncias, onde se
consideram todos esses valores. Neste caso procede-se a um agrupamento conveniente para os
dados, como se exemplifica a seguir:
Exemplo 4 - No Distrito Sanitrio de Chicago, a escolha dos tcnicos feita mediante um exame.
Em 1966, havia 233 candidatos para 15 lugares. O exame teve lugar no dia 12 de Maro e os
resultados dos testes apresentam-se a seguir (Freedman and al., 1991 Statistics, pag.51):
26 27 27 27 27 29 30 30 30 30 31 31 31 32 32
33 33 33 33 33 34 34 34 35 35 36 36 36 37 37
37 37 37 37 37 39 39 39 39 39 39 39 40 41 42
42 42 42 42 43 43 43 43 43 43 43 43 44 44 44
44 44 44 45 45 45 45 45 45 45 46 46 46 46 46
Introduo Probabilidade e Estatstica 35
Maria Eugnia Graa Martins DEIO- 2005
46 47 47 47 47 47 47 48 48 48 48 48 48 48 48
49 49 49 49 50 50 51 51 51 51 51 52 52 52 52
52 53 53 53 53 53 54 54 54 54 54 55 55 55 56
56 56 56 56 57 57 57 57 58 58 58 58 58 58 58
58 59 59 59 59 60 60 60 60 60 60 61 61 61 61
61 61 62 62 62 63 63 64 65 66 66 66 67 67 67
67 68 68 68 69 69 69 69 69 69 69 71 71 72 73
74 74 74 75 75 76 76 78 80 80 80 80 81 81 81
82 82 83 83 83 83 84 84 84 84 84 84 84 90 90
90 91 91 91 92 92 92 93 93 93 93 95 95
Neste caso a construo da tabela de frequncias poderia processar-se do mesmo modo que no
exemplo anterior; resultaria, no entanto, uma tabela com demasiadas classes. Assim, resolvemos
tomar como classes uma partio natural, para os dados considerados, que a seguinte:
considerar como classes os intervalos [20, 30[, [30,40[, [40,50[, [50,60[, [60,70[, [70,80[, [80,90[,
[90,100[. A forma do intervalo [ , [ significa que o limite inferior do intervalo pertence classe,
enquanto que o limite superior no pertence. Assim, um elemento da amostra igual a 30
pertencer 2 classe e no 1.
Tabela de frequncias
Enquanto que no caso dos dados discretos a construo da tabela de frequncias de um modo
geral muito simples, no caso de variveis contnuas o processo de resumir a informao
constituda pelos resultados das suas observaes, um pouco mais elaborado, j que a
definio das classes no to imediata. Efectivamente no tem sentido considerar, para classes,
os diferentes valores que surgem na amostra, pois eventualmente eles so todos diferentes.
c) Construir as classes de modo que tenham todas a mesma amplitude e cuja unio contenha todos os
elementos da amostra.
Uma metodologia a seguir para a construo das classes Ci = [ci, ci+1[, poder ser a seguinte: a primeira
classe C1 ser C1 = [mnimo da amostra, mnimo da amostra + h[. As outras classes sero
(1)
A definir posteriormente.
36 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Nem sempre se consegue aplicar a metodologia anterior de considerar todas as classes com a mesma
amplitude. No entanto uma regra a ter presente que estas classes devem ser todas disjuntas duas a duas
considerado no caso dos dados discretos, esses valores sero as frequncias absolutas das classes.
Quantas classes se devem considerar para fazer a reduo de um conjunto de dados? Qual o
valor de k?
Existe uma regra emprica, chamada regra de Sturges, que nos d um valor aproximado para o
nmero de classes que se devem considerar e que a seguinte:
Regra de Sturges - Para uma amostra de dimenso n, o n de classes dado pelo menor inteiro
k tal que 2k> n.
Exemplo 5 - Consideremos a amostra constituda pelas notas obtidas num ponto de Matemtica,
de uma determinada turma:
12.1; 8.9; 16.2; 8.2; 9.8; 15.1; 14.5; 13.4; 14.7; 7.5; 8.8; 12.4; 16.1; 15.2; 13.5; 13.8; 14.6; 15.5; 7.8; 12.5;13.2; 11.0; 10.5
Tabela de frequncias
considerada num trabalho de Dixon e Kronmal em 1965, que utilizam para k o maior inteiro
contido em 10xlog10n.
Nota 2: A metodologia utilizada para a construo das classes no nica. Pode-se, por
exemplo, decidir construir as classes fechadas direita e abertas esquerda, metodologia
seguida pela folha de clculo Excel, quando se utiliza a funo Frequency, ou seguir a
metodologia indicada, utilizada, por exemplo, no software de Estatstica Statview, ou ainda utilizar
outras abordagens diferentes.
Vamos exemplificar a utilizao do Excel na construo de tabelas de frequncia de dados qualitativos ou quantitativos
discretos.
O procedimento para a construo de tabelas de frequncia idntico, quer tenhamos um conjunto de dados qualitativos
ou quantitativos discretos, j que as classes que se consideram para a tabela de frequncia so, de um modo geral, como
vimos anteriormente, as diferentes categorias ou valores que surgem, respectivamente, no conjunto de dados.
Exemplo Considerando ainda o ficheiro EscolasSec.xls, vamos agrupar os dados segundo a varivel qualitativa Distrito.
Para ver quais as diferentes categorias que a varivel assume, um processo simples proceder ordenao dos dados
segundo aquela varivel. Fizmos essa ordenao e escrevemos as diferentes categorias nas clulas F3:F18. A seguir
utilizmos a funo COUNTIF(a;b), que devolve o nmero de clulas consideradas no argumento a, que so iguais
categoria considerada no argumento b:
Recomenda-se que ao construir a tabela de frequncias, se proceda soma das frequncias absolutas, para confirmar que
a soma igual ao nmero de elmentos do conjunto de dados que se est a agrupar.
1.2 - PivotTable
Outro processo que pode ser utilizado para construir uma tabela de frequncias de dados qualitativos ou quantitativos
discretos, usando a PivotTable, como se mostra a seguir.
38 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Exemplo Utilizando a PivotTable, proceda ao agrupamento dos dados da varivel Distrito, do ficheiro EscolasSec.xls.
No menu Data, clicar em PivotTable and PivotChart Report;
No passo 1 da PivotTable and PivotTable Wizard, seguir as instrues, e clicar PivotTable pergunta What kind
of report do you want to create?;
No passo 2 seguir as instrues, seleccionando os dados que se pretende usar (no esquecer de seleccionar os
ttulos). Neste caso seleccionar as clulas C1 a C71;
No passo 3 seleccionar o lugar onde pretende criar a tabela. Ns optmos por seleccionar a clula E2;
Arrastar o boto Distrito da barra PivotTable, e coloc-lo (drop it) no campo Row; Arrastar ainda o boto Distrito
e coloc-lo (drop it) no campo Data:
O procedimento anterior conduziu-nos tabela do lado esquerdo da figura anterior, cujo contedo foi copiado para
construir a tabela do lado direito, com uma apresentao mais sugestiva. Pode obter as frequncias relativas, em vez das
absolutas, clicando duas vezes em Count of Distrito e seleccionando sucessivamnete Options>> Show data as: % of
total.
Exemplo A um conjunto de 25 alunos de uma escola, perguntou-se quantos irmos tinham, tendo-se obtido os seguintes
valores: 1, 2, 1, 0, 3, 3, 2, 1, 0, 1, 2, 2, 3, 1, 1, 0, 2, 3, 1, 2, 0, 3, 4, 1, 6. Proceda a um agrupamento conveniente dos dados.
Comemos por inserir os dados numa folha de Excel e utilizando o procedimento anterior, obtivmos a seguinte tabela:
Observao: Se ao construir uma tabela de frequncias de dados quantitativos discretos, faltar algum valor entre o mnimo
e o mximo, deve-se consider-lo na tabela, com frequncia nula, se a seguir se pretende construir um diagrama de
barras.
Introduo Probabilidade e Estatstica 39
Maria Eugnia Graa Martins DEIO- 2005
Exemplo Considere o seguinte ficheiro IdadeTrabalhadores.xls, constitudo pelas idades de 180 indivduos escolhidos
aleatoriamente de entre os trabalhadores de uma grande empresa txtil. Proceda ao agrupamento dos dados, da forma
que achar conveniente.
Vamos utilizar a metodologia indicada na seco 2.2.2.2, para a definio das classes.
Definio das classes
1. Determinar a amplitude da amostra, subtraindo o mnimo do mximo;
2. Calcular a amplitude de classe h, dividindo a amplitude da amostra pelo nmero K de classes pretendido e
tomando para h um valor aproximado por excesso do quociente anteriormente obtido. Existe uma regra emprica
que nos d um valor aproximado para o nmero K de classes e que consiste no seguinte: para uma amostra de
K
dimenso n, considerar para K o menor inteiro tal que 2 n. Uma expresso equivalente para obter K, consiste
em considerar K=INT(LOG(n;2))+1 ou K=ROUNDUP(LOG(n;2);0), em que a funo ROUNDUP(x;m), devolve um
valor de x, arredondado por excesso, com m casas decimais;
3. Construir as classes C1, C2, ..., Ck. Vamos considerar como classes os intervalos [mnimo, mnimo + h[, [mnimo
+ h, mnimo + 2h[, ..., [mnimo + (k-1)h, mnimo + kh[. Uma alternativa a este procedimento seria considerar as
classes abertas esquerda e fechadas direita, da seguinte forma: ]max Kh, max (K-1)h], ]max (K-1)h,
max (K-2)h], ]max h, max].
O resultado destes passos so representados na figura seguinte, para a amostra das idades:
Para calcular as frequncias absolutas das classes obtidas anteriormente utilizmos a funo COUNTIF, como se
exemplifica a seguir para a classe C5:
40 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Nota: Para obter o valor de h, utilizmos a funo ROUNDUP(x;m), referida anteriormente. Neste caso utilizmos a funo
ROUNDUP(U8;1). Chamamos, no entanto, a ateno, para que nem sempre este arredondamento produz o resultado
desejado, j que o valor arredondado por excesso pode vir igual ao valor que se pretende arredondar. Por exemplo, se no
caso presente o resultado da clula U8 fosse 5,8, ento a funo ROUNDUP(U8;1) devolveria o valor 5,8. Assim,
necessrio estar atento para eventualmente se proceder a um arredondamento manual.
O Excel tem uma funo, que a funo Frequency(Data_array;Bins_array), que calcula o nmero de elementos da
varivel - cujos valores se encontram na Data_array, existentes nas classes - cujos limites se encontram em Bins_array.
Este vector Bins_array constitudo por um conjunto de k valores b1, b2, ..., bk, formando (k+1) classes, tais que:
A 1 classe dada por (-, b1], isto , conter todos os elementos b1;
A 2 classe dada por]b1, b2];
A 3 classe dada por ]b2, b3];
A ksima classe dada por ]bk-1, bk];
A (k+1)sima classe dada por ]bk, +);
Vamos exemplificar construindo uma tabela de frequncias para a varivel idade, assumindo como separadores (bins) os
valores 23,8; 29,6; 35;4; 41,2; 47; 52,8 e 58,6 considerados em 2.1:
Repare-se que a frequncia absoluta da classe C5 vem diferente da obtida em 2.1, pois as classes agora so fechadas
direita e abertas esquerda, pelo que os elementos iguais a 47 pertencem a esta classe, ao contrrio do que acontecia em
2.1, em que pertenciam classe C6. Assim, se se pretende utilizar a funo Frequency, a metodologia para formar as
classes deve ser a utilizada em 2.1, com a alternativa considerada no passo 4, isto :
4. Considerar as classes abertas esquerda e fechadas direita, da seguinte forma: ]max Kh, max (K-1)h],
]max (K-1)h, max (K-2)h], ]max h, max].
Outro processo que pode ser utilizado para fazer o agrupamento de uma varivel de tipo contnuo utilizando a
PivotTable. Vamos distinguir algumas situaes, pois o mtodo de construo das tabelas de frequncia sofre algumas
alteraes, para as quais devemos estar alertas, conforme o tipo de dados a tratar. O processo que vamos utilizar foi
sugerido, em parte, por um artigo de Neville Hunt, na revista Teaching Statistics (Volume 25, Number 2, Summer 2003).
Exemplo Considere ainda o ficheiro IdadeTrabalhadores.xls utilizado anteriormente e proceda ao agrupamento dos
dados utilizando a PivotTable.
Antes de processarmos os passos associados construo da tabela, necessrio dispormos os dados numa nica
coluna, em que na 1 linha dessa coluna deve estar o nome da varivel. Optmos por inserir os dados com o ttulo Idade,
nas clulas A1:A181 da Sheet2 do nosso ficheiro.
Procedimento a seguir:
1. No menu Data, clique em PivotTable and PivotChart Report;
2. No passo 1 da PivotTable and PivotTable Wizard, siga as instrues, e clique PivotTable pergunta What kind of
report do you want to create?;
3. No passo 2 siga as instrues, seleccionando os dados que pretende usar. Neste caso seleccione as clulas
A1:A181 (embora os dados estejam nas clulas A2:A181, o ttulo est na clula A1);
4. No passo 3 seleccione o lugar onde pretende criar a tabela. Ns optmos por seleccionar a clula C2;
5. Arraste o boto Idade da barra PivotTable, e coloque-o (drop it) no campo Row; Arraste o mesmo boto e
coloque-o (drop it) no campo Data;
6. Clique duas vezes no boto Sum of Idade, da tabela, e seleccione Count;
A tabela que aparece depois destas operaes, mostra a frequncia de cada valor individual (como estamos com dados
contnuos, embora inteiros, corremos o risco de termos uma tabela com tantas classes, quantos os dados, todos com
frequncia igual a 1!). Assim, necessrio proceder a mais algumas operaes, para agrupar os dados:
7. Clique em algum dos dados da varivel Idade e seleccione Data Group and Outline Group (ou ento clique
em algum dos dados com o boto direito do rato e seleccione Group and Outline Group) , fazendo surgir o
seguinte dilogo:
Por defeito, no dilogo anterior considerado como Starting at e Ending at respectivamente, o mnimo e o mximo do
conjunto de dados a agrupar. Para By considerado, tambm por defeito, um valor que depender do nmero de dados
e da grandeza desses dados.
8. Clicando em OK, produzida a seguinte tabela de frequncias:
42 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Observao: Repare-se que na construo automtica desta tabela, as classes esto construdas de tal modo que so
equivalentes s classes [18, 28[, [28, 38[, [38, 48[, [48, 58[, [58, 68[ (no esqueamos que estamos a trabalhar com
nmeros inteiros e, neste caso, a amplitude de classe tambm um nmero inteiro).
Suponhamos agora que no passo 7, escolhamos para amplitude de classe o valor 5.8, sugerido em 2.1:
Como se verifica, ao contrrio do que acontecia quando a amplitude de classe era um inteiro, o limite superior de um
intervalo igual ao limite inferior do intervalo seguinte, ficando a dvida de saber em que classe inserir um elemento igual
a um desses limites (esta situao no de pe neste caso, uma vez que os dados so inteiros). Na verdade estes
intervalos funcionam como se fossem fechados esquerda e abertos direita (excepto a ltima classe que tambm
fechada direita).
Quando os dados so apresentados com casas decimais, a situao idntica anterior. A aparente ambiguidade, de
primeira vista, no se saber a que classe pertence um valor igual a um limite de classe, pode ser resolvida, considerando
para amplitude de classe um valor decimal, com uma casa decimal a mais dos que os dados.
Exemplo Na publicao do INE, Anurio Estatstico da Regio de Lisboa e Vale do Tejo 2002, verifica-se que a taxa de
natalidade para os diferentes concelhos desta regio a apresentada no seguinte ficheiro:
Introduo Probabilidade e Estatstica 43
Maria Eugnia Graa Martins DEIO- 2005
Procedemos a um agrupamento conveniente para os dados, utilizando a metodologia apresentada anteriormente, tendo
obtido a tabela de frequncias (absolutas) que se apresenta a seguir:
Diagrama de barras - Representao grfica que consiste em marcar num sistema de eixos
coordenados, no eixo dos xx, o valor das classes e nesses pontos barras verticais de altura igual
frequncia absoluta ou frequncia relativa.
Ordenar a amostra e considerar para classes os diferentes valores a considerados. Marcar essas classes no
eixo dos xx, num sistema de eixos coordenados.
Nos pontos onde se consideraram as classes, marcar barras de altura igual frequncia absoluta ou relativa, da
respectiva classe. De preferncia utilizar as frequncias relativas, pois se pretendermos comparar diagramas de
barras de amostras diferentes, temos a garantia de que a soma das barras em qualquer dos diagramas igual a
1.
A linha poligonal que une os extremos das barras, chama-se polgono de frequncias.
Considere a tabela de frequncias obtida, na seco anterior, para os dados do ficheiro EscolasSec.xls e varivel Distrito,
e construa o diagrama de barras associado.A metodologia seguida para construir o diagrama de barras, consiste em, na
folha Excel, que contm a tabela:
Seleccionar as clulas que contm as classes e as frequncias absolutas (por exemplo);
No entanto, se a tabela de frequncias tiver sido construda utilizando a metodologia das PivotTables, o procedimento a
seguir o seguinte, como exemplificamos com a tabela obtida ainda para o mesmo ficheiro:
Introduo Probabilidade e Estatstica 45
Maria Eugnia Graa Martins DEIO- 2005
Surge-nos um grfico idntico ao anterior. Do mesmo modo que anteriormente acrescentmos ttulos, pelo que
s falta esconder os botes, o que se faz clicando com o lado direito do rato num deles e seleccionando Hide
PivotChart Field Buttons:
Exemplo Consideremos de novo o exemplo da pgina 38, em que temos os dados do nmero de irmos de 25 alunos.
Repare que na amostra seleccionada no existe nenhum aluno com 5 irmos, pelo que a tabela de frequncias no inclui a
classe 5. Se utilizar o procedimento anterior para obter o diagrama de barras, obtm-se a seguinte representao grfica:
46 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Repare-se que a varivel N irmos est a ser considerada como qualitativa, pois para termos uma representao grfica
correcta, deveria aparecer o valor 5, embora com uma frequncia nula.
Tendo em considerao a observao feita no seguimento desse exemplo, inclumos na tabela a classe 5 com frequncia
nula (para isso foi necessrio copiar os valores da tabela para outras clulas, j que no se podem inserir clulas em
tabelas obtidas pelo processo das PivotTables) e procedemos do seguinte modo para obter o diagrama de barras:
Seleccionar as clulas F3:G10, depois de ter apagado a palavra Classes da clula F3 e proceder como no caso dos dados
qualitativos, obtendo-se:
Grficos combinados
Se pretender visiualizar juntamente com o diagrama de barras, o polgono de frequncias, basta juntar uma nova coluna
com as frequncias e proceder do seguinte modo:
Seleccionar as clulas que contm as classes e as frequncias que se pretendem representar no grfico
combinado ;
J vimos anteriormente as etapas que, de um modo geral, se seguem para obter a tabela de
frequncias de uma amostra de dados contnuos. Ao contrrio do caso anterior, agora as classes
j no so pontos isolados, mas intervalos. Assim, a representao grfica j no pode ser o
Introduo Probabilidade e Estatstica 47
Maria Eugnia Graa Martins DEIO- 2005
diagrama de barras, pois no existem pontos isolados, onde elas seriam colocadas. Vejamos
ento como construir a representao grfica adequada a que damos o nome de histograma.
Para construir o histograma, quais as alturas que se devem considerar para os rectngulos?
Se todas as classes tiverem a mesma amplitude, ento hi = h. Neste caso facilita-se a construo
do histograma, considerando para alturas dos rectngulos as frequncias relativas, no
esquecendo que a rea total ocupada pelo histograma ser igual a h e no igual a 1!
Efectivamente a rea de cada rectngulo proporcional, e no igual, frequncia relativa da
respectiva classe, sendo a constante de proporcionalidade h.
.30
.20
.10
Voltemos tabela obtida na pgina 43, sobre os dados da taxa de natalidade dos concelhos da regio de Lisboa e
Vale do Tejo 2002. Tendo esta tabela sido obtida pela metodologia das PivotTables, para construior o histograma
associado:
Clicar em alguma parte da tabela e na barra da PivotTable clicar no cone ;
Clicar com o lado direito do rato numa das colunas do diagrama de barras que se obtm no passo anterior, e
seleccionar Format data Series Options Gap width:0;
Esconder os botes clicando com o lado direito do rato num deles e seleccionando Hide PivotChart Field Buttons
e acrescentando de seguida ttulos aos eixos:
2. Funo Histogram
No Excel existe uma funo, idntica funo Frequency, a que se acede seleccionando Tools Data
AnalysisHistogram OK (se o comando Data Analysis no constar do menu, seleccione Tools e na opo Add-Ins,
seleccione Analysis ToolPack). Vamos, para os dados do ficheiro IdadeTrabalhadores.xls, exemplificar a sua utilizao.
Definir a coluna de separadores ou limites das classes, que constituir o Bin Range: no nosso caso construmos
as classes subtraindo a amplitude de classe de 5,8, sucessivamente ao mximo, obtendo os valores {23,4, 29,2,
35,0, 40,8, 46,6, 52,4, 58,2}, que colocmos nas clulas M14:M20;
Seleccionar Tools Data AnalysisHistogram OK:
Introduo Probabilidade e Estatstica 49
Maria Eugnia Graa Martins DEIO- 2005
Em Input Range, indicmos o local dos dados e seleccionmos ainda a opo Chart Output e clicmos OK.
Como resultado obtivmos o seguinte:
Sustitumos os limites das classes pelos intervalos das classes e arranjmos convenientemente o grfico, j que
a representao que se obtm, ao contrrio do que indicado no ttulo, no um histograma:
O histograma obtido pelo processo anterior tem como rea total (amplitude de classe x dimenso da amostra), j que cada
rectngulo tem por altura a frequncia absoluta. Para construir um histograma cuja rea total seja igual a 1, procedemos do
seguinte modo:
Na tabela de frequncias acrescentar (caso ainda no tenha) uma coluna com as frequncias relativas e uma outra com as
frequncias relativas a dividir pela amplitude de classe e proceder do seguinte modo:
Seleccionar as clulas J4:J9 e M4:M9 (para seleccionar clulas no adjacentes, basta seleccionar as clulas da
primeira coluna e se a coluna seguinte no for adjacente, comear por carregar a tecla CTRL e com ela
pressionada seleccionar, ento, as clulas pretendidas;
Proceder como foi indicado em 2.3.1, para a construo de um diagrama de barras;
Clicar com o lado direito do rato numa das colunas do diagrama de barras que se obtm no passo anterior, e
seleccionar Format data Series Options Gap width:0:
50 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 6 (De Veaux et al, 2004) Represente num diagrama circular os dados da tabela de
frequncias seguinte em que se apresenta a distribuio dos 2201 passageiros do Titanic
segundo a varivel Classe:
Tabela de
frequncias
Classes Freq.abs. Freq.rel.
Primeira 325 0,148
Segunda 285 0,129
Terceira 706 0,321
Tripulao 885 0,402
2201 1
Introduo Probabilidade e Estatstica 51
Maria Eugnia Graa Martins DEIO- 2005
2.3.3.2 - Caule-e-folhas
um tipo de representao que se pode considerar entre a tabela e o grfico, uma vez que de um
modo geral so apresentados os verdadeiros valores da amostra, mas numa apresentao
sugestiva, que faz lembrar um histograma. Quando comparada com o histograma, uma
representao mais simples de construir quando se trabalha com lpis e papel e tem uma
vantagem imediata, que a de facilitar a ordenao dos dados, quando no se dispe de um
computador. Por outro lado, como na maior parte das vezes preserva os dgitos dos dados, ao
contrrio do histograma que os agrupa, permite a reconstituio da amostra.
3 3 3 7
4 4 4 2 9
5 5 5 9 7 5 3 8
6 6 6 5 3 6 8 0 2 9 2 4
7 7 5 7 5 5 8 9 9 6 7 1 8 7 0 4 3
8 8 8 4 7 6 0 9 8 3 1 5 0 4
9 9 9 8 9 0 5 2 3 0
24.3 29.1 24.6 24.8 29.4 30.0 24.9 24.9 31.2 28.9 24.1
Comeamos por tomar para par de dgitos adjacentes o algarismo das unidades e o das dcimas,
ficando o caule constitudo por dois algarismos. Considerando todos os caules possveis,
ordenam-se e dispem-se do lado esquerdo dum trao vertical, e a partir da comeam-se a
pendurar as folhas respectivas. Depois de ordenar as folhas das linhas correspondentes aos
caules considerados, obtm-se a representao seguinte:
n=21
Prof. (unidade=0.1)
2 21 3 4
22
5 23 5 6 8
(6) 24 1 3 6 8 9 9
25
26
10 27 5
9 28 2 3 4 9 9
4 29 1 4
2 30 0
1 31 2
Dado um conjunto de dados ordenados, a qualquer uma das observaes podemos associar
duas ordens, contando a posio da observao a partir de cada uma das extremidades dos
dados ordenados. A profundidade da observao a menor daquelas ordens. Assim, juntamente
com a representao de caule-e-folhas, considera-se um conjunto de profundidades em que,
exceptuando a linha central, o nmero apresentado na coluna das profundidades a
profundidade mxima associada com os valores da linha. Na linha que contm a mediana (a
definir posteriormente) indicado, entre parntesis, o nmero de folhas da linha. Voltaremos a
este assunto mais frente, quando tratarmos de um outro tipo de representao grfica,
nomeadamente a Box-plot.
Qual o nmero de linhas (ou caules) adequado para a construo dum caule-e-folhas?
A escolha do nmero de linhas, tal como acontece com o nmero de classes do histograma,
depende em grande parte da experincia e da habilidade do estatstico. Os problemas que se
levantam so anlogos aos j abordados quando da construo do histograma. No entanto, dado
o facto de se utilizar a notao decimal, necessrio considerar uma outra metodologia para o
Introduo Probabilidade e Estatstica 53
Maria Eugnia Graa Martins DEIO- 2005
Na amostra considerada
L = [10 log1021], ou seja L =13
Esta regra costuma fornecer valores de L convenientes para as dimenses das amostras usuais
num tratamento estatstico. evidente que, se n for muito grande, esta representao torna-se
muito pesada e pouco malevel.
Usando L como limite para o nmero de linhas, levanta-se o problema da determinao dos
comprimentos dos intervalos correspondentes a cada linha. O processo mais simples usar uma
potncia de 10 como comprimento do intervalo. Assim, dividimos R, a amplitude da amostra, por L
e arredondamos por excesso (se necessrio) o quociente obtido, at potncia de 10 mais
prxima.
Na amostra considerada
R 10.1
R = 31.4 - 21.3= 10.1, L =13, = =0.78
L 13
pelo que o arredondamento potncia de 10 mais prxima d 1.
Enquanto que nas linhas marcadas com * se colocam as folhas de 0 at 4, nas linhas marcadas
com . registam-se as folhas de 5 at 9. Nesta representao o comprimento do intervalo ser 5
vezes uma potncia de 10 (5 10-1).
Pode acontecer que, mesmo considerando 2 linhas por caule, a representao ainda continue
muito pesada, mas que se arredondssemos para a potncia de 10 imediatamente abaixo do
valor obtido para R/L, tambm ficasse muito esparsa. Ento, resolve-se o problema considerando
5 linhas por caule e indicando-as da maneira que segue:
54 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
0* folhas 0 e 1
t folhas 2 e 3 ("two" e "three")
f folhas 4 e 5 ("four" e "five")
s folhas 6 e 7 ("six" e "seven")
0. folas 8 e 9
0 11122344589999
1 1244466789
2 1267899
3
4
5 6
6 78
7 1
Prof n=35
(unidade=ms)
9 0* 1 1 1 2.2 3 4 4 4
15 0. 589999
(4) 1* 1244
16 1. 66789
11 2* 12
9 2. 67899
3*
3.
4*
4.
5*
4 5. 6
6*
3 6. 78
1 7* 1
7.
O ltimo exemplo sugere-nos a existncia, nos dados, de alguns valores que sobressaem de
entre os restantes, por serem demasiado grandes. Este outro aspecto em que a representao
de caule-e-folhas, nos ajuda a detectar esses valores (perturbadores), que chamamos de
outliers. Veremos posteriormente uma tcnica mais elaborada para detectar os outliers.
1* 0 1 1
t 2 3 3
f 4 4 4 4 5 5
s 6 6 7 7
1. 9 9
2* 1
t
f 4
Pedro David
8.7 9.3 8.7 7.1 9.5 7.1
9.4 5.3 7.4 8.3 7.1 7.4
6.6 7.3 6.3 7.1 7.5 7.4
6.0 6.7 5.9 7.9 7.9 7.8
6.9 5.8 10.0 7.5 6.4 6.2
9.9 4.7 6.5 6.2 6.2 8.6
6.3 5.6 8.6 8.2 7.5 8.4
8.9 5.9 7.7 8.7 7.7 6.6
10.1 9.4 9.0 8.5 7.6 8.1
9.6 7.6 7.9 7.6 8.8 7.1
(unidade=0.1 hora)
1 7 4.
2 3 5*
6 9 9 8 6 5.
9 3 3 0 6* 2 2 2 4 4
13 9 7 6 5 6. 6 5
15 4 3 7* 1 1 1 1 1 4 4 12
15 9 7 6 7. 5 5 5 6 6 7 8 9 9 (9)
8* 1 2 3 4 9
12 9 7 7 6 8. 5 6 7 8 5
8 4 4 3 0 9*
4 9 6 9. 5 1
2 1 0 10*
Exemplo: Construa uma representao em caule-e-folhas, utilizando o Excel, para os dados do exemplo 7.
Se pretender mudar o comprimento de linha para 10, basta substituir na clula E1 o 5 por 10.
Alguns histogramas apresentam formas que, pela frequncia com que surgem, merecem
referncia especial. Assim, as distribuies mais comuns apresentadas pelos dados so:
Distribuies simtricas
Um caso especial de uma distribuio simtrica aquele que sugere a forma de um "sino" e que
apresentado por amostras provenientes de Populaes Normais. O significado deste termo ser
explicado mais tarde, no mbito das Probabilidades.
58 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Distribuies enviesadas
A distribuio das frequncias faz-se de tal forma que existe um grande nmero de classes nos
extremos, cujas frequncias so pequenas, relativamente s classes centrais:
A distribuio das frequncias apresenta 2 ou mais "picos" a que chamamos modas, sugerindo
que os dados so constitudos por vrios grupos distintos:
Assim, quando se pretende este tipo de informao, existe uma representao grfica
conveniente que a funo distribuio emprica.
Introduo Probabilidade e Estatstica 59
Maria Eugnia Graa Martins DEIO- 2005
O que ? uma funo definida para todo o nmero x real e que para cada x d a
proporo de elementos da amostra menores ou iguais a x.
Exemplo 11 - Construa o grfico de uma funo distribuio emprica para os seguintes valores,
que representam a taxa de crescimento populacional, nas seguintes regies:
frica 2.8 Amrica Latina 2.6 Ocenia 1.3
sia 2.1 URSS .9
Amr. do Norte .8 Europa .4
.71
.57
.5
a) A nota N 75
b) A percentagem pedida 70%
Existem alguns quantis que, pela sua importncia, merecem uma referncia especial:
O que so barreiras?
Por vezes surgem na amostra valores, que se distinguem dos restantes por serem muitos grandes
ou muito pequenos. A esses valores chamamos outliers.
Dizemos que um valor outlier, quando no est compreendido no intervalo [barreira inferior,
barreira superior]. Numa representao em box-plot os outliers assinalam-se com o smbolo *.
onde x1:n x2:n x3:n xn:n . A x1:n , x2:n, x3:n, , xn:n chamamos estatsticas ordinais associadas
amostra e xi:n a i-sima estatstica ordinal. Uma vez a amostra ordenada, definimos ordem
ascendente de uma observao, como sendo a sua posio contada a partir do valor mais
pequeno da amostra; ordem descendente ser a sua posio contada a partir do maior valor.
Assim, a observao correspondente estatstica ordinal xi:n tem ordem ascendente i e
descendente n-i+1. Para qualquer observao verifica-se que
(2)
Os quartis so os quantis de ordem .25 (1 quartil) e .75 ( 3 quartil) e so casos particulares de quantis. Define-se quantil de ordem p ( 0<p<1) e representa-se
por Qp, como sendo o valor tal que 100p% dos valores da amostra so Qp e os restantes 100(1-p)% so Qp. Para a determinao do quantil Qp, utiliza-se a
regra seguinte:
Qp = x([np]+1) se np no inteiro e Qp= (x(np)+x(np+1))/2 se np inteiro. Na expresso da determinao dos quantis, a ordem i da observao x(i) a ordem
ascendente.
Introduo Probabilidade e Estatstica 63
Maria Eugnia Graa Martins DEIO- 2005
[profundida de anterior ] + 1
2
Ao conjunto dos nmeros assim determinados para resumir a amostra, podem-se associar letras,
chamadas etiquetas, sendo habitual faz-lo da forma seguinte:
M Mediana
F Quarto ("Fourth")
E Oitavo ("Eight")
D 16-avos
A 128-avos
Z 256-avos
Y 512-avos
1 Extremos (profundidade)
Esta associao entre as letras e os valores-resumo faz com que a esses valores se chamem
letras-resumo.
Exemplo 13 - Dada a amostra 12, 14, 16, 24, 26, 27, 32, 34, 45, 46, 46, 47, 57, 58, 59
a representao do resumo de 5 nmeros, a seguinte:
# 15
M 8 34
F 4.5 25 46.5
1 12 59
Se quisermos adicionar mais informao, com outras letras-resumo, basta adicionar as linhas
necessrias.
Dada uma amostra, para se proceder construo da box-plot, comea-se por obter o resumo de
5 nmeros, a partir do qual se constri a disperso quartal diferena entre os quartos, e as
barreiras de outliers. A construo da box-plot anloga j descrita anteriormente, isto ,
desenha-se um rectngulo com os lados nos quartos e com uma barra na mediana; em seguida
traamos uma linha que vai do meio do lado do rectngulo at ao valor da amostra mais afastado
do rectngulo, que no seja um outlier.
. . * *
FL -1.5 d F M F F +1.5 d
F L U U F
64 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 14 - Dada a amostra seguinte constituda pelas idades dos alunos de uma turma do 2
ano de Estatstica, faa a sua representao em box-plot
19, 20, 20, 21, 21, 20, 19, 20, 22, 23, 21, 21, 20, 25, 20, 19, 21, 44, 20
# 19
M 10 20 dF
F 5.5 20 21 1
1 19 44
1.5 dF = 1.5
Barreiras de outliers (18.5, 22.5)
outliers: 23, 25, 44
Desta representao, ressalta imediatamente a forte assimetria existente entre os dados, j que
a mediana coincide com o quarto inferior; e a assimetria positiva, isto , os dados tm um
enviesamento para a direita. Verifica-se tambm a existncia de outliers.
Como que se pode reconhecer a simetria ou o enviesamento dos dados, com a box-plot?
Em vez de dispormos as amostras de forma aleatria, podemos orden-las de acordo com o valor
da mediana. Uma disposio deste gnero permite verificar um fenmeno que surge
frequentemente nos dados, e que a tendncia para o aumento da disperso, medida que o
nvel (localizao indicada pela mediana, mdia,) aumenta. Este facto no compatvel com a
hiptese de igual variabilidade nas diferentes amostras, a qual muitas vezes necessria para se
poderem aplicar determinadas metodologias estatsticas.
Nota: A construo da Box-plot pode-se fazer quer com os quartos, quer com os quartis, pois a
representao grfica obtida quando no a mesma, muito semelhante.
Exemplo Para os dados do ficheiro IdadeTrabalhadores.xls, considerado na demostrao com o Excel, da seco
2.2.2.2, construa uma representao em Box-plot, para a varivel Idade.
Utilizando o Excel, recomenda-se que se comece por calcular as estatsticas necessrias, que se apresentam a seguir,
verificando se existem Outliers:
Introduo Probabilidade e Estatstica 67
Maria Eugnia Graa Martins DEIO- 2005
Como no existem outliers, a Box-plot resume-se a um diagrama de extremos e quartis, cuja construo segue os
seguintes passos:
Seleccionar as clulas que contm as estatsticas 1 quartil, mnimo, mediana, mximo e 3 quartil, assim como
as suas etiquetas ( importante que o 1 quartil e o 3 quartil sejam a primeira e a ltima estatsticas a serem
apresentadas na tabela);
No mdulo Chart Wizard (Assistente de Grficos) seleccionar:
Line
Seleccionar Line with markers displayed at each data value
Clicar Next
Seleccionar Series in Rows
Clicar Finish
Clicar com o boto direito do rato num dos pontos. Seleccionar:
Format Data Series
Seleccionar Options
Escolher High-low lines e Up-down bars; Ajuste sua escolha Gap width;
OK
Arranjar esteticamente o grfico:
Exemplo (De Veaux et al, 2004) Considere os seguintes dados, que representam o resultado de um estudo para
comparar os riscos de doenas cardacas devidas ao tabaco, utilizando os nveis de colesterol, como termo de
comparao. O colestelol foi medido em pessoas que fumam, h pelo menos 25 anos e por ex-fumadores que fumaram no
mximo 5 anos:
68 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Os dados so apresentados na tabela do lado esquerdo da figura anterior. Na tabela do meio calculmos as
estatsticas necessrias para a construo da Box-plot e verificmos a existncia de um outlier nos dados
referentes aos Fumadores. Assim, teremos que ligar a barra que sai da caixa no 3 quartil, com o maior valor da
amostra que est dentro da barreira e que o 309. Representmos este valor por aF, que inserimos na tabela do
lado direito, assim como inserimos o outlier 351, que representmos por oF (no esquecer que os quartis devem
enquadrar a tabela que vai ser utilizada para obter a representao grfica desejada);
Seleccionar as clulas M1:O8, e proceder como no caso anterior:
400 400
350
1quartil 350
300 min
300
250 mediana
200 max 250
150 aF
200
100 oF
3quartil 150
50
0 100
Fumadores Ex-fumadores Fumadores Ex-fumadores
Obtivmos a representao do lado esquerdo, da figura anterior, que depois de arranjada esteticamente, deu lugar
representao que se encontra no lado direito. Chamamos a ateno para que esta uma soluo, de entre muitas
possveis.
Nota: Numa representao correcta da box-plot, pressuposto que, para cada amostra, as linhas que saem da caixa
estejam ligadas ao menor e maior elementos da amostra que no sejam outliers, e a partir da marcam-se os outliers
com *s. Trabalhando na representao grfica anterior, obtivmos:
Introduo Probabilidade e Estatstica 69
Maria Eugnia Graa Martins DEIO- 2005
Exerccios
1 - Em 1960 e novamente em 1980 foi feito um inqurito s mulheres americanas sobre o n de
filhos. Os resultados obtidos foram os seguintes:
Nmero de filhos % mulheres 1960 % mulheres 1980
0 22 29
1 17 16
2 21 22
3 16 15
4 10 8
5 5 4
6 3 2
7 2 1
8 2 1
9 3 1
Construa uma representao grfica adequada para os dados anteriores e tire concluses.
2 - A tabela seguinte mostra a distribuio das frequncias relativas do ltimo dgito das idades
dos indivduos adultos. Esta informao foi recolhida relativamente a dois censos diferentes: o
Censo de 1880 e o de 1970.
Dgito 1880 1970
0 16.8 10.6
1 6.7 9.9
2 9.4 10.0
3 8.6 9.6
4 8.8 9.8
5 13.4 10.0
6 9.4 9.9
7 8.5 10.2
8 10.2 10.0
9 8.2 10.1
6
5
4
2
3
2
1
1
0
0 5 10 15 20 25 50
0
4 8 12 16 20
a) Algum aluno teve nota inferior a 4?
b) 10% dos alunos da turma tiveram nota entre 4 e 8. Qual a percentagem de alunos com
nota entre 8 e 12?
c) Qual a percentagem de alunos com nota superior a 12?
Introduo Probabilidade e Estatstica 71
Maria Eugnia Graa Martins DEIO- 2005
R: a) No b) 20% c) 70%
5 - Recolheram-se os preos, por hora, de 3 tipos de trabalhadores. Os trabalhadores do grupo B
ganham cerca de duas vezes mais do que os trabalhadores do grupo A; os trabalhadores do
grupo C ganham mais 1500$ por hora do que os do grupo A. Qual das manchas seguintes, de
histogramas, pertence a cada um dos grupos?
(3) (4)
(5) (6)
Quais dos histogramas podem representar cada uma das variveis anteriores? Explique porqu.
R:a) - (2) b) - (3) c) - (4) d) - (1)
7 - Um servio de sade registou o n mdio de cigarros fumados por dia por cada doente
(homem) assistido nesse servio. Os dados recolhidos permitiram construir o seguinte
histograma:
72 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Considerando que a percentagem de fumadores que fuma menos de 10 cigarros por dia
aproximadamente 15%:
a) A percentagem de fumadores que fuma um mao ou mais por dia, mas menos de 2 maos
aproximadamente
1.5% 15% 30% 50%
b) A percentagem de fumadores que fuma um mao ou mais por dia, aproximadamente
1.5% 15% 35% 50%
c) A percentagem de fumadores que fuma trs maos ou mais por dia, aproximadamente
.25% .5% 10%
d) A percentagem de fumadores que fuma 15 cigarros por dia, aproximadamente
.30% .5% 1.5% 3.5% 10%
R: a) 30% b) 50% c) 10% d) 3.5%
8 Foi feito um estudo sobre os efeitos secundrios da plula, nomeadamente sobre a tenso
arterial. Esse estudo envolveu um pouco mais de 14000 mulheres e os resultados obtidos
encontram-se na seguinte tabela:
Tenso Idade 17-24 Idade 25-34 Idade 35-44 Idade 45-58
(mm) n. util. Utili. n. util. Util. n. util. Util. n. util. Util.
% % % % % % % %
<90 - 1 1 - 1 1 1 -
[90,95[ 1 - 1 - 2 1 1 1
[95,100[ 3 1 5 4 5 4 4 2
[100, 105[ 10 6 11 5 9 5 6 4
[105, 110[ 11 9 11 10 11 7 7 7
[110, 115[ 15 12 17 15 15 12 11 10
[115, 120[ 20 16 18 17 16 14 12 9
[120, 125[ 13 14 11 13 9 11 9 8
[125,130[ 10 14 9 12 10 11 11 11
[130,135[ 8 12 7 10 8 10 10 9
[135,140[ 4 6 4 5 5 7 8 8
[140,145[ 3 4 2 4 4 6 7 9
[145,150[ 2 2 2 2 2 5 6 9
[150,155[ - 1 1 1 1 3 2 4
[155,160[ - - - 1 1 1 1 3
160 - - - - 1 2 2 5
Total 100 98 100 99 100 100 99 99
N elementos 1206 1024 3040 1747 3494 1028 2172 437
b) Construa histogramas para as tenses arteriais das no utilizadoras da plula, com idades
compreendidas entre 17-24 e 25-34. O que que conclui?
9 - A seguinte tabela apresenta os ndices gerais de produo industrial, nos diferentes pases da
comunidade e noutros pases ( Fonte : Anurio Estatstico de Portugal - 1992):
Eur12 1984 Out. pases 1984 Eur12 1990 Out. pases 1990
Alemanha 95.3 ustria 95.4 Alemanha 117.9 ustria 121.2
Blgica 97.6 Canad 95.0 Blgica 118.4 Canad 107.0
Dinamarca 95.9 EUA 98.3 Dinamarca 107.8 EUA 115.7
Espanha 98.0 Finlndia 96.6 Espanha 116.1 Finlndia 114.0
Frana 99.8 Japo 96.5 Frana 113.6 Japo 125.4
Grcia 96.7 Noruega 98.0 Grcia 103.3 Noruega 141.1
Holanda 96.1 Sucia 97.3 Holanda 109.1 Sucia 105.2
Irlanda 96.7 Suia 94.2 Irlanda 143.8 Suia 118.0
Itlia 98.6 Turquia 99.0 Itlia 117.8 Turquia 138.8
Luxemb. 93.6 URSS 95.8 Luxemb. 118.0 URSS x
Portugal 90.2 Portugal 135.2
Reino Uni. 94.8 Reino Uni. 109.3
Por vezes a Populao que se pretende estudar aparece sobre a forma de pares de valores, isto
cada indivduo ou resultado experimental contribui com um conjunto de dois valores. o que
acontece, por exemplo quando se considera para cada aluno candidato ao Ensino Superior, a
nota da PGA e a nota da Prova Especfica.
Este tipo de representao muito til, pois permite realar algumas propriedades entre os
dados, nomeadamente no que diz respeito ao tipo de associao entre os x's e os y's.
Seguidamente apresentamos alguns exemplos, para ilustrar o que acabamos de dizer.
Comentrio:
Verifica-se uma associao linear entre as medidas dos ossos do brao e da perna, isto , aos
maiores valores de x correspondem os maiores valores de y. Esta concluso seria de esperar,
pois de um modo geral se as pessoas so grandes, so-no de braos e pernas!
Comentrio:
O grfico mostra uma associao, de sentido contrrio, entre o n de faltas e a distncia. Assim,
quanto maior a distncia, menor a tendncia para faltar!
Exemplo 20 - Considere os seguintes dados, que representam as notas obtidas por 10 alunos
nas disciplinas de Matemtica e Educao Fsica.
Construa o diagrama de disperso e comente-o.
Introduo Probabilidade e Estatstica 75
Maria Eugnia Graa Martins DEIO- 2005
Comentrio:
Aparentemente no existe nenhuma associao linear entre as notas obtidas nas duas
disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatria".
De uma maneira geral, uma tabela de contingncia uma representao dos dados, quer de tipo
qualitativo, quer de tipo quantitativo, especialmente quando so de tipo bivariado, isto , podem
ser classificados segundo dois critrios. O aspecto de uma tabela de contingncia o de uma
tabela com linhas, correspondentes a um dos critrios, e colunas correspondente ao outro critrio.
Seguidamente apresentamos um exemplo, para ilustrar o que acabamos de dizer.
Classe
Primeira Segunda Terceira Tripulao Total
Freq.abs. 202 118 178 212 710
%Total 9,2% 5,4% 8,1% 9,6% 32,3%
Vivos
%Coluna 62,2% 41,4% 25,2% 24,0% 32,3%
%Linha 28,5% 16,6% 25,1% 29,9% 100,0%
Freq.abs. 123 167 528 673 1491
Sobrev
Seria interessante verificar se a distribuio dos passageiros que sobreviveram ou no, teria a ver
com a classe em que viajavam. Da tabela anterior, vamos reter as duas tabelas seguintes:
Classe
Primeira Segunda Terceira Tripulao Total
Vivos.
e
Classe
Primeira Segunda Terceira Tripulao Total
Mortos.
Como se depreende da tabela anterior, parece no haver independncia entre a classe e o tipo de
sobrevivncia, uma vez que de entre os mortos, predominaram os passageiros que viajavam em
terceira classe e os tripulantes. No captulo 3 voltaremos a estudar a associao entre variveis
de tipo qualitativo.
Introduo Probabilidade e Estatstica 77
Maria Eugnia Graa Martins DEIO- 2005
Exemplo Admita que a seguinte tabela apresenta os dados referentes a 24 passageiros do Titanic:
Para construir uma tabela de contingncia idntica apresentada no exemplo 21, em que associa a informao relativa s
variveis Classe e Tipo de sobrevivncia, proceda do seguinte modo:
No menu Data, clique em PivotTable and PivotChart Report;
No passo 1 da PivotTable and PivotTable Wizard, siga as instrues, e clique PivotTable pergunta What kind of
report do you want to create?;
No passo 2 siga as instrues, seleccionando os dados que pretende usar. Neste caso seleccione as clulas
A1:D25. Se antes de ir ao menu Data, colocar o cursor em alguma clula da tabela a partir da qual quer construir
a PivotTable, na janela apresentada neste passo da construo da tabela, as clulas da tabela aparecem
seleccionadas por defeito;
No passo 3 seleccione o lugar onde pretende criar a tabela;
Arraste o boto Sobrev da barra PivotTable, e coloque-o (drop it) no campo Row; Arraste o boto Classe da
barra PivotTable, e coloque-o (drop it) no campo Column. Arraste um dos botes e coloque-o (drop it) no campo
Data (ns seleccionmos o boto Classe):
78 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Do mesmo modo que no exemplo 21, vamos tambm considerar frequncias relativas (Ns optmos por considerar as
percentagens de cada clula da tabela, relativas ao total de elementos). Para isso proceda da seguinte forma:
Faa um duplo clique em Count of Classe;
Na janela que aparece seleccione Options e em Show Data as, seleccione % of total:
Para obter uma representao grfica associada tabela anterior, proceda da seguinte forma:
Clicar em alguma parte da tabela e na barra da PivotTable clicar no cone , criando-se um grfico numa folha
chamada Chart1. No menu Chart seleccione Location e na janela que aparece, em As object in, seleccione a
folha onde tem a tabela;
Esconder os botes clicando com o lado direito do rato num deles e seleccionando Hide PivotChart Field
Buttons:
Pode ainda a partir da tabela dos dados iniciais fazer outros agrupamentos, nomeadamente entrando com mais do que 2
variveis, como por exemplo:
Introduo Probabilidade e Estatstica 79
Maria Eugnia Graa Martins DEIO- 2005
Exerccios
2. Ser que o vinho bom para o corao? H a convico de que o consumo moderado de
vinho ajuda a prevenir ataques cardacos. Na tabela seguinte apresentamos, para 19 pases
desenvolvidos, alguns valores respeitantes ao consumo anual de vinho (litros de lcool obtidos a
partir do consumo de vinho, por pessoa) e a taxa de mortes anuais por doenas cardacas
(mortes por 100000 pessoas):
A partir dos dados anteriores, qual a resposta que daria questo em estudo?
3. A tabela seguinte compara a previso do tempo e o tempo que se verificou na realidade,
durante o perodo de 1 ano (De Veaux, 2004):
80 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Tempo verificado
Choveu No choveu
Previso
Chove 27 63
No chove 7 268
Normal 48 91 93
Alta 23 51 73
Captulo 3
Caractersticas amostrais
3.1 - Introduo
Vimos no captulo anterior, alguns processos de resumir a informao contida nos dados,
utilizando tabelas e grficos. Veremos neste captulo, um outro processo de resumir essa
informao utilizando determinadas medidas, calculadas a partir dos dados, que se chamam
estatsticas.
Das medidas ou estatsticas que iremos definir, para caracterizar os dados, destacam-se as
medidas de localizao, nomeadamente as que localizam o centro da amostra, e as medidas de
disperso, que medem a variabilidade dos dados.
Observemos que ao resumir a informao contida nos dados na forma de alguns nmeros,
estamos a proceder a uma reduo "drstica" desses dados. Assim, aquelas medidas devem ser
convenientemente escolhidas, de modo a representarem o melhor possvel o conjunto de dados
que pretendem sumariar. Como veremos, definiremos vrias medidas possveis, mas no
poderemos dizer, de uma forma geral, que uma melhor do que outra, j que a sua utilizao
depende do contexto e da situao em que necessitam de ser calculadas e como vo ser
utilizadas.
Ser mesmo necessrio utilizar os dois tipos de medidas, isto de localizao e de disperso,
para caracterizar um conjunto de dados? O exemplo seguinte procura responder a esta questo.
Para definir as medidas que vo ser utilizadas para resumir a informao contida nos dados, e
lembramos mais uma vez que estamos na fase da anlise estatstica conhecida por Estatstica
Descritiva, utilizamos a seguinte notao para representar a amostra
x1, x2, x3, , xn
No entanto, a situao anterior, a existir, muito rara, pois devido aleatoriedade presente nos
dados, os histogramas no apresentam aquele aspecto. Por outro lado, quando o histograma
enviesado, a situao ainda se torna mais complicada, pois difcil dizer o que o centro. Existem
ento, vrios processos para definir o centro, cujas medidas no do necessariamente o mesmo
resultado. Destas medidas destacamos a mdia e a mediana, a definir seguidamente.
3.2.1 - Mdia
x i
i =1
x=
n
n y
i =1
i i
x=
n
onde: k o nmero de classes do agrupamento
ni a frequncia absoluta da classe i
yi o ponto correspondente classe i
n y
i =1
i i
x
n
onde: k o nmero de classes do agrupamento
ni a frequncia absoluta da classe i
yi o ponto mdio da classe i, o qual considerado como elemento representativo
da classe.
Embora todos os dados, menos um, estejam no intervalo [10.6, 15.1], o valor obtido para a mdia
est "bem afastado" daquele intervalo! Uma medida que se pretendia representativa dos dados,
no est a conseguir esses objectivos, pois se nos disserem que um conjunto de dados tem mdia
24.1, imediatamente pensamos em valores que no se afastem muito deste valor.
O que acontece que a mdia muito sensvel a valores muito grandes ou muito pequenos,
dizendo-se que uma medida pouco resistente.
No caso do exemplo foi o valor 113.5 que inflacionou a mdia. Alm disso temos alguma razo
para pensar que pode ter havido um erro ao digitar o valor 113.5, digitando um 1 a mais! E se em
Introduo Probabilidade e Estatstica 84
Maria Eugnia Graa Martins DEIO- 2005
vez de 113.5 o valor correcto fosse 13.5, qual o valor da mdia? Neste caso para a mdia dos
seguintes dados
12.4 13.5 13.6 11.2 15.1 10.6 12.4 14.3 13.5
obteve-se o valor x = 13.0, significativamente diferente do obtido no caso anterior!
Sendo a mdia uma medida to sensvel aos dados, preciso ter cuidado com a sua
utilizao, pois pode dar uma imagem distorcida dos dados que pretende representar!
A mdia d uma boa indicao do centro da amostra quando a distribuio dos dados for
aproximadamente simtrica. Alis, a sua popularidade est associada ao facto de quando a
distribuio dos dados normal (o histograma correspondente tem a forma aproximada de um
sino), ento a melhor medida de localizao do centro a mdia. Ora sendo a Distribuio Normal
(como se ver posteriormente, no mdulo das distribuies) uma das distribuies mais
importantes e que surge com mais frequncia nas aplicaes, esse facto justifica a grande
utilizao da mdia. Esquematicamente podemos posicionar a mdia da forma que se segue,
tendo em conta a representao grfica na forma de histograma:
No histograma do lado esquerdo temos uma figura aproximadamente simtrica, pelo que o centro
est bem definido. No histograma do centro o enviesamento para a direita provoca uma
deslocao da mdia para a direita; finalmente no histograma da direita o enviesamento provoca
uma deslocao da mdia para a esquerda.
A mdia tem uma outra caracterstica, que torna a sua utilizao vantajosa em certas aplicaes:
quando o que se pretende representar a quantidade total expressa pelos dados, utiliza-se a
mdia. Na realidade, ao multiplicar a mdia pelo nmero total de elementos, obtemos a
quantidade pretendida!
Chamamos a ateno para que com dados de tipo qualitativo no tem sentido calcular a mdia,
mesmo que os dados sejam nmeros. Se, por exemplo, temos um conjunto de 1s e 2s para
representar as classes da varivel sexo, em que se utilizou o 1 para representar o sexo masculino
e o 2 para o sexo feminino (varivel codificada), no tem qualquer significado calcular a mdia
daquele conjunto de dados.
Vamos ver de seguida uma outra medida de localizao do centro da amostra, alternativa
mdia, e que a mediana.
Introduo Probabilidade e Estatstica 86
Maria Eugnia Graa Martins DEIO- 2005
3.2.2 - Mediana
A mediana uma medida de localizao do centro da distribuio dos dados, definida do seguinte
modo: ordenados os elementos da amostra, a mediana o valor ( pertencente ou no amostra),
que a divide ao meio, isto , 50% dos elementos da amostra so menores ou iguais mediana e
os outros 50% so maiores ou iguais mediana.
Dado um histograma fcil obter a posio da mediana, pois esta est na posio em que
passando uma linha vertical por esse ponto o histograma fica dividido em duas partes com reas
iguais.
Como medida de localizao, a mediana mais resistente do que a mdia, pois no to sensvel
aos dados!
Assim, no se pode dizer, em termos absolutos, qual destas medidas prefervel, dependendo do
contexto em que esto a ser utilizadas.
Introduo Probabilidade e Estatstica 87
Maria Eugnia Graa Martins DEIO- 2005
Resumindo, como a mdia influenciada quer por valores muito grandes, quer por valores muito
pequenos, se a distribuio dos dados for enviesada para a direita (alguns valores grandes como
outliers), a mdia tende a ser maior que a mediana; se for aproximadamente simtrica, a mdia
aproxima-se da mediana e se for enviesada para a esquerda (alguns valores pequenos como
outliers), a mdia tende a ser inferior mediana. Representando as distribuies dos dados (esta
observao vlida para as representaes grficas na forma de diagrama de barras ou de
histograma) na forma de uma mancha, temos, de um modo geral:
Observe-se que o simples clculo da mdia e da mediana nos pode dar informao sobre a forma
da distribuio dos dados.
Observao: O clculo da mediana pode ser feito custa da noo de profundidade, como
exemplificmos no captulo anterior.
Para dados de tipo qualitativo pode-se calcular a mediana desde que esteja subjacente uma
hierarquia nas diferentes classes ou modalidades que a varivel pode assumir.
Salrio (euros) [500, 600[ [600, 700[ [700, 800[ [800, 900[ [900,1000[ [2000, 2100[
N empregados 24 56 43 23 12 2
A mdia superior mediana, pois 2 dos valores do conjunto de dados so muito grandes,
quando comparados com os restantes, tendo assim inflacionado a mdia. A mediana d-nos uma
ideia mais correcta do nvel dos salrios.
A mediana divide a rea do histograma em duas partes iguais. A mdia indica o ponto de
balano do histograma, isto , tem em linha de conta tanto a rea das barras, como as suas
distncias ao centro.
No exemplo anterior fomos calcular as reas dos rectngulos ou partes, para cada lado da linha
vertical que passa pela mdia e multiplicmos pelas distncias mdia (considermos como
distncia de um rectngulo mdia, a distncia entre o ponto mdio da sua base e a mdia) e
sommos de forma conveniente os resultados, como se apresenta a seguir:
[500, 600[ [600, 700[ [700, 730,6[ [730,6, 800[ [800, 900[ [900,1000[ [2000,2100[
rea rect ou parte 15 35 8,22375 18,65125 14,375 7,5 1,25
Distncia 180,6 80,6 15,6 34,7 119,4 219,4 1319,4
reaxdistncia 2709,0 2821,0 128,3 647,2 1716,4 1645,5 1649,3
5658 5658
Assim se compreende que num histograma, quanto mais uma das suas barras estiver afastada
das outras, mais influenciar que o centro se desloque na sua direco.
Tal como a mediana, o quantil de ordem p, Qp, uma medida que se calcula a partir da amostra
ordenada. Para facilitar a sua obteno vamos considerar a seguinte notao, j utilizada
anteriormente, para a amostra ordenada
ordenar
(x1, x2, x3, , xn) (x1:n, x2:n, x3:n, , xn:n)
x [np]+1:n se np no inteiro
Qp = 1
(x + x np+1: n ) se np inteiro
2 np: n
Aos quantis de ordem 1/4 e 3/4 damos respectivamente o nome de 1 quartil e 3 quartil, como j
vimos no captulo anterior.
Exemplo 6 - Tendo-se decidido registar os pesos dos alunos de uma determinada turma de
Matemtica do 12 ano, obtiveram-se os seguintes valores (em kg):
52 56 62 54 52 51 60 61 56 55 56 54 57 67 61 49
Um aluno com o peso de 62kg pode ser considerado "normal", isto , nem demasiado magro, nem
demasiado gordo?
Ordenando a amostra anterior, cuja dimenso 16, temos
49 51 52 52 54 54 55 56 56 56 57 60 61 61 62 67
Para a obteno dos quartis consideramos:
Vimos nas seces anteriores duas medidas de localizao do centro da amostra, nomeadamente
a mdia e a mediana. Dissemos que a mdia muito sensvel a valores muito grandes ou muito
pequenos, sendo portanto uma medida pouco resistente. Ao contrrio a mediana uma medida
resistente, pois no sensvel aos outliers. No entanto a mediana no representa, to bem como
a mdia, a totalidade dos dados. Seria ento desejvel arranjar uma soluo de compromisso
entre estas duas medidas. Surge assim o conceito de mdia aparada.
Obtm-se uma mdia aparada, eliminando igual nmero de observaes em ambos os extremos
da amostra ordenada, onde, se existirem, se situam os outliers, e calculando a mdia com os
restantes elementos.
Introduo Probabilidade e Estatstica 90
Maria Eugnia Graa Martins DEIO- 2005
No existe uma regra fixa, pois depende nomeadamente do nmero de outliers existentes. Uma
escolha que se costuma fazer eliminar 10% dos elementos da amostra em cada extremo,
resultando num total de 20% de elementos eliminados. Quando a percentagem no der um valor
inteiro, considera-se o maior inteiro contido no valor obtido.
A B A B
198 198 161 96
175 175 Ordenao 168 161
184 184 175 168
196 196 184 175
168 168 184 184
161 161 185 184
185 185 196 185
184 184 198 196
235 235 235 198
289 96 289 235
1 1 1
Trimdia = (quarto inferior ) + (mediana) + (quarto superior)
4 2 4
3.2.5 -Moda
Para um conjunto de dados, define-se moda como sendo o valor que surge com mais frequncia,
se os dados so discretos, ou o intervalo de classe com maior frequncia, se os dados so
contnuos.
Assim, das representaes grficas adequadas, para cada um destes tipos de dados, obtm-se
imediatamente o valor que representa a moda ou a classe modal.
Esta medida especialmente til para reduzir a informao de conjuntos de dados qualitativos,
portanto apresentados sob a forma de nomes ou categorias, para os quais no se pode calcular a
mdia e por vezes a mediana ( se no forem susceptveis de ordenao).
Introduo Probabilidade e Estatstica 91
Maria Eugnia Graa Martins DEIO- 2005
Exerccios
7 7
6 6
2 4 5 4 2 4 5 6 4
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 90
9 - O histograma seguinte representa as notas da prova especfica de uma amostra de alunos que
entraram para a Faculdade de Cincias, no ano lectivo de 92/93. Cerca de 1% dos alunos tiveram
nota inferior a 10.
Conjunto 1 15 15 15 15 15
Conjunto 2 10 13 15 17 20
Conjunto 3 0 7 15 23 30
Embora tenham a mesma mdia, mediana e mdia aparada, tm um aspecto bem diferente no
que diz respeito variabilidade.
Como a medida de localizao mais utilizada a mdia, ser relativamente a ela que se define a
principal medida de disperso - o desvio padro, apresentado a seguir. Comeamos, no entanto,
por definir varincia, que serve de base definio de desvio padro.
3.3.1 - Varincia
2
Define-se a varincia e representa-se por s , como sendo a medida que se obtm somando os
quadrados dos desvios das observaes relativamente mdia, e dividindo pelo nmero de
observaes menos uma:
n
2
(x i x)
2
i =1
s =
n 1
Quais as razes que nos levam a considerar aquela definio para a varincia?
O que acontece que a soma dos desvios igual a zero, pois os desvios positivos esto a
cancelar com os desvios negativos,
Poderamos ter utilizado mdulos, para evitar que os desvios positivos cancelassem com os
desvios negativos, mas mais fcil trabalhar com os quadrados, do que com os mdulos!
Introduo Probabilidade e Estatstica 95
Maria Eugnia Graa Martins DEIO- 2005
E ento porque que em vez de dividirmos por n, que o nmero dos desvios, dividimos por
(n-1)?
Uma vez que a varincia envolve a soma de quadrados, a unidade em que se exprime no a
mesma que a dos dados. Assim, para obter uma medida da variabilidade ou disperso com as
mesmas unidades que os dados, tomamos a raiz quadrada da varincia e obtemos o desvio
padro.
Pelas razes apontadas anteriormente, a medida de disperso que se costuma utilizar o desvio
padro, que se representa por s e a raiz quadrada da varincia:
(x
2
i x )
i =1
s=
n 1
O desvio padro uma medida que s pode assumir valores no negativos e quanto maior
for, maior ser a disperso dos dados.
Relativamente aos trs conjuntos de dados apresentados no incio do estudo das medidas de
disperso, verificamos que:
- o conjunto 1 apresenta um desvio padro igual a zero, como seria de esperar, pois se os
valores so todos iguais, a disperso nula;
- os conjuntos 2 e 3 apresentam um desvio padro igual, respectivamente, a 3.8 e 12.0.
O desvio padro, da mesma forma que a mdia, muito sensvel presena de outliers, sendo
portanto uma medida de disperso pouco resistente. Assim, um valor grande para o desvio
padro, pode ser devido a uma grande variabilidade nos dados, ou ento a uma pequena
variabilidade, mas existncia de um ou mais outliers.
Como se depreende do que atrs foi dito, se os dados se distribuem de forma aproximadamente
normal, ento esto praticamente todos concentrados num intervalo de amplitude 6 vezes o
desvio padro: quanto menor for o desvio padro, mais concentrada a distribuio dos dados.
50 + 55 + 55 + 55 + 57.5 + 60
x= = 55.4
6
2 (50 55.4)2 + 36(55 55.4)2 + (57.5 55.4)2 + (60 55.4)2
s=
5
= 10.16
de onde s = 3.19
Estes valores significam que, mais de dois teros das vezes, o preo da bica est no intervalo
(52.2, 57.6). Obtivemos o intervalo anterior subtraindo e adicionando o valor do desvio padro
mdia.
Introduo Probabilidade e Estatstica 97
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 9 - O que mede o desvio padro? Que tipo de variabilidade? (The standard deviation:
some drawbacks of an intuitive approach - Teaching Statistics, vol 7, n.3, 1985)
A seguinte experincia d conta de que nem sempre o desvio padro entendido pelos alunos
como uma medida da variabilidade relativamente mdia.
Consideremos dois conjuntos formados cada um por dois blocos: no 1 conjunto os blocos tm
altura 45 e 50 cm. No 2 conjunto as alturas dos blocos so 5 e 10 cm:
Assim para visualizar convenientemente o conceito de variabilidade medida pelo desvio padro,
apresentam-se diagramas de barras. A partir destes grficos os estudantes podem ver que a
variabilidade das alturas pode ser expressa em termos dos desvios relativamente mdia:
Freq.abs. Freq.abs.
3 3
2 2
1 1
10 20 30 40 50 60 10 20 30 40 50 60
A B
Freq.abs. Freq.abs.
3 3
2 2
1 1
10 20 30 40 50 60 10 20 30 40 50 60
C D
Pedindo para calcular o desvio padro das alturas de cada um dos conjuntos os estudantes
facilmente verificam que:
desvio padro de A = desvio padro de B
desvio padro de C < desvio padro de D
Confrontados com os resultados intuitivos, os estudantes concluem que o desvio padro uma
medida muito especfica da variabilidade.
A partir da expresso que define a varincia, pode-se deduzir sem dificuldade uma expresso
mais simples para o seu clculo, assim como o do desvio padro, e que a seguinte:
n
2
x
i =1
2
i
n
s = x2
-
n 1 n 1
Observao: Por vezes, devido a erros de arredondamento, a frmula anterior d um valor
negativo para a varincia, pelo que necessrio ter cuidado!
A medida mais simples para medir a variabilidade a amplitude, que se representa por um R
(range) e se define como a diferena entre o mximo da amostra e o mnimo:
Introduo Probabilidade e Estatstica 99
Maria Eugnia Graa Martins DEIO- 2005
R = mximo - mnimo
A medida anterior tem a grande desvantagem de ser muito sensvel existncia, na amostra, de
uma observao muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude
inter-quartil, que , de certo modo, uma soluo de compromisso, pois no afectada, de um
modo geral, pela existncia de um nmero pequeno de observaes demasiado grandes ou
demasiado pequenas. Esta medida definida como sendo a diferena entre os 1 e 3 quartis:
Do modo como se define a amplitude inter-quartil, concluimos que 50% dos elementos no centro
da amostra, esto contidos num intervalo com aquela amplitude. Esta medida j foi, alis, utilizada
na construo da box-plot. Esta medida no negativa e ser tanto maior quanto maior for a
variabilidade nos dados.
Mas, ao contrrio do que acontece com o desvio padro, uma amplitude inter-quartil nula, no
significa necessariamente, que os dados no apresentem variabilidade. Por exemplo, o seguinte
conjunto de dados
10 20 30 30 30 30 30 30 40 50
tem desvio padro igual a 10.5 e amplitude inter-quartil igual a zero.
Do mesmo modo que a questo foi posta relativamente s duas medidas de localizao mais
utilizadas - mdia e mediana, tambm aqui se pode por o problema de comparar aquelas duas
medidas de disperso.
De um modo geral verifica-se que a variabilidade presente num conjunto de dados aumenta com a
localizao. Por exemplo se pretendemos comparar vrios conjuntos de dados, uma maneira
possvel utilizar as box-plot paralelas. Quando falmos nesta representao aconselhmos a
Introduo Probabilidade e Estatstica 100
Maria Eugnia Graa Martins DEIO- 2005
Exerccios
1 - Suponha que adicionou 100, a cada um dos valores de uma amostra. O que acontece:
a) ao desvio padro?
b) amplitude inter-quartil?
c) amplitude?
d) mdia?
e) mediana?
E se em vez de adicionar 100, multiplicar por 100? Generalize as concluses anteriores para uma
constante k qualquer.
2 - Suponha que obteve o valor -40.5 para a varincia. O que conclui?
3 - Suponha que a amplitude de uma amostra 105.4, e que ao calcular o desvio padro obteve o
valor 160.6. O que conclui?
4 - Suponha que os resultados de um teste de Matemtica, em duas turmas, uma de rapazes e
outra de raparigas, se distribuem aproximadamente segundo uma normal. Nesse teste, enquanto
que as raparigas tiveram em mdia 55 pontos, os rapazes tiveram 50. Para ambas as distribuies
o desvio padro foi de 10.
a) Qual o valor aproximado para a percentagem de raparigas com nota superior a 75 pontos?
b) Qual o valor aproximado para a percentagem de rapazes com nota inferior a 50 pontos? E a 40
pontos?
Introduo Probabilidade e Estatstica 101
Maria Eugnia Graa Martins DEIO- 2005
Exemplo Considere os seguintes dados que representam as notas obtidas por 30 estudantes num teste de Estatstica:
12 15 10 9 6 8 10 13 12 11
14 13 10 12 11 14 12 13 10 9
8 10 11 12 14 15 13 12 10 11
Utilizando o Excel, calcule a mdia, varincia, desvio padro e quartis e amplitude inter-quartil.
O Excel dispe ainda de uma funo que se obtm seleccionando Tools data Analysis Descriptive Statistics, onde se
acede a uma janela em que inserimos os endereos das clulas com os dados, que devem estar numa nica coluna, e
onde se selecciona Summary Statistics, obtendo-se a seguinte tabela de estatsticas:
Na tabela anterior apresentam-se algumas estatsticas, como a kurtosis e a skewness, que tm a ver com a forma da
distribuio dos dados, mas que no definiremos, assim como no definiremos Standard Error. As outras medidas so a
Amplitude, Mnimo, Mximo, Soma dos dados e Nmero de dados da amostra.
Introduo Probabilidade e Estatstica 102
Maria Eugnia Graa Martins DEIO- 2005
J vimos no captulo das representaes grficas, que quando dispomos de amostras de dados
bivariados, que vamos passar a representar por (xi,yi), i=1, , n, a sua representao num
diagrama de disperso pode mostrar a existncia de uma certa associao linear entre os factores
x e y, que compem os pares. No que se segue admitimos que as variveis so de tipo
quantitativo.
A medida que se utiliza com mais frequncia para medir o grau desta associao linear, o
coeficiente de correlao, que se representa por r, e se calcula a partir da expresso:
n
Sxy
r=
Sxx Syy
onde Sxy = (x i x)(y i y )
i =1
Esta medida tem o inconveniente de depender drasticamente das unidades com que se
apresentam os elementos da amostra e da o facto de normalmente no ser utilizada, passando-
se imediatamente definio do coeficiente de correlao (independente das unidades utilizadas),
que como facilmente se verifica da expresso anteriormente considerada, vem:
covarincia
Correlao =
varincia(x) varincia(y)
Interpretao geomtrica:
Efectivamente, quando pensamos num valor grande de x, ser um valor acima da mdia. Por
outro lado, um valor pequeno de x um valor abaixo da mdia. Ento se, de um modo geral, aos
valores grandes de x esto associados os valores grandes de y, e aos valores pequenos de x
esto associados os valores pequenos de y, os produtos
(x i x)(yi y)
so de um modo geral positivos, j que ambos os factores so positivos ou negativos. Como o
denominador da expresso do coeficiente de correlao, no depende da forma como os xs se
associam com os ys, ento o facto de no numerador somarmos grande nmero de parcelas
positivas, faz com que o valor do coeficiente de correlao seja positivo e tanto maior quantas
mais parcelas positivas houver.
Neste caso tanto podem surgir produtos negativos, como positivos, distribuindo-se de forma mais
ou menos equitativa. Ento o valor de r vem prximo de zero.
Observao: Dada a amostra (x1, x2, x3, , xn), obtm-se a amostra estandardizada ou
padronizada ( x1 , x 2 , x3 , , x n ), subtraindo a cada elemento a mdia, isto , centrando a
* * * *
amostra na origem, e dividindo pelo desvio padro, ou seja, reduzindo os dados de forma a que o
desvio padro dos dados transformados venha igual a 1:
* xi - x
xi =
sx
Exerccio: Verifique que o coeficiente de correlao da amostra bivariada (xi, yi), i=1,n, a
covarincia da amostra padronizada correspondente.
80 80
Exame2A
Exame2B
70 70
60 60
50
50
50 60 70 80 90
50 60 70 80 90
Exame1A Exame1B
90 90
80 80
Exame2C
Exame2D
70 70
60 60
50 50
50 60 70 80 90 50 60 70 80 90
Exame1C Exame1D
Introduo Probabilidade e Estatstica 105
Maria Eugnia Graa Martins DEIO- 2005
100 90
90
80
Exame2E
80
Exame2F
70
70
60
60
50 50
50 60 70 80 90 100 50 60 70 80 90
Exame1E Exame1F
A visualizao dos grficos anteriores leva-nos a supor que entre os dois exames se possa admitir
o seguinte tipo de associao:
Forte Moderada Fraca
Positiva E A B
Negativa C D F
95
85
Exame2G
75
65
55
45
35
40 50 60 70 80 90 100
Exame1G
Como se verifica, existe uma forte associao entre os valores do exame 1 e os valores do exame
2. Surpreendentemente ao calcular o coeficiente de correlao obtemos o valor 0! Mas ser assim
to surpreendente? No, se nos lembrarmos que o que o coeficiente de correlao mede o grau
de associao linear e no outro tipo de associao, como a associao curvilnea, presente nos
dados da representao anterior.
100 90
90 80
80 70
Exame2H
70 60
Exame2I
60 50
50 40
40 30
30 20
20 10
10 0
50 60 70 80 90 100 0 20 40 60 80 100
Exame1H
Exame1I
90
80
Exame2J
70
60
50
40
30
30 40 50 60 70 80 90 100
Exame1J
Da anlise da representao anterior verificamos existirem dois grupos distintos de alunos: uns
muito bons e outros muito maus. Embora para cada um dos grupos se verifique uma ligeira
tendncia para uma associao positiva, o facto que o valor do coeficiente de correlao 0.95,
bem superior ao valor que seria de esperar.
Antes de calcular e tentar interpretar o coeficiente de correlao entre duas variveis, construa um
diagrama de pontos. No esquea que o coeficiente de correlao s mede a intensidade com
que duas variveis se associam linearmente, pelo que se a representao grfica no mostrar
evidncia de associao linear, no tem sentido calcul-lo.
Introduo Probabilidade e Estatstica 107
Maria Eugnia Graa Martins DEIO- 2005
Um outro aspecto que no pode deixar de ser referido quando estamos perante uma correlao
forte entre duas variveis, que isso no significa necessariamente uma relao de causa-efeito.
O valor do coeficiente de correlao entre as variveis t.m.v e Pes/TV igual a -0.80, o que
significa uma forte correlao negativa entre o tempo mdio de vida e o nmero de pessoas por
aparelho de TV, ou seja, quanto maior for o nmero de pessoas por aparelho de TV, menor o
tempo mdio de vida. Ser que ento se pode aumentar o tempo mdio de vida da populao de
um pas, aumentando o nmero de aparelhos de TV? Seria ridculo pensar desta maneira, pois
este um exemplo em que sobressai que no se pode admitir uma relao de causa-efeito.
Obviamente existem outras variveis no observadas -variveis perturbadoras - relacionadas com
o nvel de vida na populao, que provocam alteraes nas duas variveis que estamos a estudar
e que explicam a forte correlao verificada. O diagrama de disperso das variveis estudadas
tem o seguinte aspecto:
250
200
150
Pes/TV
100
50
0
40 50 60 70 80 90
t.m.v.
Introduo Probabilidade e Estatstica 108
Maria Eugnia Graa Martins DEIO- 2005
a) Para construir o diagrama de pontos anterior, selccionar as duas colunas com os dados, F2:G12, e de seguida :
Exerccios
1 - Considere o seguinte diagrama de disperso:
1,5
0,5
0
0 2 4 6
X
Responda s seguintes questes:
a) A mdia dos xs est prxima de 1, 1.5 ou 3?
b) A mdia dos ys est prxima de 1, 1.5 ou 3?
c) Qual das variveis apresenta maior variabilidade?
d) Calcule o coeficiente de correlao.
2 Numa Conservatria de Registo Civil recolheu-se informao sobre as idades do homem e da
mulher de uma amostra de 20 casais. Os resultados foram os seguintes:
categorias. Como vimos no captulo 2, uma forma de apresentar os dados utilizando tabelas de
contingncia. Vejamos, com um exemplo, uma forma de extrair informao a partir das tabelas de
contingncia:
Exemplo 12 Suponha que uma universidade decidiu estudar o seu corpo docente quanto ao
estado civil e categoria profissional, tendo obtido os seguintes resultados:
Na ltima coluna do lado direito apresentamos os totais de linha, que corresponde distribuio
da varivel categoria profissional. Analogamente, na ltima linha esto apresentados os totais de
coluna, que correspondem distribuio da varivel estado civil. A estas distribuies
chamamos distribuies marginais (precisamente por se apresentarem nas margens da tabela!).
Estas distribuies apresentadas separadamente no nos do informao sobre a associao
entre as variveis em estudo. To pouco essa informao pode ser dada pelo diagrama de
disperso ou pela correlao.
100%
90%
80%
70%
60% Prof. Cated.
Prof. Assoc.
50%
Prof. Auxiliar
40% Assistente
30%
20%
10%
0%
Solteiro Casado Divorciado Vivo
A leitura que se deve fazer desta tabela semelhante que se fez da tabela anterior, mas tendo
em ateno que agora a varivel que est a condicionar a categoria profissional. Por exemplo
pode obter-se a informao de que aproximadamente 67% dos assistentes so solteiros,
enquanto que casados so cerca de 26%. O diagrama de barras por segmentos correspondente a
estas distribuies marginais tem o seguinte aspecto:
100%
90%
80%
70%
60% Vivo
Divorciado
50%
Casado
40% Solteiro
30%
20%
10%
0%
Assistente Prof. Auxiliar Prof. Associado Prof. Catedrtico
Introduo Probabilidade e Estatstica 112
Maria Eugnia Graa Martins DEIO- 2005
Podemos finalmente estar interessados na distribuio conjunta das duas variveis, e ento em
vez de recolher a informao a partir da primeira tabela constri-se uma outra em que a
frequncia absoluta de cada clula substituda pela frequncia relativa, relativamente ao total de
docentes, pois as frequncias relativas so mais fceis de comparar:
Paradoxo de Simpson
Homens Mulheres
Supervisor Nmero % Nmero %
Candidatos admitidos Candidatos admitidos
A 825 62 108 82
B 560 63 25 68
C 325 37 593 34
D 417 33 375 35
E 191 28 393 24
F 373 6 341 7
Introduo Probabilidade e Estatstica 113
Maria Eugnia Graa Martins DEIO- 2005
Assim, os homens candidataram-se aos supervisores onde era mais fcil de entrar, enquanto que
as mulheres fizeram o contrrio. Existe aqui o efeito devido escolha do supervisor que provoca
uma interpretao enganadora quanto varivel sexo. Esta situao conhecida como o
paradoxo de Simpson. O paradoxo de Simpson diz respeito inverso na direco da associao
quando os dados referentes a vrios grupos so combinados para formarem um nico grupo.
Afinal o tratamento til, concluu a comisso encarregada do estudo. Os dados indicam que a
percentagem de pessoas vivas que fizeram o tratamento de 56% (=153/273), superior das
pessoas vivas que no fizeram o tratamento, que s de 46,7% (=108/231).
Concluso: Embora no sejam uns resultados espectaculares, vale a pena investir, apesar do
tratamento ser bastante caro, pensou o responsvel pelo Departamento de Sade.
Qual no foi a surpresa deste senhor, quando recebeu uma comisso de mulheres, colocando
reticncias ao investimento em causa, j que alegvam que o tratamento s beneficiaria os
homens, uma vez que tinham verificado o que se passava com os dados referentes s mulheres e
Introduo Probabilidade e Estatstica 114
Maria Eugnia Graa Martins DEIO- 2005
estes indicvam at uma diminuio ligeira na percentagem de mulheres vivas, de entre as que
tinham feito o tratamento:
Mulheres
No tratamento Tratamento
Vivas 57 32
Mortas 100 57
Homens
No tratamento Tratamento
Vivos 51 121
Mortos 23 63
mesmo verdade que o tratamento no benfico para o sexo masculino, j que a percentagem
de homens vivos sem tratamento de 69% (=51/74), contra os 66% (= 121/184) dos que fizeram
tratamento.
Concluso: O tratamento prejudicial tanto para os homens, como para as mulheres, embora seja
benfico para o pessoal em geral!
Estava ainda o responsvel do DS atarantado com estas concluses, a reflectir sobre o que fazer,
quando recebe a informo de que o marido da sua secretria tinha morrido com a doena de
Grott. No havia nada a fazer, era uma pessoa com a tenso arterial muito alta. Como se pode
comprovar pelos dados seguintes, o tratamento em estudo tem um interesse limitado para os
indivduos de tenso alta, pois no consegue sequer uma percentagem de 50% de cura:
Repare que a percentagem de vivos de 40% (=4/10) para os que no seguiram o tratamento,
contra 47% (=51/108) para os que seguiram o tratamento.
Concluso: O tratamento prejudicial aos homens, mas benfico para os que tm a tenso alta,
e para os que tm a tenso normal ou baixa, uma autntica salvao!
Concluso: Vimos anteriormente que o tratamento no era benfico para as mulheres, mas agora
conclumos que benfico para as mulheres jovens, pois 76% (=25/33) das que receberam
tratamento esto vivas, contra 72% (=49/68) das que no receberam tratamento.
Exerccio
1. Na sua cidade h duas clnicas A e B. O ministrio da Sade pretende tomar uma deciso de
escolher uma destas clnicas para fazer parte do plano de sade pblica, pelo que fez um estudo
sobre o sucesso em 5 tipos de operaes realizadas nestas clnicas:
Clnica A Clnica B
Tipo operao N operaes N bem suc. % sucesso N operaes N bem suc. % sucesso
A 359 292 .81 88 70 .80
B 1836 1449 .79 514 391 .76
C 299 178 .60 222 113 .51
D 2086 434 .21 86 12 .14
E 149 13 .09 45 2 .04
4729 2366 .50 955 588 .62
Repare que em todos os tipos de operaes a clnica A tem maior sucesso, ainda que na
globalidade a clnica B tenha uma maior percentagem de sucesso. Qual das clnicas escolheria?
Introduo Probabilidade e Estatstica 116
Maria Eugnia Graa Martins DEIO- 2005
Introduo Probabilidade e Estatstica 117
Maria Eugnia Graa Martins DEIO- 2005
Captulo 4
Regresso
4.1 - Introduo
Como vimos no captulo anterior a correlao mede o grau e o tipo positivo ou negativo, da
associao linear existente entre duas variveis quantitativas. Quando o diagrama de disperso
reala a existncia desta associao linear, ento possvel resumir atravs de uma recta a forma
como uma varivel resposta y influenciada por uma varivel explanatria x a essa recta damos
o nome de recta de regresso.
Um modelo de regresso um modelo matemtico equao, que descreve a relao entre duas
ou mais variveis. Se o estudo s incluir duas variveis a varivel explanatria x e a varivel
resposta y, temos uma regresso simples. Se o modelo matemtico utilizado for a equao de
uma recta, ento diz-se regresso linear simples
X Y X Y X Y
73 168 76 172 79 163
73 169 76 154 79 159
73 143 76 167 79 174
73 139 76 154 79 191
74 140 76 178 79 196
74 178 77 160 80 180
74 149 77 185 80 199
74 167 77 172 80 159
74 155 77 167 81 170
74 149 77 153 81 184
74 154 77 154 81 192
74 145 77 190 81 185
74 151 78 152 81 164
74 181 78 158 81 195
74 142 78 154 81 205
75 166 78 194 82 165
75 182 78 183 82 178
75 143 78 155 83 201
75 183 78 177 83 207
75 157 79 201 83 196
75 152 79 162 83 213
75 182 79 199
A representao num diagrama de disperso dos valores observados para o par de variveis
(comprimento do fmur, permetro da cabea) tem o seguinte aspecto:
Introduo Probabilidade e Estatstica 118
Maria Eugnia Graa Martins DEIO- 2005
220
200
Perimetro cabea
180
160
140
120
72 74 76 78 80 82 84
Comp. fmur
Na representao anterior verifica-se uma certa tendncia (linear) para que medida que o
comprimento do fmur aumente, tambm aumente o permetro da cabea.
y = a + bx
Um dos mtodos mais conhecidos de ajustar uma recta a um conjunto de dados, o mtodo dos
mnimos quadrados, que consiste em determinar a recta que minimiza a soma dos quadrados dos
desvios (ou erros) entre os verdadeiros valores das ordenadas e os obtidos a partir da recta, que
se pretende ajustar.
Esta tcnica, embora muito simples, pouco resistente, j que muito sensvel a dados
estranhos - valores que se afastam da estrutura da maioria. Efectivamente, quando se pretende
minimizar
n n
e2i = (y i y i )2
i =1 i =1
Introduo Probabilidade e Estatstica 119
Maria Eugnia Graa Martins DEIO- 2005
b=
(x x)(y y )
i i
a = y- b x
(x x )
i
2
n n n
nx y - x y
i=1 i i i=1 i=1 i
i
b= n 2 n
n x - ( x )2
i=1 i i=1 i
Para exemplificar o clculo dos coeficientes da recta de regresso consideremos o exemplo
seguinte:
Exemplo 2 - Os dados da tabela seguinte representam a idade e a altura das crianas de uma
escola privada.
170
165
160
155
Altura (cm)
150
145
140
135
130
125
120
100 110 120 130 140 150
Idade (meses)
verifica-se a existncia de uma certa associao linear entre a idade e a altura, pelo que vamos
construir a recta de regresso da altura na idade. Exemplificamos a seguir a forma de fazer os
clculos:
Criana x x2 y xy
1 109 11881 137.6 14998.4
2 113 12769 147.8 16701.4
3 115 13225 136.8 15732.0
4 116 13456 140.7 16321.2
5 119 14161 132.7 15791.3
6 120 14400 145.4 17448.0
7 121 14641 135.0 16335.0
8 124 15376 133.0 16492.0
9 126 15876 148.5 18711.0
10 129 16641 148.3 19130.7
11 130 16900 147.5 19175.0
12 133 17689 148.8 19790.4
13 134 17956 133.2 17848.8
14 135 18225 148.7 20074.5
15 137 18769 152.0 20824.0
16 139 19321 150.6 20933.4
17 141 19881 165.3 23307.3
18 142 20164 149.9 21285.8
2601.8 2283
a= - 0.51 = 79.7
18 18
pelo que a recta de regresso
y = 79.7 + 0.51 x
Introduo Probabilidade e Estatstica 121
Maria Eugnia Graa Martins DEIO- 2005
Uma utilizao muito frequente da recta de regresso na obteno de predies. Por exemplo,
se estivssemos interessados em obter o valor para a altura de uma criana com 150 meses,
bastaria substituir na equao da recta o valor de x por 150, obtendo-se um valor aproximado de
156 cm para a altura. E se pretendssemos a altura de um jovem de 240 meses? Comente o
resultado obtido.
Resduos
Uma forma de verificar se o modelo ajustado bom atravs dos resduos, isto , das diferenas
:
entre os valores observados y e os valores ajustados y
pois se estes no se apresentarem muito grandes, nem com nenhum padro bem determinado,
sintoma de que o modelo que estamos a ajustar bom. Chama-se a ateno para o facto de os
resduos gozarem da propriedade (esta propriedade consequncia imediata da forma como se
obtm as expresses para os estimadores a e b da recta de regresso) de a sua soma ser nula
n
(y i y i ) = 0
i=1
pelo que uma forma elucidativa de os representar considerar num diagrama de disperso os
pontos (xi, ei), visualizando-se os desvios positivos e negativos para cima e para baixo do eixo dos
xs. No caso do exemplo tem-se
Introduo Probabilidade e Estatstica 122
Maria Eugnia Graa Martins DEIO- 2005
100
50
0
100 105 110 115 120 125 130 135 140 145
x
-50
-100
seramos levados a concluir que o modelo que se deveria ajustar seria o no linear.
60
50
40
30
20
0 5 10 15 20
PIBA
Introduo Probabilidade e Estatstica 123
Maria Eugnia Graa Martins DEIO- 2005
Se retirarmos aos dados o ponto correspondente a Portugal, que juntamente com a Grcia
sobressaem de entre os restantes no que diz respeito ao PIBA, obtm-se a seguinte equao para
a recta
y = 77.308 0.967 x
Representando as duas rectas no mesmo grfico, verifica-se a influncia provocada por um nico
ponto:
100
90
80
70
PURB
60
50
40
30
20
0 5 10 15 20
PIBA
Imediatamente se verifica que a inclinao da recta agora considerada bastante mais pequena
do que a que se obtm quando se consideram todos os pontos. A observao correspondente a
Portugal diz-se influente.
Para obviar a este problema, utiliza-se a tcnica da recta resistente, que recorre s medianas, que
j vimos serem medidas resistentes. um processo que consiste, basicamente, em dividir o
conjunto dos n pontos (xi,yi) , i=1,,n, em trs grupos, usar a mediana de cada grupo como ponto
representativo do grupo e obter a recta ajustada, a partir dos trs pontos (Hoaglin et al. 1983).
Exerccios
1.Suponha que um economista est interessado em estudar a relao entre as despesas mensais
com a alimentao e os rendimentos mensais das famlias portuguesas. Obviamente que as
despesas mensais com a alimentao dependem de vrios factores tais como a dimenso do
agregado familiar, os gostos dos elementos do agregado, alm do rendimento. Como estamos
interessado num modelo de regresso simples vamos considerar unicamente como varivel
explanatria o rendimento. Recolheu-se informao sobre 15 famlias, tendo-se obtido os
resultados seguintes:
Rendimento Despesas
495 110
340 85
Introduo Probabilidade e Estatstica 124
Maria Eugnia Graa Martins DEIO- 2005
260 80
450 100
540 120
356 90
250 85
290 80
420 110
560 120
380 110
270 90
330 85
420 120
360 115
a) Obtenha a recta dos mnimos quadrados que lhe permita estimar a longevidade a partir do
tempo de gestao.
b) Interprete os coeficientes da recta dos mnimos quadrados
c) Represente graficamente os resduos
d) Algum dos animais claramente um outlier tanto em longevidade, como em tempo de
gestao?
e) Relativamente ao animal considerado na alnea anterior, calcule o seu resduo. Verifique
se substancialmente maior que os resduos dos outros animais.
f) Qual dos animais tem o maior resduo em valor absoluto? O seu perodo de gestao
maior ou menor do que se esperaria para um animal com a sua longevidade?
g) Retire a girafa dos seus dados e recalcule a recta dos mnimos quadrados. Compare as
duas.
h) Faa o mesmo que na alnea anterior, mas agora com o elefante. Conclua das duas
alneas anteriores se, no contexto da regresso, alguma das observaes consideradas
influente ou outlier.
Introduo Probabilidade e Estatstica 125
Maria Eugnia Graa Martins DEIO- 2005
Captulo 5
Probabilidade
5.1 Introduo
Todos os dias somos confrontados com situaes, que nos conduzem a utilizar, intuitivamente, a
noo de Probabilidade. Nos mais variados aspectos da nossa vida, est presente a incerteza:
A palavra probabilidade est presente sempre que estivermos perante um fenmeno aleatrio, isto
, um fenmeno para o qual no sabemos de antemo o que vai acontecer, na prxima repetio,
mas para o qual se admite uma certa regularidade a longo termo, ou seja, para um grande nmero
de repeties do fenmeno. Esta regularidade estatstica utilizada para definir a probabilidade
Introduo Probabilidade e Estatstica 127
Maria Eugnia Graa Martins DEIO- 2005
segundo o conceito frequencista, de que falaremos a seguir. Como veremos, uma aproximao
conceptual da probabilidade, muito utilizada, mas limitativa, na medida em que s permite definir
a probabilidade de acontecimentos que se possam repetir um grande nmero de vezes nas
mesmas condies.
Ser que o acaso pode ser governado? Ento no estamos a admitir que a longo termo possvel
obter um padro genrico de comportamento do fenmeno aleatrio?
Na situao comum do lanamento de uma moeda ou de um dado, no podemos dizer qual a face
que sai no prximo lanamento. No entanto se lanarmos a moeda ou o dado um nmero razovel
de vezes, esperamos que aproximadamente metade das vezes saia cara e aproximadamnete um
sexto das vezes saia a face 1 do dado. Suponha agora que lana a moeda 8 vezes e que obteve a
seguinte sequncia (representamos a cara por F e a coroa por C):
C, F, C, C, F, F, F, F
Se lanar novamente a moeda, o que que espera que saia? Embora lhe apetecesse dizer que
no prximo lanamento mais provvel que saia coroa (C), para equilibrar o nmero de caras com
o nmero de coroas, na verdade no prximo lanamento tanto pode sair cara como coroa, j que
os sucessivos lanamentos da moeda so independentes uns dos outros (a moeda no tem
memria).
De um modo geral no! A maior parte das vezes em que necessrio utilizar tcnicas estatsticas,
estamos perante situaes em que necessrio fazer inferncia estatstica, isto , pretendemos
tirar concluses para um grande conjunto de indivduos (Populao), a partir do estudo de um
nmero restrito desses indivduos (Amostra). Assim, quando a partir do estudo de uma amostra
pretendemos inferir para a populao de onde a amostra foi recolhida, existe sempre um grau de
incerteza, associado aleatoriedade da escolha da amostra, que medido em termos de
Probabilidade. Alguns exemplos ajudar-nos-o a desenvolver esta ideia.
Exemplo 2 Admita que tem uma moeda equilibrada. Mas o que uma moeda equilibrada?
aquela em que estamos a admitir, partida, que existe igual possibilidade de sair cara ou coroa no
prximo lanamento que faamos com ela estamos a admitir o princpio da simetria, de que
falmos anteriormente. Estamos, assim, a admitir, na nossa cabea, um modelo matemtico em
que assumimos que em qualquer lanamento da moeda, a probabilidade de sair cara igual de
sair coroa e igual a 1/2:
No nos estamos a preocupar, por exemplo, com a fora ou direco com que atiramos a moeda,
nem to pouco com o desgaste acusado pela moeda aps sucessivos lanamentos! Tambm no
estamos a encarar a hiptese da moeda cair de p! Se nos estivssemos a preocupar em arranjar
um modelo que traduzisse mais fielmente a realidade, estaramos a arranjar um modelo
matemtico to complicado que seria impossvel de tratar e no nos serviria para nada. O
estatstico George Box dizia:
De um modo geral os acontecimentos identificam-se com letras maisculas A, B, etc. Diz-se que
se realizou o acontecimento A, quando o resultado da experincia pertence a A.
Para descrever o espao de resultados vamos considerar dois dados, um preto e um branco, para
os distinguir. O espao de resultados constitudo por todos os pares de dados considerados na
figura a seguir. O nmero de elementos do espao de resultados 36 = 6X6.
O espao anterior pode ser descrito de forma mais sinttica considerando os pares ordenados (i,j),
onde representamos por i o nmero de pintas do dado 1, ou seja do dado preto, e por j o nmero
de pintas do dado 2, ou seja do dado branco:
S = {(i,j): i=1,2,...,6; j=1,2,...6}
Chamamos a ateno que, por exemplo, o par (1,3) no o mesmo que o par (3,1). No par
ordenado, o primeiro elemento refere-se a um dos dados (neste caso o dado preto) e o segundo
elemento refere-se ao outro dado (o dado branco).
O acontecimento o nmero de pintas igual nos dois dados constitudo pelos pares
assinalados na figura seguinte
Nota Associado experincia que acabmos de descrever no exemplo anterior, poderamos ter
considerado o seguinte espao de resultados:
Qual a desvantagem em considerar este espao de resultados? Como veremos mais frente, se o
espao de resultados for constitudo por resultados igualmente possveis, o que no acontece
nesta situao, podemos utilizar a regra de Laplace, para atribuir probabilidades a acontecimentos
associados ao fenmeno em estudo.
Nota histrica (Statistics, 1991) - No sculo XVII, os jogadores italianos costumavam fazer apostas sobre o nmero total
de pintas obtidas no lanamento de 3 dados. Acreditavam que a possibilidade de obter um total de 9 era igual
possibilidade de obter um total de 10. Por exemplo, diziam que uma combinao possvel para dar um total de 9 seria
134 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
1 pinta num dos dados, 2 pintas num outro dado, 6 pintas no terceiro dado
Assim, os jogadores argumentavam que o 9 e o 10 deveriam ter a mesma possibilidade de se verificarem. Contudo, a
experincia mostrava que o 10 aparecia com uma frequncia um pouco superior ao 9. Pediram a Galileu que os ajudasse
nesta contradio, tendo este realizado o seguinte raciocnio: Pinte-se um dos dados de branco, o outro de cinzento e o
outro de preto. De quantas maneiras se podem apresentar os trs dados depois de lanados? O dado branco pode
apresentar 6 possibilidades diferentes. Para cada uma destas possibilidades o dado cinzento pode apresentar 6
possibilidades, obtendo-se 6 X 6 possibilidades para os dois dados. Correspondendo a cada uma destas possibilidades, o
dado preto pode apresentar 6 possibilidades obtendo-se no total 6 X 6 X 6 = 216 possibilidades. Galileu listou todas as 216
maneiras de 3 dados se apresentarem depois de lanados. Depois percorreu a lista e verificou que havia 25 maneiras de
obter um total de 9 e 27 maneiras de obter um total de 10.
O raciocnio dos jogadores no entrava em linha de conta com as diferentes maneiras como os dados se podiam
apresentar. Por exemplo o triplo 3 3 3, que d o 9, corresponde unicamente a uma forma de os dados se apresentarem,
mas o triplo 3 3 4 que d o 10, corresponde a 3 maneiras diferentes:
pelo que o raciocnio dos jogadores deve ser corrigido de acordo com a tabela seguinte:
Triplos para o 9 N de maneiras Triplos para o 10 N de maneiras
de obter o triplo de obter o triplo
1 2 6 6 1 4 5 6
1 3 5 6 1 3 6 6
1 4 4 3 2 2 6 3
2 3 4 6 2 3 5 6
2 2 5 3 2 4 4 3
3 3 3 1 3 3 4 3
Total 25 Total 27
Colocaram-se (Graa Martins. M.E. et al, 1999) numa caixa 3 papis com o nome de 3 meninas:
Ana, Maria e Filipa. Considere a experincia aleatria que consiste em retirar da caixa 2 papis e
verificar os nomes que saram. Qual o espao de resultados? Para responder a esta questo
necessrio saber se a extraco se faz com reposio, isto , se uma vez retirado um papel e
verificado o nome se volta a colocar o papel na caixa, antes de proceder extraco seguinte, ou
se a extraco feita sem reposio, isto , uma vez retirado um papel, ele no reposto antes
de se proceder prxima extraco. No esquema seguinte procuramos representar as duas
situaes.
Introduo Probabilidade e Estatstica 135
Maria Eugnia Graa Martins DEIO- 2005
Admitimos que na 1 extraco saiu o papel com o nome da Maria. Na 2 extraco, saiu o nome
da Filipa nos dois casos, mas na extraco com reposio havia uma possibilidade em trs de ele
sair, tal como na 1 extraco, enquanto que na extraco sem reposio havia uma possibilidade
em duas de ele sair. Quer dizer que neste caso havia uma maior probabilidade de sair o nome da
Filipa. Os espaos de resultados Sc e Ss correspondentes s duas situaes com reposio e sem
reposio, so respectivamente:
Sc = {(Ana, Ana), (Ana, Maria), (Ana, Filipa), (Maria, Ana), (Maria, Maria), (Maria, Filipa), (Filipa,
Ana); (Filipa, Maria), (Filipa, Filipa)}
Ss = {(Ana, Maria), (Ana, Filipa), (Maria, Ana), (Maria, Filipa), (Filipa, Ana), (Filipa, Maria)}.
Ac= {(Ana, Maria), (Maria, Ana), (Maria, Maria), (Maria, Filipa), (Filipa, Maria)}
Para j necessrio saber se a extraco se faz com reposio ou sem reposio. Vamos
considerar as duas situaes. Para identificar o espao de resultados ser mais fcil numerar os
berlindes, pelo que vamos numerar os berlindes vermelhos com 1, 2 e 3 e os azuis com 4 e 5.
Com reposio - Quando se retira um berlinde verifica-se a cor e torna-se a repor o berlinde no
saco antes de extrair o prximo. O espao de resultados constitudo por todos os resultados, em
nmero de 25, do esquema seguinte:
136 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Sem reposio - Neste caso o espao de resultados constitudo por todos os resultados do
espao do esquema anterior, exceptuando os pares constitudos pelo mesmo berlinde:
O acontecimento tirar 2 berlindes de cor diferente constitudo pelos resultados {(1,4), (1,5),
(2,4), (2,5), (3,4), (3,5), (4,1), (4,2), (4,3), (5,1), (5,2), (5,3)} tanto no esquema com reposio,
como sem reposio.
Uma tcnica utilizada para visualizar acontecimentos consiste em utilizar um rectngulo para
representar o espao de resultados e crculos para representar os acontecimentos. A essas
representaes chamamos diagramas de Venn. Vamos utilizar esses diagramas para apresentar a
terminologia utilizada quando falamos de acontecimentos. Assim, representando os
acontecimentos por A, B, C, ..., temos:
Acontecimento A implica B
Acontecimento Interseco
Acontecimento Unio
Acontecimentos Disjuntos
Acontecimento Diferena
Acontecimento diferena entre A e B, A-B, o acontecimento que se realiza sse A se realiza, sem
que B se realize.
Acontecimento Impossvel
Exemplo 9 - Uma empresa que faz a prospeco de petrleo, quando faz um furo pode encontrar
petrleo ou gs, ou no encontrar nada. A empresa fez dois furos.
a) Descreva o espao de resultados associado experincia aleatria anterior.
b) Represente o acontecimento : a empresa obteve petrleo ou gs.
Resoluo:
a) S = {(petrleo ou gs, nada), (petrleo ou gs, petrleo ou gs), (nada, petrleo ou gs), (nada,
nada)}
b) A = {(petrleo ou gs, nada), (petrleo ou gs, petrleo ou gs), (nada, petrleo ou gs)}
Dissemos anteriormente que o nosso objectivo definir modelos de probabilidade para fenmenos
aleatrios, que nos interessem estudar. Em espaos finitos, esta definio implica:
O processo de atribuir probabilidades deve ser tal, que algumas regras bsicas devam ser
satisfeitas para todos os modelos. Vamos ento considerar as seguintes regras, que so intuitivas:
Admitamos, para j, que tnhamos um processo de definir um modelo de probabilidade. Uma vez
definido esse modelo de probabilidade, como obter a probabilidade de acontecimentos?
PROBABILIDADE
Retomemos a definio de experincia aleatria. Desta definio, vimos que uma das suas
caractersticas consistia no facto de se poder repetir, nas mesmas circunstncias, apresentando
uma regularidade estatstica. Vamos ento repetir a experincia um grande nmero de vezes e
registar a frequncia relativa - proporo de vezes, com que um determinado resultado
(acontecimento elementar) ocorreu.
Suponhamos, por exemplo, a experincia aleatria que consiste no lanamento de uma moeda ao
ar e observar a face que fica virada para cima. Realizaram-se 100 lanamentos, tendo-se obtido
os seguintes resultados:
Se ao fim dos 100 lanamentos se verificaram 49 coroas, ento a frequncia relativa com que se
verificou coroa foi de 0.49. O limite para que tende a frequncia relativa da sada de coroa, ao fim
de um grande nmero de lanamentos, interpretado como a probabilidade de sada de coroa .
O grfico obtido para a frequncia relativa aps cada lanamento, tem o seguinte aspecto:
A frequncia relativa, medida que o nmero de provas aumenta, tem tendncia a estabilizar
volta do valor 0.5. Assim, dizemos que a probabilidade de sair coroa 0.5.
Como se verifica, pode acontecer que o nmero de coroas obtidas se afaste de metade do nmero
de lanamentos, no impedindo que a frequncia relativa tenha tendncia a estabilizar volta do
valor 0.50.
nA
P(A) = limite da frequncia relativa com que se realiza o acontecimento A
n
(nA representa o n de realizaes de A em n repeties da experincia)
Exemplo 10 - Suponha que lana um dado 1000 vezes e verifica a face que ficou voltada para
cima, tendo obtido os seguintes resultados:
Face Probabilidade
1 16%
2 16%
3 16%
4 16%
5 9%
6 27%
Os resultados anteriores levam-nos ainda a concluir que estamos perante um dado viciado, pois
as faces no tm todas a mesma probabilidade de sarem, como seria de esperar se o dado fosse
equilibrado.
142 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
1000 78 0.078
De um modo geral quando falamos em nmeros aleatrios, estamos a referir-nos obteno de qualquer real do intervalo
[0, 1], de tal forma que a probabilidade de obter um valor de um subintervalo [a, b] de [0, 1], igual amplitude desse
subintervalo, ou seja (b-a). No Excel, obtemos estes nmeros com a funo RAND. A funo RANDBETWEEN(m;n), j
utilizada em captulos anteriores, gera nmeros pseudo-aleatrios inteiros, no intervalo [m,n].
Exemplo Simule 10 lanamentos de uma moeda equilibrada, utilizando a funo RAND() do Excel.
Como admitimos que a moeda equilibrada, vamos utilizar a funo RAND() da seguinte forma: se o resultado for menor
que 0,5, simulamos a sada de coroa; caso contrrio simulamos a sada de cara. Um procedimento possvel para a
simulao em causa o seguinte:
Introduo Probabilidade e Estatstica 143
Maria Eugnia Graa Martins DEIO- 2005
Para obter a tabela do lado esquerdo, inserimos a funo RAND() na clula A1 e replicmos (Fill Down) at clula A10.
Seguidamente copimos os valores obtidos utilizando o Paste Special, para as clulas B1:B10. Este procedimento
necessrio (se nos quisermos fixar numa determinada amostra), pois a funo RAND voltil, pelo que em cada clculo da
folha, gera um novo nmero. Com a funo IF, simulmos o resultado cara ou coroa, que se apresenta na tabela do lado
direito, da figura anterior.
Exemplo (Exemplo 5.1.1 de Loura, L. e Graa Martins, M. E., 2005) Suponha um casal que pretende ter um casal de
filhos, no desejando mais do que 3 filhos e s tentando o 3 filho se anteriormente tiver tido ou dois rapazes ou duas
raparigas. Qual a probabilidade de ter efectivamente o casalinho?
Admitindo que a probabilidade de nascer rapaz igual de nascer rapariga, vamos utilizar a funo RAND, para simular
um qualquer destes nascimentos, da seguinte forma: Se o resultado da funo RAND for inferior a 0,5, simulamos o
nascimento de um rapaz M. Caso contrrio simulamos o nascimento de uma rapariga. Numa folha de Excel vamos
simular vrias repeties da experincia nascimento de 3 filhos. Poderamos ter optdo por comear por simular o
nascimento de dois filhos e s simular o 3 filho se no houvesse os dois sexos nos dois primeiros filhos. No entanto, este
condicionamento da simulao do 3 filho faz com que cada repetio da experincia dependa do que se obtm
anteriormente, o que torna mais demorado o processo da simulao. Assim, simulmos sempre 3 filhos e basta nos dois
primeiros haver os dois sexos, para termos como resultado da experincia um sucesso. Assinalamos o sucesso (dois
sexos diferentes logo nos dois primeiros filhos ou sexos diferentes nos trs filhos) com um 1 esta notao facilita-nos o
clculo da frequncia relativa do n de sucessos, medida que repetimos a experincia.
Inserir a funo RAND() nas clulas A2, B2 e C2 e nas clulas D2, E2 e F2 a funo IF(), como se exemplifica na
figura seguinte:
Replicar (Fill down) as clulas A2:F2, tantas vezes quantas as vezes que se pretende simular a realizao da
experincia. Ns replicmos 400 vezes, colocando os resultados nas clulas A2:F401;
Copiar (Paste special) os valores das clulas D2:F401, para as clulas H2:J401 (Este passo tem como objectivo
guardar os valores gerados anteriormente, pois a funo RAND() voltil, como j referimos anteriormente;
Em cada uma das clulas da coluna K inserir 1 se o resultado da experincia tiver sido sucesso;
Na coluna L contabilizar o n de sucessos acumulados;
Na coluna M contabilizar o n da experincia;
Na coluna N calcular a frequncia relativa de sucesso, medida que se vo realizando experincias.
O processo anterior apresentado na figura seguinte. Por uma questo de espao s apresentamos a parte inicial e a
parte final da tabela:
144 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Como se verifica, a frequncia relativa estabiliza volta do valor 0,75, pelo que dizemos que 0,75 uma estimativa para a
probabilidade pretendida (O valor calculado, teoricamente, para esta probabilidade de 0,75). A ttulo de curiosidade
acrescentamos que o resultado da simulao ao fim de 100, 200 e 300 repeties, foi respectivamente 0,790, 0,775 e
0,753. Apresentamos a evoluo da frequncia relativa na seguinte representao grfica:
Introduo Probabilidade e Estatstica 145
Maria Eugnia Graa Martins DEIO- 2005
Como temos 6 faces e existe uma face com o nmero 4, ento o nmero de possibilidades de 1
em 6. Assim a probabilidade de sair a face 4 1/6. O mesmo se passa com qualquer das outras
faces.
Neste momento temos 3 faces favorveis, de entre 6 possveis, pelo que a probabilidade
pretendida de 3/6 ou 1/6 + 1/6 +1/6, que a soma das probabilidades dos resultados que nos
interessam.
365 364 363 362 361 360 359 358 357 356
36510
Exemplo 14 - Numa empresa de limpezas com 20 trabalhadores, estes tm de ser distribudos
pelos 4 servios existentes. No servio 1, dos 6 trabalhadores necessrios, 4 pertencem a um
determinado grupo tnico. Os outros servios necessitam respectivamente de 4, 5 e 5
empregados. Qual a probabilidade de, numa distribuio aleatria, os 4 membros da dita etnia
terem sido colocados no servio 1?
Resoluo:
O nmero de maneiras possveis pelas quais os 20 empregados se podem distribuir pelos 4
servios
20!
6!4!5!5!
Tendo em considerao que os 4 elementos foram colocados no servio 1, sobram 16
trabalhadores e o nmero de maneiras possveis pelas quais se podem distribuir
16!
2!4!5!5!
16!
Ento a probabilidade pretendida 2!4!5!5! = .0031
20!
6!4!5!5!
Quando a hiptese de que os acontecimentos elementares so igualmente possveis no se puder
aplicar, e o que acontece, por exemplo no caso de um dado em que se cortou um canto, e o
Introduo Probabilidade e Estatstica 147
Maria Eugnia Graa Martins DEIO- 2005
dado deixa de ser equilibrado, como que poderemos atribuir probabilidade a um determinado
resultado?
A maior parte das vezes no se pode repetir a experincia as vezes que se quer, nem to pouco
assumir que os resultados da experincia so igualmente possveis. Por exemplo, qual a
probabilidade de um aluno obter uma nota superior a 14 na disciplina de IPE, onde se encontra
matriculado no 1 semestre? Nem desejvel que a experincia se repita, nem devemos atribuir
igual possibilidade aos acontecimentos nota superior a 14 e nota menor ou igual que 14. No
entanto, se formos ver o currculo do aluno poderemos atribuir uma probabilidade elevada (ou
baixa) ao acontecimento em causa. A probabilidade diz-se, neste caso, subjectiva, pois foi
baseada em informao anterior e num julgamento subjectivo. Uma vez que existe algo de
arbitrrio na atribuio de probabilidades a acontecimentos seguindo esta teoria, de difcil
aplicao, embora recentemente esteja a ter grande sucesso.
Exemplo 15 (Alpuim, T., 1997) Suponha que vamos rodar uma roleta calibrada de 0 a 1, duas
vezes consecutivas:
Se designarmos por x1 o resultado da 1 vez e
por x2 o resultado da 2 vez, o espao de
resultados ser S={(x1, x2)[0,1)x[0,1)}, cuja
0
repre-sentao grfica se apresenta a seguir:
0.5
Axiomtica de Kolmogorov
Dado o par (S,W) a cada elemento A W, associa-se um nmero que se chama Probabilidade e
se representa por P(A). As probabilidades associadas aos acontecimentos de uma mesma famlia
de acontecimentos satisfazem as seguintes condies ou axiomas :
1 axioma - Qualquer que seja o acontecimento A, P(A)0
Este axioma chamado de axioma da aditividade finita e no pode ser generalizado para unies
infinitas. Se admitirmos que o espao de resultados infinito numervel (Um conjunto diz-se
numervel se pudermos estabelecer uma aplicao bijectiva entre ele e os naturais), S={s1, s2, },
ento seria desejvel que para qualquer subconjunto A de S, finito ou no, a sua probabilidade
fosse a soma das probabilidades dos acontecimentos elementares que o compem. Neste caso,
resolve-se o problema substituindo o axioma 3, pelo seguinte axioma:
Axioma 3* - P( U i=1
Ai) =
i=1
P(Ai ) se Ai A j = para todo o i j
S
A - Voar
.37 .25 B - Estar na gua
A B
Os acontecimentos so disjuntos.
b) Qual a probabilidade de que a gaivota esteja a voar ou na gua?
P(A ou B) = P(AB) =P(A) + P(B)
= 0.37 + 0.25
= 0.62
c) Qual a probabilidade de que a gaivota esteja a voar e na gua? (Ver propriedade 1.a seguir)
P(A e B) = P(AB) = P() = 0
Observao: Em linguagem de conjuntos o "ou" traduzido pela unio, enquanto que o "e" a
interseco.
150 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Propriedades da Probabilidade
1 - P() = 0
S
1
P(S )=P(S) + P( )
=1
2 - P( A ) = 1 - P(A)
S
1 _ _
_ P(A A ) = P(A) + P(A)
A
A =1
S
1 B
P(B) = P(A) + P(B-A)
A B-A 0
1 S
AB
Exemplo 17 - Num restaurante registaram-se, durante bastante tempo, os pedidos dos clientes,
tendo-se chegado concluso que, para terminar a refeio, 20% dos clientes pedem s
sobremesa, 40% pedem s caf e 30% pedem sobremesa e caf.
a) Construa um diagrama de Venn para ilustrar a situao anterior.
b) Determine a probabilidade do acontecimento pedir caf.
Introduo Probabilidade e Estatstica 151
Maria Eugnia Graa Martins DEIO- 2005
Fermat. Vamos a isso. A probabilidade de ganhar difcil de calcular, pelo que vamos tentar calcular a
probabilidade do acontecimento complementar: a de perder. Ento
Probabildade de ganhar = 1 probabilidade de perder
Pascal. De acordo. O jogador perde quando nenhum dos 4 dados mostrar um s. Mas como que calcula a
probabilidade?
Fermat. Parece complicado. Vamos comear com um dado. Qual a probabilidade que o primeiro dado no mostre
um s?
Pascal. Tem que mostrar entre o 2 e o 6, pelo que essa probabilidade ser 5/6.
Fermat. isso. Agora, qual a probabilidade que os primeiros dois lanamentos no mostrem ases?
Pascal. A probabilidade que o primeiro lanlamento do dado no mostre um s 5/6 = 0.83(3), ou seja, podemos
dizer que se espera que em 83,(3)% das vezes que se faz o primeiro lanamento no saia s. Para que
no haja ases nos dois lanamentos, esperamos que em 83,(3)% dessas vezes tambm no haja s no
segundo lanamento. Como 83.(3)% de 83.(3)% 83.(3)%x83.(3)%=69,(4)%, deveremos esperar que
em 69,(4)% das vezes no haja ases nos dois lanamentos. Repare-se que 69.(4)% no mais do que
2
5/6x5/6=(5/6) , ou seja, o produto da probabilidade de no sair s no primeiro lanamento pela
probabilidade de no sair s no segundo lanamento.
Fermat. Ento e com 3 lanamentos?
3
Pascal. Ser 5/6x5/6x5/6 = (5/6)
Fermat. Sim. E agora com 4 lanamentos?
4
Pascal. Deve ser (5/6)
Fermat. Est bem. Significa que se tem uma probabilidade de cerca de 48.2% de perder. Agora
Probabildade de ganhar = 100% 48.2% = 51.8%
Fermat. Ento a probabiliddae de ganhar o primeiro jogo um pouco superior a 50%. E no que diz respeito ao
segundo jogo?
Pascal. Bem, no lanamento de um par de dados, h uma possibilidade em 36 de obter um duplo-s, e 35
possibilidades em 36 de no o obter. Pelo mesmo argumento utilizado para o primeiro jogo, em 24
24
lanamentos de um par de dados, a probabilidade de no obter um duplo-s (35/36) .
Fermat. Que cerca de 50.9%. Ento como esta a probabilidade de perder, a
Probabildade de ganhar = 100% 50.9% = 49.1%
Pascal. Exactamente, o que d uma probabilidade um pouco inferior a 50%. C est a razo pela qual se ganhava
o segundo jogo com menos frequncia que o primeiro. Mas teria de lanar o dado um grande nmero de
vezes para se aperceber da diferena.
Num exemplo do incio do captulo referimos que a moeda no tem memria. Efectivamente os
sucessivos lanamentos que se fazem com uma moeda so independentes, o que significa que
no possamos prever o que se vai verificar no prximo lanamento, com base no que se passou
em lanamentos anteriores.
Suponhamos agora o seguinte exemplo: Considera-se um baralho de cartas e extrai duas cartas.
Ganha 100 euros se a segunda carta for um rei de copas. Qual a probabilidade de ganhar os 100
euros?
2 cenrio Neste caso temos 51 cartas por uma ordem aleatria, e estamos interessados
numa delas que o rei de copas. Ento P(Rei de copas) = 1/51.
Embora o acontecimento de que pretendamos calcular a probabilidade fosse o mesmo nos dois
casos, os contextos eram diferentes. No 1 caso estvamos procura da probabilidade de na 2
carta estar o Rei de copas, independentemente do que estivesse na 1 carta, enquanto que no 2
caso estvamos procura da probabilidade de na segunda carta estar o Rei de copas, condicional
a que na 1 carta estivesse o 7 de espadas. A esta probabilidade chamamos probabilidade
condicional.
Consideremos (Graa Martins, M. E. et al, 1999), por exemplo, a experincia aleatria que
consiste em lanar um dado e verificar o nmero de pintas que sai. A probabilidade do
acontecimento A, sair 1 ou 3 pintas 2/6, j que o nosso espao de resultados S, constitudo
por 6 casos igualmente possveis, dos quais 2 so favorveis realizao de A. Se, no entanto,
pretendermos a probabilidade desse mesmo acontecimento, sabendo de antemo que saiu um
nmero de pintas mpar, neste momento j o espao de resultados S, constitudo por 3
resultados, igualmente possveis, dos quais 2 so favorveis, pelo que a probabilidade pretendida
2/3, o dobro da obtida anteriormente, quando no tnhamos nenhuma informao.
154 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
S 2 S 2
A
S
A
1 1
5 4 5 4
3 3
6 6
Vejamos ainda uma outra situao. Suponhamos, por exemplo, a experincia aleatria que
consiste em retirar 2 bolas sem reposio, de uma caixa contendo 4 bolas brancas B1, B2, B3 e
B4 e 3 bolas pretas P1, P2, P3. Os N diferentes resultados obtidos na realizao da experincia
so:
B1B2 B1B3 B1B4 B1P1 B1P2 B1P3
B2B1 B2B3 B2B4 B2P1 B2P2 B2P3
B3B1 B3B2 B3B4 B3P1 B3P2 B3P3
B4B1 B4B2 B4B3 B4P1 B4P2 B4P3
P1B1 P1B2 P1B3 P1B4 P1P2 P1P3
P2B1 P2B2 P2B3 P2B4 P2P1 P2P3
P3B1 P3B2 P3B3 P3B4 P3P1 P3P2
Suponhamos, no entanto, que sabamos que tinha sado branca na 1 extraco, isto , que se
tinha verificado o acontecimento Branca1. Qual a probabilidade de sair branca na 2 extraco,
isto de se verificar o acontecimento Branca2, tendo em conta esta informao adicional? Neste
momento o espao de resultados foi substancialmente reduzido, pois o nmero de resultados
possveis 24 (ter sado branca na 1 extraco),
B1B2 B1B3 B1B4 B1P1 B1P2 B1P3
B2B1 B2B3 B2B4 B2P1 B2P2 B2P3
B3B1 B3B2 B3B4 B3P1 B3P2 B3P3
B4B1 B4B2 B4B3 B4P1 B4P2 B4P3
Repare-se que
n(Branca1 Branca2)
P(Branca2|Branca1) =
n(Branca1)
n(Branca1 Branca2)
= N
n(Branca1)
N
P(Branca1Branca2)
=
P(Branca1)
P(Branca1Branca2)
ou seja P(Branca2|Branca1) =
P(Branca1)
Exemplo 18 (Parzen, 1960) Consideremos uma famlia com dois filhos e suponhamos que
existe igual probabilidade de cada filho ser rapaz ou rapariga. Qual a probabilidade de que ambos
os filhos sejam rapazes dado que: (i) o filho mais velho um rapaz, (ii) pelo menos um dos filhos
rapaz.
O espao de resultados associado ao fenmeno em estudo, isto , uma famlia ter dois filhos S =
{MM, MF, FM, FF}. Todos estes resultados so igualmente possveis tendo em considerao o
facto de ser igualmente provvel um filho ser rapaz (M) ou rapariga (F). Pretende-se a
probabilidade de ambos serem rapazes, sabendo que (i) o filho mais velho rapaz este
condicionamento provoca que o espao de resultados se reduza a S = {MM, MF}, donde P(MM) =
1/2. Condicionando agora no acontecimento (ii) pelo menos um dos filhos rapaz, j o espao de
resultados S = {MM, MF, FM} pelo que a probabilidade pretendida P(MM) = 1/3.
Nota: Repare-se que a probabilidade de que ambos os filhos sejam rapazes diferente
consoante nada se saiba sobre o sexo dos filhos ou haja conhecimento parcial sobre o sexo de
um dos filhos. No primeiro caso a probabilidade 1/4.
P(B E) = 0.12
A partir do diagrama anterior sabemos que
o que significa que 20% dos candidatos, que vo entrevista, conseguem o emprego. Ser que o
facto de causar boa impresso, aumenta as possibilidades de ser bem sucedido, na obteno do
emprego? Isto , ser que a informao adicional de que "um candidato causou boa impresso"
tem efeito na probabilidade de obter o emprego? Para responder a esta questo, temos de nos
cingir unicamente aos candidatos que causam boa impresso, em vez de considerarmos todos os
candidatos. A dimenso deste grupo 40% de todos os candidatos, j que
Para este totao de 40%, qual o contributo dos que conseguem o emprego? A resposta obtm-se
restringindo este grupo aos que conseguem o emprego
Finalmente podemos calcular a probabilidade de uma pessoa que causou boa impresso,
conseguir o emprego. Esta probabilidade dada pela resposta seguinte questo " 0.12 que
percentagem de 0.40"? , resposta esta que se obtm dividindo 0.12 por 0.40, como alis se
deduz da definio anteriormente dada de probabilidade condicional:
0.12
P("Conseguir o emprego" | "Causou boa impresso") = = 0.30
0.40
Vemos que a probabilidade de conseguir o emprego aumentou de 20% para 30%, com a
informao adicional disponvel. Isto significa que 30% dos candidatos que causam boa
impresso, conseguem o emprego, comparados com unicamente 20% dos candidatos em geral
(causando ou no boa impresso). Intuitivamente espervamos que o facto de um candidato
causar boa impresso, aumentasse as suas possibilidades de sucesso, e o que acabamos de
medir foi precisamente quo grande esse efeito.
Introduo Probabilidade e Estatstica 157
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 20 (Pestana, D. et al, 2002) - Numa caixa esto 5 moedas, duas delas com face (F) em
ambos os lados, duas com coroa (C) em ambos os lados, e uma com F num dos lados e C no
outro. Escolhe-se uma moeda ao acaso, observando-se no lado que fica virado para cima F. Qual
a probabilidade do outro lado ser C?
rvore de probabilidades
G (PGGG) **
G
P (PGGP)
G G (PGPG)
P
P P (PGPP)
G (PPGG)
G
P P (PPGP)
G (PPPG)
P
P (PPPP)
Exemplo 22 - Um indivduo que trabalha em Lisboa, mas reside na margem Sul do Tejo, tem
diariamente duas possibilidades para se dirigir ao trabalho: o barco ou o autocarro. Ele gosta muito
de ir de barco, pelo que escolhe o barco 75% das vezes. A probabilidade de chegar atrasado ao
trabalho 16.25%. sabe-se ainda que a probabilidade de ir de barco e chegar atrasado 11.25%.
Qual a probabilidade de chegar atrasado, sabendo que veio de barco?
Vamos tentar construir uma rvore de probabilidades onde entre a informao anterior
A informao dada est representada no diagrama anterior. Contudo, custa dessa informao
podemos ir um pouco mais longe, calculando a probabilidade dos acontecimentos
complementares.
Qual a probabilidade de chegar atrasado dado que veio de barco?
P(" vir de barco e chegar atrasado" )
P("chegar atrasado"/"veio de barco")=
P(" vir de barco" )
.1125
=
.75
= .15
Introduo Probabilidade e Estatstica 159
Maria Eugnia Graa Martins DEIO- 2005
Esta probabilidade condicional coloca-se ao longo do trao superior, como se indica na figura
seguinte, onde tambm preenchemos as bolas do lado direito com as respectivas probabilidades,
o que nos permitiu chegar seguinte rvore:
Exerccio: Seja PB(A) uma funo definida da seguinte forma: dado o acontecimento B, com
P(B)>0, ento para qualquer acontecimento A tem-se PB(A)= P(A|B). Mostre que PB(A) uma
Atendendo a que
P(A e B)
P(A/B) =
P(B)
vem
P(A) = P(A/B)
Esta definio de independncia, embora no seja to intuitiva, utilizada com muita frequncia,
pois no necessrio impor restries aos valores de P(A) e P(B). Verifique que as duas
definies so equivalentes desde que P(A)>0 e P(B)>0.
Exerccio ( Teaching Statistics, vol16, n 2) - Tendo dois dados de 12 faces, em que cada um tem
7 faces vermelhas e 5 brancas, perguntou-se a 40 estudantes qual dos acontecimentos era mais
provvel, no lanamento dos dois dados:
i) Sair 2 faces vermelhas, ou
ii) Sair1 face vermelha e 1 branca.
Trinta e seis estudantes responderam que era mais provvel sair 2 faces vermelhas. Est de
acordo? Justifique.
Aos mesmos estudantes, mostraram-se 3 dados de 4 faces, cada um com 3 faces vermelhas e
uma branca. No lanamento dos 3 dados, qual o acontecimento mais provvel:
i) Sair 3 faces vermelhas, ou
Introduo Probabilidade e Estatstica 161
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 17 (cont.) - Considere de novo os dados do exemplo 18. Calcule as probabilidades dos
seguintes acontecimentos:
a) Pedir caf dado que pediu sobremesa R: .6
b) No pedir caf dado que pediu sobremesa R: .4
c) Pedir sobremesa dado que pediu caf R: 3/7
d) Pedir sobremesa dado que no pediu caf R: 2/3
e) Ser que o caf e a sobremesa "ligam" bem? Ou seja, mais provvel um cliente pedir caf se
pediu sobremesa ou se no pediu sobremesa?
R: mais provvel pedir caf se no pediu sobremesa (.8)
f) Os acontecimentos pedir caf e pedir sobremesa so independentes? R: No so
independentes.
Sempre que se apresenta uma bifurcao o rato tem de optar por virar esquerda ou direita,
nunca podendo voltar para trs. Em duas das sadas encontram-se dois belos queijos. Qual a
probabilidade de o rato chegar a qualquer um dos queijos:
a) Se a probabilidade de virar esquerda for igual de virar direita para todos os cruzamentos.
b) Se a probabilidade de virar esquerda for 0.3 e a de virar direita for 0.7.
Resoluo: a) Como o rato tem sempre igual probabilidade de virar esquerda ou direita, as 8
sadas so todas igualmente possveis. Como existem duas favorveis, a probabilidade pretendida
ser 2/8 = 1/4.
b) Para chegar ao queijo 1 o rato tem de fazer o percurso (D1eE2eD3), enquanto que para chegar
ao queijo 2 ter de fazer (E1eE2eE3), onde representamos por D1 virar direita no primeiro
cruzamento, E2 virar esquerda no 2 cruzamento, etc. Ento
162 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Chamamos a ateno para o facto de neste caso no ser possvel utilizar a definio clssica de
probabilidade, pois as chegadas no so todas igualmente possveis.
Comida Choque
primeira vez que se apresenta o cruzamento, o rato tem igual probabilidade de virar esquerda
ou direita. segunda vez, o rato se recebeu comida primeira vez, vira esquerda com
probabilidade 0.6 e se recebeu um choque primeira vez vira direita com probabilidade 0.2.
Calcule a probabilidade do rato virar direita segunda vez.
Resoluo: Pretende-se a probabilidade do acontecimento virar direita 2 vez que vamos
representar por D2. Repare-se que para que o rato tenha virado direita (ou esquerda) 2 vez,
necessrio que tenha feito uma de 2 coisas 1 vez: ou virar direita ou esquerda. Assim
D2 {(D1eD2) ou (E1eD2)}
Os acontecimentos (D1eD2) e (E1eD2) so disjuntos, pois no se podiam ter verificado
simultaneamente, pelo que a probabilidade da sua unio igual soma das probabilidades. Ento
P(D2) = P(D1eD2) + P(E1eD2)
Vejamos agora a que igual cada uma das parcelas da soma anterior:
P(D1eD2) = P(D1) P(D2|D1)
= 0.5 x 0.2
= 0.10
P(E1eD2) = P(E1) P(D2|E1)
= 0.5 x (1 - 0.6) = 0.20 donde P(D2) = 0.30
Introduo Probabilidade e Estatstica 163
Maria Eugnia Graa Martins DEIO- 2005
Observa-se um acontecimento B, que ns sabemos ser susceptvel de ter sido ocasionado por um
qualquer dos acontecimentos A1, A2, , An, mutuamente exclusivos. Pretende-se saber qual a
probabilidade de ter sido o acontecimento Ai e no outro qualquer a ocasionar B,
A1
A2
.
.
Ai B
.
.
An
monozigticos
idnticos
dizigticos
P(monozigtico / idntico) = ?
1 Dois gmeos so idnticos para um certo nmero de caracteres, cuja determinao gentica est bem
estudada. Para cada um destes caracteres esta identidade pode resultar de uma monozigotomia ou de uma
coincidncia entre irmos dizigticos, podendo-se medir esta coincidncia em termos probabilsticos.
164 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
I I = ( I e M ) ou ( I e D )
IeM IeD
Por outro lado, existe a seguinte informao disponvel, fornecida pelos bilogos:
Como consideramos o acontecimento "idntico" equivalente a ter o mesmo sexo e o mesmo grupo
sanguneo, obtemos as seguintes probabilidades
No entanto, temos
P( M e I ) = P( M ) P ( I / M )
= .30 1 = .30
P( I ) = P[( I e M ) ou ( I e D )]
= P( I e M ) + P ( I e D ) porque os acontecimentos I e
M e I e D so disjuntos
= P( M ) P( I / M ) + P ( D ) P( I / D )
= .475
1Dois gmeos monozigticos (gmeos verdadeiros) tm necessariamente o mesmo sexo e grupo sanguneo.
Introduo Probabilidade e Estatstica 165
Maria Eugnia Graa Martins DEIO- 2005
Teorema de Bayes: Se {A1, A2, , An} constituem uma partio do espao de resultados, isto ,
Ai e Aj so disjuntos dois a dois e a unio dos acontecimentos Ai, igual ao espao, com P(Ai)>0,
A1 A4 A5
P(Ai ) P(B / A i )
B P(Ai / B) =
A3
P(Ai ) P(B / A i )
A2 A... An
Se {A1, A2, , An} constituem uma partio do espao de resultados, isto , Ai e Aj so disjuntos
dois a dois e a unio dos acontecimentos Ai, igual ao espao, com P(Ai)>0, i=1,2, ,n, ento
n
P(B) = P(B/A ) P(A )
i i
i =1
166 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
n n n
Dem: P(B) = P(BS) = P(B U A ) = P(U (B A )) = P(B A )
i i i porque se os Ai
i =1 i=1 i =1
P(AeD)
P(A/D) =
P(D)
Mas P(A e D) = P(A) P(D/A)
P(A e D) = .6 x .01 = .006 e
P(D) = P(A e D) + P(B e D) + P(C e D)
P(D) = P(A) P(D/A) + P(B) P(D/B) + P(C) P(D/C)
P(D) = .6 .01 + .3 .05 + .1 .04
.006
P(D) = .025 P(A/D) = = .24
.025
Exerccios
1. Considere a experincia aleatria que consiste em lanar uma moeda ao ar at sair coroa duas
vezes consecutivas ou at se realizarem 4 lanamentos. Qual o espao de resultados associado a
este acontecimento?
Resoluo:
Consideremos os dois resultados possveis do lanamento da moeda: Coroa - C e Cara - F
Vamos construir um diagrama para exemplificar os sucessivos lanamentos:
Introduo Probabilidade e Estatstica 167
Maria Eugnia Graa Martins DEIO- 2005
CC
C C CFCC
C F CFCF
C C CFFC
F
F F CFFF
FCC
C C FCFC
C
F F F FCFF
C FFCC
F C
F FFCF
F C FFFC
F FFFF
d) ( A e B) ou (B e C) ou (A e C)
e) ( A e B e C ) ou ( A e B e C) ou ( A e B e C)
dos outros produtos que entram na confeco do prato, qual a probabilidade do preo da ementa
ser superior a 1700$00?
Resoluo:
Vamos identificar cada uma das possibilidades pelo respectivo preo. Temos de considerar todas
as combinaes possveis e uma maneira simples de o fazer considerando um diagrama em
rvore:
125 1475
150 140 1490
165 1515
1200
125 1505
180 140 1520
165 1545
125 1675
150 140 1690
165 1715
1400
125 1705
180 140 1720
165 1745
1ano
lgebra
Anlise
.10
.11
.14
.05
Probabilidades
Para construir o diagrama anterior, comeamos por preencher com a probabilidade .10, o espao
correspondente interseco dos 3 acontecimentos. Seguidamente a partir do conhecimento das
probabilidades das interseces dois a dois, preenchemos os espaos correspondentes s
probabilidades .18, .14 e .11. Finalmente preencheram-se os espaos resultantes, a partir do
conhecimento das probabilidades de cada um dos acontecimentos "estar inscrito em Anlise",
"estar inscrito em lgebra" e "estar inscrito em Probabilidades".
3) P(Anl. ou lg. ou Prob.) = P(Anl.) + P(lg.) + P(Prob.) - P(Anal. e lg) - P(Anl. e Prob.) -
P(lg. e Prob.) + P(Anl. e lg. e Prob.)
= .51 + .62 + .40 - .28 - .21 - -24 + .10
= .90
P(Anl. ou lg. ou Prob.) = .12 + .18 + .11 + .10 + .20 + .14 + .05 = .90
4) P(Prob. e Anl. e lg . )=P(Prob)-P(Prob. e Anl.)-P(Prob. e lg.)+P(Prob. e Anl. e lg.)
= .40 - .21 - .24 + .10 = .05
Exerccios propostos
Captulo 6
Variveis Aleatrias
6.1 - Introduo
Uma varivel aleatria (v.a.) X uma funo que associa a cada ponto do espao de resultados
S, um nmero.
S
a - analfabeto
a p p - instruo primria
l - liceal
l m - mdio
m s s - superior
X - 1, 2, , 6
Y - 0, 1, , 50
Exemplo 4 - Considere a experincia aleatria que consiste em lanar uma moeda ao ar at sair
cara. Associada a esta experincia, podemos definir a varivel aleatria Z, que representa o
nmero de lanamentos necessrios para sair cara; ento os valores que a varivel aleatria Z
pode assumir so
Z - 1, 2, 3,
Exemplo 5 - Considere a experincia aleatria que consiste em observar a chuva que cai, num dia
ao acaso. Associada a esta experincia, podemos definir a varivel aleatria U, que representa a
quantidade de chuva (em mm); ento U pode assumir qualquer valor real, no negativo.
Observao: Ao definir varivel aleatria, deve-se ter o cuidado de no a confundir com o valor
observado, que ela pode assumir. Assim, no exemplo 2, considerado anteriormente, a varivel
aleatria X, antes de se lanar o dado, pode assumir qualquer valor do conjunto {1, 2, , 6}.
Depois de se ter realizado a experincia, se se obteve o valor 4, por exemplo, diz-se que 4 um
valor observado da varivel aleatria. Geralmente representa-se um valor observado de uma
varivel aleatria pela mesma letra com que se representa a varivel, mas minscula. Ento se Y
for uma varivel aleatria, representamos por y um valor observado dessa varivel aleatria.
No incio do nosso curso dissemos que o objectivo da Estatstica o estudo de Populaes. Mas
ento qual a entidade que representa a Populao? A partir deste momento j estamos aptos a
responder a esta questo, pois o que acontece que identificamos Populao com a varivel
aleatria associada. Vamos tentar explicitar um pouco melhor esta associao, com o seguinte
exemplo:
Suponhamos que estvamos interessados em estudar a Populao constituda pelas alturas dos
Portugueses. Podemos considerar a experincia aleatria que consiste em perguntar a um
portugus, escolhido ao acaso, qual a sua altura. Os resultados desta experincia constituem a
Populao que se pretende estudar, que o conjunto de todas as alturas possveis (ver seco 1,
captulo 2). Ento, associada a esta experincia podemos considerar a varivel aleatria X, que
representa a altura de um portugus, escolhido ao acaso. Esta varivel aleatria pode assumir
qualquer valor positivo.
Uma varivel aleatria diz-se discreta, se s assume valores de um conjunto, para o qual se
possa estabelecer uma correspondncia biunvoca com um subconjunto dos nmeros inteiros, isto
, s assume um nmero finito ou infinito numervel de valores distintos.
Ter sentido falar na probabilidade de uma varivel aleatria assumir um determinado valor?
Vamos ver que sim!
176 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
X(cara) = 0 e X(coroa) = 1
ento dizemos que
Exemplo 7 Considere a experincia aleatria que consiste em verificar o nmero de caras que
saem no lanamento de 3 moedas. Associada a esta experincia consideremos a varivel
aleatria X que assume os valores 0, 1, 2 ou 3, conforme for 0, 1, 2 ou 3 o nmero de caras
obtidas no lanamento das 3 moedas. Qual a probabilidade de a varivel aleatria assumir
aqueles valores? Representando por F cara e C coroa, o espao de resultados S constitudo
pelos seguintes resultados
S
CCF FFC
0 1 2 3
1 1 1 1
P(X=0) = P(CCC) = =
(no clculo desta probabilidade entrmos com o
2 2 2 8
facto de as moedas serem equilibradas e os lanamentos serem independentes uns dos outros)
1 1 1 1 1 1 1 1 1 3
= + + =
2 2 2 2 2 2 2 2 2 8
1 1 1 1
P(X=3) = P(FFF) = =
2 2 2 8
Atendendo a que a varivel aleatria discreta associa nmeros aos resultados de uma
experincia, em vez de falarmos nas probabilidades dos acontecimentos elementares (resultados),
podemos falar nas probabilidades dos valores que a varivel aleatria assume.
funo que d a probabilidade associada a cada valor numrico, que a varivel aleatria
assume, chamamos funo massa de probabilidade.
Uma varivel aleatria. X fica perfeitamente identificada pela sua f.m.p., isto , pelos valores xi
pi = P(X = xi)
a) pi 0
b) i
pi = 1
Amostra Populao
Vem a propsito recordar o que dissemos, no incio do curso sobre o que fazer inferncia
estatstica: consiste em, a partir das propriedades verificadas na amostra, tentar transportar essas
propriedades para a populao. Ento, se ao estudar uma determinada amostra obtivermos um
diagrama de barras com um determinado aspecto, esperamos que a funo massa de
probabilidade da Populao representada pela varivel aleatria associada, de onde foi extrada
a amostra, tenha um aspecto semelhante. Vejamos o seguinte exemplo:
Face 1 2 3 4 5 6
fi .163 .160 .167 .168 .162 .170
X 1 2 3 4 5 6
pi 1/6 1/6 1/6 1/6 1/6 1/6
Uma vez feita esta hiptese, de que o dado equilibrado, existem mtodos estatsticos (testes),
que nos permitem quantificar o erro que se comete ao admiti-la. No esqueamos que estamos a
admitir que a populao goza de uma determinada propriedade (todos os valores da varivel
aleatria so igualmente provveis), a qual foi sugerida por uma propriedade verificada na
amostra. Devido aleatoriedade presente na amostra, existe a possibilidade de estarmos a
cometer um erro, ao transportar a propriedade para a populao.
Exemplo 9 - Considere a varivel aleatria X, que representa a soma das pintas das faces que
ficam voltadas para cima, quando se lanam dois dados. Defina completamente essa varivel.
Resoluo:
Seja X - v.a. que representa a soma das pintas de dois dados. Podemos representar os valores
possveis para X, assim como as respectivas probabilidades, na seguinte tabela:
X 2 3 4 5 6 7 8 9 10 11 12
pi 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
O processo de obter cada uma das probabilidades anteriores foi o seguinte: representando as
faces que ficam voltadas para cima, nos dois dados, pelo par ordenado (i,j), com i,j=1,6, temos,
por exemplo,
e (1,1)
e ou e (1,2) ou (2,1)
1 1 1 3
P(X=4) = P((1,3) ou (2,2) ou (3,1)) = + + =
36 36 36 36
Exemplo 10 Considere a v.a. Z que representa a soma das faces que ficam voltadas para cima,
quando lana 3 dados. Calcule a probabilidade de Z ser maior que 13.
Este problema idntico ao anterior, s que agora temos mais casos possveis. Assim, no
lanamento dos 3 dados temos 63 = 216 possibilidades, todas igualmente possveis, das quais s
nos interessam aquelas cuja soma seja superior a 13. Vamos ver ento qual a probabilidade da
varivel aleatria Z assumir os valores 14, 15, 16, 17 ou 18:
Nesta simulao vamos utilizar a funo LOOKUP((lookup value; lookup vector; result vector). Esta funo pesquisa no
vector lookup vector o maior valor que no seja superior a lookup value e de seguida devolve o valor que est na posio
correspondente em result vector. Assim, na folha de Excel comemos por considerar estes dois vectores e depois
utilizmos a funo RAND para simular o lanamento dos dados. Apresentamos de seguida parte da tabela onse se
visualiza a simulao correspondente ao 1 dado. Para os outros dados idntico:
Pelo que consideramos a frequncia relativa de 0,162, como uma estimativa para a probabilidade pretendida.
Nota Sempre que recalcular a folha de Excel, obtm um valor diferente para a estimativa da probabilidade, j que, como
dissemos vrias vezes, a funo RAND voltil.
As variveis aleatrias que possam assumir todos os valores de um intervalo, sendo nula a
probabilidade de assumirem valores isolados, dizem-se variveis aleatrias contnuas. Enquanto
que uma varivel aleatria discreta se refere a qualquer tipo de contagem, uma v. a. contnua
refere-se a uma medida, como por exemplo o peso, a altura, o tempo, etc.
Exemplos:
De acordo com a definio de varivel aleatria contnua, esta no assume valores em pontos
isolados, com probabilidade diferente de zero, ao contrrio do que se passa com as variveis
aleatrias discretas. Assim, no tem sentido falar na probabilidade de uma varivel aleatria X,
contnua, assumir determinado valor x, uma vez que esta probabilidade sempre nula.
Existe, no entanto, uma funo - a funo densidade de probabilidade (f.d.p.), que definiremos
mais frente, e que vai assumir, para as variveis aleatrias contnuas, o papel da funo massa
de probabilidade no caso das variveis aleatrias discretas.
Outro processo (alm da f.m.p. para as v.a. discretas e da f.d.p. para as v.a. contnuas) de
exprimir as probabilidades associadas varivel aleatria X, utilizando a Funo distribuio
FX(x), ou simplesmente F(x), funo que para cada valor x R, acumula as probabilidades de
todos os valores menores ou iguais a x. Assim
Funo distribuio de uma varivel aleatria X (discreta ou contnua), a funo F(x) tal que
x R, F(x) = P(Xx)
Para poder calcular P(Xx), significa que a Xx deve estar associado um acontecimento!
Introduo Probabilidade e Estatstica 183
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 11 - Construa a funo distribuio da v.a. definida pela seguinte funo massa de
probabilidade
X 1 2 3 4 5
pi .04 .50 .24 .12 .10
Como se viu no exemplo anterior, a funo de distribuio de uma v.a. X discreta, uma funo
em escada, com saltos nos pontos xi onde a v.a. assume valores com probabilidade diferente de
zero. Os saltos tm amplitude pi, onde pi = P(X = xi)
De uma forma genrica, consideremos a v.a. X, discreta, com funo massa de probabilidade
X x1 x2 x3 xm
P(X=xi) p1 p2 p3 pm
1
pm
p3
p
2
p1
x1 x2 x x4 xm x
3
Exerccio: Dada a funo distribuio de uma v.a. discreta, verifique como que pode obter os
valores da v.a. associada.
184 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Ento:
F(x)
x
Qual a utilidade da funo distribuio?
Ser que o conhecimento da funo distribuio, permite o clculo da probabilidade de uma v.a.
assumir valores num determinado intervalo?
Introduo Probabilidade e Estatstica 185
Maria Eugnia Graa Martins DEIO- 2005
Consideremos uma v.a. com funo distribuio F(x). Ento, dados dois pontos quaisquer x1 e x2,
tem-se
E se o intervalo no for dessa forma, isto , aberto esquerda e fechado direita? Ento temos
de distinguir os casos em que a v.a. discreta e contnua:
Varivel aleatria X
Discreta Contnua
Funo distribuio
versus
funo distribuio emprica
Ao fazer o estudo descritivo dos dados de uma amostra, uma das representaes utilizadas foi a
da Funo distribuio emprica, que como vimos, d para cada x, a proporo de elementos da
amostra menores ou iguais a x. uma funo no decrescente, contnua direita, que assume
valores entre 0 e 1.
186 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Repare-se na analogia entre esta funo e a Funo distribuio, a que tambm chamamos
Funo distribuio populacional, por dizer respeito populao, ou seja varivel aleatria X.
Efectivamente a funo distribuio d para cada x, a probabilidade dos valores da varivel
aleatria serem menores ou iguais a x.
Assim, mais uma vez invocando a teoria frequencista da Probabilidade, podemos dizer que a
Funo distribuio emprica uma imagem estatstica da Funo distribuio (populacional), j
que, se a amostra com que se construiu a f.d.e. for suficientemente grande, interpretamos as
propores como probabilidades.
Do mesmo modo que a funo distribuio emprica a imagem estatstica da funo distribuio,
podemos dizer que o histograma - representao utilizada para dados de tipo contnuo, a
imagem estatstica de uma funo definida para variveis aleatrias contnuas, a que damos o
nome de funo densidade de probabilidade. De uma forma mais correcta:
Define-se funo densidade de probabilidade da v.a. X contnua, e representa-se por f(x), como
sendo a derivada, se existir, da funo distribuio F(x):
f(x) = F'(x)
Ateno: A funo densidade s est definida para v.a. contnuas! Para as v.a. discretas, temos
uma funo que desempenha papel anlogo, a funo massa de probabilidade! (Em alguma
bibliografia, funo massa de probabilidade tambm chamam funo densidade)
F(x) = f(t) dt
(Esta a notao utilizada para a primitiva de f(x), que se anula em - ). Ento, do mesmo modo
que a partir da funo massa de probabilidade das v.a. discretas, se pode obter a funo
distribuio, tambm no caso das v.a. contnuas, o conhecimento da funo densidade, permite a
obteno da funo distribuio. Temos assim:
F(x) Derivao f(x)
b
3.
a
f(x) dx = F(b) - F(a) ( propriedade do integral)
Propriedade:
Funo densidade
versus
histograma
Exemplo 12 - Consideremos a v.a. X, que representa o tempo que uma pessoa leva para ir de
carro de Lisboa a Coimbra. Admitamos que esse tempo se distribui uniformemente no intervalo [2h
, 2h 20m].
a) Qual a probabilidade de que a viagem dure entre 2h e 2h10m?
b) Qual a probabilidade de que a viagem dure entre 2h5m e 2h10m?
Resoluo: A v.a. X contnua, pois pode assumir qualquer valor do intervalo considerado. Alm
disso tem uma distribuio uniforme ( este modelo ser estudado mais frente, no captulo 8 -
Algumas distribuies importantes) , pelo que a funo densidade constante nesse intervalo e
tem o seguinte aspecto:
Observe-se que a rea compreendida entre o grfico da funo e o eixo dos xx, efectivamente
igual a 1. Como a funo no negativa, esto satisfeitas as propriedades da funo densidade.
A expresso da funo densidade
1 120 x 140
f(x) = 20
0 caso contrrio
a) Para calcular a P(120X130), basta calcular a rea da parte a tracejado, pelo que a
probabilidade pretendida 1/2.
Introduo Probabilidade e Estatstica 189
Maria Eugnia Graa Martins DEIO- 2005
130
125 130
Exerccios
1. Apresentam-se a seguir exemplos de experincias aleatrias e variveis aleatrias associadas.
Para cada um dos casos identifique quais os valores que a v.a. pode assumir e diga se discreta
ou contnua.
a) Realizar um exame de 20 questes N de questes respondidas correctamente
b) Observar os carros que chegam a uma portagem N de carros que chegam portagem
durante uma hora
c) Observar a chuva que cai num dia de inverno Quantidade de gua, medida em mm, num certo
observatrio meteorolgico
d) Lanar um dado at sair a face 6 N de lanam. necess. para sair a face 6
3. Diga se as seguintes funes podem ser funes de distribuio (f.d.) de alguma varivel
aleatria. Se alguma for f.d. diga qual a v.a. associada.
F(x) = 0 x < -2
1/4 -2 x < 2
1/3 2x<3
1/2 3x<4
1 4x
190 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
4. Diga quais dos seguintes grficos podem ser representaes de funes densidade de v.a.
contnuas:
a) b)
1 1
2 -1 1 2
0
c) d)
1
-1 0 1 -1 1
kx 0x< 5
f(x)= k(10 - x) 5 x < 10
0 x < 0 ou x 10
a) Determine k de forma a f(x) poder ser considerada funo densidade da v.a. X.
b) Calcule a funo distribuio de X.
Introduo Probabilidade e Estatstica 191
Maria Eugnia Graa Martins DEIO- 2005
c) Calcule a mediana da varivel aleatria X ( Resolva esta alnea depois de ter estudado o
captulo seguinte).
d) O Sr. Manuel vende o bacalhau ao preo de 1500$00/Kg. Sabendo que ao fim da manh
tinham sido vendidos 4.5 Kg, calcule a probabilidade de at ao fim do dia o Sr. Manuel fazer no
mximo 12 000$00.
8 . Considere a seguinte funo:
6.5.1 - Introduo
Apesar das distribuies de probabilidade estudadas at aqui envolverem uma nica varivel,
pode acontecer que tenhamos de analisar duas ou mais variveis em conjunto. Nestas situaes,
a distribuio de probabilidade resultante referida como distribuio de probabilidade conjunta.
Vamos considerar unicamente o caso de termos um par de variveis aleatrias discretas, que
representaremos por (X,Y). Admitindo que X assume os valores xi e Y os valores yj, definimos
funo massa de probabilidade conjunta, que representamos por pij, como sendo
Y y1 y2 yj yk
X
x1 p11 p12 p1j p1k
x2 p21 p22 P2j py
xi pi1 Pi2 pij pik
xm pm1 Pm2 pmj pmk
1
Suponhamos que pretendamos a P(X = x1). Como calcul-la a partir da tabela anterior?
192 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Representando esta probabilidade por p1., e utilizando a mesma metodologia para calcular a
probabilidade de X assumir outro valor qualquer ou Y assumir qualquer dos seus valores, temos a
tabela com as margens preenchidas:
Y y1 y2 yj yk
X
x1 p11 p12 p1j p1k p1.
x2 p21 p22 P2j py p2.
xi pi1 Pi2 pij pik pi.
xm pm1 Pm2 pmj pmk pm.
p.1 p.2 p.j p.k 1
s funes pi. =
j
pij, i= 1, 2, , m
e p.j =
i
pij, j= 1, 2, , k
Exemplo 13 - Suponha que se escolhem 3 pilhas, de um conjunto constitudo por 3 pilhas novas,
4 usadas, mas a trabalhar e 5 estragadas. Representando por
X - v.a. que d o n de pilhas novas no lote das 3 pilhas retiradas
Y- " " usadas " "
determine a funo massa de probabilidade conjunta de (X,Y) e as f.m.p. marginais de X e Y.
Resoluo: Os valores que a v.a. X pode assumir so: 0, 1, 2 ou 3, o mesmo acontecendo com a
v.a. Y.
5 4 5
3 10 1 2 40
P(X= 0, Y= 0) = = P(X= 0, Y= 1) = = , ...
12 220 12 220
3 3
3
3 1
P(X = 3, Y= 0) = =
12 220
3
De um modo geral, temos a seguinte expresso para calcular a f.m.p. conjunta
Introduo Probabilidade e Estatstica 193
Maria Eugnia Graa Martins DEIO- 2005
3 4 5
i j 3 i j
P(X = i, Y = j) = com i, j = 0, 1, 2, 3 e i+j 3
12
3
Depois de calculadas, as probabilidades apresentam-se no quadro seguinte, onde se incluem as
f.m.p. marginais de X e Y:
Y
X 0 1 2 3 pi.
0 10/220 40/220 30/220 4/220 84/220
1 30/220 60/220 18/220 0 108/220
2 15/220 12/220 0 0 27/220
3 1/220 0 0 0 1/220
p.j 56/220 112/220 48/220 4/220 1
Exerccios
1 . Sejam X e Y duas v.a. tais que:
X - assume os valores 0 ou 1, conforme seja a mquina A ou B, que produz determinado artigo
Y - assume os valores 0, 1, 2 ou 3 e representa o n de defeitos de um artigo produzido pelas
mquinas A ou B
A seguinte tabela, apresenta a distribuio de probabilidade conjunta das v.a. X e Y:
Y
X 0 1 2 3
0 .1250 .0625 .1875 .1250
1 .0625 .0625 .1250 .2500
a) Verifica-se que um artigo no tem defeitos. Qual a probabilidade de ter sido produzido pela
mquina A?
b) Sabe-se que um artigo foi produzido pela mquina A. Qual a probabilidade de no ter defeitos?
c) Sabe-se que um artigo tem dois ou mais defeitos. Qual a probabilidade de ter sido produzido
pela mquina A?
194 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Captulo 7
Caractersticas populacionais
7.1 - Introduo
Quando pretendemos estudar uma populao, que representamos pela varivel aleatria X, j
vimos que o processo que, de uma maneira geral, se segue, recolher uma amostra da referida
populao e calcular as suas caractersticas amostrais, alm das representaes grficas
adequadas.
O objectivo do estudo da amostra tentar "inferir" para a populao, de onde a amostra foi
recolhida, algumas propriedades. Assim, veremos que existem para a populao X, medidas
anlogas s definidas para as amostras.
Populao Amostra
x = x f i i
i
196 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
pois sommos os produtos dos diferentes valores que surgem na amostra pelas frequncias
relativas, respectivas. Mas se o n de provas fosse suficientemente grande, as frequncias
relativas utilizadas anteriormente para calcular a mdia, poderiam ser interpretadas como as
probabilidades de uma v.a. assumir os valores de 1 a 6 (teoria frequencista da probabilidade).
Ento, utilizando uma expresso anloga, vamos multiplicar os valores que a v.a. assume, pelas
respectivas probabilidades, tendo em conta o modelo utilizado para modelar a populao em
estudo:
1 1 1 1 1 1
1 +2 +3 + 4 +5 +6 = 3.5
6 6 6 6 6 6
Mas agora no deveramos continuar a chamar mdia a este valor, j que utilizmos as
probabilidades e no as frequncias. Neste momento deixmos de ter uma caracterstica
amostral, para termos uma caracterstica populacional, equivalente caracterstica amostral
mdia. Vamos ver na seco seguinte que a esta caracterstica populacional, chamamos valor
mdio.
E(X) = x p i i
i
Chamamos a ateno para que o valor mdio um parmetro, isto , uma quantidade numrica
fixa, embora por vezes seja desconhecida, que descreve uma caracterstica populacional. um
parmetro de localizao, que pretende localizar o centro da distribuio de probabilidades, do
mesmo modo que a mdia uma medida de localizao do centro da amostra.
Ao contrrio do valor mdio que um nmero fixo, a mdia uma varivel aleatria -
efectivamente, conforme a amostra recolhida (para uma determinada dimenso), assim obtemos
um valor diferente para a mdia.
Podemos ainda acrescentar o seguinte: a mdia uma estatstica, pois uma varivel aleatria
que s depende dos valores da amostra e no depende de parmetros desconhecidos. Assim,
utilizando a terminologia j referida para as variveis aleatrias, representaremos por X a v.a.
mdia e por x um valor observado da varivel aleatria mdia.
Ento, voltando ao exemplo 1, dizemos que 3.35 um valor observado da v.a. X . Se a amostra
recolhida tivesse sido a seguinte
1 4 1 1 3 2 3 5 2 1
Introduo Probabilidade e Estatstica 197
Maria Eugnia Graa Martins DEIO- 2005
5 6 4 5 5 3 6 2 3 3
obteramos um outro valor observado para a v.a. mdia: o valor 3.25.
Quando recolhemos uma amostra, o nosso objectivo, como j temos referido vrias vezes,
retirar concluses para a populao subjacente amostra. precisamente a mdia, que nos
fornece informao sobre o valor mdio! Assim, ao recolhermos a amostra anterior e ao obter o
valor 3.25 para a mdia, dizemos que este valor uma estimativa do valor mdio da v.a. X,
caracterizada por assumir os valores 1, 2, ,6, com probabilidades 1/6. Mas a amostra
inicialmente recolhida tinha dado o valor 3.35 como estimativa para o valor mdio! Alis se
continussemos a recolher amostras diferentes, embora com a mesma dimenso, continuaramos
a obter valores ligeiramente diferentes para as respectivas mdias, que seriam outras tantas
estimativas para o valor mdio. Quer dizer que a v.a. X uma funo que fornece estimativas
para o valor mdio - diz-se que um estimador do valor mdio.
Ser um bom estimador? Isto , as estimativas sero boas? Daro valores aproximados do
parmetro que pretende estimar?
Observao: Sobre este ponto gostaramos ainda de observar que podemos partida dispor de
um bom estimador e obter ms estimativas, quando as amostras que serviram para obter essas
estimativas no forem representativas da populao (relembrar o que foi dito no Captulo 1 sobre o
problema da amostragem).
Exemplo 2 (adaptado de Moore, 1997) Uma companhia de seguros instituiu um seguro de vida
com a durao de 5 anos, para indivduos de 21 anos, do sexo masculino, segundo a seguinte
modalidade: a companhia paga uma indemnizao de 20 mil contos se o segurado morrer nos
198 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
prximos 5 anos, sendo o prmio anual de 50 contos. Pretende-se saber qual o lucro esperado
para a companhia de seguros, tendo em conta as seguintes probabilidades:
Idade morte 21 22 23 24 25 26
Probabilidade .0018 .0019 .0019 .0019 .0019 .9906
Resoluo:
Seja X a v.a. que representa o lucro auferido pela companhia de seguros ao longo dos anos em
que o seguro vlido:
Idade morte 21 22 23 24 25 26
X -19950 -19900 -19850 -19800 -19750 250
Probabilidade .0018 .0019 .0019 .0019 .0019 .9906
Ento tendo em conta a expresso para o clculo do valor mdio temos que o lucro esperado de
aproximadamente 61 contos.
Tendo em conta o resultado anterior estaria disposto a assumir perante um amigo a
responsabilidade que a companhia de seguros assume perante os seus segurados?
Dada a v.a. X, discreta, e a v.a. Y, funo de X por intermdio da funo g, isto , Y = g(X), tem-se
E(Y) = E[g(X)] = i
g(xi) pi
Y = 550 - C 10 5 0 -5 -10
Probabilidade .10 .15 .50 .20 .05
donde E(Y) = 10 .10 + 5 .15 + 0 .50 + (5) .20 + (10) .05
= .25
Introduo Probabilidade e Estatstica 199
Maria Eugnia Graa Martins DEIO- 2005
Donde E(F) = 1004 .10 + 1013 .15 + 1022 .50 + 1031 .20 + 1040 .05
= 1021.55
+
E(X) =
x f(x) dx
1. Dadas duas v.a. X e Y, com valores mdios respectivamente E(X) e E(Y), ento
E( X Y ) = E ( X ) E ( Y )
E( aX + b ) = a E ( X ) + b
E(XY)=E(X)E(Y)
Ateno: O valor mdio do produto s igual ao produto dos valores mdios, se as v.a. forem
independentes.
9
E(F) = E( C+ 32)
5
9
= E(C)+32
5
= 1021.55
200 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
n pessoas/grupo 1 2 3 4 5 6 7 8
probabilidade .10 .30 .10 .20 .08 .11 .03 .08
Determine o tamanho mdio dos grupos.
Resoluo:
O que se pretende o valor mdio da v.a. X que representa o tamanho do grupo, donde
E(X) = 1 .10 + 2 .30 + 3 .10+ 4 .20 + 5 .08 + 6 .11+ 7 .03 + 8 .08
= 3.71
Se considerarmos a v.a. Y=5X2, tem-se
E(Y) = 5( 1 .10 + 4 .30 + 9 .10 + 16 .20 + 25 .08 + 36 .11+ 49 .03+ 64 .08 )
= 89.75
p F( p ) p + P( X = p)
A notao agora utilizada para o quantil populacional, diferente da utilizada para o quantil
amostral, o qual se representou por Qp.
Como se v pela figura, dado qualquer valor de p, no intervalo (0,1), o quantil fica univocamente
determinado.
Mediana
Quartis
P(X1) = .10
P(X2) = .40 donde .25 = 2
P(X3) = .50
P(X4) = .70
P(X5) = .78 donde .75 = 5
Var(X) = E{ [X - E(X)]2}
Var(X) = i
[xi E(X)]2pi
Propriedades da varincia
Var(aX+b)= a2Var(X)
Do mesmo modo que fizemos para a amostra, tambm se define o desvio padro populacional,
ou unicamente desvio padro, quando no houver dvidas a qual nos estamos a referir, que se
representa por X, como sendo a raiz quadrada da varincia
X = ,E { [X - E(X)]2}
Introduo Probabilidade e Estatstica 203
Maria Eugnia Graa Martins DEIO- 2005
O desvio padro amostral, da mesma forma que a mdia, tambm uma varivel aleatria, que
representamos por S. Quando se observa uma determinada amostra, ento obtemos um valor
observado para a v.a. S, que representamos por s.
Do mesmo modo que a mdia se utiliza como estimador do valor mdio, tambm o desvio padro
amostral se costuma utilizar como estimador do parmetro desvio padro populacional
S um estimador de
desvio padro
populacional
s uma estimativa de
Assim, quando pretendemos estudar uma populao X, recolhemos uma amostra dessa
populao, e calculamos a mdia e a varincia amostral. Estas medidas do-nos informao sobre
os parmetros populacionais valor mdio e varincia populacional, respectivamente.
A partir da definio de varincia, pode-se deduzir uma expresso mais simples para efeitos de
clculo, e que a seguinte:
var(X) = E(X2) - E2(X)
Exerccios
1 - O Joo apostou com o seu amigo Pedro que no prximo jogo Benfica - Sporting, o Benfica
ganharia. O Joo recebe 300$ se ganhar a aposta e paga 200$ de perder. Para quem que
favorvel a aposta:
a) Se a probabilidade do Benfica ganhar ao Sporting for de .5?
b) Se a probabilidade anterior for de .3?
Se os montantes implicados na aposta forem respectivamente 200$ e 100$, e tendo em conta a
alnea a), o risco corrido pelo Joo maior ou menor, do que com os montantes iniciais?
2 - Um jornal de desporto publica anncios nas suas pginas, verificando-se que cada pgina ou
no contm anncios, ou tem 1/3, 2/3 ou a pgina inteira preenchida com publicidade. O modelo
de probabilidade que descreve a proporo da pgina ocupada com publicidade dado pela
seguinte tabela:
Prop. da pg. 0 1/3 2/3 1
p .408 .017 .025 .550
7.5 - Covarincia
Dadas duas variveis aleatrias X e Y, existe uma medida adequada para medir a maior ou menor
intensidade, com que as v. a. se associam (linearmente) ou acompanham, que se chama
covarincia entre X e Y e se representa por Cov(X,Y):
Propriedades da covarincia
A covarincia depende das unidades com que se exprimem as variveis aleatrias X e Y. Sendo
assim, conveniente introduzir uma nova medida, chamada coeficiente de correlao entre X e
Y, que se representa por , e se obtm dividindo a covarincia pelo produto dos desvios padres
de X e Y
Cov(X, Y)
=
var(X) var(Y)
Assim:
um valor de prximo de 1, significa uma forte associao linear, positiva, entre as
variveis X e Y;
um valor de prximo de -1, significa uma forte associao linear, negativa, entre as
variveis X e Y;
206 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
No caso em que o coeficiente de correlao igual a 1 ou a -1, temos que Y uma funo linear
de X, respectivamente crescente ou decrescente, pelo que o conhecimento de uma das variveis
permite conhecer a outra das variveis.
Y
X 1 2
0 1/21 2/21
1 3/21 4/21
2 5/21 6/21
7.6 Regresso de Y em X
Vimos no captulo 4 que a recta dos mnimos quadrados nos d uma descrio linear da relao
(linear) existente entre uma varivel explanatria X e uma varivel resposta Y. Neste captulo
vimos que para cada caracterstica amostral, existe a caracterstica populacional correspondente.
Ser que poderemos continuar a estabelecer esse paralelismo, agora que estamos no domnio
dos pares aleatrios? Ser que existe algo de semelhante, para a Populao, recta dos mnimos
quadrados definida para as amostras? Efectivamente assim , pois podemos dizer que a recta dos
mnimos quadrados a imagem estatstica da regresso populacional de Y em X. No entanto para
definirmos este modelo necessrio admitir determinadas hipteses que neste momento saem for
a do contexto destas folhas:
Introduo Probabilidade e Estatstica 207
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 7 Uma determinada Universidade que lecciona um curso de gesto fez durante alguns
anos um estudo sobre a integrao dos seus alunos no campo de trabalho, nomeadamente
recolhendo a informao sobre quanto tempo (em meses) tinha decorrido desde que tinham
terminado a licenciatura e arranjado emprego e qual o salrio auferido no incio do trabalho.
Obviamente que uma informao relevante para este estudo seria a nota final de curso, na posse
dos servios acadmicos da Universidade. Apresenta-se a seguir uma amostra dos resultados
obtidos:
*
*
A mdia igual a 156 contos, ligeiramente superior mediana que igual a 150 contos,
inflacionada devido existncia dos dois valores outliers. Os alunos que terminem a licenciatura
este ano lectivo podem recorrer a esta informao para ter uma estimativa de qual ir ser o seu
salrio inicial. Podero nomeadamente servir-se da informao de que 50% dos alunos que
terminam a licenciatura ganham entre 135 contos e 165 contos. Um destes alunos pensou que
dispunha de mais alguma informao que lhe poderia ser til para ter uma ideia de qual o salrio
que iria auferir, pois s lhe faltavam 3 disciplinas que no iriam afectar muito a nota final de curso.
O aluno tinha construdo um diagrama de disperso dos pares (X,Y) e tinha verificado a existncia
de uma certa associao linear entre os pares representados:
240
220
200
180
Salrio
160
140
120
100
10 11 12 13 14 15 16 17 18
Nota final
Ser que o facto de conhecer a mdia final de curso, pode tornar um pouco mais precisa a
informao sobre o seu salrio inicial? Para j, vejamos o que se passa com os salrios
respeitantes a cada uma das notas:
11 12 13 14 15 16 17
120 135 150 190 200 220 220
130 140 145 160 170 185
135 135 140 155 150 180
110 140 165 165
145 155 135 165
150 145
145
y11 =128 y12 =142.5 y13 =146.4 y14 =167 y15 =173.3 y16 =195 y17 =220
Efectivamente medida que a nota final de curso cresce, cresce a mdia dos salrios associados
com cada uma das notas, isto , em mdia os salrios esto a crescer com a nota final. Repare-se
Introduo Probabilidade e Estatstica 209
Maria Eugnia Graa Martins DEIO- 2005
240
220
200
Salrio
180
160
140
120
100
10 11 12 13 14 15 16 17 18
Nota final
Dado o par de variveis aleatrias (X, Y), define-se valor mdio condicional de Y dado X=x e
representa-se por E Y |X (Y) como sendo o valor mdio de todos os valores de Y que
correspondem ao mesmo valor de x.
Regresso de Y em X
Uma vez que para cada valor da varivel aleatria X se pode definir o valor mdio condicional
E Y |X (Y) , considere-se a funo definida pelos pontos (x, E Y |X (Y) ). A esta funo chamamos
regresso (populacional) de Y em X. Quando esta funo linear dizemos que temos a
regresso linear e o modelo utilizado
E Y |X (Y) = + x
Para estimar a funo de regresso a partir de uma amostra de dados bivariados, podemos utilizar
vrios processos, nomeadamente considerar a curva constituda pelos pontos (x, yx ), como
apresentamos a seguir
210 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
240
220
200
Salrio
180
160
140
120
100
10 11 12 13 14 15 16 17 18
Nota final
240
220
200
180
160
140
120
100
10 11 12 13 14 15 16 17 18
Nota
Coeficiente de determinao
Embora o assunto da regresso no seja, no mbito deste curso, mais aprofundado, refira-se que
o quadrado do coeficiente de correlao, r2, chamado coeficiente de determinao, d-nos a
proporo da variabilidade existente em Y que explicada pela recta de regresso. No caso do
exemplo apresentado r2 = 74.3, pelo que podemos dizer que a recta de regresso ajustada aos
pontos explica cerca de 74% da variabilidade existente em Y.
Introduo Probabilidade e Estatstica 211
Maria Eugnia Graa Martins DEIO- 2005
Ainda referindo-nos ao exemplo anterior, suponhamos que um aluno que tinha terminado a
licenciatura com nota final de 0 (obviamente que esta situao seria impossvel no contexto em
que estamos, isto , no teria sentido considerar para a varivel X o valor 0). Ento de acordo com
a equao da recta de regresso esperar-se-ia que o salrio inicial fosse de aproximadamente 22
contos. Ao considerarmos anteriormente para a varivel X o valor 0 para preveremos o valor para
o salrio inicial, estamos a cometer dois erros: em primeiro lugar no tem sentido no estudo em
causa atribuir a X o valor 0; em segundo lugar, quando se pretende prever um valor para Y,
utilizando a recta de regresso, no se deve considerar para X um valor que saia fora do intervalo
que se considerou para construir a recta de regresso. No caso em estudo os valores para a
varivel X devem estar includos no intervalo [11, 17].
Vejamos agora o que acontece quando aumentamos na equao da recta de regresso o valor de
X de uma unidade:
Este modelo ser objecto de um estudo posterior, pois neste momento sai fora do mbito deste
curso um estudo mais desenvolvido. Um dos problemas que ser abordado nessa altura o da
explicitao das hipteses subjacentes, que conduzem sua aplicao.
Exerccios
1. Hoje em dia, uma das preocupaes das companhias de seguros estudar a desvalorizao
dos carros, com a idade. Assim, com o objectivo de estudar esse fenmeno recolheu, para um
determinado modelo, uma amostra de 10 carros, tendo obtido a seguinte informao sobre a idade
(em anos) e o preo (em milhares de escudos):
Idade 6 4 3 4 5 3 8 4 9 3
Preo 650 800 890 750 700 850 500 790 300 930
212 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Reduo do tempo(minutos) 1.6, 0.8, 1.1 2.0, 1.7, 2.6 3.6, 2.8, 3.2
Captulo 8
8.1 - Introduo
Nos captulos anteriores, nomeadamente nos que dizem respeito s caractersticas amostrais e
populacionais, realmos o facto de que o estudo das caractersticas amostrais tem como
objectivo principal, a obteno de informao sobre as correspondentes caractersticas
populacionais - esta parte da anlise estatstica, que nos referimos como sendo a Inferncia
Estatstica.
nesta perspectiva que, por exemplo, a mdia e a varincia amostral podem ser usadas para
fazer inferncia sobre os parmetros populacionais desconhecidos, respectivamente valor mdio e
varincia da Populao, de onde foi recolhida a amostra (da v.a. X que representa a Populao).
Pretendendo ento estudar uma Populao X (que representamos, portanto, pela v.a. X), o nosso
objectivo final ser obter o modelo de probabilidade para X. Recordemos que, no mbito da
estatstica descritiva, se estudaram vrios processos de resumir a informao contida nos dados
da amostra, que se recolheu da Populao em estudo. Alguns desses processos foram as
representaes grficas.
Precisamente a representao grfica dos dados pode dar uma informao importante sobre a
distribuio da Populao, j que para dados discretos se pode interpretar o diagrama de barras
como a imagem estatstica da funo massa de probabilidade, enquanto que para dados
contnuos o histograma a imagem estatstica da funo densidade de probabilidade. Por outro
lado a funo distribuio emprica a imagem estatstica da funo distribuio.
Embora possa haver uma grande variedade de formas para as distribuies de probabilidade
(quando falamos em distribuies de probabilidade, estamos a referir-nos indiferentemente
funo massa de probabilidade ou funo densidade, conforme as v.a. sejam discretas ou
contnuas, ou funo distribuio), existem alguns modelos que, pela frequncia com que
surgem nas aplicaes, merecem destaque especial.
Este um dos modelos mais simples caracterizado por ter uma funo massa de
probabilidade em que a probabilidade constante, para um conjunto finito de pontos.
Diz-se que a varivel aleatria X tem uma distribuio uniforme em n pontos, se assumir os
1
valores x1, x2, ..., xn, com probabilidade P(X=xi) = .
n
No caso em que xi=i, i=1, 2, ..., n, de que o modelo referido anteriormente um caso particular
n +1 n 2 1
com n=6, tem-se E(X) = e Var(X) = .
2 2
Admitindo que o nmero de clientes a quem foi feita a pergunta n, que as respostas que cada
um d so independentes umas das outras, e que cada cliente tem igual probabilidade de
responder afirmativamente, a experincia anterior tem as seguintes caractersticas:
0, 1, 2, ..., n-1, n
Exemplo 1 - Suponhamos, para simplificar, que foram 4 os clientes a quem foi feita a pergunta,
isto , n=4. Suponhamos ainda que o anncio influenciou 25% dos potenciais clientes do Centro
Comercial. Ento a probabilidade de um cliente dizer que foi influenciado de .25 (probabilidade
do sucesso), enquanto que a probabilidade do cliente responder que no foi influenciado de .75
(probabilidade do insucesso). Se representarmos por X, a v.a. que d, de entre os 4 clientes, o
nmero de clientes que responderam afirmativamente, temos que os valores possveis para X so:
X- 0 1 2 3 4
Vejamos como obter a funo massa de probabilidade de X: Representando por S - influenciado e
por N - no influenciado, temos
4
P(X=0)=P(NNNN)=.75
3
P(X=1)=P[(SNNN) (NSNN) (NNSN) (NNNS)] = 4 .25 .75
P(X=2)=P[(SSNN) (SNSN) (SNNS) (NSSN) (NSNS) (NNSS)]
2 2
=6 .25 .75
3
P(X=3)=P[(SSSN) (SSNS) (SNSS) (NSSS)] = 4 .25 .75
4
P(X=4)=P(SSSS) = .25
X=xi 0 1 2 3 4
pi .316 .422 .211 .047 .004
n
Seja X uma v.a. tal que P(X=k) = pk(1-p)n-k , k= 0, 1, 2, , n
k
A uma v.a. X com esta funo massa de probabilidade chamamos v.a. Binomial de parmetros n
e p e representamos este facto por
X B(n,p)
P(X = k) = 1
k=0
Na verdade
n n
(k) p (1 p)
k n-k n
= [p + (1-p)] = 1
k=0
O modelo Binomial aplica-se sempre que estejamos perante uma situao de n provas repetidas e
independentes, em que em cada prova se possa verificar um de dois resultados, geralmente
chamados de sucesso e insucesso, e em que se mantenha constante a probabilidade de sucesso.
- prospeco de mercado
- controlo de qualidade
- etc
E(X) = 4 .25 = 1
o que est de acordo com a intuio, pois se a 4 pessoas se fizer uma pergunta, para a qual
existe uma probabilidade de 25% de dizer "sim", esperamos obter, em mdia, 1 resposta "sim"!
Exemplo 2 - Outra situao que surge com frequncia e em que se aplica o modelo Binomial, no
lanamento de uma moeda. Mais propriamente, o que se passa o seguinte: lana-se uma moeda
ao ar um certo nmero de vezes e pretende-se estudar a v.a. X, que representa o nmero de
"caras" sadas nesses lanamentos. Suponhamos ento que se lanou ao ar 20 vezes, uma
moeda "equilibrada". Pretende-se estudar a v.a. X. que representa o nmero de caras sadas nos
20 lanamentos.
Resoluo: A v.a. X assume os valores 0,1, 2,..., 20 e ficar perfeitamente definida depois de
calcularmos as probabilidades de assumir esses valores. Esquematicamente, podemos escrever
k k = 0, 1, 2, , n
X p = P(X = k) = 20 k 20 k
.5 .5
k
k
Neste caso, em que a moeda equilibrada, tem-se que p=1-p= .5, pelo que imediatamente se
conclui que P(X=k) = P(X=20-k) com k=0, 1, , 9. A funo massa de probabilidade tem o
seguinte aspecto
Exemplo 3 - Um estudante que no teve tempo para se preparar para um exame, em que cada
questo tinha 6 respostas possveis, em que 1 nica a correcta, decide responder ao acaso. Se
o exame for constitudo por 18 questes:
a) Qual a probabilidade de responder certo a uma questo?
b) Qual o nmero esperado de respostas certas que espera obter?
c) Qual a probabilidade de responder certo, a pelo menos11 das questes?
d) Qual a probab. de responder certo a um nmero de questes entre 2 e 5?
a)
Existem muitas situaes em que se pode aplicar o modelo Binomial, mas o parmetro p
desconhecido, ao contrrio do que se passa com o valor de n, que normalmente conhecido, pois
possvel contar o n de provas realizadas. Ento uma maneira de rodear o problema, estimar
o valor de p, isto tentar obter um valor aproximado para p.
Introduo Probabilidade e Estatstica 219
Maria Eugnia Graa Martins DEIO- 2005
X
Um estimador que se costuma utilizar para estimar p e que se representa por p , onde X
n
representa o n de sucessos em n provas. Estamos assim a estimar p pela frequncia relativa de
sucesso. Quando n for suficientemente grande, temos uma boa aproximao da probabilidade (
altura de recordar o que aprendeu sobre a teoria frequencista da probabilidade!)
X
=
Exerccio: Verifique que efectivamente p , onde X representa o n de sucessos em n provas,
n
em que cada prova tem probabilidade de sucesso p, um bom estimador da probabilidade p. Por
outras palavras, pretende-se provar que a frequncia relativa, se aproxima da probabilidade,
quando o nmero de provas for suficientemente grande.
) e Var( p ).
Sugesto: Calcule E( p
Exemplo 4 O gerente de uma casa que vende material informtico fez uma encomenda de 20
impressoras de determinada marca, que ser aceite mediante a inspeco de 3 das impressoras,
para ver se funcionam ou esto avariados. Quando a encomenda chega o gerente analisa as 3
primeiras impressoras a serem descarregadas. Embora o gerente no saiba, 2 das impressoras
tm avarias. Ser que estamos perante uma experincia binomial? Resoluo: Estamos perante
uma experincia constituda por 3 provas, em que em cada prova se pode verificar o sucesso
(impressora avariada) ou insucesso (impressora boa). A probabilidade de seleccionar uma
impressora defeituosa 2/20, admitindo que qualquer uma das impressoras poderia ter sido
colocada no meio de transporte, em melhores condies de ser a primeira a ser descarregada. No
entanto as provas no so independentes, j que a probabilidade de obter uma impressora
defeituosa na 2 prova ou na 3 prova depende do que aconteceu nas provas anteriores, pelo que
a probabilidade de sucesso no se mantm constante ao longo das provas. Assim, no estamos
perante uma experincia binomial.
poderamos ainda utilizar o modelo Binomial. Como indicao, para as aplicaes, o modelo
Binomial no deve ser aplicado se n/N.05 (Mendenhall, 1994) (H autores que consideram que
ainda se pode aplicar o modelo Binomial se a dimenso da amostra for inferior a 10% da
dimenso da populao).
n
SnB( n ,p ) i
i =1
Dem: Para demonstrar o resultado anterior, basta fazer a demonstrao para n=2 (Porqu?).
k k n1 n 2 k -i
P(S2=k) = P(X1=i e X2=k-i) = ( i )p (1 - p)
i n1 i
(
k -i
n k+ i
)p (1- p) 2
i=0 i=0
k n1 n2
= ( i )( k - i )p k
(1- p)
n 1 +n 2 k
i=0
n 1 + n2 k n +n k
=( )p (1- p) 1 2 em que k= 0,1, , n1 + n2 .
k
Como consequncia da propriedade anterior, temos que uma v.a. X com distribuio Binomial de
parmetros n e p, pode ser considerada a soma de n variveis aleatrias, independentes, cada
uma com distribuio Binomial de parmetros 1 e p ( variveis aleatrias de Bernoulli).
Exerccio: Tendo em considerao o que foi dito anteriormente, determine o valor mdio e a
varincia de X.
Consideremos ainda uma sucesso de provas de Bernoulli, isto , provas independentes, em que
em cada prova a probabilidade de sucesso constante e igual a p (sendo a de insucesso igual a
q=1-p). Suponhamos que estamos interessados na varivel aleatria X que representa o nmero
de provas necessrias para se obter r sucessos. Repare na analogia com o modelo Binomial:
enquanto que neste o nmero de provas fixo e o nmero de sucessos aleatrio, na Binomial
negativa o que fixo o nmero de sucessos, enquanto que o nmero de provas aleatrio.
Vejamos quais os valores que a varivel aleatria X assume e com que probabilidades:
Introduo Probabilidade e Estatstica 221
Maria Eugnia Graa Martins DEIO- 2005
X pode assumir os valores k = r, r+1, r+2, .... Por outro lado, para que na k-sima prova se
verifique o r-simo sucesso, necessrio que nas (k-1) provas anteriores se verifiquem (r-1)
sucessos:
Caso particular No caso em que r=1, diz-se que se tem o modelo Geomtrico, que representa,
portanto, o nmero de provas necessrias para se verificar sucesso (pela 1 vez), representando-
se por Geom(p). A funo massa de probabilidade dada por
Exemplo 5 Um indivduo faz anos em Junho. Resolve, na rua, perguntar s pessoas que
encontra, qual o ms em que fazem anos, at encontrar duas que faam anos no mesmo ms.
Qual a probabilidade de ter de importunar 10 pessoas? E se pretender encontrar 1 pessoa a fazer
anos em Junho, em vez de 2? Em mdia a quantas pessoas tem de fazer a pergunta, at
encontrar uma a fazer anos no mesmo ms?
Seja X a v.a. que representa o nmero de pessoas a quem tem de importunar, para encontrar 2 a
fazerem anos em Junho. Ento XBinNeg(2,1/12), se admitirmos que existe igual probabilidade
de fazer-se nos em qualquer um dos 12 meses, donde
10 1 1 2 1
P(X=10) = ( ) (1 ) 10 2
2 1 12 12
= 9 (1/12)2 (11/12)8
222 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
= 0.031
Quando r=1, temos YBinNeg(1,1/12) e P(Y = 10) = (11/12)9 1/12 = 0.038. Neste caso E(Y) = 12
Exemplo 6 (adaptado de De Veaux et al, 2004) Os indivduos com sangue de tipo O, RH-, so
chamados de dadores universais. S 6% da populao tem este tipo de sangue. a) Quantos
dadores espera observar, na unidade mvel que costuma estacionar em Entrecampos, Lisboa, at
obter algum que seja dador universal? Qual a probabilidade de que o primeiro dador universal se
encontre entre os 4 primeiros dadores? b) Suponha que chegam 20 dadores unidade mvel.
Quantos dadores universais espera encontrar? Qual a probabilidade de encontrar 2 ou 3 dadores
universais?
a) Se representarmos por X o nmero de dadores at obter 1 que seja dador universal, podemos
considerar que X tem uma distribuio geomtrica de parmetro 0.06.
Ento E(X) = 1/0.06 = 16.7, pelo que se espera examinar em mdia 16.7% de pessoas at
encontrar um dador universal.
A probabilidade de que se encontre um dador de tipo O-, nos 4 primeiros dada por
P(X=1)+P(X=2)+P(X=3)+P(X=4) = 0.2193, pelo que cerca de 22% das vezes encontra-se um
dador universal nos primeiros 4 dadores que se apresentam.
b) Neste caso temos uma varivel aleatria Y com distribuio Binomial de parmetros 20 e 0.06.
Ento E(Y) = 200.06 = 1.2 e P(Y = 2 ou 3) = P(Y = 2) + P(Y = 3) = 0.3106.
Na linguagem at aqui utilizada, podemos dizer que se X uma varivel aleatria que representa
o nmero de provas at se obter r sucessos, ento Y = X-r, a v.a. que representa o nmero de
Introduo Probabilidade e Estatstica 223
Maria Eugnia Graa Martins DEIO- 2005
0.1 0.9 k -R 0.95. Substituindo R por vrios valores obtemos o seguinte qadro
k = 51+ R R
- 1
R 7 8 9 10 11
P(X50+R+1) 0.66 0.78 0.87 0.93 0.96
donde conclumos que o valor de o nmero de peas de reserva eve ser 11.
Representando por X a v.a. que d o nmero de ocorrncias na unidade de tempo, ento X tem
uma distribuio de Poisson, com f.m.p. dada por
k e
P(X=k) = , >0, k=0, 1, 2,
k!
Uma v.a. com distribuio de Poisson, chama-se v.a. de Poisson e representa-se este facto com
a seguinte notao
X P()
Dada uma v.a. X com distribuio de Poisson de parmetro , pode-se mostrar que
E(X) = e Var(X)=
224 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Propriedade: A distribuio Binomial B(n,p) converge para a distribuio de Poisson P(), quando
n (o nmero de provas aumenta), p 0 (a probabilidade de sucesso tende para zero) e o
produto np se mantm aproximadamente constante, np = > 0 ( o n mdio de sucessos mantm-
se aproximadamente constante ao longo das provas).
O resultado anterior d-nos as condies em que o modelo Poisson aparece como limite do
modelo Binomial, razo pela qual conhecido como lei dos acontecimentos raros. Temos:
Exemplo 8 - O nmero de pedidos de ambulncias que chegam, por dia, a determinado posto de
socorros, em mdia de 2. Calcule a probabilidade de que:
a) Num dia, haja pelo menos um pedido.
b) Num dia haja pelo menos um pedido, sabendo que no dia anterior no se registou nenhum.
c) Num dia haja dois pedidos e no dia seguinte tambm se verifiquem dois pedidos.
Resoluo: Seja X a v.a. que representa o nmero de pedidos de ambulncias por dia. Podemos
considerar que X tem distribuio de Poisson de parmetro =2.
a) P(X1)=1 - P(X<1)= 1 - P(X=0)=e-2 2/0! = .865
b) Esta probabilidade igual anterior! (Basta ter em ateno a forma como foi introduzido o
modelo de Poisson)
c) Vamos representar por
X1 - n de pedidos num dia; X2 - n de pedidos no dia seguinte
ento, pela mesma razo invocada na alnea anterior, temos
P(X1 =2 e X2 =2)=P(X1 =2) P(X2 =2) = .271 .271 = .073
226 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 9 - Em 1945 os alemes bombardearam Londres com as bombas V2. A regio londrina
est dividida em 576 distritos de superfcies semelhantes, pelo que admitimos que cada distrito
tem probabilidade idntica de ser bombardeado. Calcula-se que o nmero de bombas recebidas
por Londres foi de 535. Calcule as probabilidades de cada distrito receber 0, 1, 2, ..., bombas.
Resoluo: Seja X a v.a. que representa o n de bombas recebidas por cada distrito. Ento
podemos assumir que XBi(535,1/576) donde:
P(X=0)=.3947
P(X=1)=.3672
P(X=2)=.1705
P(X=3)=.0527
P(X=4)=.0121
P(X=5)=.0023
P(X=6)=.0003
535
P(X = k) =.0002
k= 7
Como n grande e p pequeno, vamos aproximar a Binomial por uma Poisson com parmetro
=535/576. Os resultados obtidos considerando XP(535/576) so os seguintes:
P(X=0)=.3950
P(X=1)=.3669
P(X=2)=.1704
P(X=3)=.0528
P(X=4)=.0122
P(X=5)=.0023
P(X=6)=.0003
P(X = k) =.0001
k 7
Exemplo 10 Qual a probabilidade de que numa empresa com 550 empregados, exactamente k
faam anos no dia de Natal?
Resoluo: Podemos considerar um esquema de provas de Bernoulli de 550 provas e em que se
considera a probabilidade de sucesso p=1/365. Nestas condies, como n grande e p
pequeno, podemos utilizar a aproximao da Binomial pela Poisson com =550/365=1.5 e vem
para as probabilidades
k 0 1 2 3 4 5 6
Prob. .223 .335 .251 .125 .047 .015 .003
Introduo Probabilidade e Estatstica 227
Maria Eugnia Graa Martins DEIO- 2005
Por vezes acontece que estamos em situao de aplicar o modelo de Poisson, mas
desconhecemos o valor do parmetro. Nestas circunstncias o que se faz, estimar o parmetro
desconhecido. Tendo em ateno que o parmetro a estimar o valor mdio da distribuio, e a
analogia existente entre caractersticas amostrais e populacionais, uma estimativa natural para o
parmetro a mdia.
3.87i e 3.87
Ento pi= P(X=i) = para i= 0, 1, 2,
i!
Propriedade: Dadas as v.a. Xi, independentes, com distribuio de Poisson, XiP(i), i=1, 2, ,
n, ento a soma Sn= X1 + X2 + +Xn, tambm tem distribuio de Poisson
n
Sn P( i )
i= 1
Como consequncia da propriedade anterior, temos que uma v.a. X com distribuio de Poisson
de parmetro , pode ser considerada a soma de n variveis aleatrias, independentes, cada uma
com distribuio de Poisson de parmetro /n.
228 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Vimos, no estudo do modelo Binomial, que o modelo Binomial podia ser aplicado para estudar a
v.a. que representa o nmero de elementos de uma amostra que possuem determinada
caracterstica, quando a amostra extrada com reposio ou no caso de ser sem reposio, se a
dimenso N da populao for suficientemente grande, quando comparada com a dimenso n da
amostra. Esta situao advinha do facto de nestas condies as provas (extraces sucessivas)
poderem ser consideradas independentes mantendo-se constante a probabilidade de sucesso (o
elemento recolhido possuir a caracterstica). Efectivamente a probabilidade de sucesso que
dada pela proporo p de elementos da populao possuindo a caracterstica, no se altera
substancialmente de prova para prova.
Ento o que acontece quando se procede a uma extraco sem reposio, numa populao finita
(que no suficientemente grande)? Consideremos o seguinte exemplo:
Exemplo 12 Uma caixa contm 12 garrafas de vinho, das quais 3 so de vinho branco e as
restantes de vinho tinto. Retira 4 garrafas da caixa. Qual a probabilidade de 2 serem de vinho
branco?
Resoluo: O nmero de maneiras possveis de retirar 4 garrafas da caixa se 12 dado pelas
combinaes de 12, 4 a 4. Destas maneiras possveis s so favorveis as que tiverem 2 garrafas
de vinho branco e 2 de vinho tinto, cujo nmero se obtm multiplicando as combinaes de 3, 2 a
2 pelas combinaes de 9, 2 a 2. De seguida basta usar a definio clssica de probabilidade.
Formalizando o raciocnio anterior, vem:
Seja X a v.a. que representa o nmero de garrafas de vinho branco existentes na amostra de 4
garrafas retiradas de uma populao constituda por 12 garrafas 3 de vinho branco e 9 de vinho
tinto
3 9
( )( )
2 2
P(X=2) =
12 = .218
( )
4
A v..a. X pode assumir os valores 0, 1, 2 ou 3, pois embora a amostra tenha dimenso 4, o
nmero de garrafas de vinho branco so s 3. Analogamente se calculavam as probabilidades da
v.a. X assumir os outros valores 0, 1 ou 3.
Introduo Probabilidade e Estatstica 229
Maria Eugnia Graa Martins DEIO- 2005
N1 N - N1
)(
( )
k n -k
P(X=k) = k = max(0, N1+n N), , min(N1,n)
N
( )
n
Exerccio: Verificar que as probabilidades anteriores definem efectivamente uma funo massa
de probabilidade.
N
Dada uma v.a. X com distribuio Hipergeomtrica de parmetros N, n e p = 1 (probabilidade de
N
sucesso num elemento extrado ao acaso), pode-se mostrar que
N- n
E(X) = np e Var(X) = np(1-p) .
N-1
N- n
Exerccio: Mostrar que E(X) = np e Var(X) = np(1-p) .
N-1
Resoluo: Embora a demonstrao das propriedades anteriores possa ser feita por clculo
directo, vamos utilizar o seguinte raciocnio: Seja uma populao constituda por N1 elementos
possuindo determinada propriedade (sucessos) e N2 elementos sem essa propriedade
(insucessos). Retiremos, sem substituio, uma amostra de dimenso n e seja Sn o nmero de
sucessos obtidos. Seja Xk uma v.a. que assume os valores 1 ou 0, conforme o k-simo elemento
da amostra for sucesso ou insucesso. A probabilidade de Xk ser igual a 1 N1/(N1+N2), donde
N NN
E(Xk ) = 1 e Var(Xk) = 1 2
N +N 2
1 2 (N1 + N2 )
Por outro lado, se jk, ento XjXk=1 se os j-simo e k-simo elementos da amostra forem 1, e isto
verifica-se com probabilidade N1(N1-1)/(N1+N2)(N1+N2-1) donde
N1 (N1 1) N1N 2
E(XjXk) = e Cov(XjXk)=
(N1 + N2 )(N1 + N 2 1) (N1 + N2 )2 (N1 + N2 1)
donde
N1 nN1N 2 n -1
E(Sn)= E(X1+X2++Xn) =n e Var(Sn)= 2 1
N1 + N2 (N1 + N2 ) N 1 + N2 1
230 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
n n
tendo em considerao que Var( Xk ) = Var(Xk ) + 2 Cov(X j ,X k ) com este somatrio
K =1 K =1 j, k
n
estendido aos ( ) pares (XjXk) com j<k.
2
Ao estudar o modelo Binomial dissemos que numa situao de amostragem sem reposio em
populaes infinitas, esse modelo ainda poderia ser aplicado, quando efectivamente o modelo
correcto o Hipergeomtrico, como foi agora estudado. Verifique que as expresses para o valor
mdio e varincia anteriormente consideradas justificam essa aplicao.
Exemplo 13 Uma loja que vende componentes electrnicas, recebe-as em lotes de 12. Algumas
das componentes vm avariadas pelo que o gerente da loja, com o objectivo de minimizar o tempo
dispensado a verificar se todas funcionam, estabeleceu o seguinte plano de amostragem: retira 4
e aceita o lote se no encontrar nenhuma defeituosa. Qual a probabilidade de no rejeitar o lote,
sabendo que existem 3 componentes defeituosas?
Resoluo: O lote ser aceite se na amostra recolhida no se verificar nenhuma componente
defeituosa. Seja X a v.a. que representa o n de componentes defeituosas (sucessos) em 4
componentes retiradas de uma populao constituda por 9 componentes boas e 3 defeituosas.
Pretende-se calcular P(X=0)
9 3
( )( )
4 0
12 .25
P(X=0) =
( )
4
Exemplo 14 (Feller, 1968) Num pas com 50 estados, cada estado tem dois senadores. Num
grupo de 50 senadores, qual a probabilidade que um determinado estado esteja representado?
Resoluo: Temos N=100 senadores dos quais N1=2 representam o tal estado. Representando
por X a v.a. que d o n de senadores do tal estado, numa amostra de 50, pretende-se
P(X=1)+P(X=2) ou 1-P(X=0), donde
2 98
( )( )
0 50
P(X=0) =
100 = .247
( )
50
pelo que a probabilidade pretendida .753.
um conjunto de 2. Como o nmero de casos possveis dado pela combinaes de 100, 50 a 50,
vem para a probabilidade pretendida o valor
2 50
4.126. 10-14.
100
( )
50
A distribuio hipergeomtrica tem sido sido aplicada com sucesso na estimao da dimenso de
populaes animais, utilizando mtodos de captura e recaptura (Feller, 1968).
Modelo Binomial
Funo BINOMDIST(number_s; trials; probability_s; cumulative), onde:
Number_s o nmero de sucessos nas provas;
Trials o nmero de provas independentes;
Probability_s a probabilidade de sucesso
Cumulative um valor lgico: para obter a funo distribuio, usar TRUE; para obter a funo massa de
probabilidade, usar FALSE.
Nota Repare-se que Number_f o nmero de falhas ou insucessos antes de um sucesso, enquanto que ns definimos a
Binomial negativa como o nmero de provas at se obter sucesso, isto, contamos os insucessos e a prova em que se
deu sucesso.
Modelo Poisson
Funo POISSON(x; mean; cumulative), onde:
x o nmero de acontecimentos;
Mean o valor mdio
232 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Cumulative um valor lgico: para obter a funo distribuio, usar TRUE; para obter a funo massa de
probabilidade, usar FALSE.
Modelo Hipergeomtrico
Funo Hypgeomdist(sample_s; number_sample; population_s; number_population), onde
Sample_s o nmero de sucessos na amostra;
Number_sample a dimenso da amostra;
Population_s o nmero de sucessos na populao;
Number_population a dimenso da populao.
Exemplo Considerando o exemplo 13, a probabilidade pretendida pode ser calculada da seguinte forma:
Introduo Probabilidade e Estatstica 233
Maria Eugnia Graa Martins DEIO- 2005
As distribuies consideradas anteriormente referem-se a v.a. discretas, isto , v.a. que s podem
tomar um nmero finito (modelo Binomial ou hipergeomtrico) ou infinito numervel (modelo de
Poisson, modelo Binomial negativa) de valores distintos.
Vamos seguidamente estudar uma v.a. de tipo contnuo, isto , uma v.a. que pode assumir
qualquer valor de um intervalo e que identificada pela sua funo densidade de probabilidade.
Antes de prosseguirmos, convm recordar alguns aspectos do tratamento das v.a. contnuas, que
se distinguem do das v.a. discretas. Assim:
Este aspecto apresentado pelos histogramas, foi o suficiente para desencadear um entusiasmo
pela distribuio (Populao) Normal, com funo densidade em forma de sino, a qual se admitia
como subjacente aos dados. Chegou-se ao ponto de duvidar de dados, cujos histogramas no
tinham aquele comportamento!
Desfeito o mito da distribuio normal, podemos dizer que ela tem ainda hoje um papel importante
em estatstica, j que muitos dos processos de inferncia estatstica clssica, tm por base,
precisamente a distribuio Normal.
parmetros temos uma distribuio normal, cuja funo densidade de probabilidade tem o
seguinte aspecto:
XN(,)
Pode-se mostrar que:
E(X) = e Var(X) = 2
simtrica relativamente ao seu valor mdio , de modo que duas curvas correspondentes a
duas distribuies com o mesmo desvio padro tm a mesma forma, diferindo unicamente na
localizao.
tanto mais achatada, quanto maior for o valor de , de modo que duas curvas
correspondentes a duas distribuies com o mesmo valor mdio, so simtricas, relativamente
ao mesmo ponto, diferindo no grau de achatamento.
Se deixasse cair um peso em cima da curva da funo densidade, ela ficaria mais achatada, o que
implicaria um maior desvio padro!
Introduo Probabilidade e Estatstica 235
Maria Eugnia Graa Martins DEIO- 2005
Para dar uma ideia da concentrao da distribuio normal, em torno do seu valor mdio,
apresentamos seguidamente algumas probabilidades:
P( X + )=.683
P( - 2 X + 2)=.954
P( - 3 X + 3)=.997
distribuio normal que tem valor mdio 0 e desvio padro 1 chamamos distribuio "standard "
ou reduzida, e representamos por
ZN(0,1)
-2 -1 0 1 2
X
Se a v.a. X tiver valor mdio e desvio padro , ento a v.a. Z = , tem valor mdio 0 e
desvio padro 1. Assim
X
XN(,) Z= N(0,1)
236 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
A funo distribuio da normal reduzida, tem uma notao especial. Assim, se Z for uma v.a.
normal reduzida, representamos
P( Z z) = (z)
Propriedade:
Existem tabelas extensivas da funo distribuio da normal standard, pelo que o clculo de
quaisquer probabilidades, referentes v.a. Z imediato (veremos mais adiante a utilizao do
computador para o clculo das probabilidades da Normal). A propriedade enunciada anteriormente
tambm permite concluir, que basta haver tabelas para os valores de z0 ou de z0.
Exemplo 15 - P(Z1.37)
P(Z1.37) = (1.37)
= .9147
Exemplo 16 - P(Z>1.37)
P(Z>1.37) = 1 - P(Z1.37)
= 1 - .9147
= .0853
valores positivos(
== .9452 -1 + .5616
== .5068
Introduo Probabilidade e Estatstica 237
Maria Eugnia Graa Martins DEIO- 2005
Mas se a Normal no tiver valor mdio nulo e desvio padro 1, j no temos tabelas! Como
que vamos calcular as probabilidades?
63 60
P(X 63) = ( )
4
= (.75)
= .7734
Propriedade: A soma de variveis aleatrias independentes, com distribuio normal, ainda tem
distribuio normal:
XiN(i,i), i= 1, 2, , n, independentes
n n n
Xi N( i , 2
i )
i =1 i= 1 i =1
Obs: A propriedade anterior um caso particular de uma propriedade mais geral que se pode
enunciar da seguinte forma:
Uma v.a. X diz-se que tem distribuio Uniforme no intervalo [a,b], se a sua funo densidade de
probabilidade for dada por:
1
a x b
f(x)= b a
0 fora
0 x< a
x a
F(x)= a x <b
b a
1 xb
(a + b) (b a)2
Pode-se mostrar que E(X) = e Var(X)= .
2 12
Caso particular - Se U for uma varivel aleatria uniforme no intervalo (0, 1), ento a sua funo
distribuio ser F(u) = u, com u(0, 1) (no esquecer que indiferente o intervalo ser aberto ou
fechado, j que para as variveis contnuas, a probabilidade num ponto igual a 0), pelo que a
probabilidade da v.a.U assumir valores num subintervalo (a, b) de (0, 1) igual amplitude desse
subintervalo:
P(a<U<b) = F(b) F(a) = b-a
b)
P(X<1190) = A = 40 .01 = .4
240 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Diz-se que uma varivel aleatria X tem distribuio Exponencial, com parmetro , se e s se a
sua funo densidade tiver a forma
1 e x/ , > 0; x0
f(x)=
0 x<0
A funo distribuio correspondente tem a forma
0 x<0
F(x)= x/
1 e x0
XE()
E(X) = e Var(X) = 2
1 e x/100 x0
f(x)= 100
0 x<0
Um aparelho tem trs destas componentes, que operam independentemente e o aparelho falha se
pelo menos duas das componentes falham. Qual a probabilidade de que o aparelho esteja a
funcionar, sem falhas, pelo menos 200 horas?
Resoluo:
Representemos por Componente - componente a funcionar
componente - componente a no funcionar
P(aparelho funcionar) = 1 - P(aparelho falhar)
P(aparelho falhar) = 3 P(componente, componente , componente ) +
+ P( componente , componente , componente )
P( componente ) = 1-e-200/100 = 1- e-2 =.865
P(aparelho falhar) = 3 (1-.865) .8652+ .8653 = .95
P(aparelho funcionar) = 1 - .95 = .05
Modelo Normal
Funo NORMSDIST(z), calcula o valor da funo distribuio de uma normal reduzida, no ponto z.
Funo NORMSINV(Probability), calcula o valor da inversa da distribuio Normal reduzida, para a probabilidade
Probability, como se exemplifica a seguir:
242 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Exemplo Para calcular o valor de z, tal que a funo distribuio nesse ponto 0.975, como se pretende no exemplo 18,
basta fazer:
Funo NORMINV(probability; mean; standars_dev), calcula o valor da inversa da distribuio Normal, onde:
Probability o valor da probabilidade;
Mean o valor mdio da distribuio Normal;
Standard_dev o valor do desvio padro.
Exemplo No exemplo 22, para determinar o valor de s tal que P(F>s) = 0.01, tem que se formalizar o problema em
termos da funo distribuio, pelo que a igualdade anterior equivalente a considerar P(Fs) = .99. Para calcular o valor
de s, basta fazer:
Modelo Exponencial
Exemplo No exemplo 25, para calcular o valor da probabilidade da varivel aleatria, com distribuio Exponencial de
parmetro 100 ou 0.01 no Excel, ser inferior a 200, basta fazer:
utilizar no Excel, uma componente do Analysis ToolPaK, para gerar nmeros pseudo-aleatrios
com distribuio uniforme (ou outros tipos de distribuio, de que falaremos mais frente). Estes
nmeros so gerados por algorirmos (deterministas) especficos, que geram cada nmero a partir
do anterior e que comeam com um valor a que se chama semente. Assim, se se utilizar a
mesma semente pode-se gerar a mesma sucesso de nmeros. Se os algoritmos que geram os
nmeros forem bons, estes comportam-se como se fossem aleatrios, com a distribuio
desejada. Assim, temos nmeros que se comportam como se fossem aleatrios, mas que so
obtidos por mecanismos deterministas, e da o chamarem-se pseudo-aleatrios.
Suponhamos agora, que se pretendia simular a chegada de chamadas telefnicas a uma central,
durante um perodo de tempo especificado. Estudos anteriores permitem-nos afirmar que a
varivel aleatria que representa o tempo entre as chamadas sucessivas, pode ser bem modelada
por uma distribuio exponencial, com parmetro igual ao inverso do nmero mdio de chamadas
recebidas no perodo referido, sendo, por sua vez, o nmero de chamadas recebidas, bem
modelado por uma Poisson de parmetro 2. Admita que, em mdia, so recebidas 2 chamadas
por perodo. Como que podemos simular os tempos entre chegadas sucessivas de chamadas
tal central telefnica? Vamos admitir que dispomos de uma srie de numeros aleatrios, u1, u2, ...,
un (com distribuio uniforme no intervalo (0,1)), obtidos atravs de uma tabela ou gerados em
computador. Ser que nestas condies conseguimos simular os valores da distribuio
exponencial? A resposta sim, e para o fazer basta lembrar a propriedade que apresentmos
como transformao uniformizante. De facto:
Se P(Xx) = F(x), ento U = F(X) tem distribuio uniforme a tranformada de U por intermdio
da inversa de F, tem distribuio F, isto se Y = F-1(U), P(Yy) = P(F-1(U) y) = P(Xy) = F(y).
Assim, dado o conjunto de valores aleatrios uniformes, u1, u2, ..., un, os transformados x1=F-1(u1),
x2=F-1(u2), ..., xn=F-1(un), tm distribuio F. Vejamos o caso da exponencial:
ln(1 F(x))
1) Se XExp(1/2) ento F(x) = 1 e-2x, donde x = - ;
2
0,2349 0,1339 0,3456 0,2120 0,4563 0,3047 0,5670 0,4185 0,6778 0,5662
0,4315 0,2824 0,8566 0,9710 0,2816 0,1654 0,7067 0,6132 0,1317 0,0706
0,0747 0,0388 0,7600 0,7135 0,4452 0,2946 0,1305 0,0699 0,8158 0,8458
0,1346 0,0723 0,0020 0,0010 0,8694 1,0176 0,7367 0,6673 0,6041 0,4633
0,4196 0,2720 0,1355 0,0728 0,8515 0,9535 0,5674 0,4190 0,2834 0,1666
0,3714 0,2321 0,5073 0,3539 0,6432 0,5153 0,7791 0,7550 0,9150 1,2326
0,9939 2,5494 0,5216 0,3687 0,0493 0,0253 0,5771 0,4303 0,1048 0,0554
0,4986 0,3452 0,2492 0,1433 0,9999 4,8520 0,7506 0,6943 0,5012 0,3478
244 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
0,9498 1,4955 0,7757 0,7474 0,6017 0,4602 0,4276 0,2790 0,2535 0,1462
0,9556 1,5576 0,5052 0,3518 0,0548 0,0282 0,6044 0,4636 0,1539 0,0836
0,5939 0,4506 0,5791 0,4327 0,5644 0,4155 0,5496 0,3989 0,5349 0,3827
0,0097 0,0049 0,5031 0,3497 0,9966 2,8349 0,4899 0,3366 0,9833 2,0473
0,3752 0,2352 0,9944 2,5966 0,6137 0,4755 0,2329 0,1325 0,8521 0,9556
0,1252 0,0669 0,1289 0,0690 0,1326 0,0711 0,1362 0,0732 0,1399 0,0754
0,7805 0,7582 0,2064 0,1156 0,6323 0,5003 0,0582 0,0300 0,4841 0,3310
0,2642 0,1534 0,1126 0,0598 0,9611 1,6240 0,8096 0,8294 0,6581 0,5366
0,4683 0,3159 0,7332 0,6606 0,9980 3,1191 0,2629 0,1525 0,5277 0,3751
0,3797 0,2388 0,0875 0,0458 0,7953 0,7930 0,5030 0,3496 0,2107 0,1183
0,1045 0,0552 0,1751 0,0963 0,2457 0,1410 0,3163 0,1901 0,3869 0,2446
0,9609 1,6213 0,5656 0,4169 0,1702 0,0933 0,7748 0,7455 0,3795 0,2386
O Excel dispe de uma componente no Analysis ToolPaK que permite obter nmeros pseudo-aleatrios, que se
comportam como nmeros aleatrios, com determinadas distribuies. Esto disponveis os modelos Uniforme, Normal,
Bernoulli, Binomial, Poisson ou modelos discretos com determinada funo massa de probabilidade. Para obter o gerador
destes nmeros seleccione:
Obtm uma janela, onde deve seleccionar o nmero de amostras -Number of Variables e a dimenso dessas amostra
Number of Random Numbers. Tem ainda possibilidade de escolher um valor para a semente Random Seed, se pretende
reproduzir o conjunto de nmeros a gerar. Selecciona ainda a Distribuio a gerar, em Distribution e de acordo com a
distribuio seleccionada, assim ter de introduzir alguns valores para os parmetros, em Parameters.
Exemplo Utilize o gerador de nmeros aleatrios do Excel para gerar um conjunto de nmeros com a distribuio Normal
(4, 2).
Em Distribution seleccionmos o modelo Normal e em Parameters escolhemos 4 para Mean e 2 para Standard Deviation.
Germos uma nica amostra (Escrevendo 1 em Number of Variables) de dimenso 1000 (Escrevendo 1000 em Number of
Random Numbers) e apresentamos a seguir o histograma correspondente
Introduo Probabilidade e Estatstica 245
Maria Eugnia Graa Martins DEIO- 2005
Exemplo Utilize o gerador de nmeros aleatrios do Excel para simular o lanamento de um dado equilibrado.
Para simular esta experincia construmos uma funo massa de probabilidade de uma distribuio uniforme discreta em 6
pontos, que foi utilizada pelo Random Number Generation para simular a experincia pretendida:
O processo idntico ao do exemplo anterior, com a diferena que, em Distribution, seleccionmos Discrete.Germos 500
nmeros e construimos o diagrama de barras da amostra obtida. No obtivmos uma distribuio perfeitamente uniforme,
como se v pela figura.
Nota Alguns testes tm revelado algumas deficincias no gerador de nmeros aleatrios do Excel. Assim, para trabalhos
de responsabilidade, recomenda-se a utilizao de outros processos.
Exemplo Utilize o gerador de nmeros aleatrios do Excel para simular a experincia que consiste em verificar o nmero
de ambulncias que chegam a determinado hospital, durante um ano, sabendo que em mdia, por dia, chegam 10
ambulncias.
Vamos modelar a chegada das ambulncias, por dia, por um modelo de Poisson, de parmetro 10. Assim, no temos mais
que gerar uma amostra de dimenso 365, de uma Poisson, com aquele valor para o parmetro:
Valor Total
3 0,25%
4 0,88%
5 2,07%
6 4,81%
7 6,19%
8 9,96%
9 11,20%
10 11,89%
11 12,47%
12 8,96%
13 9,35%
14 7,36%
15 3,32%
16 5,75%
17 0,94%
18 2,49%
19 2,10%
Total 100,00%
246 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Obtivmos uma amostra cuja tabela de frequncias e diagrama de barras se apresenta em cima. Para comparao
considermos tambm a funo massa de probabilidade de uma Poisson, de parmetro 10, que representmos por P(10).
Exerccios
1. Num grupo de 40 ces, 20 ladram, 14 no ladram e mordem e 26 mordem.
a) Calcule a probabilidade de ser verdadeira a seguinte frase: "Co que ladra no morde".
b) Suponha que passa diariamente junto da matilha anterior e selecciona um dos ces
aleatoriamente, para fazer festas. Ao fim de uma semana, qual a probabilidade de nunca ser
mordido.
c) Num dia em que passam 50 pessoas, em que cada uma selecciona aleatoriamente um dos
ces para fazer festas, qual a probabilidade de no mximo serem mordidas 10 pessoas.
2 - Uma fonte radioactiva observada durante 4 intervalos de tempo disjuntos, de 6 segundos
cada um, tendo-se registado o n de partculas emitidas em cada intervalo. Admitindo-se que o n
de partculas emitidas segue uma lei de Poisson, em que o n mdio (taxa) de partculas emitidas
por segundo .5, determine a probabilidade de:
a) Em cada um dos 4 intervalos de tempo sejam emitidas 3 ou mais partculas.
b) Em pelo menos um dos 4 intervalos de tempo, sejam emitidas 3 ou mais partculas.
3 - O Glorioso tem no seu avanado Marquinhos o seu maior trunfo. tal a influncia deste jogador,
que o nmero de golos marcados pelo Glorioso num jogo em que ele alinha uma Poisson de valor
mdio 3, sendo uma Poisson de valor mdio 2, quando ele no alinha. Marquinhos intempestivo,
estando vrias vezes sujeito a castigos, para alm das naturais leses, pelo que joga apenas 60%
dos jogos de uma temporada. Admita que os jogos so independentes.
a) O Glorioso marcou trs golos num jogo. Calcule a probabilidade de Marquinhos ter jogado.
b) No final da poca, Marquinhos foi vendido. Calcule o nmero esperado de golos, a marcar pelo
Glorioso na prxima poca, sabendo que esta constituda por 30 jogos.
c) Calcule ainda a probabilidade, de na mesma poca considerada na alnea anterior, o Glorioso
marcar pelo menos 80 golos.
4 - Pretende-se estudar a incidncia de doena pulmonar, numa populao em que existem trs
vezes mais indivduos no fumadores do que fumadores. Sabe-se que a percentagem de doentes
entre os fumadores e os no fumadores respectivamente de 60% e 20%.
a) Determine a probabilidade de um indivduo ter doena pulmonar.
b) Determine a probabilidade de um doente pulmonar ser fumador.
c) Qual a probabilidade de numa amostra de 10 doentes, pelo menos 3 serem fumadores?
5. Na mercearia da D. Ana vendem-se mas vermelhas e amarelas. 70% dessas mas so
vermelhas. Como as mas no so tratadas quimicamente, 20% das mas amarelas esto
bichosas, enquanto que das vermelhas s 5% que tm bicho.
Introduo Probabilidade e Estatstica 247
Maria Eugnia Graa Martins DEIO- 2005
n m
( )( )
i k -i
P(X=i|X+Y=k) =
n +m
( )
k
13. Preservao da Poisson, perante uma seleco aleatria. Suponha que numa situao
adequadamente descrita pelo modelo de Poisson, nem todos os acontecimentos so
contabilizados, isto , cada acontecimento pode ser ou no contabilizado e a probabilidade de o
ser p. Ser que o nmero de acontecimentos contabilizados ainda segue um modelo de
Poisson? A questo anterior pode ser equacionada da seguinte maneira: Se X tem distribuio de
Poisson de parmetro e a distribuio condicional de Y dado X=n, Binomial de parmetros n e
p, ento Y tem distribuio de Poisson de parmetro p.
Demonstrao: P(Y=k) = P(Y = k | X = n)P(X = n)
n=k
n n
= ( )p k (1 p)n -k e
n= k k n! - p ( p)k
=e
( p)k
1 k!
= e- k!(n - k)![(1 p)]
n-k
k! n= k
Introduo Probabilidade e Estatstica 249
Maria Eugnia Graa Martins DEIO- 2005
Captulo 9
Distribuies de amostragem
9.1 - Introduo
Mas, do mesmo modo que duas amostras extradas da mesma populao, apresentam uma certa
variabilidade, tambm as estatsticas calculadas com amostras diferentes, apresentam
variabilidade.
Por exemplo, dada a populao X, constituda pelas alturas dos alunos inscritos na cadeira de
IPE, no ano lectivo de 98/99, se recolhermos uma amostra das alturas de 10 estudantes, a
estatstica mdia apresentar um certo valor, por exemplo, 1.64m. No entanto, se recolhermos
outra amostra, da mesma populao, natural esperar que a mdia para esta nova amostra seja
diferente daquele valor, embora no se afaste muito!
Populao X
x x x
x11, x21, ...,xk1 so os valores observados de uma v.a. com distribuio idntica de X,
mas que representamos por X1, para significar que foi o 1 elemento
x12, x22, ...,xk2 so os valores observados de uma v.a. com distribuio idntica de X,
independente de X1 (numa amostra aleatria, os valores no podem
depender uns dos outros), mas que representamos por X2, para significar
que corresponde ao 2 elemento recolhido;
x1n, x2n, ...,xkn so os valores observados de uma v.a. com distribuio idntica de X,
independente de X1, X2,... que representamos por Xn, para significar que
foi o ensimo elemento a ser recolhido.
Com esta notao, as amostras (x11, x12, x13,..., x1n ), ( x21, x22, x23,..., x2n ) ..., ( xk1, xk2, xk3,..., xkn )
so amostras observadas da amostra aleatria
Admitindo que a populao X, que estvamos a estudar, constituda pelas alturas (em cm) dos
alunos inscritos na cadeira de IPE, no ano lectivo de 89/90, era tal que XN(165,10), podemos
obter vrias amostras observadas, de dimenso 10:
(158, 163, 171, 150, 149, 167, 158, 172, 149, 150)
(167, 149, 168, 153, 162, 160, 170, 161, 160, 149)
(170, 160, 158, 168, 165, 159, 163, 159, 172, 150)
da amostra aleatria (X1, X2, , X10), em que todas as v.a. Xi, i=1,,10, so independentes e tm
X
i =1
i
X=
n
onde X1, X2, , Xn so variveis aleatrias independentes e com a mesma distribuio que uma
varivel aleatria X ( populao em estudo). Sendo a estatstica uma varivel aleatria tem uma
distribuio de probabilidades, a que damos o nome de distribuio de amostragem.
So as distribuies de amostragem das estatsticas que nos vo permitir fazer inferncias sobre
os parmetros populacionais correspondentes. Ao aleatoriezarmos o processo de seleco das
amostras, faz com que se possa utilizar a distribuio de amostragem de uma estatstica para
descrever o comportamento dessa estatstica, quando se utiliza para estimar um determinado
parmetro. Por outro lado, para podermos utilizar os resultados da Teoria das Probabilidades, o
processo de amostragem que se considera o de amostragem com reposio. Esta observao
relevante, sobretudo para populaes de dimenso pequena, em que a composio da populao,
relativamente caracterstica de interesse, se altera quando se retiram alguns elementos; esta
situao no se verifica com populaes de grande dimenso, que normalmente a situao de
interesse em Estatstica.
Dada uma populao X de valor mdio e desvio padro , ento, tendo em considerao as
propriedades do valor mdio e da varincia, pode-se mostrar facilmente que
252 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
2
E( X ) = e Var( X ) =
n
Obs: No esquecer que X uma combinao linear de variveis aleatrias independentes e com
a mesma distribuio.
Chamamos a ateno para o facto do valor mdio da v.a estimador X , coincidir com o parmetro
que estamos a estimar, o valor mdio, , da populao. Dizemos que o estimador centrado ou
no enviesado. Alm disso, a varincia do estimador decresce com a dimenso da amostra, o
que permite concluir que, medida que aumentamos a dimenso da amostra a variabilidade do
estimador, em torno do parmetro, diminui. Diz-se ento que o estimador consistente. Estas
propriedades de no enviesamento e de consistncia fazem com que a mdia seja um bom
estimador do valor mdio.
X -
Z= N(0,1)
/ n
(X i X)
2
i =1
S2 =
n 1
Introduo Probabilidade e Estatstica 253
Maria Eugnia Graa Martins DEIO- 2005
X
S t(n -1)
T=
o que significa que se conhece a distribuio exacta da varivel aleatria T, que a chamada
distribuio t-Student (t de Student), com (n-1) graus de liberdade e que se representa por t(n-1).
Este modelo tem uma funo densidade semelhante da Normal, mas com as caudas mais altas,
isto , no to concentrada. No entanto, medida que o nmero de graus de liberdade aumenta
(isto , medida que n aumenta), a t-Student confunde-se com a Normal. Do mesmo modo que a
Normal, tambm a distribuio t-Student se encontra tabelada.
O teorema limite central, d-nos uma justificao terica para a grande utilizao da distribuio
Normal, como modelo de fenmenos aleatrios. Quantidades tais como alturas e pesos de uma
populao relativamente homognea, podem ser consideradas como somas de um grande
nmero de causas genticas e efeitos devido ao meio ambiente, mais ou menos independentes
entre si, cada um contribuindo com uma pequena quantidade para a soma.
Uma questo que se pode pr a seguinte: quando queremos aplicar o teorema do limite central:
qual o valor de n, para que se possa considerar que temos uma boa aproximao para a
distribuio Normal?
Este valor de n, depende da distribuio subjacente amostra e ser tanto maior quanto mais
enviesada for a distribuio da populao (o termo enviesado aplica-se como contrrio a
simtrico). No entanto, de uma maneira geral a aproximao "rpida", como sugere o exemplo
que se segue.
Cinco equipas de futebol, resolveram organizar um torneio entre si. As equipas eram todas muito
equilibradas, de modo que a classificao final pelo 1, 2, ..., 5 lugares pode ser considerada
perfeitamente aleatria. O torneio correu to bem, que resolveram repeti-lo, continuando as
equipas equilibradas entre si.
Pretende-se estudar a distribuio da mdia dos pontos obtidos, nos dois torneios, por uma
qualquer das equipas, escolhida ao acaso. Considera-se que uma equipa que ficou em 1 lugar
tem 1 ponto, em 2 lugar 2 pontos, etc.
Seja X a v.a. que representa a pontuao obtida por uma equipa, escolhida ao acaso. Como as
equipas so equilibradas, a probabilidade de cada uma se classificar em qualquer dos lugares
igual a 1/5, pelo que a f.m.p. da v.a. X
X 1 2 3 4 5
pi .2 .2 .2 .2 .2 .2
1 2 3 4 5
Considerando os dois torneios, o espao dos resultados possveis constitudo por todos os pares
(i,j), com i,j=1, 2,..., 5, em que a pontuao i se refere ao 1 torneio, enquanto a pontuao j se
refere ao 2.
Em termos de variveis aleatrias podemos considerar duas v.a. X1 e X2, para identificar
respectivamente o 1 e o 2 elemento do par (i,j), sendo as v.a. Xi, i=1,2, independentes e
identicamente distribudas a X. Com esta notao
X1 + X2
X=
2
(X1, X2) (1,1) (1,2) (1,3) (1,4) (1,5) (2,5) (3,5) (4,5) (5,5)
(2,1) (2,2) (2,3) (2,3) (3,4) (4,4) (5,4)
(3,1) (3,2) (3,3) (4,3) (5,3)
(4,1) (4,2) (5,2)
(5,1)
Obs: Para calcular a probabilidade de X ser igual a 1, temos em considerao que dos 25 pares
possveis, s um dos pares que conduz a que a mdia seja igual a 1. Estamos assim a aplicar a
definio clssica de probabilidade!
Se em vez de considerarmos dois torneios, isto n=2, considerarmos trs torneios, portanto agora
n=3, teremos de considerar uma nova v.a. X3, independente das anteriores, mas com distribuio
idntica, a qual vai representar a pontuao obtida no 3 torneio.
Ento
X1 + X2 + X3
X=
3
O processo seguido para calcular a distribuio da mdia, agora com n=3, anlogo ao que foi
feito com n=2 ( embora um pouco mais trabalhoso, pois temos de considerar todas as
possibilidades para o terno (i,j,k) com i, j, k=1,,5), em nmero de 125, obtendo-se a f.m.p.:
Considerando finalmente o caso em que n=5, isto , em que se consideram 5 torneios, obtemos
para a distribuio de amostragem da v.a. X
X1 + X2 + + X5
X=
5
a seguinte f.m.p.:
X pi X pi
1 0 3.2 .1168
1.2 .0020 3.4 .1024
1.4 .0048 3.6 .0813
1.6 .0112 3.8 .0592
1.8 .0224 4 .0387
2 .0387 4.2 .0224
2.2 .0592 4.4 .0112
2.4 .0813 4.6 .0048
2.6 .1024 4.8 .0020
2.8 .1168 5 0
3 .1226
J vimos, quando do estudo da distribuio Binomial, que uma v.a. X com distribuio Binomial de
parmetros n e p, pode ser considerada a soma de n variveis aleatrias, independentes, cada
uma com distribuio Binomial de parmetros 1 e p (variveis aleatrias de Bernoulli). Ento,
invocando o Teorema do Limite Central, temos o seguinte resultado
X np
P( z ) (z)
np(1 p)
Regra prtica: Considera-se que se tem uma aproximao razovel da distribuio Binomial pela
Normal, quando np>10 e nq>10. Porqu?
Vimos quando estudmos o modelo Normal, que a probabilidade de uma v.a. Normal, com valor
mdio e desvio padro , assumir valores menores que -3 e maiores que +3,
desprezvel. Como o suporte da Binomial constitudo pelos inteiros entre 0 e n, inclusiv, vamos
exigir que -3 > 0 ou seja >3.
onde np>9-9p. Como 0p1, exigimos np>9. Para simplificar, exige-se np>10 e n(1-p)>10, para a
outra cauda, para fazer a aproximao desejada.
Introduo Probabilidade e Estatstica 259
Maria Eugnia Graa Martins DEIO- 2005
Exemplo 2 A polcia estima que 85% dos condutores usam cinto de segurana. Decidem fazer
uma operao stop para controlar a sua urilizao.
a) Quantos carros esperam fazer parar, at encontrarem um condutor sem cinto?
b) Qual a probabilidade de o primeiro condutor a prevaricar no que diz respeito utilizao
do cinto, seja o stimo que mandam parar?
c) Qual a probabilidade de que os primeiros 12 condutores que mandam parar utilizem todos
cinto?
d) Se na primeira hora mandarem parar 30 condutores, quantos condutores esperam
apanhar sem cinto?
e) Se mandarem parar 150 condutores durante a operao stop, qual a probabilidade de
encontrarem pelo menos 25 condutores sem cinto?
Ao estudarmos a distribuio de Poisson, vimos que uma v.a. X com distribuio de Poisson de
parmetro , pode ser considerada a soma de n variveis aleatrias, independentes, cada uma
com distribuio de Poisson de parmetro /n. Ento, invocando o Teorema do Limite Central,
temos o seguinte resultado
X
P( z ) (z)
Regra prtica: Considera-se que se tem uma aproximao razovel da distribuio de Poisson
pela Normal, quando >20.
Exemplo 3 - Durante um dia (de 10 horas), registou-se o nmero de doentes que chegam a um
servio de urgncia, por perodos sucessivos de 15 minutos. Representando por Y o n de doentes
que chegam em intervalos de 15 minutos, os resultados obtidos foram os seguintes:
Y 0 1 2 3 4 5 6 7
Freq. 5 11 11 7 4 1 0 1
a) Admitindo que o n de chegadas em cada unidade de tempo(perodo de 15 minutos), segue
uma distribuio de Poisson, obtenha um estimador para o parmetro da distribuio.
b) Determine um valor aproximado para a probabilidade de o nmero de doentes que chegam ao
fim de 3 horas, ser superior a 30.
Resoluo:
a)
0 5 + 1 11+ 2 11+ + 6 0 + 7 1
= = 2.05
5 + 11+ 11+ + 0 + 1
b) Seja X a v.a. que representa o n de doentes que chegam ao fim de 3 horas. Admitindo que
existe independncia entre as chegadas em perodos sucessivos, e atendendo a que em 3 horas
temos 12 perodos de 15 minutos, vem que
XP(12 2.05)
30 24.6
P(X>30)=1 - P(X30) 1 - ( ) 1 - .862 = .138
24.6
Exemplo 4 - A altura dos homens pertencentes classe etria [30,35], segue um modelo Normal
de valor mdio 165 cm e desvio padro 30 cm. Recolhida uma amostra de dimenso 50, daquela
populao, qual a distribuio da mdia das alturas? Essa distribuio exacta ou aproximada?
Calcule a probabilidade da mdia ser inferior a 160 cm.
Resoluo:
Seja X a v.a. que representa a altura dos homens pertencentes classe etria [30,35]
X N(165,30)
X1 + X 2 + + X 50
X= em que X N(165,30), i=1,2,...,50
50
160 165
P( X 160 ) = ( ) (-1.18) .12
30/ 50
Resoluo: Seja Y a v.a. que representa o nmero de avies que chegam ao aeroporto, num
perodo de 40 segundos. Ento esta v.a. pode ser bem modelada por uma distribuio de Poisson
YP(1)
Seja S a v.a. que representa o nmero de avies que chegam durante 1 hora (90 perodos de 40
segundos). Ento
S P(90)
74 90
a) P( S 75 ) = 1 - P( S 74) 1 - ( ) 1 - (-1.69) .9545
90
99 90
b) P( S < 100) = P( S 99) ( )
90
.8289
Suponhamos que temos uma populao constituda por indivduos que pertencem a uma de duas
categorias, que representamos por A e AC. Representemos por p a proporo (desconhecida) de
indivduos que pertencem categoria A. Um exemplo desta situao o que se passa quando se
considera a a populao de uma determinada cidade e a proporo p de eleitores dessa cidade
que esto dispostos a vota num determinado candidado a presidente da Cmara, nas prximas
eleies autrquicas.
Pretendemos fazer inferncia sobre o parmetro p, pelo que se recolhe da populao uma
amostra de dimenso n. Seja X a v.a. que representa o n de indivduos da amostra que
X
pertencem categoria A. Um estimador natural para o parmetro p, a frequncia relativa ,
n
. Do mesmo modo que a mdia
que representamos por p X uma varivel aleatria, tambm p
uma v.a. cujo valor depende amostra recolhida, por intermdio da v.a. X. Vejamos ento como
obter a sua distribuio de amostragem.
Amostra p Amostra p
Maria, Maria 0 Rita, Pedro 1/2
Maria, Ana 0 Rita, Tiago 1/2
Maria, Rita 0 Pedro, Maria 1/2
Maria, Pedro 1/2 Pedro, Ana 1/2
Maria, Tiago 1/2 Pedro, Rita 1/2
Introduo Probabilidade e Estatstica 263
Maria Eugnia Graa Martins DEIO- 2005
No exemplo anterior foi fcil de obter a distribuio de amostragem da proporo, pois a dimenso
da populao era pequena, o que no o caso na maior parte das aplicaes. Vejamos outro
exemplo.
Vamos imaginar todas as amostras possveis, de dimenso 1000, que poderiam ser recolhidas da
populao constituda pelos eleitores (no exemplo anterior a populao era de dimenso pequena,
pelo que foi possvel considerar todas as amostras possveis, de dimenso 2). Como ser o
aspecto do histograma construdo para as propores de eleitores que pensam votar Bush, em
todas as amostras possveis de dimenso 1000? Em vez de imaginar, vamos simular uma
quantidade razovel dessas amostras, considerando como probabilidade de sucesso o valor de
p=0.46. Simulmos no Excel 2000 amostras e calculmos a percentagem de sucessos em cada
264 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
uma dessas amostras. Obtivmos uma amostra de dimenso 2000 em que obtivmos para a
mdia o valor 0.46, para o desvio padro 0.016 e para a qual construmos o seguinte histograma:
(Observao: Os valores que aparecem no eixo dos xx, debaixo de alguns intervalos, so limites superiores desses
intervalos)
No caso da eleio presidencial, foi conhecido o valor da verdadeira proporo dos eleitores que
votaram Bush, que foi de 47.9%. No dia 27 de Outubro esta prpria proporo poderia ser
Introduo Probabilidade e Estatstica 265
Maria Eugnia Graa Martins DEIO- 2005
) = p e Var( p ) = p(1- p)
E( p
n
Repare-se que o valor mdio do estimador p coincide com o parmetro a estimar. Esta
particularidade j havia sido observada com o estimador do valor mdio, ou seja a mdia, pelo que
mais uma vez temos um estimador no enviesado. Alm de no enviesado, p tambm
consistente, como j havia sido observado com a mdia X . Repare-se que, medida que a
dimenso da amostra aumenta, a variabilifdade de p em torno de p, tende para 0. Mais uma vez
estamos a utilizar um bom estimador para estimar um parmetro desconhecido, neste caso a
proporo.
Vimos tambm ao estudar a v.a. Binomial X, que para n suficientemente grande a sua distribuio
pode ser aproximada pela distribuio Normal,
X np
P( z ) (z)
np(1 p)
de onde
X
p
P( n z ) (z)
p(1 p)
n
Ento a forma da distribuio de amostragem da proporo aproximadamente Normal, como
consequncia do Teorema Limite Central.
p p
P( z ) (z)
p(1 p)
n
266 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Como j dissemos neste texto todos os modelos so maus, alguns modelos so teis. Vem de
novo esta citao de Box, a propsito do seguinte: se a amostragem no tiver sido feita com
reposio, j o modelo Binomial utilizado para obter a distribuio de amostragem da proporo,
no deveria ser aplicado, uma vez que a probabilidade de sucesso se altera medida que
seleccionamos os elementos para a amostra, uma vez que a composio da populao se altera.
Assim, para que a probabilidade de sucesso se mantenha aproximadamente constante,
necessrio que a amostra seja suficientemente pequena, quando comparada com a populao.
Mas, por outro lado, para se poder aplicar a aproximao da distribuio Binomial pela Normal,
necessrio que a dimenso da amostra seja suficientemente grande. Chegamos assim a uma
contradio! De um modo geral esta contradio no causa problemas, pois a maior parte das
vezes a dimenso da populao mais do que 10 vezes superior dimenso da amostra. No que
diz respeito dimenso da amostra exigida, para podermos inferir para a populao, propriedades
verificadas na amostra, veremos mais frente que essa dimenso ter de ser tanto maior, quanto
mais prximo de 0.5 for o valor de p.
Exerccios
1. Pretende-se adicionar nmeros num computados. O computador ao receber os nmeros
arredonda-os segundo as regras habituais. Admitindo que os erros de arredondamento so
independentes de nmero para nmero e tm distribuio uniforme no intervalo [-.4, .6],
determine:
a) A probabilidade de que o erro total seja maior do que 7, se se adicionarem 75 nmeros (admita
que o erro da soma igual soma dos erros das parcelas).
b) Quantos nmeros podero ser adicionados de modo que o erro total seja menor do que 6, com
probabilidade .5478?
2. Trs espcies diferentes de determinada planta so difceis de distinguir uma semana aps a
germinao, altura em que devem ser transplantadas. Metade das plantas so de tipo A, 3/8 so
de tipo B e 1/8 so de tipo C. Uma semana depois da germinao, a altura (em cm) das plantas de
cada tipo segue uma distribuio Normal com os seguintes parmetros:
Valor mdio Varincia
Tipo A 6.2 1.00
Introduo Probabilidade e Estatstica 267
Maria Eugnia Graa Martins DEIO- 2005
Admitindo que o potssio se distribui normalmente nas bananas e nas cenouras, com desvio
padro respectivamente igual a 40 mg e 15 mg, determine a probabilidade de que a quantidade
mnima necessria seja excedida se comer 3 bananas e 1 cenoura. Se num dia s comesse
bananas, qual o nmero mnimo de bananas que teria de comer para que com uma probabilidade
de .95, excedesse a quantidade mxima de potssio necessria?
7 . Suponha que o tempo de estudo semanal dos alunos de determinado colgio tem uma
distribuio enviesada para a direita com valor mdio 9 horas e desvio padro 3 horas. Determine
a probabilidade de que em mdia o tempo gasto a estudar por 40 estudantes
a) esteja entre 8.5 e 9 horas
b) seja inferior a 8 horas
Introduo Probabilidade e Estatstica 269
Maria Eugnia Graa Martins DEIO- 2005
Captulo 10
Introduo estimao
Dada uma amostra, vimos que possvel fazer a sua reduo, atravs do clculo de certas
estatsticas. No entanto, a importncia destas caractersticas amostrais no se fica por aqui, pois o
nosso objectivo vai ser utiliz-las para inferir algo sobre a populao subjacente amostra. Foi
nesta perspectiva que falmos em utilizar:
Quer dizer que as estatsticas referidas permitem-nos obter determinados valores que servem
como estimativas dos parmetros (desconhecidos) ou caractersticas das distribuies
populacionais - a estes valores chamamos estimativas pontuais. Por vezes interessa-nos obter,
no um valor que estime o parmetro em causa, mas um intervalo que contenha, com
determinada probabilidade, esse parmetro - neste caso pretendemos uma estimativa intervalar
ou um intervalo de confiana.
Um estimador uma varivel aleatria, funo da amostra aleatria, que para valores observados
da amostra fornece estimativas pontuais ou estimativas intervalares do parmetro populacional
desconhecido. Ento, a v.a. X um estimador do valor mdio, assim como p = X um estimador
n
da probabilidade p. De um modo geral quando nos referimos ao estimador utilizamos letra
maiscula, enquanto que a estimativa se representa com letra minscula. Esta metodologia por
vezes no seguida, como por exemplo, no caso anteriormente considerado da proporo.
O facto de termos escolhido a mdia como estimador do valor mdio, no se deve unicamente
analogia existente, entre parmetros populacionais e parmetros amostrais. Existem alguns
critrios que definem partida, se um estimador "bom" ou "mau". Assim, o critrio mais utilizado
exige que o estimador seja no enviesado ou centrado, isto , que o seu valor mdio coincida com
o parmetro populacional a estimar, e de entre os que satisfazem esta condio deve ter varincia
mnima. Estas duas propriedades so, de certo modo intuitivas, pois ao considerar um estimador
270 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
esperamos que as estimativas que ele fornece coincidam, em mdia, com o parmetro a estimar,
e alm disso a variabilidade dessas estimativas, em torno do parmetro, deve ser pequena. Por
exemplo, no caso concreto de populaes simtricas, podem existir vrios estimadores centrados
para o valor mdio, nomeadamente a mdia e a mediana. No entanto, escolhe-se o que tem
varincia mnima, que a mdia.
(Xi X) 2 (Xi X) 2
S2 = ou S'2=
n1 n
Ao considerar estas duas estatsticas, costuma-se dizer que por razes que se prendem com a
inferncia estatstica, a estatstica mais utilizada S2. Neste momento j podemos dar a razo
(Xi X) 2 (Xi X) 2
que nos leva a escolher - o facto de este estimador, ao contrrio de , ser
n1 n
2 2
centrado, pois pode-se mostrar que E [S ]= com Xi , i=1,...,n variveis aleatrias
2 n 1 2
independentes e identicamente distribudas a X, enquanto que E [S ]= . Assim, quando a
n
2 n 1
dimenso da amostra suficientemente grande, S assintticamente centrado, pois 1,
n
J vimos no captulo 9 que se tivermos uma populao constituda por indivduos que pertencem a
uma de duas categorias, que representamos por A e Ac em que p a proporo (desconhecida)
. Vimos que p
de indivduos que pertencem categoria A, um estimador desta proporo p
um estimador centrado ou no enviesado e tem uma variabilidade que tende para 0, medida que
a dimenso da amostra recolhida aumenta. Podemos dizer que temos um bom estimador, pelo
menos relativamente ao critrio considerado anteriormente!
Ento, quando pretendemos fazer inferncia sobre p, recolhemos uma amostra de dimenso n e
. O valor obtido uma estimativa pontual de p. Se recolhermos vrias amostras da
calculamos p
mesma dimenso e calcularmos outras tantas estimativas para p, no temos possibilidade de
saber qual o erro associado com cada uma dessas estimativas, pelo que no temos possibilidade
de saber qual a que devemos utilizar. Por exemplo, se dois jornais distintos apresentarem, no
mesmo dia, as percentagens de 45% e 52% de pessoas que votaro Sim Constituio
Europeia, no sabemos qual a que nos merece mais confiana. Assim, por vezes prefervel
utilizar uma estimativa intervalar, ou seja um intervalo aleatrio que, como veremos a seguir, nos
d uma ideia do erro cometido, ao ser utilizado para estimar o parmetro.
| p p |
P( z ) = .95.
p(1 p)
n
| p p | | p p |
Se P( z ) = .95 ento z=1.96, ou seja P( 1.96 ) = .95.
p(1 p) p(1 p)
n n
p(1 p) p(1 p)
P( p -1.96 p p +1.96 ) = .95
n n
Exemplo 1 (Adaptado de De Veaux and al, 2004) Os corais esto em declnio, em todo o
mundo, possvelmente devido poluio ou mudana da temperatura da gua do mar. A morte
dos recifes de corais pode ser um aviso das mudanas climticas e poder ter um impacto
272 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
econmico ainda no calculado. Uma espcie muito bonita de coral, conhecida como Leque do
Mar, particularmente afectada pela poluio e pela doena aspergillosis. Em Junho de 2000,
uma equipa de investigadores recolheu uma amostra de corais desta espcie, a uma profundidade
de 40 ps, em Las Redes Reef, Akumal, Mxico. Verificaram que 54 dos 104 corais que
recolheram, estavam infectados com aquela doena. O que que se pode dizer sobre a
prevalncia desta doena, sobre aquele tipo de corais? Para j, temos uma proporo de corais
doentes de 51.9%, mas ningum nos garante que os investigadores obteriam a mesma proporo
se recolhessem outra amostra de 104 corais.O que que podemos dizer efectivamente sobre a
proporo p de corais infectados? Apresentamos a seguir uma lista de coisas que poderamos
dizer, ou que por vezes se dizem, e a razo pela qual no so correctas a maior parte delas:
1. 51.9% de todos os corais da espcie Leque do Mar, em Las Redes Ref, esto infectados
No temos informao suficiente para fazer esta afirmao. S poderamos fazer esta
afirmao se tivssemos investigado o que se passava com todos os corais. Assim, se
recolhessemos outra amostra, obteramos outra percentagem.
2. Provavelmente verdade que 51.9% de todos os corais da espcie Leque do Mar, em Las
Redes Ref, estejam infectados No podemos fazer esta afirmao. Podemos ter quase a
certeza de que, qualquer que seja a verdadeira proporo de corais infertados, ela no ser
exactamente igual a 51.900%.
Esta ltima afirmao est correcta, mas podemos quantificar o que que entendemos por
provavelmente. Podemos dizer que 95% das vezes que construirmos intervalos do tipo
considerado anteriormente, conseguimos cobrir o valor de p, pelo que podemos estar 95%
confiantes de que aquele intervalo seja um dos que contm p.
5. Temos uma confiana de 95% de que o intervalo entre 42.3% e 61.5% contenha a
percentagem de corais infectados, da espcie Leque do Mar, em Las Redes Reef. A este
intervalo chamamos um intervalo de confiana.
Introduo Probabilidade e Estatstica 273
Maria Eugnia Graa Martins DEIO- 2005
Confiana e preciso
Qual a dimenso da amostra necessria para obter um intervalo de 100(1-)% de confiana, cuja
amplitude no exceda d? Repare-se que a amplitude do intervalo nos d a preciso quanto
menor for a amplitude, maior ser a preciso. Efectivamente no estamos interessados em obter
um intervalo com uma grande amplitude, pois numa situao extrema dizemos que o intervalo [0,
1] contm a probabilidade p, que pretendemos estimar, com uma confiana de 100%!
Da forma do intervalo de confiana para p, verificamos que existem duas maneiras de diminuir a
p(1 p)
sua amplitude, que igual a 2 z1-/2 . Assim:
n
i) Ou diminumos a confiana, o que implica obter um valor mais pequeno para o quantil
z1-/2, ou
Ento vejamos como proceder adoptando a soluo preconizada em ii). Pretendemos que
p(1 p)
2 z1-/2 d
n
de onde
2z1 /2 2
n( ) p(1 p )
d
Se no tivermos uma estimativa de p, ento devemos considerar o valor mximo do 2 membro da
1
desigualdade anterior, que se obtm quando p= donde um limite superior para n ser
2
z 1 / 2 2
n ( )
d
Chamamos a ateno para que este valor de n, de um modo geral, peca por excesso, j que foi
obtido para a pior situao do valor do parmetro a estimar estar prximo de 0.5. Assim,
aconselhvel proceder a um estudo prvio, ou recolher informao eventualmente existente, para
ter uma ideia do valor do parmetro, se os custos com a recolha da amostra forem elevados.
Exemplo 2 - Numa cidade com 25000 habitantes considerou-se uma amostra de 1600 pessoas
para estimar a percentagem de eleitores que votavam num certo candidato. Dos 1600 inquiridos,
917 declararam ter a inteno de votar no dito candidato. Determine um intervalo de 95% de
confiana para a proporo de eleitores da cidade que pensam votar no candidato.
Resoluo: Uma estimativa de p p =917/1600= .57. O intervalo de confiana pretendido ser
.57 .43 .57 .43
[.57 - 1.96 , .57 + 1.96 ], ou seja [.55, .59], pelo que o intervalo tem amplitude .04.
1600 1600
Qual a dimenso da amostra necessria para reduzir a metade a amplitude anterior? Como
1.96 2
consideramos o mesmo nvel de significncia vem n 9604. Repare-se que neste caso j
.02 2
no esto satisfeitas as condies para podermos aplicar o modelo Binomial, pois a dimenso da
amostra muito grande, quando comparada com a dimenso da populao.
Ao interpretar o intervalo de confiana deve-se ter em ateno que o que aleatrio o intervalo
e no a percentagem p desconhecida - a variabilidade existe no processo de amostragem e no
no parmetro. Quando se recolhem vrias amostras, o valor de p diferente de amostra para
amostra, pelo que os limites do intervalo variam.
Ao calcular um intervalo com 95% de confiana (a partir de uma amostra entretanto recolhida),
no significa que a probabilidade do intervalo conter o parmetro .95, j que o intervalo contm
ou no contm o parmetro. Como deve ser interpretado o intervalo de confiana da seguinte
forma: ao recolher 100 amostras da mesma dimenso e ao calcular os intervalos correspondentes,
aproximadamente 95 destes intervalos contm o parmetro p, enquanto que 5 no o contm,
Introduo Probabilidade e Estatstica 275
Maria Eugnia Graa Martins DEIO- 2005
pi (1 pi )
com ai= . Na figura anterior representmos 3 intervalos, dos quais 2 contm p,
n
enquanto um terceiro no contm o valor de p. Chamamos a ateno para que quando calculamos
um intervalo de confiana para a proporo, nunca sabemos se ele contm ou no o verdadeiro
valor da proporo. Estamos confiantes que sim, j que em 95% das vezes que calculamos esses
intervalos, eles contm o valor de p. J seria muito azar, o nosso intervalo ser um dos 5% de
intervalos que no contm o valor de p!
Dada uma populao X, com valor mdio , desconhecido, e desvio padro , suponhamos que
se pretende estimar o parmetro . J vimos que um bom estimador para o valor mdio a mdia,
pelo que a maneira de proceder a seguinte: recolhe-se uma amostra de dimenso n da
populao a estudar, x1, x2,, xn, e calcula-se a mdia x =xi/n. Este valor considerado como
estimativa pontual de .
No entanto, se tivesse sido outra a amostra recolhida, nomeadamente x'1,x'2,,x'n, seria natural
que a estimativa obtida para atravs desta amostra, diferisse da inicialmente obtida. Qual a
confiana que devemos atribuir a uma ou a outra? Surge assim, intuitivamente, a necessidade de
um outro processo, que no s nos fornea o mtodo de estimar, mas permita simultaneamente
saber qual a confiana que devemos atribuir ao resultado obtido, tal como no caso da proporo.
|X |
P[ z] = .95 z=1.96
/ n
A probabilidade anterior pode-se escrever
Para considerar um exemplo concreto, admitamos por exemplo, que o peso dos indivduos do
sexo masculino, de 1.65 m de altura, tem distribuio normal com valor mdio 60 e desvio padro
276 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
4. Nas cidades de Lisboa, Porto, Coimbra, Braga e vora recolheram-se amostras de pesos de 10
indivduos escolhidos ao acaso (com 1.65 m de altura), tendo-se obtido os seguintes resultados:
Mdia
L 55.9 56.3 56.8 57.2 61.2 61.9 62.5 63.8 64.4 68.2 60.82
P 55.7 55.8 57.0 57.4 59.0 59.5 59.9 60.4 64.2 67.7 59.66
C 53.0 54.6 54.7 54.8 57.6 58.6 62.4 63.5 65.5 66.6 59.13
B 57.3 58.1 58.6 58.7 59.0 61.9 62.6 64.4 64.9 66.7 61.22
E 49.5 50.4 52.8 54.3 55.3 57.0 61.2 62.6 63.2 64.1 57.04
Qualquer uma das mdias obtidas pode ser considerada como estimativa pontual do valor mdio
60. Pensemos ainda na mediana amostral, como estimador de (nas distribuies simtricas o
valor mdio coincide com a mediana). As estimativas obtidas para as diferentes amostras seriam:
L 61.55
P 59.25
C 58.10
B 60.45
E 56.15
Dispondo os valores obtidos para as mdias e as medianas, num segmento de recta, verificamos
que a mediana apresenta maior variabilidade do que a mdia, em relao ao valor mdio (embora
uma amostra de dimenso 5 no seja significativa!).
Vejamos agora o que se passa com a estimao intervalar. Considerando o intervalo aleatrio
4 4
[ X - 1.96 , X + 1.96 ], com confiana de 95%, para as amostras consideradas
10 10
Dos intervalos obtidos, conclumos que 4 contm o valor mdio enquanto que um no o contm
(assinalado com ***).
Introduo Probabilidade e Estatstica 277
Maria Eugnia Graa Martins DEIO- 2005
Uma questo que se levanta neste momento a seguinte: o que acontece se exigirmos um
intervalo de confiana com uma probabilidade de 99% em vez de 95%? Facilmente se conclui, que
quanto maior for o nvel de confiana exigido, maior ser a amplitude do intervalo obtido. Para um
nvel de confiana de 99% o intervalo de confiana ser [ X -2.58 / n , X + 2.58 / n ] e na
realidade a amplitude pode ser to grande que deixe de ter significado o clculo do intervalo. No
limite temos um intervalo de amplitude infinita, mais precisamente R, com uma confiana de 100%!
De um modo geral, dada uma populao N(,), um intervalo de confiana para o valor mdio,
com um nvel de confiana de 100(1-)%, obtm-se considerando
X
P[ -z1-/2 z1-/2 ] = 1-
/ n
onde representamos por z1-/2 o quantil de probabilidade 1-/2, da normal (0,1).
[ X - z 1-/2 / n , X + z 1-/2 / n ]
para uma confiana de 100(1-)%, e qualquer que seja a dimenso da amostra considerada.
Admitamos agora, que a distribuio da populao de que se pretende estimar o valor mdio j
no normal. Neste caso, as concluses anteriormente obtidas continuam a ser vlidas, mas
exige-se que a dimenso da amostra seja suficientemente grande (n>30), para ser possvel
aplicar o teorema do limite central - os resultados agora no sero exactos, mas sim aproximados.
Resumindo
Dada uma populao N(,) e uma amostra de dimenso qualquer, ou uma amostra de dimenso
suficientemente grande (n>30), no caso de a populao j no ser normal, conhecido, um
intervalo de confiana para o valor mdio, com um nvel de confiana de 100(1-) %, tem a
forma
[ X - z 1-/2 / n , X + z 1-/2 / n ]
Suponhamos ainda que a populao X tem distribuio normal de valor mdio desconhecido e
desvio padro conhecido, ou que a dimenso da amostra suficientemente grande. Pretende-se
determinar para o valor mdio, um intervalo de confiana com um nvel de confiana de 100(1-)%
e cuja amplitude no exceda d. Qual a dimenso exigida para a amostra? Tendo em conta a forma
para o intervalo de confiana, conclumos ainda, que um processo para diminuir a amplitude do
intervalo de confiana, ser aumentar a dimenso da amostra e essa dimenso ter de ser tal que:
278 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
2 z1-/2 / n d
ou n ( 2 z1-/2 /d)2
Repare-se que da expresso anterior podemos concluir, para j, que a dimenso da amostra que
deve ser recolhida, depende da variabilidade existente na populao.
Em todas as concluses obtidas at aqui, no que respeita estimao do valor mdio, admitimos
que o parmetro era conhecido. No entanto na situao mais vulgar, tanto como so
desconhecidos. Para resolver o problema, vamos distinguir dois casos:
[ X - z1-/2 S/ n , X + z1-/2 S/ n ]
onde representamos por z1-/2 o quantil de probabilidade 1-/2, da normal (0,1), pois para n
grande, n (X) /S continua a ter distribuio aproximadamente normal.
b) Se a dimenso da amostra for pequena, mas a populao tem distribuio normal, ento
n (X) /S j no tem distribuio normal, mas sim a chamada distribuio t de Student com
(n-1) graus de liberdade, como j vimos no captulo 9, no estudo da distribuio de amostragem da
mdia. Nestas condies o intervalo de confiana para a mdia, para um nvel de confiana de
100(1-)%
[ X - t1-/2(n-1) S/ n , X + t1-/2(n-1) S/ n ]
onde representamos por t1-/2(n-1) o quantil de probabilidade 1-/2, da distribuio t de Student,
com n-1 graus de liberdade. Esta distribuio, assim como a normal, encontra-se tabelada.
Convm ainda observar que a distribuio t-Student se aproxima da distribuio normal reduzida,
medida que o nmero de graus de liberdade aumenta. Assim, tem toda a propriedade utilizar a
aproximao feita em a), para grandes amostras.
Observao Para usar o modelo de Student, necessrio que a populao seja Normal. Na
prtica, suficiente que os dados sejam provenientes de uma populao unimodal e simtrica, se
a dimenso da amostra for superior a 15 (De Veaux and al, 2004).
Qual a dimenso da amostra necessria para que o intervalo de confiana tenha alguma
utilidade?
J anteriormente definimos margem de erro (ME), como sendo metade da amplitude do intervalo
de confiana e dissemos que quanto menor for a margem de erro, maior ser a preciso, mas
menor ser a confiana, para uma mesma dimenso da amostra. Qualquer intervalo de confiana
Introduo Probabilidade e Estatstica 279
Maria Eugnia Graa Martins DEIO- 2005
uma soluo de compromisso entre confiana e preciso. Ento o que se faz fixar a confiana
em determinados valores, tais como 90%, 95% ou 99% e recolher uma amostra de dimenso tal
que mantenha a margem de erro dentro de certo limite. Considerando ento determinados valores
para a margem de erro e para a confiana, vejamos qual a dimenso da amostra necessria:
ME = t1-/2(n-1) s/ n
de onde
n= (t1-/2(n-1) s/ME)2
Na expresso anterior podemos fixar um determinado valor para a margem de erro ME, mas
estamos perante algumas situaes problemticas. No conhecemos s, antes de termos recolhido
a amostra e precisamente queramos conhecer n para recolher a amostra! Normalmente o que se
faz nestes casos fazer um estudo piloto que nos d uma ideia do valor de s. Alis esta situao
idntica que j nos deparmos quando do estudo do intervalo de confiana para a proporo
)
ou probabilidade p, em que era necessrio conhecer a estimativa de p, p . E no que diz respeito
ao valor de t1-/2(n-1)? Novamente precisamos de conhecer n para calcular o valor do quantil de
probabilidade (1-) de uma t-Student com (n-1) graus de liberdade! Neste caso o que se pode
fazer substituir o quantil da t-Student pelo quantil z1-/2 da N(0,1) e ver qual o valor que vem
para n. Se este valor for suficientemente grande, podemos utiliz-lo como dimenso da amostra a
recolher, j que os quantis da t-Student e da Normal(0,1) so idnticos. Caso contrrio, utilizamo-
lo para obter o quantil da t-Student e posteriormente recalcular o valor (de n) a partir da frmula
respectiva.
Exemplo 3 - Uma mquina est afinada para produzir peas de um certo comprimento. Todavia,
observa-se uma certa variao de comprimento de uma pea para outra, podendo tal comprimento
ser considerado uma varivel aleatria normal.
a) Suponha que foi extrada uma amostra de 16 peas, tendo sido medido o comprimento de cada
uma. Os resultados obtidos foram os seguintes:
x 2 2
xi = 80 cm i = 535 cm
Determine um intervalo de 95% de confiana para o valor mdio do comprimento das peas.
b) Admita que o verdadeiro valor da varincia igual estimativa obtida naquela amostra.
Determine novo intervalo de confiana, com esta informao adicional. Que concluses tira?
c) Repita a alnea b) admitindo que a amostra recolhida tinha dimenso 25.
Resoluo:
80 2 535 16 25
n=16 x= =5 s= - =9
16 15 15
t.975(15) = 2.131
3 3
a) Intervalo de confiana [5 - 2.131 , 5 + 2.131 ] = [3.40, 6.60]
4 4
280 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
3 3
b) Intervalo de confiana [5 - 1.96 , 5 + 1.96 ] = [3.53,6.47]
4 4
O intervalo de confiana agora calculado tem uma amplitude inferior do calculado na alnea a), o
que seria de esperar pois dispomos de mais informao.
3 3
c) Intervalo de confiana [5 - 1.96 , 5 + 1.96 ] = [ 3.82, 6.18]
5 5
A amplitude do intervalo inferior do intervalo calculado na alnea b) pois considermos ainda
mais informao ao dispormos de uma amostra de maior dimenso.
Exemplo 4 Numa rua que passa frente de uma escola, chamada Rua Nova, existe uma
passadeira para os pees e um sinal a limitar a velocidade a 50 km por hora. No entanto, a maior
parte das vezes, os carros nem sequer abrandam! A polcia, frequentemente, coloca um radar
para controlar a velocidade e motivar ao cumprimento daquela regra de trnsito. Os pais das
crianas que no acreditam que esta medida seja suficiente e pretendem que seja colocado um
semforo, que passa a encarnado com velocidade superior aos 50 Km/h. Para poderem ter
argumentos perante as instncias camarrias, resolvem fazer um controlo de velocidades e num
certo dia til, pensam recolher as velocidades mdias de alguns dos carros que passarem.
Quantos carros devem observar, para obterem um intervalo de confiana de 95%, cuja margem de
erro no ultrapasse 2 Km?
Resoluo:
Para determinar a dimenso da amostra a recolher, necessrio ter uma ideia de como que se
distribuem as velocidades, nomeadamente se a distribuio dos dados unimodal e simtrica.
Alm disso necessrio ter um valor aproximado para a variabilidade. Suponhamos ento que se
recolheu uma amostra piloto, para recolher a informao necessria:
50 48 57 57 43 50 48 63 52 42 57 53
52 45 62 48 43 40 57 60 52 57 60 35
O histograma que fizmos dos dados mostra que a distibuio unimodal e aproximadamente
simtrica. No temos razes que nos levem a duvidar da independncia dos dados (estamos a
admitir que a recolha dos dados no se fez em hora de ponta...).
Facilmente se verifica que a margem de erro do intervalo de 95% de confiana, construdo com os
dados recolhidos para a amostra piloto, de 3 Km.
t1-a/2(n-1), faa: Insert Function TINV e em Probability escreva o valor de e em Deg_freedom escreva o
nmero de graus de liberbade, ou seja o valor de (n-1).
Ex: O valor de t.975 (51), obtm-se escrevendo em Probability 0,05 e em Deg_freedom, 51.
Nota: Repare-se na falta de coerncia no modo como se obtm os quantis dos dois modelos, para o mesmo valor da
probabilidade. Assim, ao utilizar uma funo do Excel, recomenda-se uma leitura atenta das indicaes para a utilizao da
referida funo, nomeadamente no que diz respeito ao dignificado dos seus parmetros.
Exerccios
1. Uma fbrica produz peas, havendo uma certa percentagem de defeituosas. O departamento
de controlo de qualidade recolheu uma amostra de 30 peas, encontrando 4 defeituosas.
Determine um intervalo de 95% de confiana para a percentagem de peas defeituosas
produzidas pela dita mquina.
Qual a dimenso da amostra necessria para obter um intervalo com 95% de confiana, cuja
amplitude no exceda .1?
2. Perguntou-se a cada um dos 80 estudantes de um determinado curso, qual o seu grau de
satisfao relativamente ao curso que frequenta. Obtiveram-se os seguintes resultados:
NS MB B S NS NS SP SP
NS B NS NS SP B B MB
SP NS NS MB SP B NS B
SP S SP SP NS NS SP S
MB S B MB NS S S S
SP S B NS S S SP B
B B MB NS B S NS NS
B S MB S MB NS MB SP
S S NS B MB NS MB NS
B MB SP MB S SP SP MB
a) Faa uma representao grfica adequada para os dados e indique uma caracterstica
amostral.
b) Admitindo que as opinies destes estudantes so representativas das opinies dos estudantes
dos outros cursos, construa um intervalo de 95% de confiana para a probabilidade de um
estudante, escolhido ao acaso, ter uma opinio positiva (Satisfaz, Bom ou Muito Bom) sobre o
curso em que est inscrito.
3 . Um inqurito realizado a 100 potenciais compradores de um carro novo para o prximo ano,
revelou que esto dispostos a pagar em mdia 14750 euros, com um desvio padro de 4250
euros.
a) Calcule um intervalo de 95% de confiana para a quantia mdia que os compradores esto
dispostos a pagar.
b) Foi posto venda um novo tipo de carro, ao preo de 22500 euros. Ser que este valor excede
significativamente o que os compradores pretendem gastar em mdia?
4. Ao Instituto para a defesa do consumidor tm sido apresentadas queixas, dizendo que as
embalagens de determinado produto congelado tm menos peso do que o indicado nas
embalagens. Uma recolha preliminar de 40 destas embalagens indicou um peso mdio de 975
gramas, com um desvio padro de 85 gramas. Quantas embalagens devem ser examinadas, de
forma a obter uma estimativa do peso mdio com erro inferior a 25 gramas, com uma confiana de
95%?
5. Os seguintes dados representam o tempo de reaco (em segundos), de 42 indivduos, a um
estmulo luminoso :
13.8 19.1 20.4 21.8 22.3 24.0 24.6 25.2 26.1 26.5 26.6 28.7
28.8 30.2 31.2 31.7 31.7 33.6 34.6 34.8 35.4 36.0 36.3 36.8
37.1 38.1 40.3 40.4 41.8 42.2 42.4 43.7 43.8 44.0 44.4 44.6
46.5 48.1 49.9 50.0 50.2 56.4
c) Admitindo a normalidade dos dados, construa um intervalo de 95% de confiana para o valor
mdio dos tempos de CPU gastos pelo programa.
7 . Recolheu-se uma amostra de 40 alunos a frequentarem o tronco comum de Matemtica Aplicada
no ano lectivo de 98/99, tendo-se verificado que 10 destes alunos frequentam o curso em 1 opo.
a) Com base nos resultados determine um intervalo de 95% de confiana para a verdadeira
percentagem de estudantes do 1 ano que efectivamente escolheram o curso em 1 opo.
b) Se pretendesse reduzir a metade a amplitude do intervalo obtido anteriormente, com uma
amostra da mesma dimenso, qual o maior nvel de confiana com que devia trabalhar?
c) Se recolhesse 200 amostras de dimenso 40, a partir das quais construsse outros tantos
intervalos de confiana, quantos destes intervalos esperaria que contivessem o verdadeiro valor
da percentagem de estudantes que frequentam o curso em 1 opo?
8. Verifique que o intervalo de 90% de confiana para os dados do exemplo 4 [47.9km; 54.1km].
Explique, porque que no correcto dizer o seguinte (Adaptado de De Veaux and al, 2004):
a) 90% de todos os veculos que passam na Rua Nova, vo a uma velocidade entre 47.9km e
54.1km. (Res: O intervalo de confiana diz respeito velocidade mdia dos veculos e no
velocidade de cada um dos veculos).
b) Temos uma confiana de 90% de que um veculo seleccionado aleatoriamente, v a uma
velocidade entre 47.9km e 54.1km. (Res: Como no caso anterior, estamos a referir-nos a um
nico veculo, quando, na verdade, estamos 90% confiantes que o intervalo [47.9km; 54.1km]
contenha a velocidade mdia de todos os veculos que passam na Rua Nova).
c) A velocidade mdia dos veculos, 51km, 90% do tempo. (Res: esta afirmao d a ideia que a
verdadeira velocidade mdia varia, quando o que varia o intervalo, que ser diferente, sempre
que recolhermos uma amostra diferente).
d) 90% de todas as amostras tm velocidades mdias entre 47.9km e 54.1km. (Res: Esta afirmao
d a ideia de que este intervalo goza de algum privilgio, relativamente a outros. De facto, este
intervalo to bom ou to mau, como qualquer dos outos. O que deveremos dizer que 90% de
todas as possveis amostras permitem construir intervalos que contm a velocidade mdia.
Nunca saberemos se o nosso intervalo um dos que contm ou no).
284 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Introduo Probabilidade e Estatstica 285
Maria Eugnia Graa Martins DEIO- 2005
Captulo 11
11.1 - Introduo
O objectivo dos testes de hipteses, determinar se uma dada conjectura ou hiptese que
fazemos acerca de uma populao, plausvel, isto , tem razo de ser. Precisamente esta
plausibilidade calculada com base na informao obtida a partir de uma amostra da populao.
Exemplo 1 (Teaching Statistics, vol 15, n1, 1993) - Um professor chega um dia aula e resolve
pr a seguinte questo: - H aqui algum aluno que consiga distinguir, pelo sabor, a Coca-Cola da
Pepsi-Cola?
Um estudante diz que sim, que consegue distinguir, embora o professor pense que ele
efectivamente no o consegue, e se acertar, por acaso. Depois de alguma discusso em que o
aluno afirma que consegue distinguir e o professor diz que ele est a fazer "bluf", resolvem fazer
uma aposta, em que apostam uma certa quantia.
Qual o critrio justo, que se deve considerar, para admitir que o estudante tem razo? Ou antes,
qual o critrio justo, que se deve considerar, para que as duas pessoas que apostaram no
estejam a correr um risco demasiado grande?
Idealmente, gostaramos que o risco que correm os dois apostadores fossem aproximadamente
iguais, isto , as probabilidades consideradas em 3. deveriam ser aproximadamente iguais.
Com o objectivo de estabelecer um critrio, o voluntrio sugere que pelo menos 10 respostas
certas significam que tem razo.
= P(n respostas certas em 15 ser 10, sabendo que a probabilidade de sucesso .7) =
15 15
= ( 1 ).7 .3 i 15 i
= .722
i =10
de onde
P(n respostas certas em 15 ser 10, sabendo que a probabilidade de sucesso .5) =
15 15
= ( 1 ).5 .5 i 15 i
= .151
i =10
Obs: Se o n de respostas correctas necessrias fosse k (>10), ento o risco que o estudante
corria seria
P(n de respostas certas < k) > P(n de respostas certas < 10)(= .278)
Obs: Se o n de respostas correctas necessrias fosse k>10, ento o risco que o professor corria
seria
Por exemplo, se o n de provas for 20 e o critrio para ganhar for de 12 respostas correctas pelo
menos, recalculando as probabilidades de cometer os dois tipos de erros, ou sejam, de correr os
dois tipos de risco so .113 e .252, respectivamente, para o estudante e o professor.
Se o professor for um "bom desportista" este critrio razovel, se a quantidade de dinheiro posta
em jogo no for grande.
Este exemplo servir para introduzir os conceitos formais de testes de hipteses, erros de tipo 1 e
tipo 2 e as notaes associadas com os procedimentos estatsticos. No entanto vamos antes
disso, dar outros exemplos de aplicao de testes de hipteses.
Exemplo 2 - Numa fbrica de determinadas peas, um lote destas peas considerado aceitvel
se tem menos de 8% de peas defeituosas. J que os lotes tm um grande nmero de peas,
sairia muito caro inspeccionar todas essas peas. A deciso a favor de no rejeitar o lote ser
tomada no caso de uma amostra a retirar do lote, dar indicao nesse sentido.
Exemplo 3 - Supe-se que os estudantes so a favor da avaliao contnua, isto , mais de 50%
dos estudantes preferem a avaliao contnua. Para verificar se existem indcios de que esta
hiptese no seja verdadeira, recolhe-se uma amostra de estudantes, registando-se o n de
respostas a favor.
Exemplo 4 - Um fabricante afirma na garantia que acompanha as lmpadas que fabrica, que o
tempo mdio de vida superior a 450 horas. Ultimamente alguns clientes tm-se queixado das
288 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
referidas lmpadas. Para testar se os clientes tm razo, recolheu-se uma amostra de algumas
lmpadas, registando-se o tempo de vida ( utilizando os chamados testes de vida acelerados, que
provocam a falha mais rapidamente).
No caso 3, temos as hipteses p.5 e p<.5. O que se pretende testar se h alguma razo para
rejeitar p.5.
Estas hipteses podem-se exprimir em termos da probabilidade de o estudante dar uma resposta
correcta
Decidir que o estudante no consegue distinguir, quando efectivamente ele consegue, isto ,
Rejeitar H0, quando H0 verdadeiro;
Ao primeiro erro chamamos erro de tipo 1 e ao segundo, erro de tipo 2. Estes erros so
contabilizados em termos de probabilidade.
P(Rejeitar H0 | H0 verdadeiro)
O risco que o estudante corre , enquanto que o risco que o professor corre .
Rejeitar H0 se X<10
Suponhamos que pretendamos realizar o teste para o nvel de significncia de 10%. Os valores
possveis para X v.a. que representa o n de respostas correctas, so todos os inteiros entre 0
e 15. Destes, pretendemos saber quais os que levam a rejeitar H0, de modo que o que
pretendemos saber qual o valor de c, tal que
Obs: Atendendo s hipteses consideradas somos levados a rejeitar a hiptese nula quando o n
de respostas correctas do estudante for pequeno (X c).
P(X 8) = .1311
P(X 7) = .0500
Ento rejeitamos H0 quando o n de respostas correctas for 7. Mas para esta regio de rejeio
a probabilidade de cometer o erro de tipo 2
Suponhamos que temos uma populao constituda por indivduos que pertencem a uma de duas
categorias, que representamos por A e AC. Representemos por p a proporo (desconhecida) de
indivduos que pertencem categoria A. Pretendemos fazer inferncia sobre o parmetro p, pelo
que se recolhe da populao uma amostra de dimenso n. A estatstica de teste que vamos
utilizar, para tomar uma deciso, X - v.a. que representa o n de indivduos da amostra que
pertencem categoria A. Na formalizao dos testes representamos por p0 o valor da proporo,
que se pretende testar.
1.
"muitos", um nmero de indivduos volta de np, que superior aos que esperaramos encontrar
caso fosse H0 verdadeiro, ou seja np0).
P[ X x| X B(n, p0)]
Obs: A hiptese nula pode-se exprimir na forma pp0 , j que se obtm um teste equivalente.
2.
0 x' n
A determinao do ponto crtico x' deve fazer-se tendo em ateno o nvel de significncia , ou
seja, vamos calcular o maior inteiro x' tal que
Obs: A hiptese nula pode-se exprimir na forma pp0 , j que se obtm um teste equivalente.
3.
R R
0 x' x n
A determinao dos pontos crticos x' e x deve fazer-se tendo em ateno o nvel de
significncia . Alm disso vamos considerar o chamado teste equilibrado, isto , atribuir a cada
uma das partes da regio de rejeio, uma probabilidade igual a metade do nvel de significncia:
e
P[ X x| X B(n, p0)] /2
x' n n
n
R = { x x' ou x x | [ ( i )p (1 p
i
0 0 ) n i
] /2 e [ ( )pi0 (1 p0 ) n i ]/2}
i = x i
i=0
Dos trs tipos de testes considerados anteriormente, os dois primeiros dizem-se unilaterais,
enquanto que o ltimo se chama bilateral.
Exemplo 5 - Uma fbrica produz determinado tipo de peas, e sabe-se que a percentagem de
defeituosas de 20%. O director da linha de montagem procedeu a algumas alteraes no
equipamento, com o objectivo de melhorar a produo, diminuindo nomeadamente a percentagem
de peas defeituosas.
Tendo-se recolhido uma amostra de 20 peas, verificou-se que 2 eram defeituosas. Ser que h
evidncia de mudana na percentagem de peas defeituosas?
Resoluo:
H0: p .20 contra H1:p < .20
A determinao dos pontos crticos x' e x dos testes anteriores, pode fazer-se consultando as
tabelas com a distribuio Binomial. Pode no entanto acontecer que o valor de n seja demasiado
grande, e j no conste nessas tabelas. Ento faz-se uma aproximao Normal, como se
descreve a seguir.
Tendo em considerao o teorema do limite central, sabe-se que a distribuio Binomial pode ser
aproximada pela distribuio Normal, isto , se X B(n,p), ento
x np
P(X x) ( )
np(1 p)
cuja distribuio pode ser aproximada por uma Normal(0,1) e a determinao dos pontos crticos,
para os trs tipos de testes considerados anteriormente, faz-se da seguinte forma:
x 1+np0+z1- np 0 (1 p 0 )
(x' maior inteiro e x menor inteiro satisfazendo respectivamente cada uma das desigualdades
anteriores).
11.4.2 - P-value
Esta probabilidade P o menor valor para o nvel de significncia que levaria rejeio da
hiptese nula, para a amostra recolhida. A P chamamos P-value. Assim, para tomarmos uma
deciso, calcula-se o P-value e para um dado nvel de significncia , rejeita-se a hiptese nula se
A metodologia seguida neste caso diferente da seguida anteriormente, em que para tomarmos
uma deciso era necessrio especificar partida o nvel de significncia com que pretendamos
realizar o teste, de forma a calcular a regio de rejeio. Se o valor observado da estatstica de
teste pertencesse a essa regio ento rejeitaramos a hiptese nula. Agora calculamos o P-value e
no necessrio calcular explicitamente a regio de rejeio, pois se para um determinado nvel
de significncia se verifica que P, isto significa necessariamente que o valor observado da
estatstica de teste pertence regio de rejeio.
Ao longo deste texto j temos referido vrias vezes que objectivo da Estatstica arranjar modelos
probabilsticos que sirvam para modelar situaes do mundo real. Ao formular uma hiptese
(hiptese nula), como as que formulmos anteriormente, no estamos mais que a propor um
modelo para uma situao real. Uma vez o modelo proposto, vamos recolher informao - os
dados, para averiguar da consistncia do modelo. Ento, defrontamo-nos com duas situaes:
ou os dados so consistentes com o modelo, e nesse caso no vemos razo para o
rejeitar,
ou os dados contradizem fortemente o modelo, e neste caso pensamos que h evidncia
para o rejeitar.
Repare-se que na primeira situao, no dissemos que os dados mostravam que a hiptese
verdadeira! S dissmos que no vamos razo para a rejeitar. Esta situao anloga que se
passa nos tribunais tem que se comear por admitir a presuno de inocncia e cabe ao juiz,
mostrar que os factos contradizem esta presuno, para admitir a culpabilidade. Na segunda
situao, dissmos que pensamos que h evidncia para rejeitar o modelo. Mas fica-nos sempre a
dvida se deveremos tomar essa opo, j que rejeitar o modelo proposto, se ele fosse
efectivamente verdadeiro, pode acarretar grandes prejuzos. Ento precisamos de quantificar essa
deciso e essa quantificao feita probabilisticamente. Assim, calculamos a probabilidade de
obter dados como os recolhidos, baseando-nos em que o modelo verdadeiro. Se esta
probabilidade for muito pequena, pensamos que no foi s o acaso, isto a aleatoriedade
Introduo Probabilidade e Estatstica 295
Maria Eugnia Graa Martins DEIO- 2005
presente na recolha da informao, que nos levou a obter aqueles dados, mas naturalmente o
modelo que no o correcto, pois essa probabilidade demasiado pequena, para ser verdade, e
rejeitamos esse modelo. Esta tal probabilidade p-value, d-nos uma medida do erro que
cometemos ao rejeitar o modelo proposto, e quanto menor for, maior ser a evidncia contra o
modelo.
Assim, quando no rejeitamos a hiptese nula, ficamos sempre na dvida, sobre se ter sido o
teste que no teve capacidade para a rejeitar, mesmo sendo ela falsa. Justifica-se, assim, que se
procure calcular a probabilidade de se rejeitar a hiptese nula, quando ela falsa, isto ,
P(RejeitarH0H1verdadeira). A esta probabilidade chama-se potncia do teste. Repare-se que
para um determinado valor do parmetro especificado na hiptese alternativa:
Ento, de um modo geral, podemos dizer que pretendemos um teste com nvel de significncia
pequeno e potncia grande.
Para visualizar melhor a relao entre estes conceitos, vamos colocar-nos na situao de
estarmos a realizar o seguinte teste:
Se n for grande, a distribuio da estatstica de teste aproximada pela Normal, pelo que temos:
296 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Formular uma hiptese nula H0, que aquela que reflecte a situao em que no h
mudana e em que assumimos um valor para o parmetro no modelo proposto, e uma
hiptese alternativa H1, que reflecte a situao que pensamos ser verdadeira, no caso de
no o ser a hiptese nula;
Arranjar uma estatstica de teste, que sirva para medir a discrepncia entre o que se
observa nos dados e o que se espera quando se considera a hiptese nula (isto , uma
estatstica cuja distribuio de amostragem seja conhecida no caso da hiptese nula ser
verdadeira, pois a discrepncia medida em termos de probabilidade);
Da mesma forma que realizmos testes de hipteses sobre o parmetro p, tambm se podem
realizar sobre o valor mdio , desconhecido, de uma populao. A metodologia a seguir a
mesma, mas agora temos de considerar outra estatstica de teste, sendo natural considerar a
mdia ou uma funo da mdia para fazer inferncia estatstica sobre o valor mdio.
Consideremos, por exemplo, um industrial de componentes electrnicas, que afirma que o tempo
mdio de vida das componentes que fabrica de 560 horas. Um cliente acha este tempo
exagerado, pois tem tido mau resultado com este tipo de material. Ento o industrial est
interessado em testar que o valor mdio da distribuio do tempo de vida das componentes igual
a 560 horas, ou seja de que tem razo. Temos assim uma conjectura ou hiptese sobre a
populao e que em testes de hipteses se refere como Hiptese nula e se representa por H0. No
entanto a hiptese anterior vai ser testada contra uma Hiptese alternativa que se representa por
H1, que reflicta a situao que ser verdadeira, no caso de no o ser a hiptese nula.
Concretamente, no exemplo anteriormente considerado temos as seguintes hipteses a serem
testadas (representando por o valor mdio da populao):
Escolhemos a hiptese alternativa anterior, pois ela reflecte a situao real, no caso de no se
provar que H0 verdadeira(estamos a pensar nas queixas dos clientes).
Vamos exemplificar a realizao de um teste de hipteses sobre o valor mdio atravs do exemplo
dos pesos, referido quando abordmos o problema da estimao.
Suponhamos que estamos interessados em realizar um teste sobre o peso mdio da populao,
constituda pelos indivduos de 1.65 m de altura, tendo sido levantadas algumas dvidas sobre se
o peso seria de 60 kg. Ento
H0 : = 60 kg contra H1 : 60 kg
Formulamos a hiptese alternativa deste modo j que partida no tnhamos qualquer informao
que nos levasse a considerar quer um valor mdio superior, quer um valor mdio inferior a 60 kg.
P[|T0|> z1-/2] =
298 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
R = ]- , -z1-/2[ ] z1-/2 , +[
pelo que se rejeita a hiptese H0, sempre que t0 R, sendo t0 o valor observado da estatstica de
teste. Considerando, no exemplo, a amostra correspondente cidade de Lisboa, temos:
pelo que trabalhando com um nvel de significncia de 5%, se tem a seguinte regio de rejeio:
R = ]- , -1.96[ ] 1.96 , +[
Como .65 no pertence regio de rejeio, no vemos razo para rejeitar a hiptese nula.
Ainda no exemplo que temos vindo a considerar, suponhamos que tnhamos comeado por
recolher a amostra referente cidade de vora. Mediante o resultado obtido, uma pessoa mais
cptica teria razes para suspeitar que o peso mdio seria inferior a 60 kg. Nestas circunstncias
deveramos proceder ao seguinte teste:
Agora a hiptese alternativa especifica que o valor mdio inferior a 60 e se a hiptese H1 fosse
verdadeira esperaramos obter amostras que levassem a um valor negativo para t0 (porqu?).
Quer dizer que vamos rejeitar a hiptese nula se t0 < z , pois
P [ T < z | H0 verdadeira] =
Para o nvel de significncia de 5% o quantil z.05 = -1.6449, pelo que a regio de rejeio
R = ]- , -1.6449[
valor que pertence regio de rejeio, donde conclumos que devemos rejeitar a hiptese nula.
Pensemos agora na cidade de Braga, em que temos razes para suspeitar que os pesos so mais
altos (come-se muito bem no Norte..., o que no quer dizer que se coma mal em vora...), pelo
que consideramos o seguinte teste:
Neste momento a hiptese alternativa indica-nos que a zona de rejeio corresponder a valores
de t0 demasiado grandes, ou seja t0>z1-. Como
Repare-se que dos 3 testes considerados anteriormente, o 1 de ndole diferente dos outros
dois, no que diz respeito hiptese alternativa - no 1 caso estamos perante um teste bilateral
enquanto que os outros 2 se referem a testes unilaterais.
O exemplo anterior pode-se inserir num processo mais geral de testar hipteses sobre o valor
mdio, que podemos resumir do modo seguinte:
1 caso
Dados: dada uma amostra (x1,x2,xn), valor observado da amostra aleatria (X1,X2,,Xn) em
que n30.
Se a populao tem distribuio aproximadamente normal e varincia conhecida, ento a
dimenso da amostra pode ser inferior a 30.
Hiptese nula: H0: = 0
(Esta hiptese nula equivalente a 0 ou 0 conforme se utilizem as hipteses alternativas b)
e c) especificadas a seguir)
Estatstica de teste: T0= n(X 0 ) /
Obs. Para n30, quando desconhecido, pode ser estimado por s.
Hiptese alternativa Deciso a tomar para um nvel de significncia
a) H1: 0 Rejeita-se H0 se |t0| > z1-/2
b) H1: > 0 Rejeita-se H0 se t0 > z1-
c) H1: < 0 Rejeita-se H0 se t0 < z
2 caso
Dados: dada uma amostra (x1,x2,xn), valor observado da amostra aleatria (X1,X2,,Xn) de
uma populao com distribuio Normal e parmetro desconhecido.
Hiptese nula - H0: = 0
(Esta hiptese nula equivalente a 0 ou 0 conforme se utilizem as hipteses alternativas b)
e c) especificadas a seguir)
Estatstica de teste : T1 = n(X 0 ) /S
Hiptese alternativa Deciso a tomar para um nvel de significncia
graus de liberdade.
300 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
11.6.1 - P-value
1 caso:
a) P = 2 min {P[T0t0], P[T0t0]}
b) P = P[T0t0]
c) P = P[T0t0]
2 caso:
a) P = 2 min {P[T1t1], P[T1t1]}
b) P = P[T1t1]
c) P = P[T1t1]
Exerccios
1. Admita que a mediana da nota da PE, dos alunos que entraram no ano lectivo 91/92 foi de 35.
Com base na amostra anterior, verifique se existem razes para suspeitar de que os alunos que
entraram no ano lectivo de 92/93, tm tendncia para terem notas mais fracas.
Obs. Considere que a populao a estudar est dividida em duas categorias: a dos alunos com nota
superior a 35 e dos alunos com nota inferior ou igual a 35.
2. Supe-se que numa populao existem trs vezes mais indivduos no fumadores do que
fumadores.
a) Tendo-se recolhido uma amostra de 20 indivduos, verificou-se que 7 eram fumadores. Teste, ao
nvel de significncia de 5% se a suposio tem razo de ser.
b) Na populao anterior pretende-se estudar a incidncia de doena pulmonar. Sabe-se que a
percentagem de doentes entre os fumadores e no fumadores respectivamente de 60% e 20%.
(i) Determine a probabilidade de um indivduo ter doena pulmonar.
(ii) Determine a probabilidade de um doente pulmonar ser fumador.
(iii) Qual a probabilidade de numa amostra de 10 doentes, pelo menos trs serem fumadores?
(iv) Qual a probabilidade de numa amostra de 225 doentes, mais de metade serem fumadores?
Introduo Probabilidade e Estatstica 301
Maria Eugnia Graa Martins DEIO- 2005
3. O sr. X no consegue chegar a horas ao emprego. Todos os dias marca o ponto depois da hora
estipulada para a sua entrada. No final do ms, juntamente com uma repreenso escrita, recebeu
uma folha com um registo dos seus atrasos (em minutos):
0.01 2.66 3.30 3.77 4.47 5.13 7.56
8.79 10.26 14.36 15.29 19.64 21.45 28.41
a) Investigue a existncia de possveis outliers na amostra.
b) O sr. X acha injusta a repreenso, j que segundo diz, desde que trabalha naquela empresa,
mais de 50% das vezes o atraso inferior a 5 minutos. Com base nos dados anteriores verifique
se existe evidncia suficiente para dar razo ao sr. X.
4. Suponha que uma amostra recolhida de rendimentos de famlias de determinada cidade revelou
que 55% dos rendimentos da populao se situam entre os 60 e os 120 contos. O presidente da
cmara considera-a "ideal" !
Desconfia-se que o bairro X no segue a distribuio "ideal" da cidade. Recolheu-se uma amostra
de valores de rendimentos familiares nesse bairro, tendo-se obtido os seguintes resultados:
15 24 36 55 58 62 65 67 70 71
73 76 89 90 92 97 105 112 118 160
Verifique se esta suspeita tem razo de ser.
5. Um grupo de 20 indivduos hipertensos, foi submetido durante 30 dias a um regime de dieta
sem sal. Apresentam-se a seguir os valores da presso sistlica para esses indivduos:
sexo Antes da dieta Depois da dieta
M 17.0 15.6
M 17.7 16.6
M 17.9 16.9
F 18.1 15.6
F 18.1 16.0
M 18.2 15.5
F 18.3 16.5
M 18.4 17.2
M 18.4 15.0
F 18.5 17.5
F 18.5 15.9
F 18.6 16.2
M 18.7 17.5
M 18.8 15.8
F 18.9 17.2
M 19.2 17.3
M 19.3 17.8
F 19.5 16.0
F 19.8 16.9
F 20.1 17.5
a) Um especialista afirma que aps um ms em regime de dieta sem sal, pelo menos 80% dos
indivduos apresenta uma diminuio da presso sistlica superior a 10%. Averige se existem
razes para duvidar da afirmao do especialista.
6. Recolheu-se a opinio de 20 executivos acerca de mquinas fotocopiadoras, verificando-se
que 15 preferiam a marca Kodac relativamente marca Xerox. Pensa-se, no entanto, que na
302 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Captulo 12
12.1 - Introduo
Ser que existe alguma razo para dizer que os nascimentos so influenciados pelas fases da
Lua? Ser que o signo influencia o futuro, mais ou menos brilhante, de cada indivduo? Ser que
verdade o que a empresa das drageias M&M afirma, sobre as percentagens de cores das drageias
em cada embalagem?
A revista Fortune (De Veaux and al, 2004) recolheu os signos de 256 presidentes de 400 das
maiores empresas, tendo obtido a seguinte informao:
Carneiro 23 Balana 18
Touro 20 Escorpio 21
Gmeos 18 Sagitrio 19
Caranguejo 23 Capricrnio 22
Leo 20 Aqurio 24
Virgem 19 Peixes 29
Na tabela anterior verifica-se que o signo dos Peixes sobressai com maior nmero de
nascimentos, mas ser esta diferena suficiente para dizer que os indivduos que nascem sob este
signo tm maior probabilidade de sucesso? Se os nascimentos se distribuissem uniformemente,
esperaramos aproximadamente 21.3 (256/12) nascimentos em cada signo. De que modo que
os valores observados se ajustam hiptese (nula) de que os nascimentos se distribuem
uniformemente ao longo do ano? Neste caso j no temos, como no captulo anterior, um teste
sobre uma proporo, mas sim sobre 12 propores, uma para cada signo, pelo que precisamos
de arranjar um teste que nos d uma ideia global sobre se as propores observadas diferem
muito das conjecturadas (consideradas na hiptese nula).
Vimos que no caso dos testes sobre a proporo tnhamos como base o modelo Binomial, em que
o parmetro p, era a probabilidade sobre a qual se pretendia fazer inferncia estatstica. Neste
momento j no temos em estudo uma caracterstica da populao com probabilidade p, mas
admitimos que a populao pode ser dividida em k2 categorias disjuntas A1, A2, ..., Ak, sendo pi,
com i=1, ..., k, a proporo de indivduos pertencentes classe Ai, e p1 + p2 + ... + pk =1. Fazer
inferncia estatstica acerca desta populao, resume-se a estudar os parmetros pi.
306 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
A seguinte propriedade da v.a. Multinomial, tem especial importncia para a obteno de um teste,
para testar o ajustamento pretendido na seco anterior.
Propriedade Se (O1, O2, ..., Ok) uma v.a. Multinomial de parmetros n e pi, i=1,...,n, ento a
funo distribuio da v.a.
k
(O i np i ) 2
U=
i =1
np i
2
aproxima-se da funo distribuio dum com (k-1) graus de liberdade, quando n .
Observao O modelo do 2 tem uma funo densidade com suporte positivo e tem
enviesamento para a direita, dependendo a sua forma do nmero de graus de liberdade.
Apresenta-se a seguir a funo densidade do Qui-quadrado para vrios graus de liberdade:
A distribuio aproximada para U, pode ser obtida de forma intuitiva, do seguinte modo:
Numa experincia multinomial, em que cada resultado pode ser um de k possveis, o nmero
mdio de resultados, em n, que pertencem classe Ai, npi. Ento, Oi tem uma distribuio
Binomial(n, pi), pelo que se n for suficientemente grande e pi pequeno, a distribuio de Oi pode
Introduo Probabilidade e Estatstica 307
Maria Eugnia Graa Martins DEIO- 2005
O i np i
ser aproximada por uma Poisson de valor mdio npi, e a distribuio de pode ser
np i
2
O np
aproximada por uma N(0,1). Finalmente i i tem uma distribuio dum 2 com 1 grau de
np
i
k
(O i np i ) 2
liberdade e i=1
np i
tem uma distribuio dum 2 com (k-1) graus de liberdade.
A propriedade anterior vai-nos servir para testar a hiptese de que (O1, O2, ..., Ok) uma v. a.
Multinomial com parmetros n, pi, i=1,...,k. Basta para isso calcular, para um conjunto de valores
observados (o1, o2, ..., ok), o valor de
k
(o i np i ) 2
u=
i =1
np i
e rejeitar a hiptese se o valor de u for muito grande situao em que os valores observados oi
se afastam muito dos esperados npi, nomeadamente u 12 (k-1), onde 12 (k-1) o quantil de
H0: p1= p 10 , p2= p 02 ,..., pk= p k0 contra H1: pi p i0 , para algum 1=1, ..., k.
k
(O i e i ) 2
Estatstica de teste: X2 = i=1
ei
esperamos obter, no caso de H0 ser verdadeira. Esta estatstica, sob a hiptese de H0 ser
verdadeira, tem uma distribuio de amostragem aproximada a um 2 com (k-1) graus de
liberdade.
Regra de deciso: Para o nvel de significncia , rejeita-se a hiptese nula H0, quando
X2 12 (k-1), ou seja, a regio de rejeio constituda pelo intervalo [ 12 (k-1), +[, como se
Observao Para se utilizar este teste deve-se ter em considerao que os valores esperados ei
no devem ser muito pequenos. Normalmente exige-se que sejam 5. Quando isso no acontece,
procede-se ao agrupamento de classes.
Exemplo 1 Utilize os dados apresentados no incio deste captulo, para verificar se existe
evidncia de que existam alguns signos mais propcios a que os seus nativos sejam homens de
sucesso.
H0: P(Carneiro) = P(Touro) = P(Gmeos) = ... = P(Peixes) = 1/12
contra
H1: Alguma das probabilidades anteriores diferente de 1/12
Sabemos que, sob H0, a estatstica de teste tem uma distribuio aproximada dum 2 com 11
graus de liberdade, uma vez que k=12, isto , temos 12 classes.
Para calcular o valor observado da estatstica de teste, vamos considerar a seguinte tabela:
Obtivmos o valor de 5.0938 para a estatstica de teste. Ser que um valor grande? Ser que
2
um valor na cauda direita da funo densidade? Ser que P(X 5.0938) um valor pequeno,
quando a distribuio de X2 um 2 com 11 graus de liberdade? Estas trs questes, so outras
tantas formas de fazer a mesma pergunta, que : H evidncia para rejeitar a hiptese nula H0?
Repare-se que neste caso, no temos dificuldade em dizer que no h evidncia para rejeitar H0,
2
pois basta ver na figura da funo densidade do com 11 graus de liberdade, que o valor 5.0938
relativamente pequeno. De qualquer modo calculmos o P-value associado a este teste,
utilizando a funo CHIDIST(x;deg_freedom) do Excel, que devolve o valor de P(X>x), onde X
Introduo Probabilidade e Estatstica 309
Maria Eugnia Graa Martins DEIO- 2005
uma varivel aleatria com uma distribuio do Qui-quadrado com deg_freedom graus de
liberdade. O valor obtido 0.9265, que se apresenta na figura seguinte:
No! Na verdade o facto de os dados no nos levarem a rejeitar o modelo proposto na hiptese
nula, no significa que ele seja verdadeiro. O teste serviu unicamente para mostrar que os dados
so consistentes com a teoria (o modelo proposto), mas no para provar que ela verdadeira.
Porque que no podemos provar a hiptese nula? (De Veaux and al, 2004) Um biologista
pretende mostrar que a sua teoria, sobre a mosca da fruta, vlida. Segundo ele, 10% das
moscas so de tipo 1, 70% de tipo 2 e 20% de tipo 3. Fez um teste de ajustamento a partir dos
dados que os seus alunos recolheram, sobre 100 moscas, tendo obtido um P-value de 7%.
Celebrou este facto, pois sustentava a sua hiptese, at que os seus alunos recolheram
informao sobre mais 100 moscas. Com 200 moscas o P-value desceu para 2%. Apesar de j
estar a adivinhar que a resposta seria no, ainda perguntou ao estatstico, na esperana de poder
deitar fora metade dos dados e ficar com os 100 primeiros! Ora bem, se isto fosse possvel,
conseguiramos sempre provar a hiptese nula no recolhendo muitos dados. Efectivamente,
quanto menos informao tivermos, mais os nossos dados sero consistentes com o que quer que
seja, e tambm nunca rejeitaremos o que quer que seja! Ento um teste assim no serve para
nada. Como j vimos na seco 11.5, diz-se que um teste destes tem pouca potncia, medindo-se
a potncia de um teste como a probabilidade de rejeitar H0, quando H0 falsa. Assim, quantos
mais dados, melhor, j que nunca poderemos provar a hiptese nula.
Exemplo 2 Suponha que uma marca conhecida de carros pretende averiguar se existe
evidncia para afirmar que os compradores mudaram, nos ltimos tempos, as suas preferncias
pelas 4 cores mais vendidas, nomeadamente o cinza prateado, o preto, o branco e o vermelho, em
que estas cores eram preferidas por, respectivamente 56.25%, 18.75%, 18.75% e 6.25% dos
compradores, segundo informao de alguns anos atrs. Assim, recolheu informao sobre 100
clientes, tendo obtido os seguintes resultados:
Preto Cinza prateado Vermelho Branco
59 20 11 10
310 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Esta concluso no de estranhar, embora seja diferente da retirada anteriormente, pois agora
temos mais dados, isto , mais informao, e podemos dizer que as discrepncias existentes entre
os valores observados e os valores esperados, mostram maior evidncia contra a hiptese nula.
Suponhamos que pretendemos inferir algo sobre uma caracterstica populacional X, quantitativa
discreta e vamos comear por admitir que na hiptese nula especificamos completamente o
modelo. J que o modelo discreto, esta especificao pode ser feita atravs da funo massa de
probabilidade ou da funo distribuio:
Considera-se ento uma partio de D, eventualmente constituda pelos pontos ai, alguns dos
quais podem ser agrupados. Representando por A1, A2, ..., Ak essa partio, consideram-se as
frequncias observadas Oi, i=1,...,k, do nmero de elementos de uma amostra aleatria que
pertencem s classes Ai, i=1,...,k, e estamos num caso idntico ao considerado anteriormente, de
anlise de observaes qualitativas, pertencentes a uma de k categorias.
b) Anlogo alnea a), mas com a distribuio do Qui-quadrado com (k-m-1) graus de
liberdade.
Haver evidncia para duvidar que tal procura se faa segundo um modelo de Poisson?
Resoluo: Seja X a v.a. que representa o n de unidades procuradas, por dia. Ento:
H0: XP() contra H1: X no tem uma distribuio P()
Representando o estimador de por , temos que = X (no esquecer que no modelo de
Poisson, o parmetro o valor mdio da varivel aleatria), pelo que uma estimativa para , a
mdia dos dados x =3.8, e as estimativas para as probabilidades pi, obter-se-o a partir da
3.8 k
expresso P(X=k) = e-3.8 . Estas probabilidades foram obtidas no Excel atravs da funo
k!
Poisson(x; mean; cumulative), em que x o valor que a v.a. X assume, mean o valor mdio e
cumulative um valor lgico: para a funo distribuio, usar TRUE; para a funo massa de
probabilidade usar FALSE. Por exemplo, para obter o valor 0.085009, colocmos o cursor na
clula C3 e inserimos a funo =POISSON(B3;3,8;FALSE).
Chamamos a ateno para o facto de as classes Ai deverem constituir uma partio do domnio da
v.a. X. Assim, como o domnio da Poisson constitudo pelos valores inteiros positivos (incluindo o
0) introduzimos a classe 10 ou mais, cuja probabilidade foi calculada fazendo (1-P(X9)) (no
esquecer que P(A ) = 1 ). Por outro lado, tendo em conta a observao feita sobre o valor dos
i
Introduo Probabilidade e Estatstica 313
Maria Eugnia Graa Martins DEIO- 2005
ei, que no devem ser inferiores a 5, agrupmos as classes 0 e 1, numa classe, e as classes 7, 8,
9 e 10 ou mais, noutra classe, tendo ficado assim 7 classes.
7
(O i e i ) 2
Se H0 for verdadeiro, a estatstica de teste X2=
i=1
ei
tem uma distribuio assinttica dum
2
(7-1-1), ou seja dum Qui-quadrado com 5 graus de liberdade. Segundo a tabela anterior,
obtivmos, para a estatstica de teste, o valor observado de 2.2736. Para tomar uma deciso,
vamos calcular o P-value:P(X22.2736) = 0.81. Este valor foi obtido, inserindo na clula F13, a
funo = CHIDIST(E13;5):
Deciso: No h evidncia para dizer que a distribuio do nmero de unidades procuradas por
dia, no segue uma distribuio de Poisson.
Observao: Convm referir, no entanto, o seguinte: agora a escolha das classes Ai, que
constituem uma partio do domnio da varivel aleatria X, j no feita de uma forma to bvia,
como no caso dos dados discretos. Assim, de forma a reduzir a arbitrariedade na escolha da
partio Ai, 1ik, usual escolher os Ai, tais que
Como escolher o k?
A escolha de k feita de modo a garantir que o nmero esperado ei=npi, de elementos em cada
classe seja 5. Assim, deve ter-se n/k5, o que implica que kn/5. Considera-se geralmente para k
o maior inteiro contido em n/5 (a no ser que este valor seja demasiado grande, como veremos no
exemplo a seguir, em que se escolhe um valor inferior), e as classes Ai, so assim construdas:
A2 = [a1, a2[, P(XA2H0) = 1/k P(a1<X a2) = F(a2)- F(a1)= 1/k a2=F-1(2/k)
...
Exemplo 4 O Sr. Silva, industrial txtil, decidiu comear a fabricar camisas de homem,
destinadas a serem vendidas em Portugal. Para ter alguma informao sobre os moldes que deve
considerar, nomeadamente no que diz respeito ao comprimento das mangas, resolveu pedir a
uma empresa de Consultoria de Estatstica que o ajudasse, dando-lhe algumas indicaes sobre a
populao a que se destinam as camisas.
Vamos delinear o processo utilizado pela tal empresa, para ajudar o Sr. Silva.
Decidimos construir uma tabela de frequncias com 8 classes, valor sugerido pela regra emprica
enunciada quando da construo do histograma, e considerar como amplitude de classe o valor
1.54 (valor aproximado, por excesso, de (max-min)/8).Construmos uma tabela de frequncias e o
histograma associado, utilizando a metodologia das PivotTables.:
O histograma sugere-nos um modelo Normal, pelo que, o passo seguinte ser testar se
efectivamente tem sentido ajustar um modelo Normal aos dados. Uma questo que se levanta
neste momento a seguinte: ter sentido estar a ajustar aos nossos dados um modelo com
suporte R, isto , que pode assumir qualquer valor real, quando ns sabemos que isso no se
passa com o comprimento do brao? Mas se estamos renitentes em ajustar um modelo com
suporte em R, talvez pensassemos que seria mais razovel um cujo suporte fosse R+, pois se
temos a garantia que o comprimento no pode ser negativo, no sabemos qual o valor mximo
que devemos escolher. Ou poderamos inventar um valor ao acaso como limite superior, por
exemplo 150 cm, mas com que legitimidade que escolhemos este e no outro valor? Tambm
no devemos considerar o valor 60.7 como valor mximo, embora tenha sido o maior valor da
amostra que se recolheu. Ningum nos garante que na populao no haja homens com o
316 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
comprimento do brao superior a 60.7! Nesta altura, de reflexo sobre qual o modelo a adoptar,
recordemos o que se disse sobre a escolha de um modelo para traduzir um fenmeno aleatrio
todos os modelos so maus, alguns so teis. No entanto, alm do histograma nos sugerir o
modelo Normal, devido semelhana com a funo densidade da Normal, tambm dispomos de
alguma informao cientfica sobre este modelo; e so esses estudos que nos dizem que ele se
aplica em situaes de fenmenos que possam ser considerados provenientes de uma
contribuio aditiva de vrias variveis, como , por exemplo, o caso da varivel em estudo.
Ento, em posse da informao sobre a provenincia dos dados e dos resultados do estudo
descritivo dos mesmos, estamos em condies de propor o modelo Normal.
Para calcular estimativas das probabiliaddes pi, utilizmos o modelo Normal(55.14, 2.087), no
Excel. Por exemplo, para calcular a probabilidade do intervalo ]49.94, 51.48], colocmos o cursor na
clula G19 e escrevemos =NORMDIST(51,48;55,14;2,087;TRUE)-NORMDIST(49,94;55, 14;2,087;TRUE).
Introduo Probabilidade e Estatstica 317
Maria Eugnia Graa Martins DEIO- 2005
2
Como estimmos dois parmetros a partir dos dados, a estatstica de teste X , tem uma
distribuio assinttica dum 2(8-2-1), ou seja dum Qui-quadrado com 5 graus de liberdade.
Para tomar uma deciso calculmos o P-value, bastando colocar o cursor na clula J26 e escrever
=CHIDIST(I26;5):
Processo 2 Admitindo que no tinha havido uma fase anterior, em que tinha sido necessrio
proceder a um agrupamento dos dados, como no caso do exemplo que estamos a tratar, vamos
exemplificar o processo sugerido na seco anterior.
Temos n=250, donde k250/5. Vamos considerar k=10, isto , 10 classes. Ento os limites de
classe a1, a2, ..., a9, com a notao introduzida na seco referida, podem ser obtidos no Excel, da
seguinte forma:
Uma vez as classes construdas, teremos de contar quais os valores observados. Utilizmos a
seguinte tabela feita no Excel, para determinar esses valores, assim como o valor observado da
estatstica de teste:
318 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
A estatstica de teste a mesma, mas agora tem uma distribuio de amostragem dum Qui-
quadrado com 7=(10-2-1) graus de liberdade, uma vez que considermos 10 classes e estimmos
2 parmetros:
Deciso: Uma vez que o P-value igual a 32.56%, no existe evidncia para rejeitar a hiptese de
que os dados sejam provenientes de um modelo Normal.
Aproximadamente 95% dos homens tm o comprimento dos braos no intervalo [51, 59]
P(55.14-22.087X55.14+22.087)=(2)-(-2)= 2(2)-10.95
Aproximadamente 100% dos homens tm o comprimento dos braos no intervalo [49, 61]
P(55.14-32.087X55.14+32.087)=(2)-(-2)= 2(3)-10.997
Utilizando ainda o modelo Normal(55.14, 2.087), podemos ser um pouco mais precisos,
informando o Sr. Silva sobre os valores do 1 e 3 quartis, que so respectivamente 53.7 cm e
56.5 cm:
Assim, o industrial sabe que, por exemplo, s 25% dos homens que tm o comprimento dos
braos inferior a 53.7 cm e que 50% dos homens tm o comprimento dos braos no intervalo
[53.7, 56.5]. Esta informao importante, pois permite fazer uma programao adequada da
percentagem de camisas que devem ser fabricadas, para cada tamanho.
Introduo Probabilidade e Estatstica 319
Maria Eugnia Graa Martins DEIO- 2005
Exerccios
1. convico popular que os nascimentos ocorrem depois da 9 lua. Seguidamente apresenta-
se uma tabela onde se regista o nmero de nascimentos nos 7 dias seguintes a cada fase da lua,
de crianas seleccionadas ao acaso entre as nascidas numa determinada maternidade, em 1995:
Lua nova Crescente Lua cheia minguante
72 61 68 61
Com base naqueles dados, teste ao nvel de significncia de 5%, se a convico popular tem
algum fundamento, no sendo os nascimentos distribudos, de forma regular, ao longo das
diversas fases da lua.
2. Numa amostra aleatria de 200 famlias, cada uma com 4 filhos, registou-se o nmero de
raparigas em cada famlia, tendo-se obtido os seguintes resultados:
N de filhas 0 1 2 3 4
N de famlias 5 32 65 75 23
Teste o ajustamento de uma distribuio Binomial a estes dados.
3. Com o objectivo de testar a hiptese de que uma moeda equilibrada, essa moeda lanada
at se obter cara pela 1 vez. Repetiu-se a experincia 150 vezes, tendo-se obtido os seguintes
resultados:
N lanamentos necessrios at obter cara pela 1 vez (inclusiv) 1 2 3 4 5 ou mais
Frequncia 60 48 22 11 9
Que pode concluir?
4. O mdico responsvel pelo gabinete mdico de uma fbrica registou o n de acidentes, por ms,
verificados nessa fbrica, durante os ltimos 10 anos:
n acidentes/ms n meses
0 2
1 10
2 15
3 30
4 28
5 15
6 10
7 6
8 4
Relativamente aos dados anteriores:
a) Determine valores aproximados para a mdia e para a varincia amostral.
b) Faa o resumo de 5 nmeros e investigue a existncia de possveis outliers.
c) Faa uma representao grfica conveniente.
d) Pensa-se que o n de acidentes por ms nessa fbrica, uma v.a. com distribuio de Poisson
de valor mdio 4. Verifique se existem razes que nos levem a duvidar desta suposio.
e) Encontre um intervalo de 95% de confiana para o n mdio de acidentes por ms.
f) Verifique se existem razes para afirmar que em mais de 15% dos meses, se verificam 6 ou
mais acidentes.
5. O sr. Nobre dedica-se criao de leites, que vende quando atingem os dois meses de idade
e pesam mais de 9kg. Pretendendo fazer um estudo sobre o crescimento dos leites, resolveu
pesar 64 leites com dois meses de idade, tendo obtido os seguintes valores:
4.1 5.8 5.8 6.1 6.7 7.0 7.5 7.5 7.5 7.5 7.7 8.2
8.3 8.5 8.7 8.8 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2
9.2 9.4 9.4 9.4 9.5 9.5 9.7 9.8 10.0 10.0 10.0 10.2
10.210.2 10.3 10.6 10.6 10.8 10.9 10.9 11.0 11.1 11.1 11.6
11.711.8 11.8 11.8 12.0 12.2 12.2 12.3 12.5 12.6 12.7 14.0
14.114.2 15.0 16.0
320 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Bibliografia
Na preparao destas folhas seguiu-se essencialmente a seguinte bibliografia:
Alpuim, T. Introduo s Probabilidades, Associao dos Estudantes da FCUL, 1997
De Veaux, R. e Velleman, P. Intro Stats, Pearson Education, Inc, 2004
Feller, W. An Introduction to Probability Theory and its Applications, John Wiley & Sons, 1968
Freedman, D., Pisani, R., Purves, R., Adhikari, A.. - Statistics. W. W. Norton & Company, 1991.
Graa Martins, M. E., Cerveira, A. Introduo s Probabilidades e Estatstica, Universidade
Aberta, 1999
Graa Martins, M. E., Monteiro, C., Viana, J. P., Turkman, M. A. A. Estatstica, Ministrio da
Educao, Departamento do Ensino Secundrio, 1997
Graa Martins, M. E., Monteiro, C., Viana, J. P., Turkman, M. A. A. Probabilidades e
Combinatria, Ministrio da Educao, Departamento do Ensino Secundrio, 1999
Graa Martins, M. E., Loura, L. Matemtica para as Cincias Sociais, Anexo para apoio
interpretao do programa, 2001.
Graa Martins, M. E., Loura, L. Introduo Probabilidade, Projecto Reanimat, Departamento de
Estatstica e Investigao Operacional, 2003.
Graa Martins, M. E., Loura, L. Estatstica Computacional, Anexo para apoio interpretao do
programa do Mdulo B2 para os Cursos Profissionais, Departamento de Estatstica e Investigao
Operacional, 2005.
Hoaglin, D. and al. - Anlise Exploratria de dados. Tcnicas robustas. Edies Salamandra, 1993.
Iman, R. e Conover, W. - A Modern Approach to Statistics. John Wiley & Sons, 1983.
Mann, P. Introductory Statistics. John Wiley & Sons, 1995.
Mendenhall. W., Beaver, R. Introduction to Probability and Statistics. Duxbury Press, 1994
Moore, D. Statistics Concepts and Controversies. Freeman, 1997
Moore, D. The Basic Practice of Statistics, Freeman, 1996
Moore, D., McCabe, G. Introduction to the Practice of Statistics, Freeman, 1996
Murteira, B. - Anlise Exploratria de Dados. Estatstica descritiva. McGraw-Hill, 1993.
Murteira, B. And al. Introduo Estatstica, McGraw-Hill, 2002
Parzen, E. Modern Probability and its Applications, John Wiley & Sons, 1960
Pestana, D. and al. Introduo Probabilidade e Estatstica, Fund. Calouste Gulbenkian, 2002
Rossman, A. Workshop Statistics , Discovery with data. Springer-Verlag New York, 1996
Siegel, A. - Statistics and data analysis. John Wiley & Sons, 1988.
Tannenbaum, P. and al. - Excursions in modern Mathematics, Prentice Hall, 1998.
Vicente, P., Reis, E., Ferro, F. Sondagens, Edies Slabo, Lda, 1996
Artigos da revista TEACHING STATISTICS
Hodgson, T. and al. Why Statify? Vol 20, 1, 68-71
Neville, H. Handling Continuous Data in Excel, Vol 25, 2, 42-45
Neville, H. Charts in Excel, Vol 26, 2, 49-53
322 Introduo Probabilidade e Estatstica
Maria Eugnia Graa Martins DEIO- 2005
Pginas na Internet
ALEA - http://www.alea.pt
Instituto Nacional de Estatstica - www.ine.pt
(Tem informao sobre Portugal, ao nvel da freguesia)
Eurostat europa.eu.int/comm/eurostat/
(Tem informao relativa aos diversos pases da Europa)
World Health Organization http://www.who.int/research/en/
(Tem informao sobre temas ligados sade, para todos os pases do mundo)
World in figures http://.stat.fi/tup/maanum/index_en.html
(Tem informao das mais diversas areas, tais como populao e estatsticas vitais, cultura,
religies, emprego, consumo, etc., relativa a todos os pases do mundo)