Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução
11 Objectivos do curso
11 Pré-requisitos
11 Conteúdo e estrutura do curso
3. Cálculo de probabilidades
129 Objectivos de aprendizagem
131 Acontecimentos e conjuntos
137 A teoria das probabilidades
140 Cálculo de probabilidades quando o espaço de resultados é finito
14 7 Resolução das actividades do capítulo
5
4. Métodos gerais de contagem
155 Objectivos de aprendizagem
157 O princípio da multiplicação
162 O binómio de Newton e o triângulo de Pascal
166 O princípio da inclusão-exclusão
171 Resolução das actividades do capítulo
5. Probabilidades condicionadas
179 Objectivos de aprendizagem
181 Conceito de probabilidade condicionada
187 Acontecimentos independentes
191 O teorema de Bayes
199 Resolução das actividades do capítulo
6. Variáveis aleatórias
207 Objectivos de aprendizagem
209 Conceito de variável aleatória
214 Função de probabilidade
223 Função de densidade
233 Resolução das actividades do capítulo
6
293 Distribuição hipergeométrica
296 Distribuição de Poisson
301 Resolução das àctividades do capítulo
9. Distribuição normal
315 Objectivos de aprendizagem
317 A distribuição normal
321 Normal estandardizada
326 Propriedades da distribuição normal
329 Resolução das actividades do capítulo
7
421 População, amostra, estatística
429 O problema da estimação pontual
439 Resolução das actividades do capítulo
45 I Bibliografia geral
19
1.2. Observador, instrumento, objectos. Os dados.
O observador.
O instrumento de observação.
Os objectos observados.
Exemplo 1.2.1.
Número do aluno:
21
Eis os dados resultantes deste processo de observação:
Observador = professor
Insttumento = questionário
=
Objectos observados alunos.
22
nascimento, o que permitiria calcular a idade em dias. Mas, na esmagadora
maioria dos casos, ignoram o instante (horas, minutos, segundos) em que
nasceram.
''
• • A disposição tabular mencionada atrás falha, contudo, quando
certas variáveis não têm sentido para alguns dos objectos observados. Nesses
caso, uma disposição adequada para os dados poderia ser a da figura 1.2.1.
Figura 1.2.1.
23
~ Quando, para cada objecto a observar, o observador apenas está
interessado num aspecto (característica, propriedade, atributo, faceta, variável),
os dados resultantes dizem-se univariados.
Distrito Área
Número Nome (km2)
1 Aveiro 2800
2 Beja 10223
3 Braga 2695
4 Bragança 6597
5 C. Branco 6616
6 Coimbra 3971
7 Évora 7396
8 Faro 4986
9 Guarda 5540
10 Leiria 3508
l1 Lisboa 2758
12 Portalegre 6064
13 Porto 2341
14 Santarém 6707
15 Setúbal 5064
16 V. Castelo 2201
17 V. Real 4305
18 Viseu 5009
24
Actividade 1.2.1.
25
Do ponto de vista conceptual, isto é, sem ter em conta os problemas práticos
ligados ao modo como são atribuídos os valores às variáveis, estas podem
classificar-se em duas categorias básicas, se apenas atendermos à natureza dos
valores que podem assumir: variáveis qualitativas e variáveis quantitativas.
Não faz sentido dizer que masculino < feminino, ou que masculino é
duplo de feminino.
Uma variável é quantitativa quando tem sentido representar os seus valores por
meio de números: a variável é quantitativa quando os seus valores puderem ser
comparados pelo menos através de uma relação de ordem.
26
~Na definição das variáveis não entram quaisquer considerações acerca
do modo como estas variáveis assumem os seus valores: as variáveis são
conceitos, que existem na mente do observador.
,,~calai
'~"/,., (unidade 1)
".r
• Escala2
_ (unidade 2)
Escala4
Escala3
Figura 1.3.1.
''
•
v~ável
• Na figura 1.3.1., os instrumentos / 1 e h estão a medir a mesma
X2 em escalas diferentes, expressando os valores de X2 .em unidades
,diferentes, reali~ando observações de precisão diferente. A variável é a mesma,
mas os dados observados são diferentes .
27
Por exemplo, seja a variável qualitativa sexo.
Uma escala de intervalo difere da escala do tipo ratio· por não existir uma
origem fixa. É caracterizada por unidades iguais: a mesma diferença real (na
natureza, no mundo) no valor da variável traduz-se pela mesma diferença dos
valores correspondentes da escala.
28
do que a pessoa B, o que é equivalente a dizer que B é 15 cm mais alta
que A e que C é 20 cm mais alta que A.
#
Faz sentido considerar a ordem «Não satisfaz < Satisfaz < Satisfaz
largamente», ou então expressar essas classificações por A, B, C,
respectivamente e dizer que A < B < C. c c c
B
Contudo não se pode dizer que a diferença real de competências B
existente entre dois alunos que tenham sido classificados com B e C é a
mesma diferença que existe entre dois alunos classificados com A e B.
Isto é: pode suceder que à diferença C - B corresponda, na realidade, B
uma diferença de competências muito maior do que a diferença de
A A A
competências correspondentes às marcas B e A na escala em questão .
#
Actividade 1.3.1 .
Actividade 1.3.2 .
29
Nos estudos observacionais, o observador não tem qualquer papel na escolha
dos objectos a observar, limitando-se a observar os que estão disponíveis.
Tratamento Controlo
Y1.1= 8.0 Y2.1 = 10.0
Y1.2= 7.0 y2,2= 9.5
YI,3= 8.0 Y2.3= 8.5
Y1.4= 8.5 Y2.4= 9.5
Y1.s= 7.5 Yz.s= 8.8
YI.6= 10.0 Yz.6=9.5
y1.7= 9.5 Y2.1= 10.0
Y1.s= 7.8 Y2.s= 9.5
YI,9= 8.5
YI.I0=9.0
30
;";f:Estes,dados<também poderiam apresentar-se na fonna tabular seguinte:
~/V,eJamo,s, agora, um outro contexto em· que o observador não tem qualquer
·na escolha dos objectos a observar, limitando-,se a observar os
O estudo passa pela análise dos registos relativos a todos os ac;identes de trabalho,
envolvendo essa classe socioprofissional, de que houve conhecimento.
31
Deste modo, espera-se poder determinar a frequência com que esses
acidentes ocorrem, como primeiro passo para o estabelecimento do
valor do prémio a exigir aos segurados.
#
Neste exemplo 1.4.2., constata-se que o observador não tem qualquer influência
na escolha dos objectos a observar: limita-se a estudar os dados disponíveis.
Um estudo assente nos dados assim obtidos poderia conduzir a uma imagem
enganadora da realidade. Poderia suceder, por exemplo, que certos acidentes
relevantes para a definição da apólice não tivessem sido registados ou não
estivessem acessíveis por razões de confidencialidade- o que faria com que o
seu efeito não fosse tido em conta.
Actividade 1.4.1.
Actividade 1.4.2.
Actividade 1.4.3.
32
L5.lntrodução à estatística descritiva. Contagens e tabelas de frequências.
Exemplo 1.5.1.
!sexo I FMMMMMFMMMMMFMFFM
33
Resumindo, pode dizer-se que o valor «F» ocorre 5 vezes em 17 e o
valpr «M» ocorre 12 vezes em 17.
· · ···:z:>
Pode interpretar-se as frequências relativas do seguinte modo:
se escolhermos «ao acaso» um aluno da turma, a «probabilidade» de
que a pessoa escolhida seja uma mulher é 29% e a «probabilidade» de
que seja um homem é 71%.
#
19, 20, 28,20, 22, 22, 21, 21, 20, 19, 24, 23, 23, 31, 24, 24, 25.
34
A nível de conceito, a idade das pessoas é uma variável do tipo contínuo
vistO poder assumir qualquer valor positivo. Contudo, uma. vez que as
pessoas expressam as respectivas idades em anos completos, tudo se
passa como se os dados observados correspondessem a uma variável do
tipo discreto.
19 XX
20 XXX
21 XX
22 XX
23 XX
24 XXX
25 X
28 X
31 X
21 2 7{7 =0.118
22 2 7{7=0.118
23 2 7{7 =0.118
24 3 ){7 =0.176
25 1 }{7 =0.059
28 1 }{7 =0.059
31 1 }{7=0.059
Total 17 1
35
escolhido tenha, por exemplo, 20 anos é ~ == 0.176. A probabilidade de
17
2
que tenha 23 anos é - == 0.118.
17
#
... ··.·0)> Também faz sentido pensar nas percentagens ou proporções (ou
probabilidades) correspondentes a esses números.
Tendo este facto em conta, a tabela de frequências é completada com mais duas
colunas: uma para acumular as frequências absolutas e outra para acumular as
frequências relativas.
36
colunas «Frequência absoluta acumulada» (N;) e «Frequência relativa
·"'"'""'u""u''" (F;) obtêm-se das colunas de frequências absolutas e frequências
somando ou acumulando os valores respectivos.
''
• • Nas duas disposições anteriores, não há qualquer perda de
informação quand() se passa dos dados para as tabelas de distribuição de
frequência - a não ser a ordem pela qual as observações foram obtidas. Isto
significa que podemos voltar aos dados iniciais a partir das frequências
absolutas.
160, 175, 180, 165, 179, 170, 158, 165, 180, 165, 175, 178, 164, 174,
160, 152, 163.
37
Agmpando agora estes valores em quatro classes de igual amplitude e
classificando as observações nas classes obtidas, obtém-se a tabela
seguinte:
Classes Observações
150- 155 152,
155- 160 158,
160- 165 160, 164, 160, 163
165- 170 165, 165, 165,
170- 175 170, 174,
175- 180 175, 180, 179, 180, 175, 178
Classes
150- 155 X
155- 160 X
160- 165 xxxx
165- 170 XXX
170-175 XX
175 e mais xxxxxx
Nesta última representação há perda de informação em relação aos
dados originais: não podemos passar das marcas «X» para os valores
observados.
Classes n; N; fi F;
150-155 1 1 1 1
- -
17 17
155- 160 1
-1
2 2
-
17 17
160- 165 4 6
-4 -
6
17 17
165-170 3 9 3 9
- -
17 17
170-175 2 11
-2 11
-
17 17
175- 180 6 17 6 17
- -
17 17
Total 17 1
38
!A tabela do exemplo anterior, também poderia apresentar-se na forma:
Classes n; N; f; F;
tso- 1 1
-17
1
-
1
17
1~5- 1 2
'' -1 2
-
I·· 17 17
160- 4 6 4 6
- -
-: :;:.
17 17
165- 3 9
-3 -179
17
'
J70- 2 11
., -2 -
11
17 17
175 e mais 6 17 6 17
- -
17
' 17
Totl}.l 17 ! 1
, :Escolher o número de classes. :Em geral, este número não deve ser
inferior a 5 e não deve ser superior a 15. O número de classes pode ser
.,.escolhido como o menor k tal que 2k;:::: n.
Exemplo: n= 100
26= 64 < 100
27= 128 >100
Logo, escolher k= 7.
;;:··· É desejável que cada classe tenha pelo menos cinco observações.
39
Actividade 1.5.1. (Distritos)
40
no lt$g<l.r da. palavra .«frequência>> usarmos a palavra «probabilidade», vê-se
a tabela de distribuição de frequência é uma tabela de distribuição de
rtlt•nt•ili1d.a1r1es de ocorrência dos valores da variável em causa.
415
416
510
514 ou 415 6
515 5104568
516 6100458
518 710555
610
610 Caule+~_ _ ___.I ._I---..• Folhas
614
615
618
710
715
715
715
Uma vez que a escolha dos dígitos que vão constituir o caule e as folhas
é arbitrária, convém acompanhar o gráfico caule-folhas de informação
que permita descodificá-lo.
41
No caso presente, o gráfico final poderia apresentar-se na forma:
415 6 Chave:
5104568 415 significa 45 kg.
6100458
710555
#
Exemplo 1.6.2.
2800,10223,2695,6597,6616,3971,7396,4986,5540,3508,2758,
6064,2341,6707,5064,2210,4305,5009.
Caule _j L Folha
22 10
23 41
26 95
27 58
28 00
35 08
39 71
43 05 Chave:
22110 significa 2210 km 2.
49 86
50 09
50 64
55 40
60 64
65 97
66 16
67 07
73 96
102 23
42
Escolha manifestamente infeliz, visto que conduz a um número
excessivo de classes no caule.
21210
212, 213, 216, 217, 218, 315, 319,413, 419, 510, 510, 515, 610, 615, 616, 617, 713,
. 1012.
2 23678
3 59
4 39
5 005
6 0567
7 3
8 Chave:
9 212 significa 2200 km 2 •
10 2
7
5 6
9 9 o 5 Chave:
5 3 o o 3 212 significa 2200 km2•
3 4 5 6 7 8 9 10
43
Assim, no caso do nosso exemplo 1.6.2, n=l7. Nesse caso <deveria ter-se
L= (10 x log 10 17] =(12.30) =12 .
Actividade 1.6.1.
Distrito
Número Nome Número de
concelhos
1 Aveiro 19
2 Beja 14
3 Braga 13
4 Bragança 12
5 C. Branco 11
6 Coimbra 17
7 Évora 14
8 Faro 16
9 Guarda 14
10 Leiria 16
11 Lisboa 15
12 Portalegre 15
13 Porto 17
14 Santarém 21
15 Setúbal 13
16 V. Castelo 10
17 V. Real 14
18 Viseu 24
44
. Gráficos de barras e gráficos circulares.
Ver
gráfico de barras, a cada classe de valores da variável corresponde uma SCHMID CALVIN (1982)
cujo comprimento (ou altura) é proporcional à frequência (absoluta ou «Statistical Graphics>>
J. Wiley
dessa classe.
barras devem ficar separadas por espaços, marcando bem a fronteira entre D c::::J
. '
~V,A,C,C,C,C,V,C,C,C,V,C,C,C,A,A.
Classe
Nome Símbolo n; f;
Castanhos c 11
17 =o . 647
...!l_
Cor o
I
Castanhos
Azuis
Verdes --
[~~=~
I . #
i'.:a~~ Uma boa regra a ter em conta na construção destes gráficos consiste
em ordenar as categorias de acordo com um certo critério.
45
Um bom critério de ordenação é a frequência rel(;}tíva ou absoluta das
categorias.
Assim (exemplo 1.7.1.),a ordem induzida na cor dos olhos por esta regra seria:
Castanhos > Azuis > Verdes.
· .. ·.· ··~ Em muitos contextos, esta ordem induzida tem interesse prático.~ como
se vê no exemplo 1.7.2.
4.6
Componente Iii J; 1
avariada
Embarcação (casco) 16 0.254
2 Motor propulsor 15 0.238
-1
3 Motor de arranque 7 0.111
Caixa redutora. .:::·:::::.:::::;:\
":
4 0.063
~;<)::;.: .. <··c
Leme .::c;;_'.,;:,_t;·::\. 4 0.063
Sistema eléctrico 4 0.063
Hélice 3 0.048
Veio propulsor 3 0.048
Bomba de água 3 0.048
Tubo de esca~, 2 0.032.
Sistema de .combt~stível 1 0.016
Sistema de arrefecimento 1 0.016
Total 63
47
Num gráfico circular, a frequência relativa é representada pelo
comprimento do arco respectivo, como se sugere na figura seguinte.
B
Figura 1.7.1.
Figura 1.7.2.
Assim, não é a área do sector que é proporcional à frequência relativa, mas sim
o arco corr-espondente. No entanto, é a área o elemento gráfico mais saliente;
este facto pode distorcei' a percepção das frequências relativas, como se ilustra
na figura 1. 7 .2.
48
,~..,:~qn;@.os,daqos do exemplo 1.7.2., relativos a avarias de embarcações,
,.at~-a~~~s.~Je um gráfico de barras e de um gráfico circular.
49
Se as regras usadas na classificação dos testes especificarem que a
escala de classificação é formada pelos números inteiros {O, 1, 2, ... ,
20}, então os dados constituem observações de uma variável discreta.
Caso a escala de classificação tenha sido especificada como sendo
formada pelo intervalo [0,20), então as observações podem considerar-
se provenientes de uma variável contínua - o que pressupõe que as
competências dos alunos variem de modo contínuo.
No segundo caso, essa questão teria sentido, visto que, então, poderia
ocorrer o resultado 12.5.
· . ·. ·. ···P>
Dispondo de uma tabela de distribuição de frequências - cons-
truída com as observações provenientes de variáveis do tipo discreto ou
contínuo - pode definir-se, à custa dessa distribuição de frequências,
uma função- a função de distribuição empírica- que, para todo o x,
permite responder à questão: qual a proporção dos valores ql1e. são
inferiores a x?
#
Actividade 1.8.1.
Actividade 1.8.2.
50
A actividade anterior põe em evidência a necessidade de, na prática,
·. respostas para as questões do tipo: qual a percentagem de valores
~•.w'"''''"'vs até um valor x qualquer, faça ou não esse valor parte da escala.
·,m,Pr.'•mt~"
por construir o respectivo gráfico à custa da coluna das frequências
acumuladas: trata-se de uma função em escada cujos patamares
tresoc>hdem aos valores das frequências relativas acumuladas que constam da
frequências.
2 3 4 5 6 7 8 9 10 X 1 12 13 14 15 16 17 18 19 20
Resultados
Figura 1.8.1
51
Para valores de x (neste caso, resultado a Português) entre dois valores
observados, a função é constante, visto não haver nos dados informação
que habilite a dizer o contrário.
Por exemplo: para o valor x = 10.25 - que não tem sentido numa escala de
classificação {0, 1, 2, ... , 20} ou que, tendo sentido para uma escala [0,20], não
colTesponde a um valor observado- F(l0.25)= 0.551.
Actividade 1.8.3.
Actividade 1.8.4.
4.5, 4.5, 5.1, 5.2, 4.9, 5.3, 5.0, 5.5, 4.9, 5.9
52
semelhanÇa do que sucede com o gráfico caule-folhas, na função de
ctl,str.lbUlca:o empírica não há qualquer perda de informação relativamente às
"""'"'n·'"'"''"'""" da função de .distribuição empírica podemos sempre voltar às
0.9
Oc8'
J z s 4 & s 7 ~ e m n m a M g w rr • w •
Resufladbs
Figura 1.8.2.
53
A diferença entre as duas representações vê-se melhor nafigura 1.8.3.
0.551
0.439 - - . - - - - - - - .. - - ,- -Q
I I
I I
I
1 I
0.243
--- <?
8 9 x=9.5 10 11
Figura 1.8.3.
''
• • Vê-se que esta nova função (e respectivo gráfico) tem subjacente a
hipótese de que a frequência acumulada, entre os dois valores observados,
cresce linearmente com os valores da variáveL Por contraste, a função de
distribuição empírica cinge-se, exclusivamente, aos dados: não introduz
qualquer hipótese de variação da distribuição para lá do que é, estritamente,
afirmado pelos dados.
54
qúantis, histogramas e polígonos de frequências.
0.9
o.e
0.6
0.4
0.3
0.2
0.1
0~~==~~--~--------~----------------~
o 1 2 3 4 5 6 7 8 9 10 . ,, 12 13 14 15 16 17 18 19 20
Aesulcadoa
Figura 1.9.1.
que o resultado que não é ultrapassado por 75% dos estudantes é xo.1s=
55
Xo.7s=l5 valores, isto significa que 0.5:= 0,75-0.;25 dos alunos têm os
seus resultados entre 1Oe 15 valores.
#
Vê-se pelo exemplo anterior que, entre outras utilizações, os quantis servem
para caracterizar o modo como os valores das variáveis se distribuem ao longo
dos respectivos domínios.
· ·.·. •. .t;:> No n.
1.6. estabeleceu-se o primeiro contacto com os histogramas: o
0
'I"
freq./
unidade
13.1%
I
I I
o 12 14 16 X
Figura 1.9.2.
''
• • O histograma . é um instrumento gráfico adequado para
descrever a ideia intuitiva de que a concentração das observações -
expressa em número (ou percentagem) de observações por unidade da
variável observada (densidade) - varia consideravelmente ao longo do
domínio da variável em estudo.
Actividade 1.9.1.
56
actividade anterior verificou-se que a frequência relativa com que ocorrem
no intervalo (12 a 14] é dada pela diferença 0.888- 0.757= 0.131.
questão pode, pois, ser respondida de modo exacto para qualquer intervalo
valores que nos interesse - desde que se conheça a função de distribuição
Exemplo 1.9.2.
57