Você está na página 1de 44

ELEMENTOS DE PROBABILIDADES E ESTATÍSTICA

Introdução
11 Objectivos do curso
11 Pré-requisitos
11 Conteúdo e estrutura do curso

1. Descrição dos dados das observações


19 Objectivos de aprendizagem
2I Observador, instrumento, objecto. Os dados
25 Tipos de variáveis, medições e escalas
29 Origem dos dados: observações e experiências planeadas
33 Introdução à estatística descritiva. Contagens e tabelas de frequências
41 Gráficos de caule-folhas
45 Gráficos de barras e gráficos circulares
49 Função de distribuição empírica
55 Os quantis, histogramas e polígonos de frequências
62 Medidas de localização: mediana, média, moda
68 Medidas de dispersão
72 Medidas de forma
78 Descrição gráfica dos dados bivariados
84 Frequências e probabilidades
87 Resolução das actividades do capítulo

2. Incerteza e sua medição


105 Objectivos de aprendizagem
107 Formas de incerteza. Informação
115 Conceito intuitivo de probabilidades
120 Medição de incerteza. Conceito da entropia
123 Resolução das actividades do capítulo

3. Cálculo de probabilidades
129 Objectivos de aprendizagem
131 Acontecimentos e conjuntos
137 A teoria das probabilidades
140 Cálculo de probabilidades quando o espaço de resultados é finito
14 7 Resolução das actividades do capítulo

5
4. Métodos gerais de contagem
155 Objectivos de aprendizagem
157 O princípio da multiplicação
162 O binómio de Newton e o triângulo de Pascal
166 O princípio da inclusão-exclusão
171 Resolução das actividades do capítulo

5. Probabilidades condicionadas
179 Objectivos de aprendizagem
181 Conceito de probabilidade condicionada
187 Acontecimentos independentes
191 O teorema de Bayes
199 Resolução das actividades do capítulo

6. Variáveis aleatórias
207 Objectivos de aprendizagem
209 Conceito de variável aleatória
214 Função de probabilidade
223 Função de densidade
233 Resolução das actividades do capítulo

7. Descrição gráfica e numérica das distribuições


249 Objectivos de aprendizagem
251 Medidas de localização
261 Medidas de dispersão
265 Momentos de ordem superior. Medidas de forma
267 Desigualdade de Chebychev
271 Resolução das actividades do capítulo

8. Variáveis aleatórias discretas


281 Objectivos de aprendizagem
283 Variável aleatória uniforme discreta
284 Variável aleatória de BernouHi
287 Variável aleatória binomial
290 Distri;buição geométrica

6
293 Distribuição hipergeométrica
296 Distribuição de Poisson
301 Resolução das àctividades do capítulo

9. Distribuição normal
315 Objectivos de aprendizagem
317 A distribuição normal
321 Normal estandardizada
326 Propriedades da distribuição normal
329 Resolução das actividades do capítulo

10. Outras variáveis aleatórias contínuas


341 Objectivos de aprendizagem
343 O modelo uniforme
348 Distribuição exponencial
352 Distribuição gama
357 Distribuição do qui-quadrado
361 Resolução das actividades do capítulo

11. Somas de variáveis aleatórias


373 Objectivos de aprendizagem
375 Somas de variáveis aleatórias
379 O teorema do limite central
385 Resolução das actividades do capítulo

12. Relações entre variáveis aleatórias


395 Objectivos de aprendizagem
397 Distribuições conjuntas
401 Distribuições bivariadas discretas
406 Distribuições bivariadas contínuas
408 Covarância e correlação
411 Resolução das actividades do capítulo

13. Introdução à inferência estatística


419 Objectivos de aprendizagem

7
421 População, amostra, estatística
429 O problema da estimação pontual
439 Resolução das actividades do capítulo

447 Abreviaturas e símbolos mais usados

45 I Bibliografia geral

455 Anexo A - Tabela da distribuição normal

459 Anexo B - Tabela da distribuição gama


1. Descrição dos dados das observações
1.1. Objectivos.

No final deste capítulo o formando deve ser capaz de:

Distinguir entre dados resultantes de estudos observacionais e de


experiências planeadas.

Distinguir entre dados uni variados e dados multivariados.

Distinguir entre variáveis discretas e variáveis contínuas.

Construir e interpretar tabelas de frequências e funções de distribuição


empírica.

Construir e interpretar gráficos de barras, caule-folhas e histogramas.

Construir e interpretar gráficos de dispersão simples e múltiplos.

Calcular e interpretar a média, a moda, a mediana e outros quantis de


um conjunto de observações.

Calcular e interpretar os coeficientes de assimetria e achatamento de


um conjunto de observações.

Caracterizar, empiricamente, os conceitos de probabilidade e de distri-


buição.

19
1.2. Observador, instrumento, objectos. Os dados.

Os dados são o resultado final dos processos de observação e experimentação.

Os dados expressam, sob a forma de números ou outros símbolos, aspectos do


mundo que foram considerados relevantes para se atingirem os objectivos de
certos observadores.

Pode dizer-se que os dados resultam da interacção das seguintes entidades:

O observador.
O instrumento de observação.
Os objectos observados.

Exemplo 1.2.1.

Numa certa aula de estatística, o professor, com o objectivo de ilustrar


conceitos básicos, pede aos alunos presentes que respondam a um
questionário formado pelas seguintes perguntas:

Número do aluno:

Que idade tem? (anos):

Quanto pesa? (kg):

Qual a sua altura? (cm):

Qual o seu sexo? (MIF):

Qual a cor dos seus olhos?


C- Castanhos
V- Verdes
N- Negros
A- Azuis

Quanto calça? (número)

21
Eis os dados resultantes deste processo de observação:

N°dO Idade Sexo Peso Altura Olhos Pé


aluno (anos) (FIM) (kg) (cm) (C,V,N,A) (No)
x1 Xz x3 x4 Xs x6
1 19 F 50 160 c 36
2 20 M 75 175 v 42
3 28 M 75 180 A 40
4 20 M 60 165 c 41
5 22 M 68 179 c 41
6 22 M 65 I70 c 40
7 21 F 46 158 c 34
8 21 M 56 I65 v 40
9 20 M 64 180 c 40
IO 19 M 60 165 c 40
II 24 M 64 175 c 42
12 23 M 70 178 v 41
13 23 F 58 164 c 37
14 31 M 75 174 c 40
15 24 F 45 160 c 35
16 24 F 54 152 A 34
17 25 M 55 163 A 39

No exemplo anterior, o observador é o professor que, tendo por objectivo


ilustrar certos conceitos elementares de estatística, resolve desencadear, na
própria aula, o processo de observação.

O instrumento de observação (aparelho de medida) é o questionário. Este instru-


mento permite observar cada um dos «objectos» de interesse (os alunos) sob
vários aspectos, facetas ou atributos: as colunas - simbolizadas por X], X2.. X3,
X4, Xs, X6.

Em resumo, no exemplo anterior temos:

Observador = professor
Insttumento = questionário
=
Objectos observados alunos.

Repare-se que os dados deste exemplo reflectem a influência decisiva do


observador: é este quem estabelece os objectivos, selecciona os objectos e os
aspectos a observar.

O instrumento (o questionário improvisado na aula) e as condições da


observa)Jão (os dados são fornecidos de memória) condicionam as escalas
usadas para expressar a idad,e (X1) em anos; o p.eso (X3) em kg; e a altura (X4)
em cm.

Exerhplificando com a idade: as pessoas não conhecem, em geral, a sua idade


exacta num certo instante - sabem quantos anos têm e sabem a data de

22
nascimento, o que permitiria calcular a idade em dias. Mas, na esmagadora
maioria dos casos, ignoram o instante (horas, minutos, segundos) em que
nasceram.

Do mesmo modo, sabem qual o resultado da última medição da própria altura,


mas são incapazes de a expressar com aproximação aos milímetros ou décimos
de milímetros.

Os dados resultantes dos processos de observação podem, frequentemente, ser


apresentados sob a forma de um ou vários quadros (tabelas) de duas entradas,
como o exemplificado no exemplo 1.2.1. Estes quadros contêm, no cruzamento
da linha correspondente a um objecto com a coluna correspondente a uma
variável, o valor observado dessa variável sobre o objecto.

Assim, no exemplo 1.2.1., no cruzamento da linha 4 (que corresponde ao aluno


número 4) com a coluna 4 está o valor 60 kg, que é o valor da variável X3 (peso)
sobre o objecto 4 (aluno número 4) .

.· · · ·• · [i;;> Num quadro deste tipo, o efeito do observador está implícito na


selecção dos objectos a observar e na escolha das variáveis.

''
• • A disposição tabular mencionada atrás falha, contudo, quando
certas variáveis não têm sentido para alguns dos objectos observados. Nesses
caso, uma disposição adequada para os dados poderia ser a da figura 1.2.1.

Objecto Identificação Valor


da variável observado
1 x, 19
l x2 F
1 x3 50
I x4 160
l Xs c
1 x6 36
2 x, 20
2 x2 F
2 x3 50
... ... ...
... ... ...

Figura 1.2.1.

Agora, o símbolo de identificação da variável constitui, ele próprio, um dado. A


disposição ilustrada na figura 1.2.1. é conhecida pela sigla «objecto, variável,
valor» e em cada uma das suas linhas está o valor assumido por uma variável
sgbre um objecto.

Por exemplo: (9, X3 , 64) significaria, no contexto do exemplo 1.2.1., que a


variável X3 (peso) tem o valor 64 kg sobre o objecto (aluno) de identificador 9.

23
~ Quando, para cada objecto a observar, o observador apenas está
interessado num aspecto (característica, propriedade, atributo, faceta, variável),
os dados resultantes dizem-se univariados.

Exemplo 1.2.2. (Dados univariados)

As áreas (em km2) dos distritos do continente eram, segundo o Anuário


Estatístico de 1993, as seguintes:

Distrito Área
Número Nome (km2)
1 Aveiro 2800
2 Beja 10223
3 Braga 2695
4 Bragança 6597
5 C. Branco 6616
6 Coimbra 3971
7 Évora 7396
8 Faro 4986
9 Guarda 5540
10 Leiria 3508
l1 Lisboa 2758
12 Portalegre 6064
13 Porto 2341
14 Santarém 6707
15 Setúbal 5064
16 V. Castelo 2201
17 V. Real 4305
18 Viseu 5009

(Fonte: INE - Anuário Estatístico de Portugal - 1993)

Neste quadro de dados, os objectos observados são os distritos do


continente português e a única variável observada é a área respectiva,
expressa em km 2• Trata-se de observações univariadas.
#

== b> Quando, para cada objecto observado, se registam simultaneamente os


valores de vários aspectos relevantes (atributos, propriedades, variáveis,
características), diz-se que os dados sãci multivariados.

Mais precisamente: quando, para cada objecto, se observam simultaneamente p


variáveis, diz-se que os dados são p - vmiados. ·

Assim, no caso do exemplo 1.2.1., em q1:1e para cada aluno se registam


simultaneamente os valores de seis variáveis, os dados dizem-se multivariados
de dimensão 6 ou 6 - variados.

24
Actividade 1.2.1.

O Anuário Estatístico de Portugal, publicado pelo Instituto Nacional de


Estatística apresenta dados relativos aos hóspedes alojados, em cada ano,
em estabelecimentos hoteleiros (hotéis; apartamentos, motéis, estalagens,
pensões) por país de residência habitual desses hóspedes.

Por exemplo, do Anuário Estatístico de Portugal 1993 colheram-se os


seguintes números, relativos ao ano de 1992.

Origem Hotéis Apartamentos


Portugal 3385793 207773.
Alemanha 638894 91188
Reino Unido 862993 121093

Qual o quadro de dados originais a partir do qual poderiam obter-se estas


tabulações? Quais os objectos observados? Quais as variáveis? Qual o
observador? Qual o instrumento de observação?

1.3. Tipos de variáveis, medições e escalas.

Os aspectos (facetas, características, propriedades, atributos) que


um observador distingue nos objectos envolvidos num certo
problema ou situação designam-se, na prática da estatística, por
variáveis. O termo variável (por oposição ao conceito de
constante ou invariante) justifica-se pelo facto de, quando se
consideram todos os objectos envolvidos no problema, o valor
dessa propriedade, em geral, variar de objecto para objecto.

CONVENÇÃO: As variáveis designam-se por letras maiúsculas.


Os valores específicos que essas variáveis têm
sobre os objectos observados representam-se por
minúsculas.

Por exemplo: se a característica que nos


interessa considerar num certo conjunto de
indivíduos é a altura, esta designa-se por X. A
altura de um indivíduo específico designa-se por
X.

Consideremos, agora, uma variável univariada (com uma só


componente ou dimensão) e analisemos a natureza dos valores que
pode assumir, bem como o processo de atribuição de valores à XJ é constante
variáveL

25
Do ponto de vista conceptual, isto é, sem ter em conta os problemas práticos
ligados ao modo como são atribuídos os valores às variáveis, estas podem
classificar-se em duas categorias básicas, se apenas atendermos à natureza dos
valores que podem assumir: variáveis qualitativas e variáveis quantitativas.

Os valores possíveis de uma variável qualitativa são, como o nome indica,


qualidades ou símbolos, para os quais não tem sentido qualquer relação de tipo
quantitativo (maior, menor). Em relação a esses valores só faz sentido falar de
igualdade ou desigualdade.

Exemplo 1.3.1. (Variável qualitativa)

Seja X a variável sexo.

Independentemente dos símbolos que se usem para representar o sexo,


este só pode assumir duas qualidades: masculino e feminino.

Não faz sentido dizer que masculino < feminino, ou que masculino é
duplo de feminino.

Faz sentido dizer que o sexo de duas pessoas é o mesmo ou que é


diferente.
#

Uma variável é quantitativa quando tem sentido representar os seus valores por
meio de números: a variável é quantitativa quando os seus valores puderem ser
comparados pelo menos através de uma relação de ordem.

As variáveis quantitativas dizem-se discretas quando os seus valores puderem


ser postos em correspondência biunívoca com um subconjunto dos números
inteiros.

3 Xt Exemplo 1.3.2. (Variável quantitativa discreta)


2 .
Xo
1 XJ Seja a variável X número de anos de estudo das pessoas de um certo
o X4 grupo. Em relação aos valores desta variável tem sentido dizer que a
-I xs pessoa A tem menos (ou mais) anos de estudo do que a pessoa B. Isto é:
-2 X6 tem sentido dizer que a variável X assume, para a pessoa A, um certo
valor que é menor (ou maior) que o valor assumido por X para a pessoa
B.
#
Uma variável quantitativa é contínua quando essa variável assumir valores que
possam ser postos em correspondência biunívoca com um intervalo de números
b reais.

Exemplo 1.3.3. (Variável quantitativa do tipo contínuo)


X
Suponhamos que os objectos que interessam a certo problema são
a lâmpadas eléctricas. Seja T «tempo de duração de uma lâmpada». Este
tempo pode ser qualquer valor do intervalo [O,+ oo).
#

26
~Na definição das variáveis não entram quaisquer considerações acerca
do modo como estas variáveis assumem os seus valores: as variáveis são
conceitos, que existem na mente do observador.

A medição é o processo através do qual são atribuídos os valores às variáveis.

',' ', ' • • Implícitos no processo de medição estão os conceitos de escala, de


.unidade e o de instrumento de medição com a respectiva precisão.
T
Para tomar mais claras estas distinções pensemos no problema de medição do
tempo \dé vida T das lâmpadàs, usando instrumentos (relógios) cuja precisão é
finita. Se medirmos T com um relógio cuja precisão é de 1 minuto (não consiga
distinguir tempos de duração inferior ao minuto), o resultado dessa medição é
expresso por valores diferentes dos que se obtêm quando essa mesma variável é
medida por um relógio digital que tenha precisão da or<lem dos centésimos <le
segundo. A variável T é melhor aproximada pelas observações geradas pelo
segundo relógio do que pelas observações geradas pelo primeiro. I, 2, 3, ..., 1.01, 1.99, ...
Podem resumir-se intuitivamente' os problemas postos pela mediç'ão através da
figura 1.3.1., em que os objectos a observar são representados por pirâmides
cujas faces são as variáveis Xt. X2, X3, X4.

,,~calai
'~"/,., (unidade 1)
".r
• Escala2
_ (unidade 2)

Escala4

Escala3

Figura 1.3.1.

''

v~ável
• Na figura 1.3.1., os instrumentos / 1 e h estão a medir a mesma
X2 em escalas diferentes, expressando os valores de X2 .em unidades
,diferentes, reali~ando observações de precisão diferente. A variável é a mesma,
mas os dados observados são diferentes .

. •~ O problema da medição de uma variável do tipo qualitativo consiste,


~~~enc:J~lrpente, em classifiçar gs valqres respec:tivos numa .escala literal.

27
Por exemplo, seja a variável qualitativa sexo.

Eis algumas escalas adequadas ao processo de medição desta variável:

{M, F}, {0, 1}, { 1, 2}, {A, B},{ 26}. .


O processo de medição de variáveis deste tipo consiste em classificar o sexo de
um ser humano numa das duas categorias ou símbolos da escala literal de dois
valores.

~ Para as variáveis de tipo quantitativo, distinguem-se três tipos de


escala:
Escalas de tipo ratio.
Escalas de intervalo.
Escalas ordinais.

Uma escala de tipo ratio caracteriza-se pelas três propriedades seguintes:

1. Quaisquer dois valores da escala podem ser expressos sob a forma de


quociente.
l
Em particular, faz sentido falar do valor zero ou origem.

2. A distância entre duas posições .quaisquer da escala tem significado.

3. Os elementos da escala podem ordenar-se do menor para o maior e vice-


versa.

Exemplo 1.3.4. (Escala do tipo ratio)

A temperatura absoluta - medida em graus Kelvin acima do zero


absoluto (-273°C) - é uma escala do tipo ratio. A temperatura, nesta
escala, é interpretada como uma manifestação da agitação molecular. O
zero absoluto corresponde à ausência de agitação molecular. Faz pois
sentido (isto é: tem significado físico) dizer que uma temperatura é
dupla de outra e falar de origem.
#

Uma escala de intervalo difere da escala do tipo ratio· por não existir uma
origem fixa. É caracterizada por unidades iguais: a mesma diferença real (na
natureza, no mundo) no valor da variável traduz-se pela mesma diferença dos
valores correspondentes da escala.

Exemplo 1.3.5. (Escala de intervalo)

Consideremos que a variável é a altura das pessoas e que para medir


esta altura se usa uma escala métrica.

Se aplicarmos a escala e três pessoas A, B e C e as suas alturas forem


160 cm, 175 cm, 180 cm, respectivamente, pode dizer-se que a pessoa B
é 15 cm mais alta do que a pessoa A e que a pessoa C é 5 cm mais alta

28
do que a pessoa B, o que é equivalente a dizer que B é 15 cm mais alta
que A e que C é 20 cm mais alta que A.
#

Uma escala é do tipo ordinal quando apenas tem a propriedade 3: os elementos


da escala podem ordenar-se do menor para o maior e vice-versa mas a escala
não tem necessariamente unidades iguais.

Exemplo 1.3.6. (Escala do tipo ordinal)

Numa certa escola, o resultado dos testes de uma disciplina é expresso


na seguinte escala: «Não satisfaz, satisfaz, satisfaz largamente».

Faz sentido considerar a ordem «Não satisfaz < Satisfaz < Satisfaz
largamente», ou então expressar essas classificações por A, B, C,
respectivamente e dizer que A < B < C. c c c
B
Contudo não se pode dizer que a diferença real de competências B
existente entre dois alunos que tenham sido classificados com B e C é a
mesma diferença que existe entre dois alunos classificados com A e B.
Isto é: pode suceder que à diferença C - B corresponda, na realidade, B
uma diferença de competências muito maior do que a diferença de
A A A
competências correspondentes às marcas B e A na escala em questão .
#

Actividade 1.3.1 .

Usa-se uma escala em graus Celsius (O a 100°C) para medir a


temperatura dos corpos. Classifique a escala usando a nomenclatura
atrás definida.

Actividade 1.3.2 .

Usa-se uma escala de O a 100 para expressar os resultados de um teste


de Física. Classifique essa escala.

1.4. Origem dos dados: observações e experiências planeadas.

Em estatística há que distinguir entre dois tipos de dados: os que resultam de


experiências planeadas ou controladas e os que resultam de estudos
observacionais.

~Nas experiências planeadas é o observador quem decide que objectos


vão ser observados e em que condições vão ser observados.

29
Nos estudos observacionais, o observador não tem qualquer papel na escolha
dos objectos a observar, limitando-se a observar os que estão disponíveis.

Exemplo 1.4.1, (Experiênciaplaneada)

Pretende-se saber se uma nova vacina é ou não eficaz na prevenção de


uma certa doença. A eficácia mede-se pela concentração (y) de uma
certa substância no sangue dos doentes: se a concentração diminui com
o tratamento, este é eficaz.

A experiência consiste em aplicar uma injecção a pessoas seleccionadas


ao acaso numa certa região, sendo essas pessoas divididas em dois
blocos: às pessoas de um dos blocos é injectada a vacina e às pessoas do
outro bloco é aplicada uma injecção aparentemente semelhante mas
inócua.

Deste modo, as pessoas não sabem se foram ou não sujeitas à nova


vacina e, portanto, os resultados não podem ser influenciados por esse
conhecimento. A escolha das pessoas a quem é aplicada, efectivamente,
a vacina, é feita ao acaso.

O bloco a quem é aplicada a verdadeira vacina designa-se bloco de


tratamento; o outro bloco designa-se bloco de controlo.

Suponhamos que se aplicou a vacina a dez pessoas, sendo oito o número


das que ficaram no grupo de controlo. Os resultados (valores de y
expressos numa escala conveniente) poderiam apresentar-se no seguinte
formato:

Tratamento Controlo
Y1.1= 8.0 Y2.1 = 10.0
Y1.2= 7.0 y2,2= 9.5
YI,3= 8.0 Y2.3= 8.5
Y1.4= 8.5 Y2.4= 9.5
Y1.s= 7.5 Yz.s= 8.8
YI.6= 10.0 Yz.6=9.5
y1.7= 9.5 Y2.1= 10.0
Y1.s= 7.8 Y2.s= 9.5
YI,9= 8.5
YI.I0=9.0

30
;";f:Estes,dados<também poderiam apresentar-se na fonna tabular seguinte:

Valores de y Bloco {T ou C) T- Tratamento


C- Controlo
8.0 T
7.0 T
8.0 T
8.5 T
7.5 T
10.0 T
9.5 T
7.8 T
8.5 T
9.0 T
10.0 c
9.5 c
8.5 c
9.5 c
8.8 c
9.5 c
10.0 c
9.5 c

Neste. conf(!xto, é o observador qu.em determina o modo como a


e~periênéia' é feita: os doente~ não sabem se estão ou não sob o efeito da
nova vacina; do mesmo modo, a selecção dos. que efectivamente foram
vadll#dos é feita ao acaso. Estes cuidados, detenninados pelo
oilservador (experimentador), garantem que, na análise qos resultados,
se possa separar claramente o efeito do medicamento do efeito de outros
fact?res (psicológicos, por exemplo) que pod~r,iam, de optro modo, ficar
«misturados» e indistinguíveis do efeito da vacina, tomando
inconclusiva a experiência.
#

~/V,eJamo,s, agora, um outro contexto em· que o observador não tem qualquer
·na escolha dos objectos a observar, limitando-,se a observar os

. Ex~mplo 1.4.2. (Estudo obseryacional)

JJm~ companhia de seguros está a realizar estudos visando criar uma


nqv~ forma de seguro, cobrindo acidentes profissionais próprios de uma
.classe socioprofissional
;- .
específica.
. '

O estudo passa pela análise dos registos relativos a todos os ac;identes de trabalho,
envolvendo essa classe socioprofissional, de que houve conhecimento.

31
Deste modo, espera-se poder determinar a frequência com que esses
acidentes ocorrem, como primeiro passo para o estabelecimento do
valor do prémio a exigir aos segurados.
#

Neste exemplo 1.4.2., constata-se que o observador não tem qualquer influência
na escolha dos objectos a observar: limita-se a estudar os dados disponíveis.
Um estudo assente nos dados assim obtidos poderia conduzir a uma imagem
enganadora da realidade. Poderia suceder, por exemplo, que certos acidentes
relevantes para a definição da apólice não tivessem sido registados ou não
estivessem acessíveis por razões de confidencialidade- o que faria com que o
seu efeito não fosse tido em conta.

Actividade 1.4.1.

Pretende-se estudar a variável «tempo que certos doentes sobrevivem a


uma intervenção cirúrgica feita usando uma técnica específica». Para tal,
registam-se as datas dessas operações e a data do falecimento dos doentes
respectivos, quando essa data é conhecida.

De que tipo de estudo se trata?

Actividade 1.4.2.

Dispõe-se de uma lista das 1000 empresas mais importantes de um certo


sector da actividade económica. Pretende-se conhecer a opinião dos
gestores desse sector acerca das perspectivas a curto prazo para a
evolução do sector. Escolhem-se ao acaso, dessa lista, l 00 empresas cujos
gestores vão ser entrevistados.

De que tipo de estudo se trata: experiência planeada ou estudo


observacional?

Actividade 1.4.3.

Uma certa organização regista sistematicamente os instantes de


ocorrência das avarias dos seus equipamentos, bem como as causas
dessas avarias, quando conhecidas. O departamento de engenharia de
manutenção deseja estabelecer uma nova política de manutenção para os
motores de uma certa marca e modelo em serviço nessa organização. Para
tal, consulta os registos e deles extrai as datas das avarias respeitantes aos
equipamentos que interessam ao estudo.
De que tipo de estudo de trata?

32
L5.lntrodução à estatística descritiva. Contagens e tabelas de frequências.

Face aos dados resultantes de experiências e da observação dos processos


:naturais, a questão básica que se põe é, quase sempre, a seguinte: como resumir
os aspectos essenciais dos dados? Será que existem regularidades, tendências,
ciclos, concentrações, ... , padrões, dignos de nota nos dados?

Por vezes, dada a enorme quantidade de dados disponíveis, a questão central é:


r"'"""''r os dados de forma que a informação neles contida possa ser
facilmente comunicada e assimilada?
-
este o papel da chamada estatística descritiva ou análise de dados. 1-

Em análise de dados ou estatística descritiva procura-se apresentar


dos dados aos potenciais utilizadores por forma que os aspectos
e:s~•encmts da mensagem neles contida seja fiel e facilmente transmitida.

inferência estatística a questão central é: como usar os dados para tentar


conclusões acerca do todo ou população de onde são originários os dados?

à frente serlJ.o apresentadas as técnicas básicas da descrição dos dados


e bivariadas. A ilustração de algumas técnicas de inferência esta-
exige o estudo prévio da teoria das probabilidades e será diferida até ao
o\.f,'''vUJ.'UUJlV 13.

(,;<>m«~cem<)S pelas tabelas de frequências.

Exemplo 1.5.1.

Torne a examinar a tabela do exemplo 1.2.1., com os dados relativos a


estudantes de uma turma de estatística. Considere a coluna relativa à
variável Sexo (X2) dos referidos 17 estudantes, cujos valores, expressos
11a \'!Scala literal {M, F} a seguir se repetem:

!sexo I FMMMMMFMMMMMFMFFM

Um modo conveniente de resumir estes dados é contar o número de


vezes que ocorrem os dois «valores» possíveis: M e F, usando uma
tabela como a seguinte:

Valor Frequências Frequências


absolutas relativas
M 12 12/17
F 5 5/17
Total 17 1

33
Resumindo, pode dizer-se que o valor «F» ocorre 5 vezes em 17 e o
valpr «M» ocorre 12 vezes em 17.

A tabela anterior dá a frequência com que cada um dos valores da


variável ocorre nos dados observados e apresenta esta informação de
dois modos: em valor absoluto (frequência absolut~) e valor relativo
(proporção ou frequência relativa).

Assim, a frequência absoluta do valor «M» é n 1= 12 e a respectiva


frequência relativa é /J= Q=
17
0.71. Para o valor «F», n 2= 5,
.
-F2
J~
= .2_=
17
=0.29.

· · ···:z:>
Pode interpretar-se as frequências relativas do seguinte modo:
se escolhermos «ao acaso» um aluno da turma, a «probabilidade» de
que a pessoa escolhida seja uma mulher é 29% e a «probabilidade» de
que seja um homem é 71%.
#

A tabela apresentada no exemplo anterior é um caso particular da seguinte


forma:

Valores Frequências Frequências ··


absolutas relativas
(n;) J; =n; I n
VJ llj A= n 1 I n
V2 112 !2 =n2 I n
V3 ll3 !1 = n3 I n
... ... ...
Vk nk !t.: = nk/ n
k
Soma I
n=Ln;
i= I

Na primeira coluna figuram todos os valores diferentes que ocorrem nas


observações; a segunda coluna contém o resultado das contagens desses valores
(frequências absolutas)e a terceira coluna contém as proporções dos valores no
total (frequências relativas).

Nos exemplos seguintes apresentam-se formatos de tabelas adequadas aos


diversos tipos de variáveis.

Exemplo 1.5.2. (Idades)

Voltando ao quadro do exemplo 1.2.1., consideremos, agora, as idades


dos alunos da turma, aqui reproduzidas por comodidade (variável X1):

19, 20, 28,20, 22, 22, 21, 21, 20, 19, 24, 23, 23, 31, 24, 24, 25.

34
A nível de conceito, a idade das pessoas é uma variável do tipo contínuo
vistO poder assumir qualquer valor positivo. Contudo, uma. vez que as
pessoas expressam as respectivas idades em anos completos, tudo se
passa como se os dados observados correspondessem a uma variável do
tipo discreto.

A contagem dos valores distintos pode realizar-se percorrendo as


observações sequencialmente, marcando um «X» sempre que um valor
apareça pelo menos uma Véz. No final, o número de marcas «X»
correspondentes a cada valor diferente dá a respectiva frequência
absoluta. No caso presente, se procedermos como indicado, obtemos o
seguinte:

19 XX
20 XXX
21 XX
22 XX
23 XX
24 XXX
25 X
28 X
31 X

Ou, sob a forma tabular:

Valor n; fi - Frequência relativa.


19 2 - Proporção.
7{7 =0.118 - Probabilidade.
20 3 ){7 =0.176 - Percentagem.

21 2 7{7 =0.118
22 2 7{7=0.118
23 2 7{7 =0.118
24 3 ){7 =0.176
25 1 }{7 =0.059
28 1 }{7 =0.059
31 1 }{7=0.059
Total 17 1

m ~ Mais uma vez, podemos interpretar o significado das


frequências relativas pensando do seguinte modo: se escolhermos ao
acaso um almio da turma mencionada, a «probabilidade» de que o aluno

35
escolhido tenha, por exemplo, 20 anos é ~ == 0.176. A probabilidade de
17
2
que tenha 23 anos é - == 0.118.
17
#

Ao contrário do que sucedia no exemplo 1.5.1. - em que não fazia sentido


ordenar os valores «M» e «F» - no exemplo 1.5.2, caso de variáveis discretas,
faz sentido ordenar os seus valores por ordem crescente. Feito isto, pode
pensar-se no número de alunos que, na turma, têm mais de 25 anos; ou no
número de alunos que, na turma, têm idades entre 18 e 24 anos ...

... ··.·0)> Também faz sentido pensar nas percentagens ou proporções (ou
probabilidades) correspondentes a esses números.

Tendo este facto em conta, a tabela de frequências é completada com mais duas
colunas: uma para acumular as frequências absolutas e outra para acumular as
frequências relativas.

O novo formato da tabela- ilustrado com os elementos do exemplo 1.5.2. -


9/17 seria, agora, o seguinte:

Valor Frequência Frequência Frequência Frequência


absoluta absoluta relativa relativa
n; acumulada fi acumulada
N; F;
10 20 21 22 19 2 2 2 2
- -
17 17
20 3 5 3 5
- -
17 17
21 2 7 2 7
- -
17 17
22 2 9 2 9
- -
17 17
23 2 11 2 11
- -
17 17
24 3 14 3 14
- -
17 17
25 1 15
-
1 -15
17 17
28 1 16 1 16
- -
17 17
31 ] 17 1 17
- -
17 17
Total 17 1

36
colunas «Frequência absoluta acumulada» (N;) e «Frequência relativa
·"'"'""'u""u''" (F;) obtêm-se das colunas de frequências absolutas e frequências
somando ou acumulando os valores respectivos.

Por exemplo, na linha correspondente a 22 anos figura o valor 9 na coluna de


""'''""''"''"'" absolutas acumuladas: corresponde ao número de pessoas com 22
ou menos N4= n, + nz + ll3 + n4 = 2 + 3 + 2 + 2 =9.

valor correspondente na coluna das frequências relativas acumuladas é


2 3 2 2 9
F4=!1 +h+f, +14= -+-+-+-=-.
- . 17 17 17 17 17

As frequências absolutas acumuladas podem interpretar-se pensando


resposta a dar à seguinte questão (ver exemplo 1.5.2.): «Se escolhermos ao
um aluno da turma referida, qual é a probabilidade de que o aluno
~·'"'n"n"'" tenha 22 anos ou menos?». A resposta é dada pela proporção (ou

percentagem) de alunos que têm 22 anos ou menos. Isto é: _2_.


17

''
• • Nas duas disposições anteriores, não há qualquer perda de
informação quand() se passa dos dados para as tabelas de distribuição de
frequência - a não ser a ordem pela qual as observações foram obtidas. Isto
significa que podemos voltar aos dados iniciais a partir das frequências
absolutas.

Contudo, quando o número de valores distintos observados é muito elevado, a


listagem das frequências destes valores torna-se incómoda, convindo, neste
caso, agrupar os dados em classes.

I• I• O agrupamento dos dados em classes faz-se sempre com perda de


informação, como se ilustra no exemplo seguinte:

Exemplo 1.5.3. (Alturas)

Voltando à tabela do exemplo 1.2.1., considerem-se as 17 observações


da variável X4 (alturas) -expressas em cm- dos alunos da turma, que
aqui se reproduzem por comodidade:

160, 175, 180, 165, 179, 170, 158, 165, 180, 165, 175, 178, 164, 174,
160, 152, 163.

37
Agmpando agora estes valores em quatro classes de igual amplitude e
classificando as observações nas classes obtidas, obtém-se a tabela
seguinte:

Classes Observações
150- 155 152,
155- 160 158,
160- 165 160, 164, 160, 163
165- 170 165, 165, 165,
170- 175 170, 174,
175- 180 175, 180, 179, 180, 175, 178

Substituindo cada observação por «X» temos a seguinte representação:

Classes
150- 155 X
155- 160 X
160- 165 xxxx
165- 170 XXX
170-175 XX
175 e mais xxxxxx
Nesta última representação há perda de informação em relação aos
dados originais: não podemos passar das marcas «X» para os valores
observados.

Contando o número de «X» em cada classe, pode constmir-se a seguinte


tabela:

Classes n; N; fi F;
150-155 1 1 1 1
- -
17 17
155- 160 1
-1
2 2
-
17 17
160- 165 4 6
-4 -
6
17 17
165-170 3 9 3 9
- -
17 17
170-175 2 11
-2 11
-
17 17
175- 180 6 17 6 17
- -
17 17
Total 17 1

38
!A tabela do exemplo anterior, também poderia apresentar-se na forma:

Classes n; N; f; F;
tso- 1 1
-17
1
-
1
17
1~5- 1 2
'' -1 2
-
I·· 17 17
160- 4 6 4 6
- -
-: :;:.
17 17
165- 3 9
-3 -179
17
'
J70- 2 11
., -2 -
11
17 17
175 e mais 6 17 6 17
- -
17
' 17
Totl}.l 17 ! 1

·C) símbolo «150 -» significa, agora, a classe [150,155) formada por


todoitos valores entre 150 e 155, excluindo o 155.
#

e~~~tem regras universalmente aceites, aplicáveis a todos os tipos de


·v,..,,.v... · para construir as tabelas com distribuições de frequências. Contudo,
procurar-se satisfazer as seguintes regras, sempre que possível:

Calcular os valores extremos das observações e, por diferença, a


amplitude de variação (máximo-mínimo).

, :Escolher o número de classes. :Em geral, este número não deve ser
inferior a 5 e não deve ser superior a 15. O número de classes pode ser
.,.escolhido como o menor k tal que 2k;:::: n.

Exemplo: n= 100
26= 64 < 100
27= 128 >100

Logo, escolher k= 7.

É desejável que o ponto médio das classes coincida com dados


· observados.

4. Deve evitar,-se, sempre que possível, que existam observações


coincidentes com as fronteiras das classes.

(, Sempre que possível usar classes de igual amplitude.

;;:··· É desejável que cada classe tenha pelo menos cinco observações.

39
Actividade 1.5.1. (Distritos)

Considere a tabela seguinte, relativa aos distritos do continente (Fonte:


Anuário Estatístico de Portugal, INE, 1993 ).

Continente Número de Número de Área População


concelhos freguesias total residente
Aveiro 19 208 2800 658300
Beja 14 98 10223 166470
Braga 13 512 2695 754760
Bragança 12 298 6597 154680
C. Branco lJ 159 6616 211810
Coimbra 17 207 3971 425420
Évora 14 88 7396 172380
Faro 16 78 4986 342040
Guarda 14 336 5540 185410
Leiría 16 148 3508 426200
Lisboa 15 215 2758 2047980
Portalegre 15 86 6064 132400
Porto 17 385 2341 1651970
Santarém 21 191 6707 441860
Setúbal 13 81 5064 716180
V. do Castelo 10 290 2210 248290
Vila Real 14 266 4305 233130
Viseu 24 372 5009 398770

a) Em relação aos dados anteriores, identifique: - objectos


observados; - variáveis.

b) Construa uma tabela de distribuição de frequências do número de


concelhos por distrito, não agrupando os dados.

c) Construa uma tabela de distribuição de frequências da área total,


agrupando a área total em quatro classes.

A tabela de distribuição de frequências - como o próprio nome indica - dá uma


ideia da tendência que os valores observados têm (ou não) para se concentrarem
nas diversas regiões ou em torno de certos valores. Se a um valor ou a uma
classe corresponde uma grande frequência, isso significa que esse valor ocorre
frequentemente, ou que os valores tendem a situar-se, frequentemente, nessa
classe.

40
no lt$g<l.r da. palavra .«frequência>> usarmos a palavra «probabilidade», vê-se
a tabela de distribuição de frequência é uma tabela de distribuição de
rtlt•nt•ili1d.a1r1es de ocorrência dos valores da variável em causa.

a ideia inicial do uso do chamado gráfico de caule- folhas seja muito


TUKEY, J. W. (1977)
trabalho clássico de TUKEY - Exploratory Data Analysis - facto é Exploratory Data Analysis
partir do aparecimento desta obra que o seu uso tem vindo a (EDA)

Exemplo 1.6.1. (Caule-folhas)

Considerando novamente os dados do exemplo 1.2.1. e,


especificamente, a variável X3 (peso em kg), repetem-se aqui esses
valores:

50, 75, 75,60,68,65,46,56,64,60,64, 70,58, 75,45, 54,55.

' Consideremos cada um destes valores divididos como ilustrado para o


valor 68:
618
Caule J 'L Folha.
Procedendo de igual modo para todos os outros valores, obtém-se o
seguinte gráfico caule-folhas para as 17 observações mencionadas,
depois de ordenadas:

415
416
510
514 ou 415 6
515 5104568
516 6100458
518 710555
610
610 Caule+~_ _ ___.I ._I---..• Folhas
614
615
618
710
715
715
715
Uma vez que a escolha dos dígitos que vão constituir o caule e as folhas
é arbitrária, convém acompanhar o gráfico caule-folhas de informação
que permita descodificá-lo.

41
No caso presente, o gráfico final poderia apresentar-se na forma:

415 6 Chave:
5104568 415 significa 45 kg.
6100458
710555
#

Exemplo 1.6.2.

As áreas em km2 dos distritos do continente são as seguintes:

2800,10223,2695,6597,6616,3971,7396,4986,5540,3508,2758,
6064,2341,6707,5064,2210,4305,5009.

(Fonte: Anuário Estatístico de Portugal, INE, 1993)

Consideremos em primeiro lugar uma divisão em caule-folha ilustrado,


por exemplo, por:
26195

Caule _j L Folha

Procedendo do mesmo modo para os outros valores, os dados ordenados


e com a separação caule I folhas indicadas seriam:

221 10, 23 141, 26195, 27 158, ... , 73 196, 102123

o que conduziria ao seguinte gráfico caule-folha:

22 10
23 41
26 95
27 58
28 00
35 08
39 71
43 05 Chave:
22110 significa 2210 km 2.
49 86
50 09
50 64
55 40
60 64
65 97
66 16
67 07
73 96
102 23

42
Escolha manifestamente infeliz, visto que conduz a um número
excessivo de classes no caule.

Urnaescolha mais adequada corresponderia à divisão exemplificada em

21210

Caule ~ ~-'---+~ Folha

étnque a unidade é agora 1000 km 2•

Se, nas folhas, arredondarmos para o inteiro mais próximo, ficaria:

212, 213, 216, 217, 218, 315, 319,413, 419, 510, 510, 515, 610, 615, 616, 617, 713,
. 1012.

obtehdo~se o seguinte gráfico caule-folhas.

2 23678
3 59
4 39
5 005
6 0567
7 3
8 Chave:
9 212 significa 2200 km 2 •
10 2

Observe-se a menção das classes vazias 8, 9. O espaço em branco no


local das folhas dessas classes corresponde a ausência de informação.

O gráfico também se pode apresentar na forma:

7
5 6
9 9 o 5 Chave:
5 3 o o 3 212 significa 2200 km2•
3 4 5 6 7 8 9 10

anterior põe a questãp de saber qual o número adequado de linhas


classes) no gráficoc;aule-folhas.

Hoaglin I Mosteller I Tukey sugerem que esse número pode ser


Hoaglin I Mosteller I Tukey
pela expressão L= [10 x log 10 n], em que n é o número de (1983 )
o símbolo [x] significa o maior número inteiro contido em x. Por

43
Assim, no caso do nosso exemplo 1.6.2, n=l7. Nesse caso <deveria ter-se
L= (10 x log 10 17] =(12.30) =12 .

Uma vez que a amplitude R=max-min=10223-2210=8013, então


R= 8013 =667.75.
L 12

Arredondando para a potência de 10 mais próxima (1 O\ o uso desta regra


aponta para o valor 1000 como comprimento do intervalo - o que corresponde
ao que foi feito na segunda parte do exemplo em questão.

· D> Tal como sucedia com as distribuições de frequências, o tipo de


informação fomecida por este tipo de gráfico tem, essencialmente, a ver com
algo que poderíamos designar como a intensidade com que podemos esperar a
ocon·ência de valores em cada uma das regiões do intervalo (min, max] e que
adiante designamos por densidade (de probabilidade).

Actividade 1.6.1.

Os números de concelhos nos distritos do continente eram, de acordo com o


Anuário Estatístico de Portugal, INE, 1993, os seguintes:

Distrito
Número Nome Número de
concelhos
1 Aveiro 19
2 Beja 14
3 Braga 13
4 Bragança 12
5 C. Branco 11
6 Coimbra 17
7 Évora 14
8 Faro 16
9 Guarda 14
10 Leiria 16
11 Lisboa 15
12 Portalegre 15
13 Porto 17
14 Santarém 21
15 Setúbal 13
16 V. Castelo 10
17 V. Real 14
18 Viseu 24

Obtenha um gráfico caule-folhas do número de concelhos. Como poderia


este gráfico ser usado para classificar os distritos do ponto de vista do
número de concelhos?

44
. Gráficos de barras e gráficos circulares.
Ver
gráfico de barras, a cada classe de valores da variável corresponde uma SCHMID CALVIN (1982)
cujo comprimento (ou altura) é proporcional à frequência (absoluta ou «Statistical Graphics>>
J. Wiley
dessa classe.

modo geral, esta representação é adequada para observações provenientes


variáveis qualitativas (ou simbólicas).

Quando as barras são desenhadas verticalmente, o gráfico designa-se


gráfico de colunas.

' Num gráfico de barras a espessura da barra não tém significado


Apenas o comprimento da .barra o tem: representa a frequência
ou absoluta da categoria respectiva.
A
1-
B I
1-
_f_ c::::J
f

barras devem ficar separadas por espaços, marcando bem a fronteira entre D c::::J

. '

Usandoos dados do exemplo 1.2.1, consideremos a variável X5 (cor dos


olhos). Eis os seus valores para os I 7 alunos da tunna:

~V,A,C,C,C,C,V,C,C,C,V,C,C,C,A,A.

Construindo a tabela de frequências absolutas e relativas, tem-se:

Classe
Nome Símbolo n; f;
Castanhos c 11
17 =o . 647
...!l_

Azuis A 3 _1_ =0.176


17
Verdes v 3 3
17 = 0.176
Total 17 1

O gráficode barras correspondente seria:

Cor o
I
Castanhos
Azuis
Verdes --
[~~=~

I . #

i'.:a~~ Uma boa regra a ter em conta na construção destes gráficos consiste
em ordenar as categorias de acordo com um certo critério.

45
Um bom critério de ordenação é a frequência rel(;}tíva ou absoluta das
categorias.

Deste modo, sobre as categorias da variável ~ em relação às quais não faz


sentido uma relação de ordem - pode, depois de calculadas as frequências,
introduzir-se a relação de ordem correspondente a estas frequências: uma
categoria (ou símbolo) vem antes de outra categoria ou símbolo se a frequência
da primeira for mais elevada do que a frequência da segunda.

Assim (exemplo 1.7.1.),a ordem induzida na cor dos olhos por esta regra seria:
Castanhos > Azuis > Verdes.

· .. ·.· ··~ Em muitos contextos, esta ordem induzida tem interesse prático.~ como
se vê no exemplo 1.7.2.

O gráfico com as categorias ordenadas por ordem decrescente da frequência


relativa é conhecido por gráfico de Pareto.

Exemplo 1.7.2. (Causas de avaria)

O quadro seguinte resultou da classificação e contagem de avarias


verificadas em embarcações, durante um certo período de tempo. Para
cada componente da embarcação indica-se o número de avarias
registadas nessacomponente.

Componente Número de. Frequências


avariada vezes relativas
(n;) (jí)
Bomba de água 3 0.048
Embarcação (casco) 16 0.254
Motor de arranque 7 0.111
Caixa redutora 4 0.063
Hélice 3 0.048
Sistema combustível 0.016
Motor propulsor 15 0.238
Veio propulsor 3 0.048
Leme 4 0.063
Tubo de escape 2 0.032
Sistema de arrefecimento 1 0.016
Sistema eléctrico 4 0.063
Total 63 1.000

Se ordenarmos por ordem decrescente de ocorrência de avarias


(frequências relativas), temos agora q quadro:

4.6
Componente Iii J; 1
avariada
Embarcação (casco) 16 0.254
2 Motor propulsor 15 0.238
-1
3 Motor de arranque 7 0.111
Caixa redutora. .:::·:::::.:::::;:\
":
4 0.063
~;<)::;.: .. <··c
Leme .::c;;_'.,;:,_t;·::\. 4 0.063
Sistema eléctrico 4 0.063
Hélice 3 0.048
Veio propulsor 3 0.048
Bomba de água 3 0.048
Tubo de esca~, 2 0.032.
Sistema de .combt~stível 1 0.016
Sistema de arrefecimento 1 0.016
Total 63

Vê-se que a ordem induzida pelas frequências relativas tem grande


intérhse prático no estabelecimento de uma lista de prioridades visando
'iiiJ$;::ã'1âf~~chtcão 'de recursos' que resolvam o" problema das paragens por
Devem atacar-se em primeiro lugar os' problemas maiores e
:-3-'·C::SI,C::S: SãO: 0 CaSCO, 0 mOtOr prOpUlSOf 'e 0 InOtOr de arranque,
responsáveis por 60% das avarias .

. significa que 60 em 100 avarias respeitam a estas componentes. Ou


· ainda: a probabilidade de que Uma avaria envolva as três componentes
é0.6.
#

certo inquérito de rua pergunta-se a 42 pessoas qual a estação de TV


mais frequência nas Ultimas duas semanas (1, 2, 3, 4). Eis as

'3~ 3, 3, 1,2, 4,3, 4, 3,}, 1,.4,4, l, 3, 1, 4, 3, 4,3, 3, 4, 1, 4; 1, 1, 3,


1, 3, 1, 3, 1, 4, 2, 2, 1, 3, 1, 3, 4.

A i~forma_ção contida num gráfico de barras pode também apresentar-se


"::"'sobá!foriria de gráficos circulares.

47
Num gráfico circular, a frequência relativa é representada pelo
comprimento do arco respectivo, como se sugere na figura seguinte.

B
Figura 1.7.1.

Assim, no caso da figura anterior, à bana - B - corr-espondente à frequência


·
re1ativa -2 =-, 'do o sector c1rcu
l f'1ca assocta ~ Io
. Iar a que correspon de o angu
4 2
360" = 180°. A cada uma das barras - A e C - de frequência relativa 1
2 4
corr-esponderiam sectores circulares de ângulos 360 x _!.. = 90°.
4

·· . · ZJ;> Oraio do círculo não tem, neste contexto, qualquer .significado. A


informação anterior poderia, igualmente, ficar representada pelos gráficos
circulares que constam na figura 1 .7.2.

Figura 1.7.2.

~O gráfico circular - apesar do seu uso generalizado - tem graves


inconvenientes, alguns dos quais ilustrados na figura 1.7.2.

Assim, não é a área do sector que é proporcional à frequência relativa, mas sim
o arco corr-espondente. No entanto, é a área o elemento gráfico mais saliente;
este facto pode distorcei' a percepção das frequências relativas, como se ilustra
na figura 1. 7 .2.

Outro inconveniente é de ser bastante limitado o número de categorias que


podemos introduzir num gráfico circular, sob pena de este se tomar
incompreensível.

48
,~..,:~qn;@.os,daqos do exemplo 1.7.2., relativos a avarias de embarcações,
,.at~-a~~~s.~Je um gráfico de barras e de um gráfico circular.

às tabelas de distribuição de frequências (ver exemplo 1.5.2.- Ida-


à, ç(;J:lu,na das frequências .relativas acumuladas, antes de proceder a
agrupamento dos valores em classes.

que os valores inscritos na coluna das frequências relativas ~çumuladas


· · •rêsponder a questões do tipo: «Qual a percentagem dê .observações
· . · a um certo valor observado'!>> ou «Qual a percentagem de
~oéiru••.::ciijo '*'aldr está contido entre dois válorês observados?».

Exemplo 1.8.1. (Resultados de exames)

A tabela seguinte çontém a distribuição de frequências dos resultados


obtidos pelos 107 alunos de um curso de Português.

Freq. Freq. Freq. abs. Freq. rei.


absoluta relativa acumulada. acumulada
(h;) {f;) (N;) {F;)
1 0.009 1 0.009
1 0.009 2 0.019
2 0.019 4 0.037
0.019 6 0.056
0.028 9 0.084
9 0.084 18 0.168
26 0.243
8 7 0.065 33 0.308
9 14 0.131 47 0.439
1(} 12 0.112 59 0.551
14 0.131 73 0.682
8 0.075 81 0.757
7 0.065 88 0.822
7 0.065 95 0.888
7 0.065 102 0.953
4 0.037 106 0.991
17 1 0.009 107 1.000

49
Se as regras usadas na classificação dos testes especificarem que a
escala de classificação é formada pelos números inteiros {O, 1, 2, ... ,
20}, então os dados constituem observações de uma variável discreta.
Caso a escala de classificação tenha sido especificada como sendo
formada pelo intervalo [0,20), então as observações podem considerar-
se provenientes de uma variável contínua - o que pressupõe que as
competências dos alunos variem de modo contínuo.

No primeiro caso não teria sentído, em princípio, pôr a questão: «Qual a


percentagem de alunos com resultado inferior a 12.50?»; visto. que,
então, o resultado 12.5 não poderia ocorrer.

No segundo caso, essa questão teria sentido, visto que, então, poderia
ocorrer o resultado 12.5.

· . ·. ·. ···P>
Dispondo de uma tabela de distribuição de frequências - cons-
truída com as observações provenientes de variáveis do tipo discreto ou
contínuo - pode definir-se, à custa dessa distribuição de frequências,
uma função- a função de distribuição empírica- que, para todo o x,
permite responder à questão: qual a proporção dos valores ql1e. são
inferiores a x?
#

Actividade 1.8.1.

Use a tabela de frequências do exemplo 1.8.1. para responder às seguintes


questões:

a) Qual a percentagem de resultados inferiores a 12 valores?

b) Qual a percentagem de resultados superiores a 17 valores?

c) Qual a proporção de alunos que teve pesultados entre 11 e 15 valores?

d) Qual a probabilidade de que, escolhido um dos alunos ao acaso, este tenha


«nota» inferior a 13 valores?

e) Qual o resultado que só é ultrapassado por 25% dos alunos?

Actividade 1.8.2.

Tome a considerar a tabela de frequências do exemplo 1.8.1. e procure


responder às seguintes questões, assumindo que a escala de classificações
usada só comportava números inteiros: {O, 1, 2, ... , 20}.

a) Qual a proporção de resultados inferiores a 14.5 valores?

b) Qual aproporção de resultados superiores a14.2 valores?

50
A actividade anterior põe em evidência a necessidade de, na prática,
·. respostas para as questões do tipo: qual a percentagem de valores
~•.w'"''''"'vs até um valor x qualquer, faça ou não esse valor parte da escala.

de questão obtém-se através da chamada

·,m,Pr.'•mt~"
por construir o respectivo gráfico à custa da coluna das frequências
acumuladas: trata-se de uma função em escada cujos patamares
tresoc>hdem aos valores das frequências relativas acumuladas que constam da
frequências.

s a construção desse gráfico com um exemplo.

E*emplol.8.2. (Resultados dos exames)

,Usando a tabela de frequências dos resultados dos exames de Português,


podemos representar, graficamente, através de uma função em escada,
valores das frequências relativas acumuladas em função dos valores
o~sery11dos, depois de ordeJ1ados (ver figura J .8.1.).

Função de distribuição Êmpírica

2 3 4 5 6 7 8 9 10 X 1 12 13 14 15 16 17 18 19 20
Resultados

Figura 1.8.1

Nas abcissas inscrevem-se os valores observados, depois de ordenados:


à escala é definida pelo valor míniino (O) e pelo valor máximo obser-
vado (17). Contudo, uma vez que a variável observada pode, even-
tualmente, assumir o valor 20, a escala horizontal poderia ir de O a 20.

A escala vertical vai sempre de O a 1 (ou de O a 100%).

51
Para valores de x (neste caso, resultado a Português) entre dois valores
observados, a função é constante, visto não haver nos dados informação
que habilite a dizer o contrário.

Para todos os valores superiores ao máximo (neste caso, 17 valores) a


função assume o valor de 1.
#

Raciocinando ainda sobre o exemplo 1.8.2., vê-se que o resultado da construção


gráfica é uma genuína função que podemos designar F(x) pois, para cada
valor x do eixo das abcissas (tenha esse valor sido ou não observado, faça ou
não parte da escala), há um e um só valor da função F(x).

Por exemplo: para o valor x = 10.25 - que não tem sentido numa escala de
classificação {0, 1, 2, ... , 20} ou que, tendo sentido para uma escala [0,20], não
colTesponde a um valor observado- F(l0.25)= 0.551.

Observe-se que F(l0.50) = F(l0.25) = F(x) = 0.551 para todo o valor de x


pertencendo ao intervalo [10,11), fechado à esquerda e aberto à direita.

Convenção: A função de distribuição empírica simboliza-se por F,(x), em que n


é o número de observações. Com esta notação pretende-se vincar bem que,
apesar de se tratar de uma função como qualquer outra, ela é definida a partir
dos dados observados: a cada conjunto de observações corresponde a sua
própria função de distribuição empírica.

Actividade 1.8.3.

Use a função de distribuição empmca cujo gráfico foi construído no


exemplo 1.8.2. para responder às seguintes questões:

a) Qual o valor de F 107 (12.5)?

b) Qual o valor de Ft0709.2)?

c) Qual o valor de l-F 107 (1 0.5)?

d) Qual o valor de F 107(7.2)- Ft07(4.5)?

Actividade 1.8.4.

As determinações do pH de uma solução ácida, obtida por uma turma de


estudantes do secundário, foram:

4.5, 4.5, 5.1, 5.2, 4.9, 5.3, 5.0, 5.5, 4.9, 5.9

Obtenha a respectiva função de distribuição empírica.

52
semelhanÇa do que sucede com o gráfico caule-folhas, na função de
ctl,str.lbUlca:o empírica não há qualquer perda de informação relativamente às
"""'"'n·'"'"''"'""" da função de .distribuição empírica podemos sempre voltar às

Contudo, o seu gráfico é· de difícil interpretação e não torna evidentes


sucede com outras representações gráficas alternativas - certas
mctiprtedadi~S importantes da distribuiÇão de frequências.

disso, para conjuntos de observações muito numerosas, resultantes da


· de variáveis do tipo contínuo, a função de distribuição empírica
em geral, muito longa, difícil de manipular e, como tal, pouco eficaz
instrumento para sintetizar ou resumir os dado·s. ·

factos f1ãO tiram importância à função de distribuição empírica - apenas


a razão porque as alternativas (como o histograma, a ver
~uiclarr1~n1te) são mais usados.

iiiE=flt:> Um gráfico intimamente associado ao gráfico em escada da função de


rlsrnou1c:ao empírica, é o chamado polígono de frequências acumuladas, em que
pontos representativos das frequências relativas acumuladas são unidos por
,,.,.,m.pnrr.., de recta, como se pode ver no exemplo 1.8.3..

Exemplo 1.8.3. (Polígono de frequências acumuladas)

A figura seguinte dá o polígono de frequência acumulada


correspondente aos resultados obtidos pelos 107 alunos mencionados no
exemplo 1.8.1.

Pollgono· de Frequências Acumuladas·

0.9

Oc8'

J z s 4 & s 7 ~ e m n m a M g w rr • w •
Resufladbs

Figura 1.8.2.

Repare-se que, agora, no lugar dos degraus da função em escada


figuram segmentos de recta a ligar frequências réJativas acumuladas de
valores sucessivos.
#

53
A diferença entre as duas representações vê-se melhor nafigura 1.8.3.

0.551

0.439 - - . - - - - - - - .. - - ,- -Q
I I
I I

I
1 I
0.243
--- <?

8 9 x=9.5 10 11

Figura 1.8.3.

Enquanto na função de distribuição empmca F 107 (9.5) = 0.439 (gráfico a


tracejado), o polígono de frequências acumuladas dá (gráfico a cheio), para o
valor x= 9.5, o valor y tal que:

0.551 - 0.439 y- 0.439


10-9 9.5-9

Isto é: y = 0.439 + 0.5 x O.ll 2 = 0.495.


1

''
• • Vê-se que esta nova função (e respectivo gráfico) tem subjacente a
hipótese de que a frequência acumulada, entre os dois valores observados,
cresce linearmente com os valores da variáveL Por contraste, a função de
distribuição empírica cinge-se, exclusivamente, aos dados: não introduz
qualquer hipótese de variação da distribuição para lá do que é, estritamente,
afirmado pelos dados.

Graficamente, a função assim construída é mais «suave» e mais «sugestiva» do


que a função de distribuição empírica; contudo, a função de distribuição
empírica é mais correcta.

A vantagem da primeira reside exclusivamente, em facilitar ao sistema visual


humano a tarefa de proceder, quando necessário, ao ajustamento de uma curva
aos pontós das frequências relativas acurtmladas. Porém, esse polígono
pressupõe uma grande dose de arbitrariedade: porquê uma variação linear e não
uma variação polinomial ou de outra forma?

54
qúantis, histogramas e polígonos de frequências.

da função de distribuição empírica ou do polígono de frequências


pode, facilmente, responder-se a questões do tipo: qual o valor xq tal
lifrequênêia relativa acumulada até xq é q?

'I"~U''-'"•avestá ilustrada na figura seguinte, usando o polígono de frequências


correspondentes aos resultados obtidos pelos 107 alunos
no exemplo 1~8.1. (Resultados dos Exames).

PoUgono de Frequências Acumuladas

0.9

o.e
0.6

0.4

0.3

0.2

0.1

0~~==~~--~--------~----------------~
o 1 2 3 4 5 6 7 8 9 10 . ,, 12 13 14 15 16 17 18 19 20
Aesulcadoa

Figura 1.9.1.

que o resultado que não é ultrapassado por 75% dos estudantes é xo.1s=

um modo geral, seja q um valor qualqJJ~r da frequência acumulada (entre O e


xq obtém-se através da construção geométrica ilustrada na figura 1. 9.1. e
''"'"~-'v'''-'"' ao valor da variável X tal que a frequência acumulada até esse valor

> .. . dos quantis (valores correspondentes a un1 certo valor da


uu,,uv•a relativa acumulada).

a prática, é habitua] trabalhar com quantis que correspondem a probabilidades


ue são múltiplas de uma certa quantidade q.

~x~friplo, se q= 0.01, obtêm-se os c,entis: xo.oi. Xo,oz, Xo.03, ... , Xo.99.·

xo.I. Xo.z, ... , Xo.9·

Xo.2s, xo.s, Xo.75·

Admitindo que p&ra os resultados obtidos por um certo conjunto de


alunos o primeiro quartil é x 0.25 = 1O valores e o terceiro quartil é

55
Xo.7s=l5 valores, isto significa que 0.5:= 0,75-0.;25 dos alunos têm os
seus resultados entre 1Oe 15 valores.
#

Vê-se pelo exemplo anterior que, entre outras utilizações, os quantis servem
para caracterizar o modo como os valores das variáveis se distribuem ao longo
dos respectivos domínios.

· ·.·. •. .t;:> No n.
1.6. estabeleceu-se o primeiro contacto com os histogramas: o
0

gráfico caule-folhas é uma forma de histograma.

·.· •· ··~Um histograma é uma representação gráfica formada por barras


verticais de áreas proporcionais às frequências das classes, por forma que a área
total das barras seja 1, numa certa escala.

'I"
freq./
unidade

13.1%

I
I I
o 12 14 16 X

Figura 1.9.2.

''
• • O histograma . é um instrumento gráfico adequado para
descrever a ideia intuitiva de que a concentração das observações -
expressa em número (ou percentagem) de observações por unidade da
variável observada (densidade) - varia consideravelmente ao longo do
domínio da variável em estudo.

Partindo da função de distribuição empírica, podeiTios calcular a frequência


relativa correspondente a qualquer intervalo que llos interesse. Contudo, o
histograma tem a grande vantagem de expressar, graficamente, de modo
mais directo, esses valores.

Actividade 1.9.1.

Use a função de distribuição empmca construída com as frequências


constantes da tabela do exemplo 1.8.1. (Resultados de exames) para calcular
a frequência relativa com que ocorrem valores no intervalo (12 a 14].

56
actividade anterior verificou-se que a frequência relativa com que ocorrem
no intervalo (12 a 14] é dada pela diferença 0.888- 0.757= 0.131.

das observações (resultados dos exames) estão no intervalo

questão pode, pois, ser respondida de modo exacto para qualquer intervalo
valores que nos interesse - desde que se conheça a função de distribuição

Isto significa que podemos sempre construir os histogramas à custa da


de distribuição empírica- embora esta ordem não seja a usual...

construir um histograma, o primeiro passo é especificar os limites das


vas classes.

limites - e, portanto, o número de classes e a respectiva amplitude - são


por considerações práticas ou por regras nem sempre universalmente

Exemplo 1.9.2.

Admita-se que um certo organismo público usa os resultados dos


exames de Português para classificar os candidatos em quatro
categorias, de acordo com a seguinte especificação:

Categoria A: Os que obtêm resultados abaixo de 7 valores.


Categoria B: Os que obtêm resultados entre 7 e 11 valores.
Categoria C: Os que obtêm resultados entre 11 e 15 valores.
Categoria D: Os que obtêm resultados entre 15 e 18 valores.
Categoria E: Os que obtêm resultados acima de 18 valores.

Usando os resultados da distribuição de frequências especificada no


exemplo 1.8.1., os 107 alunos-candidatos seriam distribuídos por estas
categorias de acordo com as seguintes percentagens:

Categoria Limites Freq. relativa


A [0,7) 0.168
B [7,11) 0.551-0.168=0.383
c [11 '15) 0.888-0.551=0.337
D [15,18) 1-0.888=0.112
E [18,20] 1-1=0.000
#

completar a tabela anterior, de frequências relativas das classes


nidas, calculando as alturas (h;) das barras correspondentes a cada classe,
a fórmula/;= h; x a;, em que J; é a frequência da classe i, h; a altura da
a desenhar na classe i e a; a respectiva amplitude.

57

Você também pode gostar