Você está na página 1de 51

Estatística Descritiva

Diz-se que deixámos de ser uma sociedade industrial para passarmos


a ser uma sociedade de informação, onde é necessário tomar decisões
rápidas e bem fundamentadas.

A Estatística fornece métodos que auxiliam o processo de tomada


de decisão através da análise dos dados disponíveis. Está dividida
em duas áreas:

ˆ Estatística Descritiva: conjunto de técnicas apropriadas


para sumariar a informação recolhida de uma amostra de uma
população, de modo a melhor interpretar essa informação;

ˆ Estatística Inferencial: conjunto de técnicas que, com


base na informação recolhida de uma amostra de uma
população, permitem tirar conclusões sobre essa população.
A quanticação da incerteza associada às conclusões é feita com
recurso ao cálculo de probabilidades.

Hugo Alonso, ULP - 2019/2020 1


População: grupo de todos os elementos que se pretende estudar
relativamente a um ou mais atributos que todos possuem.

O valor dos atributos pode variar de elemento para elemento da


população. Diz-se, por isso, que os atributos são variáveis.

As medidas relativas a uma população designam-se por parâmetros.


Os parâmetros são xos, isto é, não variam. No entanto, são muitas
vezes desconhecidos, uma vez que muitas vezes não é possível aceder
a todos os elementos da população. São exemplos de parâmetros:
ˆ N : tamanho da população;

ˆ µ: média da população;

ˆ σ : desvio-padrão da população.

Exemplo: suponha que se pretende estudar a idade, em anos, na


população correspondente a todos os alunos que, no primeiro dia de
aulas, estão inscritos numa certa disciplina. Admita que há um total
de quatro alunos, ou seja, que o tamanho da população é N = 4.
A idade é um atributo que todos possuem. Trata-se de uma variável
dado que o valor da idade pode variar de aluno para aluno. A idade
média na população, representada por µ, é uma medida relativa à
população e, portanto, diz-se um parâmetro. Se não for possível
inquirir todos quanto à idade, não é possível conhecer a idade média
na população:

Hugo Alonso, ULP - 2019/2020 2


Aluno Idade (anos)
Gonçalo 18
Inês 19
João ?
Maria 20

Idade média na população : µ = 18+19+?+20


4 = ?? anos 

Amostra: subgrupo da população selecionado para análise.

As medidas relativas a uma amostra designam-se por estatísticas.


As estatísticas são variáveis, pois o valor que tomam pode variar de
amostra para amostra. Numa amostra conhecida, tem-se o seguinte
para valor de algumas estatísticas:
ˆ n: tamanho da amostra;

ˆ x̄: média da amostra;

ˆ s: desvio-padrão da amostra.

Exemplo: no exemplo anterior, o grupo de quatro alunos corresponde


à população e o subgrupo de três alunos que se inquiriu e cujas idades
são conhecidas corresponde a uma amostra. O tamanho da amostra a
que se teve acesso é então n = 3. A idade média numa amostra é uma
medida relativa a uma amostra e, portanto, diz-se uma estatística. No
caso particular da amostra conhecida, o valor desta estatística é:

18 + 19 + 20
Idade média na amostra : x̄ = = 19 anos 
3

Hugo Alonso, ULP - 2019/2020 3


Etapas na resolução de um problema estatístico:

Hugo Alonso, ULP - 2019/2020 4


Classicação de dados

Os atributos ou variáveis que se pretende estudar nos elementos de


uma população podem ser classicados em função do modo como são
medidos. Esta classicação é importante pois determina o modo
como os dados devem ser tratados e analisados.

Tem-se as seguintes possibilidades:


 

 nominal
qualitativa






 ordinal


Variável:

 


 contínua
quantitativa





 discreta

ˆ qualitativa (numérica ou não numérica): a variável representa


qualidades, categorias ou classes e não faz sentido operar com os
valores que toma, como adicioná-los, mesmo que sejam numéricos;

ˆ qualitativa nominal: não há uma relação de ordem natural


entre os valores da variável;
Exemplo: sexo de um indivíduo, registado como feminino (0)
ou masculino (1).
Nota: a representação de feminino como 0 e de masculino como
1 é apenas uma codicação, arbitrária, não tendo qualquer signi-
cado quantitativo.

Hugo Alonso, ULP - 2019/2020 5


ˆ qualitativa ordinal: há uma relação de ordem natural entre os
valores da variável;
Exemplo: qualidade de um vinho, registada como má (1),
razoável (2) ou boa (3).
Nota: a representação de má como 1, de razoável como 2 e de boa
como 3 é apenas uma codicação, arbitrária, não tendo qualquer
signicado quantitativo. Note que, apesar de arbitrária, a codi-
cação respeita a ordem dos valores: má = 1 < razoável = 2 <
boa = 3.

ˆ quantitativa (numérica): a variável representa quantidades,


resultantes de contagens ou de medições, e faz sentido operar
com os valores que toma, como adicioná-los;

ˆ quantitativa contínua: a variável pode tomar qualquer valor


num intervalo de números;
Exemplo: temperatura de um local, medida em graus Celsius.

ˆ quantitativa discreta: a variável toma apenas valores isola-


dos, ou seja, não é verdade que possa tomar qualquer valor num
intervalo de números;
Exemplo: número de clientes de uma empresa.

Fornecido um conjunto de dados, recorre-se a tabelas, grácos e me-


didas estatísticas para sumariar a informação e em seguida analisá-la.
As tabelas e os grácos que se constroem e as medidas estatísticas que
se calculam variam com a natureza dos dados, isto é, são diferentes
para dados nominais, ordinais e quantitativos.

Hugo Alonso, ULP - 2019/2020 6


Representação tabular de dados univariados

Dados univariados são dados de uma só variável. A sua representação


tabular é um resumo da informação registada.

Tabela de frequências: tabela que disponibiliza um acesso rápido


ao número (frequência absoluta) e à proporção (frequência relativa)
de observações de uma variável com um determinado valor ou num
intervalo de valores (classe de valores).

Notação geral (símbolos convencionados):


x1 , . . . , x n observações da variável
n número total de observações
k número de valores distintos ou de classes de valores
ni frequência absoluta do valor ou classe de valores i
fi = ni
n frequência relativa do valor ou classe de valores i
Ni = n1 + . . . + ni frequência absoluta acumulada do valor ou
classe de valores i
Fi = f1 + . . . + fi frequência relativa acumulada do valor ou
=
Ni classe de valores i
n

Hugo Alonso, ULP - 2019/2020 7


Tabela para dados nominais

Observações: x1, . . . , xn
Valores distintos: x01, . . . , x0k

Tabela de frequências:

Valores distintos Freq. abs. Freq. rel.


(x0i ) (ni ) (fi )
n1
x01 n1 f1 = n
n2
x02 n2 f2 = n
.. .. ..
. . .
nk
x0k nk fk = n
Total n 1

Breve interpretação:

ˆ n1 representa o número de vezes que foi observado o valor x01

ˆ f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
o valor x01

Exemplo: perguntou-se a várias pessoas qual o seu estado civil:


casado (1), divorciado (2), solteiro (3) ou viúvo (4)? Registou-se o
seguinte: 3, 4, 3, 2, 3, 1, 3, 1. A variável em estudo é o estado civil de
um indivíduo e é qualitativa nominal. Tem-se n = 8 observações para
a variável, x1 = 3, x2 = 4, . . . , x7 = 3, x8 = 1, mas apenas k = 4 são
distintas, x01 = 1, x02 = 2, x03 = 3, x04 = 4. A tabela de frequências
que resume a informação registada é a seguinte:

Hugo Alonso, ULP - 2019/2020 8


Estado civil N.º de indivíduos Prop. de indivíduos
(x0i ) (ni ) (fi )
casado (1) 2 0.250
divorciado (2) 1 0.125
solteiro (3) 4 0.500
viúvo (4) 1 0.125
Total 8 1.000

Com base na tabela, é possível dizer, por exemplo, que 4 dos 8 indi-
víduos envolvidos no estudo, ou seja, 50%, são solteiros. 

Tabela para dados ordinais ou quantitativos discretos com


poucos valores distintos

Observações: x1, . . . , xn
Valores distintos, por ordem crescente: x01 < . . . < x0k

Tabela de frequências:

Valores distintos Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(x0i ) (ni ) (fi ) (Ni ) (Fi )
n1
x01 n1 f1 = n N1 = n1 F1 = f1
n2
x02 n2 f2 = n N2 = n1 + n2 F2 = f1 + f2
.. .. .. .. ..
. . . . .
nk
x0k nk fk = n Nk = n Fk = 1
Total n 1

Hugo Alonso, ULP - 2019/2020 9


Breve interpretação:

ˆ n1 representa o número de vezes que foi observado o valor x01

ˆ f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
o valor x01
ˆ N2 = n1 + n2 representa o número de vezes que foi observado um
valor menor ou igual a x02
ˆ F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor ou igual a x02

Exemplo: perguntou-se a várias crianças qual o nível de ensino que


frequentam: 1.º ciclo (1), 2.º ciclo (2) ou 3.º ciclo (3)? Registou-se o
seguinte: 3, 3, 1, 3, 2, 1, 1, 2, 3. A variável em estudo é o nível de
ensino frequentado por um indivíduo e é qualitativa ordinal. Tem-se
n = 9 observações para a variável, x1 = 3, x2 = 3, . . . , x8 = 2, x9 = 3,
mas apenas k = 3 são distintas, x01 = 1 < x02 = 2 < x03 = 3, por ordem
crescente. A tabela de frequências que resume a informação registada
é a seguinte:

N.º de Prop. de N.º acum. de Prop. acum. de


Nível de ensino
crianças crianças crianças crianças
(x0i ) (ni ) (fi ) (Ni ) (Fi )
1.º ciclo (1) 3 0.333 3 0.333
2.º ciclo (2) 2 0.222 5 0.555
3.º ciclo (3) 4 0.444 9 1.000
Total 9 1.000

Hugo Alonso, ULP - 2019/2020 10


Com base na tabela, é possível dizer, por exemplo, que 5 dos 9 indi-
víduos envolvidos no estudo, ou seja, cerca de 56%, frequentam um
nível de ensino que não ultrapassa o 2.º ciclo. 

Exemplo: um clínico decidiu estudar o número de acidentes de tra-


balho por prossional de saúde que ocorreram no último ano no seu
hospital. A variável em estudo, o número de acidentes por prossional,
é quantitativa discreta. O clínico investigou e registou 397 valores para
a variável, um por cada um de 397 prossionais: 0, 1, 2, 1, 1, 2, 0, ....
Em seguida, sumariou a informação obtida na seguinte tabela de fre-
quências:

N.º de acidentes N.º de Prop. de N.º acum. de Prop. acum. de


por prossional prossionais prossionais prossionais prossionais
(x0i ) (ni ) (fi ) (Ni ) (Fi )
0 16 0.040 16 0.040
1 32 0.081 48 0.121
2 89 0.224 137 0.345
3 137 0.345 274 0.690
4 98 0.247 372 0.937
5 25 0.063 397 1.000
Total 397 1.000

Com base na tabela, é possível dizer, por exemplo, que 32 prossionais,


que correspondem a cerca de 8% de todos os envolvidos no estudo,
sofreram 1 acidente, e que 274 prossionais, que correspondem a cerca
de 69% do total, sofreram, no máximo, 3 acidentes. 

Hugo Alonso, ULP - 2019/2020 11


Tabela para dados quantitativos contínuos ou quantitativos
discretos com muitos valores distintos

Uma variável quantitativa contínua pode tomar qualquer valor num


intervalo de números e, portanto, é alta a possibilidade de se obser-
var muitos valores distintos. Neste contexto, não faz muito sentido
considerar as frequências absolutas e relativas dos valores observados;
a tabela resultante não seria um verdadeiro resumo da informação
registada. Denem-se então intervalos de valores (classes de valores)
e consideram-se as frequências absolutas e relativas desses intervalos
(classes). O mesmo aplica-se quando a variável é quantitativa discreta
e são observados muitos valores distintos.

Construção das classes de valores:


Observações: x1, . . . , xn

1. Determinar o número k de classes (regra de Sturges):


ln(n)
 
k= + 1,
ln(2)
onde b·c representa a parte inteira do número ·
2. Determinar a amplitude total a do conjunto de dados:

a = M − m,

onde M é o maior valor observado e m o menor


3. Determinar a amplitude ac de cada classe:
a
ac =
k

Hugo Alonso, ULP - 2019/2020 12


4. Construir as classes c1, . . . , ck da seguinte forma:

c1 = [m, m + ac[
c2 = [m + ac, m + 2 × ac[
...

ck = [m + (k − 1) × ac, m + k × ac]

Construção da tabela de frequências:

Observações: x1, . . . , xn
Classes: c1 = [L1, U1[, . . . , ck = [Lk , Uk ]
Pontos médios das classes: x01 < . . . < x0k , sendo o ponto médio da
classe ci = [Li, Ui[ dado por
Li + U i
x0i =
2
Tabela de frequências:

Classes P. médios Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
L1 +U1 n1
c1 = [L1 , U1 [ x01 = 2 n1 f1 = n N1 = n1 F1 = f1
L2 +U2 n2
c2 = [L2 , U2 [ x02 = 2 n2 f2 = n N2 = n1 + n2 F2 = f1 + f2
.. .. .. .. .. ..
. . . . . .
Lk +Uk nk
ck = [Lk , Uk ] x0k = 2 nk fk = n Nk = n Fk = 1
Total n 1

Hugo Alonso, ULP - 2019/2020 13


Breve interpretação:

ˆ n1 representa o número de vezes que foi observado um valor na


classe c1
ˆ f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
um valor na classe c1
ˆ x01 é o valor da classe c1 que se escolhe para representar, de forma
aproximada, cada um dos valores observados nesta classe
ˆ N2 = n1 + n2 representa o número de vezes que foi observado um
valor menor que o limite superior U2 da classe c2
ˆ F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor que o limite superior U2 da classe c2
Exemplo: um gestor decidiu estudar a produção diária da sua empre-
sa, medida em toneladas. A variável em causa é quantitativa contínua.
Os resultados registados em 60 dias foram os seguintes:

4.1 5.8 5.8 6.1 6.7 7.0 7.0 7.5 7.5 7.5 7.7 8.2
8.8 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2 9.2 9.4 9.4
9.7 9.8 10.0 10.0 10.2 10.2 10.3 10.6 10.6 10.8 10.9 10.9
11.6 11.7 11.8 11.8 11.8 12.0 12.2 12.2 12.3 12.5 12.6 12.7
8.3 9.4 11.0 14.0 8.5 9.5 11.1 14.2 8.7 9.5 11.1 14.8

O primeiro passo para sumariar esta informação consiste em construir


as classes em que os dados vão ser agrupados, determinando:

1. Número de classes:
ln(n) ln(60)
   
k= +1= + 1 = b5.906 . . .c + 1 = 5 + 1 = 6
ln(2) ln(2)

Hugo Alonso, ULP - 2019/2020 14


2. Amplitude total do conjunto de dados:

a = M − m = 14.8 − 4.1 = 10.7

3. Amplitude de cada classe:


a 10.7
ac = = = 1.783 . . . ≈ 1.8
k 6
4. Classes:
c1 = [4.1, 4.1 + 1.8[ = [4.1, 5.9[ c4 = [9.5, 11.3[
c2 = [5.9, 5.9 + 1.8[ = [5.9, 7.7[ c5 = [11.3, 13.1[
c3 = [7.7, 7.7 + 1.8[ = [7.7, 9.5[ c6 = [13.1, 14.9]

Uma vez determinadas as classes em que os dados registados devem


ser agrupados, obtém-se a seguinte tabela de frequências, que resume
então a informação disponível sobre a produção da empresa:

Produção diária (t) Pontos N.º de Prop. de N.º acum. de Prop. acum. de
Classes médios dias dias dias dias
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
[4.1, 5.9[ 5 3 0.050 3 0.050
[5.9, 7.7[ 6.8 7 0.117 10 0.167
[7.7, 9.5[ 8.6 18 0.300 28 0.467
[9.5, 11.3[ 10.4 17 0.283 45 0.750
[11.3, 13.1[ 12.2 12 0.200 57 0.950
[13.1, 14.9] 14 3 0.050 60 1.000
Total 60 1.000

Com base na tabela, é possível dizer, por exemplo, que a produção foi
inferior a 11.3 toneladas em 75% dos dias considerados e que se situou

Hugo Alonso, ULP - 2019/2020 15


entre as 13.1 e as 14.9 toneladas, ou seja, foi aproximadamente igual
a 14 toneladas, em 5% dos dias em análise. 

Medidas estatísticas comuns para dados univariados

A representação tabular de dados univariados, vista anteriormente,


permite conhecer a distribuição de frequências de uma variável para
a amostra que se está a considerar. As medidas estatísticas indicadas
a seguir descrevem características dessa distribuição.

Medidas estatísticas para dados quantitativos

Moda: representa-se por x̂ e é o valor que ocorre com maior


frequência. No caso de os dados estarem agrupados em classes,
identica-se a classe modal, isto é, com maior frequência, e o ponto
médio dessa classe fornece uma aproximação da moda.

Nota: se a moda for única, a distribuição diz-se unimodal. No caso de


haver mais do que um valor com igual frequência, sendo essa frequên-
cia máxima, a moda não é única e a distribuição diz-se multimodal.
Finalmente, no caso de todos os valores terem igual frequência, a moda
não existe e a distribuição, que é uniforme, diz-se amodal.

Exemplo: voltando ao exemplo do clínico que decidiu estudar o


número de acidentes de trabalho por prossional de saúde que ocor-
reram no último ano no seu hospital, tem-se que a moda é x̂ = 3
acidentes e, por ser única, a distribuição é unimodal. 

Hugo Alonso, ULP - 2019/2020 16


Exemplo: voltando ao exemplo do gestor que decidiu estudar a
produção diária da sua empresa, medida em toneladas, e conside-
rando os dados já agrupados em classes, tem-se que a classe modal é
[7.7, 9.5[ t e a moda é x̂ ≈ 8.6 t e, por serem únicas, a distribuição é
unimodal. 

Média: representa-se por x̄, trata-se de um valor de compromisso


das observações x1, . . . , xn e é dada por
x1 + . . . + xn
x̄ =
n

n1 × x01 + . . . + nk × x0k
=
n

= f1 × x01 + . . . + fk × x0k

Exemplo: voltando ao exemplo do clínico que decidiu estudar o


número de acidentes de trabalho por prossional de saúde que ocor-
reram no último ano no seu hospital, tem-se que a média é dada por

16 × 0 + 32 × 1 + . . . + 25 × 5
x̄ = ≈ 2.9 acidentes
397
ou

x̄ = 0.040 × 0 + 0.081 × 1 + . . . + 0.063 × 5 ≈ 2.9 acidentes.

Hugo Alonso, ULP - 2019/2020 17


Exemplo: voltando ao exemplo do gestor que decidiu estudar a
produção diária da sua empresa, medida em toneladas, e conside-
rando os dados já agrupados em classes, tem-se que a média é dada
por

3 × 5 + 7 × 6.8 + . . . + 3 × 14
x̄ = = 9.71 t
60
ou

x̄ = 0.050 × 5 + 0.117 × 6.8 + . . . + 0.050 × 14 = 9.71 t.

Média ponderada: representa-se por x̄w , trata-se de um valor


de compromisso das observações x1, . . . , xn, tendo em conta
ponderações w1, . . . , wn positivas que reectem a sua importância,
e é dada por
w1 × x1 + . . . + wn × xn
x̄w =
w1 + . . . + wn

Nota: a média x̄ é um caso particular da média ponderada x̄w , com


w1 = 1, . . . , wn = 1, ou seja, onde se dá a mesma importância a todas
as observações x1, . . . , xn.

Hugo Alonso, ULP - 2019/2020 18


Exemplo: um aluno obteve as seguintes classicações a três discipli-
nas, A, B e C:

Disciplina ECTS Classicação (valores)


A 6 10
B 3 14
C 3 15

A classicação média é dada por


10 + 14 + 15
x̄ = = 13 valores
3
e a classicação média ponderada pelos ECTS é dada por

6 × 10 + 3 × 14 + 3 × 15
x̄w = = 12.25 valores.
6+3+3
No primeiro caso, dá-se a mesma importância às classicações obtidas
nas três disciplinas. No segundo caso, dá-se maior importância à
classicação obtida na disciplina A, cujo ECTS é maior. 

Hugo Alonso, ULP - 2019/2020 19


É importante medir a dispersão das observações x1, . . . , xn em torno
da média x̄. Só assim é possível ter uma ideia sobre se a média é
ou não uma boa aproximação dessas observações. De facto, quanto
menor for a dispersão, melhor a média representa as observações. A
primeira medida de dispersão que se vai introduzir é o desvio-padrão.

Desvio-padrão: representa-se por s e é calculado da seguinte forma:


ˆ obtém-se primeiro a variância s2 :

2 (x1 − x̄)2 + . . . + (xn − x̄)2


s =
n−1

n1 × x012 + . . . + nk × x0k2 − n × x̄ 2
=
n−1

n
× f1 × (x01 − x̄)2 + . . . + fk × (x0k − x̄)2

=
n−1
ˆ e calcula-se em seguida o desvio-padrão s:

s= s2

Nota: o desvio-padrão s é sempre maior ou igual a 0: é igual 0 quando


não há dispersão em torno da média (todas as observações são iguais
à média); caso contrário, se não for igual a 0, é tanto maior quanto
maior for a dispersão em torno da média.

Hugo Alonso, ULP - 2019/2020 20


Exemplo: voltando ao exemplo do clínico que decidiu estudar o
número de acidentes de trabalho por prossional de saúde que ocor-
reram no último ano no seu hospital, apresenta-se a seguir uma forma
de organizar os cálculos conducentes à média e ao desvio-padrão:

x0i ni ni × x0i x0i 2 ni × x0i 2


0 16 0 0 0
1 32 32 1 32
2 89 178 4 356
3 137 411 9 1233
4 98 392 16 1568
5 25 125 25 625
Total 397 1138 3814

1138
Média: x̄ = ≈ 2.9 acidentes
397
3814 − 397 × 2.92
Variância: s = 2
≈ 1.2 acidentes 2
397 − 1

Desvio-padrão: s = 1.2 ≈ 1.1 acidentes

Hugo Alonso, ULP - 2019/2020 21


Exemplo: voltando ao exemplo do gestor que decidiu estudar a
produção diária da sua empresa, medida em toneladas, e considerando
os dados já agrupados em classes, apresenta-se a seguir uma forma de
organizar os cálculos conducentes à média e ao desvio-padrão:

x0i ni ni × x0i x0i 2 ni × x0i 2


5 3 15 25 75
6.8 7 47.6 46.24 323.68
8.6 18 154.8 73.96 1331.28
10.4 17 176.8 108.16 1838.72
12.2 12 146.4 148.84 1786.08
14 3 42 196 588
Total 60 582.6 5942.76

582.6
Média: x̄ = = 9.71 t
60
5942.76 − 60 × 9.712
Variância: s =
2
≈ 4.84 t2
60 − 1

Desvio-padrão: s = 4.84 ≈ 2.20 t

Hugo Alonso, ULP - 2019/2020 22


O desvio-padrão é uma medida de dispersão absoluta. Comparando-o
com a média, torna-se possível perceber se a dispersão das observações
em torno dela é ou não alta. Tal comparação é feita mediante o cálculo
do coeciente de variação, medida de dispersão relativa que se vai
introduzir a seguir.

Coeciente de variação: representa-se por CV e é dado por


s
CV = × 100%.

Nota: quanto menor for o coeciente de variação, melhor a mé-
dia representa as observações que se distribuem em torno dela. Se
CV ' 50%, considera-se que a dispersão das observações em torno
da média é alta e, neste caso, a média é pouco representativa do que
foi observado.

Exemplo: voltando ao exemplo do clínico que decidiu estudar o


número de acidentes de trabalho por prossional de saúde que ocor-
reram no último ano no seu hospital, tem-se o seguinte:

Desvio-padrão: s ≈ 1.1 acidentes

Média: x̄ ≈ 2.9 acidentes

Coeciente de variação: CV = 1.1


2.9 × 100% ≈ 38%

Hugo Alonso, ULP - 2019/2020 23


Exemplo: voltando ao exemplo do gestor que decidiu estudar a
produção diária da sua empresa, medida em toneladas, e considerando
os dados já agrupados em classes, tem-se o seguinte:

Desvio-padrão: s ≈ 2.20 t

Média: x̄ ≈ 9.71 t

Coeciente de variação: CV = 2.20


9.71 × 100% ≈ 23%

Comparando este exemplo com o anterior, é possível dizer que, neste


caso, a média representa melhor o que foi observado, uma vez que o
coeciente de variação é menor. 

Hugo Alonso, ULP - 2019/2020 24


As medidas estatísticas a seguir são medidas de localização, tal como
a moda e a média.

Percentil p: representa-se por Pp, é um valor que separa os p% de


menores observações dos restantes (100−p)% de maiores observações
e pode ser determinado do seguinte modo:
ˆ ordena-se as observações x1 , . . . , xn por ordem crescente:

x(1) ≤ x(2) ≤ . . . ≤ x(n)


p
ˆ calcula-se j = ×n
100
ˆ se j for um número inteiro, então Pp é a média dos valores que
surgem nas posições j e j + 1:
x(j) + x(j+1)
Pp =
2
ˆ se j não for um número inteiro, então Pp é o valor que surge na
posição bjc + 1:
Pp = x(bjc+1)

Quartis: representam-se por Q1, Q2 e Q3, dividem o conjunto de


dados em quatro partes, cada uma com cerca de 25% dos dados, e
são tais que:
ˆ Q1 = P25 é o primeiro quartil e corresponde ao percentil 25;

ˆ Q2 = x̃ = P50 é o segundo quartil ou mediana x̃ e corresponde


ao percentil 50;
ˆ Q3 = P75 é o terceiro quartil e corresponde ao percentil 75.

Hugo Alonso, ULP - 2019/2020 25


Exemplo: voltando ao exemplo do clínico que decidiu estudar o
número de acidentes de trabalho por prossional de saúde que ocor-
reram no último ano no seu hospital, tem-se que:

ˆ Q1 = P25 = 2 acidentes:
25
j= × 397 = 99.25 não é inteiro, logo
100
P25 = x(bjc+1) = x(100) = 2

ˆ Q2 = x̃ = P50 = 3 acidentes:
50
j= × 397 = 198.5 não é inteiro, logo
100
P50 = x(bjc+1) = x(199) = 3

ˆ Q3 = P75 = 4 acidentes:
75
j= × 397 = 297.75 não é inteiro, logo
100
P75 = x(bjc+1) = x(298) = 4

Assim, é possível dizer que 25% dos 397 prossionais envolvidos no


estudo tiveram, no máximo, 2 acidentes, 50% tiveram, no máximo, 3
acidentes e 75% tiveram, no máximo, 4 acidentes. 

Hugo Alonso, ULP - 2019/2020 26


Exemplo: voltando ao exemplo do gestor que decidiu estudar a
produção diária da sua empresa, medida em toneladas, e considerando
os dados já agrupados em classes, tem-se que:

ˆ Q1 = P25 = 8.6 t:
25
j= × 60 = 15 é inteiro, logo
100
x(j) + x(j+1) x(15) + x(16) 8.6 + 8.6
P25 = = = = 8.6
2 2 2
ˆ Q2 = x̃ = P50 = 10.4 t:
50
j= × 60 = 30 é inteiro, logo
100
x(j) + x(j+1) x(30) + x(31) 10.4 + 10.4
P50 = = = = 10.4
2 2 2
ˆ Q3 = P75 = 11.3 t:
75
j= × 60 = 45 é inteiro, logo
100
x(j) + x(j+1) x(45) + x(46) 10.4 + 12.2
P75 = = = = 11.3
2 2 2
Assim, é possível dizer que em 25% dos 60 dias considerados a produção
foi, no máximo, de 8.6 toneladas, em 50% dos dias foi, no máximo, de
10.4 toneladas e em 75% dos dias foi, no máximo, de 11.3 toneladas.


Hugo Alonso, ULP - 2019/2020 27


A próxima medida estatística é uma medida de dispersão, tal como o
desvio-padrão e o coeciente de variação. Neste caso, mede-se a dis-
persão das observações situadas entre o primeiro e o terceiro quartis,
ou seja, ignora-se os 25% de menores observações (antes de Q1) e os
25% de maiores observações (depois de Q3) e mede-se a dispersão dos
50% de observações centrais que restam.

Amplitude interquartil: representa-se por AIQ e é dada por

AIQ = Q3 − Q1.

Exemplo: voltando ao exemplo do clínico que decidiu estudar o


número de acidentes de trabalho por prossional de saúde que ocor-
reram no último ano no seu hospital, tem-se que

AIQ = Q3 − Q1 = 4 − 2 = 2 acidentes.

Assim, se ignorarmos os 25% de prossionais com menor número de


acidentes e os 25% de prossionais com maior número de acidentes, en-
tão, relativamente aos restantes 50% de prossionais, é possível dizer
que houve uma variação de 2 unidades no número de acidentes re-
gistados. 

Exemplo: voltando ao exemplo do gestor que decidiu estudar a


produção diária da sua empresa, medida em toneladas, e considerando
os dados já agrupados em classes, tem-se que

AIQ = Q3 − Q1 = 11.3 − 8.6 = 2.7 t.

Assim, se ignorarmos os 25% de dias de menor produção e os 25%

Hugo Alonso, ULP - 2019/2020 28


de dias de maior produção, então, relativamente aos restantes 50%
de dias, é possível dizer que houve uma variação de 2.7 toneladas na
produção. 

Medidas estatísticas para dados ordinais

Moda: representa-se por x̂ e é o valor que ocorre com maior


frequência.
Exemplo: voltando ao exemplo do estudo do nível de ensino fre-
quentado por várias crianças, tem-se que a moda é x̂ = 3.º ciclo e,
por ser única, a distribuição é unimodal. 

A média, o desvio-padrão e o coeciente de variação não são deter-


minados no caso de dados ordinais. Note que o cálculo destas três
medidas estatísticas, introduzidas anteriormente para dados quanti-
tativos, pressupõe a possibilidade de operar com os valores que a va-
riável toma. Ora, uma variável ordinal é qualitativa e, portanto, não
faz sentido operar com os valores que toma, como adicioná-los, mesmo
que sejam numéricos. Logo, neste contexto, não faz sentido calcular
as três medidas referidas.

Os percentis e, em particular, os quartis podem ser determinados no


caso de dados ordinais, pelo menos em muitas situações. Note que o
cálculo de um percentil, introduzido anteriormente para dados quan-
titativos, nem sempre obriga a operar com os valores que a variável
toma. Há, portanto, situações em que está denido e outras em que
não está, conforme se clarica a seguir.

Hugo Alonso, ULP - 2019/2020 29


Percentil p: representa-se por Pp, é um valor que separa os p% de
menores observações dos restantes (100−p)% de maiores observações
e pode ser determinado do seguinte modo:
ˆ ordena-se as observações x1 , . . . , xn por ordem crescente:

x(1) ≤ x(2) ≤ . . . ≤ x(n)


p
ˆ calcula-se j = ×n
100
ˆ se j for um número inteiro, então há duas possibilidades:

 se os valores que surgem nas posições j e j + 1 forem iguais,


então Pp é igual a esses valores:

Pp = x(j) = x(j+1)

 se os valores que surgem nas posições j e j +1 forem diferentes,


então Pp não está denido
ˆ se j não for um número inteiro, então Pp é o valor que surge na
posição bjc + 1:
Pp = x(bjc+1)

Hugo Alonso, ULP - 2019/2020 30


Quartis: representam-se por Q1, Q2 e Q3, dividem o conjunto de
dados em quatro partes, cada uma com cerca de 25% dos dados, e
são tais que:
ˆ Q1 = P25 é o primeiro quartil e corresponde ao percentil 25;

ˆ Q2 = x̃ = P50 é o segundo quartil ou mediana x̃ e corresponde


ao percentil 50;
ˆ Q3 = P75 é o terceiro quartil e corresponde ao percentil 75.

Exemplo: voltando ao exemplo do estudo do nível de ensino fre-


quentado por várias crianças, tem-se que:

ˆ Q1 = P25 = 1.º ciclo:


25
j= × 9 = 2.25 não é inteiro, logo
100
P25 = x(bjc+1) = x(3) = 1.º ciclo

ˆ Q2 = x̃ = P50 = 2.º ciclo:


50
j= × 9 = 4.5 não é inteiro, logo
100
P50 = x(bjc+1) = x(5) = 2.º ciclo

ˆ Q3 = P75 = 3.º ciclo:


75
j= × 9 = 6.75 não é inteiro, logo
100
P75 = x(bjc+1) = x(7) = 3.º ciclo

Assim, é possível dizer que 25% das 9 crianças envolvidas no estudo


frequentam, no máximo, o 1.º ciclo, 50% frequentam, no máximo, o
2.º ciclo e 75% frequentam, no máximo, o 3.º ciclo. 

Hugo Alonso, ULP - 2019/2020 31


Exemplo: voltando ao exemplo do estudo do nível de ensino fre-
quentado por várias crianças, suponha que são consideradas mais três,
uma frequentadora do 1.º ciclo e duas do 3.º ciclo. Tendo em conta
estas novas observações, a nova tabela de frequências seria a seguinte:

N.º de Prop. de N.º acum. de Prop. acum. de


Nível de ensino
crianças crianças crianças crianças
(x0i ) (ni ) (fi ) (Ni ) (Fi )
1.º ciclo (1) 4 0.33 4 0.33
2.º ciclo (2) 2 0.17 6 0.50
3.º ciclo (3) 6 0.50 12 1.00
Total 12 1.00

Tem-se agora que:

ˆ Q1 = P25 = 1.º ciclo:


25
j= × 12 = 3 é inteiro
100
x(j) = x(j+1), pois x(j) = x(3) = 1.º ciclo e x(j+1) = x(4) = 1.º ciclo

P25 = x(j) = x(j+1) = 1.º ciclo

ˆ Q2 = x̃ = P50 não está denido:


50
j= × 12 = 6 é inteiro
100
x(j) 6= x(j+1), pois x(j) = x(6) = 2.º ciclo e x(j+1) = x(7) = 3.º ciclo

P50 não está denido


(note que não há um valor de compromisso entre 2.º ciclo e 3.º
ciclo)

Hugo Alonso, ULP - 2019/2020 32


ˆ Q3 = P75 = 3.º ciclo:
75
j= × 12 = 9 é inteiro
100
x(j) = x(j+1), pois x(j) = x(9) = 3.º ciclo e x(j+1) = x(10) = 3.º
ciclo

P75 = x(j) = x(j+1) = 3.º ciclo

Assim, é possível dizer que 25% das 12 crianças envolvidas no estudo


frequentam, no máximo, o 1.º ciclo e 75% frequentam, no máximo, o
3.º ciclo. Esta é a interpretação dos percentis 25 e 75, que estão de-
nidos e são iguais a 1.º ciclo e 3.º ciclo, respectivamente. O percentil
50 não está denido e, consequentemente, não pode ser interpretado.


A amplitude interquartil, introduzida anteriormente para dados quan-


titativos, pode ser determinada no caso de dados ordinais, desde que
o primeiro e o terceiro quartis estejam denidos.

Amplitude interquartil: representa-se por AIQ e corresponde ao


número de categorias ou níveis de diferença entre o primeiro e o
terceiro quartis.

Hugo Alonso, ULP - 2019/2020 33


Exemplo: voltando ao exemplo do estudo do nível de ensino fre-
quentado por várias crianças, como o primeiro quartil é Q1 = 1.º ciclo
e o terceiro quartil é Q3 = 3.º ciclo, segue que

AIQ = 2 níveis de ensino.

Assim, se ignorarmos os 25% de crianças que frequentam o menor


nível de ensino e os 25% de crianças que frequentam o maior nível de
ensino, então, relativamente aos restantes 50% de crianças, é possível
dizer que há uma variação de 2 níveis no nível de ensino registado. 

Medidas estatísticas para dados nominais

Moda: representa-se por x̂ e é o valor que ocorre com maior


frequência.
Exemplo: voltando ao exemplo do estudo do estado civil de várias
pessoas, tem-se que a moda é x̂ = solteiro e, por ser única, a dis-
tribuição é unimodal. 

A média, o desvio-padrão e o coeciente de variação não são deter-


minados no caso de dados nominais, uma vez que a variável é qua-
litativa e, portanto, não faz sentido operar com os valores que toma.
Os percentis e, em particular, os quartis também não são deter-
minados no caso de dados nominais, porque o cálculo destas medidas
estatísticas pressupõe a possibilidade de ordenar os valores da variável
e não existe uma relação de ordem natural entre os valores de uma
variável nominal. Deste modo, uma vez que não são calculados os
quartis, também não é determinada a amplitude interquartil.

Hugo Alonso, ULP - 2019/2020 34


Em resumo, a próxima tabela indica medidas estatísticas comuns que
são determinadas para cada tipo de variável:

Variável:
Medida: Nominal Ordinal Quantitativa
Moda: x̂   
Localização:

1º quartil: Q1 = P25  
2º quartil : Q2 = x̃ = P50  
3º quartil: Q3 = P75  
Média: x̄ 
Dispersão:

Amplitude interquartil: AIQ  


Desvio-padrão: s 
Coeciente de variação: CV 

Representação gráca de dados univariados

A representação gráca de dados univariados é um complemento à


representação tabular e ao cálculo de medidas estatísticas de dados
de uma só variável.

Grácos usuais e dados envolvidos:


ˆ gráco circular: dados qualitativos;

ˆ diagrama de barras: dados qualitativos ou quantitativos discretos


com poucos valores distintos;
ˆ histograma: dados quantitativos agrupados em classes;

ˆ caixa de bigodes: dados quantitativos.

Hugo Alonso, ULP - 2019/2020 35


Gráco circular: gráco constituído por um círculo, dividido em
tantas fatias quantos os valores distintos registados na amostra da
variável qualitativa em análise. O tamanho das fatias é determinado
pelas frequências absolutas ou relativas desses valores.

Exemplo: um inquérito, realizado à qualidade do serviço prestado


num gabinete de apoio psicológico, revelou que: 2% dos utentes acha
que é muito má, 2% má, 12% razoável, 30% boa e 54% muito boa. A
representação desta informação com recurso a um gráco circular é a
seguinte:

Hugo Alonso, ULP - 2019/2020 36


Diagrama de barras: gráco de barras verticais, espaçadas, onde
cada barra está associada a um dos valores distintos registados na
amostra da variável qualitativa ou quantitativa discreta em análise.
A altura das barras corresponde às frequências absolutas ou relativas
desses valores.

Exemplo: voltando ao exemplo do clínico que decidiu estudar o


número de acidentes de trabalho por prossional de saúde que ocor-
reram no último ano no seu hospital, tem-se o seguinte para diagrama
de barras das frequências absolutas:

Acidentes de trabalho no último ano


137
140

120

98
100
89
N.º de profissionais

80

60

40 32
25
16
20

0
0 1 2 3 4 5
N.º de acidentes por profissional

Hugo Alonso, ULP - 2019/2020 37


Histograma: gráco de barras verticais, adjacentes, onde cada
barra está associada a uma das classes em que estão agrupados os
dados na amostra da variável quantitativa em análise. Se as classes
tiverem a mesma amplitude, como é o caso tratado aqui, a altura das
barras pode ser escolhida igual às frequências absolutas ou relativas
dessas classes.

Exemplo: voltando ao exemplo do gestor que decidiu estudar a


produção diária da sua empresa, medida em toneladas, e considerando
os dados já agrupados em classes, tem-se o seguinte para histograma
das frequências relativas:

Produção em 60 dias
0.35

0.300
0.3 0.283

0.25

0.200
Prop. de dias

0.2

0.15
0.117

0.1

0.050 0.050
0.05

0
4.1 5.9 7.7 9.5 11.3 13.1 14.9
Produção diária (t)

Hugo Alonso, ULP - 2019/2020 38


Antes de introduzir a representação gráca designada por caixa de
bigodes, é necessário introduzir a seguinte noção:

Valor atípico ou outlier : trata-se de um valor muito pequeno


ou muito grande em relação à grande maioria dos valores registados
numa amostra de dados quantitativos. Concretizando, diz-se que:
ˆ x é um valor atípico ou outlier severo se

x < Q1 − 3 × AIQ

ou
x > Q3 + 3 × AIQ

ˆ x é um valor atípico ou outlier moderado se

Q1 − 3 × AIQ ≤ x < Q1 − 1.5 × AIQ

ou
Q3 + 1.5 × AIQ < x ≤ Q3 + 3 × AIQ

Exemplo: perguntou-se a idade a 12 indivíduos e registou-se o se-


guinte, em anos: 14, 20, 29, 31, 32, 32, 33, 33, 34, 36, 43, 51. É fácil
concluir que Q1 = 30, Q3 = 35 e AIQ = 5 anos. Assim, um valor x
na amostra é um valor atípico ou outlier severo se

x < 15 = Q1 − 3 × AIQ

ou
x > 50 = Q3 + 3 × AIQ

ou seja, são valores atípicos ou outliers severos as idades 14 e 51 anos.

Hugo Alonso, ULP - 2019/2020 39


Além disso, um valor x na amostra é um valor atípico ou outlier
moderado se

Q1 − 3 × AIQ = 15 ≤ x < 22.5 = Q1 − 1.5 × AIQ

ou
Q3 + 1.5 × AIQ = 42.5 < x ≤ 50 = Q3 + 3 × AIQ

isto é, são valores atípicos ou outliers moderados as idades 20 e 43


anos. 

Caixa de bigodes: gráco que contém um rectângulo, a caixa,


dividido em duas partes e que situa os três quartis da amostra da
variável quantitativa em análise. A dois lados do rectângulo es-
tão conectados segmentos, os bigodes, que situam o menor valor
e o maior valor registados na amostra e que não são considerados
atípicos ou outliers. Os valores atípicos ou outliers moderados
surgem identicados com círculos e os severos com asteriscos.

Exemplo: voltando ao exemplo do estudo da idade de 12 indivíduos,


tem-se o seguinte para caixa de bigodes:

Hugo Alonso, ULP - 2019/2020 40




Hugo Alonso, ULP - 2019/2020 41


Dados bivariados

Suponha que, para cada elemento de uma amostra selecionada para


análise numa população, se observam duas variáveis de interesse. Aos
dados resultantes dá-se o nome de dados bivariados.

Relação entre duas variáveis quantitativas

Diagrama de dispersão: representação gráca de dados bivariados


quantitativos num referencial cartesiano. Cada eixo do referencial diz
respeito a uma das variáveis e cada caso na amostra é representado
por um ponto no gráco.

Exemplo: o gestor de uma loja decidiu estudar a relação entre o


número de anúncios publicitários à loja, exibidos ao m-de-semana,
na televisão, e as vendas na semana seguinte. Para tal, registou o valor
das duas variáveis ao longo de 10 semanas, tendo obtido o seguinte:

Hugo Alonso, ULP - 2019/2020 42


Semana N.º de anúncios Vendas (centenas de euros)
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46

O diagrama de dispersão dos dados registados é o seguinte:


Relação entre anúncios e vendas
65

60
Vendas (centenas de euros)

55

50

45

40

35
1 1.5 2 2.5 3 3.5 4 4.5 5
N.º de anúncios

Observando o gráco, é possível vericar que as vendas tendem a


aumentar quando o número de anúncios publicitários aumenta. 

Hugo Alonso, ULP - 2019/2020 43


O diagrama de dispersão permite visualizar a relação entre duas va-
riáveis quantitativas. A medida estatística a seguir quantica a asso-
ciação linear entre essas variáveis. A associação é perfeita quando os
pontos no diagrama de dispersão estão dispostos segundo uma linha
reta oblíqua.

Coeciente de correlação de Pearson: representa-se por r,


trata-se de uma medida da associação linear entre duas variáveis
quantitativas X e Y e é dado por
Pn
i=1 xi yi− nxy
r=q P
n 2 2
 Pn 2 2

i=1 xi − nx i=1 yi − ny

sendo x̄ a média de X na amostra e ȳ a de Y . O valor de r é um


número no intervalo [−1, 1]. Diz-se que a correlação entre as duas
variáveis é:
ˆ desprezável, se 0 ≤ |r| < 0.2;

ˆ moderada, se 0.2 ≤ |r| < 0.7;

ˆ forte, se 0.7 ≤ |r| ≤ 1.

No caso de a correlação ser moderada ou forte:


ˆ se r > 0, então uma variável tende a aumentar quando a outra
aumenta;
ˆ se r < 0, então uma variável tende a diminuir quando a outra
aumenta.

Hugo Alonso, ULP - 2019/2020 44


Exemplo: voltando ao exemplo do gestor da loja que decidiu estudar
a relação entre o número de anúncios publicitários ao m-de-semana,
X , e as vendas na semana seguinte, Y , tem-se que os cálculos condu-
centes ao coeciente de correlação de Pearson entre X e Y , na amostra
das 10 semanas selecionadas, podem ser organizados da seguinte forma:

xi yi xi y i x2i yi2
2 50 100 4 2500
5 57 285 25 3249
1 41 41 1 1681
3 54 162 9 2916
4 54 216 16 2916
1 38 38 1 1444
5 63 315 25 3969
3 48 144 9 2304
4 59 236 16 3481
2 46 92 4 2116
Total 30 510 1629 110 26576

Assim,
Pn Pn
i=1 xi 30 i=1 yi 510
x= = =3 , y= = = 51
n 10 n 10

Hugo Alonso, ULP - 2019/2020 45


e o coeciente de correlação de Pearson é
Pn
i=1 xi yi − n x y
r=q P
n 2 − nx2
 Pn 2 2

x
i=1 i y
i=1 i − ny
1629 − 10 × 3 × 51
=p
(110 − 10 × 32) (26576 − 10 × 512)
≈ 0.93.

Como 0.7 ≤ |r| ≤ 1, a correlação entre o número de anúncios publi-


citários e as vendas é forte. Neste contexto, sendo r > 0, regista-se
o que foi observado anteriormente no diagrama de dispersão dos da-
dos, ou seja, que as vendas tendem a aumentar quando o número de
anúncios publicitários aumenta. 

Relação entre uma variável qualitativa e uma quantitativa

Tabela de contingência: tabela para representação de dados


bivariados, qualitativos ou quantitativos. As linhas da tabela
dizem respeito a uma das variáveis e as colunas à outra variável.
No interior da tabela, a célula na linha i e na coluna j indica o
número de elementos da amostra em que se regista o valor ou classe
de valores i para a variável das linhas e, simultaneamente, o valor
ou classe de valores j para a variável das colunas. Nas margens da
tabela estão indicados os totais por linha e por coluna.
Exemplo: uma amostra de 300 restaurantes foi selecionada e, para
cada um desses restaurantes, registou-se a qualidade do serviço e o
preço típico por refeição, em euros. Os resultados foram os seguintes:

Hugo Alonso, ULP - 2019/2020 46


Restaurante Qualidade Preço por refeição (euros)
1 Razoável 18
2 Muito boa 22
3 Razoável 28
4 Excelente 38
5 Muito boa 33
... ... ...

Agrupando os dados do preço em classes, a tabela de contigência que


sumaria a informação obtida é a seguinte:

Preço por refeição (euros)


Qualidade [10, 20[ [20, 30[ [30, 40[ [40, 50] Total
Razoável 42 40 2 0 84
Muito boa 34 64 46 6 150
Excelente 2 14 28 22 66
Total 78 118 76 28 300

Os totais a azul na margem direita da tabela fornecem a distribuição


de frequências da variável Qualidade. Por exemplo, o mais frequente
foi registar restaurantes (150) com uma qualidade muito boa. Já os
totais a vermelho na margem inferior da tabela fornecem a distribuição
de frequências da variável Preço por refeição. Por exemplo, o menos
frequente foi registar restaurantes (28) com um preço por refeição
no intervalo [40, 50] euros. Assim, os totais nas margens fornecem as
chamadas distribuições marginais e é com base nelas que se realiza
a análise das duas variáveis em separado.

Hugo Alonso, ULP - 2019/2020 47


Por outro lado, as frequências a preto no interior da tabela fornecem
a chamada distribuição conjunta das duas variáveis e é com base
nela que se realiza a análise das duas variáveis em conjunto. Por
exemplo, o mais frequente foi registar restaurantes (64) com uma qua-
lidade muito boa e um preço por refeição no intervalo [20, 30[ euros.
Se considerarmos apenas os restaurantes de qualidade razoável, o mais
frequente foi registar valores baixos para o preço por refeição, ao passo
que, considerando apenas os restaurantes de qualidade excelente, o
mais frequente foi registar valores altos para o preço por refeição. O
valor médio do preço por refeição para os restaurantes de qualidade
razoável é dado por

42 × 15 + 40 × 25 + 2 × 35 + 0 × 45
x̄ = ≈ 20.24 euros
84
onde foram usados os pontos médios (15, 25, 35 e 45) das classes em
que as observações do preço foram agrupadas. No caso dos restau-
rantes de qualidade muito boa, o valor médio do preço por refeição é
dado por

34 × 15 + 64 × 25 + 46 × 35 + 6 × 45
x̄ = = 26.60 euros
150
e no caso dos restaurantes de qualidade excelente por

2 × 15 + 14 × 25 + 28 × 35 + 22 × 45
x̄ = ≈ 35.61 euros.
66
Assim, é claro que o preço médio aumenta com a qualidade do serviço.
O facto de o preço tender a aumentar com a qualidade também é

Hugo Alonso, ULP - 2019/2020 48


visível na gura seguinte:

Hugo Alonso, ULP - 2019/2020 49


Relação entre duas variáveis qualitativas

O estudo da relação entre duas variáveis qualitativas baseia-se na com-


paração de proporções, calculadas por linha ou por coluna na tabela
de contingência que cruza a informação das duas variáveis.

Exemplo: a tabela de contingência seguinte dá conta da distribuição


dos funcionários de uma empresa em função do sexo e da promoção:
Sexo
Promovido Masculino Feminino Total
Sim 4 2 6
Não 12 6 18
Total 16 8 24

Será que a promoção depende do sexo? Em termos absolutos, note que


há mais funcionários do sexo masculino e, portanto, é natural que te-
nham sido promovidos mais homens do que mulheres. Assim, a infor-
mação deve ser analisada em termos relativos e, para tal, calculam-se
as proporções por coluna, indicadas na tabela abaixo entre parênteses:
Sexo
Promovido Masculino Feminino Total
Sim 4 (0.25) 2 (0.25) 6 (0.25)
Não 12 (0.75) 6 (0.75) 18 (0.75)
Total 16 (1.00) 8 (1.00) 24 (1.00)

Repare que 25% dos funcionários foram promovidos e que esta per-
centagem não se altera com o sexo. Logo, a promoção não depende
do sexo.

Hugo Alonso, ULP - 2019/2020 50


No caso de uma segunda empresa, a tabela de contingência que dá
conta da distribuição dos funcionários em função do sexo e da pro-
moção é a seguinte:

Sexo
Promovido Masculino Feminino Total
Sim 288 36 324
Não 672 204 876
Total 960 240 1200

Será que, neste caso, a promoção depende do sexo? Calculando as


proporções por coluna, tem-se o seguinte:

Sexo
Promovido Masculino Feminino Total
Sim 288 (0.30) 36 (0.15) 324 (0.27)
Não 672 (0.70) 204 (0.85) 876 (0.73)
Total 960 (1.00) 240 (1.00) 1200 (1.00)

Repare que 27% dos funcionários foram promovidos e que esta per-
centagem se altera com o sexo, sendo igual a 30% no caso dos homens
e apenas 15% no caso das mulheres. Logo, nesta segunda empresa, a
promoção depende do sexo. 

Hugo Alonso, ULP - 2019/2020 51

Você também pode gostar