Você está na página 1de 52

Estatística Descritiva

Diz-se que deixámos de ser uma sociedade industrial para passarmos


a ser uma sociedade de informação, onde é necessário tomar decisões
rápidas e bem fundamentadas.

A Estatística fornece métodos que auxiliam o processo de tomada


de decisão através da análise dos dados disponíveis. Está dividida em
duas áreas:

• Estatística Descritiva: conjunto de técnicas apropriadas


para sumariar a informação recolhida de uma amostra de uma
população, de modo a melhor interpretar essa informação;

• Estatística Inferencial: conjunto de técnicas que, com


base na informação recolhida de uma amostra de uma
população, permitem tirar conclusões sobre essa população.
A quantificação da incerteza associada às conclusões é feita com
recurso ao cálculo de probabilidades.

Hugo Alonso, ULP - 2021/2022 1


População: grupo de todos os elementos que se pretende estudar
relativamente a um ou mais atributos que todos possuem.

O valor dos atributos pode variar de elemento para elemento da


população. Diz-se, por isso, que os atributos são variáveis.

As medidas relativas a uma população designam-se por parâmetros.


Os parâmetros são fixos, isto é, não variam. No entanto, são muitas
vezes desconhecidos, uma vez que muitas vezes não é possível aceder a
todos os elementos da população. São exemplos de parâmetros:

• N : tamanho da população;

• µ: média da população;

• σ: desvio-padrão da população.

Exemplo: suponha que se pretende estudar a idade, em anos, na


população correspondente a todos os alunos que, no primeiro dia de
aulas, estão inscritos numa certa disciplina. Admita que há um total de
quatro alunos, ou seja, que o tamanho da população é N = 4. A idade
é um atributo que todos possuem. Trata-se de uma variável, X, dado
que o valor da idade pode variar de aluno para aluno. A idade média
na população, representada por µ, é uma medida relativa à população
e, portanto, diz-se um parâmetro. Se não for possível inquirir todos
quanto à idade, não é possível conhecer a idade média na população:

Hugo Alonso, ULP - 2021/2022 2


Aluno Idade (anos)
Gonçalo 18
Inês 19
João ?
Maria 20

Idade média na população : µ = 18+19+?+20


4 = ?? anos 

Amostra: subgrupo da população selecionado para análise.

As medidas relativas a uma amostra designam-se por estatísticas.


As estatísticas são variáveis, pois o valor que tomam pode variar de
amostra para amostra. Numa amostra conhecida, tem-se o seguinte
para valor de algumas estatísticas:

• n: tamanho da amostra;

• x̄: média da amostra;

• s: desvio-padrão da amostra.

Exemplo: no exemplo anterior, o grupo de quatro alunos corresponde


à população e o subgrupo de três alunos que se inquiriu e cujas idades
são conhecidas corresponde a uma amostra. O tamanho da amostra a
que se teve acesso é então n = 3. A idade média numa amostra é uma
medida relativa a uma amostra e, portanto, diz-se uma estatística. No
caso particular da amostra conhecida, o valor desta estatística é:

18 + 19 + 20
Idade média na amostra : x̄ = = 19 anos 
3

Hugo Alonso, ULP - 2021/2022 3


Etapas na resolução de um problema estatístico:

Hugo Alonso, ULP - 2021/2022 4


Classificação de dados

Os atributos ou variáveis que se pretende estudar nos elementos de


uma população podem ser classificados em função do modo como são
medidos. Esta classificação é importante pois determina o modo
como os dados devem ser tratados e analisados.

Tem-se as seguintes possibilidades:


 

 nominal
qualitativa






 ordinal


Variável:

 


 contínua
quantitativa





 discreta

• qualitativa (numérica ou não numérica): a variável representa


qualidades, categorias ou classes e não faz sentido operar com os
valores que toma, como adicioná-los, mesmo que sejam numéricos;

• qualitativa nominal: não há uma relação de ordem natural


entre os valores da variável;
Exemplo: sexo de um indivíduo, registado como feminino (1) ou
masculino (2).
Nota: a representação de feminino como 1 e de masculino como 2 é
apenas uma codificação, arbitrária, não tendo qualquer significado
quantitativo.

Hugo Alonso, ULP - 2021/2022 5


• qualitativa ordinal: há uma relação de ordem natural entre os
valores da variável;
Exemplo: qualidade de um vinho, registada como má (1), razoá-
vel (2) ou boa (3).
Nota: a representação de má como 1, de razoável como 2 e de boa
como 3 é apenas uma codificação, arbitrária, não tendo qualquer
significado quantitativo. Note que, apesar de arbitrária, a codifica-
ção respeita a ordem dos valores: má = 1 < razoável = 2 < boa =
3.

• quantitativa (numérica): a variável representa quantidades,


resultantes de contagens ou de medições, e faz sentido operar com
os valores que toma, como adicioná-los;

• quantitativa contínua: a variável pode tomar qualquer valor


num intervalo de números;
Exemplo: temperatura de um local, medida em graus Celsius.

• quantitativa discreta: a variável toma apenas valores isola-


dos, ou seja, não é verdade que possa tomar qualquer valor num
intervalo de números;
Exemplo: número de clientes de uma empresa.

Os dados mais informativos são os quantitativos, seguidos dos ordinais


e, por último, dos nominais. É de notar que há autores que tratam as
variáveis ordinais com mais de três categorias como se fossem variáveis
quantitativas discretas. Para tal, fazem uma codificação numérica das

Hugo Alonso, ULP - 2021/2022 6


categorias e tal possibilita, por exemplo, o cálculo de médias. Em geral,
codificam a menor categoria como 1, a segunda como 2, etc. No caso
de as categorias serem intervalos limitados de números, a codificação é
feita usando o correspondente ponto médio.

Exemplo: um estudo na área do marketing selecionou vários consumi-


dores, escolhidos ao acaso, e pediu-lhes que dessem a sua opinião sobre
uma afirmação:
Um anúncio publicitário com um forte apelo emocional motiva-me a
comprar esse produto:
◦ Discordo completamente
◦ Discordo parcialmente
◦ Não discordo, nem concordo
◦ Concordo parcialmente
◦ Concordo completamente

A escala em que foi registada a opinião é ordinal, mas pode ser tra-
tada como se fosse quantitativa discreta, usando a codificação de 1 -
Discordo completamente a 5 - Concordo completamente. Esta escala é
habitualmente referida como uma escala de Likert de 5 pontos. Tendo
em conta a codificação usada, quanto maior for a média das respostas,
maior tende a ser a concordância dos inquiridos em relação à afirmação
apresentada. 

Fornecido um conjunto de dados, recorre-se a tabelas, gráficos e medidas


estatísticas para sumariar a informação e em seguida analisá-la. As
tabelas e os gráficos que se constroem e as medidas estatísticas que se

Hugo Alonso, ULP - 2021/2022 7


calculam variam com a natureza dos dados, isto é, são diferentes para
dados nominais, ordinais e quantitativos.

Representação tabular de dados univariados

Dados univariados são dados de uma só variável. A sua representação


tabular é um resumo da informação registada.

Tabela de frequências: tabela que disponibiliza um acesso rápido


ao número (frequência absoluta) e à proporção (frequência relativa)
de observações de uma variável com um determinado valor ou num
intervalo de valores (classe de valores).

Notação geral (símbolos convencionados):

X variável
x1 , . . . , x n observações da variável
n número total de observações
k número de valores distintos ou de classes de valores
ni frequência absoluta do valor ou classe de valores i
fi = ni
n frequência relativa do valor ou classe de valores i
Ni = n1 + . . . + ni frequência absoluta acumulada do valor ou
classe de valores i
Fi = f1 + . . . + fi frequência relativa acumulada do valor ou
Ni classe de valores i
=
n

Hugo Alonso, ULP - 2021/2022 8


Tabela para dados nominais

Observações: x1, . . . , xn
Valores distintos: x01, . . . , x0k

Tabela de frequências:

Valores distintos Freq. abs. Freq. rel.


(x0i ) (ni ) (fi )
n1
x01 n1 f1 = n
n2
x02 n2 f2 = n
.. .. ..
. . .
nk
x0k nk fk = n
Total n 1

Breve interpretação:

• n1 representa o número de vezes que foi observado o valor x01

• f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
o valor x01

Exemplo: perguntou-se a várias pessoas qual o seu estado civil: casado


(1), divorciado (2), solteiro (3) ou viúvo (4)? Registou-se o seguinte:
3, 4, 3, 2, 3, 1, 3, 1. A variável em estudo, X, é o estado civil de um
indivíduo e é qualitativa nominal. Tem-se n = 8 observações para a
variável, x1 = 3, x2 = 4, . . . , x7 = 3, x8 = 1, mas apenas k = 4 são
distintas, x01 = 1, x02 = 2, x03 = 3, x04 = 4. A tabela de frequências que
resume a informação registada é a seguinte:

Hugo Alonso, ULP - 2021/2022 9


Estado civil N.º de indivíduos Prop. de indivíduos
(x0i ) (ni ) (fi )
casado (1) 2 0.250
divorciado (2) 1 0.125
solteiro (3) 4 0.500
viúvo (4) 1 0.125
Total 8 1.000

Com base na tabela, é possível dizer, por exemplo, que 4 dos 8 indivíduos
envolvidos no estudo, ou seja, 50%, são solteiros. 

Tabela para dados ordinais ou quantitativos discretos com


poucos valores distintos

Observações: x1, . . . , xn
Valores distintos, por ordem crescente: x01 < . . . < x0k

Tabela de frequências:

Valores distintos Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(x0i ) (ni ) (fi ) (Ni ) (Fi )
n1
x01 n1 f1 = n N1 = n1 F1 = f 1
n2
x02 n2 f2 = n N2 = n1 + n2 F 2 = f1 + f2
.. .. .. .. ..
. . . . .
nk
x0k nk fk = n Nk = n Fk = 1
Total n 1

Hugo Alonso, ULP - 2021/2022 10


Breve interpretação:

• n1 representa o número de vezes que foi observado o valor x01

• f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
o valor x01

• N2 = n1 + n2 representa o número de vezes que foi observado um


valor menor ou igual a x02

• F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor ou igual a x02

Exemplo: perguntou-se a várias crianças qual o nível de ensino que


frequentam: 1.º ciclo (1), 2.º ciclo (2) ou 3.º ciclo (3)? Registou-se o
seguinte: 3, 3, 1, 3, 2, 1, 1, 2, 3. A variável em estudo, X, é o nível
de ensino frequentado por um indivíduo e é qualitativa ordinal. Tem-se
n = 9 observações para a variável, x1 = 3, x2 = 3, . . . , x8 = 2, x9 = 3,
mas apenas k = 3 são distintas, x01 = 1 < x02 = 2 < x03 = 3, por ordem
crescente. A tabela de frequências que resume a informação registada é
a seguinte:

N.º de Prop. de N.º acum. de Prop. acum. de


Nível de ensino
crianças crianças crianças crianças
(x0i ) (ni ) (fi ) (Ni ) (Fi )
1.º ciclo (1) 3 0.333 3 0.333
2.º ciclo (2) 2 0.222 5 0.555
3.º ciclo (3) 4 0.444 9 1.000
Total 9 1.000

Hugo Alonso, ULP - 2021/2022 11


Com base na tabela, é possível dizer, por exemplo, que 5 dos 9 indivíduos
envolvidos no estudo, ou seja, cerca de 56%, frequentam um nível de
ensino que não ultrapassa o 2.º ciclo. 

Exemplo: um clínico decidiu estudar o número de acidentes de traba-


lho por profissional de saúde que ocorreram no último ano no seu hospi-
tal. A variável em estudo, X, é o número de acidentes por profissional e
é quantitativa discreta. O clínico investigou e registou 397 valores para a
variável, um por cada um de 397 profissionais: 0, 1, 2, 1, 1, 2, 0, .... Em
seguida, sumariou a informação obtida na seguinte tabela de frequên-
cias:

N.º de acidentes N.º de Prop. de N.º acum. de Prop. acum. de


por profissional profissionais profissionais profissionais profissionais
(x0i ) (ni ) (fi ) (Ni ) (Fi )
0 16 0.040 16 0.040
1 32 0.081 48 0.121
2 89 0.224 137 0.345
3 137 0.345 274 0.690
4 98 0.247 372 0.937
5 25 0.063 397 1.000
Total 397 1.000

Com base na tabela, é possível dizer, por exemplo, que 32 profissio-


nais, que correspondem a cerca de 8% de todos os envolvidos no estudo,
sofreram 1 acidente, e que 274 profissionais, que correspondem a cerca
de 69% do total, sofreram, no máximo, 3 acidentes. 

Hugo Alonso, ULP - 2021/2022 12


Tabela para dados quantitativos contínuos ou quantitati-
vos discretos com muitos valores distintos

Uma variável quantitativa contínua pode tomar qualquer valor num in-
tervalo de números e, portanto, é alta a possibilidade de se observar
muitos valores distintos. Neste contexto, não faz muito sentido con-
siderar as frequências absolutas e relativas dos valores observados; a
tabela resultante não seria um verdadeiro resumo da informação re-
gistada. Definem-se então intervalos de valores (classes de valores) e
consideram-se as frequências absolutas e relativas desses intervalos (clas-
ses). O mesmo aplica-se quando a variável é quantitativa discreta e são
observados muitos valores distintos.

Construção das classes de valores:


Observações: x1, . . . , xn

1. Determinar o número k de classes (regra de Sturges):


ln(n)
 
k= + 1,
ln(2)
onde b·c representa a parte inteira do número ·

2. Determinar a amplitude total a do conjunto de dados:

a = M − m,

onde M é o maior valor observado e m o menor

3. Determinar a amplitude ac de cada classe:


a
ac =
k

Hugo Alonso, ULP - 2021/2022 13


4. Construir as classes c1, . . . , ck da seguinte forma:

c1 = [m, m + ac[
c2 = [m + ac, m + 2 × ac[
...

ck = [m + (k − 1) × ac, m + k × ac]

Construção da tabela de frequências:

Observações: x1, . . . , xn
Classes: c1 = [L1, U1[, . . . , ck = [Lk , Uk ]
Pontos médios das classes: x01 < . . . < x0k , sendo o ponto médio da
classe ci = [Li, Ui[ dado por
Li + U i
x0i =
2
Tabela de frequências:

Classes P. médios Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
L1 +U1 n1
c1 = [L1 , U1 [ x01 = 2 n1 f1 = n N1 = n1 F 1 = f1
L2 +U2 n2
c2 = [L2 , U2 [ x02 = 2 n2 f2 = n N2 = n1 + n2 F2 = f 1 + f 2
.. .. .. .. .. ..
. . . . . .
Lk +Uk nk
ck = [Lk , Uk ] x0k = 2 nk fk = n Nk = n Fk = 1
Total n 1

Hugo Alonso, ULP - 2021/2022 14


Breve interpretação:

• n1 representa o número de vezes que foi observado um valor na classe


c1
• f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
um valor na classe c1
• x01 é o valor da classe c1 que se escolhe para representar, de forma
aproximada, cada um dos valores observados na classe
• N2 = n1 + n2 representa o número de vezes que foi observado um
valor menor que o limite superior U2 da classe c2
• F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor que o limite superior U2 da classe c2
Exemplo: um gestor decidiu estudar a produção diária da sua em-
presa, medida em toneladas. A variável em causa, X, corresponde à
produção diária e é quantitativa contínua. Os resultados registados em
60 dias foram os seguintes:

4.1 5.8 5.8 6.1 6.7 7.0 7.0 7.5 7.5 7.5 7.7 8.2
8.8 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2 9.2 9.4 9.4
9.7 9.8 10.0 10.0 10.2 10.2 10.3 10.6 10.6 10.8 10.9 10.9
11.6 11.7 11.8 11.8 11.8 12.0 12.2 12.2 12.3 12.5 12.6 12.7
8.3 9.4 11.0 14.0 8.5 9.5 11.1 14.2 8.7 9.5 11.1 14.8

O primeiro passo para sumariar esta informação consiste em construir


as classes em que os dados vão ser agrupados, determinando:

1. Número de classes:
ln(n) ln(60)
   
k= +1= + 1 = b5.906 . . .c + 1 = 5 + 1 = 6
ln(2) ln(2)

Hugo Alonso, ULP - 2021/2022 15


2. Amplitude total do conjunto de dados:

a = M − m = 14.8 − 4.1 = 10.7

3. Amplitude de cada classe:


a 10.7
ac = = = 1.783 . . . ≈ 1.8
k 6
4. Classes:
c1 = [4.1, 4.1 + 1.8[ = [4.1, 5.9[ c4 = [9.5, 11.3[
c2 = [5.9, 5.9 + 1.8[ = [5.9, 7.7[ c5 = [11.3, 13.1[
c3 = [7.7, 7.7 + 1.8[ = [7.7, 9.5[ c6 = [13.1, 14.9]

Uma vez determinadas as classes em que os dados registados devem ser


agrupados, obtém-se a seguinte tabela de frequências, que resume então
a informação disponível sobre a produção diária da empresa:

Produção diária (t) Pontos N.º de Prop. de N.º acum. de Prop. acum. de
Classes médios dias dias dias dias
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
[4.1, 5.9[ 5 3 0.050 3 0.050
[5.9, 7.7[ 6.8 7 0.117 10 0.167
[7.7, 9.5[ 8.6 18 0.300 28 0.467
[9.5, 11.3[ 10.4 17 0.283 45 0.750
[11.3, 13.1[ 12.2 12 0.200 57 0.950
[13.1, 14.9] 14 3 0.050 60 1.000
Total 60 1.000

Com base na tabela, é possível dizer, por exemplo, que a produção foi
inferior a 11.3 toneladas em 75% dos dias considerados e que se situou

Hugo Alonso, ULP - 2021/2022 16


entre as 13.1 e as 14.9 toneladas, ou seja, foi aproximadamente igual a
14 toneladas, em 5% dos dias em análise. 

Medidas estatísticas comuns para dados univariados

A representação tabular de dados univariados, vista anteriormente, per-


mite conhecer a distribuição de frequências de uma variável para a amos-
tra que se está a considerar. As medidas estatísticas indicadas a seguir
descrevem características dessa distribuição.

Medidas estatísticas para dados quantitativos

Moda: representa-se por x̂ e é o valor que ocorre com maior


frequência. No caso de os dados estarem agrupados em classes,
identifica-se a classe modal, isto é, com maior frequência, e o ponto
médio dessa classe fornece uma aproximação da moda.

Nota: se a moda for única, a distribuição diz-se unimodal. No caso de


haver mais do que um valor com igual frequência, sendo essa frequência
máxima, a moda não é única e a distribuição diz-se multimodal. Final-
mente, no caso de todos os valores terem igual frequência, a moda não
existe e a distribuição, que é uniforme, diz-se amodal.

Exemplo: voltando ao exemplo do clínico que decidiu estudar o nú-


mero de acidentes de trabalho por profissional de saúde que ocorreram
no último ano no seu hospital, tem-se que a moda é x̂ = 3 acidentes e,
por ser única, a distribuição é unimodal. 

Hugo Alonso, ULP - 2021/2022 17


Exemplo: voltando ao exemplo do gestor que decidiu estudar a pro-
dução diária da sua empresa, medida em toneladas, e considerando os
dados já agrupados em classes, tem-se que a classe modal é [7.7, 9.5[ t
e a moda é x̂ ≈ 8.6 t e, por serem únicas, a distribuição é unimodal. 

Média: representa-se por x̄, trata-se de um valor de compromisso das


observações x1, . . . , xn e é dada por
x1 + . . . + xn
x̄ =
n

n1 × x01 + . . . + nk × x0k
=
n

= f1 × x01 + . . . + fk × x0k

Exemplo: voltando ao exemplo do clínico que decidiu estudar o nú-


mero de acidentes de trabalho por profissional de saúde que ocorreram
no último ano no seu hospital, tem-se que a média é dada por

16 × 0 + 32 × 1 + . . . + 25 × 5
x̄ = ≈ 2.9 acidentes
397
ou

x̄ = 0.040 × 0 + 0.081 × 1 + . . . + 0.063 × 5 ≈ 2.9 acidentes.

Hugo Alonso, ULP - 2021/2022 18


Exemplo: voltando ao exemplo do gestor que decidiu estudar a pro-
dução diária da sua empresa, medida em toneladas, e considerando os
dados já agrupados em classes, tem-se que a média é dada por

3 × 5 + 7 × 6.8 + . . . + 3 × 14
x̄ = = 9.71 t
60
ou

x̄ = 0.050 × 5 + 0.117 × 6.8 + . . . + 0.050 × 14 = 9.71 t.

Média ponderada: representa-se por x̄w , trata-se de um valor de


compromisso das observações x1, . . . , xn, tendo em conta ponderações
w1, . . . , wn positivas que reflectem a sua importância, e é dada por
w1 × x1 + . . . + wn × xn
x̄w =
w1 + . . . + wn

Nota: a média x̄ é um caso particular da média ponderada x̄w , com


w1 = 1, . . . , wn = 1, ou seja, onde se dá a mesma importância a todas
as observações x1, . . . , xn.

Hugo Alonso, ULP - 2021/2022 19


Exemplo: um aluno obteve as seguintes classificações a três discipli-
nas, A, B e C:

Disciplina ECTS Classificação (valores)


A 6 10
B 3 14
C 3 15

A classificação média é dada por


10 + 14 + 15
x̄ = = 13 valores
3
e a classificação média ponderada pelos ECTS é dada por

6 × 10 + 3 × 14 + 3 × 15
x̄w = = 12.25 valores.
6+3+3
No primeiro caso, dá-se a mesma importância às classificações obtidas
nas três disciplinas. No segundo caso, dá-se maior importância à clas-
sificação obtida na disciplina A, cujo ECTS é maior. 

Hugo Alonso, ULP - 2021/2022 20


É importante medir a dispersão das observações x1, . . . , xn em torno
da média x̄. Só assim é possível ter uma ideia sobre se a média é ou
não uma boa aproximação dessas observações. De facto, quanto menor
for a dispersão, melhor a média representa as observações. A primeira
medida de dispersão que se vai introduzir é o desvio-padrão.

Desvio-padrão: representa-se por s e é calculado da seguinte forma:

• obtém-se primeiro a variância s2:

2 (x1 − x̄)2 + . . . + (xn − x̄)2


s =
n−1

n1 × x012 + . . . + nk × x0k2 − n × x̄ 2
=
n−1

n 0 2 0 2

= × f1 × (x1 − x̄) + . . . + fk × (xk − x̄)
n−1
• e calcula-se em seguida o desvio-padrão s:

s = s2

Nota: o desvio-padrão s é sempre maior ou igual a 0: é igual 0 quando


não há dispersão em torno da média (todas as observações são iguais à
média); caso contrário, se não for igual a 0, é tanto maior quanto maior
for a dispersão em torno da média.

Hugo Alonso, ULP - 2021/2022 21


Exemplo: voltando ao exemplo do clínico que decidiu estudar o nú-
mero de acidentes de trabalho por profissional de saúde que ocorreram
no último ano no seu hospital, apresenta-se a seguir uma forma de or-
ganizar os cálculos conducentes à média e ao desvio-padrão:

x0i ni ni × x0i x0i 2 ni × x0i 2


0 16 0 0 0
1 32 32 1 32
2 89 178 4 356
3 137 411 9 1233
4 98 392 16 1568
5 25 125 25 625
Total 397 1138 3814

1138
Média: x̄ = ≈ 2.9 acidentes
397
3814 − 397 × 2.92
Variância: s = 2
≈ 1.2 acidentes 2
397 − 1

Desvio-padrão: s = 1.2 ≈ 1.1 acidentes

Hugo Alonso, ULP - 2021/2022 22


Exemplo: voltando ao exemplo do gestor que decidiu estudar a pro-
dução diária da sua empresa, medida em toneladas, e considerando os
dados já agrupados em classes, apresenta-se a seguir uma forma de or-
ganizar os cálculos conducentes à média e ao desvio-padrão:

x0i ni ni × x0i x0i 2 ni × x0i 2


5 3 15 25 75
6.8 7 47.6 46.24 323.68
8.6 18 154.8 73.96 1331.28
10.4 17 176.8 108.16 1838.72
12.2 12 146.4 148.84 1786.08
14 3 42 196 588
Total 60 582.6 5942.76

582.6
Média: x̄ = = 9.71 t
60
5942.76 − 60 × 9.712
Variância: s =
2
≈ 4.84 t2
60 − 1

Desvio-padrão: s = 4.84 ≈ 2.20 t

Hugo Alonso, ULP - 2021/2022 23


O desvio-padrão é uma medida de dispersão absoluta. Comparando-o
com a média, torna-se possível perceber se a dispersão das observações
em torno dela é ou não alta. Tal comparação é feita mediante o cál-
culo do coeficiente de variação, medida de dispersão relativa que se vai
introduzir a seguir.

Coeficiente de variação: representa-se por CV e é dado por


s
CV = × 100%.

Nota: quanto menor for o coeficiente de variação, melhor a média re-
presenta as observações que se distribuem em torno dela. Se CV ' 50%,
considera-se que a dispersão das observações em torno da média é alta
e, neste caso, a média é pouco representativa do que foi observado.

Exemplo: voltando ao exemplo do clínico que decidiu estudar o nú-


mero de acidentes de trabalho por profissional de saúde que ocorreram
no último ano no seu hospital, tem-se o seguinte:

Desvio-padrão: s ≈ 1.1 acidentes

Média: x̄ ≈ 2.9 acidentes

Coeficiente de variação: CV = 1.1


2.9 × 100% ≈ 38%

Hugo Alonso, ULP - 2021/2022 24


Exemplo: voltando ao exemplo do gestor que decidiu estudar a pro-
dução diária da sua empresa, medida em toneladas, e considerando os
dados já agrupados em classes, tem-se o seguinte:

Desvio-padrão: s ≈ 2.20 t

Média: x̄ ≈ 9.71 t

Coeficiente de variação: CV = 2.20


9.71 × 100% ≈ 23%

Comparando este exemplo com o anterior, é possível dizer que, neste


caso, a média representa melhor o que foi observado, uma vez que o
coeficiente de variação é menor. 

Hugo Alonso, ULP - 2021/2022 25


As medidas estatísticas a seguir são medidas de localização, tal como a
moda e a média.

Percentil p: representa-se por Pp, é um valor que separa os p% de


menores observações dos restantes (100 − p)% de maiores observações
e pode ser determinado do seguinte modo:

• ordena-se as observações x1, . . . , xn por ordem crescente:

x(1) ≤ x(2) ≤ . . . ≤ x(n)


p
• calcula-se j = ×n
100
• se j for um número inteiro, então Pp é a média dos valores que
surgem nas posições j e j + 1:
x(j) + x(j+1)
Pp =
2
• se j não for um número inteiro, então Pp é o valor que surge na
posição bjc + 1:
Pp = x(bjc+1)

Quartis: representam-se por Q1, Q2 e Q3, dividem o conjunto de


dados em quatro partes, cada uma com cerca de 25% dos dados, e são
tais que:

• Q1 = P25 é o primeiro quartil e corresponde ao percentil 25;

• Q2 = x̃ = P50 é o segundo quartil ou mediana x̃ e corresponde ao


percentil 50;

• Q3 = P75 é o terceiro quartil e corresponde ao percentil 75.

Hugo Alonso, ULP - 2021/2022 26


Exemplo: voltando ao exemplo do clínico que decidiu estudar o nú-
mero de acidentes de trabalho por profissional de saúde que ocorreram
no último ano no seu hospital, tem-se que:

• Q1 = P25 = 2 acidentes:
25
j= × 397 = 99.25 não é inteiro, logo
100
P25 = x(bjc+1) = x(100) = 2

• Q2 = x̃ = P50 = 3 acidentes:
50
j= × 397 = 198.5 não é inteiro, logo
100
P50 = x(bjc+1) = x(199) = 3

• Q3 = P75 = 4 acidentes:
75
j= × 397 = 297.75 não é inteiro, logo
100
P75 = x(bjc+1) = x(298) = 4

Assim, é possível dizer que 25% dos 397 profissionais envolvidos no


estudo tiveram, no máximo, 2 acidentes, 50% tiveram, no máximo, 3
acidentes e 75% tiveram, no máximo, 4 acidentes. 

Hugo Alonso, ULP - 2021/2022 27


Exemplo: voltando ao exemplo do gestor que decidiu estudar a pro-
dução diária da sua empresa, medida em toneladas, e considerando os
dados já agrupados em classes, tem-se que:

• Q1 = P25 = 8.6 t:
25
j= × 60 = 15 é inteiro, logo
100
x(j) + x(j+1) x(15) + x(16) 8.6 + 8.6
P25 = = = = 8.6
2 2 2
• Q2 = x̃ = P50 = 10.4 t:
50
j= × 60 = 30 é inteiro, logo
100
x(j) + x(j+1) x(30) + x(31) 10.4 + 10.4
P50 = = = = 10.4
2 2 2
• Q3 = P75 = 11.3 t:
75
j= × 60 = 45 é inteiro, logo
100
x(j) + x(j+1) x(45) + x(46) 10.4 + 12.2
P75 = = = = 11.3
2 2 2
Assim, é possível dizer que em 25% dos 60 dias considerados a produção
foi, no máximo, de 8.6 toneladas, em 50% dos dias foi, no máximo, de
10.4 toneladas e em 75% dos dias foi, no máximo, de 11.3 toneladas. 

Hugo Alonso, ULP - 2021/2022 28


A próxima medida estatística é uma medida de dispersão, tal como o
desvio-padrão e o coeficiente de variação. Neste caso, mede-se a disper-
são das observações situadas entre o primeiro e o terceiro quartis, ou
seja, ignora-se os 25% de menores observações (antes de Q1) e os 25%
de maiores observações (depois de Q3) e mede-se a dispersão dos 50%
de observações centrais que restam.

Amplitude interquartil: representa-se por AIQ e é dada por

AIQ = Q3 − Q1.

Exemplo: voltando ao exemplo do clínico que decidiu estudar o nú-


mero de acidentes de trabalho por profissional de saúde que ocorreram
no último ano no seu hospital, tem-se que

AIQ = Q3 − Q1 = 4 − 2 = 2 acidentes.

Assim, se ignorarmos os 25% de profissionais com menor número de aci-


dentes e os 25% de profissionais com maior número de acidentes, então,
relativamente aos restantes 50% de profissionais, é possível dizer que
houve uma variação de 2 unidades no número de acidentes registados.


Exemplo: voltando ao exemplo do gestor que decidiu estudar a pro-


dução diária da sua empresa, medida em toneladas, e considerando os
dados já agrupados em classes, tem-se que

AIQ = Q3 − Q1 = 11.3 − 8.6 = 2.7 t.

Assim, se ignorarmos os 25% de dias de menor produção e os 25% de

Hugo Alonso, ULP - 2021/2022 29


dias de maior produção, então, relativamente aos restantes 50% de dias,
é possível dizer que houve uma variação de 2.7 toneladas na produção.


Medidas estatísticas para dados ordinais

Conforme já foi referido, uma variável ordinal com mais de três catego-
rias pode ser tratada como se fosse uma variável quantitativa discreta.
Para tal, regra geral, codifica-se a menor categoria como 1, a segunda
como 2, etc. No caso de as categorias serem intervalos limitados de
números, a codificação é feita usando o correspondente ponto médio.
Assim, pode-se determinar todas as medidas estatísticas introduzidas
anteriormente para dados quantitativos. No caso de a variável ordinal
ter duas ou três categorias, o habitual é determinar apenas a moda, os
quartis e a amplitude interquartil.

Exemplo: voltando ao exemplo do estudo do nível de ensino frequen-


tado por várias crianças, tem-se que a moda é x̂ = 3.º ciclo e, por ser
única, a distribuição é unimodal. Além disso, tem-se que:

• Q1 = P25 = 1.º ciclo:


25
j= × 9 = 2.25 não é inteiro, logo
100
P25 = x(bjc+1) = x(3) = 1.º ciclo

• Q2 = x̃ = P50 = 2.º ciclo:


50
j= × 9 = 4.5 não é inteiro, logo
100
P50 = x(bjc+1) = x(5) = 2.º ciclo

Hugo Alonso, ULP - 2021/2022 30


• Q3 = P75 = 3.º ciclo:
75
j= × 9 = 6.75 não é inteiro, logo
100
P75 = x(bjc+1) = x(7) = 3.º ciclo

Assim, é possível dizer que 25% das 9 crianças envolvidas no estudo


frequentam, no máximo, o 1.º ciclo, 50% frequentam, no máximo, o 2.º
ciclo e 75% frequentam, no máximo, o 3.º ciclo. Por fim, note-se que,
como o primeiro quartil é Q1 = 1.º ciclo e o terceiro quartil é Q3 = 3.º
ciclo,
AIQ = 2 níveis de ensino.

Deste modo, se ignorarmos os 25% de crianças que frequentam o menor


nível de ensino e os 25% de crianças que frequentam o maior nível de
ensino, então, relativamente aos restantes 50% de crianças, é possível
dizer que há uma variação de 2 níveis no nível de ensino registado. 

Medidas estatísticas para dados nominais

No caso de uma variável nominal, a única estatística estudada que se


determina é a moda. Note-se que, por exemplo, o cálculo de quartis não
faz sentido, porque tal pressupõe a possibilidade de ordenar os valores
da variável e não existe uma relação de ordem natural entre os valores
de uma variável nominal.

Exemplo: voltando ao exemplo do estudo do estado civil de várias


pessoas, tem-se que a moda é x̂ = solteiro e, por ser única, a distribuição
é unimodal. 

Hugo Alonso, ULP - 2021/2022 31


Em resumo, a próxima tabela indica medidas estatísticas comuns que
são determinadas para cada tipo de variável:

Variável:
Medida: Ordinal Quantitativa ou
Nominal
com 2 ou 3 categorias Ordinal com mais de 3 categorias
Moda: x̂   
Localização:

1º quartil: Q1 = P25  
2º quartil : Q2 = x̃ = P50  
3º quartil: Q3 = P75  
Média: x̄ 
 
Dispersão:

Amplitude interquartil: AIQ


Desvio-padrão: s 
Coeficiente de variação: CV 

Representação gráfica de dados univariados

A representação gráfica de dados univariados é um complemento à re-


presentação tabular e ao cálculo de medidas estatísticas de dados de
uma só variável.

Gráficos usuais e dados envolvidos:

• gráfico circular: dados qualitativos;

• diagrama de barras: dados qualitativos ou quantitativos discretos


com poucos valores distintos;

• histograma: dados quantitativos agrupados em classes;

• caixa de bigodes: dados quantitativos.

Hugo Alonso, ULP - 2021/2022 32


Gráfico circular: gráfico constituído por um círculo, dividido em
tantas fatias quantos os valores distintos registados na amostra da va-
riável qualitativa em análise. O tamanho das fatias é determinado
pelas frequências absolutas ou relativas desses valores.

Exemplo: um inquérito, realizado à qualidade do serviço prestado


num gabinete de apoio psicológico, revelou que: 2% dos utentes acha
que é muito má, 2% má, 12% razoável, 30% boa e 54% muito boa. A
representação desta informação com recurso a um gráfico circular é a
seguinte:

Hugo Alonso, ULP - 2021/2022 33


Diagrama de barras: gráfico de barras verticais, espaçadas, onde
cada barra está associada a um dos valores distintos registados na
amostra da variável qualitativa ou quantitativa discreta em análise.
A altura das barras corresponde às frequências absolutas ou relativas
desses valores.

Exemplo: voltando ao exemplo do clínico que decidiu estudar o nú-


mero de acidentes de trabalho por profissional de saúde que ocorreram
no último ano no seu hospital, tem-se o seguinte para diagrama de bar-
ras das frequências absolutas:

Acidentes de trabalho no último ano


137
140

120

98
100
89
N.º de profissionais

80

60

40 32
25
16
20

0
0 1 2 3 4 5
N.º de acidentes por profissional

Hugo Alonso, ULP - 2021/2022 34


Histograma: gráfico de barras verticais, adjacentes, onde cada barra
está associada a uma das classes em que estão agrupados os dados na
amostra da variável quantitativa em análise. Se as classes tiverem a
mesma amplitude, como é o caso tratado aqui, a altura das barras pode
ser escolhida igual às frequências absolutas ou relativas dessas classes.

Exemplo: voltando ao exemplo do gestor que decidiu estudar a pro-


dução diária da sua empresa, medida em toneladas, e considerando os
dados já agrupados em classes, tem-se o seguinte para histograma das
frequências relativas:

Produção em 60 dias
0.35

0.300
0.3 0.283

0.25

0.200
Prop. de dias

0.2

0.15
0.117

0.1

0.050 0.050
0.05

0
4.1 5.9 7.7 9.5 11.3 13.1 14.9
Produção diária (t)

Hugo Alonso, ULP - 2021/2022 35


Antes de introduzir a representação gráfica designada por caixa de bi-
godes, é necessário introduzir a seguinte noção:

Valor atípico ou outlier: trata-se de um valor muito pequeno ou


muito grande em relação à grande maioria dos valores registados numa
amostra de dados quantitativos. Concretizando, diz-se que:

• x é um valor atípico ou outlier severo se

x < Q1 − 3 × AIQ

ou
x > Q3 + 3 × AIQ

• x é um valor atípico ou outlier moderado se

Q1 − 3 × AIQ ≤ x < Q1 − 1.5 × AIQ

ou
Q3 + 1.5 × AIQ < x ≤ Q3 + 3 × AIQ

Exemplo: perguntou-se a idade a 12 indivíduos e registou-se o seguin-


te, em anos: 14, 20, 29, 31, 32, 32, 33, 33, 34, 36, 43, 51. É fácil concluir
que Q1 = 30, Q3 = 35 e AIQ = 5 anos. Assim, um valor x na amostra
é um valor atípico ou outlier severo se

x < 15 = Q1 − 3 × AIQ

ou
x > 50 = Q3 + 3 × AIQ

ou seja, são valores atípicos ou outliers severos as idades 14 e 51 anos.

Hugo Alonso, ULP - 2021/2022 36


Além disso, um valor x na amostra é um valor atípico ou outlier mo-
derado se

Q1 − 3 × AIQ = 15 ≤ x < 22.5 = Q1 − 1.5 × AIQ

ou
Q3 + 1.5 × AIQ = 42.5 < x ≤ 50 = Q3 + 3 × AIQ

isto é, são valores atípicos ou outliers moderados as idades 20 e 43 anos.




Caixa de bigodes: gráfico que contém um rectângulo, a caixa,


dividido em duas partes e que situa os três quartis da amostra da
variável quantitativa em análise. A dois lados do rectângulo estão co-
nectados segmentos, os bigodes, que situam o menor valor e o maior
valor registados na amostra e que não são considerados atípicos ou ou-
tliers. Os valores atípicos ou outliers moderados surgem identificados
com círculos e os severos com asteriscos.

Hugo Alonso, ULP - 2021/2022 37


Exemplo: voltando ao exemplo do estudo da idade de 12 indivíduos,
tem-se o seguinte para caixa de bigodes:

Hugo Alonso, ULP - 2021/2022 38


Dados bivariados

Suponha que, para cada elemento de uma amostra selecionada para


análise numa população, se observam duas variáveis de interesse. Aos
dados resultantes dá-se o nome de dados bivariados.

Relação entre duas variáveis quantitativas

Diagrama de dispersão: representação gráfica de dados bivariados


quantitativos num referencial cartesiano. Cada eixo do referencial diz
respeito a uma das variáveis e cada caso na amostra é representado por
um ponto no gráfico.

Exemplo: o gestor de uma loja decidiu estudar a relação entre o


número de anúncios publicitários à loja, exibidos ao fim-de-semana, na
televisão, e as vendas na semana seguinte. Para tal, registou o valor das
duas variáveis ao longo de 10 semanas, tendo obtido o seguinte:

Hugo Alonso, ULP - 2021/2022 39


Semana N.º de anúncios Vendas (centenas de euros)
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46

O diagrama de dispersão dos dados registados é o seguinte:


Relação entre anúncios e vendas
65

60
Vendas (centenas de euros)

55

50

45

40

35
1 1.5 2 2.5 3 3.5 4 4.5 5
N.º de anúncios

Observando o gráfico, é possível verificar que as vendas tendem a au-


mentar quando o número de anúncios publicitários aumenta. 

Hugo Alonso, ULP - 2021/2022 40


O diagrama de dispersão permite visualizar a relação entre duas vari-
áveis quantitativas. A medida estatística a seguir quantifica a associação
linear entre essas variáveis. A associação é perfeita quando os pontos no
diagrama de dispersão estão dispostos segundo uma linha reta oblíqua.

Coeficiente de correlação de Pearson: representa-se por r,


trata-se de uma medida da associação linear entre duas variáveis quan-
titativas X e Y e é dado por
Pn
i=1 xi yi − n x y
r=q P
n 2 − nx2
 Pn 2 2

x
i=1 i y
i=1 i − ny

sendo x̄ a média de X na amostra e ȳ a de Y . O valor de r é um


número no intervalo [−1, 1]. Diz-se que a correlação entre as duas
variáveis é:

• desprezável, se 0 ≤ |r| < 0.2;

• moderada, se 0.2 ≤ |r| < 0.7;

• forte, se 0.7 ≤ |r| ≤ 1.

No caso de a correlação ser moderada ou forte:

• se r > 0, então uma variável tende a aumentar quando a outra


aumenta;

• se r < 0, então uma variável tende a diminuir quando a outra


aumenta.

Hugo Alonso, ULP - 2021/2022 41


Exemplo: voltando ao exemplo do gestor da loja que decidiu estudar a
relação entre o número de anúncios publicitários ao fim-de-semana, X,
e as vendas na semana seguinte, Y , tem-se que os cálculos conducentes
ao coeficiente de correlação de Pearson entre X e Y , na amostra das 10
semanas selecionadas, podem ser organizados da seguinte forma:

xi yi xi y i x2i yi2
2 50 100 4 2500
5 57 285 25 3249
1 41 41 1 1681
3 54 162 9 2916
4 54 216 16 2916
1 38 38 1 1444
5 63 315 25 3969
3 48 144 9 2304
4 59 236 16 3481
2 46 92 4 2116
Total 30 510 1629 110 26576

Assim,
Pn Pn
i=1 xi 30 i=1 yi 510
x= = =3 , y= = = 51
n 10 n 10

Hugo Alonso, ULP - 2021/2022 42


e o coeficiente de correlação de Pearson é
Pn
i=1 xi yi − n x y
r=q P
n 2 − nx2
 Pn 2 2

x
i=1 i y
i=1 i − ny
1629 − 10 × 3 × 51
=p
(110 − 10 × 32) (26576 − 10 × 512)
≈ 0.93.

Como 0.7 ≤ |r| ≤ 1, a correlação entre o número de anúncios publici-


tários e as vendas é forte. Neste contexto, sendo r > 0, regista-se o que
foi observado anteriormente no diagrama de dispersão dos dados, ou
seja, que as vendas tendem a aumentar quando o número de anúncios
publicitários aumenta. 

Conforme já foi referido, o coeficiente de correlação de Pearson mede


a associação linear entre duas variáveis quantitativas. No caso de o
diagrama de dispersão sugerir que as duas variáveis quantitativas es-
tão relacionadas, mas não linearmente, a associação entre elas deve ser
medida pelo coeficiente de correlação que se irá definir a seguir.

Relação entre duas variáveis, pelo menos, ordinais

O coeficiente de correlação indicado para medir a associação entre duas


variáveis ordinais, entre uma ordinal e uma quantitativa ou entre duas
quantitativas relacionadas de forma não linear denomina-se por co-
eficiente de correlação de Spearman, representa-se por rS e
obtém-se calculando o coeficiente de correlação de Pearson, não entre

Hugo Alonso, ULP - 2021/2022 43


as observações originais (xi, yi), mas entre as ordens dessas observações
(ord (xi) , ord(yi)), onde, por exemplo, ord (xi) representa a ordem de
xi na amostra de valores da variável X. As ordens são representadas
pelos números 1, 2, etc. e, quando houver duas ou mais observações
iguais na mesma variável, atribui-se a essas observações a média das
ordens que lhes seriam atribuídas. A ordenação pode ser ascendente
ou descendente. O valor de rS é, obviamente, um número no intervalo
[−1, 1] e pode ser interpretado da mesma maneira que o valor de r, não
só em relação à magnitude, como também em relação ao sinal.

Exemplo: uma parte dos funcionários de uma empresa realizou uma


formação e, no final, responderam a um teste. O tempo que demoraram,
em minutos, e a nota que obtiveram foram os seguintes:

Funcionário Tempo Nota


1 10 Muito bom
2 15 Bom
3 40 Muito mau
4 30 Mau
5 20 Satisfaz
6 35 Mau
7 13 Bom
8 25 Satisfaz
9 9 Muito bom
10 30 Mau

Hugo Alonso, ULP - 2021/2022 44


Haverá alguma associação entre o tempo que demoraram, X, e a nota
que obtiveram, Y ? Tendo em conta que uma variável é quantitativa e
outra ordinal, responder-se-á à questão com base no valor do coeficiente
de correlação de Spearman entre ambas. Para calcular tal valor, começa-
se por determinar as ordens das observações em cada uma das variáveis,
considerando, por exemplo, uma ordenação ascendente:

xi yi ord (xi) ord(yi)


10 Muito bom 2 9.5
15 Bom 4 7.5
40 Muito mau 10 1
30 Mau 7.5 3
20 Satisfaz 5 5.5
35 Mau 9 3
13 Bom 3 7.5
25 Satisfaz 6 5.5
9 Muito bom 1 9.5
30 Mau 7.5 3

O coeficiente de correlação de Spearman obtém-se calculando o coefici-


ente de correlação de Pearson entre as ordens das observações, chegando-
se à conclusão de que rS ≈ −0.98. Como 0.7 ≤ |rS | ≤ 1, a correlação
entre o tempo que os funcionários demoraram a responder ao teste e a
nota que obtiveram é forte. Neste contexto, sendo rS < 0, verifica-se
que, quanto maior foi o tempo de resposta, menor tendeu a ser a nota.


Hugo Alonso, ULP - 2021/2022 45


Ao estudar a relação entre duas variáveis, pelo menos, ordinais é também
habitual analisar a chamada tabela de contingência dos dados bivaria-
dos.

Tabela de contingência: tabela para representação de dados


bivariados, qualitativos ou quantitativos. As linhas da tabela di-
zem respeito a uma das variáveis e as colunas à outra variável.
No interior da tabela, a célula na linha i e na coluna j indica o nú-
mero de elementos da amostra em que se regista o valor ou classe de
valores i para a variável das linhas e, simultaneamente, o valor ou classe
de valores j para a variável das colunas. Nas margens da tabela estão
indicados os totais por linha e por coluna.

Exemplo: voltando ao exemplo anterior, agrupou-se os dados do


tempo em classes e a tabela de contingência que sumaria a informa-
ção das duas variáveis é a seguinte:

Tempo de resposta (min)


Total
[0, 10[ [10, 20[ [20, 30[ [30, 40]
Muito mau 0 0 0 1 1
Mau 0 0 0 3 3
Nota Satisfaz 0 0 2 0 2
Bom 0 2 0 0 2
Muito bom 1 1 0 0 2
Total 1 3 2 4 10

Hugo Alonso, ULP - 2021/2022 46


Os totais a azul na margem direita da tabela fornecem a distribuição
de frequências da variável Nota. Por exemplo, o mais frequente foi
registar funcionários (3) com um nota má. Já os totais a vermelho
na margem inferior da tabela fornecem a distribuição de frequências da
variável Tempo de resposta. Por exemplo, o menos frequente foi registar
funcionários (1) com um tempo de resposta no intervalo [0, 10[ minutos.
Assim, os totais nas margens fornecem as chamadas distribuições
marginais e é com base nelas que se realiza a análise das duas
variáveis em separado.

Por outro lado, as frequências a preto no interior da tabela fornecem a


chamada distribuição conjunta das duas variáveis e é com base nela
que se realiza a análise das duas variáveis em conjunto. Por
exemplo, o mais frequente foi registar funcionários (3) com um tempo de
resposta no intervalo [30, 40] minutos e uma nota má. Observando com
atenção a distribuição conjunta das duas variáveis, torna-se claro que
as notas mais altas estão associadas a tempos de resposta mais baixos
e que as notas mais baixas estão associadas a tempos de resposta mais
altos. Isto também é fácil de concluir por observação da figura abaixo.
Note-se que a análise realizada está de acordo com a interpretação do
valor do coeficiente de correlação de Spearman entre as duas variáveis.

Hugo Alonso, ULP - 2021/2022 47




Relação entre duas variáveis em que, pelo menos, uma


delas é nominal

A medição da associação entre uma variável nominal e outra variável


pode ser feita através do coeficiente de Cramer, representado por
V . No caso de a outra variável ser quantitativa, o habitual é considerar
no seu lugar a correspondente variável ordinal que se obtém agrupando
os dados em classes. O coeficiente de Cramer é calculado da seguinte
forma:

Hugo Alonso, ULP - 2021/2022 48


• primeiro, constrói-se a tabela de contingência das frequências abso-
lutas observadas nij e das estimadas eij na hipótese de não haver
associação entre as duas variáveis, X e Y :

Y
Total
Classe 1 Classe 2 . . . Classe C
Classe 1 n11 (e11) n12 (e12) . . . n1C (e1C ) n1•
Classe 2 n21 (e21) n22 (e22) . . . n2C (e2C ) n2•
X ... ... ... ... ... ...

Classe L nL1 (eL1) nL2 (eL2) . . . nLC (eLC ) nL•


Total n•1 n•2 ... n•C n

onde
ni• × n•j
eij =
n
• em seguida, determina-se o valor da estatística representada por χ2:
L X
C
X (nij − eij )2
χ2 =
i=1 j=1
eij

• finalmente, obtém-se o valor do coeficiente de Cramer através de


s
χ2
V =
n (q − 1)

onde q é o menor valor entre L (número de classes de X) e C


(número de classes de Y ).

Hugo Alonso, ULP - 2021/2022 49


O valor de V é um número no intervalo [0, 1]. Diz-se que a associação
entre as duas variáveis é:

• desprezável, se 0 ≤ V < 0.2;

• moderada, se 0.2 ≤ V < 0.6;

• forte, se 0.6 ≤ V ≤ 1.

Exemplo: um gestor de uma instituição de crédito recolheu os seguin-


tes dados de alguns mutuários com vista ao estudo da relação entre a
existência de outros créditos, X, e o incumprimento no pagamento do
empréstimo concedido pela sua instituição, Y :

Outros
Mutuário Incumpridor
créditos
1 Não Não
2 Não Sim
3 Não Não
4 Não Não
5 Sim Sim
6 Não Não
7 Sim Não
8 Sim Sim
9 Não Não
10 Não Não

Hugo Alonso, ULP - 2021/2022 50


A tabela de contingência das frequências absolutas observadas e das
estimadas na hipótese de não haver associação entre as duas variáveis
é:
Incumpridor
Total
Não Sim
Outros Não 6 (4.9) 1 (2.1) 7
créditos Sim 1 (2.1) 2 (0.9) 3
Total 7 3 10

Assim, o valor da estatística χ2 é


L X
C
2
X (nij − eij )2
χ =
i=1 j=1
eij
(6 − 4.9)2 (1 − 2.1)2 (1 − 2.1)2 (2 − 0.9)2
= + + +
4.9 2.1 2.1 0.9
≈ 2.744

e, tendo em conta que L = C = 2, donde q = 2, o coeficiente de Cramer


é

s s
χ2 2.744
V = = ≈ 0.52.
n (q − 1) 10 × (2 − 1)

Como 0.2 ≤ V < 0.6, há uma associação moderada entre a existência


de outros créditos e o incumprimento no pagamento do empréstimo con-
cedido pela instituição do gestor. A partir da análise da tabela de con-
tingência, é possível verificar que 67% (2/3) dos mutuários com outros

Hugo Alonso, ULP - 2021/2022 51


créditos são incumpridores, enquanto que só 14% (1/7) dos mutuários
sem outros créditos é que são incumpridores. 

Hugo Alonso, ULP - 2021/2022 52

Você também pode gostar