1-Estatística Descritiva

Estatística Descritiva
Diz-se que deixámos de ser uma sociedade industrial para passarmos

a ser uma sociedade de informação, onde é necessário tomar decisões
rápidas e bem fundamentadas.
A Estatística fornece métodos que auxiliam o processo de tomada

de decisão através da análise dos dados disponíveis. Está dividida em
duas áreas:
• Estatística Descritiva: conjunto de técnicas apropriadas

para sumariar a informação recolhida de uma amostra de uma
população, de modo a melhor interpretar essa informação;
• Estatística Inferencial: conjunto de técnicas que, com

base na informação recolhida de uma amostra de uma
população, permitem tirar conclusões sobre essa população.
A quantificação da incerteza associada às conclusões é feita com
recurso ao cálculo de probabilidades.
Hugo Alonso, ULP - 2021/2022 1

População: grupo de todos os elementos que se pretende estudar
relativamente a um ou mais atributos que todos possuem.
O valor dos atributos pode variar de elemento para elemento da

população. Diz-se, por isso, que os atributos são variáveis.
As medidas relativas a uma população designam-se por parâmetros.

Os parâmetros são fixos, isto é, não variam. No entanto, são muitas
vezes desconhecidos, uma vez que muitas vezes não é possível aceder a
todos os elementos da população. São exemplos de parâmetros:
• N : tamanho da população;
• µ: média da população;
• σ: desvio-padrão da população.
Exemplo: suponha que se pretende estudar a idade, em anos, na

população correspondente a todos os alunos que, no primeiro dia de
aulas, estão inscritos numa certa disciplina. Admita que há um total de
quatro alunos, ou seja, que o tamanho da população é N = 4. A idade
é um atributo que todos possuem. Trata-se de uma variável, X, dado
que o valor da idade pode variar de aluno para aluno. A idade média
na população, representada por µ, é uma medida relativa à população
e, portanto, diz-se um parâmetro. Se não for possível inquirir todos
quanto à idade, não é possível conhecer a idade média na população:

Aluno Idade (anos)
Gonçalo 18
Inês 19
João ?
Maria 20
Idade média na população : µ = 18+19+?+20

4 = ?? anos
Amostra: subgrupo da população selecionado para análise.
As medidas relativas a uma amostra designam-se por estatísticas.

As estatísticas são variáveis, pois o valor que tomam pode variar de
amostra para amostra. Numa amostra conhecida, tem-se o seguinte
para valor de algumas estatísticas:
• n: tamanho da amostra;
• x̄: média da amostra;
• s: desvio-padrão da amostra.
Exemplo: no exemplo anterior, o grupo de quatro alunos corresponde

à população e o subgrupo de três alunos que se inquiriu e cujas idades
são conhecidas corresponde a uma amostra. O tamanho da amostra a
que se teve acesso é então n = 3. A idade média numa amostra é uma
medida relativa a uma amostra e, portanto, diz-se uma estatística. No
caso particular da amostra conhecida, o valor desta estatística é:
18 + 19 + 20
Idade média na amostra : x̄ = = 19 anos
3

Etapas na resolução de um problema estatístico:

Classificação de dados
Os atributos ou variáveis que se pretende estudar nos elementos de

uma população podem ser classificados em função do modo como são
medidos. Esta classificação é importante pois determina o modo
como os dados devem ser tratados e analisados.
Tem-se as seguintes possibilidades:

 

 nominal
qualitativa






 ordinal


Variável:

 


 contínua
quantitativa





 discreta
• qualitativa (numérica ou não numérica): a variável representa

qualidades, categorias ou classes e não faz sentido operar com os
valores que toma, como adicioná-los, mesmo que sejam numéricos;
• qualitativa nominal: não há uma relação de ordem natural

entre os valores da variável;
Exemplo: sexo de um indivíduo, registado como feminino (1) ou
masculino (2).
Nota: a representação de feminino como 1 e de masculino como 2 é
apenas uma codificação, arbitrária, não tendo qualquer significado
quantitativo.

• qualitativa ordinal: há uma relação de ordem natural entre os
valores da variável;
Exemplo: qualidade de um vinho, registada como má (1), razoá-
vel (2) ou boa (3).
Nota: a representação de má como 1, de razoável como 2 e de boa
como 3 é apenas uma codificação, arbitrária, não tendo qualquer
significado quantitativo. Note que, apesar de arbitrária, a codifica-
ção respeita a ordem dos valores: má = 1 < razoável = 2 < boa =
3.
• quantitativa (numérica): a variável representa quantidades,

resultantes de contagens ou de medições, e faz sentido operar com
os valores que toma, como adicioná-los;
• quantitativa contínua: a variável pode tomar qualquer valor

num intervalo de números;
Exemplo: temperatura de um local, medida em graus Celsius.
• quantitativa discreta: a variável toma apenas valores isola-

dos, ou seja, não é verdade que possa tomar qualquer valor num
intervalo de números;
Exemplo: número de clientes de uma empresa.
Os dados mais informativos são os quantitativos, seguidos dos ordinais

e, por último, dos nominais. É de notar que há autores que tratam as
variáveis ordinais com mais de três categorias como se fossem variáveis
quantitativas discretas. Para tal, fazem uma codificação numérica das

categorias e tal possibilita, por exemplo, o cálculo de médias. Em geral,
codificam a menor categoria como 1, a segunda como 2, etc. No caso
de as categorias serem intervalos limitados de números, a codificação é
feita usando o correspondente ponto médio.
Exemplo: um estudo na área do marketing selecionou vários consumi-

dores, escolhidos ao acaso, e pediu-lhes que dessem a sua opinião sobre
uma afirmação:
Um anúncio publicitário com um forte apelo emocional motiva-me a
comprar esse produto:
◦ Discordo completamente
◦ Discordo parcialmente
◦ Não discordo, nem concordo
◦ Concordo parcialmente
◦ Concordo completamente
A escala em que foi registada a opinião é ordinal, mas pode ser tra-
tada como se fosse quantitativa discreta, usando a codificação de 1 -
Discordo completamente a 5 - Concordo completamente. Esta escala é
habitualmente referida como uma escala de Likert de 5 pontos. Tendo
em conta a codificação usada, quanto maior for a média das respostas,
maior tende a ser a concordância dos inquiridos em relação à afirmação
apresentada.
Fornecido um conjunto de dados, recorre-se a tabelas, gráficos e medidas

estatísticas para sumariar a informação e em seguida analisá-la. As
tabelas e os gráficos que se constroem e as medidas estatísticas que se

calculam variam com a natureza dos dados, isto é, são diferentes para
dados nominais, ordinais e quantitativos.
Representação tabular de dados univariados
Dados univariados são dados de uma só variável. A sua representação

tabular é um resumo da informação registada.
Tabela de frequências: tabela que disponibiliza um acesso rápido

ao número (frequência absoluta) e à proporção (frequência relativa)
de observações de uma variável com um determinado valor ou num
intervalo de valores (classe de valores).
Notação geral (símbolos convencionados):
X variável
x1 , . . . , x n observações da variável
n número total de observações
k número de valores distintos ou de classes de valores
ni frequência absoluta do valor ou classe de valores i
fi = ni
n frequência relativa do valor ou classe de valores i
Ni = n1 + . . . + ni frequência absoluta acumulada do valor ou
classe de valores i
Fi = f1 + . . . + fi frequência relativa acumulada do valor ou
Ni classe de valores i
=
n

Tabela para dados nominais
Observações: x1, . . . , xn
Valores distintos: x01, . . . , x0k
Tabela de frequências:
Valores distintos Freq. abs. Freq. rel.

(x0i ) (ni ) (fi )
n1
x01 n1 f1 = n
n2
x02 n2 f2 = n
.. .. ..
. . .
nk
x0k nk fk = n
Total n 1
Breve interpretação:
• n1 representa o número de vezes que foi observado o valor x01
• f1 = n1
n representa a proporção de vezes (n1 em n) que foi observado
o valor x01
Exemplo: perguntou-se a várias pessoas qual o seu estado civil: casado

(1), divorciado (2), solteiro (3) ou viúvo (4)? Registou-se o seguinte:
3, 4, 3, 2, 3, 1, 3, 1. A variável em estudo, X, é o estado civil de um
indivíduo e é qualitativa nominal. Tem-se n = 8 observações para a
variável, x1 = 3, x2 = 4, . . . , x7 = 3, x8 = 1, mas apenas k = 4 são
distintas, x01 = 1, x02 = 2, x03 = 3, x04 = 4. A tabela de frequências que
resume a informação registada é a seguinte:

Estado civil N.º de indivíduos Prop. de indivíduos
(x0i ) (ni ) (fi )
casado (1) 2 0.250
divorciado (2) 1 0.125
solteiro (3) 4 0.500
viúvo (4) 1 0.125
Total 8 1.000
Com base na tabela, é possível dizer, por exemplo, que 4 dos 8 indivíduos
envolvidos no estudo, ou seja, 50%, são solteiros.
Tabela para dados ordinais ou quantitativos discretos com

poucos valores distintos
Valores distintos, por ordem crescente: x01 < . . . < x0k
Valores distintos Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(x0i ) (ni ) (fi ) (Ni ) (Fi )
n1
x01 n1 f1 = n N1 = n1 F1 = f 1
n2
x02 n2 f2 = n N2 = n1 + n2 F 2 = f1 + f2
.. .. .. .. ..
. . . . .
nk
x0k nk fk = n Nk = n Fk = 1
Total n 1

• n1 representa o número de vezes que foi observado o valor x01
• f1 = n1
o valor x01
• N2 = n1 + n2 representa o número de vezes que foi observado um

valor menor ou igual a x02
• F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor ou igual a x02
Exemplo: perguntou-se a várias crianças qual o nível de ensino que

frequentam: 1.º ciclo (1), 2.º ciclo (2) ou 3.º ciclo (3)? Registou-se o
seguinte: 3, 3, 1, 3, 2, 1, 1, 2, 3. A variável em estudo, X, é o nível
de ensino frequentado por um indivíduo e é qualitativa ordinal. Tem-se
n = 9 observações para a variável, x1 = 3, x2 = 3, . . . , x8 = 2, x9 = 3,
mas apenas k = 3 são distintas, x01 = 1 < x02 = 2 < x03 = 3, por ordem
crescente. A tabela de frequências que resume a informação registada é
a seguinte:
N.º de Prop. de N.º acum. de Prop. acum. de

Nível de ensino
crianças crianças crianças crianças
(x0i ) (ni ) (fi ) (Ni ) (Fi )
1.º ciclo (1) 3 0.333 3 0.333
2.º ciclo (2) 2 0.222 5 0.555
3.º ciclo (3) 4 0.444 9 1.000
Total 9 1.000

Com base na tabela, é possível dizer, por exemplo, que 5 dos 9 indivíduos
envolvidos no estudo, ou seja, cerca de 56%, frequentam um nível de
ensino que não ultrapassa o 2.º ciclo.
Exemplo: um clínico decidiu estudar o número de acidentes de traba-

lho por profissional de saúde que ocorreram no último ano no seu hospi-
tal. A variável em estudo, X, é o número de acidentes por profissional e
é quantitativa discreta. O clínico investigou e registou 397 valores para a
variável, um por cada um de 397 profissionais: 0, 1, 2, 1, 1, 2, 0, .... Em
seguida, sumariou a informação obtida na seguinte tabela de frequên-
cias:
N.º de acidentes N.º de Prop. de N.º acum. de Prop. acum. de

por profissional profissionais profissionais profissionais profissionais
(x0i ) (ni ) (fi ) (Ni ) (Fi )
0 16 0.040 16 0.040
1 32 0.081 48 0.121
2 89 0.224 137 0.345
3 137 0.345 274 0.690
4 98 0.247 372 0.937
5 25 0.063 397 1.000
Total 397 1.000
Com base na tabela, é possível dizer, por exemplo, que 32 profissio-

nais, que correspondem a cerca de 8% de todos os envolvidos no estudo,
sofreram 1 acidente, e que 274 profissionais, que correspondem a cerca
de 69% do total, sofreram, no máximo, 3 acidentes.

Tabela para dados quantitativos contínuos ou quantitati-
vos discretos com muitos valores distintos
Uma variável quantitativa contínua pode tomar qualquer valor num in-
tervalo de números e, portanto, é alta a possibilidade de se observar
muitos valores distintos. Neste contexto, não faz muito sentido con-
siderar as frequências absolutas e relativas dos valores observados; a
tabela resultante não seria um verdadeiro resumo da informação re-
gistada. Definem-se então intervalos de valores (classes de valores) e
consideram-se as frequências absolutas e relativas desses intervalos (clas-
ses). O mesmo aplica-se quando a variável é quantitativa discreta e são
observados muitos valores distintos.
Construção das classes de valores:

1. Determinar o número k de classes (regra de Sturges):

ln(n)

k= + 1,
ln(2)
onde b·c representa a parte inteira do número ·
2. Determinar a amplitude total a do conjunto de dados:
a = M − m,
onde M é o maior valor observado e m o menor
3. Determinar a amplitude ac de cada classe:

a
ac =
k

4. Construir as classes c1, . . . , ck da seguinte forma:
c1 = [m, m + ac[
c2 = [m + ac, m + 2 × ac[
...
ck = [m + (k − 1) × ac, m + k × ac]
Construção da tabela de frequências:
Classes: c1 = [L1, U1[, . . . , ck = [Lk , Uk ]
Pontos médios das classes: x01 < . . . < x0k , sendo o ponto médio da
classe ci = [Li, Ui[ dado por
Li + U i
x0i =
2
Classes P. médios Freq. abs. Freq. rel. Freq. abs. acum. Freq. rel. acum.
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
L1 +U1 n1
c1 = [L1 , U1 [ x01 = 2 n1 f1 = n N1 = n1 F 1 = f1
L2 +U2 n2
c2 = [L2 , U2 [ x02 = 2 n2 f2 = n N2 = n1 + n2 F2 = f 1 + f 2
.. .. .. .. .. ..
. . . . . .
Lk +Uk nk
ck = [Lk , Uk ] x0k = 2 nk fk = n Nk = n Fk = 1
Total n 1

• n1 representa o número de vezes que foi observado um valor na classe

c1
• f1 = n1
um valor na classe c1
• x01 é o valor da classe c1 que se escolhe para representar, de forma
aproximada, cada um dos valores observados na classe
• N2 = n1 + n2 representa o número de vezes que foi observado um
valor menor que o limite superior U2 da classe c2
• F2 = f1 + f2 = N2
n representa a proporção de vezes (N2 em n) que
foi observado um valor menor que o limite superior U2 da classe c2
Exemplo: um gestor decidiu estudar a produção diária da sua em-
presa, medida em toneladas. A variável em causa, X, corresponde à
produção diária e é quantitativa contínua. Os resultados registados em
60 dias foram os seguintes:
4.1 5.8 5.8 6.1 6.7 7.0 7.0 7.5 7.5 7.5 7.7 8.2
8.8 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2 9.2 9.4 9.4
9.7 9.8 10.0 10.0 10.2 10.2 10.3 10.6 10.6 10.8 10.9 10.9
11.6 11.7 11.8 11.8 11.8 12.0 12.2 12.2 12.3 12.5 12.6 12.7
8.3 9.4 11.0 14.0 8.5 9.5 11.1 14.2 8.7 9.5 11.1 14.8
O primeiro passo para sumariar esta informação consiste em construir

as classes em que os dados vão ser agrupados, determinando:
1. Número de classes:
ln(n) ln(60)

k= +1= + 1 = b5.906 . . .c + 1 = 5 + 1 = 6
ln(2) ln(2)

2. Amplitude total do conjunto de dados:
a = M − m = 14.8 − 4.1 = 10.7
3. Amplitude de cada classe:

a 10.7
ac = = = 1.783 . . . ≈ 1.8
k 6
4. Classes:
c1 = [4.1, 4.1 + 1.8[ = [4.1, 5.9[ c4 = [9.5, 11.3[
c2 = [5.9, 5.9 + 1.8[ = [5.9, 7.7[ c5 = [11.3, 13.1[
c3 = [7.7, 7.7 + 1.8[ = [7.7, 9.5[ c6 = [13.1, 14.9]
Uma vez determinadas as classes em que os dados registados devem ser

agrupados, obtém-se a seguinte tabela de frequências, que resume então
a informação disponível sobre a produção diária da empresa:
Produção diária (t) Pontos N.º de Prop. de N.º acum. de Prop. acum. de
Classes médios dias dias dias dias
(ci ) (x0i ) (ni ) (fi ) (Ni ) (Fi )
[4.1, 5.9[ 5 3 0.050 3 0.050
[5.9, 7.7[ 6.8 7 0.117 10 0.167
[7.7, 9.5[ 8.6 18 0.300 28 0.467
[9.5, 11.3[ 10.4 17 0.283 45 0.750
[11.3, 13.1[ 12.2 12 0.200 57 0.950
[13.1, 14.9] 14 3 0.050 60 1.000
Total 60 1.000
Com base na tabela, é possível dizer, por exemplo, que a produção foi
inferior a 11.3 toneladas em 75% dos dias considerados e que se situou

entre as 13.1 e as 14.9 toneladas, ou seja, foi aproximadamente igual a
14 toneladas, em 5% dos dias em análise.
Medidas estatísticas comuns para dados univariados
A representação tabular de dados univariados, vista anteriormente, per-

mite conhecer a distribuição de frequências de uma variável para a amos-
tra que se está a considerar. As medidas estatísticas indicadas a seguir
descrevem características dessa distribuição.
Medidas estatísticas para dados quantitativos
Moda: representa-se por x̂ e é o valor que ocorre com maior

frequência. No caso de os dados estarem agrupados em classes,
identifica-se a classe modal, isto é, com maior frequência, e o ponto
médio dessa classe fornece uma aproximação da moda.
Nota: se a moda for única, a distribuição diz-se unimodal. No caso de

haver mais do que um valor com igual frequência, sendo essa frequência
máxima, a moda não é única e a distribuição diz-se multimodal. Final-
mente, no caso de todos os valores terem igual frequência, a moda não
existe e a distribuição, que é uniforme, diz-se amodal.
Exemplo: voltando ao exemplo do clínico que decidiu estudar o nú-

mero de acidentes de trabalho por profissional de saúde que ocorreram
no último ano no seu hospital, tem-se que a moda é x̂ = 3 acidentes e,
por ser única, a distribuição é unimodal.

Exemplo: voltando ao exemplo do gestor que decidiu estudar a pro-
dução diária da sua empresa, medida em toneladas, e considerando os
dados já agrupados em classes, tem-se que a classe modal é [7.7, 9.5[ t
e a moda é x̂ ≈ 8.6 t e, por serem únicas, a distribuição é unimodal.
Média: representa-se por x̄, trata-se de um valor de compromisso das

observações x1, . . . , xn e é dada por
x1 + . . . + xn
x̄ =
n
n1 × x01 + . . . + nk × x0k
=
n
= f1 × x01 + . . . + fk × x0k

no último ano no seu hospital, tem-se que a média é dada por
16 × 0 + 32 × 1 + . . . + 25 × 5
x̄ = ≈ 2.9 acidentes
397
ou
x̄ = 0.040 × 0 + 0.081 × 1 + . . . + 0.063 × 5 ≈ 2.9 acidentes.

dados já agrupados em classes, tem-se que a média é dada por
3 × 5 + 7 × 6.8 + . . . + 3 × 14
x̄ = = 9.71 t
60
ou
x̄ = 0.050 × 5 + 0.117 × 6.8 + . . . + 0.050 × 14 = 9.71 t.
Média ponderada: representa-se por x̄w , trata-se de um valor de

compromisso das observações x1, . . . , xn, tendo em conta ponderações
w1, . . . , wn positivas que reflectem a sua importância, e é dada por
w1 × x1 + . . . + wn × xn
x̄w =
w1 + . . . + wn
Nota: a média x̄ é um caso particular da média ponderada x̄w , com

w1 = 1, . . . , wn = 1, ou seja, onde se dá a mesma importância a todas
as observações x1, . . . , xn.

Exemplo: um aluno obteve as seguintes classificações a três discipli-
nas, A, B e C:
Disciplina ECTS Classificação (valores)

A 6 10
B 3 14
C 3 15
A classificação média é dada por

10 + 14 + 15
x̄ = = 13 valores
3
e a classificação média ponderada pelos ECTS é dada por
6 × 10 + 3 × 14 + 3 × 15
x̄w = = 12.25 valores.
6+3+3
No primeiro caso, dá-se a mesma importância às classificações obtidas
nas três disciplinas. No segundo caso, dá-se maior importância à clas-
sificação obtida na disciplina A, cujo ECTS é maior.

É importante medir a dispersão das observações x1, . . . , xn em torno
da média x̄. Só assim é possível ter uma ideia sobre se a média é ou
não uma boa aproximação dessas observações. De facto, quanto menor
for a dispersão, melhor a média representa as observações. A primeira
medida de dispersão que se vai introduzir é o desvio-padrão.
Desvio-padrão: representa-se por s e é calculado da seguinte forma:
• obtém-se primeiro a variância s2:
2 (x1 − x̄)2 + . . . + (xn − x̄)2

s =
n−1
n1 × x012 + . . . + nk × x0k2 − n × x̄ 2
=
n−1
n 0 2 0 2

= × f1 × (x1 − x̄) + . . . + fk × (xk − x̄)
n−1
• e calcula-se em seguida o desvio-padrão s:
√
s = s2
Nota: o desvio-padrão s é sempre maior ou igual a 0: é igual 0 quando

não há dispersão em torno da média (todas as observações são iguais à
média); caso contrário, se não for igual a 0, é tanto maior quanto maior
for a dispersão em torno da média.

no último ano no seu hospital, apresenta-se a seguir uma forma de or-
ganizar os cálculos conducentes à média e ao desvio-padrão:
x0i ni ni × x0i x0i 2 ni × x0i 2

0 16 0 0 0
1 32 32 1 32
2 89 178 4 356
3 137 411 9 1233
4 98 392 16 1568
5 25 125 25 625
Total 397 1138 3814
1138
Média: x̄ = ≈ 2.9 acidentes
397
3814 − 397 × 2.92
Variância: s = 2
≈ 1.2 acidentes 2
397 − 1
√
Desvio-padrão: s = 1.2 ≈ 1.1 acidentes

dados já agrupados em classes, apresenta-se a seguir uma forma de or-
ganizar os cálculos conducentes à média e ao desvio-padrão:
x0i ni ni × x0i x0i 2 ni × x0i 2

5 3 15 25 75
6.8 7 47.6 46.24 323.68
8.6 18 154.8 73.96 1331.28
10.4 17 176.8 108.16 1838.72
12.2 12 146.4 148.84 1786.08
14 3 42 196 588
Total 60 582.6 5942.76
582.6
Média: x̄ = = 9.71 t
60
5942.76 − 60 × 9.712
Variância: s =
2
≈ 4.84 t2
60 − 1
√
Desvio-padrão: s = 4.84 ≈ 2.20 t

O desvio-padrão é uma medida de dispersão absoluta. Comparando-o
com a média, torna-se possível perceber se a dispersão das observações
em torno dela é ou não alta. Tal comparação é feita mediante o cál-
culo do coeficiente de variação, medida de dispersão relativa que se vai
introduzir a seguir.
Coeficiente de variação: representa-se por CV e é dado por

s
CV = × 100%.
x̄
Nota: quanto menor for o coeficiente de variação, melhor a média re-
presenta as observações que se distribuem em torno dela. Se CV ' 50%,
considera-se que a dispersão das observações em torno da média é alta
e, neste caso, a média é pouco representativa do que foi observado.

no último ano no seu hospital, tem-se o seguinte:
Desvio-padrão: s ≈ 1.1 acidentes
Média: x̄ ≈ 2.9 acidentes
Coeficiente de variação: CV = 1.1

2.9 × 100% ≈ 38%

dados já agrupados em classes, tem-se o seguinte:
Desvio-padrão: s ≈ 2.20 t
Média: x̄ ≈ 9.71 t
Coeficiente de variação: CV = 2.20

9.71 × 100% ≈ 23%
Comparando este exemplo com o anterior, é possível dizer que, neste

caso, a média representa melhor o que foi observado, uma vez que o
coeficiente de variação é menor.

As medidas estatísticas a seguir são medidas de localização, tal como a
moda e a média.
Percentil p: representa-se por Pp, é um valor que separa os p% de

menores observações dos restantes (100 − p)% de maiores observações
e pode ser determinado do seguinte modo:
• ordena-se as observações x1, . . . , xn por ordem crescente:
x(1) ≤ x(2) ≤ . . . ≤ x(n)

p
• calcula-se j = ×n
100
• se j for um número inteiro, então Pp é a média dos valores que
surgem nas posições j e j + 1:
x(j) + x(j+1)
Pp =
2
• se j não for um número inteiro, então Pp é o valor que surge na
posição bjc + 1:
Pp = x(bjc+1)
Quartis: representam-se por Q1, Q2 e Q3, dividem o conjunto de

dados em quatro partes, cada uma com cerca de 25% dos dados, e são
tais que:
• Q1 = P25 é o primeiro quartil e corresponde ao percentil 25;
• Q2 = x̃ = P50 é o segundo quartil ou mediana x̃ e corresponde ao

percentil 50;
• Q3 = P75 é o terceiro quartil e corresponde ao percentil 75.

no último ano no seu hospital, tem-se que:
• Q1 = P25 = 2 acidentes:
25
j= × 397 = 99.25 não é inteiro, logo
100
P25 = x(bjc+1) = x(100) = 2
• Q2 = x̃ = P50 = 3 acidentes:
50
100
P50 = x(bjc+1) = x(199) = 3
• Q3 = P75 = 4 acidentes:
75
100
P75 = x(bjc+1) = x(298) = 4
Assim, é possível dizer que 25% dos 397 profissionais envolvidos no

estudo tiveram, no máximo, 2 acidentes, 50% tiveram, no máximo, 3
acidentes e 75% tiveram, no máximo, 4 acidentes.

dados já agrupados em classes, tem-se que:
• Q1 = P25 = 8.6 t:
25
j= × 60 = 15 é inteiro, logo
100
x(j) + x(j+1) x(15) + x(16) 8.6 + 8.6
P25 = = = = 8.6
2 2 2
• Q2 = x̃ = P50 = 10.4 t:
50
100
x(j) + x(j+1) x(30) + x(31) 10.4 + 10.4
P50 = = = = 10.4
2 2 2
• Q3 = P75 = 11.3 t:
75
100
x(j) + x(j+1) x(45) + x(46) 10.4 + 12.2
P75 = = = = 11.3
2 2 2
Assim, é possível dizer que em 25% dos 60 dias considerados a produção
foi, no máximo, de 8.6 toneladas, em 50% dos dias foi, no máximo, de
10.4 toneladas e em 75% dos dias foi, no máximo, de 11.3 toneladas.

A próxima medida estatística é uma medida de dispersão, tal como o
desvio-padrão e o coeficiente de variação. Neste caso, mede-se a disper-
são das observações situadas entre o primeiro e o terceiro quartis, ou
seja, ignora-se os 25% de menores observações (antes de Q1) e os 25%
de maiores observações (depois de Q3) e mede-se a dispersão dos 50%
de observações centrais que restam.
Amplitude interquartil: representa-se por AIQ e é dada por
AIQ = Q3 − Q1.

no último ano no seu hospital, tem-se que
AIQ = Q3 − Q1 = 4 − 2 = 2 acidentes.
Assim, se ignorarmos os 25% de profissionais com menor número de aci-

dentes e os 25% de profissionais com maior número de acidentes, então,
relativamente aos restantes 50% de profissionais, é possível dizer que
houve uma variação de 2 unidades no número de acidentes registados.

dados já agrupados em classes, tem-se que
AIQ = Q3 − Q1 = 11.3 − 8.6 = 2.7 t.
Assim, se ignorarmos os 25% de dias de menor produção e os 25% de

dias de maior produção, então, relativamente aos restantes 50% de dias,
é possível dizer que houve uma variação de 2.7 toneladas na produção.
Medidas estatísticas para dados ordinais
Conforme já foi referido, uma variável ordinal com mais de três catego-
rias pode ser tratada como se fosse uma variável quantitativa discreta.
Para tal, regra geral, codifica-se a menor categoria como 1, a segunda
como 2, etc. No caso de as categorias serem intervalos limitados de
números, a codificação é feita usando o correspondente ponto médio.
Assim, pode-se determinar todas as medidas estatísticas introduzidas
anteriormente para dados quantitativos. No caso de a variável ordinal
ter duas ou três categorias, o habitual é determinar apenas a moda, os
quartis e a amplitude interquartil.
Exemplo: voltando ao exemplo do estudo do nível de ensino frequen-

tado por várias crianças, tem-se que a moda é x̂ = 3.º ciclo e, por ser
única, a distribuição é unimodal. Além disso, tem-se que:
• Q1 = P25 = 1.º ciclo:

25
100
P25 = x(bjc+1) = x(3) = 1.º ciclo
• Q2 = x̃ = P50 = 2.º ciclo:

50
100
P50 = x(bjc+1) = x(5) = 2.º ciclo

• Q3 = P75 = 3.º ciclo:
75
100
P75 = x(bjc+1) = x(7) = 3.º ciclo
Assim, é possível dizer que 25% das 9 crianças envolvidas no estudo

frequentam, no máximo, o 1.º ciclo, 50% frequentam, no máximo, o 2.º
ciclo e 75% frequentam, no máximo, o 3.º ciclo. Por fim, note-se que,
como o primeiro quartil é Q1 = 1.º ciclo e o terceiro quartil é Q3 = 3.º
ciclo,
AIQ = 2 níveis de ensino.
Deste modo, se ignorarmos os 25% de crianças que frequentam o menor

nível de ensino e os 25% de crianças que frequentam o maior nível de
ensino, então, relativamente aos restantes 50% de crianças, é possível
dizer que há uma variação de 2 níveis no nível de ensino registado.
Medidas estatísticas para dados nominais
No caso de uma variável nominal, a única estatística estudada que se

determina é a moda. Note-se que, por exemplo, o cálculo de quartis não
faz sentido, porque tal pressupõe a possibilidade de ordenar os valores
da variável e não existe uma relação de ordem natural entre os valores
de uma variável nominal.
Exemplo: voltando ao exemplo do estudo do estado civil de várias

pessoas, tem-se que a moda é x̂ = solteiro e, por ser única, a distribuição
é unimodal.

Em resumo, a próxima tabela indica medidas estatísticas comuns que
são determinadas para cada tipo de variável:
Variável:
Medida: Ordinal Quantitativa ou
Nominal
com 2 ou 3 categorias Ordinal com mais de 3 categorias
Moda: x̂
Localização:
1º quartil: Q1 = P25
2º quartil : Q2 = x̃ = P50
3º quartil: Q3 = P75
Média: x̄

Dispersão:
Amplitude interquartil: AIQ

Desvio-padrão: s
Coeficiente de variação: CV
Representação gráfica de dados univariados
A representação gráfica de dados univariados é um complemento à re-

presentação tabular e ao cálculo de medidas estatísticas de dados de
uma só variável.
Gráficos usuais e dados envolvidos:
• gráfico circular: dados qualitativos;
• diagrama de barras: dados qualitativos ou quantitativos discretos

com poucos valores distintos;
• histograma: dados quantitativos agrupados em classes;
• caixa de bigodes: dados quantitativos.

Gráfico circular: gráfico constituído por um círculo, dividido em
tantas fatias quantos os valores distintos registados na amostra da va-
riável qualitativa em análise. O tamanho das fatias é determinado
pelas frequências absolutas ou relativas desses valores.
Exemplo: um inquérito, realizado à qualidade do serviço prestado

num gabinete de apoio psicológico, revelou que: 2% dos utentes acha
que é muito má, 2% má, 12% razoável, 30% boa e 54% muito boa. A
representação desta informação com recurso a um gráfico circular é a
seguinte:

Diagrama de barras: gráfico de barras verticais, espaçadas, onde
cada barra está associada a um dos valores distintos registados na
amostra da variável qualitativa ou quantitativa discreta em análise.
A altura das barras corresponde às frequências absolutas ou relativas
desses valores.

no último ano no seu hospital, tem-se o seguinte para diagrama de bar-
ras das frequências absolutas:
Acidentes de trabalho no último ano

137
140
120
98
100
89
N.º de profissionais
80
60
40 32
25
16
20
0
0 1 2 3 4 5
N.º de acidentes por profissional

Histograma: gráfico de barras verticais, adjacentes, onde cada barra
está associada a uma das classes em que estão agrupados os dados na
amostra da variável quantitativa em análise. Se as classes tiverem a
mesma amplitude, como é o caso tratado aqui, a altura das barras pode
ser escolhida igual às frequências absolutas ou relativas dessas classes.

dados já agrupados em classes, tem-se o seguinte para histograma das
frequências relativas:
Produção em 60 dias
0.35
0.300
0.3 0.283
0.25
0.200
Prop. de dias
0.2
0.15
0.117
0.1
0.050 0.050
0.05
0
4.1 5.9 7.7 9.5 11.3 13.1 14.9
Produção diária (t)

Antes de introduzir a representação gráfica designada por caixa de bi-
godes, é necessário introduzir a seguinte noção:
Valor atípico ou outlier: trata-se de um valor muito pequeno ou

muito grande em relação à grande maioria dos valores registados numa
amostra de dados quantitativos. Concretizando, diz-se que:
• x é um valor atípico ou outlier severo se
x < Q1 − 3 × AIQ
ou
x > Q3 + 3 × AIQ
• x é um valor atípico ou outlier moderado se
Q1 − 3 × AIQ ≤ x < Q1 − 1.5 × AIQ
ou
Q3 + 1.5 × AIQ < x ≤ Q3 + 3 × AIQ
Exemplo: perguntou-se a idade a 12 indivíduos e registou-se o seguin-

te, em anos: 14, 20, 29, 31, 32, 32, 33, 33, 34, 36, 43, 51. É fácil concluir
que Q1 = 30, Q3 = 35 e AIQ = 5 anos. Assim, um valor x na amostra
é um valor atípico ou outlier severo se
x < 15 = Q1 − 3 × AIQ
ou
x > 50 = Q3 + 3 × AIQ
ou seja, são valores atípicos ou outliers severos as idades 14 e 51 anos.

Além disso, um valor x na amostra é um valor atípico ou outlier mo-
derado se
Q1 − 3 × AIQ = 15 ≤ x < 22.5 = Q1 − 1.5 × AIQ
ou
Q3 + 1.5 × AIQ = 42.5 < x ≤ 50 = Q3 + 3 × AIQ
isto é, são valores atípicos ou outliers moderados as idades 20 e 43 anos.

Caixa de bigodes: gráfico que contém um rectângulo, a caixa,

dividido em duas partes e que situa os três quartis da amostra da
variável quantitativa em análise. A dois lados do rectângulo estão co-
nectados segmentos, os bigodes, que situam o menor valor e o maior
valor registados na amostra e que não são considerados atípicos ou ou-
tliers. Os valores atípicos ou outliers moderados surgem identificados
com círculos e os severos com asteriscos.

Exemplo: voltando ao exemplo do estudo da idade de 12 indivíduos,
tem-se o seguinte para caixa de bigodes:

Dados bivariados
Suponha que, para cada elemento de uma amostra selecionada para

análise numa população, se observam duas variáveis de interesse. Aos
dados resultantes dá-se o nome de dados bivariados.
Relação entre duas variáveis quantitativas
Diagrama de dispersão: representação gráfica de dados bivariados

quantitativos num referencial cartesiano. Cada eixo do referencial diz
respeito a uma das variáveis e cada caso na amostra é representado por
um ponto no gráfico.
Exemplo: o gestor de uma loja decidiu estudar a relação entre o

número de anúncios publicitários à loja, exibidos ao fim-de-semana, na
televisão, e as vendas na semana seguinte. Para tal, registou o valor das
duas variáveis ao longo de 10 semanas, tendo obtido o seguinte:

Semana N.º de anúncios Vendas (centenas de euros)
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
O diagrama de dispersão dos dados registados é o seguinte:

Relação entre anúncios e vendas
65
60
Vendas (centenas de euros)
55
50
45
40
35
1 1.5 2 2.5 3 3.5 4 4.5 5
N.º de anúncios
Observando o gráfico, é possível verificar que as vendas tendem a au-

mentar quando o número de anúncios publicitários aumenta.

O diagrama de dispersão permite visualizar a relação entre duas vari-
áveis quantitativas. A medida estatística a seguir quantifica a associação
linear entre essas variáveis. A associação é perfeita quando os pontos no
diagrama de dispersão estão dispostos segundo uma linha reta oblíqua.
Coeficiente de correlação de Pearson: representa-se por r,

trata-se de uma medida da associação linear entre duas variáveis quan-
titativas X e Y e é dado por
Pn
i=1 xi yi − n x y
r=q P
n 2 − nx2
Pn 2 2

x
i=1 i y
i=1 i − ny
sendo x̄ a média de X na amostra e ȳ a de Y . O valor de r é um

número no intervalo [−1, 1]. Diz-se que a correlação entre as duas
variáveis é:
• desprezável, se 0 ≤ |r| < 0.2;
• moderada, se 0.2 ≤ |r| < 0.7;
• forte, se 0.7 ≤ |r| ≤ 1.
No caso de a correlação ser moderada ou forte:
• se r > 0, então uma variável tende a aumentar quando a outra

aumenta;
• se r < 0, então uma variável tende a diminuir quando a outra

aumenta.

Exemplo: voltando ao exemplo do gestor da loja que decidiu estudar a
relação entre o número de anúncios publicitários ao fim-de-semana, X,
e as vendas na semana seguinte, Y , tem-se que os cálculos conducentes
ao coeficiente de correlação de Pearson entre X e Y , na amostra das 10
semanas selecionadas, podem ser organizados da seguinte forma:
xi yi xi y i x2i yi2
2 50 100 4 2500
5 57 285 25 3249
1 41 41 1 1681
3 54 162 9 2916
4 54 216 16 2916
1 38 38 1 1444
5 63 315 25 3969
3 48 144 9 2304
4 59 236 16 3481
2 46 92 4 2116
Total 30 510 1629 110 26576
Assim,
Pn Pn
i=1 xi 30 i=1 yi 510
x= = =3 , y= = = 51
n 10 n 10

e o coeficiente de correlação de Pearson é
Pn
i=1 xi yi − n x y
r=q P
n 2 − nx2
Pn 2 2

x
i=1 i y
i=1 i − ny
1629 − 10 × 3 × 51
=p
(110 − 10 × 32) (26576 − 10 × 512)
≈ 0.93.
Como 0.7 ≤ |r| ≤ 1, a correlação entre o número de anúncios publici-

tários e as vendas é forte. Neste contexto, sendo r > 0, regista-se o que
foi observado anteriormente no diagrama de dispersão dos dados, ou
seja, que as vendas tendem a aumentar quando o número de anúncios
publicitários aumenta.
Conforme já foi referido, o coeficiente de correlação de Pearson mede

a associação linear entre duas variáveis quantitativas. No caso de o
diagrama de dispersão sugerir que as duas variáveis quantitativas es-
tão relacionadas, mas não linearmente, a associação entre elas deve ser
medida pelo coeficiente de correlação que se irá definir a seguir.
Relação entre duas variáveis, pelo menos, ordinais
O coeficiente de correlação indicado para medir a associação entre duas

variáveis ordinais, entre uma ordinal e uma quantitativa ou entre duas
quantitativas relacionadas de forma não linear denomina-se por co-
eficiente de correlação de Spearman, representa-se por rS e
obtém-se calculando o coeficiente de correlação de Pearson, não entre

as observações originais (xi, yi), mas entre as ordens dessas observações
(ord (xi) , ord(yi)), onde, por exemplo, ord (xi) representa a ordem de
xi na amostra de valores da variável X. As ordens são representadas
pelos números 1, 2, etc. e, quando houver duas ou mais observações
iguais na mesma variável, atribui-se a essas observações a média das
ordens que lhes seriam atribuídas. A ordenação pode ser ascendente
ou descendente. O valor de rS é, obviamente, um número no intervalo
[−1, 1] e pode ser interpretado da mesma maneira que o valor de r, não
só em relação à magnitude, como também em relação ao sinal.
Exemplo: uma parte dos funcionários de uma empresa realizou uma

formação e, no final, responderam a um teste. O tempo que demoraram,
em minutos, e a nota que obtiveram foram os seguintes:
Funcionário Tempo Nota

1 10 Muito bom
2 15 Bom
3 40 Muito mau
4 30 Mau
5 20 Satisfaz
6 35 Mau
7 13 Bom
8 25 Satisfaz
9 9 Muito bom
10 30 Mau

Haverá alguma associação entre o tempo que demoraram, X, e a nota
que obtiveram, Y ? Tendo em conta que uma variável é quantitativa e
outra ordinal, responder-se-á à questão com base no valor do coeficiente
de correlação de Spearman entre ambas. Para calcular tal valor, começa-
se por determinar as ordens das observações em cada uma das variáveis,
considerando, por exemplo, uma ordenação ascendente:
xi yi ord (xi) ord(yi)

10 Muito bom 2 9.5
15 Bom 4 7.5
40 Muito mau 10 1
30 Mau 7.5 3
20 Satisfaz 5 5.5
35 Mau 9 3
13 Bom 3 7.5
25 Satisfaz 6 5.5
9 Muito bom 1 9.5
30 Mau 7.5 3
O coeficiente de correlação de Spearman obtém-se calculando o coefici-

ente de correlação de Pearson entre as ordens das observações, chegando-
se à conclusão de que rS ≈ −0.98. Como 0.7 ≤ |rS | ≤ 1, a correlação
entre o tempo que os funcionários demoraram a responder ao teste e a
nota que obtiveram é forte. Neste contexto, sendo rS < 0, verifica-se
que, quanto maior foi o tempo de resposta, menor tendeu a ser a nota.

Ao estudar a relação entre duas variáveis, pelo menos, ordinais é também
habitual analisar a chamada tabela de contingência dos dados bivaria-
dos.
Tabela de contingência: tabela para representação de dados

bivariados, qualitativos ou quantitativos. As linhas da tabela di-
zem respeito a uma das variáveis e as colunas à outra variável.
No interior da tabela, a célula na linha i e na coluna j indica o nú-
mero de elementos da amostra em que se regista o valor ou classe de
valores i para a variável das linhas e, simultaneamente, o valor ou classe
de valores j para a variável das colunas. Nas margens da tabela estão
indicados os totais por linha e por coluna.
Exemplo: voltando ao exemplo anterior, agrupou-se os dados do

tempo em classes e a tabela de contingência que sumaria a informa-
ção das duas variáveis é a seguinte:
Tempo de resposta (min)

Total
[0, 10[ [10, 20[ [20, 30[ [30, 40]
Muito mau 0 0 0 1 1
Mau 0 0 0 3 3
Nota Satisfaz 0 0 2 0 2
Bom 0 2 0 0 2
Muito bom 1 1 0 0 2
Total 1 3 2 4 10

Os totais a azul na margem direita da tabela fornecem a distribuição
de frequências da variável Nota. Por exemplo, o mais frequente foi
registar funcionários (3) com um nota má. Já os totais a vermelho
na margem inferior da tabela fornecem a distribuição de frequências da
variável Tempo de resposta. Por exemplo, o menos frequente foi registar
funcionários (1) com um tempo de resposta no intervalo [0, 10[ minutos.
Assim, os totais nas margens fornecem as chamadas distribuições
marginais e é com base nelas que se realiza a análise das duas
variáveis em separado.
Por outro lado, as frequências a preto no interior da tabela fornecem a

chamada distribuição conjunta das duas variáveis e é com base nela
que se realiza a análise das duas variáveis em conjunto. Por
exemplo, o mais frequente foi registar funcionários (3) com um tempo de
resposta no intervalo [30, 40] minutos e uma nota má. Observando com
atenção a distribuição conjunta das duas variáveis, torna-se claro que
as notas mais altas estão associadas a tempos de resposta mais baixos
e que as notas mais baixas estão associadas a tempos de resposta mais
altos. Isto também é fácil de concluir por observação da figura abaixo.
Note-se que a análise realizada está de acordo com a interpretação do
valor do coeficiente de correlação de Spearman entre as duas variáveis.

Relação entre duas variáveis em que, pelo menos, uma

delas é nominal
A medição da associação entre uma variável nominal e outra variável

pode ser feita através do coeficiente de Cramer, representado por
V . No caso de a outra variável ser quantitativa, o habitual é considerar
no seu lugar a correspondente variável ordinal que se obtém agrupando
os dados em classes. O coeficiente de Cramer é calculado da seguinte
forma:

• primeiro, constrói-se a tabela de contingência das frequências abso-
lutas observadas nij e das estimadas eij na hipótese de não haver
associação entre as duas variáveis, X e Y :
Y
Total
Classe 1 Classe 2 . . . Classe C
Classe 1 n11 (e11) n12 (e12) . . . n1C (e1C ) n1•
Classe 2 n21 (e21) n22 (e22) . . . n2C (e2C ) n2•
X ... ... ... ... ... ...
Classe L nL1 (eL1) nL2 (eL2) . . . nLC (eLC ) nL•

Total n•1 n•2 ... n•C n
onde
ni• × n•j
eij =
n
• em seguida, determina-se o valor da estatística representada por χ2:
L X
C
X (nij − eij )2
χ2 =
i=1 j=1
eij
• finalmente, obtém-se o valor do coeficiente de Cramer através de

s
χ2
V =
n (q − 1)
onde q é o menor valor entre L (número de classes de X) e C

(número de classes de Y ).

O valor de V é um número no intervalo [0, 1]. Diz-se que a associação
entre as duas variáveis é:
• desprezável, se 0 ≤ V < 0.2;
• moderada, se 0.2 ≤ V < 0.6;
• forte, se 0.6 ≤ V ≤ 1.
Exemplo: um gestor de uma instituição de crédito recolheu os seguin-

tes dados de alguns mutuários com vista ao estudo da relação entre a
existência de outros créditos, X, e o incumprimento no pagamento do
empréstimo concedido pela sua instituição, Y :
Outros
Mutuário Incumpridor
créditos
1 Não Não
2 Não Sim
3 Não Não
4 Não Não
5 Sim Sim
6 Não Não
7 Sim Não
8 Sim Sim
9 Não Não
10 Não Não

A tabela de contingência das frequências absolutas observadas e das
estimadas na hipótese de não haver associação entre as duas variáveis
é:
Incumpridor
Total
Não Sim
Outros Não 6 (4.9) 1 (2.1) 7
créditos Sim 1 (2.1) 2 (0.9) 3
Total 7 3 10
Assim, o valor da estatística χ2 é

L X
C
2
X (nij − eij )2
χ =
i=1 j=1
eij
(6 − 4.9)2 (1 − 2.1)2 (1 − 2.1)2 (2 − 0.9)2
= + + +
4.9 2.1 2.1 0.9
≈ 2.744
e, tendo em conta que L = C = 2, donde q = 2, o coeficiente de Cramer

é
s s
χ2 2.744
V = = ≈ 0.52.
n (q − 1) 10 × (2 − 1)
Como 0.2 ≤ V < 0.6, há uma associação moderada entre a existência

de outros créditos e o incumprimento no pagamento do empréstimo con-
cedido pela instituição do gestor. A partir da análise da tabela de con-
tingência, é possível verificar que 67% (2/3) dos mutuários com outros

créditos são incumpridores, enquanto que só 14% (1/7) dos mutuários
sem outros créditos é que são incumpridores.

1-Estatística Descritiva

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

1-Estatística Descritiva

Enviado por

Direitos autorais:

Formatos disponíveis

Estatística Descritiva

Diz-se que deixámos de ser uma sociedade industrial para passarmos

A Estatística fornece métodos que auxiliam o processo de tomada

• Estatística Descritiva: conjunto de técnicas apropriadas

• Estatística Inferencial: conjunto de técnicas que, com

Hugo Alonso, ULP - 2021/2022 1

O valor dos atributos pode variar de elemento para elemento da

As medidas relativas a uma população designam-se por parâmetros.

Exemplo: suponha que se pretende estudar a idade, em anos, na

Hugo Alonso, ULP - 2021/2022 2

Idade média na população : µ = 18+19+?+20

Amostra: subgrupo da população selecionado para análise.

As medidas relativas a uma amostra designam-se por estatísticas.

• x̄: média da amostra;

Exemplo: no exemplo anterior, o grupo de quatro alunos corresponde

Hugo Alonso, ULP - 2021/2022 3

Hugo Alonso, ULP - 2021/2022 4

Os atributos ou variáveis que se pretende estudar nos elementos de

Tem-se as seguintes possibilidades:

• qualitativa (numérica ou não numérica): a variável representa

• qualitativa nominal: não há uma relação de ordem natural

Hugo Alonso, ULP - 2021/2022 5

• quantitativa (numérica): a variável representa quantidades,

• quantitativa contínua: a variável pode tomar qualquer valor

• quantitativa discreta: a variável toma apenas valores isola-

Os dados mais informativos são os quantitativos, seguidos dos ordinais

Hugo Alonso, ULP - 2021/2022 6

Exemplo: um estudo na área do marketing selecionou vários consumi-

Fornecido um conjunto de dados, recorre-se a tabelas, gráficos e medidas

Hugo Alonso, ULP - 2021/2022 7

Representação tabular de dados univariados

Dados univariados são dados de uma só variável. A sua representação

Tabela de frequências: tabela que disponibiliza um acesso rápido

Notação geral (símbolos convencionados):

Hugo Alonso, ULP - 2021/2022 8

Valores distintos Freq. abs. Freq. rel.

• n1 representa o número de vezes que foi observado o valor x01

Exemplo: perguntou-se a várias pessoas qual o seu estado civil: casado

Hugo Alonso, ULP - 2021/2022 9

Tabela para dados ordinais ou quantitativos discretos com

Hugo Alonso, ULP - 2021/2022 10

• n1 representa o número de vezes que foi observado o valor x01

• N2 = n1 + n2 representa o número de vezes que foi observado um

Exemplo: perguntou-se a várias crianças qual o nível de ensino que

N.º de Prop. de N.º acum. de Prop. acum. de

Hugo Alonso, ULP - 2021/2022 11

Exemplo: um clínico decidiu estudar o número de acidentes de traba-

N.º de acidentes N.º de Prop. de N.º acum. de Prop. acum. de

Com base na tabela, é possível dizer, por exemplo, que 32 profissio-

Hugo Alonso, ULP - 2021/2022 12

Construção das classes de valores:

1. Determinar o número k de classes (regra de Sturges):

2. Determinar a amplitude total a do conjunto de dados:

onde M é o maior valor observado e m o menor

3. Determinar a amplitude ac de cada classe:

Hugo Alonso, ULP - 2021/2022 13

Construção da tabela de frequências:

Hugo Alonso, ULP - 2021/2022 14

• n1 representa o número de vezes que foi observado um valor na classe

O primeiro passo para sumariar esta informação consiste em construir

Hugo Alonso, ULP - 2021/2022 15

a = M − m = 14.8 − 4.1 = 10.7

3. Amplitude de cada classe: