Você está na página 1de 66

Estatística Descritiva

Consiste na recolha, apresentação, análise e interpretação de


dados numéricos através da criação de instrumentos adequados:
quadros, gráficos e indicadores numéricos.

1. Organização e Apresentação dos Dados


2. Distribuição de Frequências e Representação Gráfica
3. Medidas de Localização
4. Medidas de Dispersão
5. Distribuições Bidimensionais
1. Organização e Apresentação dos Dados

Num estudo estatístico, normalmente, segue-se um conjunto de etapas, correspondendo a terceira à organização de
dados. Como apresentado anteriormente, a organização de dados consiste em “resumir” os dados através da sua
contagem ou agrupamento. Uma vez organizados os dados, os mesmos podem ser apresentados através de tabelas
e de gráficos. Estas formas de apresentação de dados permitem sintetizar grandes quantidades dos mesmos,
tornando mais fácil a compreensão da característica ou atributo em estudo e permitindo uma futura análise. Porém,
convém não esquecer que o sucesso na utilização de dados estatísticos depende, em grande medida, do modo
como estes estão apresentados e podem ser utilizados.

O que são características / atributos e variáveis estatísticas?

Num estudo estatístico parte-se de um conjunto. Cada elemento desse conjunto (unidade estatística ou indivíduo)
tem várias características / atributos. Por exemplo, no conjunto dos alunos de uma turma pode-se observar muitas
características / atributos: a cor dos olhos, a altura, o número de irmãos, a classificação final da disciplina de
Matemática, etc. Contudo, como cada estudo é realizado para atingir determinado objetivo, dependendo do mesmo
se irá observar cada unidade estatística em relação a uma ou mais características / atributos determinados.

- 1 / 65 -
1. Organização e Apresentação dos Dados
1.1. Tipos de Escala de Medida

Definição

A uma característica comum a todos os indivíduos de uma população, que pode assumir valores diferentes de
indivíduos para indivíduos, designa-se por variável estatística. As variáveis podem ser de dois tipos:

1. Qualitativas - são aquelas que estão relacionadas com uma qualidade e apresentam-se com várias modalidades.

Clama-se modalidade de uma variável estatística qualitativa a cada uma das diferentes designações que se podem estabelecer dentro da
mesma variável. Por exemplo, a variável estatística – cor dos olhos, pode ter como modalidades: azul, castanho, verde, preto ou cinzenta.

As variáveis qualitativas subdividem-se em dois grupos:

 Nominais - Atribuição de códigos numéricos para diferenciar as várias modalidades, sem que haja
correspondência quantitativa (Ex. Na variável – Cor dos olhos -> 1 – azul, 2 – castanho, 3 – verde, 4 – outra).

 Ordinais – Quando a ordem das modalidades obedece a uma sequência com significado. Os códigos numéricos
que identificam as modalidades não são atribuídos de forma arbitrária, mas de modo que as modalidades às
quais foram dados o primeiro e o último código são as que mais se distanciam entre si. (Ex. Na variável – Sabor
de determinado produto alimentar - > 1 – detesta, 2 – gosta pouco, 3 – indiferente, 4 – gosta, 5 – adora).

- 2 / 65 -
1. Organização e Apresentação dos Dados (Cont.)
1.1. Tipos de Escala de Medida (Cont.)

2. Quantitativas - são aquelas a que é possível atribuir um valor numérico e apresentam-se com diferentes
intensidades ou valores.

Clama-se intensidade ou valor de uma variável estatística quantitativa a cada uma das diferentes designações que se podem
estabelecer dentro da mesma variável. Por exemplo, a variável estatística – altura, pode ter como valor: 1,50 m ou 1,70 m, …

As variáveis quantitativas subdividem-se ainda em dois grupos:

 Variáveis Discretas – São as que só podem tomar um número finito ou uma infinidade numerável de valores.
Por exemplo: o número de irmãos dos alunos de uma turma, o número de golos marcados por uma equipa no
campeonato…

O que caracteriza as variáveis discretas é que, mesmo antes de se fazer a observação, sabe-se que se vão
encontrar dados estatísticos que, em termos geométricos, seriam representados na reta real por pontos
isolados em número finito ou infinito.

. . .
_______ _______ _______ _______ _______ ______. .
1 2 3 4 5
- 3 / 65 -
1. Organização e Apresentação dos Dados (Cont.)
1.1. Tipos de Escala de Medida (Cont.)

 Variáveis Contínuas – São as que podem tomar um número infinito não numerável de valores. São exemplos de
dados contínuos, todos aqueles que resultam de observações em intervalos de tempo ou espaço (o rendimento
das famílias de um determinado país, a distância de casa ao emprego dos trabalhadores de uma empresa, …).

O que caracteriza as variáveis contínuas é que, mesmo antes de se fazer a observação, sabe-se que,
teoricamente, se podem encontrar dados estatísticos que, em termos geométricos, seriam representados na
reta real por qualquer ponto de um intervalo.

________________ ] _______ [ _______________

Conclusão:

 Ao resultado da observação de uma variável qualitativa ou quantitativa chama-se dado estatístico. Assim sendo,
enquanto um dado estatístico de uma variável qualitativa indica, para cada unidade estatística, a modalidade
observada (O Jaime tem olhos azuis), um dado estatístico resultante de uma variável quantitativa indica, para
cada unidade estatística, o valor / intensidade observado (O Jaime mede 1,80 m).

- 4 / 65 -
1. Organização e Apresentação dos Dados (Cont.)
1.1. Tipos de Escala de Medida (Cont.)

Exercício 1

Num estudo realizado numa Escola, recolheram-se dados referentes às seguintes variáveis:
(A) Idade
(B) Ano de escolaridade
(C) Género
(D) Nota na disciplina de Matemática
(E) Tempo médio gasto diariamente no estudo
(F) Distância de casa à escola
(G) Local de estudo
(H) Número de irmãos

 Justifique, das variáveis indicadas, quais são as qualitativas e quais são as quantitativas?

 Das variáveis quantitativas, justifique quais são as contínuas?

- 5 / 65 -
1. Organização e Apresentação dos Dados (Cont.)

Em estatística trabalha-se com valores aproximados, em muitos casos resultantes de medições. Usualmente,
nos cálculos é necessário determinar percentagens e fazer arredondamentos.

1.2. Percentagens
Na tabela seguinte são apresentadas algumas percentagens escritas sob a forma decimal e de fração:

Percentagem 1% 5% 10% 25% 50% 75% 100% 200%


Decimal 0,01 0,05 0,10 0,25 0,50 0,75 1 2
Fração 1 / 100 5 / 100 10 / 100 25 / 100 50 / 100 75 / 100 100 / 100 200 / 100

Interpretação da percentagem - No processo de secagem do bacalhau, este perde 77,7% do seu peso.

Esta afirmação significa que, se se tiver 100 kg de bacalhau fresco depois de seco este perderá 77,7 kg, i.e.,
dos 100 kg de bacalhau fresco ficaram 22,3 kg de bacalhau seco.
De outro modo, 1 kg de bacalhau fresco corresponde a 0,223 kg de bacalhau seco.

- 6 / 65 -
1. Organização e Apresentação dos Dados (Cont.)
1.3. Arredondamentos

Nos arredondamentos usam-se as seguintes regras:

 Se a casa decimal imediatamente a seguir à escolhida for 5, 6, 7, 8 ou 9, aumenta-se uma unidade à casa
decimal escolhida1

 Se a casa decimal imediatamente a seguir à escolhida for 0, 1, 2, 3 ou 4, deixa-se inalterada a casa decimal escolhida

Arredondamento com:
Número 3 casas decimais 2 casas decimais 1 casa decimal 0 casas decimais
(milésimas) (centésimas) (décimas) (unidades)
1,3075 1,308 1,31 1,3 1
0,0904 0,090 0,09 0,1 0

____________________

1
Há autores que particularizam mais esta regra: se a casa decimal imediatamente a seguir à escolhida for 5, a casa decimal escolhida não se
altera se for par; se por impar acresce-se uma unidade. Assim, no arredondamento às centésimas de 67,4356 passaria a 67,44 e 7,8651
passaria a 7,86. De acordo com a regra apresentada, no primeiro caso seria 67,44 e no segundo 7,87.

- 7 / 65 -
2. Distribuição de Frequências e Representação Gráfica
2.1. Distribuição de Frequências

Como organizar os dados qualitativos?

Os dados são organizados na forma de uma tabela de frequências, onde se apresenta:


 o número de elementos de cada uma das categorias ou classe – frequência absoluta (Fi), i.e., o número de
vezes que esse valor foi observado.
 a frequência relativa (fi) de cada uma das categorias ou classe. A frequência relativa é dada pelo quociente
entre a frequência absoluta e o número total de observações (dimensão da amostra), i.e., fi = Fi / n.

Exemplo 1

Perguntou-se a cada um dos 25 funcionários de uma loja, qual o tipo de música de fundo que preferiam ouvir
durante o expediente. Os resultados foram:

R C J P C P J J P R P O R J R R P R O P O C N P P

onde C - Clássica, P - Pop, R - Rock, J - Jazz, O - Outro tipo de música e N - Nenhum tipo
- 8 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

Tabela de Frequências da distribuição de preferências musicais dos funcionários

Preferência Musical Frequência Absoluta (Fi) Frequência Relativa (fi)


Clássica (C) 3 0,12
Pop (P) 8 0,32
Rock (R) 6 0,24
Jazz (J) 4 0,16
Outro (O) 3 0,12
Nenhum (N) 1 0,04
Total 25 1

Observação:

Para confirmar que as frequências estão bem calculadas, basta verificar que a soma das frequências
absolutas é igual ao número total de observações e a soma das frequências relativas é igual a 1.

- 9 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

Na tabela de frequências pode-se também apresentar a frequência absoluta acumulada (CumFi) e a


frequência relativa acumulada (Cumfi), que se obtêm adicionando as frequências absolutas e relativas,
respetivamente.

Deste modo, e considerando o exemplo anterior, a tabela de frequências de distribuição de preferências


musicais dos funcionários virá:

Preferência Frequência Frequência Absoluta Frequência Frequência Relativa


Musical Absoluta (Fi) Acumulada (CumFi) Relativa (fi) Acumulada (Cumfi)
Clássica (C) 3 3 0,12 0,12
Pop (P) 8 11 0,32 0,44
Rock (R) 6 17 0,24 0,68
Jazz (J) 4 21 0,16 0,84
Outro (O) 3 24 0,12 0,96
Nenhum (N) 1 25 0,04 1
Total 25 1

- 10 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

Exercício 2

O número de erros cometidos por uma dactilógrafa em 100 páginas nunca foi superior a 4, sendo a respetiva
distribuição a seguinte:

 0 erros – 10 páginas;
 1 erro – 15 páginas;
 2 erros – 25 páginas;
 3 erros – 40 páginas;
 4 erros – 10 páginas.

Elabore a tabela de frequências (absolutas e relativas). Que conclusões retira?

- 11 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

Como organizar os dados quantitativos?

Os dados são igualmente organizados na forma de uma tabela de frequência, no entanto convém efetuar
distinção entre os dados discretos e contínuos.

DADOS DISCRETOS

A construção da tabela de frequências é análoga à que foi feita para os dados qualitativos, mas em vez de
categorias consideram-se os valores distintos que surgem na amostra, os quais vão constituir classes.

Exemplo 2

Numa turma da Academia Militar, os alunos registaram o número de irmãos, tendo-se obtido a seguinte
amostra:
1 2 2 1 3 0 0 1 1 2 1 1 1 0 0 3 4 3 1 2

- 12 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

A corresponde tabela de frequências será:

N.º de Irmãos Frequência Frequência Absoluta Frequência Frequência Relativa


Absoluta (Fi) Acumulada (CumFi) Relativa (fi) Acumulada (Cumfi)
0 4 4 0,20 0,20
1 8 12 0,40 0,60
2 4 16 0,20 0,80
3 3 19 0,15 0,95
4 1 20 0,05 1
Total 20 1

- 13 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)
DADOS CONTÍNUOS

Enquanto que no caso de dados discretos, a construção da tabela de frequências não apresenta qualquer
dificuldade, no caso das variáveis contínuas (ou variáveis discretas com valores muito distintos) o processo é um
pouco mais elaborado, dado que é usual proceder-se ao agrupamento dos dados em intervalos de classes.
As questões que se colocam são: Qual o número de classes a considerar? E qual a amplitude de classe a
considerar?

Não existe uma fórmula exata para o cálculo do número de classes. O bom senso refere que não deverá ser um
número muito grande para que não introduza irregularidades que poderão não existir na população, mas
também não deverá ser muito pequeno para que não haja perda de informação.

Uma vez definidas as classes e as frequências absolutas para cada classe, o cálculo das frequências relativas e
das frequências acumuladas é idêntico ao das variáveis discretas. Salienta-se que, a partir do momento em que se
passa a trabalhar com um quadro de distribuição de frequências, os valores individuais deixam de ser identificáveis.

- 14 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

A seleção do número de classes ou intervalos não constitui nenhum método rigoroso e científico, nem existe
nenhum método de seleção que possa ser considerado o mais correto.

Existem, contudo, algumas regras básicas que deverão ser seguidas na construção de intervalos:

1. Em geral, o número de classes (K) deverá estar compreendido entre 4 e 14;


2. Nenhuma classe deverá ter uma frequência nula;
3. As classes deverão ter, sempre que possível, amplitudes iguais;
4. Os pontos médios das classes deverão ser números de cálculo fácil;
5. As classes abertas deverão ser evitadas embora nem sempre seja possível fazê-lo;
6. Os limites das classes são definidos de modo a que cada valor da variável é incluído num e só num intervalo.

- 15 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

Tendo em conta estas regras básicas, pode-se adotar as seguintes soluções para determinar K:

a) Tabela de Truman L. Kelley

n (n.º de observações) 5 10 25 50 100 200 500 1000

K (n.º de classes) 2 4 6 8 10 12 15 15

b) k = 5 para n ≤ 25 e k ≅ √ n para n > 25

c) Regra de Sturges => Para uma amostra de dimensão n, o n.º de classes k é dado por k ≅ 1 + 3,22 log n

- 16 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

Em conclusão, as etapas principais a seguir neste processo são:

1) Definição das classes


a) Determinar a amplitude da amostra (máximo – mínimo)
b) Dividir esta amplitude pelo número de classes, K
c) Tomar para amplitude de classe, h, um valor aproximado por excesso do valor obtido em b)
d) Construir as classes de modo que tenham todas a mesma amplitude e cuja união contenha todos os
elementos da amostra

2) Contagem do número de elementos de cada classe

Exemplo 3

Considere a amostra constituída pelas notas obtidas num teste de Matemática, de uma determinada turma:

12,1 8,9 16,2 8,2 15,1 14,5 13,4 14,7


7,5 8,8 12,4 16,1 15,2 13,5 13,8 14,6
15,5 7,8 12,5 13,2 11,0 10,5 9,8

- 17 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.1. Distribuição de Frequências (Cont.)

Tabela de frequências da distribuição das notas de Matemática virá:

Classes Frequência Frequência Absoluta Frequência Frequência Relativa


Absoluta (Fi) Acumulada (CumFi) Relativa (fi) Acumulada (Cumfi)
[ 7,5 , 9,3 [ 5 5 0,218 0,218
[ 9,3 , 11,1 [ 3 8 0,130 0,348
[ 11,1 , 12,9 [ 3 11 0,130 0,478
[ 12,9 , 14,7 [ 6 17 0,261 0,739
[ 14,7 , 16,5 [ 6 23 0,261 1
Total 23 1

Obs.: Algumas convenções sobre as tabelas com classes:


 O extremo esquerdo do intervalo (classe) será fechado e o extremo direito aberto;
 Aos extremos do intervalo chama-se limites da classe; à diferença dos limites, amplitude do intervalo da
classe; à semissoma dos limites designa-se por ponto médio ou marca da classe.
- 18 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.2. Representação Gráfica de Dados
O recurso à representação gráfica é muito usual em Estatística, pois permite dar uma síntese visual da
distribuição de frequências. A representação gráfica utilizada vai depender do tipo de variável (qualitativa ou
quantitativa – discreta / contínua) e de se tratar de frequências simples (absoluta ou relativa) ou acumuladas.
Normalmente, para representar variáveis qualitativas usam-se Gráficos de Barras ou Gráficos Circulares.
No caso de variáveis discretas é usual utilizar Gráficos de Barras, Gráficos de Frequências Acumuladas ou
Função Cumulativa. Finalmente, para representar variáveis contínuas, geralmente, utilizam-se Histogramas,
Polígono de Frequência ou Função Cumulativa.

2.2.1. Gráfico de Barras (ou Diagrama de Barras)

São gráficos onde se visualiza a frequência através de retângulos, sendo que os mesmos podem ser
apresentados na vertical ou horizontal. A metodologia a seguir na construção do Gráfico de Barras é, num dos
eixos (horizontal, geralmente) colocam-se os valores da variável em observação, e no outro eixo, colocam-se as
respetivas frequências (absolutas ou relativas). Para cada valor da variável desenha-se, em seguida, um
retângulo cuja altura deverá ser proporcional às frequências observadas.

- 19 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.2. Representação Gráfica de Dados (Cont.)

2 (Cont.)

- 20 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.2. Representação Gráfica de Dados (Cont.)

2.2.2. Gráfico Circular (ou Gráfico de Setores ou Diagrama Circular)

O Gráfico Circular consiste na representação gráfica dos resultados num círculo dividido em setores, tantos
quantas as classes ou categorias consideradas na Tabela de Frequências. Para o construir, divide-se o círculo
em setores, cujas áreas serão proporcionais às frequências das classes ou categorias.

O Gráfico Circular costuma utilizar-se quando o


número de categorias para a variável é pequeno
(normalmente, menor ou igual a 6) e é especialmente
adequado para comparar cada parte com o total.

Ainda no Exemplo 2, o Gráfico Circular que representa


a distribuição do número de irmãos da turma
considerada tem o aspeto seguinte:

- 21 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.2. Representação Gráfica de Dados (Cont.)

2.2.3. Histograma

O Histograma é formado por retângulos adjacentes, tendo por base um intervalo de classe e por área a
frequência relativa (ou absoluta), por forma que a área total coberta pelo Histograma seja igual a 1, i.e., a altura
do retângulo correspondente à classe i será fi / hi (ou Fi / hi), onde hi representa a amplitude da classe i.
No eixo horizontal colocam-se as classes e no eixo vertical as frequências absolutas ou relativas.

Observações:
 Se todas as classes tiverem a mesma amplitude, a construção do Histograma é facilitada, considerando-se
para alturas dos retângulos as frequências relativas (ou absolutas).
 Se as amplitudes forem diferentes entre si convém normalizar todas as frequências para que a
proporcionalidade das áreas se verifique. Isto poderá ser feito dividindo as frequências das classes pelas
respetivas amplitudes, e construindo o Histograma a partir destas frequências.
 Quando se trabalha com variáveis contínuas surge por vezes o problema da amplitude das classes extremas
não estar definida. Nestes casos convencionou-se que estas classes têm a amplitude das classes adjacentes.

- 22 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.2. Representação Gráfica de Dados (Cont.)

Exemplo 3 (Cont.)

O Histograma que representa a distribuição da classificação das notas do teste de Matemática


da turma considerada tem o seguinte aspeto:

- 23 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.2. Representação Gráfica de Dados (Cont.)

- 24 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.2. Representação Gráfica de Dados (Cont.)
2.2.4. Função Cumulativa

Partindo da tabela de frequências acumuladas, pode-se considerar a frequência absoluta ou relativa acumulada
para construir o gráfico da Função Cumulativa. Esta função indica, para cada valor real X, a frequência absoluta
(ou relativa) de observações com intensidade menor ou igual a X. Para variáveis discretas, a representação
gráfica da Função Cumulativa é em escada, havendo autores que consideram os intervalos fechados à direita, e
abertos à esquerda (definição francesa), e outros autores que optam pelo inverso (definição anglo-saxónica).

Exemplo 2 (Cont.)
22
20
Nas frequências acumuladas que representam a 20 19

Frequência Absoluta Acumulada


18
16
distribuição do número de irmãos da turma 16
14
12
12
considerada, a Função Cumulativa (variáveis 10
8
discretas) tem o seguinte aspeto: 6
4
4
2
0 1 2 3 4 5
N.º de Irmãos

- 25 / 65 -
2. Distribuição de Frequências e Representação Gráfica (Cont.)
2.2. Representação Gráfica de Dados (Cont.)
2.2.4. Função Cumulativa (Cont.)

A Função Cumulativa para variáveis contínuas tem como pressupostos de construção os seguintes: antes do
limite inferior da 1.ª classe, a frequência acumulada é zero; no limite inferior da 2.ª classe a frequência
acumulada é a frequência da classe anterior, e assim sucessivamente, …

1,00
Exemplo 3 (Cont.)
0,90

A Função Cumulativa das frequências relativas acumuladas 0,80

Frequências Relativa Acumulada


0,70
da distribuição da classificação das notas do teste de
0,60

Matemática da turma considerada tem o seguinte aspeto: 0,50

0,40

Como principais propriedades da Função Cumulativa 0,30

(frequências relativas), destacam-se: i) está definida para 0,20

0,10
todo o x real; ii) é sempre não decrescente; e iii) só
0,00

assume valores no intervalo [0,1]. 5 7 9 11 13 15 17

Notas do Teste de Matemática

- 26 / 65 -
Medidas de Estatística Descritiva

As tabelas de frequências e os gráficos permitem fazer interpretações acerca de um estudo estatístico. Mas na
maioria dos casos é necessário ir mais longe no conhecimento acerca da forma com os dados se distribuem,
utilizando-se para o efeito as Medidas de Estatística Descritiva.

Estas medidas descritivas – conhecidas por parâmetros quando se analisa uma população e estatísticas
quando se trata de uma amostra2 – permitem sumariar os dados através de um só valor, e devem obedecer a
algumas propriedades para serem boas medidas de descrição dos fenómenos em estudo. De entre as medidas
descritivas distinguem-se as medidas de: localização, dispersão, assimetria, curtose e concentração, sendo
todavia objeto de estudo nesta disciplina apenas as duas primeiras.
_________
2 Parâmetro: Uma medida numérica que descreve alguma característica de uma população. É habitualmente representada por
letras gregas. Por exemplo: µ (média), σ (desvio padrão), ρ (coeficiente de correlação).

Estatísticas / medida amostral: Uma medida numérica que descreve alguma característica de uma amostra. É habitualmente
representada por letras latinas. Por exemplo: x (média), s (desvio padrão), r (coeficiente de correlação).

- 27 / 65 -
Medidas de Estatística Descritiva (cont.)

As medidas de localização, localizam os valores observados da variável no eixo dos números reais.
As mais importantes são as medidas de tendência central (média, mediana e moda), pois representam os
fenómenos pelos seus valores centrais, em torno dos quais tendem a concentrar-se os valores observados.
Para além das medidas de tendência central existem outras medidas que dão a localização dos valores da
variável. Em termos gerais são designados por quantis, e podem ser: quartis, decis e percentis.

Para cada uma destas medidas de tendência não central, os valores obtidos dividem a distribuição em duas
partes: uma composta pelas observações que perfazem a percentagem correspondente à medida, e uma outra
parte, onde se enquadram as restantes observações. Contudo, antes de se calcular cada uma destas medidas,
os dados devem estar ordenados por ordem crescente ou decrescente de valor ou de importância.

As medidas de localização não são suficientes, por si só, para caracterizar de forma adequada a distribuição de
frequências de uma variável e, por essa razão, devem ser sempre acompanhadas de uma medida que dê uma
indicação da dispersão dos valores da variável. As medidas de dispersão servem para verificar a
representatividade das medidas de localização, sendo exemplo destas medidas a amplitude do intervalo de
variação, o desvio médio absoluto, a variância e o desvio padrão.
- 28 / 65 -
Medidas de Estatística Descritiva (cont.)

De todas as medidas de dispersão a mais utilizada é o desvio padrão. Contudo, para se calcular o desvio
padrão é necessário calcular o desvio médio e a variância.

Deste modo, seguidamente apresentam-se estas medidas descritivas num contexto amostral. Porém, antes,
introduz-se uma notação conveniente para representar a amostra. Assim, o conjunto de dados ou observações
que constituem a amostra será representado por:

X1, X2, …, Xn,

Onde X1, X2, …, Xn representam, respetivamente, a primeira observação, a segunda observação e a n-ésima
observação, de uma amostra de dimensão n. Esta notação não implica uma relação de ordem entre os
elementos da amostra.

- 29 / 65 -
3. Medidas de Localização
3.1. Média Aritmética Amostral

Definição

 Dados Não Classificados

Dado um conjunto de n observações (X1, X2, ...,Xn), a Média Aritmética amostral é dada por:

_ n
X = (X1 + X2 + … + Xn) / n = (1 / n) * ∑ Xi
i=1

 Dados Classificados (variáveis discretas)

_ K
X = (1 / n) * ∑ FiXi
i=1

Onde:
k – número de classes / Fi – frequência absoluta da classe i / Xi – observação da classe i

- 30 / 65 -
3. Medidas de Localização (Cont.)
3.1. Média Aritmética Amostral (Cont.)

Exercício 3

Os preços de 6 modelos de T-shirt à venda numa loja do Centro Comercial, e as respetivas quantidades
vendidas, são apresentados no quadro seguinte:

Preço das T-shirt (Euros)

Modelos Preço do modelo (€) Quantidade Vendida


A 4,90 15
B 9,90 5
C 7,60 10
D 7,60 8
E 8,40 6
F 7,80 6

Determine o preço médio dos vários modelos de T-shirt e o preço médio das T-shirts vendidas.

- 31 / 65 -
3. Medidas de Localização (Cont.)
3.1. Média Aritmética Amostral (Cont.)

 Dados Classificados (variáveis contínuas)

_ K
X = (1 / n) * ∑ FiYi
i=1

Onde:
k – número de classes / Fi – frequência absoluta da classe i / Yi – ponto médio da classe i

Exercício 4

O valor diário das vendas (em euros) de uma Tabacaria, durante 40 dias, teve a seguinte distribuição:

Vendas [1100,1200[ [1200,1300[ [1300,1400[ [1400,1500[ [1500,1600[ [1600,1700[ [1700,1800[

N.º dias 1 3 7 14 8 5 2

Determine a Média de vendas diárias?

- 32 / 65 -
3. Medidas de Localização (Cont.)
3.2. Mediana Amostral
Definição

Dado um conjunto de n observações (X1, X2, ...,Xn), a Mediana amostral, representada por M, é o valor, pertencente
ou não à amostra, que divide ao meio. Por conseguinte, e depois de se colocarem os valores por ordem crescente ou
decrescente, 50% dos elementos da amostra são menores ou iguais à Mediana amostral, e os restantes 50% são
maiores ou iguais à Mediana amostral.

 Dados Não Classificados

Se n é ímpar, a Mediana corresponde ao valor da variável que ocupa a posição central (deixa o mesmo número de
dados à direita e à esquerda). Se n é par, a Mediana corresponde à Média Aritmética dos dois valores centrais.

Exercício 5

Os dados seguintes referem-se ao número de passageiros transportados pelos autocarros A e B em cada um dos
percursos efetuados durante um dia. Determine a Mediana.

Autocarro A Autocarro B
30 78 38 44 65 52 28 41 83 60 54 33
34 46 50 61 84 44 39 48 72 90 47

- 33 / 65 -
3. Medidas de Localização (Cont.)
3.2. Mediana Amostral (Cont.)

 Dados Classificados (variáveis discretas)

Se se representar por X(1), X(2), …,X(n) os valores que resultam da ordenação da amostra X1, X2, ...,Xn por ordem
crescente, então:
X [(n+1)/2] , se n ímpar
M =
X (n/2) + X (n/2 + 1) , se n par

2
Exercício 6

Calcule a Mediana para as seguintes amostras:

Amostra 1 Amostra 2

Xi 82 85 87 89 90 Xi 1 2 3 4

Fi 5 10 15 8 4 Fi 1 3 5 2

- 34 / 65 -
3. Medidas de Localização (Cont.)
3.2. Mediana Amostral (Cont.)

 Dados Classificados (variáveis contínuas)

No caso de dados agrupados em intervalos de classes, a identidade das observações perde-se. Neste caso, a
Mediana nunca pode ser calculada exatamente. Uma forma de o fazer é utilizando o processo seguinte:

1. Calcula-se a ordem n/2. Como a variável é contínua não há necessidade de diferenciar entre n par ou impar;

2. Pelas frequências acumuladas identifica-se a classe que contem a Mediana e que será a Classe Mediana;

3. Calcula-se o valor exato da Mediana através da fórmula seguinte. A aplicação desta fórmula pressupõe que
as frequências se distribuem uniformemente dentro de cada classe.

M = IMd + [ (n / 2) - ∑ F ] * h
FMd
Onde:
IMd – Limite inferior da classe Mediana (Md)
n – Dimensão da amostra
∑F – Soma das frequências absolutas anteriores à classe Mediana
h – Amplitude da classe Mediana
FMd – Frequência absoluta da classe Mediana
- 35 / 65 -
3. Medidas de Localização (Cont.)
3.2. Mediana Amostral (Cont.)

Exercício 7

A tabela seguinte contém as taxas de analfabetismo dos concelhos da Região de Lisboa e Vale do Tejo.
Determine a Mediana para os seguintes dados contínuos:

Frequência Frequência Absoluta Frequência Frequência Relativa


Classes
Absoluta Fi Acumulada CumFi Relativa fi Acumulada Cumfi
[ 0,00 , 5,00 [ 2 2 0,0392 0,0392
[ 5,00 , 10,00 [ 12 14 0,2353 0,2745
[ 10,00 , 15,00 [ 22 36 0,4314 0,7059
[ 15,00 , 20,00 [ 11 47 0,2157 0,9216
[ 20,00 , 25,00 [ 2 49 0,0392 0,9608
[ 25,00 , 30,00 [ 2 51 0,0392 1
Total 51 1

- 36 / 65 -
3. Medidas de Localização (Cont.)
3.3. Moda

Definição

A Moda de um conjunto de n observações (X1, X2, ...,Xn), é a observação que ocorre com mais frequência na
amostra, caso exista. A Moda representa-se por Mo.

Observação:

 Tal como no caso da Média e da Mediana, também no cálculo da Moda deve ter-se em conta o facto de os
dados estarem ou não classificados.
 Para um conjunto de dados, pode existir mais do que uma Moda ou até nem existir Moda. Se o conjunto de
dados tiver duas Modas, este designa-se por Bimodal, no caso de ter mais do que duas Modas, diz-se
Multimodal. Se o conjunto de dados não tiver Moda, designa-se por Amodal.

 Quando os dados estão agrupados em intervalos de classes, a Classe Modal é a classe com maior
frequência absoluta (relativa), podendo existir mais do que uma classe com esta propriedade.

- 37 / 65 -
3. Medidas de Localização (Cont.)
3.3. Moda (Cont.)

Exercício 8

Os alunos de uma turma organizaram-se em grupos de 5 elementos para elaborar o trabalho de grupo na
disciplina de Estatística. Suponha que os alunos de 3 desses grupos obtiveram, no trabalho, as classificações
que se apresentam no quadro seguinte. Determine a Moda das classificações em cada grupo.

Grupo 1 Grupo 2 Grupo 3

12 13 14 13 15 13 12 14 12 13 10 15 13 14 12

Exercício 9

Uma empresa de transportes fez um inquérito num bairro acerca do horário preferido para o primeiro autocarro
do dia, sendo os resultados apurados os que se apresentam no quadro seguinte. Determine a Moda.

Hora 6H 6H30 7H 7H30

N.º de respostas 20 100 25 20

- 38 / 65 -
3. Medidas de Localização (Cont.)
3.3. Moda (Cont.)

Exercício 10

Numa Maternidade, o consumo diário de leite em pó por cada bebé está registado na tabela seguinte.
Determine a Moda.
Leite (em gramas) N.º de bebés
[45 , 50[ 11
[50 , 55[ 31
[55 , 60[ 65
[60 , 65[ 48
[65 , 70[ 60
[70 , 75[ 46
[75 , 80[ 30
[80 , 85[ 21

- 39 / 65 -
3. Medidas de Localização (Cont.)
3.4. Comparação das Medidas de Tendência Central

Qual das medidas – Média, Mediana ou Moda – se deve utilizar?

Não existe uma regra geral para determinar qual a medida de tendência central mais apropriada para descrever
uma determinada distribuição. Se a distribuição for simétrica é indiferente usar uma ou outras dado que estas
três medidas coincidem.

Quando a distribuição é assimétrica, a escolha da medida mais adequada deverá ser feita depois de uma
análise das características de cada uma das medidas e do tipo de dados disponíveis. De qualquer modo:

 Nas distribuições assimétricas, e quando as variáveis admitem como nível de medida mais restrito a escala
de intervalos (dados quantitativos), e na ausência de valores muito extremos, a Média é a medida mais
indicada para resumir o conjunto de valores que uma variável assume.

 Quando a Média não puder ser calculada (dados qualitativos), e se os dados admitirem como nível de
medida a escala ordinal, ou quando a distribuição for muito assimétrica, a Mediana é a medida mais
apropriada para descrever a massa de dados.

 A Moda só deve cumprir tal papel, quando as duas outras medidas não puderem ser calculadas.
- 40 / 65 -
3. Medidas de Localização (Cont.)
3.4. Comparação das Medidas de Tendência Central (Cont.)

Características mais importantes da Média Aritmética

 A Média Aritmética é a medida de tendência central mais utilizada. Com efeito, demonstra-se na Estatística
Indutiva que quando a distribuição de dados é Normal, a melhor medida de localização de centro é a Média.
Ora, sendo a distribuição Normal uma das distribuições mais importantes e que surge com mais frequência nas
aplicações, esse facto justifica a grande utilização da Média. Por conseguinte, quando se trata de inferir sobre
uma população a partir de dados recolhidos apenas para uma amostra, a Média é a medida mais eficiente.
 É uma medida influenciada por todos os valores observados, qualquer alteração num destes valores produz uma
modificação no valor da Média. Por outro lado, a Média poderá tomar um valor diferente de todos os observados.
 O valor da Média pode ser enviesado por apenas alguns valores extremos. Por considerar todos os valores
observados no seu cálculo, a média poderá deixar de ser representativa se a distribuição for altamente
assimétrica devido a alguns valores extremos.
 Em distribuições com classes abertas, também o valor da Média poderá estar enviesado sobretudo quando não
existem informações adicionais que permitam ter uma ideia mais precisa de quais os limites dessas classes.

- 41 / 65 -
3. Medidas de Localização (Cont.)
3.4. Comparação das Medidas de Tendência Central (Cont.)

Características mais importantes da Mediana

 A Mediana é fácil de calcular e de compreender.

 É determinada pelo número de observações e não pelo seu valor. Deste modo, os valores extremos, quer
sejam grandes quer sejam pequenos, não afetam o valor da Mediana.

 É uma medida muito utilizada sobretudo para distribuições fortemente assimétricas por não ser afetada por
valores extremos.

 Para fins de Inferência Estatística, a Mediana não satisfaz as propriedades de um bom estimador.

- 42 / 65 -
3. Medidas de Localização (Cont.)
3.4. Comparação das Medidas de Tendência Central (Cont.)

Características mais importantes da Moda

 A Moda é de determinação rápida, mas pouco precisa, por isso é pouco usada em estatística avançada.
 A Moda não existe em algumas distribuições enquanto que noutras poderá existir mais que uma Moda.
 A Moda pode ser determinada em qualquer situação, mesmo quando a distribuição está definida em classes
abertas.
 O valor da Moda não sofre a influência de valores extremos.
 A Moda é a única medida de localização central que pode ser utilizada para dados numa escala nominal
(variáveis qualitativas). De facto, não faz sentido calcular a Média ou a Mediana nestes casos.
 A Moda pode não ter significado, especialmente, em dados de natureza contínua ou em dados discretos com
poucas observações repetidas.

- 43 / 65 -
3. Medidas de Localização (Cont.)
3.5. Quartis

Definição

Dado um conjunto de n observações (X1, X2, ...,Xn), o Quartil de ordem p ou percentil 100p%, com 0 < p < 1, é
o valor Qp tal que 100p% dos elementos da amostra são menores ou iguais a Qp e os restantes 100 (1-p)%
elementos da amostra são maiores ou iguais a Qp. Os Quartis são valores que dividem as distribuições em 4
partes iguais (a cada quartil correspondem 25% das observações):

 1º Quartil – Q1 (ou quartil inferior) é o percentil correspondente à percentagem de 25%, o que significa
que 25% dos elementos da amostra são menores ou iguais a ele, e os restantes são maiores ou iguais;

 Mediana – Q2 (ou 2º quartil) é o percentil correspondente à percentagem de 50%, o que significa que 50%
dos elementos da amostra são menores ou iguais a ele, e os restantes são maiores ou iguais;

 3º Quartil – Q3 (ou quartil superior) é o percentil correspondente à percentagem de 75%, o que significa
que 75% dos elementos da amostra são menores ou iguais a ele, e os restantes são maiores ou iguais.

Para determinar os Quartis, utilizam-se os procedimentos já empregues no cálculo da Mediana, i.e., procuram-
se os valores das variáveis a que correspondem 25%, 50% e 75% das observações, respetivamente.

- 44 / 65 -
3. Medidas de Localização (Cont.)
3.5. Quartis (Cont.)

 Dados Classificados (variáveis discretas)

X [(np) + 1] , se np não inteiro


Qp =
X (np) + X (np+1) , se np inteiro
2

onde (np) representa a parte inteira de np


 Dados Classificados (variáveis contínuas)

No caso dos dados se encontrarem classificados a partir de intervalos de classe, utilizam-se as seguintes
expressões para a determinação do 1º e 3º Quartil, respetivamente:

Q0,25 = IQ0,25 + [ (n / 4) - ∑ F ] * h Q0,75 = IQ0,75 + [ (3n / 4) - ∑ F ] * h


FQ0,25 FQ0,75

(Nota: Determine o 1.º e o 3.º Quartil para os exemplos apresentados para a Mediana)
- 45 / 65 -
3. Medidas de Localização (Cont.)
3.6. Decis e Percentis

Os Decis são os valores da variável que dividem a distribuição em 10 partes iguais, enquanto que os Percentis
a dividem em 100 partes iguais. Tem-se, assim, que o número de decis será 9 e o de percentis 99. Para o
cálculo dos decis e dos percentis deve utilizar-se os procedimentos já empregues no cálculo dos quartis, ou
seja, deve procurar-se o valor a que corresponde a percentagem das observações referente ao percentil e ao
decil pretendido.

Exercício 11

Calcular o 4.º Decil e o 72 Percentil da seguinte distribuição:

Classes [4 , 9[ [9 , 14[ [14 , 19[ [19 , 24[

N.º de Obs. 8 12 17 3

- 46 / 65 -
4. Medidas de Dispersão

Como referido anteriormente, as medidas de localização não são por si só capazes de descrever
completamente os dados. Considere-se, por exemplo, as seguintes amostras:

Amostra 1: 130 150 145 158 165 140

Amostra 2: 90 128 205 140 170 155

Apesar de terem a mesma Média (148) e Mediana (147,5), não quer dizer que as duas amostras sejam “iguais”!

Com efeito, há dispersão diferente em relação à Média.

- 47 / 65 -
4. Medidas de Dispersão (Cont.)
4.1. Amplitude do Intervalo de Variação Amostral
Definição

Dado um conjunto de n observações (X1, X2, ...,Xn), a Amplitude do Intervalo de Variação amostral (R) é a
diferença entre o máximo e o mínimo dos Xi’s. Se os dados estão agrupados em classes, a amplitude é a
diferença entre o limite superior da última classe e o limite inferior da primeira. Simbolicamente:

R = max (Xi) – min (Xi)

A amplitude de um conjunto de dados é muito fácil de estudar, mas é uma medida com pouco interesse
estatístico, uma vez que depende apenas das observações mínima e máxima, tornando-a por isso sensível a
observações extremas. Por outro lado, não dá qualquer indicação sobre o que se “passa” no meio da distribuição.

Observação:

Confirme que as amostras seguintes, apesar de terem a mesma amplitude, a variabilidade da 2.ª amostra
depende apenas dos valores extremos.

Amostra 1: 1 3 5 8 9 e Amostra 2: 1 5 5 5 9
- 48 / 65 -
4. Medidas de Dispersão (Cont.)
4.2. Desvio Médio Absoluto
Definição

Dado um conjunto de n observações (X1, X2, ...,Xn), o Desvio Médio Absoluto (d) é a média dos valores
absolutos das observações em relação à média.

Dados não Classificados Dados Classificados

n _ k _
d = (1/n) * ∑ | Xi – X | d = (1/n) * ∑ Fi | Xi – X |
i=1 i=1

O Desvio Médio Absoluto é uma medida de dispersão não negativa e quanto maior o seu valor, maior a
dispersão da variável. Devido à necessidade de cálculo de módulos torna-se pouco acessível ao tratamento
informático, e portanto pouco utilizada.

- 49 / 65 -
4. Medidas de Dispersão (Cont.)
4.2. Desvio Médio Absoluto (Cont.)
Exercício 12

Considere os seguintes preços de limpeza a seco de um par de calças, retirados de uma amostra de 5
lavandarias da área de Lisboa:

Preços de limpeza a seco de um par de calças (€)

Lavandaria Preço (€)


A 2,35
B 2,45
C 2,65
D 2,40
E 2,40

Determine o Desvio Médio Absoluto.

- 50 / 65 -
4. Medidas de Dispersão (Cont.)
4.3. Variância Amostral
Definição

Dado um conjunto de n observações (X1, X2, ...,Xn), a Variância amostral (S2) é a média dos quadrados dos
desvios em relação à média.

Dados não Classificados Dados Classificados

n _ k _
S2 = (1/n) * ∑ ( Xi – X )2 S2 = (1/n) * ∑ Fi ( Xi – X )2
i=1 i=1

Exercício 12 (Cont.)
Determine a Variância amostral do exercício da página anterior.

- 51 / 65 -
4. Medidas de Dispersão (Cont.)
4.4. Desvio Padrão Amostral

A Variância não é uma medida muito utilizada em estatística porque os dados e o valor da Variância não estão
na mesma unidade das observações. Por exemplo, se trabalharmos com dados em metros, a Variância aparece
em metros quadrados.

O Desvio Padrão amostral surge para resolver este problema, pois não é mais do que a raiz quadrada da
Variância. Por conseguinte: a Variância e o Desvio Padrão amostral são medidas que só podem assumir valores
não negativos.

Assim sendo, no exercício anterior, o Desvio Padrão é: σ = 0,105

Quanto maior for o Desvio Padrão maior será a dispersão dos valores relativamente à Média.

- 52 / 65 -
4. Medidas de Dispersão (Cont.)
4.5. Comparação das Medidas de Dispersão

Mais uma vez, não existe uma regra geral para determinar qual a medida de dispersão mais adequada em
determinada situação. Na escolha da medida mais apropriada deve ser considerado o tipo de dados disponíveis
e as características de cada medida. Seguidamente, apresenta-se um resumo das principais características de
cada uma das medidas de dispersão anteriormente definidas.

Características mais importantes da Amplitude do Intervalo de Variação

 É a medida de dispersão de mais fácil cálculo resumindo-se a uma mera subtração entre os dois valores
extremos observados, por conseguinte de significado claro.

 É uma medida com pouco interesse estatístico, pois apenas considera dois valores ignorando os valores
típicos da distribuição o que poderá dar uma ideia errada da verdadeira dispersão da variável.

- 53 / 65 -
4. Medidas de Dispersão (Cont.)
4.5. Comparação das Medidas de Dispersão (Cont.)

Características mais importantes do Desvio Médio Absoluto

 É uma medida mais sensível que a anterior por considerar a diferença de todas as observações
relativamente a um valor central.

 Essas diferenças são calculadas relativamente a uma medida de tendência central que poderá ser a Média
ou a Mediana.

 A introdução de módulos torna o seu cálculo um pouco menos imediato que o da medida anterior. A sua
interpretação continua, no entanto, a ser fácil.

 É uma medida menos influenciada por valores extremos que o Desvio Padrão. O facto de se elevarem ao
quadrado os desvios relativamente à Média, torna mais acentuados os valores extremos.

 Em certas situações a utilização do Desvio Absoluto não é aconselhada por ignorar os sinais dos desvios.

- 54 / 65 -
4. Medidas de Dispersão (Cont.)
4.5. Comparação das Medidas de Dispersão (Cont.)

Características mais importantes do Desvio Padrão

 É a medida de dispersão mais utilizada. As suas propriedades matemáticas tornam-no particularmente


apropriado em situações de Inferência Estatística.

 O Desvio Padrão é afetado por todos os valores observados e, portanto, qualquer alteração nestes provoca
uma alteração do primeiro.

 O seu valor pode ser fortemente influenciado por apenas alguns valores extremos. Por essa razão, a sua
utilização é menos aconselhada em distribuições altamente assimétricas.

- 55 / 65 -
5. Distribuições Bidimensionais
5.1. Introdução

No estudo da Estatística, até agora desenvolvido, observou-se um conjunto e atribuiu-se a cada observação um
número (ou modalidade). A variável estatística, X, era unidimensional. Se ao fazer-se uma observação se
atribuir a cada elemento um par ordenado de valores (x , y), tem-se uma variável estatística bidimensional.
É o que acontece, por exemplo, quando se considera para os vários alunos de uma turma a nota de matemática
e a nota de estatística.

Coloca-se então a questão – Como organizar e representar este tipo de informação?

Tal como nas variáveis unidimensionais, a organização e apresentação dos dados pode ser efetuada através
de tabelas e gráficos, mais concretamente, a Tabela de Contingência e o Diagrama de Dispersão,
respetivamente.

- 56 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.2. Tabela de Contingência

A Tabela de Contingência é uma tabela de frequências para dados bivariados (qualitativos ou quantitativos),
de dupla entrada em que as linhas correspondem a uma variável, e as colunas a outra variável. Na última
coluna apresentam-se os totais de cada linha, e na última linha apresentam-se os totais de cada coluna.
A estas quantidades chamam-se totais marginais porque se apresentam nas margens da tabela.

Exemplo 4

Num inquérito realizado a 150 indivíduos, estes tiveram que assinalar o género – M ou F, e o estado civil –
Solteiro, Casado, Viúvo ou Divorciado. Para resumir a informação contida na amostra, construiu-se a seguinte
Tabela de Contingência. Que conclusões retira?

Estado Civil Solteiro Casado Viúvo Divorciado Total


Género
F 38 36 1 7 82
M 40 14 4 10 68
Total 78 50 5 17 150

- 57 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.3. Diagrama de Dispersão (ou Diagrama de Pontos)
O Diagrama de dispersão é uma representação gráfica para os dados bivariados, em que cada par de dados
(xi, yi) é representado por um ponto de coordenadas (xi, yi) num sistema de eixos coordenados. O resultado obtido
é uma “nuvem” de pontos, conforme se pode observar no exemplo seguinte cujos dados representam o número
de faltas não autorizadas por ano e a distância (em km) a que os empregados de um armazém estão de casa.

Distância (x) N.º de faltas (y)


1 8
3 5
4 8
6 7
8 6
10 3
12 5
14 2
16 4
18 2

- 58 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.3. Diagrama de Dispersão (Cont.)

Quando se observa um diagrama de dispersão, intuitivamente é-se levado a afirmar que existe ou não existe
possibilidade de qualquer relação entre as variáveis. Se os pontos se concentram à volta de uma linha reta ou à
volta de uma curva, é porque existirá uma relação entre as variáveis.

Quando existe alguma ligação de dependência entre duas variáveis diz-se que existe uma correlação entre
elas. Seguidamente, pode-se observar os tipos mais comuns de correlação:

- 59 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.3. Diagrama de Dispersão (Cont.)

Da análise dos gráficos, conclui-se que:

 Gráfico 1 - Variáveis positivamente associadas

Em média, quando a variável x aumenta a variável y também aumenta. Pode-se traçar a reta que “melhor se
aproxime” de todos os pontos do gráfico. Verifica-se que esta reta tem declive positivo, pelo que há uma
associação positiva entre as variáveis.

 Gráfico 2 - Variáveis negativamente associadas

Em média, quando a variável x aumenta a variável y diminui. Pode-se também traçar a reta que “melhor se
aproxime” de todos os pontos do gráfico. Esta reta tem declive negativo, pelo que existe uma associação
negativa entre as variáveis.

 Gráfico 3 - Não há associação clara entre as variáveis

A nuvem de pontos encontra-se bastante dispersa, o que faz prever que não existe uma associação clara
entre as duas variáveis.
- 60 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.4. Coeficiente de Correlação Linear

O objetivo do estudo da correlação é verificar se existe, ou não, relação entre os fenómenos em estudo, e
avaliar o grau dessa relação.

Só se estudarão as correlações lineares, i.e., aquelas em que se procura avaliar a relação das variáveis,
quando a nuvem de pontos se condensa em torno de uma reta. Intuitivamente observa-se a existência, ou não,
da correlação linear entre as variáveis.

A medida que se utiliza com mais frequência para medir o grau dessa associação linear é o Coeficiente de
Correlação Linear de Pearson, que se representa por r e se calcula a partir da seguinte expressão:

- 61 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.4. Coeficiente de Correlação Linear (Cont.)

 O valor r varia no intervalo [ - 1 , 1 ], em que nos extremos a correlação é perfeita, e no meio (r = 0) é nula.
Por conseguinte, conhecido o valor de r pode avaliar-se o grau de associação linear entre as duas variáveis
de acordo com a seguinte figura:

- 62 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.5. Reta de Regressão

O objetivo da correlação é verificar se existe relação entre os fenómenos em estudo e avaliar o grau dessa
relação. Quando duas variáveis estão fortemente correlacionadas (positiva ou negativamente), os pontos do
Diagrama de Dispersão colocam-se em torno de uma reta.

Há muitas retas que se podem desenhar, mas um dos critérios mais comuns para definir essa reta é o de tornar
mínima a soma dos quadrados dos desvios dos pontos em relação à reta. Esta reta pode ser definida por uma
equação do tipo y = ax + b., e chama-se Reta de Regressão ou Reta dos Mínimos Quadrados.

Deste modo, a Reta de Regressão adapta-se à nuvem de pontos e descreve, aproximadamente, a sua
regularidade. Se se conhecer o valor de uma variável, a partir da Reta de Regressão obtém-se, de uma forma
aproximada, o valor esperado da outra variável. Em linguagem estatística, diz-se que se pode inferir o valor de x
para um dado valor de y ou vice-versa. A estes valores também se chamam estimativas.

Finalmente, a equação da Reta de Regressão não deve ser vista desligada da nuvem de pontos. Um ou mais
pontos “anormais” podem alterar significativamente a reta. Para permitir uma observação mais ajustada, por
vezes, ignoram-se tais pontos. Mas o contexto do problema é determinante nesta opção.

- 63 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.6. Um caso para estudo

Suponha que numa determinada turma constituída por 34 alunos, o docente resolveu registar, num dia em que houve
exame, a ordem por que cada aluno entregava o teste e a classificação que veio a obter. Os valores registados foram
os seguintes:

Ordem Classificação Ordem Classificação Ordem Classificação Ordem Classificação


1 18,2 10 17,4 19 11,5 28 9,5
2 9,9 11 14,0 20 13,2 29 18,8
3 19,3 12 9,1 21 11,4 30 14,1
4 18,3 13 10,8 22 8,3 31 14,3
5 9,2 14 16,4 23 16,0 32 13,4
6 12,5 15 11,9 24 14,0 33 15,7
7 17,9 16 16,5 25 13,3 34 15,5
8 5,9 17 13,5 26 11,7
9 10,0 18 17,4 27 7,7

Será que os alunos que acabaram o exame em primeiro lugar são melhores, ou piores, do que os outros?
- 64 / 65 -
5. Distribuições Bidimensionais (Cont.)
5.6. Um caso para estudo (Cont.)

Fazendo a representação gráfica dos pares de valores, obtém-se a figura seguinte, a qual sugere a existência de
uma fraca relação linear entre os x's e os y's.

No entanto, a estatística utilizada para medir essa


relação é o Coeficiente de Correlação. Considerando
os pares de valores constituídos pelas ordens e as
classificações correspondentes, vem que r = - 0,035

Interpretação:

Tendo-se obtido um valor de r pequeno, significa que praticamente não existe relação (linear) entre a ordem pela
qual os alunos acabaram o exame e a classificação obtida. Existe, no entanto, alguma tendência (explicada pelo
sinal negativo) para que os melhores alunos acabem o exame primeiro.
- 65 / 65 -

Você também pode gostar