Acetatos EstatDescritiva AnáliseExploratória

Estatística I – Estatística Descritiva e Análise Exploratória de Dados
Estatística Descritiva e Análise Exploratória de Dados
• 2.1. População e Amostra. Variáveis de Interesse.

• 2.2. Tabulação de Dados. Representações Gráficas.
• 2.3. Características Amostrais: Medidas de Localização, Dispersão,
Assimetria e Concentração.
• 2.4. Noção de Outlier. Diagrama de Extremos e Quartis.
• 2.5. Dados Bivariados: Representação Gráfica, Recta de Regressão
dos Mínimos Quadrados e Coeficiente de Correlação.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 1

2.1. População e Amostra. Variáveis de Interesse
Amostra aleatória
População
Amostra
Estatísticas (conhecidas)
Parâmetro (desconhecidos)
Inferência Estatística

População ou Universo: conjunto de elementos cujas características são

objecto de análise estatística.
Unidade estatística: cada um dos elementos que constitui a população.
Amostra: subconjunto representativo da população.
Dimensão da amostra: número de elementos que a forma, que designamos

por n.
Dado: valor da variável associado a determinado elemento da população ou

amostra. Pode ser ou um valor numérico, um símbolo ou um termo.
Estatística Descritiva: recolha, apresentação e descrição de colecções de

dados (através de tabelas e gráficos ou pela determinação de medidas
numéricas que sintetizem os dados).
Inferência Estatística: generalização das características observadas na

amostra para a população e avaliação do grau de incerteza associado à
respectiva generalização.
O objectivo último da Estatística é inferir, partindo da amostra as

características de interesse da população, desconhecidas à priori.
As amostras que fundamentam as inferências devem ser representativas da
população. A variabilidade presente na amostra deve reflectir a
variabilidade da população.
O estudo de uma população pode ser feito por:

Censo ou Recenseamento: todos os elementos da população são
analisados. Difícil de implementar, dispendioso e demorado.
Processo de Amostragem ou Sondagem: apenas os elementos da

amostra são analisados. Vantagens: praticabilidade, custo, rapidez,
precisão e exactidão.
Variável: quantifica, classifica ou nomeia a variação do atributo para cada

elemento da população ou da amostra (característica em estudo, seja x).

Natureza das Variáveis:

Nominal
Qualitativa
Ordinal
Variável
Discreta
Quantitativa
Contínua
Qualitativas: categorizam (descrevem ou nomeiam) um elemento da

população. As operações aritméticas não fazem sentido, mesmo que os
dados observados sejam codificados numericamente.
Escala nominal: a ordem das categorias não tem significado.

Escala ordinal: a ordem das categorias tem significado.

Obs. O valor de uma variável qualitativa pode ser representado

numericamente. Por exemplo, o atributo “sexo” dá origem a duas
categorias: “mulher”, “homem”, podendo ser codificado: {mulher}≡ 0 e
{homem}≡ 1. Para o atributo “grau de satisfação com um produto”, para as
categorias “muito”, “pouco” e “nada”, existe uma ordem natural associada.
Quantitativas: quantificam um elemento da população recorrendo ao

valor numérico da intensidade observada.
Variável Discreta: se apenas assume um número finito de valores ou

uma infinidade numerável de valores. Os dados numéricos referem-se
a processos de contagem ou números inteiros.
Variável Contínua: pode assumir um número infinito não numerável

de valores, dentro de um intervalo de números reais. Usualmente
associadas a processos de medida.

Exemplos:
1. Nível de especialização de um trabalhador da indústria em Portugal.
(Qualitativa, ordinal)
2. Peso, em quilos, de cada um dos alunos de uma turma de Estatística do
ISCAL do ano lectivo 2009/2010. (Quantitativa, contínua)
3. Estado civil de um cidadão nacional. (Qualitativa, nominal)
4. Velocidade instantânea de um automóvel durante o percurso entre duas
portagens consecutivas. (Quantitativa, contínua)
5. Número de flocos num pacote de cereais. (Quantitativa, discreta)
6. Número de fusíveis com defeito produzidos por dia. (Quantitativa,
discreta)
7. Nível de instrução de um português num dado ano. (Qualitativa,
ordinal)
8. Grau de satisfação com um novo automóvel. (Qualitativa, ordinal)
9. Número de ficheiros no disco rígido de um computador. (Quantitativa,
discreta)
10.Nível de PH na água de uma piscina. (Quantitativa, contínua)
11.Número de acidentes, por apólice de seguro. (Quantitativa, discreta)
2.2. Tabulação de Dados. Representações Gráficas
• Em geral, as colecções de dados numéricos não se encontram nem

ordenadas, nem agrupadas (colecção ou rol bruto de dados).
• Quando se dispõe de uma colecção numerosa de dados,

independentemente da natureza da variável (discreta ou contínua) são
necessários métodos mais flexíveis de apresentação e síntese.
• Usamos as distribuições de frequência (ou distribuições empíricas) para

apresentar e resumir colecções de dados.
Distribuição de Frequências: quadro ou tabela onde se efectua a

correspondência entre os dados (todos os valores ou modalidades de uma
variável) e as respectivas frequências.
Dados não agrupados: cada dado é apresentado isoladamente.
Dados agrupados: os dados são agrupados em intervalos de classe.

Dois Conceitos Básicos:
• Frequência absoluta (Fi): número de vezes que a observação se repete

na amostra, verificando-se ∑i Fi= n.
• Frequência relativa (fi): número de vezes que o valor da variável foi

observado em relação ao número total de casos da amostra, i.é., fi = Fi /n,
verificando-se ∑i fi= 1.
1ºCaso: Tabulação e representações gráficas para dados não agrupados
• A colecção de dados/observações: x1 , x2 , ... , xn.

• Os seus valores por ordem crescente: a1 , a2 , ... , ap.
• As frequências absolutas: F1 , F2 , ... , Fp.
• As frequências relativas: f1 , f2 , ... , fp.

Tabela de frequências para dados não agrupados
xi Fi fi Fi ac. fi ac.
a1 F1 f1 F1 f1
a2 F2 f2 F1+F2 f1+f2
. . . . .
. . . . .
. . . . .
ap Fp fp F1+F2+...+Fp f1+f2+...+ fp

Obs. O cálculo da frequência absoluta acumulada, cuja notação é Fi ac., é
imediato a partir da tabela anterior. Analogamente para a frequência
relativa acumulada. Assim a frequência absoluta acumulada até ao valor ak
é a frequência total dos valores não superiores a ele.
Exemplo: Considerando os dados do exerc. 1., construa uma tabela de frequências.
xi Fi fi Fiac fiac
500 15 0,107 15 0,107
600 20 0,143 35 0,250
700 36 0,257 71 0,507
800 24 0,171 95 0,679
900 20 0,143 115 0,821
1000 15 0,107 130 0,929
1100 10 0,071 140 1,000
Total 140 1

• A distribuição de frequências pode ser melhorada através da

representação gráfica. Se os valores que a variável assume não se
encontram agrupados, a representação obtém-se pelo diagrama de barras
ou traços.
Toma-se um sistema de eixos cartesianos e a frequência (absoluta ou
relativa) é marcada no eixo das ordenadas. Os valores da sucessão
assumidos pela variável, são marcados no eixo das abcissas. Neste tipo de
gráficos, a altura de cada barra ou traço é proporcional à respectiva
frequência.
• A representação gráfica correspondente às frequências relativas

acumuladas, obtém-se através do diagrama de escadas.
Obs. Qualquer gráfico, no caso em análise, deve ser constituído por:

1. Um título identificando a população de interesse;
2. Uma escala vertical identificando as frequências (relativas ou absolutas);
3. Uma escala horizontal identificando a variável.

• Com base no exerc. 1., represente graficamente as frequências relativas

simples e acumuladas.
Diagrama de Barras
Diagrama de barras do salário de 140 trabalhadores
0,300
0,257
Frequência relativa
0,250
0,200 0,171
0,143 0,143
0,150
0,107 0,107
0,100 0,071
0,050
0,000
500 600 700 800 900 1000 1100
Salário em euros

Diagrama de Escadas
F unç ão C umulativ a da dis tribuiç ão dos s alários
1,000
F requênc ia R elativa A c umulada
0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
0,000
500 600 700 800 900 1000 1100
S alário em euros

2ºCaso: Tabulação e representações gráficas para dados agrupados
• Quando a variável discreta assume valores num intervalo muito grande e

no caso das variáveis contínuas, é usual procedermos ao agrupamento
da colecção de dados através de intervalos de classe.
• Não é possível indicar uma escolha óptima para o n.º de classes. Por um
lado, não deverá ser um número muito pequeno para que não se perca
informação, por outro lado, um número elevado de classes pode
introduzir irregularidades que não existam nas observações (importância
da experiência e objectivos do investigador).
• Existem algumas regras, destacando-se a regra de Sturges:
m  1  3,322log n
• Cada classe deverá ter, sempre que possível, a mesma amplitude. Os
conceitos atrás referidos (frequência absoluta e relativa, simples e
acumuladas) generalizam-se para distribuições agrupadas.

• Exemplo: Considerando os dados do exerc.4, construa uma tabela de

frequências.
Distribuição de Frequências dos atrasos nas partidas de voos domésticos
Xi X i’ Fi fi Fiac fiac
] 0, 10] 5 25 0,313 25 0,313
]10, 20] 15 20 0,250 45 0,563
]20, 30] 25 16 0,200 61 0,763
]30, 40] 35 13 0,163 74 0,925
]40, 50] 45 6 0,075 80 1,000

Total 80 1

Estatística – Estatística Descritiva e Análise Exploratória de Dados
A ideia de conjunto de uma distribuição de frequências pode ser

melhorada através da representação gráfica. No caso de dados
numéricos agrupados, isto é, distribuídos em classes, a representação
gráfica é obtida através do:
Histograma: Gráfico formado por uma sucessão de rectângulos

adjacentes. É um diagrama de barras (ou áreas) da distribuição de
frequência dos dados. É constituído por:
1. Um título identificando a população de interesse.
2. Uma escala vertical identificando as frequências nas diversas classes.
3. Uma escala horizontal identificando a variável. Limites de classe e/ou
pontos médios podem ser marcados ao longo do eixo das abcissas.
Exemplo: Considerando os dados do exerc.4., represente graficamente as

frequências relativas simples.

Estatística – Estatística Descritiva e Análise Exploratória de Dados
Histograma da distribuição das frequências relativas
Histograma da distribuição dos atrasos nos voos
0,350
0,300
Frequência relativa
0,250
0,200
0,150
0,100
0,050
0,000
]0, 10] ]10, 20] ]20, 30] ]30, 40] ]40, 50]
Atrasos (Classes)

Polígono de frequências
Representação gráfica construída a partir do histograma. Resulta de unir
sucessivamente, por segmentos de recta, os pontos médios dos topos dos
rectângulos. Para fechar o polígono de frequências, criamos duas classes
adicionais em cada um dos extremos do histograma, com amplitude
idêntica à das classes adjacentes com frequência nula. O polígono é
fechado, unindo os pontos médios destas novas classes aos segmentos já
construídos.
Exemplo: Recorra ao último histograma para visualizar o polígono de
frequências.
Para as frequências relativas acumuladas pode traçar-se um Histograma

Integral e o Polígono de frequências acumuladas ou Ogiva,
pressupondo que a distribuição dos elementos dentro de cada classe se faz
de uma forma uniforme. Este polígono é prolongado indefinidamente para
a esquerda do 1º ponto sobre o eixo das abcissas, e para a direita do último
ponto, sobre a recta paralela ao mesmo eixo e a uma distância igual à
unidade.

Polígono de Frequências da distribuição dos atrasos nos voos

(frequências relativas)
Polígno de frequências da distribuição dos atrasos
0,350
0,300
0,250
0,200
0,150
0,100
0,050
0,000
5 15 25 35 45

Histograma Integral da distribuição dos atrasos nos voos

(frequências relativas acumuladas)
Histograma integral da distribuição dos atrasos nos voos

Frequência relativa acumulada
1,200
1,000
0,800
0,600
0,400
0,200
0,000
]0, 10] ]10, 20] ]20, 30] ]30, 40] ]40, 50]
Atrasos (Classes)

2.3. Características Amostrais: Medidas de Localização
• Caracterizam o valor numérico em torno do qual se distribuem os

restantes elementos de uma amostra.
• Principais medidas de tendência central: média, mediana e moda.
Média: característica numérica de uma colecção ou amostra, utilizada

com mais frequência. É o valor numérico que equilibra os elementos da
colecção, quando os consideramos como pontos de massa unitária num
eixo.
A média aritmética é a soma de todos os valores observados dividida pelo

número total de observações, n, e define-se por:
1 1 n
x  ( x1  x2  ...  xn )   xi
n n i 1

Média de distribuições de frequências:
Numa distribuição de frequências de dados não agrupados, recorremos à

frequência absoluta ou relativa dos mesmos. Isto é, ponderamos o valor de
cada observação pela sua frequência.
Expressão da média de distribuições de frequência:
1 p p
x   Fi xi   fi xi
n i 1 i 1
Mediana: Indica o valor numérico central da sucessão ordenada.
Consideramos uma colecção ordenada por ordem crescente, e calculámos as

estatísticas de ordem. Em geral, x(i) é a estatística de ordem i.

Obs. A mediana é representada por Me(x). Se o número de observações é

ímpar, o valor central é único. No caso de ser par, a mediana será a média
dos dois valores centrais.
Como determinar a mediana?

1. Ordenam-se os dados por ordem crescente.
2. Calcula-se a ordem da mediana: ordem(Me) = (n+1)/2.
3. Recorrendo às estatísticas de ordem a mediana pode definir-se por:
 x( i ) , se n impar;
Me( x)  
 x( i )  x( i 1)  2, se n par.

Notas:
1. O valor da média e da mediana não é, necessariamente, um valor
observado na amostra.
2. A mediana, ocupa a posição central na sucessão das estatísticas de ordem,
estando menos sujeita à influência de valores “discrepantes”. Assim, é
uma medida mais resistente do que a média.
3. Se os dados se representam através de uma distribuição de frequências,
determina-se a mediana recorrendo ao conceito de frequência relativa
acumulada (valor que acumula, pelo menos, 50% das observações).
Moda Bruta: A moda, representada por Mo(x), de uma amostra ou colecção

é o valor de x mais frequente.
Notas:
1. Se existem dois ou mais valores observados com frequência máxima,
dizemos que não há moda única.
2. As medidas apresentadas tem, em geral, valores distintos (excepto se a
distribuição for simétrica), e a sua capacidade para resumir a informação
da amostra depende das características dos dados.
Medidas de Localização (medidas de tendência não central)
• As medidas de tendência não central, ou estatística de ordem, visam

descrever a posição relativa de uma observação específica em relação ao
conjunto dos dados da colecção.
• A partir destas medidas são definidas características numéricas da
colecção, salientando-se os quantis. São exemplos de medidas de
tendência não central os quartis e os percentis, como casos particulares
dos quantis.
Quantil: O quantil de ordem k, 0 < k < 1, seja Pk , de uma colecção

ordenada por ordem crescente, é o valor numérico que tem kn
observações inferiores e (1-k)n observações superiores.
k% ≤ ≤ (100 - k )%
min Pk max

Quartis: Valores numéricos que dividem, em quartos, a colecção ordenada

por ordem crescente. Cada colecção de dados tem três quartis.
1. Primeiro quartil (Q1): valor numérico tal que o n.º de observações para
valores inferiores a Q1 é 25%, e o nº de observações superiores é 75%.
2. Segundo quartil (Q2): corresponde à mediana.
3. Terceiro quartil (Q3): valor numérico tal que o n.º de observações para
valores inferiores a Q3 é 75%, e o n.º de observações superiores é 25%.
25% 25% 25% 25%

min Q1 Q2 Q3 max
Notas:
1. O 1º quartil e o 25º quantil são iguais: Q1 = P25
2. A mediana, o 2º quartil e o 50º quantil são iguais: Me  Q2  P50
3. O 3º quartil e o 75º quantil são iguais: Q3 = P75

Procedimento para o cálculo dos quantis (Pk)

1. Ordenam-se as n observações, por ordem crescente.
2. Calcula-se o rácio i = (nk)/100.
3. Se i é inteiro:
ordem(Pk) = i+0.5= i,5 (a ordem a partir do mínimo)
Pk é a média das estatísticas de ordem i e i+1.
x(i )  x(i 1)
Pk 
2
Se i não é inteiro:
ordem(Pk) = [i]+1 (a ordem a partir do mínimo)
Pk é a estatística de ordem [i]+1, isto é, a observação que ocupa a
posição [i]+1.
Pk  x(i1) .

2.3 Características Amostrais (Cont.): Medidas de Dispersão
• É comum encontrarmos variáveis que, apesar de terem a mesma

tendência central, são compostas por valores bem distintos. As medidas
de dispersão permitem descrever a variabilidade dos dados, para
responder a questões do tipo: Quão “espalhados” estão os dados?.
Amplitude Total: É a diferença entre o máximo e o mínimo da colecção

ou amostra:
r  max( xi ) - min( xi )
Obs. Apenas considera dois valores (os extremos), não sendo sensível aos
valores intermédios.
Amplitude interquartil: Medida de dispersão absoluta, que compreende

50% das observações centrais. Embora “resistente”, no seu cálculo não
intervêm nem as observações menores nem as maiores.
AIQ  Q3 - Q1.
Obs. A dispersão deve definir-se tomando em conta a posição das

observações em relação a uma referência fixa, valor escolhido para
localizar a colecção ou a distribuição empírica, em geral a média. É
possível utilizar outras medidas de tendência central.
Variância: Corresponde à média dos quadrados dos desvios em relação à

média.
Fórmulas da variância de distribuições de frequência:
1
s   Fi  xi - x    fi  xi - x  ou, pela formula alternativa
2 2 2
n
2
  1 1 2
s  x - x   fi ( xi ) -   fi xi    Fi ( xi ) - ( Fi xi )  .
2 2 2 2 2
  n n 

Desvio padrão: Raiz quadrada positiva da variância.
s  s2
Notas:
1. O uso da raiz quadrada deve-se ao facto de, no cálculo da variância não
ser possível comparar os valores médios de quadrados com a média da
amostra. A unidade de medida da variável vem alterada.
2. O desvio padrão é a medida de dispersão mais utilizada e, à semelhança
da média, o seu valor pode ser muito influenciado pelos valores
extremos de uma distribuição.
Coeficiente de variação: Medida de dispersão relativa, definida por:
s
CV  100
x
– Quanto menor o seu valor, menor é o grau de dispersão relativa e maior
será a representatividade da média enquanto medida descritiva da
amostra. É independente da unidade de medida em que se exprime a
variável, permitindo a comparação entre duas ou mais distribuições.
Propriedades Importantes das Medidas de Localização e Dispersão
1. Se adicionarmos a cada elemento de uma colecção de dados a mesma

constante c, a média e a mediana da nova colecção são iguais à média e
à mediana da colecção original, mais a constante c. A amplitude de
variação e o desvio padrão permanecem inalterados, contudo o
coeficiente de variação sofre alterações (diminui).
Seja a colecção original x  ( x1 , x2 , , xn ) e y  ( y1, y2 , , yn ), onde yi  xi  c .
1 n 1 n 1 n
y   yi   (c  xi )  c   xi  c  x .
n i 1 n i 1 n i 1
ordem(me( y))  ordem(me( x))  me( y)  c  me( x).
ry  c  x( n) -  c  x(1)   x( n) - x(1)  rx .

n n n
 i
( y
i 1
- y ) 2
  i
( c  x -
i 1
c - x ) 2
  i 
( x - x ) 2
i 1
1 n 1 n
 s   ( yi - y )   ( xi - x )2  sx2  s y  sx .
2
y
2
n i 1 n i 1
sy sx
cvy   cvy  .
y x c
2. Se multiplicarmos cada elemento de uma colecção de dados pela

mesma constante c (c>0), a média, a mediana, a amplitude de variação
e o desvio padrão da nova colecção são iguais à média, à mediana, à
amplitude e ao desvio padrão da colecção original, vezes a constante c.
O coeficiente de variação permanece inalterado.
Seja a colecção original x  ( x1, x2 , , xn ) e y  ( y1, y2 , , yn ), onde yi  cxi .

1 n 1 n 1 n
y   yi   cxi  c  xi  cx
n i 1 n i 1 n i 1
ordem(me( y))  ordem(me( x))  me( y)  cme( x).
ry  cx(n) - cx(1)  c( x(n) - x(1) )  crx .

n n n n
 ( yi - y )   (cxi - cx )   c ( xi - x ) c
i 1
2
i 1
2
i 1
2 2 2
 i 
( x
i 1
- x ) 2
1 n 2 1
n
 s   ( yi - y )  c  ( xi - x )2  c 2 sx2  s y  csx .
2
y
2
n i 1 n i 1
sysx
cvy   cvy   cvy  cvx .
y x
3. Se adicionarmos (ou multiplicarmos) a cada elemento de uma

colecção de dados a mesma constante c, os efeitos sobre qualquer
estatística de ordem, nomeadamente sobre os quantis, são análogos
ao que acontece com a mediana, isto é:
ordem(Qk ( y))  ordem(Qk ( x))  Qk ( y)  Qk ( x)  c.
ordem(Qk ( y))  ordem(Qk ( x))  Qk ( y)  cQk ( x).
4. Note-se que, no caso de multiplicarmos cada elemento da colecção

de dados pela mesma constante, e c<0, a ordem associada a cada
elemento será invertida.

2.3 Características Amostrais (Cont.): Medidas de Assimetria
Uma distribuição diz-se:
• Simétrica (ou não enviesada) se a média é igual à mediana. O centro de

gravidade coincide com o valor que divide a distribuição em duas partes
iguais, ambas com o mesmo número de observações.
• Assimétrica positiva (ou enviesada à esquerda) se a média é superior à

mediana. O peso das observações de maior valor desloca a média no
sentido do máximo.
• Assimétrica negativa (ou enviesada à direita) se a média é inferior à

mediana. O peso das observações de menor valor desloca a média no
sentido do mínimo.
Obs. O enviesamento corresponde ao lado mais abrupto, ou seja menos longo. A
assimetria será tanto mais acentuada, quanto mais afastadas se encontrarem as
medidas de tendência central. A média desloca-se para o lado mais longo da
distribuição, à medida que se acentua a assimetria.

• A representação gráfica das distribuições de frequências, permite

evidenciar o comportamento das observações no que respeita à sua
simetria ou assimetria. A mediana dividirá a área total do gráfico em
duas partes iguais e a média deslocar-se-à para a direita ou para a
esquerda consoante tivermos assimetria positiva ou assimetria negativa.

Obs.
1. Pela visualização gráfica apenas avaliamos de forma qualitativa o
enviesamento da distribuição. Seria útil medidas de assimetria que
permitissem a sua quantificação. Em termos absolutos, as medidas de
assimetria são positivas, negativas ou nulas consoante as distribuições
são assimétricas positivas, assimétricas negativas ou simétricas:
Se (Q3 - Me) = (Me - Q1) → Distribuição simétrica
Se (Q3 - Me) > (Me - Q1) → Distribuição assimétrica positiva
Se (Q3 - Me) < (Me - Q1) → Distribuição assimétrica negativa
2. É possível definir diversas medidas de assimetria relativa. Têm a

vantagem de não depender das unidades em que a variável se
expressa, permitindo a comparação entre duas ou mais distribuições
(relembre a noção de dispersão relativa) através do grau de
assimetria. Destacam-se:

Coeficiente de Assimetria de Pearson:
3( x - Med )
G1 
Notas: s
1. Resulta da comparação de dois valores: diferença entre a média e a mediana e o
desvio padrão associado à média.
2. Será nulo quando a média é igual à mediana (distribuição é simétrica). Se a
média for superior (inferior) à mediana, a distribuição é assimétrica positiva
(negativa).
3. Quando a distribuição é unimodal, pode definir-se este coeficiente substituindo a
mediana pela moda e não multiplicar pelo factor de escala (o valor três).
Coeficiente de Assimetria de Bowley:

(Q3 - Med ) - ( Med - Q1 ) (Q3 - Med ) - ( Med - Q1 )
G2  
(Q3 - Med )  ( Med - Q1 ) AIQ
Notas:
1. Mais “resistente” que o grau de assimetria de Pearson. Com efeito, intervêm
apenas a mediana e os quartis.
2. O denominador corresponde ao valor da amplitude interquartil.

Observações:
1. No caso dos dados agrupados, é habitual tomar o ponto médio de cada

classe como representante da classe. Assim, no cálculo das
características amostrais o valor de xi é substituído pelo ponto médio
da i-ésima classe.
2. Como é evidente, ao tomarmos o ponto médio de uma classe como

representante dos seus elementos, estamos a efectuar uma
simplificação e, simultaneamente, a introduzir um erro.
3. Designamos por hipótese básica de tabulagem admitir que todos os

valores de uma classe são iguais ao respectivo ponto médio.
Designamos por erro de tabulagem ao erro cometido, que deve ser tido
em conta na análise dos resultados.

4. Numa distribuição de frequências, para dados agrupados, devido à

hipótese básica da tabulagem, as medidas que caracterizam a amostra
correspondem a uma estimativa do valor para a população.
5. No cálculo dos quantis (mediana, quartis, etc.) é necessário estimar as

estatísticas de ordem. Suponha-se que se pretende estimar o 2º quartil
(mediana) para dados agrupados. O procedimento consiste em
encontrar a classe que acumula pelo menos 50% das observações e,
numa fase seguinte, o seu valor é estimado por interpolação linear.
6. Numa distribuição de frequências agrupada em intervalos de igual

amplitude, chamamos classe modal à classe com maior frequência. A
moda pode considerar-se o ponto médio da classe modal.

2.3 Características Amostrais (Cont.): Medidas de Concentração
Para medir a forma como uma determinada característica de uma

população se distribui pelos seus elementos, é muitas vezes utilizada uma
medida de concentração. Contudo, tal só é possível quando uma
característica se pode distribuir de forma mais ou menos uniforme e, em
simultâneo, possibilitar duas situações extremas:
(a) um só elemento da população detém todo o atributo (concentração

máxima);
(b) cada elemento da população detém igual parcela do atributo
(concentração mínima).
Notas :
1. Pode medir-se a concentração do rendimento familiar, do nível de
riqueza, das áreas de exploração agrícolas, dos salários, mas a certos
atributos físicos ou biométricos não é possível aplicar medidas de
concentração.

2. Por exemplo, a altura de um conjunto de indivíduos de um grupo,

embora possa conceber-se que a altura está igualmente repartida em
torno da média, já não se pode pensar que a estatura total está
concentrada num só indivíduo.
3. A concentração está relacionada com a variabilidade ou dispersão dos

valores observados. Se a característica está igualmente repartida, a
variabilidade é nula. Por outro lado, se estiver concentrada num
pequeno número de elementos (ou apenas num), a variabilidade é
muito maior.
4. A análise da concentração de uma distribuição de frequência pode ser

feita de duas forma: graficamente através da Curva de Lorenz, ou
através de um indicador numérico, o Índice de Gini.

Curva de Lorenz
• Dada uma característica (xi) de uma população com n elementos

observados, obtém-se a curva de Lorenz unindo, num referencial
cartesiano, as frequências acumuladas para cada elemento relativamente
ao total com as frequências acumuladas do atributo em estudo, também
face ao total.
• É a partir representação gráfica das frequências relativas acumuladas

que se obtém a curva de Lorenz, onde se representam:
No eixo das abcissas – os valores acumulados, em termos relativos,

do numero de ocorrências
j
pi   fi  fi ac, com j = 1,2,..., m classes.
i 1

Curva de Lorenz (cont.)

No eixo das ordenadas – os valores relativos correspondentes ao
atributo em estudo, ou seja, a proporção da totalidade do atributo
possuída pelos mesmos elementos, i.é
j j
 fi xi  fi xi
qi  i 1
m
 i 1
, com j = 1,2,..., m classes.
x
 fi xi
i 1
Obs.
Se a concentração for mínima (cada elemento da população detém
igual parcela do atributo), então a curva de Lorenz degenera na
diagonal que se designa por recta de igual distribuição. Assim,
quanto mais afastada estiver a curva desta recta maior é a
concentração.

Índice (Coeficiente) de concentração de Gini
Indicador numérico que traduz o grau de concentração, simbolizado por:

m -1 m -1
  pi - qi   qi
G i 1
m -1
 1 - mi -11 , com i = 1,2,..., m classes.
 pi  pi
i 1 i 1
• Propriedades do índice de Gini:

– G=0 no caso de igual repartição, ou seja, pi  qi , i = 1,2,..., m classes.
– G=1 quando a concentração é máxima, i.é, qi  0, i = 1,2,..., m classes.
– 0 ≤ G ≤ 1 e cresce com a concentração.
• Exemplo: Com base no Exerc. 11, no qual se apresenta a distribuição

dos salários de 3000 trabalhadores de uma determinada empresa,
pretende-se que quantifique o grau de concentração da característica em
estudo.

xi (em euros) fi ( xi fi ) x pi = fi .ac qi   xi fi x  ac

0 0,00 0,00 0,00 0,00
200 0,27 0,10 0,27 0,10
325 0,20 0,12 0,47 0,22
450 0,15 0,12 0,62 0,34
600 0,12 0,13 0,74 0,48
875 0,10 0,16 0,84 0,64
1125 0,09 0,19 0,93 0,82
1375 0,07 0,18 1,00 1,00
--- 1,00 --- --- ---
x   fi xi 543,5 euros.
i

• Através da tabela, constata-se que 20% dos trabalhadores (i.é, 600) auferem
325 euros. Significa que a empresa despende cerca de 195 000 euros, ou seja
12% do total dos salários.
• Interpretando as duas últimas colunas, onde os valores acumulados se
exprimem em relação ao total, verifica-se, por exemplo, que cerca de 74% dos
trabalhadores da empresa recebem apenas 48% da quantia despendida pela
empresa em salários.
m -1 8-1
  pi - qi   qi
G i 1
m -1
 1 - 8i-11 
 pi  pi
i 1 i 1
1-
 0, 00  0,10  0, 22  ...  0,82 
0,33.
 0, 00  0, 27  0, 47  ...  0,93
• Deixa-se como exercício a interpretação deste valor e a representação da curva
de Lorenz.

2.4 Noção de Outlier. Diagrama de Extremos e Quartos
• Quando se pretende examinar uma colecção para identificar a presença de

valores muito grandes ou muito pequenos, designados por outliers, é
habitual recorrer a medidas resistentes. A explicação para a presença
destes valores resulta de:
(a) Erros humanos − observação cujo valor foi incorrectamente

registado ou medido. Neste caso, a observação deverá ser
eliminada se o seu valor não puder ser corrigido.
(b)Da natureza do fenómeno em estudo − observação que nos parece
discrepante, por comparação com as restantes, mas que foi
correctamente registada. Neste caso, é sempre possível fazer a
análise estatística, com e sem a observação em questão, tendo em
vista avaliar a sua influência, pois trata-se de uma observação
influente.

• Critério de classificação de outliers:

Inferior Superior
Barreiras internas Q1-1,5×AIQ Q3+1,5×AIQ
Barreiras externas Q1-3×AIQ Q3+3×AIQ
• Seja uma colecção de dados ordenada por ordem crescente. A regra

prática consiste:
1.
Se xi  Q1 - 1,5  AIQ; Q3  1,5  AIQ → xi diz-se outlier
2.
Se x  Q1 - 3  AIQ; Q3  3  AIQ → xi diz-se outlier severo

3.
Se o valor xi é outlier via (1.) mas não o é via (2.) → diz-se um outlier
moderado
2. 3. 3. 2.
1. 1. 1. 1.
BEI BII BIS BES
Os extremos, os quartis e a mediana permitem construir o Resumo de 5

números. Veja-se para o Exerc. 13:
min Q1 Q2 Q3 max
93,6 94,1 94,7 95 96

Os cálculos do Resumo dos 5 números apresentam-se de seguida, sendo

essenciais para avaliar a presença de outliers (veja-se acetato 28 –
procedimento Para o cálculo dos quartis):
k = 25: (14) (25) / 100 = 3,5 ordem = 4 Q1 = 94,1;
k = 50: (14) (50) / 100 = 7 ordem = 7,5 Q2 = Me = 94,7;
k = 75: (14) (75) / 100 = 10,5 ordem = 11 Q3 = 95.
Obs. Em termos de localização, destaca-se como medida resistente a média

aparada a 100.(α)%, permitindo atribuir menor ponderação aos valores
extremos. É obtida eliminando 100.(α)% das menores observações e
100.(α)% das maiores observações e calculando a média simples das
restantes.

A capacidade descritiva do resumo de 5 números aprecia-se melhor através

do diagrama Caixa-de-Bigodes:
– Os 5 valores numéricos, são localizados numa escala horizontal ou

vertical;
– O rectângulo (a caixa) representa 50% das observações entre o 1º e o 3º
quartis. O segmento no seu interior refere-se à mediana;
– Os bigodes são segmentos de recta representando a outra metade das
observações. O primeiro segmento de recta representa o quarto das
observações que é inferior ao valor do 1º quartil, e o segundo segmento
de recta representa o quarto das observações que é superior ao valor do
3º quartil. Os bigodes são delimitados pelos extremos.
– A presença de outliers, obriga a modificar a caixa-de-bigodes. São

definidas as barreiras (que não figuram propriamente no gráfico),
indicam-se os outliers como pontos isolados. Utilizam-se símbolos
gráficos distintos para distinguirmos outliers moderados de outliers
severos. Os bigodes são “aparados” do mínimo (resp. máximo) ao
menor (resp. maior) valor não outlier.


Notas:
1. Quando existem outliers na distribuição, o impacto visual do gráfico

caixas-com-bigodes altera-se uma vez que os “bigodes” são aparados
e, consequentemente, a dispersão nesse segmento será menor.
2. A caixa-de-bigodes é uma representação gráfica que nos indica: a

amplitude da amostra, a amplitude interquartil e a dispersão no
primeiro e último quartos. Podemos ainda ter uma ideia sobre se a
amostra exibe algum tipo de enviesamento, isto é, se existe alguma
assimetria.
3. É possível a comparação entre duas ou mais variáveis, através de

diagramas paralelos, desde que os valores observados se expressem
nas mesmas unidades de medida. Para mais fácil interpretação, a
ordenação é feita pelo valor da mediana.


2.5 Dados Bivariados: Representação Gráfica, Recta de Regressão

dos Mínimos Quadrados e Coeficiente de Correlação
Numa situação em que se observam pares de valores  xi , yi  , pode ter

interesse estudar as potenciais relações estatísticas existentes entre os
dois fenómenos. Não se trata de estudar relações funcionais (isto é, a
medida em que o valor de uma variável é determinado exactamente pela
outra), mas sim de estudar a forma como a variação de uma variável
poderá afectar (em média) a variação da outra (por exemplo, o peso e a
altura são variáveis em geral relacionadas, mas a sua relação não é
determinística).
Duas variáveis ligadas por uma relação estatística dizem-se

correlacionadas. Se as variações ocorrem tendencialmente no mesmo
sentido, a correlação diz-se positiva. Se ocorrem em sentidos opostos, a
correlação diz-se negativa.
Objectivo: Estudar se existe alguma correlação entre os fenómenos ou

variáveis observadas e, a existir, se é possível expressa-la (e medi-la) por
uma relação (medida) matemática.
Introdução
• Na análise de regressão linear simples pretende-se analisar se duas
variáveis estão relacionadas do ponto de vista estatístico e, em caso
afirmativo, qual o grau desse relacionamento.
• Determinar um modelo que permita descrever a relação causa-efeito
que existe entre as duas variáveis.
• Aplicar o modelo obtido para prever o valor de uma das variáveis,
sendo conhecido o valor da outra.
Alguns exemplos:
• Relação entre o consumo privado de um determinado bem e o
rendimento disponível das famílias.
• Relação entre as vendas de uma empresa e as despesas em publicidade.
• Relação entre o salário de um indivíduo e o seu nível de instrução.
• Relação entre a esperança de vida e o consumo de tabaco.
• Relação entre o sexo de um indivíduo e a sua preferência por
determinado programa de televisão.

O Modelo de Regressão Linear Simples (MRLS)

• Um procedimento comum, para estabelecer potenciais relações entre as
duas variáveis em análise, consiste em supor a existência de uma relação
funcional linear nos parâmetros desconhecidos, os quais são estimados
a partir das observações amostrais.
• O Modelo de Regressão Linear Simples baseia-se apenas na relação entre
duas variáveis (x, y), cuja forma funcional é dada por:
yi  0  1 xi   i , i=1,2,...n.
onde se tem:
xi – variável independente, exógena, regressor ou explicativa do modelo;
yi – variável dependente, endógena, resposta ou explicada do modelo;
εi – Erro aleatório, desvio ou termo de perturbação. Reflecte a componente
aleatória que o modelo não consegue explicar;
βj – Parâmetros ou coeficientes do modelo, (j=0, 1).

• O modelo apresentado tem duas partes:
1. Uma determinística dada por yi  0  1 xi , i.é, pelo valor situado sobre

a recta de regressão obtida com base nos dados amostrais.
2. Uma parte aleatória ou estocástica dada por  i , i.é, pelos desvios dos
pontos relativamente à recta de regressão.
• Como β0 e β1 são parâmetros desconhecidos é necessário, com base numa

amostra, encontrar as suas estimativas b0 e b1, respectivamente.
• Num estudo deste tipo pode-se começar por analisar se a relação entre as
variáveis é (ou não) linear, através de uma representação gráfica dos n
pares de observações (x, y): o Diagrama de Dispersão.
• No diagrama de dispersão os valores da variável x são representados no

eixo das abcissas, e os valores da variável y são representados no eixo
das ordenadas.
• Através da nuvem de pontos obtida no diagrama de dispersão, é possível

verificar se y varia linearmente com x. Em caso afirmativo, diz-se que x e y
se encontram correlacionados linearmente.
• A correlação linear é positiva, quando x aumenta e y também aumenta (fig.

1). A correlação linear é negativa, quando x aumenta e y diminui (fig. 2).
Figura 1. Figura 2.

• Nos casos em que x varia, e y não apresenta um padrão de variação linear,

concluímos que não existe correlação linear. Nas figuras 3 e 4 representam-se
alguns exemplos de correlação não linear:
Figura 3. Figura 4.

• Existindo “forte” evidência linear entre X e Y, pela análise do diagrama

de dispersão, com base no dados amostrais pretende-se ajustar uma recta
de regressão que tente explicar Y, variável dependente (explicada),
como função linear de X, variável independente (explicativa).
O Método dos Mínimos Quadrados (MMQ)
• Dos diversos métodos existentes para ajustar uma recta a um conjunto de

pontos, o método dos mínimos quadrados é o mais utilizado.
• A equação da recta de regressão permite obter estimativas dos valores da

variável dependente, conhecidas as estimativas b0 e b1, dos parâmetros β0
e β1, dada por:
ŷ  b0  b1 x

• Pelo MMQ, as estimativas b0 e b1 são determinadas de modo a que o

desvio quadrático global seja mínimo. Isto é, pretendemos minimizar a
função:
n n n
SQ(b0 , b1 )    i2  ( yi - yî )2    yi - (b0  b1 xi ) 
2
i 1 i 1 i 1
Onde se tem, para cada observação, o respectivo desvio ou erro

aleatório entre o valor observado e o valor ajustado:
 i  yi - yî .
Graficamente, estamos a minimizar a soma dos quadrados dos desvios
medidos na vertical entre cada ordenada observada e a correspondente
ordenada da recta de regressão.

Graficamente:
y  b0  b1 x
 ( x, y)
  y - yˆ
 ( x , y)
y
y
x
Cálculo dos coeficientes do modelo

O MMQ é um método de estimação que permite conhecer os estimadores
do modelo de regressão, minimizando a soma dos quadrados dos desvios
ou erros. Trata-se de um problema de minimização de uma função a duas
variáveis (b0 e b1). Constrói-se o sistema de estacionaridade
 
 b SQ (b0 , b1 )  0


0

 
 SQ(b0 , b1 )  0
 b1

Donde a resolução do sistema permite obter os coeficientes estimados:

b 
 ( x - x )( y - y )  xy - nx y

 (x - x )  x - nx
1 2 2 2
b0 
 y -b x
 y -b x
1
1
n
Ordenada na origem (b0) – Termo autónomo ou constante do

modelo. Significa que, independentemente do valor do regressor (no
limite xi = 0), o valor da variável dependente assume, em média, um
valor constante e igual a b0.

Declive ou coeficiente de regressão (b1) – Representa a variação prevista

da variável dependente y, por cada unidade de incremento da variável
independente x:
 yî
b1  .
 xi
Com base no Exerc. 1: Pretende-se que:
1. Determine a recta de regressão e interprete os coeficientes estimados.

2. Trace o diagrama de dispersão e represente graficamente a recta de
regressão.

Cálculo de b1 e b0:
x y x2 x.y
23 12 529 276
31 17 961 527
… … … …
37 21 1369 777
Σx =234 Σy =133 Σx2 = 7074 Σ x.y = 4009
b 
 xy - nx y 4009 - 8  29, 2516,625 
  0,517
 x - nx 7074 - 8  29, 25
1 2 2 2
b0  y - b1 x  16, 625 - 0,5174  29, 25  1, 491
Recta de regressão dos mínimos quadrados: yˆ  1, 491  0,5174 x

Interpretação dos coeficientes b1 e b0:

O declive b1 significa que, o incremento de uma grama no peso de um peixe
representará um aumento de, aproximadamente, 0,52 centímetros no respectivo
comprimento. A constante do modelo, b0, neste caso, não deve ser interpretada.
Não faz muito sentido prever um comprimento de 1,5 centímetros para um peixe
cujo peso seja 0 gramas!.
Diagrama de dispersão:

Notas:
1. A recta de regressão pode ser utilizada com o objectivo de prever o valor
da variável y, quando for conhecido o valor assumido por x.
2. A previsão de valores da variável y deve ser feita tendo em conta o

domínio dos valores observados para x. Assim, nem sempre a
interpretação do coeficiente b0 assume significado no modelo (veja-se o
exemplo anterior).
3. A recta de regressão deve ser usada para efeitos de previsão, tendo em

conta a população de onde a amostra foi extraída. No exemplo anterior,
caso o aquário contivesse diversas espécies, a previsão do comprimento
de um peixe referir-se-ia à espécie que originou a amostra.
4. O MRLS deve ser utilizado, para efeitos de previsão num horizonte

temporal reduzido. No curto prazo, parece razoável admitir uma certa
estabilidade do fenómeno em estudo. Extrapolações de longo prazo são,
em geral, incorrectas devido ao aumento da incerteza que lhe está
associada.
Qualidade do ajustamento: os resíduos da regressão e o coeficiente

de determinação
• Uma vez encontrada a recta de regressão pelo MMQ, vamos agora

analisar se a relação encontrada tem (ou não) significado do ponto de vista
estatístico. Interessa-nos medir a contribuição da variável x na previsão de
y. Isto é, avaliar a proporção da variabilidade total da variável dependente
que é explicada pelo modelo linear.
• Se x não contribui com informação para a previsão de y, então a

correlação entre as variáveis é nula, ou seja, as variáveis são
independentes uma da outra.
• Se x contribui com informação para a previsão de y, então a melhor

previsão para o valor de y é dada pela recta ajustada, e temos de avaliar a
proporção de erros de previsão de y que foram reduzidos através do uso da
informação fornecida por x.

Pelo principio da decomposição aditiva da variação total de y em torno da

sua média amostral, tem-se, para um ponto genérico (xi, yi):
( yi - y )  ( yî - y )  ( yi - yî )
Na análise de regressão linear, considerando um conjunto de pontos e,

analogamente ao critério dos mínimos quadrados, não desejando a
compensação dos desvios, tem-se a seguinte igualdade:
n n n
 i
( y
i 1
- y ) 2
  i
( ˆ
y - y
i 1
) 2
  i i
( y - ˆ
y ) 2
i 1
Variação total de y: SQT  SQ( y)   ( y - y ) 2
Soma dos quadrados da regressão: SQR   ( yˆ - y )

2
Soma dos quadrados dos resíduos: SQE   ( y - yˆ )   

2 2

• Resumindo: SQT = SQR  SQE
Donde: SQR SQE

 1
SQT SQT
O quociente SQR/SQT, pode ser interpretado como a proporção da

variabilidade total de y que é explicada através da recta de regressão. Isto
é, comparamos a soma dos quadrados explicados pela regressão, SQR, com
a variação total da variável dependente, SQT. O quociente SQE/SQT, pode
ser interpretado como a proporção da variabilidade total de y que não é
explicada pela recta de regressão.
No caso de SQR contribuir maioritariamente para SQT, então o modelo de

regressão pode ser considerado eficaz para efeitos de previsão.

Coeficiente de determinação: Medida utilizada para avaliar a qualidade

de ajustamento da recta de regressão linear (obtida pelo método dos
mínimos quadrados) aos dados. Representa a proporção da variação total
da variável dependente y, explicada pela regressão linear. Define-se por:
SQR SQT - SQE s 2

r2   ; r 2  b12 x2 e 0  r 2  1
SQT SQT sy
• r2 = 1 – Ajustamento linear é perfeito. A recta de regressão explica

totalmente a variabilidade de y. Como SQT = SQR, todos os pontos do
diagrama de dispersão se situam sobre a recta de ajustamento.
• r2 = 0 – Ajustamento linear nulo. A recta de regressão não se pode

definir, uma vez que x não contribui para explicar a variabilidade de y. Tal
não significa que não exista uma relação entre as variáveis, contudo, caso
exista, não será linear.

Obs. Em geral, a proporção não explicada pelo modelo linear, é dada por
1- r2. A parte que fica por explicar no modelo, designada por variação
residual, ou erro, resulta de factores não incluídos na regressão, que
actuam sobre y e não sobre x.
Com base no Exerc. 5:
Pretende-se que determine e interprete o coeficiente de determinação e

verifique que a recta de regressão é dada por: .
yˆ  50, 488 - 5,744 x
Veja-se o quadro de apoio para determinar o indicador r2.

x y x2 y2 xy ( y - y )2 ŷ ( yˆ - y )2
2,5 40 6,25 1600 100,00 82,81 36,13 27,33
3,0 43 9,00 1849 129,00 146,41 33,26 5,55
4,0 30 16,00 900 120,00 0,81 27,51 11,48
3,5 35 12,25 1225 122,50 16,81 30,38 0,27
2,7 42 7,29 1764 113,40 123,21 34,98 16,64
4,5 19 20,25 361 85,50 141,61 24,64 39,19
3,8 32 14,44 1024 121,60 1,21 28,66 5,01
2,9 39 8,41 1521 113,10 65,61 33,83 8,59
5,0 15 25,00 225 75,00 252,81 21,77 83,39
2,2 14 4,84 196 30,80 285,61 37,85 48,32
34,1 309 123,73 10665 1010,90 1116,90 309,01 245,77
x y  x 2
 y 2
 xy SQT  yˆ SQR

Cálculo do coeficiente de determinação:
r2 
SQR

 i
( ˆ
y - y ) 2

245, 77
0, 220
SQT (y i - y) 2
1116,90
• É habitual indicar o coeficiente de determinação em percentagem.

Podemos dizer que a proporção, em percentagem, da variabilidade total
de y que é explicada pelo modelo de regressão é dada por:
r 2 100  22,09
• Apenas 22% da variabilidade da quilometragem, por cada cinco litros

de combustível, pode ser explicada pelo peso das viaturas. Como é
evidente, a capacidade de previsão do modelo é muito reduzida.

Coeficiente de Correlação
Estamos agora interessados em avaliar a intensidade da relação linear

entre as variáveis x e y. Começamos por introduzir uma medida de
variabilidade conjunta das variáveis: a covariância.
A covariância do par de variáveis (x,y), é dada por:

1 n
cov( x, y)   ( xi - x )( yi - y )
n i 1
É de esperar que uma associação linear positiva entre as variáveis se

traduza numa covariância positiva, sendo o inverso verdadeiro.
A distribuição do sinal do produto ( xi - x )( yi - y ) é feita de acordo com o

gráfico seguinte:

Distribuição do sinal do produto ( xi - x )( yi - y ) , quando as variáveis se

encontram positivamente correlacionadas.

Obs. Embora a covariância nos permita avaliar a direcção e a intensidade da

associação linear, o seu valor depende da unidade de medida das variáveis.
Exemplo: Retome os dados do exercício 5., referentes ao peso (em

toneladas), x, e aos quilómetros percorridos por cada cinco litros de
combustível, y, de dez veículos pesados.
A covariância entre x e y medindo o peso em toneladas é –4,279. Caso a

unidade de medida de x fosse em quilogramas, o valor obtido seria –4279.
No entanto, não houve qualquer alteração essencial na associação entre as
variáveis, apenas uma mudança de escala. Temos, pois, de encontrar uma
característica amostral que seja invariante face às alterações de escala.
O problema fica resolvido se recorrermos às observações normalizadas das

variáveis x e y. Definimos então o coeficiente de correlação linear r do par
(x,y) como a covariância das respectivas variáveis normalizadas. Isto é:

Donde:
x-x y- y
r  cov( , )
sx sy
A expressão anterior pode ser reescrita, tendo em vista a sua aplicação

prática.
cov( x, y )
r
sx s y
O coeficiente de correlação linear, r, é uma medida do grau de associação

linear entre duas variáveis. O sinal do coeficiente indica se a correlação é
positiva ou negativa.
r
 ( x - x )( y - y ) , e -1  r  1
 (x - x )  ( y - y)
2 2

• r  1 : correlação linear é perfeita e positiva

• r  -1 : correlação linear é perfeita e negativa
• r  0 : impossibilidade de estabelecer qualquer tipo de relação linear entre
as variáveis, uma vez que as mesmas não se encontram associadas
linearmente.
Para o exercício, tem-se que o coeficiente de correlação é dado por:
n  COV(xy)   ( x - x )( y - y )  xy -
 x y
 -42,79
i i
n
r
 ( x - x )( y - y ) 
-42,79
 -0, 47
 (x - x )  ( y - y)
2 2
 7, 4491116,9 

Resumo:
• Demonstra-se que o coeficiente de correlação pode ser calculado em

função do coeficiente de determinação:
SQR
rx , y     r2 .
SQT
• O coeficiente de determinação é uma medida relativa da qualidade do

ajustamento efectuado, o coeficiente de correlação é uma medida do
grau de intensidade da relação linear entre as variáveis.
• Um valor elevado para o coeficiente de correlação, não significa que x

seja causa de y ou que y seja causa de x. A existência de correlação nada
diz sobre a eventual existência de uma relação causal entre as variáveis
observadas.

• Duas variáveis podem estar associadas devido à influência de uma

causa comum. Por exemplo, existe correlação positiva elevada entre o
número anual de casos de insolação e a produção de trigo, no entanto
não é razoável concluir que é a produção de trigo que causa insolações
ou que são as insolações que dão origem a boas colheitas de trigo. Neste
caso, são os verões quentes que causam insolações e também boas
colheitas de trigo. Chamamos espúrias às relações do tipo anterior, que
revelam uma causalidade aparente.

Acetatos EstatDescritiva AnáliseExploratória

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Acetatos EstatDescritiva AnáliseExploratória

Enviado por

Direitos autorais:

Formatos disponíveis

Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Estatística Descritiva e Análise Exploratória de Dados

• 2.1. População e Amostra. Variáveis de Interesse.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 1

2.1. População e Amostra. Variáveis de Interesse

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 2

População ou Universo: conjunto de elementos cujas características são

Unidade estatística: cada um dos elementos que constitui a população.

Amostra: subconjunto representativo da população.

Dimensão da amostra: número de elementos que a forma, que designamos

Dado: valor da variável associado a determinado elemento da população ou

Estatística Descritiva: recolha, apresentação e descrição de colecções de

Inferência Estatística: generalização das características observadas na

O objectivo último da Estatística é inferir, partindo da amostra as

O estudo de uma população pode ser feito por:

Processo de Amostragem ou Sondagem: apenas os elementos da

Variável: quantifica, classifica ou nomeia a variação do atributo para cada

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 4

Natureza das Variáveis:

Qualitativas: categorizam (descrevem ou nomeiam) um elemento da

Escala nominal: a ordem das categorias não tem significado.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 5

Obs. O valor de uma variável qualitativa pode ser representado

Quantitativas: quantificam um elemento da população recorrendo ao

Variável Discreta: se apenas assume um número finito de valores ou

Variável Contínua: pode assumir um número infinito não numerável

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 6

2.2. Tabulação de Dados. Representações Gráficas

• Em geral, as colecções de dados numéricos não se encontram nem

• Quando se dispõe de uma colecção numerosa de dados,

• Usamos as distribuições de frequência (ou distribuições empíricas) para

Distribuição de Frequências: quadro ou tabela onde se efectua a

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 8

Dois Conceitos Básicos:

• Frequência absoluta (Fi): número de vezes que a observação se repete

• Frequência relativa (fi): número de vezes que o valor da variável foi

1ºCaso: Tabulação e representações gráficas para dados não agrupados

• A colecção de dados/observações: x1 , x2 , ... , xn.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 9

Tabela de frequências para dados não agrupados

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 10

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 11

• A distribuição de frequências pode ser melhorada através da

• A representação gráfica correspondente às frequências relativas

Obs. Qualquer gráfico, no caso em análise, deve ser constituído por:

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 12

• Com base no exerc. 1., represente graficamente as frequências relativas

Diagrama de barras do salário de 140 trabalhadores

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 13

F unç ão C umulativ a da dis tribuiç ão dos s alários

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 14

2ºCaso: Tabulação e representações gráficas para dados agrupados

• Quando a variável discreta assume valores num intervalo muito grande e

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 15

• Exemplo: Considerando os dados do exerc.4, construa uma tabela de

Distribuição de Frequências dos atrasos nas partidas de voos domésticos

] 0, 10] 5 25 0,313 25 0,313

]10, 20] 15 20 0,250 45 0,563

]20, 30] 25 16 0,200 61 0,763

]30, 40] 35 13 0,163 74 0,925

]40, 50] 45 6 0,075 80 1,000

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 16