Você está na página 1de 132

1

AMOSTRAGEM,
&
ESTATÍSTICA DESCRITIVA

2020/2021 Estatística Aplicada M2026 31


O 1º capítulo do programa será dedicado a

obtenção organização análise e interpretação

de dados experimentais ou observacionais, para numa fase


posterior extrair conclusões com base neles

2020/2021 Estatística Aplicada M2026 32


Amostragem
POPULAÇÃO amostra

Estatística
Descritiva

tabelas, gráficos
medidas
Inferência :

2020/2021 Estatística Aplicada M2026 33


1.1
AMOSTRAGEM

2020/2021 Estatística Aplicada M2026 34


Antes de fazermos uma análise estatística temos que
proceder à recolha da informação. O modo como
obtemos os dados tem enormes implicações sobre a
escolha dos métodos de análise e até mesmo sobre a
validade do estudo. Seguidamente examinaremos
alguns tipos comuns de métodos de recolha de
dados com ênfase especial na amostra aleatória
simples.

2020/2021 Estatística Aplicada M2026 35


População
Conjunto de elementos (pessoas, animais, objetos, plantas,
empresas, ocorrências, resultados experimentais,…) que se
pretende estudar.

A cada elemento da população dá-se o nome de unidade


estatística.

2020/2021 Estatística Aplicada M2026 36


Exemplos de populações

1. Conjunto dos alunos, de nacionalidade Portuguesa, que


completaram o Ensino Secundário (em Portugal) no ano letivo de
2019/2020

2. Conjunto das empresas, com sede social em Portugal, que


tiveram lucros em 2019.

3. Todos os sobreiros de Portugal

4. Resultados possíveis em sucessivos lançamentos de uma moeda

5. Conjunto de valores da concentração de ozono na cidade do


Porto, às 12 horas da manhã de um determinado dia.

2020/2021 MJCosta Estatística Aplicada M2026 37


População (no sentido físico)

Por vezes identifica-se a população com a(s) característica(s)


populacional que se pretende estudar. Nesse caso, os elementos que
constituem a população são os valores obtidos por medição dessa(s)
característica(s).

Exemplo:
População: os estudantes inscritos em EE(M1022) em 2020/21.
Se o estudo incidir sobre a altura e o distrito de residência, então a População
pode ser encarada como o conjunto dos pares (altura, distrito) dos estudantes
inscritos

2020/2021 MJCosta Estatística Aplicada M2026 38


Unidades de Medida
Relembrando o óbvio: a unidade de medida deve ser sempre indicada.
Uma altura de 195 nada diz: pode ser um arranha-céus de 195 m ou uma
pilha de livros com 195 mm de altura.
A omissão ou confusão nas unidades de medida pode ter graves
consequências. Um exemplo do que não deveria acontecer:

De Statistical Science, 2005, Vol. 20, 231-238.


“A confusão entre unidades inglesas e métricas foi responsável pela perda da
sonda espacial Martian Climate Orbiter, no valor de US $ 125 milhões (The New
York Times, 1º de outubro de 1999). Os engenheiros do Laboratório de Propulsão a
Jato confundiram as leituras de aceleração medidas em unidades inglesas de libra-
segundo para a medida métrica da força em newton-segundos.”
Wild & Seber - tradução livre

2020/2021 MJCosta Estatística Aplicada M2026 39


População Alvo e População em Estudo

De um ponto de vista prático, é muito importante compreender a


diferença entre a População Alvo (a já definida) e a População em Estudo.

População Alvo (“Target Population”): Conjunto completo de indivíduos,


objectos, ou unidades sobre os quais pretendemos informação.

População em Estudo (“Study Population”): Conjunto completo de


unidades que podem eventualmente ser incluídas no estudo. Idealmente,
a mesma que a população alvo, mas muitas vezes distinta.
Wild & Seber - tradução livre

2020/2021 MJCosta Estatística Aplicada M2026 40


Quando a População Alvo e a População em Estudo são diferentes, os
resultados obtidos através de um estudo estatístico não são fiáveis,
podendo mesmo estar completamente errados.

O inquérito efectuado pela Literary Digest em 1936 às intenções de voto


nas eleições presidenciais nos USA, é um exemplo (histórico)
frequentemente utilizado para ilustrar os problemas que podem surgir
quando a População Alvo e a População em Estudo têm características
muito diferentes. Neste episódio, a População Alvo era o conjunto dos
eleitores e a População em Estudo era o conjunto dos eleitores com
telefone. Em 1936, estas duas populações tinham características sociológicas
muito diferentes, com reflexo em diferentes orientações do voto.

2020/2021 MJCosta Estatística Aplicada M2026 41


Na grande maioria das situações a população tem um
grande número de elementos, não sendo possível
observar todos eles, e portanto o estudo terá de ser feito
considerando apenas uma parte da população a que se dá
o nome de amostra. O tamanho (ou dimensão) da amostra
é o número de elementos que a constituem.

Exemplos de amostras
1. 1000 alunos, de nacionalidade Portuguesa, que
completaram o Ensino Secundário (em Portugal) no ano
lectivo de 2019/2020

2. 20 sobreiros selecionados em território português

2020/2021 Estatística Aplicada M2026 42


Amostra Aleatória Simples

A amostra diz-se aleatória simples se os critérios


utilizados na sua seleção garantirem que todas as
amostras do mesmo tamanho têm igual probabilidade
de serem selecionadas.

Informalmente o processo de obtenção de uma amostra


aleatória simples pode ser feito do modo seguinte:
Atribui-se um número a cada elemento da população e
colocam-se numa caixa cartões com os números
atribuídos. São então extraídos ao acaso n cartões da
caixa. Os números nesses cartões identificam os
elementos da amostra de tamanho n.

2020/2021 Estatística Aplicada M2026 43


Amostra Aleatória Simples

No caso da extração ser feita com reposição a amostra


diz-se aleatória simples com reposição. No caso da
extração ser feita sem reposição, diz-se que a amostra é
aleatória simples sem reposição.

As diferenças entre amostragem com e sem reposição


não são significativas quando o tamanho da população
é muito maior do que o tamanho da amostra.

2020/2021 Estatística Aplicada M2026 44


Em muitos estudos é impraticável a recolha de uma
amostra aleatória simples. Por exemplo, selecionar uma
amostra aleatória simples de 10 coelhos no Parque
Nacional Peneda Gerês. Nestas situações é necessário
tomar precauções para que os indivíduos selecionados,
possam ser considerados como provenientes de uma
amostragem aleatória. Para fazer isto é necessário definir
primeiro a população e a seguir examinar cuidadosamente
o processo de seleção. No exemplo dos coelhos,
delimitaríamos primeiro a área geográfica de interesse.
Nessa área selecionaríamos aleatoriamente diversos locais
onde colocaríamos armadilhas.

2020/2021 Estatística Aplicada M2026 45


Há outro tipo de amostragem que é aleatória mas não é
simples. Uma das técnicas de amostragem aleatória não
simples é a amostragem aleatória estratificada.

Uma amostra aleatória estratificada obtem-se estrati-


ficando primeiro a população em conjuntos homogéneos
de indivíduos (estratos). Depois são retiradas amostras
aleatórias de cada um dos estratos e combinadas de
modo a constituírem a amostra.

2020/2021 Estatística Aplicada M2026 46


Exemplo Num estudo acerca do parasitismo em
caranguejos (Emerita analoga) os investigadores obtiveram
uma amostra estratificada dividindo uma praia em 4 faixas
paralelas ao mar de 5 metros cada.

Essas faixas foram escolhidas como estratos, pois a carga


parasitária dos caranguejos difere sistematicamente com a
distância à água.

Foram então selecionados 25 caranguejos de forma


aleatória em cada uma das faixas obtendo-se uma
amostra estratificada de 100 caranguejos.

2020/2021 Estatística Aplicada M2026 47


Amostragem (três pontos a “fixar”)

ØA obtenção de uma amostra deverá ser feita com especial cuidado


e de uma forma não subjectiva, recorrendo às chamadas Técnicas de
Amostragem.

ØNuma perspectiva prática, é importante ter presente que a escolha


da forma como se faz a amostragem de uma população também
envolve bom senso, intuição e um conhecimento profundo da
situação.

ØUm erro frequente resulta de, inadvertidamente, a População Alvo


ser muito diferente da População em Estudo.

2020/2021 Estatística Aplicada M2026 48


1.2
ESTATÍSTICA DESCRITIVA

2020/2021 Estatística Aplicada M2026 49


Num estudo estatístico cada uma das características em
que estamos interessados (por exemplo temperatura
corporal, quantidade de danos fúngicos numa folha, cor
dos olhos) varia de indivíduo para indivíduo (senão o seu
estudo não seria necessário) e é portanto designada de
variável de interesse ou variável estatística.

Ao recolhermos uma amostra de tamanho n da população


iremos obter n observações de cada uma das variáveis de
interesse. Cada indivíduo (por exemplo um ser humano,
uma baleia, uma folha, um ovo…) dá origem a uma
observação de cada variável de interesse e é designado
por isso de unidade observacional.

2020/2021 Estatística Aplicada M2026 50


Exemplos

variável de unidade
amostra
interesse observacional
150 bebés
nascidos num peso à nascença um bebé
certo hospital
colónias de
bactérias em 6 nº de colónias uma placa de petri
placas de petri
20 sismos
ocorridos na magnitude um sismo
Europa

2020/2021 Estatística Aplicada M2026 51


Uma vez recolhida uma amostra aleatória de uma
população há que organizar e analisar os dados fornecidos
por essa amostra de modo a que posteriormente seja
possível tirar conclusões. Os dados são observações de
uma variável que pode ser:

Variável
qualitativa representa uma qualidade, cate-
goria ou característica não men-
surável

quantitativa representa uma característica


que se pode medir ou contar

2020/2021 Estatística Aplicada M2026 52


Variáveis Qualitativas (indicam o “grupo”)

1. nominais (ou categóricas) - não têm subjacente nenhuma idéia


de ordem; (exemplo: cor do cabelo)

2. ordinais - “apontam” para uma ordem natural;


(exemplo: a gravidade de uma doença classificada como pouco
grave, média, aguda)

2020/2021 Estatística Aplicada M2026 53


Variáveis Quantitativas: (medições ou contagens: característi-
cas/atributos que podem ser medidos numa escala quantitativa,
i.e. características mensuráveis)

1. contínuas: características mensuráveis que assumem valores


numa escala contínua (por exemplo, na recta real).
Exemplos: peso em gramas de uma alface (balança),
tempo (relógio), pressão arterial…

2. discretas: podem assumir apenas um número finito ou


infinito numerável de valores.
Exemplos: número de pessoas por habitação, número de
filhos, número de bactérias por litro de leite...

2020/2021 Estatística Aplicada M2026 54


Resumo:
dados
(variável)

qualitativos quantitativos

nominais discretos contínuos


(ou categóricos) ordinais
(contar) (medir)
não têm têm
subjacente subjacente
nenhuma ideia uma ordem
de ordem natural

2020/2021 Estatística Aplicada M2026 55


Exemplos

1. grupo sanguíneo (A,B,O,AB) da população residente


nos Açores
categórica
2. peso à nascença das crianças portuguesas nascidas em
2000
contínua

3. número de colónias bacterianas numa placa de petri


discreta

4. resposta a uma certa terapia (ausente, parcial, completa)


ordinal
2020/2021 Estatística Aplicada M2026 56
Nota:

A “classificação” de uma variável estatística pode suscitar dificuldades. A


classificação não é apenas baseada na natureza da variável: tem também
de levar em conta o rigor com que ela é medida, o contexto em que é
utilizada e a diversidade de valores que apresenta.

Exemplos: Quantitativa ou qualitativa?

(rigor) consumo de carne – se quantitativa, contínua ou discreta?

(contexto) cor de ... – se qualitativa, ordinal ou não ordinal?

(diversidade) Quando o número de valores possíveis de uma variável


discreta é muito elevado, a variável é muitas vezes tratada como se fosse
uma variável contínua.

2020/2021 Estatística Aplicada M2026 57


A cor :

Ø vista como frequência é quantitativa contínua

Ø obervada no arco-íris é qualitativa ordinal

Ø observada como a cor dos olhos dos alunos da FCUP é


qualitativa nominal

2020/2021 Estatística Aplicada M2026 58


A cor como variável contínua:

2020/2021 Estatística Aplicada M2026 59


A estatística descritiva é a parte da estatística que se
ocupa apenas da organização e da análise de dado s. O
objetivo é a obtenção da informação relevante a partir de
um conjunto de dados (amostra).

Organização e Caracterização através de


caracterização gráfica parâmetros
(tabelas e gráficos) (quantidades numéricas)

2020/2021 Estatística Aplicada M2026 60


Organização / Descrição Gráfica
tabelas de frequências, gráficos

Dados Qualitativos

Ao analisar um conjunto de observações de uma variável


qualitativa, começa-se por considerar as diferentes
categorias, e para cada uma delas determina-se a sua
frequência obtendo-se a distribuição de frequências do
conjunto de dados. Esta distribuição de frequências pode
ser representada por uma tabela, a que se dá o nome de
tabela de frequências.

2020/2021 Estatística Aplicada M2026 61


Se os dados são de tipo qualitativo, na tabela de frequências
a informação é organizada, de um modo geral, em duas
colunas:

coluna das categorias ou classes – onde se indicam as


categorias observadas para a variável em estudo;

coluna das frequências absolutas – onde se regista o total de


elementos da amostra que pertencem a cada categoria;
ou coluna das frequências relativas – onde se coloca, para
cada categoria, a sua frequência relativa, que poderá ser dada
em percentagem.

frequência absoluta
frequência relativa=
nº total de observações

2020/2021 Estatística Aplicada M2026 62


Exemplo
A seguinte amostra aleatória é constituída por 20
observações da variável: “cor preferida” dos indivíduos de
uma certa população:
azul, azul, vermelho, laranja, azul, azul, rosa, verde, verde, rosa, verde, azul,
azul, branco, verde, verde, rosa, branco, vermelho, laranja

Cor preferida Frequência Frequência


Absoluta Relativa
azul 6 6/20 =0.3
vermelho 2 2/20=0.1
laranja 2 2/20=0.1
verde 5 5/20=0.25
rosa 3 3/20=0.15
branco 2 2/20=0.1

2020/2021 Estatística Aplicada M2026 63


A representação gráfica (mais usual) para dados qualitativos
é o diagrama de barras (que pode ser vertical ou
horizontal).

Cada barra corresponde a uma categoria e é representada


por um retângulo. No caso vertical, todos os retângulos têm
a mesma largura e a altura de cada um é proporcional à
frequência da categoria correspondente.

As barras não se devem tocar e a sua posição bem como o


espaçamento entre elas é arbitrário.

2020/2021 Estatística Aplicada M2026 64


Exemplo (diagramas de barras)

7 0.35
6 0.3
5 0.25
4 0.2
3 0.15
2 0.1
1 0.05
0 0
l ja l j a r de
az
u le h
o
n r de osa n co az
u le h
o
n osa n co
r a ve r ra r a ve r ra
r m la b r m la b
v e ve

frequências absolutas frequências relativas

2020/2021 Estatística Aplicada M2026 65


Dados Quantitativos Discretos

Ao analisar um conjunto de observações de uma variável


discreta podemos proceder de dois modos:

1. Construir a tabela de frequências, listando todos os


valores possíveis e as frequências respetivas.

2. Agrupar primeiro os valores em classes e construir a


tabela de frequências das classes. Este 2º caso deve ser
considerado quando temos muitos valores distintos ou/e
poucas repetições.

2020/2021 Estatística Aplicada M2026 66


No caso de dados quantitativos, além das frequências
absolutas e relativas é usual por vezes considerar as
frequências absolutas acumuladas (faa) ou as
frequências relativas acumuladas (fra). Para se obter a
frequência acumulada de um certo valor (ou classe)
somam-se as frequências desse valor (ou dessa classe)
com as frequências dos valores anteriores (ou classes
anteriores).

2020/2021 Estatística Aplicada M2026 67


Exemplo 1
Número de crianças em 25 famílias do Porto.

1, 1, 2, 1, 0, 0, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2, 0, 1, 0, 1, 2

nº de nº de nº de nº de
f.a. f.a.a. f.r. f.r.a.
crianças crianças crianças crianças
0 7 0 7 0 0.28 0 0.28
1 10 1 17 1 0.4 1 0.68
2 5 2 22 2 0.2 2 0.88
3 2 3 24 3 0.08 3 0.96
4 1 4 25 4 0.04 4 1

∑ = 25 ∑= 1
2020/2021 Estatística Aplicada M2026 68
A representação gráfica mais usual para dados discretos é
o diagrama de barras (como para dados qualitativos). De
notar que neste caso o diagrama é relativo a uma variável
numérica e portanto existe uma ordem e escala para essa
variável que deve ser tomada em conta na posição das
barras (no caso de variáveis categóricas a posição das bar-
ras e o espaço entre elas é arbitrário).

Quando a amostra é pequena, é habitual o uso de um dia-


grama de pontos para a representar. Neste gráfico, cada
ponto representa uma observação com um determinado
valor da variável. Observações com o mesmo valor são re-
presentadas por pontos empilhados nesse valor.

2020/2021 Estatística Aplicada M2026 69


Exemplo 1
Número de crianças em 25 famílias do Porto (p 68).

Diagrama de Barras Diagrama de Pontos


0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4
0 1 2 3 4

2020/2021 Estatística Aplicada M2026 70


Exemplo 2 (diagrama de pontos)

Esta representação gráfica é útil na fase inicial de qualquer trabalho,


quando o número de observações não é muito elevado. Permite a
detecção rápida de erros e de outras situações "estranhas", que deverão
ser investigadas exaustivamente.

2020/2021 Estatística Aplicada M2026 71


Exemplo 3
Número de trabalhadores ausentes em cada um dos dias
de um período experimental de 30 dias.

15, 9, 15, 5, 10, 16, 28, 7, 12, 9, 23, 15, 21, 16, 17,
13, 20, 18, 28, 3, 11, 12, 2, 22,15, 14, 10, 6, 19, 14
Neste caso, muitos valores distintos e poucas repetições. Vamos usar classes

nº de ausentes f.a. 15
0-7 5
10
8-15 14
16-23 9 5

24-31 2 0
>31 0 0-7 8-15 16-23 24-31

2020/2021 Estatística Aplicada M2026 72


Dados Quantitativos Contínuos

Ao analisar um conjunto de observações de uma variável


contínua usualmente deve agrupar-se primeiro os valores
em classes (intervalos) e em seguida construir a tabela de
frequências das classes. De facto, num conjunto de dados
de natureza contínua normalmente existem poucos valores
repetidos. Ao organizar os dados na forma de intervalos,
pretende-se retratar essa natureza contínua.

2020/2021 Estatística Aplicada M2026 73


Exemplo 4
Considere-se a seguinte amostra relativa ao comprimento
em milímetros da nervura maior de 50 folhas de plátanos:

104, 111, 112, 113, 115, 117, 118, 120, 121,122, 124, 125, 127, 130,
131, 133, 133, 134, 134, 135, 136, 137, 137, 140, 143, 145, 145, 146,
148, 148, 149, 150, 150, 151, 153, 156, 156, 158, 159, 160, 162, 163,
165, 170, 172, 174, 177, 182, 184, 187

Como agrupar estes dados em classes (intervalos)?

Consideraremos todas as classes com a mesma amplitude.

2020/2021 Estatística Aplicada M2026 74


Se usarmos poucos intervalos poderá perder-se muita
informação.
Se usarmos demasiados intervalos, o objetivo da
sumarização dos dados não é alcançado.

Para “resolvermos” este problema podemos recorrer à


fórmula de Sturges (1926), que nos fornece uma indicação
de quantas classes devemos considerar:

Número de classes k em que devem ser agrupadas n


observações:

! = 1 + log% & ≈ 1 + 3.322log+, &

2020/2021 Estatística Aplicada M2026 75


Esta regra tem um caráter meramente indicativo, devendo
ser tomadas em conta as vantagens de ordem prática que
advêm da definição das classes cujos limites inferior e
superior coincidam com valores fáceis de manusear.

2020/2021 Estatística Aplicada M2026 76


A representação gráfica usual para dados contínuos é o
histograma. O histograma é um gráfico, formado por uma
sucessão de retângulos (barras) adjacentes, tendo cada um
por base um intervalo de classe e uma área igual (ou
proporcional) à frequência relativa (ou absoluta) dessa
classe.

Contrariamente ao diagrama de barras, em que as barras estão


separadas e em que a altura de cada barra é o mais relevante, no
histograma as barras estão juntas e o impor-tante é a área de cada
uma.

2020/2021 Estatística Aplicada M2026 77


Exemplo 5
Comprimento (cm) Coyotes captured in Nova Scotia, Canada.
Females (40)
93,0 97,0 92,0 101,6 93,0 84,5 102,5 97,8 91,0 98,0 93,5 91,7
90,2 91,5 80,0 86,4 91,4 83,5 88,0 71,0 81,3 88,5 86,5 90,0
84,0 89,5 84,0 85,0 87,0 88,0 86,5 96,0 87,0 93,5 93,5 90,0
85,0 97,0 86,0 73,7

Tabela frequências (femeas)


Classes Contagem Frequência
[70-75[ || 2
[75-80[ 0
[80-85[ |||| | 6
[85-90[ |||| |||| || 12
93.0 [90-95[ |||| |||| ||| 13
[95-100[ |||| 5
101.6
[100-105] || 2
Total 40

2020/2021 MJCosta Estatística Aplicada M2026 78


A forma e o "detalhe" do histograma depende muito da escolha do número
de classes (nc).

manusear.
h = 5 cm h = 2.5 cm

nc = 7 nc = 14

2020/2021 MJCosta Estatística Aplicada M2026 79


Para n = 40 o critério de Sturges indica nc = log2(40) + 1 ≈7

R = (max – min) = (102.5 -71.0)


R = 31.5

O valor indicativo da amplitude


da classe é: h = R/nc = 4.5

h = 2.5? 4? 5?

Na escolha final dos extremos das classes e de h recorre-se ao "bom senso".


Muitas vezes o número de classes escolhido é diferente do valor indicado
pelo critério de Sturges: em particular, quando n é muito elevado (porque o
critério de Sturges é muito conservador).

2020/2021 MJCosta Estatística Aplicada M2026 80


Exemplo 6 (50 observações)

104, 111, 112, 113, 115, 117, 118, 120, 121,122, 124, 125, 127, 130,
131, 133, 133, 134, 134, 135, 136, 137, 137, 140, 143, 145, 145, 146,
148, 148, 149, 150, 150, 151, 153, 156, 156, 158, 159, 160, 162, 163,
165, 170, 172, 174, 177, 182, 184, 187

) ≈ 1 + 3.322log01 50 ≈ 6.6

187 − 104
Para k=7 a amplitude de cada classe é ≈ 12
7

Proposta: Começar em 100 e considerar classes de


amplitude 10 (9 classes).
2020/2021 Estatística Aplicada M2026 81
104, 111, 112, 113, 115, 117, 118, 121, 121,122, 124, 125, 127, 131,
131, 133, 133, 134, 134, 135, 136, 137, 140, 141, 143, 145, 145, 146,
148, 148, 149, 151, 151, 151, 153, 156, 156, 158, 160, 161, 162, 163,
165, 171, 172, 174, 177, 182, 184, 187

classes f.a. f.r. classes f.a. f.r.


[100,110] 1 0.02 (140,150] 8 0.16
(110,120] 6 0.12 (150,160] 8 0.16
(120,130] 6 0.12 (160,170] 4 0.08
(130,140] 10 0.20 (170,180] 4 0.08
(180,190] 3 0.06

Nota: Neste exemplo, consideraremos intervalos fechados


à direita e abertos à esquerda (o primeiro fechado nos dois
extremos).
2020/2021 Estatística Aplicada M2026 82
Exemplo (comprimento das folhas de plátanos)
classes f.a. f.r. densidades
[100,110] 1 0.02 0.002
(110,120] 6 0.12 0.012
(120,130) 6 0.12 0.012
(130,140] 10 0.20 0.020
(140,150] 8 0.16 0.016
(150,160] 8 0.16 0.016
(160,170] 4 0.08 0.008
(170,180] 4 0.08 0.008
(180,190] 3 0.06 0.006

frequência relativa
densidade =
amplitude das classes
2020/2021 Estatística Aplicada M2026 83
Exemplo (histogramas)
0.2

0.16

0.12

0.08

0.04

de frequências absolutas de frequências relativas

área =1

de densidades
2020/2021 Estatística Aplicada M2026 84
Observações
1. O histograma de frequências (absolutas) depende muito da
quantidade de dados e da amplitude das classes. Não é
adequado quando queremos fazer comparações.

2. No caso do histograma de frequências relativas*, a área total


dos retângulos é 1xa, onde a é a amplitude das classes. Este
histograma já não depende da quantidade de dados mas
depende ainda da amplitude das classes.

3. No caso do histograma de densidades** a área total dos


retângulos é 1, o que permite a comparação com modelos de
distribuição de probabilidade.

* frequência relativa = (frequência)/n


**densidade = frequência / (n*amplitude_da_classe)

2020/2021 MJCosta Estatística Aplicada M2026 85


Grupo de dados hipotético (D1) : valores simétricos em relação à origem
-2.7 -2.6 -2.2 -1.8 -1.8 -1.6 -1.4 -1.4 -1.1 -1.0 -1.0 -0.9 -0.8 -0.7 -0.6 -
0.6 -0.5 -0.2 -0.1 0.0 0.0 0.1 0.2 0.5 0.6 0.6 0.7 0.8 0.9 1.0 1.0
1.1 1.4 1.4 1.6 1.8 1.8 2.2 2.6 2.7
Dois histogramas para D1

Os dados apresentam simetria, mas o histograma é assimétrico e o tipo


de assimetria depende das classes serem abertas ou fechadas à direita.
Porquê?

2020/2021 Estatística Aplicada M2026 86


Grupo de dados hipotético (D2):valores simétricos em relação a 0.3
-2.26 -1.41 -1.25 -1.21 -1.08 -0.91 -0.88 -0.86 -0.70 -0.53 -0.49 –0.47 -0.22 -
0.20 -0.19 -0.19 -0.09 0.07 0.19 0.20 0.40 0.41 0.53 0.69 0.79 0.79
0.80 0.82 1.07 1.09 1.13 1.30 1.46 1.48 1.51 1.68 1.81 1.85 2.01 2.86
Dois histogramas para D2

Os dados apresentam simetria, contudo o histograma é assimétrico, quer as


classes sejam abertas ou fechadas à direita. Porquê?

2020/2021 Estatística Aplicada M2026 87


Histograma com classes de amplitude diferente

Total = 5

Quando as classes não têm todas a mesma amplitude, qual a escala a utilizar no
eixo dos yy?

2020/2021 Estatística Aplicada M2026 88


Histograma com classes de amplitude diferente

Quando as classes não têm todas a mesma amplitude, só se pode utilizar a


escala de densidades.

2020/2021 Estatística Aplicada M2026 89


Considere três amostras de dimensão 100, 500 e 1000 de uma
população, e três histogramas, em densidades e cada um deles com
classes de igual amplitude, representando respetivamente cada uma das
amostras.
densidade

Os histogramas, não sendo os mesmos, mantêm uma certa forma que se acentua
Com o aumento da dimensão da amostra e a diminuição da amplitude das classes.
Porquê?
2020/2021 Estatística Aplicada M2026 90
Forma
Alguns histogramas apresentam formas que, por serem
bastante usuais, merecem referência especial. Assim, as
formas mais comuns são:

Distribuições simétricas

[retirado de www.alea.pt]
A distribuição das frequências é exatamente ou aproximada-
mente simétrica, relativamente a uma classe média.

2020/2021 Estatística Aplicada M2026 91


[imagens retiradas de www.alea.pt]
Distribuições enviesadas

enviesada para a direita enviesada para a esquerda

A distribuição das frequências é acentuadamente assimétrica sendo os


seus valores muito mais pequenos num dos lados.

Distribuições com caudas longas

Existe um grande número de classes nos extremos, cujas frequências são


pequenas, relativamente às classes centrais.
2020/2021 Estatística Aplicada M2026 92
later work with distributions we will find the idea to be indispensable.

Shapes of Distributions
A When
forma da distribuição
discussing a set of data, wede
wantum conjunto
to describe decenter,
the shape, observações
and spread of the
distribution. In this section we concentrate on the shapes of frequency distributions
deanduma variável
illustrate some of contínua pode
the diversity of ser indicada
distributions encounteredatravés de
in the life sciences.
uma
The curva
shape of suave aproximando
a distribution can be indicatedobyhistograma.
a smooth curve that approximates the
histogram, as shown in Figure 2.2.13.

3
on of a
a smooth

Some distributional shapes are shown in Figure 2.2.14. A common shape for
biological data is unimodal (has one mode) and is somewhat skewed to the right, as
in (c). Approximately bell-shaped distributions, as in (a), also occur. Sometimes a
distribution is symmetric but differs from a bell in having long tails; an exaggerated
version is shown in (b). Left-skewed (d) and exponential (e) shapes are less com-
mon. Bimodality (two modes), as in (f), can indicate the existence of two distinct
subgroups of observational Estatística
2020/2021
units. Aplicada M2026 93
Notice that the shape characteristics we are emphasizing, such as number of
36 Chapter 2 Description of Samples and Populations

simétrica(a) em forma de sino


Symmetric, bell-shaped
simétrica
(b) Symmetric, not bell-shaped

[retirado de Statistics for the Life Sciences, M. Samuels et al.]


(c) Skewed to the right (d) Skewed to the left
enviesada à direita enviesada à esquerda

bimodal
exponencial

(e) Exponential (f) Bimodal

Figure 2.2.14 Shapes of distributions

2020/2021 Estatística Aplicada M2026 94


Outras Representações Gráficas

Diagrama de Caule e Folhas

Diagrama de Caixa-e-Bigodes (a estudar mais à frente)

2020/2021 Estatística Aplicada M2026 95


Diagrama de caule e folhas - dados quantitativos discretos

Estes valores numéricos podem ser representados de forma mais compacta


por:

(fragmentação)

unidades: 20 | 0 = 200

2020/2021 Estatística Aplicada M2026 96


Diagrama de caule e folhas: importância das unidades

• O número 212 pode ser representado por


21 | 2
• De forma análoga 21.2 pode ser representado por
21 | 2
• Para os distinguir, tem de se indicar as unidades,
caule 21 | 2 folha 21 | 2

unidades: 20 | 0 = 200 unidades: 20 | 0 = 20.0

2020/2021 Estatística Aplicada M2026 97


Diagrama de Caule e Folhas - Exemplo
Comprimento (cm)
Females (40)
93,0 97,0 92,0 101,6 93,0 84,5 102,5 97,8 91,0 98,0 93,5 91,7
90,2 91,5 80,0 86,4 91,4 83,5 88,0 71,0 81,3 88,5 86,5 90,0
84,0 89,5 84,0 85,0 87,0 88,0 86,5 96,0 87,0 93,5 93,5 90,0
85,0 97,0 86,0 73,7

unidades: 10|0=100 cm

Fragmentação
(neste caso:
cada caule é
dividido em
dois)

2020/2021 Estatística Aplicada M2026 98


Diagrama de Caule e Folhas – Exemplo (continuação)

Qual dos diagramas anteriores representa melhor os dados?

Ønº dígitos = 3
2 dígitos nos caules
1 dígito nas folhas

Ønº caules = 7

O diagrama de caule e folhas assemelha-se a um histograma rodado de 90º, com


mais detalhe numérico e menor qualidade gráfica.

2020/2021 Estatística Aplicada M2026 99


Diagrama de Caule e Folhas – Observações

Ø organiza os dados de uma forma compacta, com pouca perda de


informação, dando ainda informação "visual" sobre a "distribuição" dos
valores na amostra.

Ø assemelha-se a um histograma rodado de 90º, com mais detalhe nu-


mérico e menor qualidade gráfica

2020/2021 Estatística Aplicada M2026 100


Diagrama de caule e folhas

Recomendações muito gerais:


Ø A folha é descrita por um dígito. O caule é descrito por um a dois
dígitos (aplica-se a regra dos 2 dígitos variáveis).
Ø O número de caules não deve ser maior que 10 (15?), excepto
quando a dimensão da amostra é muito elevada.
Ø O número de caules pode ser aumentado por fragmentação: cada
um dos fragmentos deve ter o mesmo número possível de folhas. Isto
é, um caule só pode ser dividido em dois ou em cinco.
Ø A diferença entre caules sucessivos é em geral
(0.5 ou 1 ou 2) * (potência de 10)

2020/2021 Estatística Aplicada M2026 101


Caracterização através de medidas numéricas

No caso de dados quantitativos a distribuição de frequências


pode ser completada com algumas medidas numéricas. Essas
medidas podem ser de dois tipos:

de localização ou de dispersão

Uma medida numérica calculada a partir dos dados de uma


amostra é chamada também de estatística.

2020/2021 Estatística Aplicada M2026 102


Medidas de Localização

média mediana quartis moda

As medidas de localização são valores numéricos que


resumem os dados (quantitativos), dando indicação quer
do centro da sua distribuição (ex. média e mediana) quer
de outros pontos importantes (ex. quartis).

2020/2021 Estatística Aplicada M2026 103


Média

A média de uma amostra de n observações x1, x2,…, xn é:

1 n
x = ∑ xi
n i=1
A média é única, fácil de calcular e bastante influenciada
por valores extremos.

Exemplo
A média dos valores 75, 77, 80, 80, 278, é "=118
̅
No entanto, quase todos os valores se situam entre 75 e
80.

2020/2021 Estatística Aplicada M2026 104


simétrica

x
enviesada à direita enviesada à esquerda

x x
2020/2021 Estatística Aplicada M2026 105
Mediana

A mediana é a observação central, depois de ordenados os


dados da amostra. É o valor que divide a amostra, depois
de ordenada, em duas partes com o mesmo número de ob-
servações cada.

Se a amostra tiver dimensão ímpar, a mediana coincide com


a observação central. Se a amostra tiver dimensão par,
considera-se a mediana como o valor da média aritmética
das duas observações mais centrais.

2020/2021 Estatística Aplicada M2026 106


Assim,
dada uma mostra {x1,x2,..., xn}

Amostra ordenada {x(1),x(2),...,x(n)}

Mediana M da Amostra

2020/2021 Estatística Aplicada M2026 107


Exemplo 1

dados da amostra: 1.2 2.4 1.7 2.1 2.2

dados ordenados: 1.2 1.7 2.1 2.2 2.4

mediana=2.1

Exemplo 2

dados da amostra: 1.2 2.4 1.7 2.1 2.5 2.2

dados ordenados: 1.2 1.7 2.1 2.2 2.4 2.5

2.1+ 2.2
mediana = = 2.15
2
2020/2021 Estatística Aplicada M2026 108
Média & Mediana – posição relativa distribuições simétricas

A média e a mediana são medidas de localização dos


valores da amostra.

Se os dados na amostra têm uma distribuição


razoavelmente simétrica, a média e a mediana diferem
pouco entre si.

2020/2021 MJCosta Estatística Aplicada M2026 109


Média & Mediana – robustez

A presença de valores muito diferentes da maioria, valores


discordantes, afeta muito mais o valor da média do que o valor
da mediana. Diz-se por isso que a mediana é mais robusta do
que a média.

valores discordantes

Nota. Uma estatística diz-se robusta se o seu valor for pouco afetado por
alterações (mesmo que dramáticas) num pequeno grupo dos dados.

2020/2021 MJCosta Estatística Aplicada M2026 110


Exemplo
0,1,1,2,3,3,4,5,8
média: 3
mediana: 3

0,1,1,2,3,3,4,16,51
média: 9
mediana: 3

2020/2021 Estatística Aplicada M2026 111


Média & Mediana
Além da mediana ser mais robusta, ela tem outra vantagem
em estudos de sobrevivência e toxicidade: a de poder ser
calculada em tempo útil (ao contrário da média) e a de ter
um significado mais relevante.
Suponha-se, por exemplo, que as observações são tempos
de sobrevivência de pacientes sujeitos a um determinado
tratamento e que a maioria dos pacientes sobrevive menos
de 1 ano, enquanto alguns respondem bem e sobrevivem
mais anos.
Neste caso, o tempo médio de sobrevivência pode ser
maior do que o tempo de sobrevivência da maioria dos
pacientes. A mediana representaria melhor o resultado para
um paciente "típico".

2020/2021 Estatística Aplicada M2026 112


E se em vez de fazermos a divisão dos valores da amostra
(ordenada) em 50% para um lado e 50% para o outro,
fizermos a divisão em 25% para um lado e 75% para o
outro?

Ou de um modo mais geral em k% para um lado e (100-k)%


para o outro?

2020/2021 Estatística Aplicada M2026 113


Percentis

O k-ésimo percentil (0<k<100) é o valor Pk que divide as


k% menores observações da amostra das (100-k)%
maiores.

amostra ordenada x(1) x(2) x(3) ! x(n)


Pk
k% (100-k)%
Uma vez que não existe um modo inequívoco para fazer tal
divisão, existem na literatura estatística diversas propostas
para calcular os percentis amostrais, nenhuma delas univer-
salmente aceite.

2020/2021 Estatística Aplicada M2026 114


Quartis
Como o nome indica, os quartis dividem os elementos da
amostra em quatro partes iguais.

Assim, o primeiro quartil Q1 é o percentil 25, o segundo


quartil é a mediana e o terceiro quartil Q3 é o percentil 75.

25% 25% 25% 25%

mínimo Q1 mediana Q3 máximo

A amplitude interquartil é o valor AIQ=Q3-Q1 e é uma


medida de dispersão.

2020/2021 Estatística Aplicada M2026 115


Quartis
Seja uma amostra ordenada com n observações,
x(1) x(2) x(3) ! x(n)

Nesta unidade curricular adotaremos como método para para o


cálculo de Q1 e Q3 o seguinte:

Q1 : é a mediana da primeira metade dos dados, excluindo a


mediana.

Q3 : é a mediana da segunda metade dos dados, excluindo a


mediana.

Nota: Não se trata de uma definição convencional, mas do ponto de vista


pedagógico é facilmente compreendida. Com esta definição há sempre k
valores menores do que Q1, k valores maiores do que Q3, k valores entre Q1
e M e k valores entre M e Q3. Este método não pode ser generalizado para
outros percentis.
2020/2021 Estatística Aplicada M2026 116
Exemplo
amostra: 31, 23, 28, 37, 28, 32, 61, 34, 42, 50
amostra ordenada: 23, 28, 28, 31, 32, 34, 37, 42, 50, 61
n=10 Q1 Q2 Q3

"($) &"(')
Mediana=Q2= = 33
(

Primeiro quartil, Q1= *(+) = 28

Terceiro quartil, Q3= *(.) = 42

2020/2021 Estatística Aplicada M2026 117


Percentis – um método de cálculo entre muitos ....

Seja uma amostra ordenada com n observações,


x(1) x(2) x(3) ! x(n)

k
Seja i o índice: i= n
100

⎧ x +x
⎪⎪ (i ) (i+1) se i inteiro
Pk = ⎨ 2
⎪ x ⎢i⎥+1 se i não inteiro
⎪⎩ (⎣ ⎦ )

Nota ⎢⎣i ⎥⎦ designa a parte inteira de i.

2020/2021 Estatística Aplicada M2026 118


Exemplo
amostra: 31, 23, 28, 37, 28, 32, 61, 34, 42, 50
amostra ordenada: 23, 28, 28, 31, 32, 34, 37, 42, 50, 61
n=10 &(() *&(+)
Mediana=Q2= = 33
,

Percentil 10
10
!= ×10 = 1 123 =4(,) = 28
100

Percentil 85:
85 167 =4(8) = 50
!= ×10 = 8.5
100

2020/2021 Estatística Aplicada M2026 119


Moda

Chama-se moda ou valor dominante de uma amostra ao


valor, ou valores, de frequência máxima.

Ao contrário do que acontece com a média, uma amostra


pode possuir mais do que uma moda.

No caso de dados agrupados em classes, chama-se classe


modal à classe com frequência máxima.
Nota: A moda pode utilizar-se sem restrições, isto é, pode aplicar-
-se quer a variáveis quantitativas como a variáveis qualitativas.

2020/2021 Estatística Aplicada M2026 120


Diagrama de caixa e bigodes (boxplot)

Estes diagramas são os melhores na relação custo/benefício.


De facto, à custa unicamente de cinco números, três dos
quais calculados a partir dos dados e os outros dois
resultantes de uma simples observação dos dados, obtém-se
uma representação muito esclarecedora sobre a forma como
os dados se distribuem.

Esses cinco valores são:

mínimo Q1 mediana Q3 máximo

2020/2021 Estatística Aplicada M2026 121


5 números

quartis valor mínimo vm


1ºquartil / 3º quartil / mediana valor máximo vM
Q1 Q3

aprox 25% das aprox 50% das aprox 25% das


menores observações observações maiores observações

vm Q1 Mediana Q3 vM

2020/2021 Estatística Aplicada M2026 122


Exemplo (diagrama de caixa e bigodes)

14.4 10.2 14.7 14.1 14.4 14.7 14.4 14.5 14.5


14.7 14.6 16.4 14.9 15.1 15.9
dados ordenados:
10.2 14.1 14.4 14.4 14.4 14.5 14.5 14.6
14.7 14.7 14.7 14.9 15.1 15.9 16.4

vm=10.2 Q1=14.4 Med=14.6 Q3=14.9 vM=16.4

vm Q1 Q3 vM
Med
2020/2021 Estatística Aplicada M2026 123
Diagrama Caixa-de-Bigodes (modified boxplot)

A diferença entre este diagrama e o anterior é que os


“bigodes”, em vez de terminarem na menor e na maior
observações, terminam eventualmente mais próximo
dos quartis. É portanto tomada em consideração a
existência de observações muito distantes da maioria
(outliers).

As observações que não estejam compreendidas entre


os bigodes são designadas por outliers e representadas
por asteriscos. São valores que se distinguem dos
restantes, dando a ideia de não pertencerem ao mesmo
conjunto de dados.

2020/2021 Estatística Aplicada M2026 124


Diagrama Caixa-de-Bigodes modificado (modified boxplot)

BI BS BES
BEI

Ø Barreira inferior (lower fence) BI= Q1 -1.5*IQR


Ø Barreira superior (upper fence) BS= Q3 +1.5*IQR
Ø Barreira externa inferior BEI=Q1 - 3*IQR
Ø Barreira externa superior BES=Q3 + 3*IQR

2020/2021 Estatística Aplicada M2026 125


Diagrama Caixa-de-Bigodes modificado

Primeiro bigode termina na menor observação que é


maior ou igual à barreira inferior BI dada por:

BI=Q1-1.5AIQ

Segundo bigode termina na maior observação que é


menor ou igual à barreira superior BS dada por:

BS=Q3+1.5AIQ

AIQ=Q3-Q1

2020/2021 Estatística Aplicada M2026 126


Diagrama de Caixa e Bigodes modificado– Outliers

outliers moderados: são as observações


Ø menores ou iguais à barreira inferior BI e maiores que
a barreira externa inferior BEI
ou
Ø maiores ou iguais à barreira superior BS e menores
que a barreira externa superior BES

outliers severos: observações


Ø menores ou iguais à barreira externa inferior BEI
ou
Ø maiores ou iguais à barreira externa superior BES

2020/2021 Estatística Aplicada M2026 127


Exemplo (diagrama caixa-de-bigodes mdificado)

10.2 14.1 14.4 14.4 14.4 14.5 14.5 14.6 14.7 14.7
14.7 14.9 15.1 15.9 16.4

vm=10.2 Q1=14.4 Med=14.6 Q3=14.9 vM=16.4 AIQ=Q3-Q1=0.5

BI=Q1-1.5 AIQ=13.65 BS=Q3+1.5 AIQ=15.65

BEI=Q1-3 AIQ=12.9 BES=Q3+3 AIQ=16.4


outlier moderado
outlier severo
outlier severo
* * *

14.1Q Q 15.1
13.65 1 3

Med 15.65

2020/2021 Estatística Aplicada M2026 128


Comparação de dados

No caso de uma única amostra, os histogramas fornecem


uma visão mais completa dos dados. O ponto forte dos
diagramas caixa-de-bigodes reside no facto de facilitarem a
comparação de várias amostras, em particular, no que diz
respeito à localização , dispersão e assimetria.

2020/2021 Estatística Aplicada M2026 129


Exemplo

Para estudar os efeitos da luminosidade no crescimento ini-


cial de sementes de rabanete, foi conduzido um estudo en-
volvendo 42 sementes divididas aleatoriamente em 3
grupos com condições de luz distintas (24 horas de luz, 12
horas de luz e 12 horas sem luz, 24 horas sem luz). Ao fim
de 3 dias foram medidos os comprimentos (em mm) dos
rebentos e os resultados estão apresentados na figura da
página seguinte:

2020/2021 Estatística Aplicada M2026 130


plots of the data. The boxplots make it very easy to compare the growth
e three conditions: It appears that light inhibits shoot growth. Are the ob-
fferences in growth among the lighting conditions just due to chance varia-
Exemplo
s light really altering growth? We will learn how to numerically measure the
of this evidence and answer this question in Chapters 7 and 11. !

35

30 outliers
O crescimento é muito menor,
25
mas mais consistente, com
condições de luz total. Ao que
Growth (mm)

20 parece a luz inibe o


crescimento dos rebentos.
15 Será que as diferenças
observadas nos 3 grupos se
10 devem apenas ao acaso ou a
luz de facto inibe o
5
crescimento?

Darkness Diurnal Light


Light treatment
[retirado de Statistics for the Life Sciences, M. Samuels et al.]

2020/2021 Estatística Aplicada M2026 131


Outliers & forma da distribuição
Boxplots" de 4 amostras (n = 100) de uma mesma população com distribui
ção exponencial.
Nos 4 casos ocorrem "outliers" (no sentido de estarem acima da barreira
superior):

Ocorrem valores discordantes,


mas nada há de "anormal" nestes valores.
A distribuição é enviesada à direita,
e é nesse lado que estão os "outliers".

2020/2021 Estatística Aplicada M2026 132


Outliers – o que fazer?

O que fazer perante um "outlier" que após análise cuidada foi


considerado um "erro" ?
Corrigir o erro se possível. Se não for possível, eliminar a
observação dessa variável no estudo. Reavaliar a adequação
dos procedimentos experimentais.

O que fazer perante um "outlier" que após análise cuidada não foi
considerado um "erro" ?

Não eliminar o "outlier”.


Utilizar métodos de análise resistentes. Por exemplo, usar a
mediana, em vez da média, como medida de localização.

2020/2021 Estatística Aplicada M2026 133


Medidas de Dispersão

As medidas de dispersão servem para medir a


variabilidade presente num conjunto de dados.

amplitude amostral

amplitude interquartil

desvio padrão amostral

variância amostral

coeficiente de variação

2020/2021 Estatística Aplicada M2026 134


Amplitude Amostral

A amplitude amostral é a diferença entre a maior e a


menor das observações.
Esta medida tem a grande desvantagem de ser muito
sensível à existência, na amostra, de uma observação
muito grande ou muito pequena.

Amplitude Interquartil

A amplitude interquartil é a diferença entre o 3º e o 1º


quartil: AIQ= Q3-Q1
Ao contrário da amplitude amostral, esta medida é
robusta.
2020/2021 Estatística Aplicada M2026 135
Desvio Padrão Amostral

A medida de dispersão mais usada é o desvio padrão.

Define-se o desvio padrão (e representa-se por s) de


uma amostra com n observações como:
n
2
(x
∑ i − x )
s= i=1
n −1
_
xi : i-ésima observação x : média da amostra

Nota: O desvio padrão é expresso na unidade de


medida dos dados.

2020/2021 Estatística Aplicada M2026 136


Variância Amostral

A variância amostral é o quadrado do desvio padrão:

n
2
(x
∑ i − x )
s2 = i=1
n −1

⎛ n 2⎞
⎜ ∑ xi ⎟ − nx 2
Mostra-se que: ⎝ ⎠
s 2 = i=1
n −1

2020/2021 Estatística Aplicada M2026 137


Relações aproximadas entre algumas medidas
Aplicabilidade: distribuições de dados unimodais e razoavelmente
simétricas relativamente a um valor central e sem valores
discordantes

Ø cerca de 70% dos valores da amostra estão contidas no intervalo


[ x - s, x + s ]

Ø cerca de 95% dos valores da amostra estão contidas no intervalo


[ x - 2 s, x + 2 s ]

Ø !"# = #% − #' ≈ 1.4,

2020/2021 Estatística Aplicada M2026 138


Como saber se um desvio padrão calculado é grande ou
pequeno? Isto é, como saber a partir do desvio padrão se
há pequena ou grande variabilidade nos dados?

Um desvio padrão pode ser considerado grande ou


pequeno dependendo da ordem de grandeza dos dados.

Por exemplo um desvio padrão igual a 2.3cm pode ser


pequeno se a média for 236cm ou grande se a média for
0.5cm.

2020/2021 Estatística Aplicada M2026 139


Coeficiente de Variação

Um modo de se medir a variabilidade dos dados tirando a


influência da ordem de grandeza é conseguido através do
coeficiente de variação, definido para amostras com média
diferente de zero por:
s
CV =
x

O CV mede a variabilidade dos dados em relação à média.


Quanto menor o CV mais homogéneo é o conjunto de
dados.

O CV é adimensional e pode ser usado para comparar di-


versos conjuntos de dados. É frequentemente expresso em
percentagem.

2020/2021 Estatística Aplicada M2026 140


Exemplo

Num grupo de pacientes foram medidas as pulsações (ba-


tidas por minuto) e as taxas de ácido úrico (mg/100ml). As
médias e os desvios padrão foram respetivamente:

68.7 e 8.7 para a pulsação e 5.46 e 1.03 para o ácido


úrico.
8.7
coef. de var. para a pulsação: CVP = ≈ 0.13 = 13%
68.7
1.03
coef. de var. para a taxa de a.u.: CVA = ≈ 0.19 = 19%
5.46

Os dados evidenciam mais estabilidade na pulsação do


que na taxa de ácido úrico.

2020/2021 Estatística Aplicada M2026 141


Transformação de Variáveis

Por vezes, ao trabalhar com um conjunto de dados, é con-


veniente transformar uma variável. Por exemplo, podemos
querer converter de polegadas para centímetros ou de °F
para °C.

Pretende-se portanto passar do estudo de uma variável X


para o estudo de uma variável Z.

X Z

Como se transformam as medidas de localização e de


dispersão da amostra?

2020/2021 Estatística Aplicada M2026 142


É claro que essa transformação dependerá da transfor-
mação da variável. O caso mais simples é o de uma

transformação linear: Z= ! X+ "

Suponha-se que temos um conjunto de observações da


variável X: x1,…,xn. Sejam # e $% respetivamente a média
e desvio padrão destes dados .

Sejam z1,…,zn os valores transformados destes dados, isto


é, zi= ! xi+ ". Sejam & e $' a média e desvio padrão dos
dados transformados.

& =!# +" $' = |!|$% $' * = ! * $%

2020/2021 Estatística Aplicada M2026 143


Exemplo

Temperaturas em graus Célsius TC são convertidas para


temperaturas em graus Fahrenheit TF através da
transformação linear:

TF = 1.8 TC + 32
Suponha que dispõe de um conjunto de 100 observações
de temperaturas em graus Célsius, cuja média é "̅# = 27º
e cujo desvio padrão é '# = 4º.
Qual a média e o desvio padrão das observações
expressas em graus Fahrenheit?

"̅, = 1.8×27 + 32=80.6 ', = 1.8×4=7.2

2020/2021 Estatística Aplicada M2026 144


Dados Bivariados

Suponha-se agora que dispomos de uma amostra bivariada


ou seja, uma amostra constituída por pares de observações
de duas variáveis X e Y. Neste caso o objetivo é evidenciar
relações entre as duas variáveis.

X e Y categóricas:
Neste caso usa-se uma tabela (de dupla entrada) de frequ-
ências para registar as observações. A tabela de frequências
absolutas fornece informação concisa das observações, no-
meadamente ficamos a saber qual o tamanho das amostras.
Mas se quisermos fazer comparações teremos que analisar
as frequências relativas.

2020/2021 Estatística Aplicada M2026 145


Exemplo
tabela (bivariada) de frequências absolutas

olhos castanhos olhos verdes outros total


ou pretos ou azuis

ingleses 104 106 5 215


alemães 71 78 1 150
italianos 82 18 2 102

tabela de frequências relativas

olhos castanhos olhos verdes outros total


ou pretos ou azuis

ingleses 0.22 0.23 0.01 0.46


alemães 0.15 0.17 0 0.32
italianos 0.18 0.04 0 0.22

2020/2021 Estatística Aplicada M2026 146


Exemplo
tabela de frequências relativas

olhos castanhos olhos verdes outros total


ou pretos ou azuis

ingleses 0.22 0.23 0.01 0.46


alemães 0.15 0.17 0 0.32
italianos 0.18 0.04 0 0.22

Estes valores não são muito relevantes se quisermos estu-


dar a associação entre a variável “cor de olhos” e a variável
“nacionalidade”.

Fará mais sentido aqui considerar as frequências relativas


por nacionalidade ou alternativamente por cor.

2020/2021 Estatística Aplicada M2026 147


Exemplo
tabela de frequências relativas por cor

olhos castanhos olhos verdes outros


ou pretos ou azuis

ingleses 0.40 0.52 0.62


alemães 0.28 0.39 0.13
italianos 0.32 0.09 0.25
total 1 1

tabela de frequências relativas por nacionalidade


olhos castanhos olhos verdes outros total
ou pretos ou azuis

ingleses 0.48 0.50 0.02 1


alemães 0.47 0.52 0.01 1
italianos 0.80 0.18 0.02 1

2020/2021 Estatística Aplicada M2026 148


Representação gráfica

nacionalidade versus cor

cor versus nacionalidade

2020/2021 Estatística Aplicada M2026 149


In Section 2.4 we learned that boxplots are graphs based on only five numbers: the
minimum, first quartile, median, third quartile, and maximum. They are appealing
plots because they are very simple and uncluttered, yet contain easy to read infor-
mation about center, spread, skewness, and even outliers of a data set. By displaying
side-by-side boxplots on the same graph, we are able to compare numeric data
X quantitativa e Y categórica among several groups. We now consider an extension of the radish shoot growth
problem in Example 2.4.3.

Para cada categoria (valor observado de Y) temos várias


Example Radish Growth Does light exposure alter initial radish shoot growth? The complete
2.5.3 radish growth experiment of Example 2.4.3 actually involved a total of 42 radish
seeds randomly divided to receive one of three lighting conditions for germination
observações da variável quantitativa X que podem ser re-
(14 seeds in each lighting condition): 24-hour light, diurnal light (12 hours of light
and 12 hours of darkness each day), and 24 hours of darkness. At the end of three

presentadas através de um boxplot. Representando os di-


days, shoot length was measured (mm). Thus, each shoot has two variables that are
measured in this study: the categorical variable lighting condition (light, diurnal,
dark) and the numeric variable sprout length (mm). Figure 2.5.3 displays side-by-
versos boxplots lado a lado no mesmo gráfico, podemos
side boxplots of the data. The boxplots make it very easy to compare the growth
under the three conditions: It appears that light inhibits shoot growth. Are the ob-
analisar os dados quantitativos entre as diversas
served differences in growth among the lighting conditions just due to chance varia-
tion, or is light really altering growth? We will learn how to numerically measure the

categorias.
strength of this evidence and answer this question in Chapters 7 and 11. !

Figure 2.5.3 Side-by-side


boxplots of radish growth 35
under three conditions:
constant darkness, half
30
light–half darkness, and
constant light
25
Growth (mm)

20

15

10

Darkness Diurnal Light


Light treatment

2020/2021 Estatística Aplicada M2026 150


X e Y quantitativas

(x1 , y1 ) (x2 , y2 ) ... (xn , yn )

A representação gráfica dos dados é feita neste caso


através de um diagrama de dispersão (scatter plot) onde
são marcados no plano os pontos (xi , yi).

Estes diagramas permitem ter informação visual sobre o


grau de relacionamento entre as duas características. Mas
devem ser complementados com uma medida quantitativa
desse grau de relacionamento.

2020/2021 Estatística Aplicada M2026 151


Exemplo
Os dados seguintes (em cm) dizem respeito à altura e
envergadura de 24 pessoas:
pessoa # altura env pessoa # altura env
1 162 156 13 173 177
2 160 157 14 176 177
3 162 159 15 178 178
4 155 160 16 180 184
5 160 161 17 188 188
6 162 161 18 187 188
7 170 162 19 182 188
8 166 165 20 181 188
9 170 170 21 192 188
10 167 170 22 193 194
11 185 173 23 184 196
12 176 173 24 186 200

2020/2021 Estatística Aplicada M2026 152


Diagrama de Dispersão

200
190
envergadura

180
170
160

160 170 180 190

altura

2020/2021 Estatística Aplicada M2026 153


Covariância

Dada uma amostra bivariada (x1 , y1 ) (x2 , y2 ) ... (xn , yn )

a covariância amostral é definida como


n

1 n ∑ x y − nx y
i i
qx, y = ∑ (xi − x )( yi − y) = i=1
n −1 i=1 n −1

sendo x e y as médias de (x1, x2 ,..., xn ) e (y1, y2 ,..., yn )


respetivamente.

2020/2021 Estatística Aplicada M2026 154


Correlação
O grau de relacionamento linear entre um par de variáveis
numa amostra pode ser quantificado através do
coeficiente de correlação linear de Pearson, dado pelo
quociente entre a covariância amostral e o produto dos
desvios padrão:

1 n n


n −1 i=1
(xi − x )( yi − y) ∑ xi yi − nx y
r= = i=1
sx s y (n −1)sx s y

Este coeficiente toma valores no intervalo [-1,1]. Se existe


uma relação linear entre as duas variáveis então |r|=1.

2020/2021 Estatística Aplicada M2026 155


Diagrama de Dispersão
200
190
envergadura

180

r=0.9084516
170
160

160 170 180 190

altura

2020/2021 Estatística Aplicada M2026 156


r = -0.99 r = -0.6 r = -0.3

50

50
45

45

45
40

40

40
35

35

35
14 16 18 20 22 24 26 14 16 18 20 22 24 26 15 20 25

50
45

45

45
40

40
40
35

35
35
30

30
30

12 14 16 18 20 22 24 26 15 20 25 14 16 18 20 22 24 26

r = 0.99 r = 0.01 r = 0.3


2020/2021 Estatística Aplicada M2026 157
r = 0.01 r=0.004

6
45

5
4
40

3
2
35

1
30

0
15 20 25 -2 -1 0 1 2

Quando |r| é muito próximo de 1 pode-se concluir que as


variáveis apresentam um grau de relacionamento linear forte.

Quando |r| é muito próximo de 0, nada se pode concluir sobre o


relacionamento das variáveis sem inspecionar o diagrama de
dispersão: o valor de r, por si só, não permite tirar conclusões.

2020/2021 Estatística Aplicada M2026 158


correlação ≠ causalidade

A correlação é muitas vezes interpretada erradamente


como indicando causalidade. Uma correlação entre duas
variáveis significa apenas que elas variam conjuntamente.
Uma correlação positiva significa que valores altos de uma
variável estão associados a valores altos da outra,
enquanto uma correlação negativa significa que valores
altos de uma variável estão associados a valores baixos da
outra. Duas variáveis podem estar fortemente
correlacionadas sem que uma delas cause a outra.

2020/2021 Estatística Aplicada M2026 159


Uma correlação forte entre duas variáveis poderá indicar
causalidade mas poderá ter outras explicações:

1. Poderá ser apenas resultado do acaso.

2. Poderão existir variáveis confundidoras, que não


estão a ser levadas em conta.

2020/2021 Estatística Aplicada M2026 160


Exemplo 1

90

80

70

60

50

40

https://tylervigen.com 30

20

10

0
0 100 200 300 400 500 600 700

2020/2021 Estatística Aplicada M2026 161


Exemplo 2

[https://www.mathsisfun.com/data/correlation.html]

Um estudo (com base em 12 dias) revelou uma correlação positiva


forte (≈0.94) entre o volume de vendas de gelados (X) numa certa
gelataria e o volume de vendas de óculos de sol (Y) numa loja da
mesma cidade. Será que a venda de gelados causa a compra de
óculos de sol? Ou será que é a venda de óculos de sol que causa as
vendas de gelados?

variável confundidora: temperatura atmosférica

2020/2021 Estatística Aplicada M2026 162

Você também pode gostar