Você está na página 1de 52

Estatística Experimental

Estatística Descritiva
e Análise de Dados

1
Estatística descritiva e Inferência estatística

• O ramo da Estatística que diz respeito à descrição e


redução dos dados é denominada por Estatística
Descritiva.

• O ramo da Estatística relacionada com a tirada de


conclusões dos dados é denominada por Inferência
Estatística.

2
Usa a Estatística do mesmo modo que um bêbado os
postes: mais pelo apoio do que propriamente pela
iluminação.

Andrew Lang

3
População e amostra

• A ideia subjacente a todas as estatísticas é a de


que temos n observações de uma amostra proveniente da
população-alvo que consiste em N indivíduos .

• Nesta unidade, iremos sempre considerar que as amostras são


aleatórias (cada indivíduo tem igual probabilidade de ser
selecionado).
DADOS

5
“Estatística é a arte de aprender com os dados. Ela

diz respeito à recolha de dados, a sua consequente

descrição e análise, as quais levam frequentemente à

extracção de conclusões. “

Ross, 2005

6
Dados

Os objectos de estudo da Estatística são os dados

estatísticos e o objectivo da Estatística é obter dados,

descrevê-los, sumarizá-los, agrupá-los, organizá-los,

analisá-los e interpretar os resultados da análise.

7
Escala nominal
(sem ordenação)
Qualitativos Ex: raça, género
(Valores
numéricos
codificados)
Escala ordinal
(com ordenação)
Ex: extrato social

Dados

Discretos
(medidas com valores
específicos)
Quantitativos Ex: número de filhos
(Valores
numéricos) Contínuos
(medidas que tomam valores
num intervalo)
Ex: peso, altura, temperatura

8
Estatística descritiva

• O principal objetivo da estatística é fazer uma


inferência a partir de uma amostra para toda a
população.
• Como etapa preliminar, a amostra deve ser
simplificada e reduzida para alguns números
descritivos denominados estatísticas
amostrais.
Escala Nominal
Organização dos dados Medidas de tendência Representação gráfica
central
Distribuição de Moda (classe modal) • Gráfico de barras
frequências (absolutas e • Diagrama circular
relativas)

Escala Ordinal
Organização dos dados Medidas de tendência Representação gráfica
central
Distribuição de Moda • Gráfico de barras
frequências (absolutas, Mediana • Diagrama circular
relativas e frequências Estatísticas de ordem
acumuladas) Amplitude interquartis

10
Escala de intervalo/rácio
Medidas de tendência Medidas de Representação
central dispersão gráfica
• Moda • Desvio padrão • Caixa de bigodes
• Mediana • Variância • Histograma
• 1º e 3º Quartil • Coeficiente de variação •Diagrama de
• Média • Amplitude interquartis caule e folhas
• Média aparada a 5% (AI) (steam and leaf)
• Amplitude total

11
Tabelas de frequências

Uma tabela de frequências distribui os valores

da variável estatística em frequências simples e

acumuladas que tanto podem ser absolutas

como relativas.

12
Média

Mediana
Tendência
central
Moda

Média aparada
Medidas de a 5%
localização
1º e 3º Quartis

Tendência
Outliers
não central

Percentis

13
As medidas de localização são usadas para determinar onde a distribuição de
dados está concentrada.

MEDIDAS DE LOCALIZAÇÃO
Média, mediana e moda

• Média ( x ) é a soma de todas as observações a dividir pelo


número de observações.
• Mediana é a observação que é maior do que metade das
observações e menor do que a outra metade. É o valor que
corresponde à observação de ordem (n+1)/2, se n for ímpar e
é o valor que corresponde à média entre as observações de
ordens n/2 e n/2+1 se n for par.
• Moda é a observação que ocorre com maior frequência.
Média vs Mediana

• Usar ambas. Se a distribuição for simétrica, deverão ser próximas uma da


outra.

• A média tem melhor desempenho quando a distribuição é simétrica ou


moderadamente assimétrica.

• Se a distribuição for enviesada, usar a mediana. A média é mais afetada por


valores aberrantes.

• A moda pode ser mais informativa numa distribuição bimodal.

16
Média aparada a 5%

• A média aparada a 5% (5% trimmed mean) utiliza-se


como alternativa à média aritmética quando a
distribuição é muito assimétrica ou quando os
resultados sofrem grandes alterações com os outliers.

• Outliers são aqueles valores que se afastam


significativamente da maioria dos valores observados.

17
Quantis

• Os quartis (Q1, Q2, Q3) são medidas que dividem a distribuição


em quarto partes iguais. Diferentes pacotes de software
estatístico usam diferentes algoritmos para calculá-los.

• Os percentis e os decis são medidas que dividem a distribuição,


respetivamente em 100 ou 10 partes iguais.

18
Outliers

• Valores que difiram, do 1º Quartil ou do 3º


Quartil, mais do que 1.5 * AI mas menos do
que 3 * AI, são considerados outliers
moderados. Valores que difiram, do 1º Quartil
ou do 3º Quartil, mais do 3 * AI, são
considerados outliers severos.
• AI é a Amplitude Interquartis.
As medidas de dispersão dão uma indicação de quão concentrados estão
os dados numa distribuição.

MEDIDAS DE DISPERSÃO
Amplitude

Amplitude
interquartis
Medidas de
dispersão
Variância e
desvio padrão

Coeficiente
de variação

21
Amplitudes

• Amplitude = Valor max – Valor min

• Amplitude interquartis = Q3 – Q1

22
Variância e desvio padrão

x x 2
Desvio padrão  
 

s
 
 
 i 

n1
2
 xi  x
 
 

Variância 
 
 
 

n1

Erro padrão  s
n

23
Coeficiente de variação

Coeficiente de variação  Desvio padrão100%


Média
Assimetria e curtose. Dão uma indicação da forma da distribuição.

MEDIDAS DE ASSIMETRIA
Assimetria

• A assimetria quantifica a simetria duma distribuição.


• Uma distribuição simétrica tem uma assimetria nula.
• Uma distribuição assimétrica com uma longa cauda à
direita (maiores valores) tem uma assimetria
positiva.
• Uma distribuição assimétrica com uma longa cauda
para a esquerda (menores valores) tem uma
assimetria negativa.
• A assimetria é adimensional.
Curtose

• A curtose quantifica o quanto a forma


duma distribuição se aproxima da
distribuição Gaussiana.
• Uma distribuição Gaussiana tem uma
curtose nula.
• Uma distribuição mais achatada tem
uma curtose negativa.
• Uma distribuição com maior pico tem
uma curtose positiva.
• A curtose é adimensional.

27
Distribuição simétrica

média ≈ moda ≈ mediana

28
Distribuição assimétrica negativa

média < mediana < moda

29
Distribuição assimétrica positiva

moda < mediana < média

30
GRÁFICOS
Gráficos circulares

• A representação gráfica
permite-nos ver o
comportamento de
uma variável.
• Para variáveis
qualitativas, uma
representação gráfica
adequada é o gráfico
circular.

32
Gráficos de barras

O gráfico de barras é uma


representação gráfica
adequada a variáveis
qualitativas ou quantitativas
discretas.

33
Utilidade dos histogramas

O histograma é uma representação gráfica das frequências


de variáveis quantitativas contínuas.

• Quão simétricos são os dados?


• Quão dispersos estão os dados?
• Estão os intervalos com um alto nível de
concentração dos dados?
• Há intervalos por entre os dados?
• Há valores distantes de outros (outliers)?

34
Outros gráficos

• Outras representações gráficas são o diagrama


de caule e folhas (Stem-and-leaf diagram) e a
caixa de bigodes (Boxplot).

35
Caixa de bigodes (Boxplot)

• Um dos conjuntos fundamentais da


estatística descritiva é o sumário dos
cinco valores: mínimo, 1º quartil,
mediana (2º quartil), 3º quartil e
máximo.

• A caixa de bigodes mostra-nos estes


valores dando-nos informações
importantes sobre o centro, a
dispersão e o enviesamento dos
dados, para além da existência de
outliers.

36
Caule e folhas (Stem-and-leaf)

Quando os dados não são numerosos, a análise fica mais fácil


com o diagrama de caule e folhas.

Esta construção permite


ao observador, sem
perda de informação, ser
mais sensível ao aspeto
dos dados.

37
EXERCÍCIOS
Exercício 1

• Num teste à fiabilidade de uma máquina, um técnico mediu repetidamente a


viscosidade de uma amostra de petróleo bruto. Em cada um de três dias,
efetuou 10 medições.

Dia 1 60 65 65 70 70 70 70 85 85 90
Dia 2 65 65 70 60 70 65 65 90 85 80
Dia 3 70 80 85 75 70 70 65 65 70 75

a) Para cada um dos três dias, calcule a media, a mediana e a moda.


b) Para cada um dos três dias, calcule as cinco medidas sumárias representadas numa caixa
de bigodes.
c) Para cada um dos três dias, calcule a amplitude, o desvio padrão e o coeficiente de
variação.
d) Resolva as questões anteriores considerando o conjunto dos valores dos três dias
Exercício 2
• Funcionários de uma empresa na Grã Bretanha recebem os seus
salário em Libras esterlinas. Um departamento da empresa será
recolocado em França durante um ano, onde os seus salário serão
pagos em Euros. Uma Libra esterlina é igual a 1,27 Euros. Enquanto em
França, os funcionários terão um bónus mensal de 325€.
• A tabela seguinte mostra as estatísticas dos salários originais dos
funcionários na Grã Bretanha:

Mínimo £ 800
1º Quartil £ 1250
Mediana £ 1470
3º Quartil £ 2250
Máximo £ 4500
Média £ 2025
Desvio padrão £ 475
Exercício 2

a) Um empregado ganha £ 1600 por mês na Grã Bretanha. Calcule o


salário deste funcionário em Euros (incluindo o bónus) depois de este
ser recolocado em França.
b) Calcule a media e o desvio padrão dos salários dos funcionários após a
mudança para França.
c) Baseando-se nos salários auferidos na Grã Bretanha, há outliers nesses
valores? Explique por que sim ou porque não.
Exercício 3
A tabela seguinte representa o número de golos que cada equipa
marcou em cada um dos jogos da primeira liga do campeonato
português de futebol durante a temporada 2009/2010.

Nº de golos 0 1 2 3 4 5 6 7 8
Frequência 155 161 91 45 14 10 1 0 1

a) Apresente os dados numa tabela de frequências.


b) Determine:
i. Medidas de tendência central (média, mediana e moda).
ii. Dispersão (amplitude, desvio padrão, intervalo interquartil).
c) Construa um gráfico de barras.
d) Discuta a assimetria dos dados.

42
Exercício 4

As alturas – em cm – de 5 estudantes são: 165, 175, 176, 159,


170. A mediana e a média da amostra são, respetivamente:
170 e 169 
170 e 170 
169 e 170 
176 e 169 
176 e 176 

43
Exercício 5

Um professor ajustou as cotações de um exame, multiplicando


as classificações dos estudantes por 1.2. Qual das seguintes
afirmações é falsa?

A média aumenta. 
O desvio padrão aumenta. 
O intervalo interquartil mantém-se inalterado. 
A amplitude aumenta. 
A mediana aumenta. 

44
Exercício 6

Num conjunto de dados, se todos os dados surgirem com a


mesma frequência, então

O desvio padrão é sempre 0. 


A média é sempre maior do que o desvio padrão. 
Todos os dados têm o mesmo valor. 
A boxplot nem sempre é simétrica. 
Nenhuma das anteriores. 

45
Exercício 7

Se a média de um conjunto de dados for 12.3 e o desvio


padrão 0, então:

Todas as observações são iguais a 12.3 


Deve ter havido um erro no cálculo, porque não é possível
um desvio padrão de 0. 
O histograma dos dados tem um único pico no 0. 
O histograma dos dados é assimétrico. 
Há uma grande variabilidade nos dados. 

46
Exercício 8

Uma empresa de roupa e têxteis para estudantes está a tentar avaliar


o tempo que crianças do pré-escolar levam a vesti-lo. Num pré-teste,
ela cronometrou os tempos levados por 7 crianças. Os tempos (em
segundos) são dados a seguir: n n 65 43 n 119 39. Os n’s representam
crianças que não conseguiram vestir o casaco até 120 segundos (caso
em que lhes era permitido parar de tentar). Qual dos valores seguintes
seria o melhor para ser designado como valor típico necessário para
vestir o casaco?

O tempo mediano, 43 segundos. 


O tempo médio, 66 segundos. 
O tempo mediano, 52 segundos. 
O tempo mediano, 119 segundos. 
Os tempos não conseguidos (os n’s) significam que não podemos
calcular nenhuma medida útil de tendência central. 

47
Exercício 9

No último ano, uma pequena empresa de consultoria


estatística pagou a cada um dos seus seis funcionários
22000, a cada um dos dois analistas estatísticos 50000, e ao
dono 270000. O número de funcionários que recebem
menos do que o salário médio é:

0 
4 
5 
6 
Nenhuma das anteriores 
48
Exercício 10
Para comparar as despesas feitas por médicos em hospitais do Norte e do Sul
de Portugal, foram obtidas os box-plots seguintes:

Há mais hospitais no Sul do que no Norte. 


A amplitude de ambas as distribuições é aproximadamente igual. 
A media é, e ambas as distribuições, maior do que a mediana. 
Ambas as distribuições são assimétricas negativas. 
Nenhuma das anteriores.  49
Exercício 11
Os cinco números sumários (obtidas no box plot) para as
classificações obtidas num exame de estatística são 35, 68, 77,
83, 97. Ao todo, 196 estudantes realizaram o teste. Cerca de
quantas classificações estiveram entre 77 e 83?

6 
39 
49 
98 
Não pode ser determinada a partir da informação dada. 

50
Exercício 12

Duas turmas de ESTAT, a turma A e a turma B, fizeram exame cotado


de 0 a 20 valores. Um aluno com nota 8 está no percentil 30 para a
turma A e está no percentil 60 para a turma B. Qual das seguintes
conclusões é a mais razoável?
As notas da turma A são em geral melhores que as da turma B. 
A turma B tem o dobro dos alunos. 
As notas da turma B são em geral melhores que as da turma A. 
A turma A tem o dobro dos alunos. 
Uma nota que está no percentil 40 para a turma A está no
percentil 80 para a turma B. 

51
Exercício 13
O histograma seguinte mostra o valor de fecho de um título em
bolsa.

Em que intervalo cai a mediana?


0 a 10 
10 a 20 
20 a 30 
30 a 40 
40 a 50 
52

Você também pode gostar