Você está na página 1de 54

Sebenta Gestão e Organização de Dados Exame Teórico

Introdução
(Bio)Estatística - Área do conhecimento científico que se debruça sobre os processos de recolha de informação
(dados), da análise e caracterização da informação e da tomada de decisão fundamentada a partir da informação
recolhida.

População - Conjunto de todos os elementos cujas características pretendemos estudar.

Tamanho da Amostra = Nº de População


Elementos

Amostra

Amostra - Subconjunto (finito) da população.

Estatística Descritiva - Conjunto de métodos cujo objectivo é sintetizar e representar de forma compreensível a
informação contida nos dados.

Estatística Inferencial (ou Inferência Estatística) - Permite fazer estimativas e tirar conclusões sobre uma população
a partir da informação contida numa amostra aleatória.

Amostragem - Processo de selecção de indivíduos/sujeitos (pessoas, animais, objectos,…) de uma população.

Amostragem

Aleatória Não Aleatória

Uma amostra é aleatória quando a probabilidade de cada um dos sujeitos da população vir a integrá-la é conhecida.

Variáveis Aleatórias

Variável (aleatória) - Característica da população que pode tomar vários valores possíveis.

Variável

Qualitativa Quantitativa

Discreta Discreta

Contínua
Discretas - Só podem tomar um número (finito ou infinito) numerável de

1
Sebenta Gestão e Organização de Dados Exame Teórico

valores. (ex.: número de nascimentos, de acidentes,…)

Contínuas - Podem tomar qualquer valor num intervalo de números reais. (ex.: peso, altura, temperatura,…)

Nominais - Cada um dos valores da variável corresponde a uma designação. (ex.: género (Masculino, Feminino),
grupo sanguíneo,…)

Ordinais - As suas categorias (classes) têm uma relação de ordem. (ex.: nível socio-económico (baixo, médio, alto),…)

pescala
Quantitativas Qualitativas

Intervalar Nominal

Razão Ordinal

Escalas de Medida

Nominal - Dados identificados apenas pela atribuição de um nome que designa uma classe. As classes são
mutuamente exclusivas e não ordenáveis.
Ordinal - Classes ordenáveis
Intervalar - Dados expressos por números cuja origem e unidade de medida são arbitrárias.
Razão - Origem fixa e absoluta. Zero significa ausência total.

Organização dos Dados (Ex: Notas de um teste)


15 12 7 8
Dados Experimentais
8 10 13 13
(Dados Originais)
10 12 12 8
12 15 14 14
14 10 12 13

Distribuição de Frequências

Xi Fi fi Fai fai
X1 F1 f1 = F1 / n F1 f1 Tabela de
X2 F2 f2 = F2 / n F1+ F2 f1+ f2 Frequências
… … … … …
Xk Fk fk = Fk / n n 1

Variável Frequência Frequência Frequência Frequência


Absoluta Relativa Absoluta Relativa
Acumulada Acumulada

2
Sebenta Gestão e Organização de Dados Exame Teórico

Frequência Frequência
Frequência Frequência
Nota Absoluta Relativa
Absoluta Relativa (%)
Acumulada Acumulada (%)
7 1 5 1 5
8 3 15 4 20
10 3 15 7 35
12 5 25 12 60
13 3 15 15 75
14 3 15 18 90
15 2 10 20 100

Representações Gráficas

Dados Qualitativos - Gráficos de barras, gráficos circulares (sectoriais).


Dados Quantitativos Discretos - Gráficos de barras.
Dados Quantitativos Contínuos - Gráfico de barras adjacentes de área proporcional à frequência da classe
correspondente (histograma).

Histograma (ex: idades)

Medidas Descritivas

Medidas Descritivas - Sumariam características importantes das amostras. Categorias:


Localização:
 Central;
 Não Central;
Dispersão (ou Variabilidade);
Forma:
 Assimetria;
 Curtose.

Medidas características de distribuições univariadas:


Localização - Média, mediana, moda, quantis;
Dispersão - Amplitude, variância, desvio padrão, coeficiente de variação;
Forma - Coeficientes de assimetria e curtose;

Medidas de Localização Central

Média Aritmética (ou Média)

Existem outros tipos de médias: Aparada, Harmónica, Quadrática, …

3
Sebenta Gestão e Organização de Dados Exame Teórico

A Média (̅ ) é obtida dividindo a soma de todos os valores numéricos observados pelo nº de observações (n):

1
̅   



Mediana

A Mediana () divide ao meio o conjunto de valores observados (valores ordenados)

Se n par
 
 
    1
2 2
 
2

Se n Ímpar
   
 

Moda

A Moda é o valor mais comum de um conjunto de observações

Moda - Dados não classificados e dados classificados discretos


Classe Modal - Dados classificados quantitativos contínuos

Distribuição unimodal - Moda (ocorre uma vez)


Distribuição multimodal - Moda (várias vezes)

Comparação Entre Média, Mediana e Moda

A posição relativa da média, mediana e moda, numa distribuição de frequências, dá informação sobre a forma da
curva de distribuição.

Distribuição

Simétrica Assimétrica (ou enviesada)

Média = Mediana = Moda Distribuição Simétrica (Distribuição Unimodal)

Média > Mediana > Moda Distribuição Assimétrica Positiva (ou enviesada à direita)

Média < Mediana < Moda Distribuição Assimétrica Negativa (ou enviesada á esquerda)

Média = Mediana = Moda

4
Sebenta Gestão e Organização de Dados Exame Teórico

Média > Mediana > Moda Média < Mediana < Moda

Medidas de Localização Não Central

Quantis (Q):

Percentil (pk)

Os percentis dividem um conjunto de dados, preparados em ordem crescente, em 100 partes iguais.
O valor do percentil de ordem k (k = 1, 2, …, 99) é denotado por pk.
Cerca de k% das observações são menores que pk. 99 Percentis

Decil (dk)

Os decis dividem um conjunto de dados, preparados em ordem crescente, em10 partes iguais.
O valor do decil de ordem k (k = 1, 2, …, 9) é denotado por dk.
Cerca de 10k% das observações são menores que dk. 9 Decis

Quartil (qk)

Os quartis dividem um conjunto de dados, preparados em ordem crescente, em4 partes iguais.
O valor do quartil de ordem k (k = 1, 2, 3) é denotado por qk.
Cerca de 25k% das observações são menores que qk. 3 Quartis

Os quantis estão relacionados entre si (e com amediana). Por ex.:

=p50 = d5 = q2
p10 = d1, p20 = d2, …, p90 = d9
p25 = q1, q50 = q2, p75 = q3

As medidas de localização não dão informação suficiente sobre o conjunto de dados.


Por exemplo:

{14, 15, 18, 18, 25}


{17, 17, 18, 19, 19} =18 ̅ =18 – São dados iguais
{18, 18, 18, 18, 18}

Medidas de Dispersão

Amplitude
Amplitude Total

Amplitude total = Máx. –Mín.


Ex:
{14, 15, 18, 18, 25} 25 – 14 = 11
{17, 17, 18, 19, 19} 19 – 17 = 2
{18, 18, 18, 18, 18} 18 – 18 = 0

5
Sebenta Gestão e Organização de Dados Exame Teórico

Amplitude Interquartil

Amplitude interquartil = q3 – q1 > Engloba 50% das observações totais ( centrais)


Ex:

{14, 15, 18, 18, 25} 18 – 15 = 3


{17, 17, 18, 19, 19} 19 – 17 = 2
{18, 18, 18, 18, 18} 18 – 18 = 0

Variância e Desvio Padrão

O desvio padrão (s) indica a proximidade com que os valores estão agrupados à volta da média.
A média é considerada como referência para avaliar a dispersão.

Variância = (Desvio Padrão)2 = s2

Variância


1
    ̅ 
1


Desvio Padrão

   

* Quanto maior for a dispersão, maior é o desvio padrão.

Coeficiente de Variação

As medidas de variabilidade absoluta dependem das unidades das observações.


Como comparar variabilidades de distribuições de frequência diferentes?

Coeficiente de variação (CV)

Variabilidade relativa

* CV: sem unidades e pode ser expresso em percentagem.


  ,    0
̅
Ex:
Média Desvio Padrão
Peso (kg) 10 3
Volume (dm3) 30 6

Peso: CV = 3/10 = 0,33


Volume: CV = 6/30 = 0,20
A variabilidade do peso é maior.

6
Sebenta Gestão e Organização de Dados Exame Teórico

Medidas de Forma

Medidas de Assimetria
Coeficiente de Assimetria (g1)

Momento de ordem 3 (p=3)



1
    ̅ 



 
 
  1  2 

Desvio Padrão corrigido

esauerdo
g1 < 0 - Assimetria à direita
-

X
assimetria
aireiten
assime tria
negativa g1 > 0 - Assimetria à esquerda
-
-

positi

g1= 0 - Distribuição Normal

Medidas de Curtose(achatamento)
Coeficiente de Curtose (g2)

Momento de ordem 4 (p=4)

   1   1
  3
  1  2    2  3

Desvio Padrão corrigido

Distribuição Normal

g2 < 0 g2 = 0 g2 > 0

7
Sebenta Gestão e Organização de Dados Exame Teórico

Diagrama de Extremos e Quartis

Valores Atípicos (“Outliers”)

“Outliers”:
Moderados (°)
Extremos (*)

Análise Exploratória de Dados

Aluno nº Nota Aluno nº Nota Aluno nº Nota


1 17 11 14 21 18
2 11 12 12 22 10
3 12 13 8 23 11
4 14 14 15 24 6
5 10 15 7 25 16
6 16 16 12 26 8
7 13 17 11 27 9
8 11 18 23 28 12
9 10 19 13 29 11
10 14 20 10 30 14

8
Sebenta Gestão e Organização de Dados Exame Teórico

Aluno nº Nota Aluno nº Nota Aluno nº Nota


1 17 11 14 21 18
2 11 12 12 22 10
3 12 13 8 23 11
4 14 14 15 24 6
5 10 15 7 25 16
6 16 16 12 26 8
7 13 17 11 27 9
8 11 18 23 28 12
9 10 19 13 29 11
10 14 20 10 30 14

9
Sebenta Gestão e Organização de Dados Exame Teórico

Análise Bivariada

Dependência Funcional e Independência

A relação entre duas variáveis pode ser mais ou menos acentuada, podendo chegar à:
Dependência total (dependência funcional) -
wariavais
se as forem

decendentes estão
Independência

,
associadas

Relação Exacta

Análise de Relação Entre Duas Variáveis

As medidas de associação quantificam a intensidade e a direcção da associação entre duas variáveis.


As medidas de associação / coeficientes de correlação não podem ser utilizadas para inferir sobre relações causais.
Objectivo: quantificar (medir) a relação entre duas variáveis.
Cruzamentos e medidas de associação
 Variáveis qualitativas (nominais, ordinais)
Coeficientes de correlação
 Variáveis quantitativas (escalares) / variáveis qualitativas (ordinais)

Cruzamento de Variáveis

As tabelas de dupla entrada (tabelas de contingência) são a técnica básica para examinar a relação entre duas
variáveis categoriais (nominal ou ordinal).

Doença
Sim Não
Exposição
à Doença

Sim A B A+B
Não C D C+D
A+C B+D A+B+C+D

10
Sebenta Gestão e Organização de Dados Exame Teórico

Frequências Observadas (Oij) e Frequências Esperadas (Eij)

V=v Vv V=v Vv


   
U=u E11=   E12=   U=u O11 O12 = R1
    Uu O21 O22 = R2
Uu E21=   E22=  
= C1 = C2 =N
Frequências Esperadas (Eij) Frequências Observadas (Oij)

E11 = (R1 x C1) / N = (21 x 25) / 49 = 10,7 E12 = (R1 x C2) / N = (21 x 24) / 49 = 10,3

TESTE DO QUI
-QUADRADO:
de indlependlemanal os alo is critérios all

Medidas de Associação (para variáveis nominais)


teste

se indepenalentes
:
wariavei
?
classi ficação dds
s
'
Ex
amostras foram
homogeneidade
as
:
- de
relativament
test
homogéneas
waidas populatoes
CoeficientePhi (φ) ao
critário classificação
de
?
ae

Coeficiente V de Cramer Medidas simétricas


Coeficiente de contingência
x

Medidas Direccionais
*
Medidas baseadas na estatística do Qui-quadrado (χ2)

Qui-quadrado (χ2) (Cálculo)


  
 


12  10,7 9  10,3 13  14,3 15  13,7
      0,551
10,7 10,3 14,3 13,7

11
Sebenta Gestão e Organização de Dados Exame Teórico
como avaliar inderanasemia l associação para variaveis qualitativas ( on
oschimais
p

nominais
)
O teste de qui-quadrado mede a discrepância entre a frequência das observações em cada célula e a frequência sã

0
variáweis

Cteste
a perqunta As inale perchern tes tiron ou ñão
wo
responde

:
?
!
esperada para essas células se as linhas e colunas não tiverem relação entre si (forem independentes).
alcisão
estatistico ( al hipóteses ), netodocognd estatistica de apoio a

teste
Coeficiente Phi (φ): Raíz quadrada do rácio da estatística de qui-quadrado pelo número total de observações (N);
(variáveis dicotómicas).




Coeficiente V de Cramer: Reclassificação do valor de phi, onde k é o menor dos valores entre linha e coluna; (0 ≤ V ≤
1).



  1
to
Awaria
entre
,7)
Coeficiente de Contingência: Roma valores entre zero e a raiz quadrada de [(k-1)/k], onde k é omenor valor entre
linha e coluna.


   
 

Correlação
us aualiaçao l aucentificacao entre duas variáveis

Dadas duas variáveis, se a intensidade de uma é acompanhada tendencialmente pela intensidade da outra, no
mesmo sentido, ou sentido inverso, dizemos que as variáveis estão correlacionadas.

Coeficientes de Correlação varia entre F 1. 1 3

Coeficiente de correlação (linear) de Pearson


Mede a intensidade e a direcção de associação, de tipo linear, entre duas variáveis quantitativas.
wariáweis
Coeficiente de correlação de Spearman (ρ) da s mediaa
escaearess
che intemsicende e o senticlo recaçoo monitona e n t re darals

cordinais ou

Medida de associação não paramétrica entre duas variáveis pelo menos ordinais.

Ex: Xi yi xi yi
20 125 33 129
Idade (X) (Anos)
42 147 59 147
Pressão Arterial S. (Y) (mmHg)
72 160 38 115
43 137 70 160
Correlação 36 118 75 162
63 149 28 128
25 117 32 140
Diagrama de Dispersão (Gráfico X-Y) 49 128 37 143
55 150 53 139
57 152 59 147

12
Sebenta Gestão e Organização de Dados Exame Teórico

Covariância (SXY): é uma medida de variabilidade comum de duas variáveis numéricas (quantitativas).

1
      



Propriedades da covariância:
Se SXY > 0, as duas variáveis crescem ou decrescem conjuntamente.
Se SXY < 0, quando uma variável cresce, a outra tem tendência a decrescer.
Se SXY = 0, não há relação linear.

Coeficiente de correlação linear de Pearson (r)


   

(-1 ≤ r ≤ 1)
 

SXY – Covariância
sX – Desvio padrão de X
sY – Desvio padrão de Y

Propriedades do coeficiente de Pearson:


É adimensional.
É invariante para transformações lineares.
Só assume valores entre -1 e 1.
Quando | r | está próximo de 1, afirma-se que há uma relação linear muito forte entre as variáveis.
Quando r ≅ 0, pode afirmar-se que não há relação linear entre as variáveis: variáveis não
correlacionadas.

Coeficiente de correlação de Spearman (ρ):


Medida de associação não paramétrica entre duas variáveis
ordinais (ou escalares).
-1 ≤ ρ ≤ 1;
Alternativa ao coeficiente de correlação de Pearson quando
as características das variáveis quantitativas condicionam a
utilização deste.

13
Sebenta Gestão e Organização de Dados Exame Teórico

Pearson vs. Spearman

Estimação de Parâmetros

Variáveis Aleatórias

Definição

Caracteristicas

Propriedades

Distribuições de Variáveis Aleatórias

Nem sempre os resultados possíveis (espaço amostral) de uma experiência aleatória são valores numéricos.
No entanto, a maior parte das vezes estamos interessados em resultados numéricos.
É possível atribuir um número (real) a cada resultado do espaço amostral.

Função Resultado Número

Uma variável aleatória (v.a.) X é uma função que associa um número real x a cada resultado s do espaço amostral S.

14
Sebenta Gestão e Organização de Dados Exame Teórico

Em função dos valores que a v.a. adquire, esta pode ser classificada em discreta ou contínua:

v.a. discretas: associadas a dados contáveis ou numeráveis


Uma v.a. X é discreta se o conjunto de valores possíveis de X for finito ou infinito numerável

v.a. contínuas: associados a dados medidos


Uma v.a. X é contínua se tomar valores de um intervalo ou de uma colecção de intervalos.

Variáveis Aleatórias Discretas

As v.a. discretas podem ser definidas por qualquer uma das seguintes funções:
Função de probabilidade, f(x)=P(X=x)
Função de distribuição, F(x)=P(X≤x)

Função de Probabilidade - É uma função f que associa a cada valor possível x de X a sua probabilidade f(x) = P(X=x)

Propriedades:
  0
   1

Ex.:
Considerar os casais que têm 3 filhos e a experiência estatística em que se regista o sexo de cada um dos três
filhos, por ordem crescente de idade. Definir uma variável aleatória que descreva o nº de rapazes.

Eventos:
F = {a criança é do sexo feminino}
M= {a criança é do sexo masculino}

S = {FFF, FFM, FMF, FMM, MFF, MFM, MMF, MMM}


f(0) = P(X=0)
f(1) = P(X=1)
v.a. de interesse é: X=número de rapazes entre os 3 filhos do casal f(2) = P(X=2)
f(3) = P(X=3)
X(FFF) = 0
X(MFF) = X(FMF) = X(FFM) = 1
X(FMM) = X(MFM) = X(MMF) = 2
X(MMM) = 3
Valores de f(x)

S FFF FFM FMF FMM MFF MFM MMF MMM


x 0 1 1 2 1 2 2 3

f(0) = P(X=0) = P(FFF) = 1/8


f(1) = P(X=1) = P[{(MFF, FMF, FFM}] = ⅛ + ⅛ + ⅛ = 3/8
f(2) = P(X=2) = P[{(FMM, MFM, MMF}] = ⅛ + ⅛ + ⅛ = 3/8
f(3) = P(X=3) = P(MMM) = 1/8

Representação gráfica de f(x)

15
Sebenta Gestão e Organização de Dados Exame Teórico

Distribuições Discretas

Distribuições de v.a. discretas (ex.):


Bernoulli;
Binomial.

Distribuição de Bernoulli

A distribuição de Bernoulli, Bernoulli (p), é uma distribuição associada a uma sequência de tentativas (processo de
Bernoulli), cada uma com dois resultados possíveis *

Aplicações: ocorrência aleatória de dois resultados possíveis: sucesso ou insucesso.

* Normalmente de natureza qualitativa.

Processo de Bernoulli:
Qualquer experiência estatística com as seguintes propriedades:
Consiste em n tentativas repetidas;
Cada tentativa tem dois resultados possíveis (sucesso ou insucesso);
A probabilidade de sucesso p é a mesma em qualquer tentativa;
As tentativas repetidas são independentes (a probabilidade de sucesso não é afectada pelo possível
conhecimento do resultado obtido em tentativas anteriores).

Função de probabilidade, f(x):

   1   ,   0,1
  
0,  

Probabilidade de sucesso: p
Probabilidade de insucesso: q = 1-p

Propriedades:

E[X] = p Var[X] = p ⋅q

Valor médio Variância

Gama de valores: {0,1}

Exemplos de aplicação:
O sexo de umindivíduo (M ou F);
O estudo da incidência de uma certa doença numa população. X pode indicar se a doença está
presente (X=1) ou ausente (X=0), num indivíduo da população (seleccionado ao acaso);
O factor Rh sanguíneo (positivo ou negativo).

Ex:
Considerar o lançamento aleatório de um dado cinco vezes e a ocorrência de um número superior a 2 em cada
lançamento.
a) Definir e determinar a probabilidade de sucesso em cada lançamento.
b) Verificar se se está em presença de um processo de Bernoulli.

16
Sebenta Gestão e Organização de Dados Exame Teórico

a) O lançamento é bem sucedido se sair um número superior a 2. A probabilidade de sucesso é p = 2/3.


b) Processo de Bernoulli ? (Certo)
Consiste em 5 tentativas (lançamentos) repetidas.
Cada tentativa tem dois resultados possíveis (sucesso ou insucesso).
A probabilidade de sucesso (p = 2/3) é a mesma em qualquer tentativa.
A probabilidade de sucesso não é afectada pelo conhecimento do resultado obtido em lançamentos
anteriores (tentativas repetidas independentes).

Distribuição Binomial

A distribuição Binomial, Bin (n,p), é uma generalização da distribuição de Bernoulli, para o caso de n tentativas
independentes.
Aplicações: em amostragem e em situações em que o tamanho da amostra é conhecido e em que se sabe quantas
vezes é que um acontecimento ocorreu.
A distribuição Bin(n,p) está para as distribuições discretas assim como a distribuição normal está para as
distribuições contínuas.
X = número de sucessos em n experiências de Bernoulli (todas independentes), com n fixo à partida e p a
probabilidade de sucesso em cada experiência.

f(x)= P(X=x) = nCx px (1-p)n-x, x=0,1,2,…,n

Função de Probabilidade, f(x):


    1   ,   0,1,2, … , 
   
0,   0,1,2, … , 

 !
 
 !   !

Propriedades:

E[X] = n⋅ p Var[X] = n⋅ p(1− p)

Valor Médio Variância

Gama de valores: {0,1,2,…,n}

17
Sebenta Gestão e Organização de Dados Exame Teórico

Exemplos de aplicação:
O nº de pessoas com factor Rh positivo num conjunto de 10 indivíduos;
O nº de raparigas no conjunto de 5 filhos de um casal;
O nº de alunos de Gestão e Organização de Dados que vão concluir a UC, com sucesso, este ano.

A soma de duas variáveis Binomiais independentes e com o mesmo parâmetro p, é ainda uma variável Binomial com
parâmetros n igual à soma dos respectivos parâmetros n1 e n2 e p.

Ex.:
X representa o número de rapazes no conjunto de 6 filhos de um casal e Y o número de rapazes no conjunto
de 5 filhos de outro casal. Nos dois conjuntos o número de rapazes tem distribuição Binomial de parâmetros n=11 e
p = probabilidade de um filho ser rapaz.

Variáveis Aleatórias Contínuas

As v.a. contínuas podem ser definidas por qualquer uma das seguintes funções:
Função densidade de probabilidade, f(x)
Função de distribuição, F(x)=P(X≤x)

* f(x) não representa P(X=x). Numa v.a. contínua P(X=x)=0 para todo o x.
** F(x) representa a probabilidade acumulada até x.

Função densidade de probabilidade

O gráfico da f.d.p. (ou curva da densidade) é um gráfico que traduz a distribuição de probabilidade
de uma v.a. contínua.
Todos os pontos sob a curva têm de ter uma ordenada maior ou igual a zero.
A área total sob a curva tem de ser unitária.
As probabilidades obtêm-se a partir de áreas sob partes da curva.

Ex:

18
Sebenta Gestão e Organização de Dados Exame Teórico

Cálculo de probabilidades para v.a. contínuas:


P(X ≤ a) = F(a)
P(a ≤ X ≤ b) = F(b) – F(a)
P(X > a) = 1 – F(a)
P(X = a) = 0, para todo o valor de a.

Distribuições Contínuas

Distribuições de v.a. contínuas (ex.):


Normal (ou de Gauss);
Qui-Quadrado (χ2);
t de Student;
F de Snedecor;

Distribuição Normal

A distribuição Normal ou de Gauss, é a distribuição contínua mais importante.


Utiliza-se a distribuição Normal, N(μ,σ2), como um modelo para representar características de populações que
tenham a ver com medições ou respectivos erros (por ex. peso ou altura), ou quantidades que sejam a soma de um
grande nº de outras quantidades.

A importância da distribuição Normal:


1. É um modelo adequado para representar muitos dos fenómenos do mundo real.
2. É muito utilizada em Inferência Estatística.
3. Muitas técnicas desenvolvidas em Estatística são exactas no caso de distribuições normais.
4. Algumas v.a. (como por ex. a Binomial e a Poisson) podem ser aproximadas por uma v.a. Normal.

Propriedades:

E[X] = μ Var[X] =σ2

Valor Médio Variância


Parâmetro de Localização Parâmetro de Escala

Gama de valores: [−∞, +∞[

Características da f.d.p. Normal:

1. Tem a forma de sino e um único


máximo para x = μ.
2. É simétrica relativamente a um eixo
vertical que passa por x = μ (média).
3. A mediana (valor que divide a curva
normal em duas partes de área igual) e a
moda ocorrem para x = μ.
4. Tem pontos de inflexão para x = μ ± σ.
5. A área total entre a f.d.p. e o eixo dos xx
é 1.

19
Sebenta Gestão e Organização de Dados Exame Teórico

Aproximadamente 68% da população difere da média menos de 1 desvio padrão:

P(μ − σ < X < μ + σ) ≈ 0,68

Aproximadamente 95% da população difere da média menos de 2 desvios padrões:

P(μ − 2σ < X < μ + 2σ) ≈ 0,95

Aproximadamente 99,7% da população difere da média menos de 3 desvios padrões:

P(μ − 3σ < X < μ + 3σ) ≈ 0,997

Cálculo de probabilidades da Distribuição Normal - Normalização

Gvaria
A distribuição N(μ=0, σ2=1) é designada por distribuição normal estandardizada *


 
Variável Aleatória Z
~  0,    1

*Ou Distribuição Normal Padrão

O cálculo de probabilidades com a v.a. X, para qualquer média ou variância, pode ser reduzido ao cálculo com a v.a.
Z:

 
         
 

A soma de variáveis aleatórias normais é ainda Normal com média igual à soma das médias (se as variáveis forem
independentes a variância é igual à soma das variâncias).

Em particular a média  de n variáveis normais independentes e com a mesma distribuição é ainda Normal:


~ , 
√

Lei dos Grandes Números

A média de um conjunto de n variáveis aleatórias independentes e identicamente distribuídas, com média μ e desvio
padrão σ, converge para μ à medida que n aumenta.
A frequência relativa de um certo acontecimento de interesse num conjunto de n experiências independentes,
converge para a probabilidade do acontecimento à medida que n aumenta.

20
Sebenta Gestão e Organização de Dados Exame Teórico

Teorema do Limite Central

O TLC permite dizer que a média de um conjunto de variáveis aleatórias com uma qualquer distribuição é
aproximadamente Normal (cada vez mais Normal à medida que o nº de variáveis aumenta):

~ 
~ ⟹ . , 
√

Se tivermos n variáveis aleatórias X1,X2…,Xn independentes e com a mesma distribuição de média μ e variância
σ2,então quando n cresce para infinito:

   
 0,1
/√

Aproximações Baseadas no TLC

É possível efectuar cálculos de probabilidades aproximadas com base no TLC.

Por ex.:
Probabilidades associadas a distribuições Binomiais e a distribuições de Poisson
Aproximação Binomial - Normal

Aproximação Binomial – Normal

Probabilidades associadas a uma distribuição Binomial, Bin(n,p), podem ser aproximadas utilizando uma distribuição
Normal, N(μ,σ2), com μ=n∙p e σ2 = n∙p(1−p).

Para que a aproximação seja boa, devemos ter um valor de n grande. Ou seja, um valor tal que: n∙p ≥ 5 e n∙(1−p) ≥ 5.

Quando se utiliza a distribuição Normal (que é uma distribuição contínua) para aproximar a distribuição Binomial
(que é uma distribuição discreta), efectua-se uma correcção de continuidade ao valor discreto x na distribuição
Binomial representando o valor x pelo intervalo de x – 0,5 a x + 0,5.

Distribuição Qui-Quadrado

A distribuição χ2(k), proporciona elementos necessários para efectuar inferências sobre a variância de uma
população a partir de uma amostra.
* k (ou ν) –> nº de graus de liberdade (nº inteiro positivo)

21
Sebenta Gestão e Organização de Dados Exame Teórico

A distribuição χ2(k) aproxima-se da Normal quando k aumenta.

Propriedades:

E[X] = k Var[X] =σ2 = 2k

Valor Médio Variância


Parâmetro de Forma

Gama de valores: [0, +∞[

Distribuição t de Student

A importância da distribuição t de Student:


A distribuição T(k), proporciona elementos necessários para efectuar inferências sobre a média de uma população a
partir de uma amostra.
* k (ou ν) –> nº de graus de liberdade (nº inteiro positivo)

A distribuição T(k) aproxima-se da Normal quando k aumenta.

Distribuição F de Snedecor, com (d1,d2) graus de liberdade:

1 
 
   
 ,  
1  
  


Estimação de Parâmetros

Inferência Estatística

Amostragem
Da amostra à população:
Selecção da(s) amostra(s))

Intervalos de Confiança Testes de Hipóteses

Estimar parâmetros
desconhecidos da população Determinar se as diferenças
(parâmetros populacionais) a entre duas amostras se devem
partir das correspondentes ao acaso ou se são na
quantidades amostrais realidade significativas
(Estatísticas amostrais).

22
Sebenta Gestão e Organização de Dados Exame Teórico

Amostragem e Métodos de
Inferência Amostragem

Distribuições Estimação e
Amostrais Estimadores

Amostragem e Inferência

Vantagens de estudar uma população a partir das suas


amostras:
Custos mais reduzidos
Maior rapidez
Maior flexibilidade
(Ensaios destrutivos)…

Amostras não representativas:

Amostras inadequadas - Generalização (intencional) e abusiva do que foi observado numa amostra muito diminuta
para uma população de dimensão considerável. Ex.: “9 em cada 10 atletas preferem a bebida energética x…”.

Amostras auto-seleccionadas - Ex.: apresentar uma questão e solicitar os espectadores que telefonem para um
número se a sua opinião é "sim" e para outro número se a sua opinião é "não".

Estatística Inferencial - Efectuar inferências sobre uma população a partir de uma amostra dela extraída.
Escolha da amostra (amostragem)
Extrapolação das conclusões obtidas sobre a amostra ao resto da população (inferência)
Tipos (e métodos) de amostragem

23
Sebenta Gestão e Organização de Dados Exame Teórico

Amostragem

Amostragem aleatória (ou casual) – é possível calcular, a priori, a probabilidade de observar cada indivíduo da
população na amostra.

Amostragem determinística (ou dirigida) – opinião e experiência pessoal são utilizadas para identificar os elementos
a incluir na amostra. Não é possível calcular a probabilidade de cada indivíduo figurar na amostra.

Amostragem aleatória;
Amostragem sistemática;
Amostragem estratificada;
Amostragem por conglomerados (clusters), …

Reduzir custos, aumentar a precisão,…

Amostragem aleatória simples:

Cada elemento da amostra é retirado aleatoriamente de toda a população (com ou sem reposição). Assim, cada
possível amostra tem a mesma probabilidade de ser recolhida.

Amostragem aleatória simples


Com reposição
Sem reposição

24
Sebenta Gestão e Organização de Dados Exame Teórico

Distribuições Amostrais

Se considerarmos todas as possíveis amostras de tamanho n que podem ser extraídas de uma dada população:

Para cada amostra podem calcular-se estatísticas (por ex. média e desvio padrão) que variam de amostra para
amostra.
A distribuição dessa estatística é designada por distribuição amostral.

Por ex.: distribuição amostral de médias (ou da média)

Tipos de Distribuições Amostrais:


Distribuição amostral da média;
Outras distribuições amostrais (Proporção, variância, desvio padrão, diferenças e somas de
estatísticas, …);
Erro padrão – Desvio padrão de uma distribuição amostral.

Distribuição amostral da média

Se se retirarem amostras de dimensão n de uma população qualquer, com média μ e variância σ2, por um processo
de amostragem simples, a distribuição amostral da média, aproxima-se de uma distribuição normal com média μ e
variância σ2/N, à medida que n aumenta.

Na prática, a distribuição amostral da média pode serconsiderada como normal se n ≥ 30.

obter carm valor p ard

Estimadores expresseto mathomáticas alvee

estatistico
Rermitt

cpopulacionae a partir ale wra

um parcemetro
)
estatistican armcstral

Estimação Paramétrica

Estimação dos parâmetros populacionais (parâmetros) a partir das correspondentes estatísticas amostrais.

Estimador de um parâmetro: qualquer v.a. que se expresse em função da amostra aleatória e que tenha por
objectivo aproximar o valor de um parâmetro.

Estimativa: valor numérico que o estimador assume.

Estimadores Não-enviesados e Enviesados

Se o valor médio (ou valor esperado) de uma estatística for igual ao correspondente parâmetro, então a estatística é
um estimador não-enviesado do parâmetro, caso contrário é um estimador enviesado.

Enviesamento amostral (ou excentricidade): é a diferença entre o valor esperado do estimador e o verdadeiro valor
do parâmetro a estimar.

O enviesamento amostral pode ter várias causas:


Técnica de amostragem inadequada (por ex., não aleatória)
Execução prática do processo de amostragem incorrecta ou incompleta.
Registo da população (de onde será retirada a amostra) inadequado para o estudo.
Estimador - que, dependendo das propriedades estatísticas que possua, pode ser um bom ou mau
estimador.

25
Sebenta Gestão e Organização de Dados Exame Teórico

Estimadores Eficientes e Ineficientes

Se as distribuições amostrais de duas estatísticas têm a mesma média (ou valor esperado), então a estatística com
menor variância é um estimador eficiente do parâmetro, enquanto que a outra estatística é um estimador
ineficiente.

Estimador mais eficiente = melhor estimador.

Estimação Pontual e Intervalar

Estimação pontual: estimativa de um parâmetro dada por um único valor.

Estimação intervalar: estimativa de um parâmetro dada por dois valores entre os quais se supõe que o parâmetro
esteja, com um certo nível de confiança.

Para seleccionar um (bom) estimador tem-se, em geral, em consideração as seguintes características:


Consistência (ou coerência): se à medida que a dimensão da amostra aumenta, o estimador deve
aproximar-se cada vez mais do parâmetro a ser estimado.
Não enviesamento (ou ausência de tendenciosidade): se em infinitas amostras, o estimador não
sobrestima ou subestima o parâmetro.
Eficiência relativa: se o estimador é menos sujeito a flutuações de amostra para amostra do que
outros estimadores.

Intervalos de Confiança

Níveis de Confiança, Limites de Confiança e Valores Críticos

Ex.: os números E−2σE e E+2σE, são os limites de confiança a 95,45%

Estatística E (por ex. µε)

NC (%) 99,73 99 95,45 95 68,47


Zc 3,00 2,58 2,00 1,96 1,00

Valores Críticos Nível de Significância, α=1- NC / 100


Níveis de Confiança

Distribuição Normal

26
Sebenta Gestão e Organização de Dados Exame Teórico

Intervalos de confiança para


parâmetros populacionais

Média Variância Proporção

Intervalo de Confiança para a Média

Aplicação: estimar intervalos que contenham a média de uma população quando dispomos de uma amostra da
variável.

̂
  ̅  ;/ 
√

Precisão, d


̂  

Quase-desvio padrão amostral (estimador não-enviesado do desvio padrão)

Exemplo:

Estudo da altura dos indivíduos de uma cidade. Obteve-se uma amostra (n=25) com os seguintes valores x = 170 cm,
s = 10 cm. Calcular um intervalo de confiança com α = 0,05, para a média da altura dos indivíduos da cidade.


;,/  ;,  2,064 ̂  10    10,206

10,206
  170  2,064   170  4,21
5

  170  4,21

Com um nível de confiança de 95% podemos afirmar que a média populacional está no seguinte intervalo:

Intervalo de Confiança para a Variância

Aplicação: calcular um intervalo de confiança para σ2 quando só se dispõe de uma amostra.

27
Sebenta Gestão e Organização de Dados Exame Teórico

  1   1
 ∈  ,  
   
; ;
 


    

Quase-variância amostral (estimador não-enviesado da variância)

Exemplo:
Estudo da altura dos indivíduos de uma cidade. Obteve-se uma amostra (n=25) com os seguintes valores x
= 170 cm, s = 10 cm. Calcular um intervalo de confiança com α = 0,05, para a variância da altura dos indivíduos da
cidade.

σ2 ∈[63,45; 201,60]⇒ 7,96 ≤σ ≤14,199


Com um nível de confiança de 95%

Intervalo de Confiança para a Proporção


estimar mal população
r
Aplicação: determinar, para uma variável dicotómica, a proporção de casos (p) em que ocorre sucesso.

̂ 
  ̂  / 

Com um nível de confiança de 1-α

Exemplo:
Estimar o resultado de um referendo a partir de uma sondagem (considerando uma amostra aleatória de
100 pessoas obtém-se um resultado de votação de 35% a favor e 65% contra). Com um nível de significância de 5%
calcular um intervalo de confiança para o verdadeiro resultado do referendo.

35
  0,05 ̂   0,35 ⟹   0,65
100

0,35  0,65
  0,35  ,   0,35  0,0935
100
Com um nível de confiança de 95%

Intervalos de confiança para a diferença


de parâmetros

Médias Proporções

28
Sebenta Gestão e Organização de Dados Exame Teórico

Intervalo de Confiança para a Diferença de Médias

Aplicação: cálculo do intervalo de confiança para a diferença das médias de duas populações, onde cada uma segue
a sua própria lei de distribuição normal.

Caso geral: quando existe diferença notável na dispersão de ambas as variáveis

 
   ∈ 
  

  ;/ 
  
 

   

Caso particular: ambas as variáveis têm dispersão semelhante

1 1
   ∈ 
  
 
    ;/    
 

   

;/








   
 
   2
1 


1 

  1      1  

  1    1


̂ 
    2

Exemplo:

Estudo da influência que pode exercer o tabaco no peso das crianças ao nascer. Consideraram-se dois
grupos de mulheres grávidas (um de fumadoras e outro de não-fumadoras) e obtiveram-se os seguintes dados sobre
o peso (x) dos filhos recém-nascidos:

Mães não-fumadoras   35, ̅  3,6  ̂  0,5 

Mães fumadoras   27, ̅  3,2  ̂  0,8 

Ser mãe fumadora tem influência sobre o peso do filho ao nascer?

μ1 –μ2 = 0,4 ±0,3316

0,068 kg ≤ μ1 –μ2 ≤ 0,731 kg

NF F

29
Sebenta Gestão e Organização de Dados Exame Teórico

Existe diferença (significativa) entre as médias dos pesos, ao nascer, dos filhos de mães não-fumadoras e fumadoras.

Com um nível de confiança de 95%

Existe diferença entre as médias dos pesos ao nascer dos filhos de mães pesos, nascer, não-fumadoras e fumadoras,
para um nível de confiança de 95 %

Intervalo de Confiança para a Diferença de Proporções

Testes de Hipóteses

Testes de Hipóteses - métodos (regras de decisão) que nos levam a determinar se os resultados observados diferem
ou não significativamente dos resultados esperados, e nos ajudam a decidir a aceitar ou a rejeitar hipóteses.

O contributo dos métodos estatísticos é um auxílio poderoso na decisão, mas não deve ser o único elemento para
decidir – a Estatística não é exacta!!

Formular as Hipóteses Escolher a Estatística


Tomar uma decisão
Estatísticas de Teste

Hipóteses Estatísticas

Face a uma determinada situação formulam-se duas hipóteses estatísticas (por ex., sobre determinados parâmetros
populacionais):
sao incependentes
Hipótese nula (designada por H0) - as variciveris

Hipótese alternativa (designada por H1) n


as variaweris rnalo sano imcle Rendlentes

Cestaio associadas
)
A hipótese nula (H0) é aquela que é submetida a teste.
A hipótese nula normalmente corresponde à ausência de diferença nas características ou nos resultados de interesse
ou efeito nulo.
Qualquer hipótese distinta de uma dada hipótese nula designa-se hipótese alternativa (H1).

30
Sebenta Gestão e Organização de Dados Exame Teórico

Tomar uma Decisão

Minimizar e controlar o
risco de erro

Erros

Decisão
Rejeitar H0 Não Rejeitar H0
H0 Verdadeira Erro de tipo I (Prob. α) √
H0 Falsa √ Erro de tipo II (Prob. Β)

α – Nível de significância

Nível de Significância (α)

Probabilidade de cometer um erro de tipo I, i.e., rejeitar a hipótese nula quando ela é verdadeira.

Os níveis de significância mais usuais são α = 0,01 (1%) e α = 0,05 (5%).

Nível de significância - Máximo valor da probabilidade que estamos dispostos a aceitar para o erro do tipo I (α é
geralmente especificada antes de qualquer amostragem)

(α=0,05 => 95% de confiança de ter tomado a decisão correcta…)

Potência de Teste (1-β):

Probabilidade de rejeitar a hipótese nula quando a hipótese alternativa é verdadeira (para uma dada hipótese
alternativa). JESTE BILATERAL
:
zo m a de rejeisono de
Ho

Há um teste ideal ?
unsereNMNtiß Mutulanen
Se nível de significância = 0 e potência = 1… o o

WI TESTE
ONILATERAL
ESQVERBA
:
Ä

valores críticos

31
Sebenta Gestão e Organização de Dados Exame Teórico

Escolher a estatística
Calcular o valor Decidir se a hipótese
de teste, apropriada
observado da nula é ou não
Estabelecer as para o parâmetro em
estatística de teste rejeitada, tendo em
hipóteses nula (H0) e estudo, que tem uma
tendo em conta uma conta um
alternativa distribuição de
amostra aleatória determinado nível de
probabilidade significância
particular
conhecida

Significância estatística
significancia estatistica (
mou
sig.)
O valor de p (p-value):
É uma medida da obtenção do resultado observado, se a hipótese nula for, efectivamente,
verdadeira.
Mede a probabilidade do resultado observado ser devido ao acaso.
É baseado na distância a que uma estatística amostral está do valor especificado pela hipótese nula.
estatisticamente

Resultado Significativamente Significativo…


-

É improvável que o resultado observado se deva ao acaso;


O resultado observado não é compatível com a hipótese nula;
A variação amostral não é suficiente para explicar o resultado observado;
A hipótese nula pode ser rejeitada;
A hipótese alternativa pode ser aceite;
Aceitando a hipótese nula, a probabilidade de o resultado ser falso é baixa (p. ex. inferior a 5%, p <
0,05).

DO QUI
-QUADRADO:
TESTE
- as variáveis saio inalependentes
p
3 0,0 5

Lacerita Ho
-se
)
raso sate indepensientes
as variaveis
p C
0.05-
( Ho
reserita-se
)
32
Sebenta Gestão e Organização de Dados Exame Teórico

•O valor extremo para p, com o qual se pode


Nível de Significância considerar um resultado como sendo
estatisticamente significativo (por. ex. p < 0,05).

•O valor amostral do parâmetro cuja distribuição


Estatística do Teste amostral é conhecida se a hipótese nula for
verdadeira.

•O valor mínimo (ou máximo) que a estatística do


Valores Críticos teste deve atingir, para que seja possível considerar
como estatisticamente significativo um resultado.

•Incidem sobre parâmetros de uma ou mais


populações (ex., valor médio, variância,...)
Testes Paramétricos •Pressupõem uma forma particular para as
distribuições das variáveis envolvidas
(frequentemente a distribuição Normal)

•Não exigem pressupostos tão rígidos como os


paramétricos
•São aplicáveis independentemente da forma da
Testes Não-Paramétricos distribuição
•Regra geral, substituem as observações pela sua
ordem

Qual o parâmetro
que se está a
analisar /
comparar?

Como é que os Que tipo de


Teste(s) de
grupos são análise a
Hipóteses
formados? implementar?

Quantos grupos a
comparar?

33
Sebenta Gestão e Organização de Dados Exame Teórico

Testes Paramétricos

Para uma
amostra

Testes t-Student
(Comparação de Médias
Populacionais)

Para duas Para duas


amostras amostras
independentes emparelhadas

Testes T-Student

One-Sample T Test - Comparar a média de uma variável com um valor de referência. Permite:
 Testar a diferença entre uma média deuma amostra com um valor de referência;
 Permite especificar o nível de confiança da diferença;
 Produz uma tabela com as estatísticas descritivas para cada variável testada.
Independent-Samples T Test - Comparar duas médias de amostras independentes:
 Compara a média de dois grupos de casos. Preferencialmente, para este teste, os sujeitos
devem ser seleccionados aleatoriamente para os dois grupos de forma a que as diferenças se
devam exclusivamente ao tratamento e não a outros factores. Uma pessoa não é classificada de
homem ou mulher aleatoriamente. Não é o caso, por exemplo se compararmos a média de
rendimento entre homens e mulheres.
 Exemplo. Num estudo sobre tensão arterial sanguínea elevada, os pacientes foram
escolhidos aleatoriamente para o grupo placebo e para o grupo tratamento. O grupo de placebo
recebia um comprimido inactivo e os sujeitos a tratamento recebiam um novo medicamento.
Após 2 meses de tratamento comparou-se os níveis de tensão média entre os dois grupos.
 Estatísticas para cada variável : é determinado a média, dimensão amostral, desvio padrão e
erro padrão da média.
 Estatísticas para a diferença das médias: média, erro padrão, intervalo de confiança para a
diferença das médias,
 Testes: teste de Levene para igualdade de variâncias, e ambos os testes t para igualdade de
médias assumindo variâncias idênticas e assumindo variâncias diferentes.
 A determinação dos grupos num t-teste para duas amostras independentes (t-teste 2i)
normalmente é efectuada pela concepção do desenho da investigação sendo atribuído um
número a cada grupo. No entanto os grupos podem ser determinados pela divisão de uma
variável em que é definido um ponto de corte para definir os grupos.
Paired Samples T Test - Comparar duas médias de amostras emparelhadas:
 Compara a média de duas variáveis para um mesmo grupo. Regista a diferença de valores
das duas variáveis para cada caso e testa se a média da diferença é Zero;
 Exemplo. Num estudo sobre a pressão arterial sanguínea, todos os pacientes foram medidos
no inicio do estudo e após tratamento. Assim cada sujeito tem dois valores também chamados
valor pré e pós tratamento. Um desenho experimental alternativo seria comparar os valores dos

34
Sebenta Gestão e Organização de Dados Exame Teórico

pacientes com um grupo de controlo em que o emparelhamento seria feito por outra variável
(por exemplo idade de 75 anos);
 Estatísticas para cada variável: é determinado a média, Dimensão amostral, desvio padrão e
erro padrão da média;
 Estatísticas para cada par de variáveis: correlação, diferença das médias, valor da estatística
t, intervalo de confiança para a diferença das médias, desvio padrão e erro padrão da diferença
de médias.
 Dados: para as duas variáveis os dados têm de ser escalares (nível de medida deve ser
intervalar ou de rácio). Para o estudo de caso-controlo, a resposta para cada sujeito do par deve
ser considerado como o mesmo caso no ficheiro de dados.
 Pressupostos: as observações para cada par devem ser feitas nas mesmas condições. A
média das diferenças deve ser normalmente distribuídas. As variâncias de cada variável podem
ser iguais ou diferentes.

Exemplo

Pesos (em kg) de dois grupos de indivíduos (do sexo masculino) de nacionalidades diferentes (ingleses e japoneses):

Ingleses: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Japoneses: 58; 59; 61; 63; 71; 53; 54; 72; 61; 57

Existem diferenças estatisticamente significativas entre as médias dos dois grupos ?

35
Sebenta Gestão e Organização de Dados Exame Teórico

Exemplo

Existem diferenças estatisticamente significativas entre as média do peso dos indivíduos ingleses e um valor de
referência de 75 Kg ?

36
Sebenta Gestão e Organização de Dados Exame Teórico

Exemplo:

Pesos (em kg) de um grupo de indivíduos (do sexo masculino) antes e depois de um programa de emagrecimento:

Antes: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Depois: 78; 76; 78; 66; 76; 82; 76; 89; 87; 61

Existem diferenças estatisticamente significativas entre as médias dos dois grupos ?

H0 = As médias populacionais são iguais


H1= As médias populacionais são diferentes

Teste de Análise de Variância (ANOVA)

Introdução

Comparação de médias de mais do que duas populações, de onde foram extraídas amostras aleatórias
(independentes)?

ANOVA- ANalysis Of VAriance

A ANOVA é um teste paramétrico (generalização do teste t-Student)

Pressupostos: aplicável se a distribuição da variável em estudo for Normal e se as variâncias populacionais forem
homogéneas.

Porquê não utilizar o teste t-Student para comparar mais do que duas populações, duas a duas? O teste t-Student só
é válido para comparar médias de duas (e apenas duas) populações das quais foram extraídas duas amostras
aleatórias.

Teste t (duas pop.): Prob. Erro Tipo I = α x 100%


Teste t (k pop., duas a duas): Prob. Erro Tipo I ≈ 1 – (1 – α)k x 100%

Comparação de médias de 2 grupos: (α = 0,05)


Teste t-Student - H0: μ1 = μ2 [Erro Tipo I = 1 – 0,95 = 0,05 ou 5%]
Mais de 2 grupos:
Ex: H0: μ1 = μ2 = μ3
(1) H0: μ1=μ2 (2) H0: μ1=μ3 (3) H0: μ2=μ3
[Erro Tipo I = 1 – (0,95)3 = 0,14 ou 14%]

37
Sebenta Gestão e Organização de Dados Exame Teórico

(4 grupos: Erro Tipo I = 0,26 ou 26%)

Comparação de médias de mais de 2 grupos


ANOVA: H0: μ1 = μ2 = μ3 = ... = μk

Porquê utilizar a análise de variância quando pretendemos testar a igualdade de médias? A ANOVA compara a
variância dentro de amostras ou grupos com a variância entre as amostras ou grupos.

Variância dentro dos grupos = variância residual ou dos erros


Variância entre os grupos = variância do factor

Se a variância residual (aquela associada aos erros de medida ou outros) for significativamente inferior à variância
entre os grupos, então as médias populacionais estimadas a partir das amostras são significativamente diferentes.

Tipos de ANOVA:
ANOVA a um factor (one-way) (se existir apenas um factor em estudo, i.e., uma variável
independente);
ANOVA factorial (se existir mais do que um factor, i.e., mais do que uma variável independente)
(Inclui o caso mais simples: ANOVA a dois factores (two-way)).

Nível do factor - cada uma das classes ou observações da variável independente.

Tratamentos - combinações dos níveis dos factores.

Na ANOVA a um factor os níveis são iguais aos tratamentos…

Tipos de ANOVA (quanto aos efeitos):


ANOVA Tipo I (de efeitos fixos) - (níveis do(s) factor(es) fixados à partida pelo investigador)
ANOVA Tipo II (de efeitos aleatórios) - (níveis do(s) factor(es) não fixado(s) à partida, i.e., se aleatórios)
ANOVA Tipo III (de efeitos mistos) - (ANOVA a mais do que um factor em que um dos factores é(são)fixo(s) e o(s)
outro(s) é(são) aleatórios)

ANOVA a um factor (one-way)

O procedimento ANOVA a um factor produz uma análise da variância para uma variável quantitativa
dependente, em função de uma variável independente – o factor.
A análise de variância é utilizada para testar a hipótese de um conjunto de médias serem iguais. Esta
técnica é a generalização do teste t para duas amostras independentes.
Para além de pretender determinar as diferenças entre as médias, poderá querer saber quais as
médias que diferem.
Há dois tipos de testes para comparar as médias: o teste a priori dos contrastes e os testes post-hoc.
Os Contrastes são testes aplicados antes da experiência e os testes post hoc são aplicados após a
experiência ter sido conduzida. Poderá também verificar as diferenças nas categorias.
Estatisticas:
 Para cada grupo: número de casos, média, desvio padrão, erro padrão da média,
mínimo, máximo, e intervalo de confiança da média a 95%;
 Teste de homogeneidade da variância de Levene, tabela da análise de variância e
testes de robustez de igualdade de médias para cada variável dependente;
 Teste a priori dos contrastes e testes post hoc de múltiplas comparações,
nomeadamente os testes : Bonferroni, Sidak, Tukey's , Hochberg's GT2, Gabriel, Dunnett,
Ryan-Einot-Gabriel-Welsch F teste (R-E-G-W F), Ryan-Einot-Gabriel-Welsch teste (R-E-G-W
Q), Tamhane's T2, Dunnett's T3, Games-Howell, Dunnett's C, Duncan's , Student-Newman-
Keuls (S-N-K), Tukey's b, Waller-Duncan, Scheffé, e teste das diferenças significativas.

38
Sebenta Gestão e Organização de Dados Exame Teórico

Dados:
 A variável Factor tem valores inteiros, e a variável dependente deverá ser
quantitativa escalar.
Pressupostos:
 Cada grupo é uma amostra aleatória independente com distribuição normal ou
gaussiana.
 A análise de variância é robusta para valores com distribuição normal, ou pelo menos
para dados com distribuição simétrica.
 Os grupos deverão ser provenientes de populações com variâncias idênticas. Para
testar este pressuposto utilize o teste de homogeneidade de variância.

Modelo Teórico:

           

Estimativas Amostrais:

           

Exemplo:

Pesos (em kg) de três grupos de indivíduos (do sexo masculino) de nacionalidades diferentes (ingleses, mexicanos e
japoneses):

Ingleses: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Mexicanos: 65; 84; 63; 54; 86; 62; 73; 64; 69; 81
Japoneses: 58; 59; 61; 63; 71; 53; 54; 72; 61; 57

Existem diferenças estatisticamente significativas entre as médias dos três grupos?

39
Sebenta Gestão e Organização de Dados Exame Teórico

Comparação Múltipla de Médias

40
Sebenta Gestão e Organização de Dados Exame Teórico

ANOVA factorial

ANOVA a um factor (one-way) (uma variável independente, uma variável dependente)

Como analisar os efeitos de duas ou mais variáveis independentes sobre uma variável dependente?

ANOVA factorial

ANOVA 2 x 2 (informação sobre quantas variáveis independentes foram utilizadas e quantas condições existem em
cada uma)

Ex:
2 x 2 ANOVA - Duas variáveis independentes, cada uma com duas condições;
3 x 4 ANOVA - Duas variáveis independentes, uma com três e outra com quatro condições;
3 x 2 x 2 ANOVA - Três variáveis independentes, duas com duas e uma com três condições.

Exemplo:

Estudo do efeito do álcool e da cafeína sobre a capacidade de condução.

1, 2 : Efeitos principais 3 : Interacção

Previsões:
1. Altos níveis de álcool diminuem a capacidade de condução.
2. Altos níveis de cafeína podem melhorar a capacidade de condução devido ao efeito estimulante.
3. Devido à premissa enraizada de que a cafeína auxilia um indivíduo a manter-se alerta, podemos prever que um
aumento do nível de cafeína reduz a influência do álcool na capacidade de condução.

A ANOVA permite testar as três previsões numa única análise

Variáveis independentes (2): nível de álcool, nível de cafeína


Variáveis dependentes (1): capacidade de condução (nº de erros)

Efeitos principais: efeito global de cada uma das variáveis independentes sobre a variável dependente.
Interacção, entre as duas variáveis independentes.

Como efectuar o delineamento/design experimental de um projecto ANOVA para este estudo?

41
Sebenta Gestão e Organização de Dados Exame Teórico

Delineamento - alocação de participantes às condições:


(duas variáveis independentes com duas condições/níveis)
Álcool: sem álcool e alto nível de álcool
Cafeína: sem cafeína e alto nível de cafeína

ANOVA 2 x 2

Design experimental nº 1: Design experimental nº 2:

Design experimental nº 3:

Ex. (delineamento nº 1): Duas variáveis independentes entre participantes


Análise exploratória de dados (IC de 95%, ntotal = 48 = 4 x 12):

Sem álcool Com álcool


MD: 7,00; DP: 1,71 MD: 21,25; DP: 1,91
Sem cafeína
IC : 5,92 – 8,08 IC : 20,03 – 22,47
MD: 6,33; DP: 1,50 MD: 11,08; DP: 1,73
Com cafeína
IC : 5,38 – 7,28 IC : 9,98 – 12,18

Homogeneidade de variâncias √
Dados normalmente distribuídos √

42
Sebenta Gestão e Organização de Dados Exame Teórico

Dimensão do efeito (η2 parcial)

Testes Não Paramétricos

A maior parte dos testes de hipóteses e de significância (ou regras de decisão) considerados
anteriormente requerem vários requisitos acerca das populações de onde são extraídas as amostras.

Na prática surgem situações em que tais requisitos não podem justificados ou j que levantam muitas dúvidas (por ex.
para populações muito assimétricas).

Os testes não paramétricos são independentes da distribuição da população e dos parâmetros a ela associados.

Os testes não paramétricos podem ser utilizados como simplificação de testes mais complexos. São especialmente
úteis para dados não numéricos.

43
Sebenta Gestão e Organização de Dados Exame Teórico

Tipos de Testes Não Paramétricos:


Amostras Emparelhadas:
 Teste dos Sinais;
 Teste de Wilcoxon;
 Teste de Friedman;
 Teste de McNemar.
Amostras Independentes:
 Teste U de Mann-Whitney;
 Teste H de Kriskall-Wallis.

Aplicação - Permite comparar duas amostras dependentes ou correlacionadas.

Chama-se teste dos sinais porque utiliza como dados, sinais positivos e negativos em vez do valor
numérico das respostas ou da sua diferença.
É particularmente útil quando, num par aleatório (X, Y) uma das variáveis tende a ser superior à
outra.
Considera-se uma amostra aleatória de n pares (Xi, Yi) e o sinal atribuído à diferença Di = Yi – Xi.

Teste dos Sinais

Hipótese nula (a testar):H0: P(X>Y) = P(X<Y)= ½ ou P(+) = P(-) = ½

Estatística do teste:
V – nº de sinais que ocorrem com menor frequência
V ~ Bin(n, ½)
n’ -> nº total de sinais (+) e (-) ou seja n’ = n – nº empates

Para pequenas amostras (n’ < 20):



 1 
         
 2


v0 – nº de sinais menos frequentes (observados).

Regra de decisão: Se P(V≤v0) < α => Rejeitar H0 (para o nível de significância α).

Exemplo:

Um estudo foi realizado no sentido validar a afirmação que os homens tem maior propensão para o raciocínio
abstracto. Recolheu-se uma amostra de 8 casais e submeteu-se cada um deles a uma prova, classificando-os de
seguida:

Casais a b c d e f g h
Classificação H>M H=M H>M H<M H>M H=M H<M H>M

Será que é possível concluir que a afirmação é válida?


(considerar α = 5%)
H0: P(+)=P(-)=1/2
H1: P(+)>P(-)

Casais a b c d e f g h
Sinal + 0 + - + 0 - +

44
Sebenta Gestão e Organização de Dados Exame Teórico

V – nº de sinais menos frequentes - V=2 (sinais -)

n (nº pares) = 8
n’ = nº pares – nº empates = 8 – 2 = 6


6 1  6 1  6 1  6 1 
 ≤ 2 =      =     +     +     =
 2 0 2 1 2 2 2

1 
=   1 + 6 + 21 = 0,4375
2

Conclusão: P(V≤2) > 0,05 - Não rejeitar H0, para α = 5%.

Não é possível concluir que os homens têm maior propensão para o raciocínio abstracto.

Teste de Wilcoxon

Aplicação - Permite comparar amostras emparelhadas (por ex., comparar a resposta dada a dois tratamentos ou
estímulos X e Y aplicados a indivíduos semelhantes).

O teste de Wilcoxon é mais potente que o teste dos sinais e deve ser usado preferencialmente se for legítimo admitir
que as variáveis Di (sinais das diferenças) tem distribuição contínua e simétrica.

Hipótese nula (a testar):


H0: mediana Di = 0 (a mediana das diferenças deverá ser 0)

Estatística do teste:
W+ : soma das diferenças Di com sinal (+)
W- : soma das diferenças Di com sinal (-)

Considera-se para estatística do teste o menor dos valores da estatística W.

Regra de decisão: Rejeitar H0 para um certo α quando:


|W| > Wc (teste unilateral)
W ∈ (Wc1, Wc2) (teste bilateral)

Wc – valor crítico (obtido da tabela)

Para pequenas amostras (n’<20) existe uma tabela de percentis para a estatística W para os vários valores de n’ e
para os diferentes níveis de significância.
n’ = nº pares – nº empates

Exemplo:

Para testar um novo regime dietético, submeteram-se 6 indivíduos a 30 dias de tratamento, tendo-se obtido a
seguinte tabela de pesos (kg):

Antes 95 110 98 104 80 91


Depois 92 110 94 103 81 86

Será o novo regime dietético eficaz na diminuição do peso?


(considerar α = 5%)

45
Sebenta Gestão e Organização de Dados Exame Teórico

H0: md Di = 0
H1: md Di ≠0 Tabela das Ordens

Di = D - A

Di -3 0 -4 -1 1 -5
Ordens 3 (-) - 4 (-) 1,5 (-) 1,5 (+) 5 (-)

n’ = n º pares – n º empates = 6 – 1 = 5
W–soma das ordens
W+ = 1,5 - menor soma: W+ = 1,5
W- = 13,5

Wc – valor crítico da estatística de Wilcoxon (tabela)

Wc = 0 (para α = 5%)

Conclusão: W+ > Wc - Não rejeitar H0.

Para α = 5%, o novo regime dietético não produziu os efeitos desejados.

46
Sebenta Gestão e Organização de Dados Exame Teórico

Teste de Mann-Whitney

Aplicação: Decidir se duas amostras independentes, de dimensões n1 e n2, provêm ou não da mesma população.

Hipótese nula: H0: F1=F2

(as funções de distribuição são iguais nas duas populações)

Metodologia

Associar os valores das duas amostras e ordená-los do menor para o maior, e atribuir números de ordem (ou ordens)
a todos os valores. Se dois ou mais valores são iguais (i.e., existem empates) atribui-se a média das supostas ordens.

Determinar a soma das ordens para cada amostra. Representar essas somas porW1 eW2, para cada amostra com os
tamanhos n1 e n2.

Por conveniência deve escolher-se n1 para a amostra mais pequena.


Uma diferença significativa entre a soma das ordens implica uma diferença significativa entre os grupos.

Para testar a diferença entre a soma das ordens, utiliza-se a estatística:

     


 =    + 
   =    + 
 

Menor Soma das Ordens Maior Soma das Ordens

U=min (U1, U2) (Nota: para n1,n2 ≤ 10)

Regra de decisão: Se U < Uc => Rejeitar H0 (para o nível de significância α).

Uc - valor crítico da estatística U.

Considerações (paramétrico vs. não-paramétrico):


Para comparar duas amostras independentes e teste t-Student é mais potente quando a distribuição
é Normal. Para distribuições próximas da Normal há, em geral, uma ligeira diferença entre as potências
dos dois testes.
Quando nada se sabe sobre a forma da distribuição, o teste U é nitidamente mais eficiente que o
teste t-Student e deve, portanto, ser o utilizado.

Exemplo:

A um grupo experimental (GE) e a outro de controlo (GC) aplicou‐se um novo procedimento clínico
medindo‐se a resposta de cada indivíduo, sob a forma de um parâmetro apropriado. Considerando que
não existe garantia de normalidade da distribuição de referência, verificar se se encontram diferenças
significativas entre os dois grupos:

47
Sebenta Gestão e Organização de Dados Exame Teórico

GE 11 15 12 27 10 9 28
GC 19 52 13 8 22 11 18

(considerar α = 5%)

   
 = 7  7     41   7  7   ,
 

W1 = 48,5; W2 = 56,5
Menor Valor da Estatística de U

Uc = 8 (valor crítico da estatística de Mann-Whitney).

Conclusão: U2 > Uc - Não rejeitar H0 (para α = 5%).


Não se encontram diferenças significativas entre os dois grupos.

Teste de Kruskall-Wallis

Aplicação: Generalização do teste U para k amostras (k >2) - testar a hipótese de que k amostras quantitativas
independentes foram obtidas da mesma população.

A única exigência para a aplicação do teste está relacionada com o processo de obtenção das amostras, que deve ser
aleatório.

O teste H é alternativa não paramétrica ao teste (paramétrico) ANOVA.

48
Sebenta Gestão e Organização de Dados Exame Teórico

Metodologia:

1. Ordenar as observações das k amostras num único grupo atribuindo-lhes ordens de 1 a n.


2. Calcular Ri de cada amostra, ou seja, a soma das ordens.
3. Calcular o valor da estatística H.

Hipótese nula:
H0: F1=F2=…=Fk

(as funções de distribuição são iguais nas k populações)

Estatística H (forma simplificada):



12 
=   3  1
  1 


Sendo


     1


R(Xij) - ordem de Xij na ordenação das observações.

Regra(s) de decisão:

1) Se k = 3 e n1, n2, n3 < 5, utiliza-se a tabela dos valores críticos da estatística H:


Se H > Hc => Rejeitar H0 (para o nível α)

2) Se pelo menos uma das amostras tiver dimensão ni > 5, utiliza-se a distribuição de Qui-Quadrado (k-1 g.l.):

Se H > ; => Rejeitar H0 (para o nível α)

Exemplo:
Um investigador pretende avaliar um parâmetro comportamental de alunos de cursos universitários diferentes.
Seleccionou três amostras aleatórias e aplicou um teste padronizado, tendo obtido os seguintes resultados:
Curso 1 – 1,2,2,2,3,3
Curso 2 – 3,5,5,6,6,6
Curso 3 – 2,3,6,8,9,9

49
Sebenta Gestão e Organização de Dados Exame Teórico

Haverá diferenças nos três grupos?


(considerar α = 5%)
H0: F1=F2=F3 (a função de distribuição é a mesma)
H1: pelo menos uma das Fi é diferente

k amostras independentes (k=3)


n = n1 + n2 + n3 = 18

Tabela Inicial

N1 = 6 N2 = 6 N3 = 6
1 3 2
2 5 3
2 5 6
2 6 8
3 6 9
3 6 9

Tabela das Ordens

C1 C2 C3
1 7,5 3,5
3,5 10,5 7,5
3,5 10,5 13,5
3,5 13,5 16
7,5 13,5 17,5
7,5 13,5 17,5
R1 =26,5 R2 = 69 R3 = 75,5


12 
=   3  1
  1 


12 26,5  69  75,5


    318  1  8,28
1818  1 6


;,  5,99

Conclusão: 8,28 > 5,99 - Rejeitar H0 (para α = 5%).

Existem diferenças significativas entre os três grupos

50
Sebenta Gestão e Organização de Dados Exame Teórico

Regressão Linear

Análise de regressão

Conjunto de técnicas estatísticas que permitem investigar e modelar as relações entre variáveis e possibilitam a
previsão da variável independente para valores não observados da variável dependente, mas dentro do seu domínio.

Regressão vs. Correlação:

A relação entre duas variáveis pode ser de dependência funcional (relação de causa-efeito) de uma
em relação à outra sem que o recíproco seja também válido.
Duas variáveis podem apresentar-se correlacionadas embora não dependentes uma da outra.
A regressão estuda a relação funcional entre duas variáveis enquanto a correlação estuda o grau de
associação entre as variáveis cuja relação pode ou não ser de dependência funcional.

Regressão Linear

Relação de tipo linear entre uma variável dependente (Y) e uma variável independente (X).

 =  +  + 

 =  + 

 =   

51
Sebenta Gestão e Organização de Dados Exame Teórico

Exemplo:

Xi Yi
20 112
19 95
25 120
31 128
36 155
42 153,2
48 186
57 193
60 216
66,3 235
65 216
52,4 186
45 175,2

Avaliação da qualidade do ajustamento do modelo da regressão linear simples:

1. Análise de variância (ANOVA) no modelo de regressão linear simples: verificar se o modelo ajustado
é significativo.
2. Testes t-Student aos valores do declive e ordenada na origem.
3. Coeficiente de determinação (R2): percentagem da variabilidade total de Y explicada pelo modelo de
regressão ajustado.
4. Análise de resíduos (ou erros de ajustamento): os erros devem distribuir-se normalmente com média
zero e variância constante e devem ser independentes.

Análise de Resíduos (ou erros de ajustamento):

52
Sebenta Gestão e Organização de Dados Exame Teórico

Regressão Linear Múltipla

Estimar valores de uma variável dependente (Y) em função de múltiplas variáveis independentes (X1, X2, ..., Xk).
Determinar o quanto as variações de Xi (i = 1,...,k) podem afectar Y.

Modelo:
E(y) = f(X1, X2, ..., Xk)
Linear: E(y) = β0 + β1X1 + β2X2 + ... + βkXk

Onde Y, X1, ..., Xk podem representar as variáveis originais ou transformadas.


Admite-se que Y, X1, ..., Xk são variáveis contínuas.

Análise de variância (ANOVA) no modelo de regressão linear múltipla: verificar se o modelo ajustado é significativo.

E(y) = β0 + β1X1 + β2X2 + ... + βkXk


H0: β1 = β2 = ... = βk = 0

Testes t-Student a cada um dos coeficientes:

E(y) = β0 + β1X1 + β2X2 + ... + βkXk


H0: βj = 0

Sob H0 e considerando as suposições do modelo, t tem distribuição t-Student:


 =  se o erro padrão da estimativa bj

Coeficiente de determinação (R2): percentagem da variabilidade total de Y explicada pelo modelo de regressão
ajustado.

çã 
 = 0 ≤  ≤ 1
çã 

Exemplo:

Num estudo sobre as classificações obtidas na UC de Gestão e Organização de Dados obtiveram-se os seguintes
resultados:

Classificação (A) Nº de Aulas Frequentadas (B) Nº de Horas de Estudo


10 10 5
5 8 5
4 3 3
8 9 6
11 9 7
16 11 10
17 11 10
18 12 12
9 8 6
7 5 5

Estimar o modelo preditivo das classificações vs (A) e (B)

53
Sebenta Gestão e Organização de Dados Exame Teórico

Modelo:

 = 1.893  0.270    1.460  

Onde:
Y = Classificação;
X1i = Número de Aulas;
X2i = Número de Horas de Estudo.

O modelo é altamente significativo (F = 48.160, p < 0,001) e explica 91,3% da variabilidade observada (Ra2).
Os testes aos coeficientes sugerem que, para uma probabilidade de erro de 5%, apenas a variável “número de horas
de estudo” possui um efeito significativo sobre a classificação final (p = 0,002).

Modelo de regressão linear simples (apenas com X2 = número de horas de estudo):

  1095  1.680  

O modelo é altamente significativo (F = 98.888, p < 0,001) e explica 91,6% da variabilidade observada (Ra2).
O novo modelo ajustado, apesar de ter menos uma variável independente, explica aproximadamente a mesma
percentagem de variabilidade total do modelo com duas variáveis independentes (R2 = 0.925 vs. 0.932).

A probabilidade de significância para a


constante do modelo é p = 0,407. Como
0,407 > 0,05, não rejeitamos a hipótese
nula, H0: Constante do modelo = 0.
É possível assim concluir que o valor
esperado da classificação que um aluno
obterá se não estudar para o exame será
de zero valores!

54

Você também pode gostar