GOD SebentaTeórica

Sebenta Gestão e Organização de Dados Exame Teórico
Introdução
(Bio)Estatística - Área do conhecimento científico que se debruça sobre os processos de recolha de informação
(dados), da análise e caracterização da informação e da tomada de decisão fundamentada a partir da informação
recolhida.
População - Conjunto de todos os elementos cujas características pretendemos estudar.
Tamanho da Amostra = Nº de População

Elementos
Amostra
Amostra - Subconjunto (finito) da população.
Estatística Descritiva - Conjunto de métodos cujo objectivo é sintetizar e representar de forma compreensível a
informação contida nos dados.
Estatística Inferencial (ou Inferência Estatística) - Permite fazer estimativas e tirar conclusões sobre uma população
a partir da informação contida numa amostra aleatória.
Amostragem - Processo de selecção de indivíduos/sujeitos (pessoas, animais, objectos,…) de uma população.
Amostragem
Aleatória Não Aleatória
Uma amostra é aleatória quando a probabilidade de cada um dos sujeitos da população vir a integrá-la é conhecida.
Variáveis Aleatórias
Variável (aleatória) - Característica da população que pode tomar vários valores possíveis.
Variável
Qualitativa Quantitativa
Discreta Discreta
Contínua
Discretas - Só podem tomar um número (finito ou infinito) numerável de
1
valores. (ex.: número de nascimentos, de acidentes,…)
Contínuas - Podem tomar qualquer valor num intervalo de números reais. (ex.: peso, altura, temperatura,…)
Nominais - Cada um dos valores da variável corresponde a uma designação. (ex.: género (Masculino, Feminino),
grupo sanguíneo,…)
Ordinais - As suas categorias (classes) têm uma relação de ordem. (ex.: nível socio-económico (baixo, médio, alto),…)
pescala
Quantitativas Qualitativas
Intervalar Nominal
Razão Ordinal
Escalas de Medida
Nominal - Dados identificados apenas pela atribuição de um nome que designa uma classe. As classes são
mutuamente exclusivas e não ordenáveis.
Ordinal - Classes ordenáveis
Intervalar - Dados expressos por números cuja origem e unidade de medida são arbitrárias.
Razão - Origem fixa e absoluta. Zero significa ausência total.
Organização dos Dados (Ex: Notas de um teste)

15 12 7 8
Dados Experimentais
8 10 13 13
(Dados Originais)
10 12 12 8
12 15 14 14
14 10 12 13
Distribuição de Frequências
Xi Fi fi Fai fai
X1 F1 f1 = F1 / n F1 f1 Tabela de
X2 F2 f2 = F2 / n F1+ F2 f1+ f2 Frequências
… … … … …
Xk Fk fk = Fk / n n 1
Variável Frequência Frequência Frequência Frequência

Absoluta Relativa Absoluta Relativa
Acumulada Acumulada
2
Frequência Frequência
Frequência Frequência
Nota Absoluta Relativa
Absoluta Relativa (%)
Acumulada Acumulada (%)
7 1 5 1 5
8 3 15 4 20
10 3 15 7 35
12 5 25 12 60
13 3 15 15 75
14 3 15 18 90
15 2 10 20 100
Representações Gráficas
Dados Qualitativos - Gráficos de barras, gráficos circulares (sectoriais).

Dados Quantitativos Discretos - Gráficos de barras.
Dados Quantitativos Contínuos - Gráfico de barras adjacentes de área proporcional à frequência da classe
correspondente (histograma).
Histograma (ex: idades)
Medidas Descritivas
Medidas Descritivas - Sumariam características importantes das amostras. Categorias:

Localização:
 Central;
 Não Central;
Dispersão (ou Variabilidade);
Forma:
 Assimetria;
 Curtose.
Medidas características de distribuições univariadas:

Localização - Média, mediana, moda, quantis;
Dispersão - Amplitude, variância, desvio padrão, coeficiente de variação;
Forma - Coeficientes de assimetria e curtose;
Medidas de Localização Central
Média Aritmética (ou Média)
Existem outros tipos de médias: Aparada, Harmónica, Quadrática, …
3
A Média (̅ ) é obtida dividindo a soma de todos os valores numéricos observados pelo nº de observações (n):

1
̅   


Mediana
A Mediana () divide ao meio o conjunto de valores observados (valores ordenados)
Se n par
 
 
    1
2 2
 
2
Se n Ímpar
   
 

Moda
A Moda é o valor mais comum de um conjunto de observações
Moda - Dados não classificados e dados classificados discretos

Classe Modal - Dados classificados quantitativos contínuos
Distribuição unimodal - Moda (ocorre uma vez)

Distribuição multimodal - Moda (várias vezes)
Comparação Entre Média, Mediana e Moda
A posição relativa da média, mediana e moda, numa distribuição de frequências, dá informação sobre a forma da
curva de distribuição.
Distribuição
Simétrica Assimétrica (ou enviesada)
Média = Mediana = Moda Distribuição Simétrica (Distribuição Unimodal)
Média > Mediana > Moda Distribuição Assimétrica Positiva (ou enviesada à direita)
Média < Mediana < Moda Distribuição Assimétrica Negativa (ou enviesada á esquerda)
Média = Mediana = Moda
4
Média > Mediana > Moda Média < Mediana < Moda
Medidas de Localização Não Central
Quantis (Q):
Percentil (pk)
Os percentis dividem um conjunto de dados, preparados em ordem crescente, em 100 partes iguais.
O valor do percentil de ordem k (k = 1, 2, …, 99) é denotado por pk.
Cerca de k% das observações são menores que pk. 99 Percentis
Decil (dk)
Os decis dividem um conjunto de dados, preparados em ordem crescente, em10 partes iguais.
O valor do decil de ordem k (k = 1, 2, …, 9) é denotado por dk.
Cerca de 10k% das observações são menores que dk. 9 Decis
Quartil (qk)
Os quartis dividem um conjunto de dados, preparados em ordem crescente, em4 partes iguais.
O valor do quartil de ordem k (k = 1, 2, 3) é denotado por qk.
Cerca de 25k% das observações são menores que qk. 3 Quartis
Os quantis estão relacionados entre si (e com amediana). Por ex.:
=p50 = d5 = q2
p10 = d1, p20 = d2, …, p90 = d9
p25 = q1, q50 = q2, p75 = q3
As medidas de localização não dão informação suficiente sobre o conjunto de dados.

Por exemplo:
{14, 15, 18, 18, 25}

{17, 17, 18, 19, 19} =18 ̅ =18 – São dados iguais
{18, 18, 18, 18, 18}
Medidas de Dispersão
Amplitude
Amplitude Total
Amplitude total = Máx. –Mín.

Ex:
{14, 15, 18, 18, 25} 25 – 14 = 11
{17, 17, 18, 19, 19} 19 – 17 = 2
{18, 18, 18, 18, 18} 18 – 18 = 0
5
Amplitude Interquartil
Amplitude interquartil = q3 – q1 > Engloba 50% das observações totais ( centrais)

Ex:
{14, 15, 18, 18, 25} 18 – 15 = 3

{17, 17, 18, 19, 19} 19 – 17 = 2
{18, 18, 18, 18, 18} 18 – 18 = 0
Variância e Desvio Padrão
O desvio padrão (s) indica a proximidade com que os valores estão agrupados à volta da média.
A média é considerada como referência para avaliar a dispersão.
Variância = (Desvio Padrão)2 = s2
Variância


1
    ̅ 
1

Desvio Padrão
   
* Quanto maior for a dispersão, maior é o desvio padrão.
Coeficiente de Variação
As medidas de variabilidade absoluta dependem das unidades das observações.

Como comparar variabilidades de distribuições de frequência diferentes?
Coeficiente de variação (CV)
Variabilidade relativa
* CV: sem unidades e pode ser expresso em percentagem.

  ,    0
̅
Ex:
Média Desvio Padrão
Peso (kg) 10 3
Volume (dm3) 30 6
Peso: CV = 3/10 = 0,33

Volume: CV = 6/30 = 0,20
A variabilidade do peso é maior.
6
Medidas de Forma
Medidas de Assimetria
Coeficiente de Assimetria (g1)
Momento de ordem 3 (p=3)


1
    ̅ 


 
 
  1  2 
Desvio Padrão corrigido
esauerdo
g1 < 0 - Assimetria à direita
-
X
assimetria
aireiten
assime tria
negativa g1 > 0 - Assimetria à esquerda
-
-
positi
g1= 0 - Distribuição Normal
Medidas de Curtose(achatamento)
Coeficiente de Curtose (g2)
Momento de ordem 4 (p=4)
   1   1
  3
  1  2    2  3
Desvio Padrão corrigido
Distribuição Normal
g2 < 0 g2 = 0 g2 > 0
7
Diagrama de Extremos e Quartis
Valores Atípicos (“Outliers”)
“Outliers”:
Moderados (°)
Extremos (*)
Análise Exploratória de Dados
Aluno nº Nota Aluno nº Nota Aluno nº Nota

1 17 11 14 21 18
2 11 12 12 22 10
3 12 13 8 23 11
4 14 14 15 24 6
5 10 15 7 25 16
6 16 16 12 26 8
7 13 17 11 27 9
8 11 18 23 28 12
9 10 19 13 29 11
10 14 20 10 30 14
8
Aluno nº Nota Aluno nº Nota Aluno nº Nota

1 17 11 14 21 18
2 11 12 12 22 10
3 12 13 8 23 11
4 14 14 15 24 6
5 10 15 7 25 16
6 16 16 12 26 8
7 13 17 11 27 9
8 11 18 23 28 12
9 10 19 13 29 11
10 14 20 10 30 14
9
Análise Bivariada
Dependência Funcional e Independência
A relação entre duas variáveis pode ser mais ou menos acentuada, podendo chegar à:
Dependência total (dependência funcional) -
wariavais
se as forem
decendentes estão
Independência
,
associadas
Relação Exacta
Análise de Relação Entre Duas Variáveis
As medidas de associação quantificam a intensidade e a direcção da associação entre duas variáveis.

As medidas de associação / coeficientes de correlação não podem ser utilizadas para inferir sobre relações causais.
Objectivo: quantificar (medir) a relação entre duas variáveis.
Cruzamentos e medidas de associação
 Variáveis qualitativas (nominais, ordinais)
Coeficientes de correlação
 Variáveis quantitativas (escalares) / variáveis qualitativas (ordinais)
Cruzamento de Variáveis
As tabelas de dupla entrada (tabelas de contingência) são a técnica básica para examinar a relação entre duas
variáveis categoriais (nominal ou ordinal).
Doença
Sim Não
Exposição
à Doença
Sim A B A+B
Não C D C+D
A+C B+D A+B+C+D
10
Frequências Observadas (Oij) e Frequências Esperadas (Eij)
V=v Vv V=v Vv

   
U=u E11=   E12=   U=u O11 O12 = R1
    Uu O21 O22 = R2
Uu E21=   E22=  
= C1 = C2 =N
Frequências Esperadas (Eij) Frequências Observadas (Oij)
E11 = (R1 x C1) / N = (21 x 25) / 49 = 10,7 E12 = (R1 x C2) / N = (21 x 24) / 49 = 10,3
TESTE DO QUI
-QUADRADO:
de indlependlemanal os alo is critérios all
Medidas de Associação (para variáveis nominais)

teste
se indepenalentes
:
wariavei
?
classi ficação dds
s
'
Ex
amostras foram
homogeneidade
as
:
- de
relativament
test
homogéneas
waidas populatoes
CoeficientePhi (φ) ao
critário classificação
de
?
ae
Coeficiente V de Cramer Medidas simétricas

Coeficiente de contingência
x
Medidas Direccionais
*
Medidas baseadas na estatística do Qui-quadrado (χ2)
Qui-quadrado (χ2) (Cálculo)

  
 


12  10,7 9  10,3 13  14,3 15  13,7
      0,551
10,7 10,3 14,3 13,7
11
como avaliar inderanasemia l associação para variaveis qualitativas ( on
oschimais
p
nominais
)
O teste de qui-quadrado mede a discrepância entre a frequência das observações em cada célula e a frequência sã
0
variáweis
Cteste
a perqunta As inale perchern tes tiron ou ñão
wo
responde
:
?
!
esperada para essas células se as linhas e colunas não tiverem relação entre si (forem independentes).
alcisão
estatistico ( al hipóteses ), netodocognd estatistica de apoio a
teste
Coeficiente Phi (φ): Raíz quadrada do rácio da estatística de qui-quadrado pelo número total de observações (N);
(variáveis dicotómicas).



Coeficiente V de Cramer: Reclassificação do valor de phi, onde k é o menor dos valores entre linha e coluna; (0 ≤ V ≤
1).


  1
to
Awaria
entre
,7)
Coeficiente de Contingência: Roma valores entre zero e a raiz quadrada de [(k-1)/k], onde k é omenor valor entre
linha e coluna.

   
 
Correlação
us aualiaçao l aucentificacao entre duas variáveis
Dadas duas variáveis, se a intensidade de uma é acompanhada tendencialmente pela intensidade da outra, no
mesmo sentido, ou sentido inverso, dizemos que as variáveis estão correlacionadas.
Coeficientes de Correlação varia entre F 1. 1 3
Coeficiente de correlação (linear) de Pearson

Mede a intensidade e a direcção de associação, de tipo linear, entre duas variáveis quantitativas.
wariáweis
Coeficiente de correlação de Spearman (ρ) da s mediaa
escaearess
che intemsicende e o senticlo recaçoo monitona e n t re darals
cordinais ou
Medida de associação não paramétrica entre duas variáveis pelo menos ordinais.
Ex: Xi yi xi yi
20 125 33 129
Idade (X) (Anos)
42 147 59 147
Pressão Arterial S. (Y) (mmHg)
72 160 38 115
43 137 70 160
Correlação 36 118 75 162
63 149 28 128
25 117 32 140
Diagrama de Dispersão (Gráfico X-Y) 49 128 37 143
55 150 53 139
57 152 59 147
12
Covariância (SXY): é uma medida de variabilidade comum de duas variáveis numéricas (quantitativas).

1
      


Propriedades da covariância:
Se SXY > 0, as duas variáveis crescem ou decrescem conjuntamente.
Se SXY < 0, quando uma variável cresce, a outra tem tendência a decrescer.
Se SXY = 0, não há relação linear.
Coeficiente de correlação linear de Pearson (r)

   

(-1 ≤ r ≤ 1)
 
SXY – Covariância
sX – Desvio padrão de X
sY – Desvio padrão de Y
Propriedades do coeficiente de Pearson:

É adimensional.
É invariante para transformações lineares.
Só assume valores entre -1 e 1.
Quando | r | está próximo de 1, afirma-se que há uma relação linear muito forte entre as variáveis.
Quando r ≅ 0, pode afirmar-se que não há relação linear entre as variáveis: variáveis não
correlacionadas.
Coeficiente de correlação de Spearman (ρ):

Medida de associação não paramétrica entre duas variáveis
ordinais (ou escalares).
-1 ≤ ρ ≤ 1;
Alternativa ao coeficiente de correlação de Pearson quando
as características das variáveis quantitativas condicionam a
utilização deste.
13
Pearson vs. Spearman
Estimação de Parâmetros
Variáveis Aleatórias
Definição
Caracteristicas
Propriedades
Distribuições de Variáveis Aleatórias
Nem sempre os resultados possíveis (espaço amostral) de uma experiência aleatória são valores numéricos.
No entanto, a maior parte das vezes estamos interessados em resultados numéricos.
É possível atribuir um número (real) a cada resultado do espaço amostral.
Função Resultado Número
Uma variável aleatória (v.a.) X é uma função que associa um número real x a cada resultado s do espaço amostral S.
14
Em função dos valores que a v.a. adquire, esta pode ser classificada em discreta ou contínua:
v.a. discretas: associadas a dados contáveis ou numeráveis

Uma v.a. X é discreta se o conjunto de valores possíveis de X for finito ou infinito numerável
v.a. contínuas: associados a dados medidos

Uma v.a. X é contínua se tomar valores de um intervalo ou de uma colecção de intervalos.
Variáveis Aleatórias Discretas
As v.a. discretas podem ser definidas por qualquer uma das seguintes funções:
Função de probabilidade, f(x)=P(X=x)
Função de distribuição, F(x)=P(X≤x)
Função de Probabilidade - É uma função f que associa a cada valor possível x de X a sua probabilidade f(x) = P(X=x)
Propriedades:
  0
   1

Ex.:
Considerar os casais que têm 3 filhos e a experiência estatística em que se regista o sexo de cada um dos três
filhos, por ordem crescente de idade. Definir uma variável aleatória que descreva o nº de rapazes.
Eventos:
F = {a criança é do sexo feminino}
M= {a criança é do sexo masculino}
S = {FFF, FFM, FMF, FMM, MFF, MFM, MMF, MMM}

f(0) = P(X=0)
f(1) = P(X=1)
v.a. de interesse é: X=número de rapazes entre os 3 filhos do casal f(2) = P(X=2)
f(3) = P(X=3)
X(FFF) = 0
X(MFF) = X(FMF) = X(FFM) = 1
X(FMM) = X(MFM) = X(MMF) = 2
X(MMM) = 3
Valores de f(x)
S FFF FFM FMF FMM MFF MFM MMF MMM

x 0 1 1 2 1 2 2 3
f(0) = P(X=0) = P(FFF) = 1/8

f(1) = P(X=1) = P[{(MFF, FMF, FFM}] = ⅛ + ⅛ + ⅛ = 3/8
f(2) = P(X=2) = P[{(FMM, MFM, MMF}] = ⅛ + ⅛ + ⅛ = 3/8
f(3) = P(X=3) = P(MMM) = 1/8
Representação gráfica de f(x)
15
Distribuições Discretas
Distribuições de v.a. discretas (ex.):

Bernoulli;
Binomial.
Distribuição de Bernoulli
A distribuição de Bernoulli, Bernoulli (p), é uma distribuição associada a uma sequência de tentativas (processo de
Bernoulli), cada uma com dois resultados possíveis *
Aplicações: ocorrência aleatória de dois resultados possíveis: sucesso ou insucesso.
* Normalmente de natureza qualitativa.
Processo de Bernoulli:
Qualquer experiência estatística com as seguintes propriedades:
Consiste em n tentativas repetidas;
Cada tentativa tem dois resultados possíveis (sucesso ou insucesso);
A probabilidade de sucesso p é a mesma em qualquer tentativa;
As tentativas repetidas são independentes (a probabilidade de sucesso não é afectada pelo possível
conhecimento do resultado obtido em tentativas anteriores).
Função de probabilidade, f(x):
   1   ,   0,1
  
0,  
Probabilidade de sucesso: p
Probabilidade de insucesso: q = 1-p
Propriedades:
E[X] = p Var[X] = p ⋅q
Valor médio Variância
Gama de valores: {0,1}
Exemplos de aplicação:
O sexo de umindivíduo (M ou F);
O estudo da incidência de uma certa doença numa população. X pode indicar se a doença está
presente (X=1) ou ausente (X=0), num indivíduo da população (seleccionado ao acaso);
O factor Rh sanguíneo (positivo ou negativo).
Ex:
Considerar o lançamento aleatório de um dado cinco vezes e a ocorrência de um número superior a 2 em cada
lançamento.
a) Definir e determinar a probabilidade de sucesso em cada lançamento.
b) Verificar se se está em presença de um processo de Bernoulli.
16
a) O lançamento é bem sucedido se sair um número superior a 2. A probabilidade de sucesso é p = 2/3.

b) Processo de Bernoulli ? (Certo)
Consiste em 5 tentativas (lançamentos) repetidas.
Cada tentativa tem dois resultados possíveis (sucesso ou insucesso).
A probabilidade de sucesso (p = 2/3) é a mesma em qualquer tentativa.
A probabilidade de sucesso não é afectada pelo conhecimento do resultado obtido em lançamentos
anteriores (tentativas repetidas independentes).
Distribuição Binomial
A distribuição Binomial, Bin (n,p), é uma generalização da distribuição de Bernoulli, para o caso de n tentativas
independentes.
Aplicações: em amostragem e em situações em que o tamanho da amostra é conhecido e em que se sabe quantas
vezes é que um acontecimento ocorreu.
A distribuição Bin(n,p) está para as distribuições discretas assim como a distribuição normal está para as
distribuições contínuas.
X = número de sucessos em n experiências de Bernoulli (todas independentes), com n fixo à partida e p a
probabilidade de sucesso em cada experiência.
f(x)= P(X=x) = nCx px (1-p)n-x, x=0,1,2,…,n
Função de Probabilidade, f(x):

    1   ,   0,1,2, … , 
   
0,   0,1,2, … , 
 !
 
 !   !
Propriedades:
E[X] = n⋅ p Var[X] = n⋅ p(1− p)
Valor Médio Variância
Gama de valores: {0,1,2,…,n}
17
Exemplos de aplicação:
O nº de pessoas com factor Rh positivo num conjunto de 10 indivíduos;
O nº de raparigas no conjunto de 5 filhos de um casal;
O nº de alunos de Gestão e Organização de Dados que vão concluir a UC, com sucesso, este ano.
A soma de duas variáveis Binomiais independentes e com o mesmo parâmetro p, é ainda uma variável Binomial com
parâmetros n igual à soma dos respectivos parâmetros n1 e n2 e p.
Ex.:
X representa o número de rapazes no conjunto de 6 filhos de um casal e Y o número de rapazes no conjunto
de 5 filhos de outro casal. Nos dois conjuntos o número de rapazes tem distribuição Binomial de parâmetros n=11 e
p = probabilidade de um filho ser rapaz.
Variáveis Aleatórias Contínuas
As v.a. contínuas podem ser definidas por qualquer uma das seguintes funções:
Função densidade de probabilidade, f(x)
Função de distribuição, F(x)=P(X≤x)
* f(x) não representa P(X=x). Numa v.a. contínua P(X=x)=0 para todo o x.
** F(x) representa a probabilidade acumulada até x.
Função densidade de probabilidade
O gráfico da f.d.p. (ou curva da densidade) é um gráfico que traduz a distribuição de probabilidade
de uma v.a. contínua.
Todos os pontos sob a curva têm de ter uma ordenada maior ou igual a zero.
A área total sob a curva tem de ser unitária.
As probabilidades obtêm-se a partir de áreas sob partes da curva.
Ex:
18
Cálculo de probabilidades para v.a. contínuas:

P(X ≤ a) = F(a)
P(a ≤ X ≤ b) = F(b) – F(a)
P(X > a) = 1 – F(a)
P(X = a) = 0, para todo o valor de a.
Distribuições Contínuas
Distribuições de v.a. contínuas (ex.):

Normal (ou de Gauss);
Qui-Quadrado (χ2);
t de Student;
F de Snedecor;
A distribuição Normal ou de Gauss, é a distribuição contínua mais importante.

Utiliza-se a distribuição Normal, N(μ,σ2), como um modelo para representar características de populações que
tenham a ver com medições ou respectivos erros (por ex. peso ou altura), ou quantidades que sejam a soma de um
grande nº de outras quantidades.
A importância da distribuição Normal:

1. É um modelo adequado para representar muitos dos fenómenos do mundo real.
2. É muito utilizada em Inferência Estatística.
3. Muitas técnicas desenvolvidas em Estatística são exactas no caso de distribuições normais.
4. Algumas v.a. (como por ex. a Binomial e a Poisson) podem ser aproximadas por uma v.a. Normal.
Propriedades:
E[X] = μ Var[X] =σ2

Parâmetro de Localização Parâmetro de Escala
Gama de valores: [−∞, +∞[
Características da f.d.p. Normal:
1. Tem a forma de sino e um único

máximo para x = μ.
2. É simétrica relativamente a um eixo
vertical que passa por x = μ (média).
3. A mediana (valor que divide a curva
normal em duas partes de área igual) e a
moda ocorrem para x = μ.
4. Tem pontos de inflexão para x = μ ± σ.
5. A área total entre a f.d.p. e o eixo dos xx
é 1.
19
Aproximadamente 68% da população difere da média menos de 1 desvio padrão:
P(μ − σ < X < μ + σ) ≈ 0,68
Aproximadamente 95% da população difere da média menos de 2 desvios padrões:
P(μ − 2σ < X < μ + 2σ) ≈ 0,95
Aproximadamente 99,7% da população difere da média menos de 3 desvios padrões:
P(μ − 3σ < X < μ + 3σ) ≈ 0,997
Cálculo de probabilidades da Distribuição Normal - Normalização
Gvaria
A distribuição N(μ=0, σ2=1) é designada por distribuição normal estandardizada *

 
Variável Aleatória Z
~  0,    1
*Ou Distribuição Normal Padrão
O cálculo de probabilidades com a v.a. X, para qualquer média ou variância, pode ser reduzido ao cálculo com a v.a.
Z:
 
         
 
A soma de variáveis aleatórias normais é ainda Normal com média igual à soma das médias (se as variáveis forem
independentes a variância é igual à soma das variâncias).
Em particular a média  de n variáveis normais independentes e com a mesma distribuição é ainda Normal:

~ , 
√
Lei dos Grandes Números
A média de um conjunto de n variáveis aleatórias independentes e identicamente distribuídas, com média μ e desvio
padrão σ, converge para μ à medida que n aumenta.
A frequência relativa de um certo acontecimento de interesse num conjunto de n experiências independentes,
converge para a probabilidade do acontecimento à medida que n aumenta.
20
Teorema do Limite Central
O TLC permite dizer que a média de um conjunto de variáveis aleatórias com uma qualquer distribuição é
aproximadamente Normal (cada vez mais Normal à medida que o nº de variáveis aumenta):
~ 
~ ⟹ . , 
√
Se tivermos n variáveis aleatórias X1,X2…,Xn independentes e com a mesma distribuição de média μ e variância
σ2,então quando n cresce para infinito:
   
 0,1
/√
Aproximações Baseadas no TLC
É possível efectuar cálculos de probabilidades aproximadas com base no TLC.
Por ex.:
Probabilidades associadas a distribuições Binomiais e a distribuições de Poisson
Aproximação Binomial - Normal
Aproximação Binomial – Normal
Probabilidades associadas a uma distribuição Binomial, Bin(n,p), podem ser aproximadas utilizando uma distribuição
Normal, N(μ,σ2), com μ=n∙p e σ2 = n∙p(1−p).
Para que a aproximação seja boa, devemos ter um valor de n grande. Ou seja, um valor tal que: n∙p ≥ 5 e n∙(1−p) ≥ 5.
Quando se utiliza a distribuição Normal (que é uma distribuição contínua) para aproximar a distribuição Binomial
(que é uma distribuição discreta), efectua-se uma correcção de continuidade ao valor discreto x na distribuição
Binomial representando o valor x pelo intervalo de x – 0,5 a x + 0,5.
Distribuição Qui-Quadrado
A distribuição χ2(k), proporciona elementos necessários para efectuar inferências sobre a variância de uma
população a partir de uma amostra.
* k (ou ν) –> nº de graus de liberdade (nº inteiro positivo)
21
A distribuição χ2(k) aproxima-se da Normal quando k aumenta.
Propriedades:
E[X] = k Var[X] =σ2 = 2k

Parâmetro de Forma
Gama de valores: [0, +∞[
Distribuição t de Student
A importância da distribuição t de Student:

A distribuição T(k), proporciona elementos necessários para efectuar inferências sobre a média de uma população a
partir de uma amostra.
* k (ou ν) –> nº de graus de liberdade (nº inteiro positivo)
A distribuição T(k) aproxima-se da Normal quando k aumenta.
Distribuição F de Snedecor, com (d1,d2) graus de liberdade:
1 
 
   
 ,  
1  
  

Estimação de Parâmetros
Inferência Estatística
Amostragem
Da amostra à população:
Selecção da(s) amostra(s))
Intervalos de Confiança Testes de Hipóteses
Estimar parâmetros
desconhecidos da população Determinar se as diferenças
(parâmetros populacionais) a entre duas amostras se devem
partir das correspondentes ao acaso ou se são na
quantidades amostrais realidade significativas
(Estatísticas amostrais).
22
Amostragem e Métodos de
Inferência Amostragem
Distribuições Estimação e
Amostrais Estimadores
Amostragem e Inferência
Vantagens de estudar uma população a partir das suas

amostras:
Custos mais reduzidos
Maior rapidez
Maior flexibilidade
(Ensaios destrutivos)…
Amostras não representativas:
Amostras inadequadas - Generalização (intencional) e abusiva do que foi observado numa amostra muito diminuta
para uma população de dimensão considerável. Ex.: “9 em cada 10 atletas preferem a bebida energética x…”.
Amostras auto-seleccionadas - Ex.: apresentar uma questão e solicitar os espectadores que telefonem para um
número se a sua opinião é "sim" e para outro número se a sua opinião é "não".
Estatística Inferencial - Efectuar inferências sobre uma população a partir de uma amostra dela extraída.
Escolha da amostra (amostragem)
Extrapolação das conclusões obtidas sobre a amostra ao resto da população (inferência)
Tipos (e métodos) de amostragem
23
Amostragem
Amostragem aleatória (ou casual) – é possível calcular, a priori, a probabilidade de observar cada indivíduo da
população na amostra.
Amostragem determinística (ou dirigida) – opinião e experiência pessoal são utilizadas para identificar os elementos
a incluir na amostra. Não é possível calcular a probabilidade de cada indivíduo figurar na amostra.
Amostragem aleatória;
Amostragem sistemática;
Amostragem estratificada;
Amostragem por conglomerados (clusters), …
Reduzir custos, aumentar a precisão,…
Amostragem aleatória simples:
Cada elemento da amostra é retirado aleatoriamente de toda a população (com ou sem reposição). Assim, cada
possível amostra tem a mesma probabilidade de ser recolhida.
Amostragem aleatória simples

Com reposição
Sem reposição
24
Distribuições Amostrais
Se considerarmos todas as possíveis amostras de tamanho n que podem ser extraídas de uma dada população:
Para cada amostra podem calcular-se estatísticas (por ex. média e desvio padrão) que variam de amostra para
amostra.
A distribuição dessa estatística é designada por distribuição amostral.
Por ex.: distribuição amostral de médias (ou da média)
Tipos de Distribuições Amostrais:

Distribuição amostral da média;
Outras distribuições amostrais (Proporção, variância, desvio padrão, diferenças e somas de
estatísticas, …);
Erro padrão – Desvio padrão de uma distribuição amostral.
Distribuição amostral da média
Se se retirarem amostras de dimensão n de uma população qualquer, com média μ e variância σ2, por um processo
de amostragem simples, a distribuição amostral da média, aproxima-se de uma distribuição normal com média μ e
variância σ2/N, à medida que n aumenta.
Na prática, a distribuição amostral da média pode serconsiderada como normal se n ≥ 30.
obter carm valor p ard
Estimadores expresseto mathomáticas alvee
estatistico
Rermitt
cpopulacionae a partir ale wra
um parcemetro
)
estatistican armcstral
Estimação Paramétrica
Estimação dos parâmetros populacionais (parâmetros) a partir das correspondentes estatísticas amostrais.
Estimador de um parâmetro: qualquer v.a. que se expresse em função da amostra aleatória e que tenha por
objectivo aproximar o valor de um parâmetro.
Estimativa: valor numérico que o estimador assume.
Estimadores Não-enviesados e Enviesados
Se o valor médio (ou valor esperado) de uma estatística for igual ao correspondente parâmetro, então a estatística é
um estimador não-enviesado do parâmetro, caso contrário é um estimador enviesado.
Enviesamento amostral (ou excentricidade): é a diferença entre o valor esperado do estimador e o verdadeiro valor
do parâmetro a estimar.
O enviesamento amostral pode ter várias causas:

Técnica de amostragem inadequada (por ex., não aleatória)
Execução prática do processo de amostragem incorrecta ou incompleta.
Registo da população (de onde será retirada a amostra) inadequado para o estudo.
Estimador - que, dependendo das propriedades estatísticas que possua, pode ser um bom ou mau
estimador.
25
Estimadores Eficientes e Ineficientes
Se as distribuições amostrais de duas estatísticas têm a mesma média (ou valor esperado), então a estatística com
menor variância é um estimador eficiente do parâmetro, enquanto que a outra estatística é um estimador
ineficiente.
Estimador mais eficiente = melhor estimador.
Estimação Pontual e Intervalar
Estimação pontual: estimativa de um parâmetro dada por um único valor.
Estimação intervalar: estimativa de um parâmetro dada por dois valores entre os quais se supõe que o parâmetro
esteja, com um certo nível de confiança.
Para seleccionar um (bom) estimador tem-se, em geral, em consideração as seguintes características:

Consistência (ou coerência): se à medida que a dimensão da amostra aumenta, o estimador deve
aproximar-se cada vez mais do parâmetro a ser estimado.
Não enviesamento (ou ausência de tendenciosidade): se em infinitas amostras, o estimador não
sobrestima ou subestima o parâmetro.
Eficiência relativa: se o estimador é menos sujeito a flutuações de amostra para amostra do que
outros estimadores.
Intervalos de Confiança
Níveis de Confiança, Limites de Confiança e Valores Críticos
Ex.: os números E−2σE e E+2σE, são os limites de confiança a 95,45%
Estatística E (por ex. µε)
NC (%) 99,73 99 95,45 95 68,47

Zc 3,00 2,58 2,00 1,96 1,00
Valores Críticos Nível de Significância, α=1- NC / 100

Níveis de Confiança
26
Intervalos de confiança para

parâmetros populacionais
Média Variância Proporção
Intervalo de Confiança para a Média
Aplicação: estimar intervalos que contenham a média de uma população quando dispomos de uma amostra da
variável.
̂
  ̅  ;/ 
√
Precisão, d

̂  
Quase-desvio padrão amostral (estimador não-enviesado do desvio padrão)
Exemplo:
Estudo da altura dos indivíduos de uma cidade. Obteve-se uma amostra (n=25) com os seguintes valores x = 170 cm,
s = 10 cm. Calcular um intervalo de confiança com α = 0,05, para a média da altura dos indivíduos da cidade.

;,/  ;,  2,064 ̂  10    10,206
10,206
  170  2,064   170  4,21
5
  170  4,21
Com um nível de confiança de 95% podemos afirmar que a média populacional está no seguinte intervalo:
Intervalo de Confiança para a Variância
Aplicação: calcular um intervalo de confiança para σ2 quando só se dispõe de uma amostra.
27
  1   1
 ∈  ,  
   
; ;
 

    
Quase-variância amostral (estimador não-enviesado da variância)
Exemplo:
Estudo da altura dos indivíduos de uma cidade. Obteve-se uma amostra (n=25) com os seguintes valores x
= 170 cm, s = 10 cm. Calcular um intervalo de confiança com α = 0,05, para a variância da altura dos indivíduos da
cidade.
σ2 ∈[63,45; 201,60]⇒ 7,96 ≤σ ≤14,199

Com um nível de confiança de 95%
Intervalo de Confiança para a Proporção

estimar mal população
r
Aplicação: determinar, para uma variável dicotómica, a proporção de casos (p) em que ocorre sucesso.
̂ 
  ̂  / 

Com um nível de confiança de 1-α
Exemplo:
Estimar o resultado de um referendo a partir de uma sondagem (considerando uma amostra aleatória de
100 pessoas obtém-se um resultado de votação de 35% a favor e 65% contra). Com um nível de significância de 5%
calcular um intervalo de confiança para o verdadeiro resultado do referendo.
35
  0,05 ̂   0,35 ⟹   0,65
100
0,35  0,65
  0,35  ,   0,35  0,0935
100
Intervalos de confiança para a diferença

de parâmetros
Médias Proporções
28
Intervalo de Confiança para a Diferença de Médias
Aplicação: cálculo do intervalo de confiança para a diferença das médias de duas populações, onde cada uma segue
a sua própria lei de distribuição normal.
Caso geral: quando existe diferença notável na dispersão de ambas as variáveis
 
   ∈ 
  

  ;/ 
  
 
   
Caso particular: ambas as variáveis têm dispersão semelhante
1 1
   ∈ 
  
 
    ;/    
 
   
;/







   
 
   2
1 


1 


  1      1  
  1    1

̂ 
    2
Exemplo:
Estudo da influência que pode exercer o tabaco no peso das crianças ao nascer. Consideraram-se dois
grupos de mulheres grávidas (um de fumadoras e outro de não-fumadoras) e obtiveram-se os seguintes dados sobre
o peso (x) dos filhos recém-nascidos:
Mães não-fumadoras   35, ̅  3,6  ̂  0,5 
Mães fumadoras   27, ̅  3,2  ̂  0,8 
Ser mãe fumadora tem influência sobre o peso do filho ao nascer?
μ1 –μ2 = 0,4 ±0,3316
0,068 kg ≤ μ1 –μ2 ≤ 0,731 kg
NF F
29
Existe diferença (significativa) entre as médias dos pesos, ao nascer, dos filhos de mães não-fumadoras e fumadoras.
Existe diferença entre as médias dos pesos ao nascer dos filhos de mães pesos, nascer, não-fumadoras e fumadoras,
para um nível de confiança de 95 %
Intervalo de Confiança para a Diferença de Proporções
Testes de Hipóteses
Testes de Hipóteses - métodos (regras de decisão) que nos levam a determinar se os resultados observados diferem
ou não significativamente dos resultados esperados, e nos ajudam a decidir a aceitar ou a rejeitar hipóteses.
O contributo dos métodos estatísticos é um auxílio poderoso na decisão, mas não deve ser o único elemento para
decidir – a Estatística não é exacta!!
Formular as Hipóteses Escolher a Estatística

Tomar uma decisão
Estatísticas de Teste
Hipóteses Estatísticas
Face a uma determinada situação formulam-se duas hipóteses estatísticas (por ex., sobre determinados parâmetros
populacionais):
sao incependentes
Hipótese nula (designada por H0) - as variciveris
Hipótese alternativa (designada por H1) n

as variaweris rnalo sano imcle Rendlentes
Cestaio associadas
)
A hipótese nula (H0) é aquela que é submetida a teste.
A hipótese nula normalmente corresponde à ausência de diferença nas características ou nos resultados de interesse
ou efeito nulo.
Qualquer hipótese distinta de uma dada hipótese nula designa-se hipótese alternativa (H1).
30
Tomar uma Decisão
Minimizar e controlar o
risco de erro
Erros
Decisão
Rejeitar H0 Não Rejeitar H0
H0 Verdadeira Erro de tipo I (Prob. α) √
H0 Falsa √ Erro de tipo II (Prob. Β)
α – Nível de significância
Nível de Significância (α)
Probabilidade de cometer um erro de tipo I, i.e., rejeitar a hipótese nula quando ela é verdadeira.
Os níveis de significância mais usuais são α = 0,01 (1%) e α = 0,05 (5%).
Nível de significância - Máximo valor da probabilidade que estamos dispostos a aceitar para o erro do tipo I (α é
geralmente especificada antes de qualquer amostragem)
(α=0,05 => 95% de confiança de ter tomado a decisão correcta…)
Potência de Teste (1-β):
Probabilidade de rejeitar a hipótese nula quando a hipótese alternativa é verdadeira (para uma dada hipótese
alternativa). JESTE BILATERAL
:
zo m a de rejeisono de
Ho
Há um teste ideal ?
unsereNMNtiß Mutulanen
Se nível de significância = 0 e potência = 1… o o
WI TESTE
ONILATERAL
ESQVERBA
:
Ä
valores críticos
31
Escolher a estatística
Calcular o valor Decidir se a hipótese
de teste, apropriada
observado da nula é ou não
Estabelecer as para o parâmetro em
estatística de teste rejeitada, tendo em
hipóteses nula (H0) e estudo, que tem uma
tendo em conta uma conta um
alternativa distribuição de
amostra aleatória determinado nível de
probabilidade significância
particular
conhecida
Significância estatística
significancia estatistica (
mou
sig.)
O valor de p (p-value):
É uma medida da obtenção do resultado observado, se a hipótese nula for, efectivamente,
verdadeira.
Mede a probabilidade do resultado observado ser devido ao acaso.
É baseado na distância a que uma estatística amostral está do valor especificado pela hipótese nula.
estatisticamente
Resultado Significativamente Significativo…

-
É improvável que o resultado observado se deva ao acaso;

O resultado observado não é compatível com a hipótese nula;
A variação amostral não é suficiente para explicar o resultado observado;
A hipótese nula pode ser rejeitada;
A hipótese alternativa pode ser aceite;
Aceitando a hipótese nula, a probabilidade de o resultado ser falso é baixa (p. ex. inferior a 5%, p <
0,05).
DO QUI
-QUADRADO:
TESTE
- as variáveis saio inalependentes
p
3 0,0 5
Lacerita Ho
-se
)
raso sate indepensientes
as variaveis
p C
0.05-
( Ho
reserita-se
)
32
•O valor extremo para p, com o qual se pode

Nível de Significância considerar um resultado como sendo
estatisticamente significativo (por. ex. p < 0,05).
•O valor amostral do parâmetro cuja distribuição

Estatística do Teste amostral é conhecida se a hipótese nula for
verdadeira.
•O valor mínimo (ou máximo) que a estatística do

Valores Críticos teste deve atingir, para que seja possível considerar
como estatisticamente significativo um resultado.
•Incidem sobre parâmetros de uma ou mais

populações (ex., valor médio, variância,...)
Testes Paramétricos •Pressupõem uma forma particular para as
distribuições das variáveis envolvidas
(frequentemente a distribuição Normal)
•Não exigem pressupostos tão rígidos como os

paramétricos
•São aplicáveis independentemente da forma da
Testes Não-Paramétricos distribuição
•Regra geral, substituem as observações pela sua
ordem
Qual o parâmetro
que se está a
analisar /
comparar?
Como é que os Que tipo de

Teste(s) de
grupos são análise a
Hipóteses
formados? implementar?
Quantos grupos a
comparar?
33
Testes Paramétricos
Para uma
amostra
Testes t-Student
(Comparação de Médias
Populacionais)
Para duas Para duas

amostras amostras
independentes emparelhadas
Testes T-Student
One-Sample T Test - Comparar a média de uma variável com um valor de referência. Permite:
 Testar a diferença entre uma média deuma amostra com um valor de referência;
 Permite especificar o nível de confiança da diferença;
 Produz uma tabela com as estatísticas descritivas para cada variável testada.
Independent-Samples T Test - Comparar duas médias de amostras independentes:
 Compara a média de dois grupos de casos. Preferencialmente, para este teste, os sujeitos
devem ser seleccionados aleatoriamente para os dois grupos de forma a que as diferenças se
devam exclusivamente ao tratamento e não a outros factores. Uma pessoa não é classificada de
homem ou mulher aleatoriamente. Não é o caso, por exemplo se compararmos a média de
rendimento entre homens e mulheres.
 Exemplo. Num estudo sobre tensão arterial sanguínea elevada, os pacientes foram
escolhidos aleatoriamente para o grupo placebo e para o grupo tratamento. O grupo de placebo
recebia um comprimido inactivo e os sujeitos a tratamento recebiam um novo medicamento.
Após 2 meses de tratamento comparou-se os níveis de tensão média entre os dois grupos.
 Estatísticas para cada variável : é determinado a média, dimensão amostral, desvio padrão e
erro padrão da média.
 Estatísticas para a diferença das médias: média, erro padrão, intervalo de confiança para a
diferença das médias,
 Testes: teste de Levene para igualdade de variâncias, e ambos os testes t para igualdade de
médias assumindo variâncias idênticas e assumindo variâncias diferentes.
 A determinação dos grupos num t-teste para duas amostras independentes (t-teste 2i)
normalmente é efectuada pela concepção do desenho da investigação sendo atribuído um
número a cada grupo. No entanto os grupos podem ser determinados pela divisão de uma
variável em que é definido um ponto de corte para definir os grupos.
Paired Samples T Test - Comparar duas médias de amostras emparelhadas:
 Compara a média de duas variáveis para um mesmo grupo. Regista a diferença de valores
das duas variáveis para cada caso e testa se a média da diferença é Zero;
 Exemplo. Num estudo sobre a pressão arterial sanguínea, todos os pacientes foram medidos
no inicio do estudo e após tratamento. Assim cada sujeito tem dois valores também chamados
valor pré e pós tratamento. Um desenho experimental alternativo seria comparar os valores dos
34
pacientes com um grupo de controlo em que o emparelhamento seria feito por outra variável
(por exemplo idade de 75 anos);
 Estatísticas para cada variável: é determinado a média, Dimensão amostral, desvio padrão e
erro padrão da média;
 Estatísticas para cada par de variáveis: correlação, diferença das médias, valor da estatística
t, intervalo de confiança para a diferença das médias, desvio padrão e erro padrão da diferença
de médias.
 Dados: para as duas variáveis os dados têm de ser escalares (nível de medida deve ser
intervalar ou de rácio). Para o estudo de caso-controlo, a resposta para cada sujeito do par deve
ser considerado como o mesmo caso no ficheiro de dados.
 Pressupostos: as observações para cada par devem ser feitas nas mesmas condições. A
média das diferenças deve ser normalmente distribuídas. As variâncias de cada variável podem
ser iguais ou diferentes.
Exemplo
Pesos (em kg) de dois grupos de indivíduos (do sexo masculino) de nacionalidades diferentes (ingleses e japoneses):
Ingleses: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Japoneses: 58; 59; 61; 63; 71; 53; 54; 72; 61; 57
Existem diferenças estatisticamente significativas entre as médias dos dois grupos ?
35
Exemplo
Existem diferenças estatisticamente significativas entre as média do peso dos indivíduos ingleses e um valor de
referência de 75 Kg ?
36
Exemplo:
Pesos (em kg) de um grupo de indivíduos (do sexo masculino) antes e depois de um programa de emagrecimento:
Antes: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Depois: 78; 76; 78; 66; 76; 82; 76; 89; 87; 61
Existem diferenças estatisticamente significativas entre as médias dos dois grupos ?
H0 = As médias populacionais são iguais

H1= As médias populacionais são diferentes
Teste de Análise de Variância (ANOVA)
Introdução
Comparação de médias de mais do que duas populações, de onde foram extraídas amostras aleatórias
(independentes)?
ANOVA- ANalysis Of VAriance
A ANOVA é um teste paramétrico (generalização do teste t-Student)
Pressupostos: aplicável se a distribuição da variável em estudo for Normal e se as variâncias populacionais forem
homogéneas.
Porquê não utilizar o teste t-Student para comparar mais do que duas populações, duas a duas? O teste t-Student só
é válido para comparar médias de duas (e apenas duas) populações das quais foram extraídas duas amostras
aleatórias.
Teste t (duas pop.): Prob. Erro Tipo I = α x 100%

Teste t (k pop., duas a duas): Prob. Erro Tipo I ≈ 1 – (1 – α)k x 100%
Comparação de médias de 2 grupos: (α = 0,05)

Teste t-Student - H0: μ1 = μ2 [Erro Tipo I = 1 – 0,95 = 0,05 ou 5%]
Mais de 2 grupos:
Ex: H0: μ1 = μ2 = μ3
(1) H0: μ1=μ2 (2) H0: μ1=μ3 (3) H0: μ2=μ3
[Erro Tipo I = 1 – (0,95)3 = 0,14 ou 14%]
37
(4 grupos: Erro Tipo I = 0,26 ou 26%)
Comparação de médias de mais de 2 grupos

ANOVA: H0: μ1 = μ2 = μ3 = ... = μk
Porquê utilizar a análise de variância quando pretendemos testar a igualdade de médias? A ANOVA compara a
variância dentro de amostras ou grupos com a variância entre as amostras ou grupos.
Variância dentro dos grupos = variância residual ou dos erros

Variância entre os grupos = variância do factor
Se a variância residual (aquela associada aos erros de medida ou outros) for significativamente inferior à variância
entre os grupos, então as médias populacionais estimadas a partir das amostras são significativamente diferentes.
Tipos de ANOVA:
ANOVA a um factor (one-way) (se existir apenas um factor em estudo, i.e., uma variável
independente);
ANOVA factorial (se existir mais do que um factor, i.e., mais do que uma variável independente)
(Inclui o caso mais simples: ANOVA a dois factores (two-way)).
Nível do factor - cada uma das classes ou observações da variável independente.
Tratamentos - combinações dos níveis dos factores.
Na ANOVA a um factor os níveis são iguais aos tratamentos…
Tipos de ANOVA (quanto aos efeitos):

ANOVA Tipo I (de efeitos fixos) - (níveis do(s) factor(es) fixados à partida pelo investigador)
ANOVA Tipo II (de efeitos aleatórios) - (níveis do(s) factor(es) não fixado(s) à partida, i.e., se aleatórios)
ANOVA Tipo III (de efeitos mistos) - (ANOVA a mais do que um factor em que um dos factores é(são)fixo(s) e o(s)
outro(s) é(são) aleatórios)
ANOVA a um factor (one-way)
O procedimento ANOVA a um factor produz uma análise da variância para uma variável quantitativa
dependente, em função de uma variável independente – o factor.
A análise de variância é utilizada para testar a hipótese de um conjunto de médias serem iguais. Esta
técnica é a generalização do teste t para duas amostras independentes.
Para além de pretender determinar as diferenças entre as médias, poderá querer saber quais as
médias que diferem.
Há dois tipos de testes para comparar as médias: o teste a priori dos contrastes e os testes post-hoc.
Os Contrastes são testes aplicados antes da experiência e os testes post hoc são aplicados após a
experiência ter sido conduzida. Poderá também verificar as diferenças nas categorias.
Estatisticas:
 Para cada grupo: número de casos, média, desvio padrão, erro padrão da média,
mínimo, máximo, e intervalo de confiança da média a 95%;
 Teste de homogeneidade da variância de Levene, tabela da análise de variância e
testes de robustez de igualdade de médias para cada variável dependente;
 Teste a priori dos contrastes e testes post hoc de múltiplas comparações,
nomeadamente os testes : Bonferroni, Sidak, Tukey's , Hochberg's GT2, Gabriel, Dunnett,
Ryan-Einot-Gabriel-Welsch F teste (R-E-G-W F), Ryan-Einot-Gabriel-Welsch teste (R-E-G-W
Q), Tamhane's T2, Dunnett's T3, Games-Howell, Dunnett's C, Duncan's , Student-Newman-
Keuls (S-N-K), Tukey's b, Waller-Duncan, Scheffé, e teste das diferenças significativas.
38
Dados:
 A variável Factor tem valores inteiros, e a variável dependente deverá ser
quantitativa escalar.
Pressupostos:
 Cada grupo é uma amostra aleatória independente com distribuição normal ou
gaussiana.
 A análise de variância é robusta para valores com distribuição normal, ou pelo menos
para dados com distribuição simétrica.
 Os grupos deverão ser provenientes de populações com variâncias idênticas. Para
testar este pressuposto utilize o teste de homogeneidade de variância.
Modelo Teórico:
           
Estimativas Amostrais:
           
Exemplo:
Pesos (em kg) de três grupos de indivíduos (do sexo masculino) de nacionalidades diferentes (ingleses, mexicanos e
japoneses):
Ingleses: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Mexicanos: 65; 84; 63; 54; 86; 62; 73; 64; 69; 81
Japoneses: 58; 59; 61; 63; 71; 53; 54; 72; 61; 57
Existem diferenças estatisticamente significativas entre as médias dos três grupos?
39
Comparação Múltipla de Médias
40
ANOVA factorial
ANOVA a um factor (one-way) (uma variável independente, uma variável dependente)
Como analisar os efeitos de duas ou mais variáveis independentes sobre uma variável dependente?
ANOVA factorial
ANOVA 2 x 2 (informação sobre quantas variáveis independentes foram utilizadas e quantas condições existem em
cada uma)
Ex:
2 x 2 ANOVA - Duas variáveis independentes, cada uma com duas condições;
3 x 4 ANOVA - Duas variáveis independentes, uma com três e outra com quatro condições;
3 x 2 x 2 ANOVA - Três variáveis independentes, duas com duas e uma com três condições.
Exemplo:
Estudo do efeito do álcool e da cafeína sobre a capacidade de condução.
1, 2 : Efeitos principais 3 : Interacção
Previsões:
1. Altos níveis de álcool diminuem a capacidade de condução.
2. Altos níveis de cafeína podem melhorar a capacidade de condução devido ao efeito estimulante.
3. Devido à premissa enraizada de que a cafeína auxilia um indivíduo a manter-se alerta, podemos prever que um
aumento do nível de cafeína reduz a influência do álcool na capacidade de condução.
A ANOVA permite testar as três previsões numa única análise
Variáveis independentes (2): nível de álcool, nível de cafeína

Variáveis dependentes (1): capacidade de condução (nº de erros)
Efeitos principais: efeito global de cada uma das variáveis independentes sobre a variável dependente.
Interacção, entre as duas variáveis independentes.
Como efectuar o delineamento/design experimental de um projecto ANOVA para este estudo?
41
Delineamento - alocação de participantes às condições:

(duas variáveis independentes com duas condições/níveis)
Álcool: sem álcool e alto nível de álcool
Cafeína: sem cafeína e alto nível de cafeína
ANOVA 2 x 2
Design experimental nº 1: Design experimental nº 2:
Design experimental nº 3:
Ex. (delineamento nº 1): Duas variáveis independentes entre participantes

Análise exploratória de dados (IC de 95%, ntotal = 48 = 4 x 12):
Sem álcool Com álcool

MD: 7,00; DP: 1,71 MD: 21,25; DP: 1,91
Sem cafeína
IC : 5,92 – 8,08 IC : 20,03 – 22,47
MD: 6,33; DP: 1,50 MD: 11,08; DP: 1,73
Com cafeína
IC : 5,38 – 7,28 IC : 9,98 – 12,18
Homogeneidade de variâncias √
Dados normalmente distribuídos √
42
Dimensão do efeito (η2 parcial)
Testes Não Paramétricos
A maior parte dos testes de hipóteses e de significância (ou regras de decisão) considerados
anteriormente requerem vários requisitos acerca das populações de onde são extraídas as amostras.
Na prática surgem situações em que tais requisitos não podem justificados ou j que levantam muitas dúvidas (por ex.
para populações muito assimétricas).
Os testes não paramétricos são independentes da distribuição da população e dos parâmetros a ela associados.
Os testes não paramétricos podem ser utilizados como simplificação de testes mais complexos. São especialmente
úteis para dados não numéricos.
43
Tipos de Testes Não Paramétricos:

Amostras Emparelhadas:
 Teste dos Sinais;
 Teste de Wilcoxon;
 Teste de Friedman;
 Teste de McNemar.
Amostras Independentes:
 Teste U de Mann-Whitney;
 Teste H de Kriskall-Wallis.
Aplicação - Permite comparar duas amostras dependentes ou correlacionadas.
Chama-se teste dos sinais porque utiliza como dados, sinais positivos e negativos em vez do valor
numérico das respostas ou da sua diferença.
É particularmente útil quando, num par aleatório (X, Y) uma das variáveis tende a ser superior à
outra.
Considera-se uma amostra aleatória de n pares (Xi, Yi) e o sinal atribuído à diferença Di = Yi – Xi.
Teste dos Sinais
Hipótese nula (a testar):H0: P(X>Y) = P(X<Y)= ½ ou P(+) = P(-) = ½
Estatística do teste:
V – nº de sinais que ocorrem com menor frequência
V ~ Bin(n, ½)
n’ -> nº total de sinais (+) e (-) ou seja n’ = n – nº empates
Para pequenas amostras (n’ < 20):


 1 
         
 2

v0 – nº de sinais menos frequentes (observados).
Regra de decisão: Se P(V≤v0) < α => Rejeitar H0 (para o nível de significância α).
Exemplo:
Um estudo foi realizado no sentido validar a afirmação que os homens tem maior propensão para o raciocínio
abstracto. Recolheu-se uma amostra de 8 casais e submeteu-se cada um deles a uma prova, classificando-os de
seguida:
Casais a b c d e f g h
Classificação H>M H=M H>M H<M H>M H=M H<M H>M
Será que é possível concluir que a afirmação é válida?

(considerar α = 5%)
H0: P(+)=P(-)=1/2
H1: P(+)>P(-)
Casais a b c d e f g h
Sinal + 0 + - + 0 - +
44
V – nº de sinais menos frequentes - V=2 (sinais -)
n (nº pares) = 8
n’ = nº pares – nº empates = 8 – 2 = 6

6 1  6 1  6 1  6 1 
 ≤ 2 =      =     +     +     =
 2 0 2 1 2 2 2

1 
=   1 + 6 + 21 = 0,4375
2
Conclusão: P(V≤2) > 0,05 - Não rejeitar H0, para α = 5%.
Não é possível concluir que os homens têm maior propensão para o raciocínio abstracto.
Teste de Wilcoxon
Aplicação - Permite comparar amostras emparelhadas (por ex., comparar a resposta dada a dois tratamentos ou
estímulos X e Y aplicados a indivíduos semelhantes).
O teste de Wilcoxon é mais potente que o teste dos sinais e deve ser usado preferencialmente se for legítimo admitir
que as variáveis Di (sinais das diferenças) tem distribuição contínua e simétrica.
Hipótese nula (a testar):

H0: mediana Di = 0 (a mediana das diferenças deverá ser 0)
Estatística do teste:
W+ : soma das diferenças Di com sinal (+)
W- : soma das diferenças Di com sinal (-)
Considera-se para estatística do teste o menor dos valores da estatística W.
Regra de decisão: Rejeitar H0 para um certo α quando:

|W| > Wc (teste unilateral)
W ∈ (Wc1, Wc2) (teste bilateral)
Wc – valor crítico (obtido da tabela)
Para pequenas amostras (n’<20) existe uma tabela de percentis para a estatística W para os vários valores de n’ e
para os diferentes níveis de significância.
n’ = nº pares – nº empates
Exemplo:
Para testar um novo regime dietético, submeteram-se 6 indivíduos a 30 dias de tratamento, tendo-se obtido a
seguinte tabela de pesos (kg):
Antes 95 110 98 104 80 91

Depois 92 110 94 103 81 86
Será o novo regime dietético eficaz na diminuição do peso?

45
H0: md Di = 0
H1: md Di ≠0 Tabela das Ordens
Di = D - A
Di -3 0 -4 -1 1 -5
Ordens 3 (-) - 4 (-) 1,5 (-) 1,5 (+) 5 (-)
n’ = n º pares – n º empates = 6 – 1 = 5
W–soma das ordens
W+ = 1,5 - menor soma: W+ = 1,5
W- = 13,5
Wc – valor crítico da estatística de Wilcoxon (tabela)
Wc = 0 (para α = 5%)
Conclusão: W+ > Wc - Não rejeitar H0.
Para α = 5%, o novo regime dietético não produziu os efeitos desejados.
46
Teste de Mann-Whitney
Aplicação: Decidir se duas amostras independentes, de dimensões n1 e n2, provêm ou não da mesma população.
Hipótese nula: H0: F1=F2
(as funções de distribuição são iguais nas duas populações)
Metodologia
Associar os valores das duas amostras e ordená-los do menor para o maior, e atribuir números de ordem (ou ordens)
a todos os valores. Se dois ou mais valores são iguais (i.e., existem empates) atribui-se a média das supostas ordens.
Determinar a soma das ordens para cada amostra. Representar essas somas porW1 eW2, para cada amostra com os
tamanhos n1 e n2.
Por conveniência deve escolher-se n1 para a amostra mais pequena.

Uma diferença significativa entre a soma das ordens implica uma diferença significativa entre os grupos.
Para testar a diferença entre a soma das ordens, utiliza-se a estatística:
     

 =    + 
   =    + 
 
Menor Soma das Ordens Maior Soma das Ordens
U=min (U1, U2) (Nota: para n1,n2 ≤ 10)
Regra de decisão: Se U < Uc => Rejeitar H0 (para o nível de significância α).
Uc - valor crítico da estatística U.
Considerações (paramétrico vs. não-paramétrico):

Para comparar duas amostras independentes e teste t-Student é mais potente quando a distribuição
é Normal. Para distribuições próximas da Normal há, em geral, uma ligeira diferença entre as potências
dos dois testes.
Quando nada se sabe sobre a forma da distribuição, o teste U é nitidamente mais eficiente que o
teste t-Student e deve, portanto, ser o utilizado.
Exemplo:
A um grupo experimental (GE) e a outro de controlo (GC) aplicou‐se um novo procedimento clínico
medindo‐se a resposta de cada indivíduo, sob a forma de um parâmetro apropriado. Considerando que
não existe garantia de normalidade da distribuição de referência, verificar se se encontram diferenças
significativas entre os dois grupos:
47
GE 11 15 12 27 10 9 28
GC 19 52 13 8 22 11 18
   
 = 7  7     41   7  7   ,
 
W1 = 48,5; W2 = 56,5
Menor Valor da Estatística de U
Uc = 8 (valor crítico da estatística de Mann-Whitney).
Conclusão: U2 > Uc - Não rejeitar H0 (para α = 5%).

Não se encontram diferenças significativas entre os dois grupos.
Teste de Kruskall-Wallis
Aplicação: Generalização do teste U para k amostras (k >2) - testar a hipótese de que k amostras quantitativas
independentes foram obtidas da mesma população.
A única exigência para a aplicação do teste está relacionada com o processo de obtenção das amostras, que deve ser
aleatório.
O teste H é alternativa não paramétrica ao teste (paramétrico) ANOVA.
48
Metodologia:
1. Ordenar as observações das k amostras num único grupo atribuindo-lhes ordens de 1 a n.

2. Calcular Ri de cada amostra, ou seja, a soma das ordens.
3. Calcular o valor da estatística H.
Hipótese nula:
H0: F1=F2=…=Fk
(as funções de distribuição são iguais nas k populações)
Estatística H (forma simplificada):


12 
=   3  1
  1 

Sendo

     1

R(Xij) - ordem de Xij na ordenação das observações.
Regra(s) de decisão:
1) Se k = 3 e n1, n2, n3 < 5, utiliza-se a tabela dos valores críticos da estatística H:

Se H > Hc => Rejeitar H0 (para o nível α)
2) Se pelo menos uma das amostras tiver dimensão ni > 5, utiliza-se a distribuição de Qui-Quadrado (k-1 g.l.):

Se H > ; => Rejeitar H0 (para o nível α)
Exemplo:
Um investigador pretende avaliar um parâmetro comportamental de alunos de cursos universitários diferentes.
Seleccionou três amostras aleatórias e aplicou um teste padronizado, tendo obtido os seguintes resultados:
Curso 1 – 1,2,2,2,3,3
Curso 2 – 3,5,5,6,6,6
Curso 3 – 2,3,6,8,9,9
49
Haverá diferenças nos três grupos?

H0: F1=F2=F3 (a função de distribuição é a mesma)
H1: pelo menos uma das Fi é diferente
k amostras independentes (k=3)

n = n1 + n2 + n3 = 18
Tabela Inicial
N1 = 6 N2 = 6 N3 = 6
1 3 2
2 5 3
2 5 6
2 6 8
3 6 9
3 6 9
Tabela das Ordens
C1 C2 C3
1 7,5 3,5
3,5 10,5 7,5
3,5 10,5 13,5
3,5 13,5 16
7,5 13,5 17,5
7,5 13,5 17,5
R1 =26,5 R2 = 69 R3 = 75,5

12 
=   3  1
  1 

12 26,5  69  75,5

    318  1  8,28
1818  1 6

;,  5,99
Conclusão: 8,28 > 5,99 - Rejeitar H0 (para α = 5%).
Existem diferenças significativas entre os três grupos
50
Regressão Linear
Análise de regressão
Conjunto de técnicas estatísticas que permitem investigar e modelar as relações entre variáveis e possibilitam a
previsão da variável independente para valores não observados da variável dependente, mas dentro do seu domínio.
Regressão vs. Correlação:
A relação entre duas variáveis pode ser de dependência funcional (relação de causa-efeito) de uma
em relação à outra sem que o recíproco seja também válido.
Duas variáveis podem apresentar-se correlacionadas embora não dependentes uma da outra.
A regressão estuda a relação funcional entre duas variáveis enquanto a correlação estuda o grau de
associação entre as variáveis cuja relação pode ou não ser de dependência funcional.
Regressão Linear
Relação de tipo linear entre uma variável dependente (Y) e uma variável independente (X).
 =  +  + 
 =  + 
 =   
51
Exemplo:
Xi Yi
20 112
19 95
25 120
31 128
36 155
42 153,2
48 186
57 193
60 216
66,3 235
65 216
52,4 186
45 175,2
Avaliação da qualidade do ajustamento do modelo da regressão linear simples:
1. Análise de variância (ANOVA) no modelo de regressão linear simples: verificar se o modelo ajustado
é significativo.
2. Testes t-Student aos valores do declive e ordenada na origem.
3. Coeficiente de determinação (R2): percentagem da variabilidade total de Y explicada pelo modelo de
regressão ajustado.
4. Análise de resíduos (ou erros de ajustamento): os erros devem distribuir-se normalmente com média
zero e variância constante e devem ser independentes.
Análise de Resíduos (ou erros de ajustamento):
52
Regressão Linear Múltipla
Estimar valores de uma variável dependente (Y) em função de múltiplas variáveis independentes (X1, X2, ..., Xk).
Determinar o quanto as variações de Xi (i = 1,...,k) podem afectar Y.
Modelo:
E(y) = f(X1, X2, ..., Xk)
Linear: E(y) = β0 + β1X1 + β2X2 + ... + βkXk
Onde Y, X1, ..., Xk podem representar as variáveis originais ou transformadas.

Admite-se que Y, X1, ..., Xk são variáveis contínuas.
Análise de variância (ANOVA) no modelo de regressão linear múltipla: verificar se o modelo ajustado é significativo.
E(y) = β0 + β1X1 + β2X2 + ... + βkXk

H0: β1 = β2 = ... = βk = 0
Testes t-Student a cada um dos coeficientes:
E(y) = β0 + β1X1 + β2X2 + ... + βkXk

H0: βj = 0
Sob H0 e considerando as suposições do modelo, t tem distribuição t-Student:

 =  se o erro padrão da estimativa bj

Coeficiente de determinação (R2): percentagem da variabilidade total de Y explicada pelo modelo de regressão
ajustado.
çã 
 = 0 ≤  ≤ 1
çã 
Exemplo:
Num estudo sobre as classificações obtidas na UC de Gestão e Organização de Dados obtiveram-se os seguintes
resultados:
Classificação (A) Nº de Aulas Frequentadas (B) Nº de Horas de Estudo

10 10 5
5 8 5
4 3 3
8 9 6
11 9 7
16 11 10
17 11 10
18 12 12
9 8 6
7 5 5
Estimar o modelo preditivo das classificações vs (A) e (B)
53
Modelo:
 = 1.893  0.270    1.460  
Onde:
Y = Classificação;
X1i = Número de Aulas;
X2i = Número de Horas de Estudo.
O modelo é altamente significativo (F = 48.160, p < 0,001) e explica 91,3% da variabilidade observada (Ra2).
Os testes aos coeficientes sugerem que, para uma probabilidade de erro de 5%, apenas a variável “número de horas
de estudo” possui um efeito significativo sobre a classificação final (p = 0,002).
Modelo de regressão linear simples (apenas com X2 = número de horas de estudo):
  1095  1.680  
O modelo é altamente significativo (F = 98.888, p < 0,001) e explica 91,6% da variabilidade observada (Ra2).
O novo modelo ajustado, apesar de ter menos uma variável independente, explica aproximadamente a mesma
percentagem de variabilidade total do modelo com duas variáveis independentes (R2 = 0.925 vs. 0.932).
A probabilidade de significância para a

constante do modelo é p = 0,407. Como
0,407 > 0,05, não rejeitamos a hipótese
nula, H0: Constante do modelo = 0.
É possível assim concluir que o valor
esperado da classificação que um aluno
obterá se não estudar para o exame será
de zero valores!
54

GOD SebentaTeórica

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

GOD SebentaTeórica

Enviado por

Direitos autorais:

Formatos disponíveis

Sebenta Gestão e Organização de Dados Exame Teórico

População - Conjunto de todos os elementos cujas características pretendemos estudar.

Tamanho da Amostra = Nº de População

Amostra - Subconjunto (finito) da população.

Amostragem - Processo de selecção de indivíduos/sujeitos (pessoas, animais, objectos,…) de uma população.

Aleatória Não Aleatória

valores. (ex.: número de nascimentos, de acidentes,…)

Organização dos Dados (Ex: Notas de um teste)

Variável Frequência Frequência Frequência Frequência

Dados Qualitativos - Gráficos de barras, gráficos circulares (sectoriais).

Histograma (ex: idades)

Medidas Descritivas - Sumariam características importantes das amostras. Categorias:

Medidas características de distribuições univariadas:

Medidas de Localização Central

Média Aritmética (ou Média)

Existem outros tipos de médias: Aparada, Harmónica, Quadrática, …

A Mediana () divide ao meio o conjunto de valores observados (valores ordenados)

A Moda é o valor mais comum de um conjunto de observações

Moda - Dados não classificados e dados classificados discretos

Distribuição unimodal - Moda (ocorre uma vez)

Comparação Entre Média, Mediana e Moda

Simétrica Assimétrica (ou enviesada)

Média = Mediana = Moda Distribuição Simétrica (Distribuição Unimodal)

Média = Mediana = Moda

Medidas de Localização Não Central

Os quantis estão relacionados entre si (e com amediana). Por ex.:

As medidas de localização não dão informação suficiente sobre o conjunto de dados.

{14, 15, 18, 18, 25}

Amplitude total = Máx. –Mín.

Amplitude interquartil = q3 – q1 > Engloba 50% das observações totais ( centrais)

{14, 15, 18, 18, 25} 18 – 15 = 3

Variância e Desvio Padrão

Variância = (Desvio Padrão)2 = s2

* Quanto maior for a dispersão, maior é o desvio padrão.

As medidas de variabilidade absoluta dependem das unidades das observações.

Coeficiente de variação (CV)

* CV: sem unidades e pode ser expresso em percentagem.

Peso: CV = 3/10 = 0,33

Momento de ordem 3 (p=3)

Desvio Padrão corrigido

g1= 0 - Distribuição Normal

Momento de ordem 4 (p=4)

Desvio Padrão corrigido

Diagrama de Extremos e Quartis

Valores Atípicos (“Outliers”)

Análise Exploratória de Dados

Aluno nº Nota Aluno nº Nota Aluno nº Nota

Aluno nº Nota Aluno nº Nota Aluno nº Nota

Dependência Funcional e Independência

Análise de Relação Entre Duas Variáveis

As medidas de associação quantificam a intensidade e a direcção da associação entre duas variáveis.

Frequências Observadas (Oij) e Frequências Esperadas (Eij)

V=v Vv V=v Vv

Medidas de Associação (para variáveis nominais)

Coeficiente V de Cramer Medidas simétricas

Qui-quadrado (χ2) (Cálculo)

Coeficientes de Correlação varia entre F 1. 1 3

Coeficiente de correlação (linear) de Pearson

Coeficiente de correlação linear de Pearson (r)

Propriedades do coeficiente de Pearson:

Coeficiente de correlação de Spearman (ρ):

Pearson vs. Spearman

Distribuições de Variáveis Aleatórias

Função Resultado Número