Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução
(Bio)Estatística - Área do conhecimento científico que se debruça sobre os processos de recolha de informação
(dados), da análise e caracterização da informação e da tomada de decisão fundamentada a partir da informação
recolhida.
Amostra
Estatística Descritiva - Conjunto de métodos cujo objectivo é sintetizar e representar de forma compreensível a
informação contida nos dados.
Estatística Inferencial (ou Inferência Estatística) - Permite fazer estimativas e tirar conclusões sobre uma população
a partir da informação contida numa amostra aleatória.
Amostragem
Uma amostra é aleatória quando a probabilidade de cada um dos sujeitos da população vir a integrá-la é conhecida.
Variáveis Aleatórias
Variável (aleatória) - Característica da população que pode tomar vários valores possíveis.
Variável
Qualitativa Quantitativa
Discreta Discreta
Contínua
Discretas - Só podem tomar um número (finito ou infinito) numerável de
1
Sebenta Gestão e Organização de Dados Exame Teórico
Contínuas - Podem tomar qualquer valor num intervalo de números reais. (ex.: peso, altura, temperatura,…)
Nominais - Cada um dos valores da variável corresponde a uma designação. (ex.: género (Masculino, Feminino),
grupo sanguíneo,…)
Ordinais - As suas categorias (classes) têm uma relação de ordem. (ex.: nível socio-económico (baixo, médio, alto),…)
pescala
Quantitativas Qualitativas
Intervalar Nominal
Razão Ordinal
Escalas de Medida
Nominal - Dados identificados apenas pela atribuição de um nome que designa uma classe. As classes são
mutuamente exclusivas e não ordenáveis.
Ordinal - Classes ordenáveis
Intervalar - Dados expressos por números cuja origem e unidade de medida são arbitrárias.
Razão - Origem fixa e absoluta. Zero significa ausência total.
Distribuição de Frequências
Xi Fi fi Fai fai
X1 F1 f1 = F1 / n F1 f1 Tabela de
X2 F2 f2 = F2 / n F1+ F2 f1+ f2 Frequências
… … … … …
Xk Fk fk = Fk / n n 1
2
Sebenta Gestão e Organização de Dados Exame Teórico
Frequência Frequência
Frequência Frequência
Nota Absoluta Relativa
Absoluta Relativa (%)
Acumulada Acumulada (%)
7 1 5 1 5
8 3 15 4 20
10 3 15 7 35
12 5 25 12 60
13 3 15 15 75
14 3 15 18 90
15 2 10 20 100
Representações Gráficas
Medidas Descritivas
3
Sebenta Gestão e Organização de Dados Exame Teórico
A Média (̅ ) é obtida dividindo a soma de todos os valores numéricos observados pelo nº de observações (n):
1
̅
Mediana
Se n par
1
2 2
2
Se n Ímpar
Moda
A posição relativa da média, mediana e moda, numa distribuição de frequências, dá informação sobre a forma da
curva de distribuição.
Distribuição
Média > Mediana > Moda Distribuição Assimétrica Positiva (ou enviesada à direita)
Média < Mediana < Moda Distribuição Assimétrica Negativa (ou enviesada á esquerda)
4
Sebenta Gestão e Organização de Dados Exame Teórico
Média > Mediana > Moda Média < Mediana < Moda
Quantis (Q):
Percentil (pk)
Os percentis dividem um conjunto de dados, preparados em ordem crescente, em 100 partes iguais.
O valor do percentil de ordem k (k = 1, 2, …, 99) é denotado por pk.
Cerca de k% das observações são menores que pk. 99 Percentis
Decil (dk)
Os decis dividem um conjunto de dados, preparados em ordem crescente, em10 partes iguais.
O valor do decil de ordem k (k = 1, 2, …, 9) é denotado por dk.
Cerca de 10k% das observações são menores que dk. 9 Decis
Quartil (qk)
Os quartis dividem um conjunto de dados, preparados em ordem crescente, em4 partes iguais.
O valor do quartil de ordem k (k = 1, 2, 3) é denotado por qk.
Cerca de 25k% das observações são menores que qk. 3 Quartis
=p50 = d5 = q2
p10 = d1, p20 = d2, …, p90 = d9
p25 = q1, q50 = q2, p75 = q3
Medidas de Dispersão
Amplitude
Amplitude Total
5
Sebenta Gestão e Organização de Dados Exame Teórico
Amplitude Interquartil
O desvio padrão (s) indica a proximidade com que os valores estão agrupados à volta da média.
A média é considerada como referência para avaliar a dispersão.
Variância
1
̅
1
Desvio Padrão
Coeficiente de Variação
Variabilidade relativa
, 0
̅
Ex:
Média Desvio Padrão
Peso (kg) 10 3
Volume (dm3) 30 6
6
Sebenta Gestão e Organização de Dados Exame Teórico
Medidas de Forma
Medidas de Assimetria
Coeficiente de Assimetria (g1)
1 2
esauerdo
g1 < 0 - Assimetria à direita
-
X
assimetria
aireiten
assime tria
negativa g1 > 0 - Assimetria à esquerda
-
-
positi
Medidas de Curtose(achatamento)
Coeficiente de Curtose (g2)
1 1
3
1 2 2 3
Distribuição Normal
g2 < 0 g2 = 0 g2 > 0
7
Sebenta Gestão e Organização de Dados Exame Teórico
“Outliers”:
Moderados (°)
Extremos (*)
8
Sebenta Gestão e Organização de Dados Exame Teórico
9
Sebenta Gestão e Organização de Dados Exame Teórico
Análise Bivariada
A relação entre duas variáveis pode ser mais ou menos acentuada, podendo chegar à:
Dependência total (dependência funcional) -
wariavais
se as forem
decendentes estão
Independência
,
associadas
Relação Exacta
Cruzamento de Variáveis
As tabelas de dupla entrada (tabelas de contingência) são a técnica básica para examinar a relação entre duas
variáveis categoriais (nominal ou ordinal).
Doença
Sim Não
Exposição
à Doença
Sim A B A+B
Não C D C+D
A+C B+D A+B+C+D
10
Sebenta Gestão e Organização de Dados Exame Teórico
E11 = (R1 x C1) / N = (21 x 25) / 49 = 10,7 E12 = (R1 x C2) / N = (21 x 24) / 49 = 10,3
TESTE DO QUI
-QUADRADO:
de indlependlemanal os alo is critérios all
se indepenalentes
:
wariavei
?
classi ficação dds
s
'
Ex
amostras foram
homogeneidade
as
:
- de
relativament
test
homogéneas
waidas populatoes
CoeficientePhi (φ) ao
critário classificação
de
?
ae
Medidas Direccionais
*
Medidas baseadas na estatística do Qui-quadrado (χ2)
12 10,7 9 10,3 13 14,3 15 13,7
0,551
10,7 10,3 14,3 13,7
11
Sebenta Gestão e Organização de Dados Exame Teórico
como avaliar inderanasemia l associação para variaveis qualitativas ( on
oschimais
p
nominais
)
O teste de qui-quadrado mede a discrepância entre a frequência das observações em cada célula e a frequência sã
0
variáweis
Cteste
a perqunta As inale perchern tes tiron ou ñão
wo
responde
:
?
!
esperada para essas células se as linhas e colunas não tiverem relação entre si (forem independentes).
alcisão
estatistico ( al hipóteses ), netodocognd estatistica de apoio a
teste
Coeficiente Phi (φ): Raíz quadrada do rácio da estatística de qui-quadrado pelo número total de observações (N);
(variáveis dicotómicas).
Coeficiente V de Cramer: Reclassificação do valor de phi, onde k é o menor dos valores entre linha e coluna; (0 ≤ V ≤
1).
1
to
Awaria
entre
,7)
Coeficiente de Contingência: Roma valores entre zero e a raiz quadrada de [(k-1)/k], onde k é omenor valor entre
linha e coluna.
Correlação
us aualiaçao l aucentificacao entre duas variáveis
Dadas duas variáveis, se a intensidade de uma é acompanhada tendencialmente pela intensidade da outra, no
mesmo sentido, ou sentido inverso, dizemos que as variáveis estão correlacionadas.
cordinais ou
Medida de associação não paramétrica entre duas variáveis pelo menos ordinais.
Ex: Xi yi xi yi
20 125 33 129
Idade (X) (Anos)
42 147 59 147
Pressão Arterial S. (Y) (mmHg)
72 160 38 115
43 137 70 160
Correlação 36 118 75 162
63 149 28 128
25 117 32 140
Diagrama de Dispersão (Gráfico X-Y) 49 128 37 143
55 150 53 139
57 152 59 147
12
Sebenta Gestão e Organização de Dados Exame Teórico
Covariância (SXY): é uma medida de variabilidade comum de duas variáveis numéricas (quantitativas).
1
Propriedades da covariância:
Se SXY > 0, as duas variáveis crescem ou decrescem conjuntamente.
Se SXY < 0, quando uma variável cresce, a outra tem tendência a decrescer.
Se SXY = 0, não há relação linear.
(-1 ≤ r ≤ 1)
SXY – Covariância
sX – Desvio padrão de X
sY – Desvio padrão de Y
13
Sebenta Gestão e Organização de Dados Exame Teórico
Estimação de Parâmetros
Variáveis Aleatórias
Definição
Caracteristicas
Propriedades
Nem sempre os resultados possíveis (espaço amostral) de uma experiência aleatória são valores numéricos.
No entanto, a maior parte das vezes estamos interessados em resultados numéricos.
É possível atribuir um número (real) a cada resultado do espaço amostral.
Uma variável aleatória (v.a.) X é uma função que associa um número real x a cada resultado s do espaço amostral S.
14
Sebenta Gestão e Organização de Dados Exame Teórico
Em função dos valores que a v.a. adquire, esta pode ser classificada em discreta ou contínua:
As v.a. discretas podem ser definidas por qualquer uma das seguintes funções:
Função de probabilidade, f(x)=P(X=x)
Função de distribuição, F(x)=P(X≤x)
Função de Probabilidade - É uma função f que associa a cada valor possível x de X a sua probabilidade f(x) = P(X=x)
Propriedades:
0
1
Ex.:
Considerar os casais que têm 3 filhos e a experiência estatística em que se regista o sexo de cada um dos três
filhos, por ordem crescente de idade. Definir uma variável aleatória que descreva o nº de rapazes.
Eventos:
F = {a criança é do sexo feminino}
M= {a criança é do sexo masculino}
15
Sebenta Gestão e Organização de Dados Exame Teórico
Distribuições Discretas
Distribuição de Bernoulli
A distribuição de Bernoulli, Bernoulli (p), é uma distribuição associada a uma sequência de tentativas (processo de
Bernoulli), cada uma com dois resultados possíveis *
Processo de Bernoulli:
Qualquer experiência estatística com as seguintes propriedades:
Consiste em n tentativas repetidas;
Cada tentativa tem dois resultados possíveis (sucesso ou insucesso);
A probabilidade de sucesso p é a mesma em qualquer tentativa;
As tentativas repetidas são independentes (a probabilidade de sucesso não é afectada pelo possível
conhecimento do resultado obtido em tentativas anteriores).
1 , 0,1
0,
Probabilidade de sucesso: p
Probabilidade de insucesso: q = 1-p
Propriedades:
E[X] = p Var[X] = p ⋅q
Exemplos de aplicação:
O sexo de umindivíduo (M ou F);
O estudo da incidência de uma certa doença numa população. X pode indicar se a doença está
presente (X=1) ou ausente (X=0), num indivíduo da população (seleccionado ao acaso);
O factor Rh sanguíneo (positivo ou negativo).
Ex:
Considerar o lançamento aleatório de um dado cinco vezes e a ocorrência de um número superior a 2 em cada
lançamento.
a) Definir e determinar a probabilidade de sucesso em cada lançamento.
b) Verificar se se está em presença de um processo de Bernoulli.
16
Sebenta Gestão e Organização de Dados Exame Teórico
Distribuição Binomial
A distribuição Binomial, Bin (n,p), é uma generalização da distribuição de Bernoulli, para o caso de n tentativas
independentes.
Aplicações: em amostragem e em situações em que o tamanho da amostra é conhecido e em que se sabe quantas
vezes é que um acontecimento ocorreu.
A distribuição Bin(n,p) está para as distribuições discretas assim como a distribuição normal está para as
distribuições contínuas.
X = número de sucessos em n experiências de Bernoulli (todas independentes), com n fixo à partida e p a
probabilidade de sucesso em cada experiência.
1 , 0,1,2, … ,
0, 0,1,2, … ,
!
! !
Propriedades:
17
Sebenta Gestão e Organização de Dados Exame Teórico
Exemplos de aplicação:
O nº de pessoas com factor Rh positivo num conjunto de 10 indivíduos;
O nº de raparigas no conjunto de 5 filhos de um casal;
O nº de alunos de Gestão e Organização de Dados que vão concluir a UC, com sucesso, este ano.
A soma de duas variáveis Binomiais independentes e com o mesmo parâmetro p, é ainda uma variável Binomial com
parâmetros n igual à soma dos respectivos parâmetros n1 e n2 e p.
Ex.:
X representa o número de rapazes no conjunto de 6 filhos de um casal e Y o número de rapazes no conjunto
de 5 filhos de outro casal. Nos dois conjuntos o número de rapazes tem distribuição Binomial de parâmetros n=11 e
p = probabilidade de um filho ser rapaz.
As v.a. contínuas podem ser definidas por qualquer uma das seguintes funções:
Função densidade de probabilidade, f(x)
Função de distribuição, F(x)=P(X≤x)
* f(x) não representa P(X=x). Numa v.a. contínua P(X=x)=0 para todo o x.
** F(x) representa a probabilidade acumulada até x.
O gráfico da f.d.p. (ou curva da densidade) é um gráfico que traduz a distribuição de probabilidade
de uma v.a. contínua.
Todos os pontos sob a curva têm de ter uma ordenada maior ou igual a zero.
A área total sob a curva tem de ser unitária.
As probabilidades obtêm-se a partir de áreas sob partes da curva.
Ex:
18
Sebenta Gestão e Organização de Dados Exame Teórico
Distribuições Contínuas
Distribuição Normal
Propriedades:
19
Sebenta Gestão e Organização de Dados Exame Teórico
Gvaria
A distribuição N(μ=0, σ2=1) é designada por distribuição normal estandardizada *
Variável Aleatória Z
~ 0, 1
O cálculo de probabilidades com a v.a. X, para qualquer média ou variância, pode ser reduzido ao cálculo com a v.a.
Z:
A soma de variáveis aleatórias normais é ainda Normal com média igual à soma das médias (se as variáveis forem
independentes a variância é igual à soma das variâncias).
Em particular a média de n variáveis normais independentes e com a mesma distribuição é ainda Normal:
~ ,
√
A média de um conjunto de n variáveis aleatórias independentes e identicamente distribuídas, com média μ e desvio
padrão σ, converge para μ à medida que n aumenta.
A frequência relativa de um certo acontecimento de interesse num conjunto de n experiências independentes,
converge para a probabilidade do acontecimento à medida que n aumenta.
20
Sebenta Gestão e Organização de Dados Exame Teórico
O TLC permite dizer que a média de um conjunto de variáveis aleatórias com uma qualquer distribuição é
aproximadamente Normal (cada vez mais Normal à medida que o nº de variáveis aumenta):
~
~ ⟹ . ,
√
Se tivermos n variáveis aleatórias X1,X2…,Xn independentes e com a mesma distribuição de média μ e variância
σ2,então quando n cresce para infinito:
0,1
/√
Por ex.:
Probabilidades associadas a distribuições Binomiais e a distribuições de Poisson
Aproximação Binomial - Normal
Probabilidades associadas a uma distribuição Binomial, Bin(n,p), podem ser aproximadas utilizando uma distribuição
Normal, N(μ,σ2), com μ=n∙p e σ2 = n∙p(1−p).
Para que a aproximação seja boa, devemos ter um valor de n grande. Ou seja, um valor tal que: n∙p ≥ 5 e n∙(1−p) ≥ 5.
Quando se utiliza a distribuição Normal (que é uma distribuição contínua) para aproximar a distribuição Binomial
(que é uma distribuição discreta), efectua-se uma correcção de continuidade ao valor discreto x na distribuição
Binomial representando o valor x pelo intervalo de x – 0,5 a x + 0,5.
Distribuição Qui-Quadrado
A distribuição χ2(k), proporciona elementos necessários para efectuar inferências sobre a variância de uma
população a partir de uma amostra.
* k (ou ν) –> nº de graus de liberdade (nº inteiro positivo)
21
Sebenta Gestão e Organização de Dados Exame Teórico
Propriedades:
Distribuição t de Student
1
,
1
Estimação de Parâmetros
Inferência Estatística
Amostragem
Da amostra à população:
Selecção da(s) amostra(s))
Estimar parâmetros
desconhecidos da população Determinar se as diferenças
(parâmetros populacionais) a entre duas amostras se devem
partir das correspondentes ao acaso ou se são na
quantidades amostrais realidade significativas
(Estatísticas amostrais).
22
Sebenta Gestão e Organização de Dados Exame Teórico
Amostragem e Métodos de
Inferência Amostragem
Distribuições Estimação e
Amostrais Estimadores
Amostragem e Inferência
Amostras inadequadas - Generalização (intencional) e abusiva do que foi observado numa amostra muito diminuta
para uma população de dimensão considerável. Ex.: “9 em cada 10 atletas preferem a bebida energética x…”.
Amostras auto-seleccionadas - Ex.: apresentar uma questão e solicitar os espectadores que telefonem para um
número se a sua opinião é "sim" e para outro número se a sua opinião é "não".
Estatística Inferencial - Efectuar inferências sobre uma população a partir de uma amostra dela extraída.
Escolha da amostra (amostragem)
Extrapolação das conclusões obtidas sobre a amostra ao resto da população (inferência)
Tipos (e métodos) de amostragem
23
Sebenta Gestão e Organização de Dados Exame Teórico
Amostragem
Amostragem aleatória (ou casual) – é possível calcular, a priori, a probabilidade de observar cada indivíduo da
população na amostra.
Amostragem determinística (ou dirigida) – opinião e experiência pessoal são utilizadas para identificar os elementos
a incluir na amostra. Não é possível calcular a probabilidade de cada indivíduo figurar na amostra.
Amostragem aleatória;
Amostragem sistemática;
Amostragem estratificada;
Amostragem por conglomerados (clusters), …
Cada elemento da amostra é retirado aleatoriamente de toda a população (com ou sem reposição). Assim, cada
possível amostra tem a mesma probabilidade de ser recolhida.
24
Sebenta Gestão e Organização de Dados Exame Teórico
Distribuições Amostrais
Se considerarmos todas as possíveis amostras de tamanho n que podem ser extraídas de uma dada população:
Para cada amostra podem calcular-se estatísticas (por ex. média e desvio padrão) que variam de amostra para
amostra.
A distribuição dessa estatística é designada por distribuição amostral.
Se se retirarem amostras de dimensão n de uma população qualquer, com média μ e variância σ2, por um processo
de amostragem simples, a distribuição amostral da média, aproxima-se de uma distribuição normal com média μ e
variância σ2/N, à medida que n aumenta.
estatistico
Rermitt
um parcemetro
)
estatistican armcstral
Estimação Paramétrica
Estimação dos parâmetros populacionais (parâmetros) a partir das correspondentes estatísticas amostrais.
Estimador de um parâmetro: qualquer v.a. que se expresse em função da amostra aleatória e que tenha por
objectivo aproximar o valor de um parâmetro.
Se o valor médio (ou valor esperado) de uma estatística for igual ao correspondente parâmetro, então a estatística é
um estimador não-enviesado do parâmetro, caso contrário é um estimador enviesado.
Enviesamento amostral (ou excentricidade): é a diferença entre o valor esperado do estimador e o verdadeiro valor
do parâmetro a estimar.
25
Sebenta Gestão e Organização de Dados Exame Teórico
Se as distribuições amostrais de duas estatísticas têm a mesma média (ou valor esperado), então a estatística com
menor variância é um estimador eficiente do parâmetro, enquanto que a outra estatística é um estimador
ineficiente.
Estimação intervalar: estimativa de um parâmetro dada por dois valores entre os quais se supõe que o parâmetro
esteja, com um certo nível de confiança.
Intervalos de Confiança
Distribuição Normal
26
Sebenta Gestão e Organização de Dados Exame Teórico
Aplicação: estimar intervalos que contenham a média de uma população quando dispomos de uma amostra da
variável.
̂
̅ ;/
√
Precisão, d
̂
Exemplo:
Estudo da altura dos indivíduos de uma cidade. Obteve-se uma amostra (n=25) com os seguintes valores x = 170 cm,
s = 10 cm. Calcular um intervalo de confiança com α = 0,05, para a média da altura dos indivíduos da cidade.
;,/ ;, 2,064 ̂ 10 10,206
10,206
170 2,064 170 4,21
5
170 4,21
Com um nível de confiança de 95% podemos afirmar que a média populacional está no seguinte intervalo:
27
Sebenta Gestão e Organização de Dados Exame Teórico
1 1
∈ ,
; ;
Exemplo:
Estudo da altura dos indivíduos de uma cidade. Obteve-se uma amostra (n=25) com os seguintes valores x
= 170 cm, s = 10 cm. Calcular um intervalo de confiança com α = 0,05, para a variância da altura dos indivíduos da
cidade.
̂
̂ /
Com um nível de confiança de 1-α
Exemplo:
Estimar o resultado de um referendo a partir de uma sondagem (considerando uma amostra aleatória de
100 pessoas obtém-se um resultado de votação de 35% a favor e 65% contra). Com um nível de significância de 5%
calcular um intervalo de confiança para o verdadeiro resultado do referendo.
35
0,05 ̂ 0,35 ⟹ 0,65
100
0,35 0,65
0,35 , 0,35 0,0935
100
Com um nível de confiança de 95%
Médias Proporções
28
Sebenta Gestão e Organização de Dados Exame Teórico
Aplicação: cálculo do intervalo de confiança para a diferença das médias de duas populações, onde cada uma segue
a sua própria lei de distribuição normal.
∈
;/
1 1
∈
;/
;/
2
1
1
1 1
Exemplo:
Estudo da influência que pode exercer o tabaco no peso das crianças ao nascer. Consideraram-se dois
grupos de mulheres grávidas (um de fumadoras e outro de não-fumadoras) e obtiveram-se os seguintes dados sobre
o peso (x) dos filhos recém-nascidos:
NF F
29
Sebenta Gestão e Organização de Dados Exame Teórico
Existe diferença (significativa) entre as médias dos pesos, ao nascer, dos filhos de mães não-fumadoras e fumadoras.
Existe diferença entre as médias dos pesos ao nascer dos filhos de mães pesos, nascer, não-fumadoras e fumadoras,
para um nível de confiança de 95 %
Testes de Hipóteses
Testes de Hipóteses - métodos (regras de decisão) que nos levam a determinar se os resultados observados diferem
ou não significativamente dos resultados esperados, e nos ajudam a decidir a aceitar ou a rejeitar hipóteses.
O contributo dos métodos estatísticos é um auxílio poderoso na decisão, mas não deve ser o único elemento para
decidir – a Estatística não é exacta!!
Hipóteses Estatísticas
Face a uma determinada situação formulam-se duas hipóteses estatísticas (por ex., sobre determinados parâmetros
populacionais):
sao incependentes
Hipótese nula (designada por H0) - as variciveris
Cestaio associadas
)
A hipótese nula (H0) é aquela que é submetida a teste.
A hipótese nula normalmente corresponde à ausência de diferença nas características ou nos resultados de interesse
ou efeito nulo.
Qualquer hipótese distinta de uma dada hipótese nula designa-se hipótese alternativa (H1).
30
Sebenta Gestão e Organização de Dados Exame Teórico
Minimizar e controlar o
risco de erro
Erros
Decisão
Rejeitar H0 Não Rejeitar H0
H0 Verdadeira Erro de tipo I (Prob. α) √
H0 Falsa √ Erro de tipo II (Prob. Β)
α – Nível de significância
Probabilidade de cometer um erro de tipo I, i.e., rejeitar a hipótese nula quando ela é verdadeira.
Nível de significância - Máximo valor da probabilidade que estamos dispostos a aceitar para o erro do tipo I (α é
geralmente especificada antes de qualquer amostragem)
Probabilidade de rejeitar a hipótese nula quando a hipótese alternativa é verdadeira (para uma dada hipótese
alternativa). JESTE BILATERAL
:
zo m a de rejeisono de
Ho
Há um teste ideal ?
unsereNMNtiß Mutulanen
Se nível de significância = 0 e potência = 1… o o
WI TESTE
ONILATERAL
ESQVERBA
:
Ä
valores críticos
31
Sebenta Gestão e Organização de Dados Exame Teórico
Escolher a estatística
Calcular o valor Decidir se a hipótese
de teste, apropriada
observado da nula é ou não
Estabelecer as para o parâmetro em
estatística de teste rejeitada, tendo em
hipóteses nula (H0) e estudo, que tem uma
tendo em conta uma conta um
alternativa distribuição de
amostra aleatória determinado nível de
probabilidade significância
particular
conhecida
Significância estatística
significancia estatistica (
mou
sig.)
O valor de p (p-value):
É uma medida da obtenção do resultado observado, se a hipótese nula for, efectivamente,
verdadeira.
Mede a probabilidade do resultado observado ser devido ao acaso.
É baseado na distância a que uma estatística amostral está do valor especificado pela hipótese nula.
estatisticamente
DO QUI
-QUADRADO:
TESTE
- as variáveis saio inalependentes
p
3 0,0 5
Lacerita Ho
-se
)
raso sate indepensientes
as variaveis
p C
0.05-
( Ho
reserita-se
)
32
Sebenta Gestão e Organização de Dados Exame Teórico
Qual o parâmetro
que se está a
analisar /
comparar?
Quantos grupos a
comparar?
33
Sebenta Gestão e Organização de Dados Exame Teórico
Testes Paramétricos
Para uma
amostra
Testes t-Student
(Comparação de Médias
Populacionais)
Testes T-Student
One-Sample T Test - Comparar a média de uma variável com um valor de referência. Permite:
Testar a diferença entre uma média deuma amostra com um valor de referência;
Permite especificar o nível de confiança da diferença;
Produz uma tabela com as estatísticas descritivas para cada variável testada.
Independent-Samples T Test - Comparar duas médias de amostras independentes:
Compara a média de dois grupos de casos. Preferencialmente, para este teste, os sujeitos
devem ser seleccionados aleatoriamente para os dois grupos de forma a que as diferenças se
devam exclusivamente ao tratamento e não a outros factores. Uma pessoa não é classificada de
homem ou mulher aleatoriamente. Não é o caso, por exemplo se compararmos a média de
rendimento entre homens e mulheres.
Exemplo. Num estudo sobre tensão arterial sanguínea elevada, os pacientes foram
escolhidos aleatoriamente para o grupo placebo e para o grupo tratamento. O grupo de placebo
recebia um comprimido inactivo e os sujeitos a tratamento recebiam um novo medicamento.
Após 2 meses de tratamento comparou-se os níveis de tensão média entre os dois grupos.
Estatísticas para cada variável : é determinado a média, dimensão amostral, desvio padrão e
erro padrão da média.
Estatísticas para a diferença das médias: média, erro padrão, intervalo de confiança para a
diferença das médias,
Testes: teste de Levene para igualdade de variâncias, e ambos os testes t para igualdade de
médias assumindo variâncias idênticas e assumindo variâncias diferentes.
A determinação dos grupos num t-teste para duas amostras independentes (t-teste 2i)
normalmente é efectuada pela concepção do desenho da investigação sendo atribuído um
número a cada grupo. No entanto os grupos podem ser determinados pela divisão de uma
variável em que é definido um ponto de corte para definir os grupos.
Paired Samples T Test - Comparar duas médias de amostras emparelhadas:
Compara a média de duas variáveis para um mesmo grupo. Regista a diferença de valores
das duas variáveis para cada caso e testa se a média da diferença é Zero;
Exemplo. Num estudo sobre a pressão arterial sanguínea, todos os pacientes foram medidos
no inicio do estudo e após tratamento. Assim cada sujeito tem dois valores também chamados
valor pré e pós tratamento. Um desenho experimental alternativo seria comparar os valores dos
34
Sebenta Gestão e Organização de Dados Exame Teórico
pacientes com um grupo de controlo em que o emparelhamento seria feito por outra variável
(por exemplo idade de 75 anos);
Estatísticas para cada variável: é determinado a média, Dimensão amostral, desvio padrão e
erro padrão da média;
Estatísticas para cada par de variáveis: correlação, diferença das médias, valor da estatística
t, intervalo de confiança para a diferença das médias, desvio padrão e erro padrão da diferença
de médias.
Dados: para as duas variáveis os dados têm de ser escalares (nível de medida deve ser
intervalar ou de rácio). Para o estudo de caso-controlo, a resposta para cada sujeito do par deve
ser considerado como o mesmo caso no ficheiro de dados.
Pressupostos: as observações para cada par devem ser feitas nas mesmas condições. A
média das diferenças deve ser normalmente distribuídas. As variâncias de cada variável podem
ser iguais ou diferentes.
Exemplo
Pesos (em kg) de dois grupos de indivíduos (do sexo masculino) de nacionalidades diferentes (ingleses e japoneses):
Ingleses: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Japoneses: 58; 59; 61; 63; 71; 53; 54; 72; 61; 57
35
Sebenta Gestão e Organização de Dados Exame Teórico
Exemplo
Existem diferenças estatisticamente significativas entre as média do peso dos indivíduos ingleses e um valor de
referência de 75 Kg ?
36
Sebenta Gestão e Organização de Dados Exame Teórico
Exemplo:
Pesos (em kg) de um grupo de indivíduos (do sexo masculino) antes e depois de um programa de emagrecimento:
Antes: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Depois: 78; 76; 78; 66; 76; 82; 76; 89; 87; 61
Introdução
Comparação de médias de mais do que duas populações, de onde foram extraídas amostras aleatórias
(independentes)?
Pressupostos: aplicável se a distribuição da variável em estudo for Normal e se as variâncias populacionais forem
homogéneas.
Porquê não utilizar o teste t-Student para comparar mais do que duas populações, duas a duas? O teste t-Student só
é válido para comparar médias de duas (e apenas duas) populações das quais foram extraídas duas amostras
aleatórias.
37
Sebenta Gestão e Organização de Dados Exame Teórico
Porquê utilizar a análise de variância quando pretendemos testar a igualdade de médias? A ANOVA compara a
variância dentro de amostras ou grupos com a variância entre as amostras ou grupos.
Se a variância residual (aquela associada aos erros de medida ou outros) for significativamente inferior à variância
entre os grupos, então as médias populacionais estimadas a partir das amostras são significativamente diferentes.
Tipos de ANOVA:
ANOVA a um factor (one-way) (se existir apenas um factor em estudo, i.e., uma variável
independente);
ANOVA factorial (se existir mais do que um factor, i.e., mais do que uma variável independente)
(Inclui o caso mais simples: ANOVA a dois factores (two-way)).
O procedimento ANOVA a um factor produz uma análise da variância para uma variável quantitativa
dependente, em função de uma variável independente – o factor.
A análise de variância é utilizada para testar a hipótese de um conjunto de médias serem iguais. Esta
técnica é a generalização do teste t para duas amostras independentes.
Para além de pretender determinar as diferenças entre as médias, poderá querer saber quais as
médias que diferem.
Há dois tipos de testes para comparar as médias: o teste a priori dos contrastes e os testes post-hoc.
Os Contrastes são testes aplicados antes da experiência e os testes post hoc são aplicados após a
experiência ter sido conduzida. Poderá também verificar as diferenças nas categorias.
Estatisticas:
Para cada grupo: número de casos, média, desvio padrão, erro padrão da média,
mínimo, máximo, e intervalo de confiança da média a 95%;
Teste de homogeneidade da variância de Levene, tabela da análise de variância e
testes de robustez de igualdade de médias para cada variável dependente;
Teste a priori dos contrastes e testes post hoc de múltiplas comparações,
nomeadamente os testes : Bonferroni, Sidak, Tukey's , Hochberg's GT2, Gabriel, Dunnett,
Ryan-Einot-Gabriel-Welsch F teste (R-E-G-W F), Ryan-Einot-Gabriel-Welsch teste (R-E-G-W
Q), Tamhane's T2, Dunnett's T3, Games-Howell, Dunnett's C, Duncan's , Student-Newman-
Keuls (S-N-K), Tukey's b, Waller-Duncan, Scheffé, e teste das diferenças significativas.
38
Sebenta Gestão e Organização de Dados Exame Teórico
Dados:
A variável Factor tem valores inteiros, e a variável dependente deverá ser
quantitativa escalar.
Pressupostos:
Cada grupo é uma amostra aleatória independente com distribuição normal ou
gaussiana.
A análise de variância é robusta para valores com distribuição normal, ou pelo menos
para dados com distribuição simétrica.
Os grupos deverão ser provenientes de populações com variâncias idênticas. Para
testar este pressuposto utilize o teste de homogeneidade de variância.
Modelo Teórico:
Estimativas Amostrais:
Exemplo:
Pesos (em kg) de três grupos de indivíduos (do sexo masculino) de nacionalidades diferentes (ingleses, mexicanos e
japoneses):
Ingleses: 80; 75; 82; 68; 76; 86; 78; 90; 85; 64
Mexicanos: 65; 84; 63; 54; 86; 62; 73; 64; 69; 81
Japoneses: 58; 59; 61; 63; 71; 53; 54; 72; 61; 57
39
Sebenta Gestão e Organização de Dados Exame Teórico
40
Sebenta Gestão e Organização de Dados Exame Teórico
ANOVA factorial
Como analisar os efeitos de duas ou mais variáveis independentes sobre uma variável dependente?
ANOVA factorial
ANOVA 2 x 2 (informação sobre quantas variáveis independentes foram utilizadas e quantas condições existem em
cada uma)
Ex:
2 x 2 ANOVA - Duas variáveis independentes, cada uma com duas condições;
3 x 4 ANOVA - Duas variáveis independentes, uma com três e outra com quatro condições;
3 x 2 x 2 ANOVA - Três variáveis independentes, duas com duas e uma com três condições.
Exemplo:
Previsões:
1. Altos níveis de álcool diminuem a capacidade de condução.
2. Altos níveis de cafeína podem melhorar a capacidade de condução devido ao efeito estimulante.
3. Devido à premissa enraizada de que a cafeína auxilia um indivíduo a manter-se alerta, podemos prever que um
aumento do nível de cafeína reduz a influência do álcool na capacidade de condução.
Efeitos principais: efeito global de cada uma das variáveis independentes sobre a variável dependente.
Interacção, entre as duas variáveis independentes.
41
Sebenta Gestão e Organização de Dados Exame Teórico
ANOVA 2 x 2
Design experimental nº 3:
Homogeneidade de variâncias √
Dados normalmente distribuídos √
42
Sebenta Gestão e Organização de Dados Exame Teórico
A maior parte dos testes de hipóteses e de significância (ou regras de decisão) considerados
anteriormente requerem vários requisitos acerca das populações de onde são extraídas as amostras.
Na prática surgem situações em que tais requisitos não podem justificados ou j que levantam muitas dúvidas (por ex.
para populações muito assimétricas).
Os testes não paramétricos são independentes da distribuição da população e dos parâmetros a ela associados.
Os testes não paramétricos podem ser utilizados como simplificação de testes mais complexos. São especialmente
úteis para dados não numéricos.
43
Sebenta Gestão e Organização de Dados Exame Teórico
Chama-se teste dos sinais porque utiliza como dados, sinais positivos e negativos em vez do valor
numérico das respostas ou da sua diferença.
É particularmente útil quando, num par aleatório (X, Y) uma das variáveis tende a ser superior à
outra.
Considera-se uma amostra aleatória de n pares (Xi, Yi) e o sinal atribuído à diferença Di = Yi – Xi.
Estatística do teste:
V – nº de sinais que ocorrem com menor frequência
V ~ Bin(n, ½)
n’ -> nº total de sinais (+) e (-) ou seja n’ = n – nº empates
Regra de decisão: Se P(V≤v0) < α => Rejeitar H0 (para o nível de significância α).
Exemplo:
Um estudo foi realizado no sentido validar a afirmação que os homens tem maior propensão para o raciocínio
abstracto. Recolheu-se uma amostra de 8 casais e submeteu-se cada um deles a uma prova, classificando-os de
seguida:
Casais a b c d e f g h
Classificação H>M H=M H>M H<M H>M H=M H<M H>M
Casais a b c d e f g h
Sinal + 0 + - + 0 - +
44
Sebenta Gestão e Organização de Dados Exame Teórico
n (nº pares) = 8
n’ = nº pares – nº empates = 8 – 2 = 6
6 1 6 1 6 1 6 1
≤ 2 = = + + =
2 0 2 1 2 2 2
1
= 1 + 6 + 21 = 0,4375
2
Não é possível concluir que os homens têm maior propensão para o raciocínio abstracto.
Teste de Wilcoxon
Aplicação - Permite comparar amostras emparelhadas (por ex., comparar a resposta dada a dois tratamentos ou
estímulos X e Y aplicados a indivíduos semelhantes).
O teste de Wilcoxon é mais potente que o teste dos sinais e deve ser usado preferencialmente se for legítimo admitir
que as variáveis Di (sinais das diferenças) tem distribuição contínua e simétrica.
Estatística do teste:
W+ : soma das diferenças Di com sinal (+)
W- : soma das diferenças Di com sinal (-)
Para pequenas amostras (n’<20) existe uma tabela de percentis para a estatística W para os vários valores de n’ e
para os diferentes níveis de significância.
n’ = nº pares – nº empates
Exemplo:
Para testar um novo regime dietético, submeteram-se 6 indivíduos a 30 dias de tratamento, tendo-se obtido a
seguinte tabela de pesos (kg):
45
Sebenta Gestão e Organização de Dados Exame Teórico
H0: md Di = 0
H1: md Di ≠0 Tabela das Ordens
Di = D - A
Di -3 0 -4 -1 1 -5
Ordens 3 (-) - 4 (-) 1,5 (-) 1,5 (+) 5 (-)
n’ = n º pares – n º empates = 6 – 1 = 5
W–soma das ordens
W+ = 1,5 - menor soma: W+ = 1,5
W- = 13,5
Wc = 0 (para α = 5%)
46
Sebenta Gestão e Organização de Dados Exame Teórico
Teste de Mann-Whitney
Aplicação: Decidir se duas amostras independentes, de dimensões n1 e n2, provêm ou não da mesma população.
Metodologia
Associar os valores das duas amostras e ordená-los do menor para o maior, e atribuir números de ordem (ou ordens)
a todos os valores. Se dois ou mais valores são iguais (i.e., existem empates) atribui-se a média das supostas ordens.
Determinar a soma das ordens para cada amostra. Representar essas somas porW1 eW2, para cada amostra com os
tamanhos n1 e n2.
Exemplo:
A um grupo experimental (GE) e a outro de controlo (GC) aplicou‐se um novo procedimento clínico
medindo‐se a resposta de cada indivíduo, sob a forma de um parâmetro apropriado. Considerando que
não existe garantia de normalidade da distribuição de referência, verificar se se encontram diferenças
significativas entre os dois grupos:
47
Sebenta Gestão e Organização de Dados Exame Teórico
GE 11 15 12 27 10 9 28
GC 19 52 13 8 22 11 18
(considerar α = 5%)
= 7 7 41 7 7 ,
W1 = 48,5; W2 = 56,5
Menor Valor da Estatística de U
Teste de Kruskall-Wallis
Aplicação: Generalização do teste U para k amostras (k >2) - testar a hipótese de que k amostras quantitativas
independentes foram obtidas da mesma população.
A única exigência para a aplicação do teste está relacionada com o processo de obtenção das amostras, que deve ser
aleatório.
48
Sebenta Gestão e Organização de Dados Exame Teórico
Metodologia:
Hipótese nula:
H0: F1=F2=…=Fk
Sendo
1
Regra(s) de decisão:
2) Se pelo menos uma das amostras tiver dimensão ni > 5, utiliza-se a distribuição de Qui-Quadrado (k-1 g.l.):
Se H > ; => Rejeitar H0 (para o nível α)
Exemplo:
Um investigador pretende avaliar um parâmetro comportamental de alunos de cursos universitários diferentes.
Seleccionou três amostras aleatórias e aplicou um teste padronizado, tendo obtido os seguintes resultados:
Curso 1 – 1,2,2,2,3,3
Curso 2 – 3,5,5,6,6,6
Curso 3 – 2,3,6,8,9,9
49
Sebenta Gestão e Organização de Dados Exame Teórico
Tabela Inicial
N1 = 6 N2 = 6 N3 = 6
1 3 2
2 5 3
2 5 6
2 6 8
3 6 9
3 6 9
C1 C2 C3
1 7,5 3,5
3,5 10,5 7,5
3,5 10,5 13,5
3,5 13,5 16
7,5 13,5 17,5
7,5 13,5 17,5
R1 =26,5 R2 = 69 R3 = 75,5
12
= 3 1
1
;, 5,99
50
Sebenta Gestão e Organização de Dados Exame Teórico
Regressão Linear
Análise de regressão
Conjunto de técnicas estatísticas que permitem investigar e modelar as relações entre variáveis e possibilitam a
previsão da variável independente para valores não observados da variável dependente, mas dentro do seu domínio.
A relação entre duas variáveis pode ser de dependência funcional (relação de causa-efeito) de uma
em relação à outra sem que o recíproco seja também válido.
Duas variáveis podem apresentar-se correlacionadas embora não dependentes uma da outra.
A regressão estuda a relação funcional entre duas variáveis enquanto a correlação estuda o grau de
associação entre as variáveis cuja relação pode ou não ser de dependência funcional.
Regressão Linear
Relação de tipo linear entre uma variável dependente (Y) e uma variável independente (X).
= + +
= +
=
51
Sebenta Gestão e Organização de Dados Exame Teórico
Exemplo:
Xi Yi
20 112
19 95
25 120
31 128
36 155
42 153,2
48 186
57 193
60 216
66,3 235
65 216
52,4 186
45 175,2
1. Análise de variância (ANOVA) no modelo de regressão linear simples: verificar se o modelo ajustado
é significativo.
2. Testes t-Student aos valores do declive e ordenada na origem.
3. Coeficiente de determinação (R2): percentagem da variabilidade total de Y explicada pelo modelo de
regressão ajustado.
4. Análise de resíduos (ou erros de ajustamento): os erros devem distribuir-se normalmente com média
zero e variância constante e devem ser independentes.
52
Sebenta Gestão e Organização de Dados Exame Teórico
Estimar valores de uma variável dependente (Y) em função de múltiplas variáveis independentes (X1, X2, ..., Xk).
Determinar o quanto as variações de Xi (i = 1,...,k) podem afectar Y.
Modelo:
E(y) = f(X1, X2, ..., Xk)
Linear: E(y) = β0 + β1X1 + β2X2 + ... + βkXk
Análise de variância (ANOVA) no modelo de regressão linear múltipla: verificar se o modelo ajustado é significativo.
= se o erro padrão da estimativa bj
Coeficiente de determinação (R2): percentagem da variabilidade total de Y explicada pelo modelo de regressão
ajustado.
çã
= 0 ≤ ≤ 1
çã
Exemplo:
Num estudo sobre as classificações obtidas na UC de Gestão e Organização de Dados obtiveram-se os seguintes
resultados:
53
Sebenta Gestão e Organização de Dados Exame Teórico
Modelo:
Onde:
Y = Classificação;
X1i = Número de Aulas;
X2i = Número de Horas de Estudo.
O modelo é altamente significativo (F = 48.160, p < 0,001) e explica 91,3% da variabilidade observada (Ra2).
Os testes aos coeficientes sugerem que, para uma probabilidade de erro de 5%, apenas a variável “número de horas
de estudo” possui um efeito significativo sobre a classificação final (p = 0,002).
O modelo é altamente significativo (F = 98.888, p < 0,001) e explica 91,6% da variabilidade observada (Ra2).
O novo modelo ajustado, apesar de ter menos uma variável independente, explica aproximadamente a mesma
percentagem de variabilidade total do modelo com duas variáveis independentes (R2 = 0.925 vs. 0.932).
54