Escolar Documentos
Profissional Documentos
Cultura Documentos
1 Conceitos básicos
O processo de indução estatı́stica, ou seja, a partir da amostra retirar conclusões para a pop-
depende da amostra (ainda que estas sejam aleatória). Por exemplo, a médias das alturas
das crianças de 12 anos portuguesas calculada em 100 amostras aleatórias de dimensão 20,
tem 100 valores diferentes. Este erro de amostragem pode ser controlado a partir da dis-
Um teste estatı́stico consiste numa regra quantitativa que permite tomar decisões sobre
uma conjetura ou hipótese sobre o processo – a hipótese nula, H0 . Esta conjetura H0 é,
usualmente, relativa ao statu quo (estado atual). Não rejeitar pode ser um bom resultado se
pode ser um resultado dececionante, possivelmente indicando que ainda não temos dados
suficientes para “provar” algo rejeitando a hipótese nula e aceitando a hipótese alternativa,
Os testes podem ser para parâmetros desconhecidos das populações, cuja distribuição de
Se os testes são para a distribuição de probabilidade subjacente aos dados, ou para parâmetros
Por exemplo, testar que um conjunto de dados é proveniente de uma distribuição de Poisson,
ou testar que a mediana de uma população é 0.3, ou ainda que a diferença entre as medianas
Como se disse anteriormente, um teste de hipóteses é efetuado a partir de uma amostra, pelo
que existem erros associados a este procedimento e probabilidades associadas a esses erros.
da amostra.
Considera-se mais grave cometer um Erro Tipo I do que um Erro Tipo II, pelo que é costume
do teste. Assim, se num TH, α < 0.05, rejeita-se H0 , caso contrário, considera-se que não
A Estatı́stica de Teste (ET) é uma função da amostra que não contém parâmetros descon-
ou não rejeição da H0 . Por exemplo, num teste paramétrico para o valor médio de uma
H0 : µ = 105 H1 : µ ̸= 105
X − 105
a ET é Z = √ ∼ N (0, 1) com n dimensão da amostra e X média amostral.
σ/ n
Região Crı́tica
teste (ET) que são menos prováveis de obter, caso H0 seja verdadeira. A definição desta RC
bilateral).
Por exemplo, se a população é Normal com variância conhecida, um teste para µ, com nı́vel
figura (1). Recorda-se que se Z ∼ N (0, 1), P (Z < 1.96) = 0.975, pelo que o quantil de
probabilidade 0.975 no modelo N(0, 1) é 1.96. Se, por outro lado, a H1 é unilateral (à
esquerda, por exemplo) a RC passa a ser ] − ∞, −1.645[ (figura 2). Recorda-se que se
Z ∼ N (0, 1), P (Z < −1.645) = 0.05, ou seja, o quantil de probabilidade 0.05 no modelo
N(0, 1) é −1.645.
da ET mais extremo do que aquele que foi obtido (devido ao acaso, à sorte), se a H0 for
value. Se lançarmos uma moeda 20 vezes e se, nos 20 lançamentos, sair sempre cara, a
Neste caso, rejeita-se a hipótese da moeda ser equilibrada para qualquer α. Este valor,
não se calcula a RC porque não se impõe um valor para α. De facto, o valor do p value
2 Testes de independência
Nos testes de independência têm-se duas caracterı́sticas em estudo de uma mesma população.
população dos estudantes universitários, pretende-se testar se o número de pessoas com quem
No caso de duas variáveis, consiste numa tabela retangular, de dupla entrada, em que col-
unas e linhas são as diferentes categorias de cada uma das duas variáveis em estudo. Nas
ambas as categorias.
Classe de viagem, com categorias First, Second, Third e Crew, e ainda Resultado com
Alive Dead
• 203 individuos que viajavam em primeira classe, sobreviveram e 122 morreram. O total
As outras linhas têm leitura análoga. Notar que a última linha tem a seguinte interpretação:
2201.
As entradas da tabela podem ser convertidas em frequências relativas, dividindo cada entrada
pelo número total de indivı́duos: 2201. A leitura da primeira linha da tabela é a seguinte:
Alive Dead
As outras linhas têm leitura análoga. Note que a última linha tem a seguinte interpretação:
Probabilidades Condicionadas
Caso I
Dividindo cada linha da tabela de contigência (1) pelo total de linha, tem-se: Neste caso, a
Alive Dead
0.625, enquanto que a proporção de individuos que morreram dos que viajavam em
primeira classe é 0.375. A entrada 1 é justificada pelo facto de se estar a usar como
O sı́mbolo | entre os acontecimentos lê-se “dado que”. Assim, P (Alive|First) lê-se Prob-
abilidade de Sobreviver dado que viajava em Primeira Classe. As outras linhas têm leitura
Caso II
Dividindo cada coluna da tabela de contigência (1) pelo total de coluna, tem-se: A leitura
Alive Dead
Total: 1 1
Quando as variáveis são do tipo qualitativo (categóricas), com distribuição representada por
onde Oij representa a frequência observada na célula (i, j) da tabela e Eij a frequência
esperada nessa célula (i, j), se H0 for verdadeira (ou seja se X e Y forem independentes).
1. As frequências esperadas em cada classe devem ter, no mı́nimo, valor 5. Caso contrário,
devem-se reorganizar os dados em classes que permitam que esta condição seja satis-
feita.
2. A condição anterior pode ser relaxada, mas não é possı́vel executar o teste se mais de
20% das classes tiverem uma frequência esperada inferior a 5. No entanto, nenhuma
No caso em que as variáveis em análise são dicotómicas, têm apenas 2 categorias, as tabelas
resultantes são 2 por 2. Neste caso, a ET a utilizar tem distribuição exata (Fisher) e pode
ser usada em todas as condições. Caso se opte por utilizar a distribuição assintótica do qui-
quadrado, deve ser feita uma correção de continuidade (de Yates), para melhorar a análise
feita a partir do qui-quadrado, uma vez que se está a aproximar uma distribuição discreta
por uma distribuição contı́nua. No entanto, se n é pequeno, deve-se usar o teste exato de
Fisher porque este teste não tem restrições à sua utilização em tabelas 2 por 2.
Likelihood Ratio que se usa em modelos log-lineares (para grandes amostras os dois testes
frequência esperada nessa célula seria 92.42. De facto, no caso das variáveis serem indepen-
dentes, os acontecimentos Second e Alive também o são, pelo que, P (Second ∩ Alive) =
Efetuando todos os cálculos para as frequências esperadas, a tabela resultante será (5):
Como seria de esperar, dadas as diferenças entre o que se observou e o que se esperaria se as
Alive Dead
p-value < 0.001, rejeitando-se a hipótese de independência entre Classe e Resultado, pelo
Exercı́cio: Executar todo o procedimento descrito com o SPSS. Elaborar um gráfico para
representar o problema.
• Phi – apenas para tabelas 2 por 2. Varia entre 0 (ausência de associação) e 1 (associação
perfeita).
ET
P hi =
n
ET
V. de Cramer =
n(q − 1)
onde q = min{r, s}
Exercı́cios
significância
(a) α = 0.01
(b) α = 0.05
(c) α = 0.1
3. Considere a tabela produzida pelo SPSS constante na Figura (3). Esta tabela inclui
cruzadas com a variável dicotómica representada pela questão “Aguma vez fumou
cigarros?” (“Ever smoked Ciggarettes?”) com valores não (No) e sim (Yes). De
género masculino?
(b) Qual a estimativa para a probabilidade de um indivı́duo ter fumado alguma vez?
(c) Qual a estimativa para a probabilidade de nunca ter fumado e ser do género
masculino?
(d) Qual a estimativa para a probabilidade de ser do género feminino, dado que fumou
alguma vez?
(e) Qual a estimativa para a probabilidade de ter fumado alguma vez, dado que é do
género masculino?
(4).