Escolar Documentos
Profissional Documentos
Cultura Documentos
Universidade Rovuma
Nampula
2022
Eduarda
Universidade Rovuma
Nampula
2020-2021
Introdução
O presente trabalho de análise de dados II trata dos seguintes conteúdos: análise
exploratória de dados, cruzamentos e medidas de associação, teste t para medias,
One-way anova e ancova, Analise de variância a mais de um factor, e mais
outros conteúdos cá não citados. Para este trabalho será usado o software SPSS
(Statistical Package for the Social Sciences – pacote estatístico para as ciências
sociais) para a ajuda de processamento de dados (imput e output) de seguida
interpretar os resultados com base no output manipulado no software baseando-
se em algumas obras, vídeos aulas e mais outras fontes, essas fontes não serão
usadas só para a interpretação dos resultados mas também para a execução de
alguns comandos no mesmo software SPSS. O trabalho apresenta alguns
elementos pré-textuais e alguns pois textuais. O trabalho tem objectivo de
ensinar a respeito dos conteúdos acima citados, não só, mas também a manipular
e aperfeiçoar o software a fim de fazer várias análises necessárias e precisas
como um formado na área.
1. Os pressupostos que devem ser satisfeitos no uso do teste t são:
As observações devem ser independentes e retiradas duma população de
distribuição normal.
As duas amostras devem ter a mesma variância, pode se verificar observando o
desvio padrão amostral das duas amostras. Ou usando o teste f de igualdade das
variâncias.
As duas amostras devem ser independentes.
A Variável dependente deve ser quantitativa;
O primeiro requisito para utilizar a estatística paramétrica exige que seja possível
realizar operações numéricas sobre os dados experimentais. Não é suficiente que
se possa apenas ordenar os dados, como nos testes não paramétricos. As variáveis
devem ser naturalmente numéricas, como uma escala contínua de tempos de
leitura, ou a nota de um exame.
O segundo requisito obriga a que os resultados se distribuam normalmente. No
entanto, como os testes paramétricos são bastante robustos, podem ser utilizados
mesmo quando este pressuposto é violado, a menos que os dados tenham uma
distribuição muito diferente da normal.
O terceiro requisito designa-se por homogeneidade. Isto significa que a
variabilidade dos resultados em cada situação deve ser sensivelmente a mesma.
No entanto, este requisito perde a relevância se o número de sujeito for o mesmo
em cada situação experimental.
H0: A media das palavras memorizada em lugar sem barulho é igual a media das
palavras memorizada em lugar com barulho
H1: A media das palavras memorizada em lugar sem barulho é diferente com a media
das palavras memorizada em lugar com barulho
Decisão
A partir da tabela de teste de amostra independente mostra que o p-valor (sig) é
menor que 0.05, rejeitamos a hipótese nula, isto é, o número das palavras memorizada
sem barulho é diferente com o número de palavras memorizada com barulho.
A tabela a cima mostra a exploração das medidas descritivas, assim podemos ver que
o menor número das palavras memorizada é de 3 palavras e o maior número é de 18
palavras com um desvio padrão de 4,232 em relação a sua media, quaanto a simetria é
simetrica positiva e apresenta uma curva platicúrtica.
A partir da tabela acima podemos notar que o número de palavras memorizada sem
barulho é maior que palavras memorizada com barulho.
Decisão
A partir da tabela de teste de normalidade mostrado à cima, como o p-valor (sig) é
menor que 0.05, rejeitamos a hipótese nula, isto é, a quatidade das palavras memorizada
com e sem barulho não seguem uma distribuição normal.
√ √
2
( n1−1 ) S1 + ( n2−1 ) S2
2
11∗5,127+11∗6,528
n1 +n2 12+12
3. Vinte crianças em idade escolar (10 meninos e 10 meninas) foram examinadas nas
seguintes variaveis: numero de epsodios de doenças no periodo de um ano, desempenho
em um teste no inicio do ano e desemepnho em teste similar no fim do ano
(“Dados_Seminario 1 de analise de dados 2_2021 – exercicio 3”).
Suponha que os dados são retirados de uma populaçao normalmente distribuida.
H0: As variâncias de teste no fim do ano é iguais nos dois grupo de crianças
H1: As variâncias de teste no fim do ano é diferente nos dois grupo de crianças
Decisão
A partir da tabela de teste de amostra independente mostra-nos o teste de Levene
para igualidade de variâncias, que o p-valor (sig = 0,173) é maior que 0.05, sendo assim
aceitamos a hipótese nula, isto é, As variâncias de teste no fim do ano é igual nos dois
grupo de crianças.
Decisão
A partir da tabela de teste de amostra independente mostrado que o p-valor (sig =
0,679) é maior que 0.05, aceitamos a hipótese nula, isto é, As medias de episódio de
doença das crianças é igual.
H0: As medias de teste no fim do ano das crianças é igual
H1: Há diferenças entre as medias de teste no fim do ano, das crianças
Decisão
A partir da tabela de teste de amostra independente mostrado que o p-valor (sig =
0,025) é menor que 0.05, rejeitamos a hipótese nula, isto é, Há diferenças entre as
medias de teste no fim do ano, das crianças.
2 R
2
(0,792)2
f = 2
= 2
=1,68
1−R 1−(0,792)
O tamanho de efeito é uma estatística descritiva que serve como complemento ao teste
de significância estatística. Cada vez mais esse tipo de abordagem vem sendo
estimulada, em alguns casos até exigida, pelas publicações da área científica. ( Cohen J.
1969). Valores superiores ou iguais a 0,8 representam tamanho de efeito grande; entre 0,8
a 0,2 são considerados médios e inferiores a 0,2 pequenos.
O intervalo de confiança indica a chance de um determinado valor da população estar
verdadeiramente contida num intrevalo estimado.
e) Teste t de medidas repetidas para o desempenho no teste do inicio do ano e no
teste do fim do.
Decisão
Considerando que não existe esfericidade entre as variaveis iremos usar teste
corrigido de Greenhouse-Geisser, a anova de uma via com medidas repetidas mostrou
que não existe efeito significativo no desempenho dos testes no inicio e fim, [F(1, 19) =
4,520, p-valor (0,051) > 0,05]. Na aceitação da Hipótese nula.
z 9,915
d= = =1,65
√ n √ 36
6. existem evidencias indicando que fumar suruma leva à perda da memoria de curto
prazo e à reduçao da habilidade na execuçao de tarefas simples. Sete estudantes
fumantes que normalmente não consomem suruma foram solicitados a responder
questoes dificies de aritmetica sob quatro condiçoes diferentes. Na condiçao 1, fumaram
uma mistura de ervas que pensavam ser suruma. Na condiçao 2, fumaram uma pequena
quantidade de suruma, ampliada para uma media e grande quantidade nas condiçoes 3 e
4 respectivamente. Os estudantes foram solicitados a fumar sozinhos. Para evitar efeitos
de pratica, foram feitos quatro testes diferentes, todos com o mesmo grau de
dificuldade. Para evitar efeitos de ordem e fadiga, foi contrabalanceada a ordem de
aplicaçao dos testes. Os dados estao em “Dados_Seminario 1 de analise de dados
2_2021 – exercicio 5”. Faça uma analise exploratoria dos dados, realize um test
apropriado para este experimento e calcule o tamanho do efeito. Interprete os resultados.
Decisão
Considerando a existencia de esfericidade, a anova de uma via com medidas
repetidas mostrou que a efeito de factore Condições de fumante sobre as notas [F(3, 18)
= 4,278, p < 0,05]. Na rejeição da Hipótese nula.
O post-hoc de Sidak mostrou que as condições fumante diferem entre si.
Logo existem evidencias indicando que fumar suruma leva à perda da memoria de
curto prazo e à reduçao da habilidade na execuçao de tarefas simples.
2
2 R2 (0,792)
f = = =¿
1−R 1−(0,792)2
2
a) o professor não entende nada sobre a estatistica. Ajude a ele a decidir sobre a sua
desconfiança;
Olando na tabela a cima o sig é menor que 0.05 aceitamos hipotese nula, isto é não
existe interacção entre as variáveis.
Tamanho de efeito
2 2
2 R (0,019)
f = 2
= 2
=0,000361
1−R 1−(0,019)
Coeficiente de determinacao
R2=( R de pearson)2=¿
9. Em um estudo de cohorte se seguiu durante dois anos a 595 pacientes que haviam
recebido transfusoes de sangue e 712 pacientes não transfundidos previamente. Ao final
do periodo haviam apresentado hepatites 75 individuos do grupo dos transfundidos e 16
dos não transfundidos.
iii) Todas as celulass devem ter valores esperado maior ou igual a cinco
Segundo a tabela acima podemos ver que os valores da contagem esperada em cada
celula é maior que cinco (5).
Decisão
A partir da tabela de teste qui-quadrado de independência, mostra que o p-valor (sig)
é menor que 0.05, assim rejeitamos a hipótese nula que as variáveis sexo e nivel de
motivação são independente.
Consultando a tabela do Qui-quadrado com 1 grau de liberdade e α =0.05 , obtém-se
a região critica ou de rejeição da hipótese nula [3,84; + ∞[. Esta região contém o valor
do teste 53,683. Deste modo, rejeita-se hipótese de existir Independência das variaveis.
16
Riscode desfacho nos individuosexpostos 91
RR= = =0.307 Como mostra a tabela
Risco do desfecho nos individuosnão exposto 696
1216
acima.
iii) Todas as celulass devem ter valores esperado maior ou igual a cinco
Segundo a tabela acima podemos ver que os valores da contagem esperada em cada
celula é maior que cinco (5).
Decisão
A partir da tabela de teste qui-quadrado de independência mostra que o p-valor (sig)
é maior que 0.05, assim aceitamos a hipótese nula que as variáveis sexo e nivel de
motivação são independente.
Consultando a tabela do Qui-quadrado com 1 grau de liberdade e α =0.05 , obtém-se
a região critica ou de rejeição da hipótese nula [3,84; + ∞[. Esta região não contém o
valor do teste 2,733. Deste modo, aceita-se hipótese de existir Independência das
variaveis.
c) Calcule a medida de odds ratio e interprete.
Segundo a tabela acima a medida de Odds ratio é igual 1,557, (e pode ser calculada
46
94
¿= ) sendo um estudo rectrospetivo, as mulheres diagnosticadas com uso de infarto
33
105
de miocárdio tem uma vez vírgula seis (1,557) mais probabilidade de usarem
anticonceptivos do que mulheres que não usam infarto de miocárdio.
Ex: O hospital central de Nampula verificou-se que as pessoaa que consomem muito
açucar tem mais probabilidade de causar doença de diabete. Considerando doença de
diabete como factor (variável em coluna) pretende-se analisar quantas vezes mais
provável de uma pessoa que consome muito açucar causar doença de diabete do que
uma pessoa que não consome muito açúcar? Para nós sabermos o numero de vezes mais
provável devemos calcular a taixa de incidência.
12. Novecentos cinquenta alunos foram classificados de acordo com os seus hábitos
alimenticios e o seu coeficiente intelectual:
Coeficiente Intelectual
< 80 80 - 90 90 – 99 > = 100
Nutriçao boa 245 228 117 219
Nutriçao pobre 31 27 13 10
a) Identifique a variavel independente e dependente. Justifique
A partir da tabela de medidas direcionais, podemos ver que o Lambda apresenta valor
0,000 o erro da previsão na escolha da variavel dependente é muito menor. Olhando
para Goodman e kruskal tau, mostram que na escolha de Hábitos alimenticios para
prever sa categorias de Coeficiente intelectual correspondente a uma dada pessoa existe
uma redução de 10% no erro de previsão e na escolha de Coeficiente intelectual para
prever sa categorias de Hábitos alimenticios correspondente a uma dada pessoa existe
uma redução de 3% no erro de previsão. Assim sendo:
A variável independente é Hábitos alimenticios e
A variavel dependente é Coeficiente Intelectual
Justificação: Escolhemos Coeficiente Intelectual como variável dependente porque o
seu erro de previsão é menor que de Hábitos alimenticios.
Decisão
A partir da tabela de teste qui-quadrado mostrado que o p-valor (sig) é menor que
0.10, assim rejeitamos a hipótese nula que as variáveis hábitos alimenticios e
coeficiente intelectual são independente.
14. Uma pesquisa foi feita durante os primeiros três meses do ano para verificar a
audiência de redes de televisão no horário entre 21 hs e 21:40 hs. Os resultados indicam
as seguintes proporções de lares assistindo a canais de tevê (dados fictícios):
STV: 32%; TVM: 18%; MIRAMAR: 15%; TIM: 7%; Outras: 28%.
No último mês a TVM começou e exibir uma nova novela com um apelo popular muito
forte e seria interessante avaliar se o seu lançamento provocou alguma alteração nas
audiências.
Uma amostra de 600 lares foi selecionada e se obteve as seguintes freqüências
observadas foram respectivamente: 156, 126, 84, 20 e 204.
Faça um teste para determinar se as proporções foram alteradas. Considere niveis de
significancia de 1% e 5%.
A tabela acima ilustra as frequências esperadas depois de TVM exibir a novela, portanto
podemos ver que a maoir alteração ocorrem nas outras canais.