Você está na página 1de 10

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/282992907

Exemplos de Análise Descritiva e Inferencial para Ciências Sociais - Embrião


para futuro livreto de exercícios resolvidos

Research · October 2015


DOI: 10.13140/RG.2.1.2119.4965

CITATIONS READS

0 1,053

1 author:

José Fausto de Morais


Universidade Federal de Uberlândia (UFU)
69 PUBLICATIONS   420 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

ELEMENTS OF REGRESSION ANALYSIS OF LEAST ABSOLUTE VALUE View project

QUALITY OF STATISTICAL ANALYSES AND THE VISIBILITY IN WEB OF SCIENCE: A STUDY USING RANDOMIZED CONTROLLED TRIALS View project

All content following this page was uploaded by José Fausto de Morais on 20 October 2015.

The user has requested enhancement of the downloaded file.


TRABALHO DE BIOESTATÍSTICA 1/2015
BD: Países

Alunos: XXXXXXX
XXXXXXX

Professor: José Fausto de Morais


Turma: .......

Seu trabalho valerá 20 pontos e está dividido em duas partes: a parte grupal é formada por 8
questões que valerão 16 pontos e a parte individual é formada por uma questão e valerá 4
pontos. Se, por exemplo, a parte grupal receber 15 pontos e um dos membros do grupo obter
3 pontos na parte individual, então a nota deste aluno do grupo será 18 pontos.

PARTE GRUPAL DO TRABALHO (VALE 16 PONTOS)

Descrição da sua BD.

Numero de países estudados = 39


VARIÁVEL DESCRIÇÃO
PAIS Variável nominal que identifica o sujeito de pesquisa
CMKcal Variável racional contínua que indica o consumo médio diário por habitante em Kcal
NCISCO Variável racional discreta que indica o número de citações (em milhares) recebidas na base Scopus
RANKSC Variável ordinal que indica a posição do país no rank de Qualidade da Ciência da Scopus
GOV1RP Dicotomia onde 1 indica Republica Presidencialista e 0 outro tipo de governo
QVSM1a Dicotomia onde 1 indica QV (medida pelo critério SM) aceitável e 0 inaceitável
QVPIB1a Dicotomia onde 1 indica QV (medida pelo critério PIB) aceitável e 0 inaceitável
Bloco Variável nominal que indica o bloco do país (África, Europa, America L, America N, Ásia, Oceania)

1. Exibimos a seguir a tabela e gráficos para as variáveis Bloco, RANKSC, NCISCO e CMKcal.
Para a variável “Bloco” aponte problemas de apresentação e comente a variável. Para as
demais variáveis (RANKSC, NCISCO e CMKcal) somente comente os resultados.

Bloco
Problemas na apresentação: na Tabela falta eliminar os fios verticais, excluir a palavra “Valid” e inserir o
cabeçalho (intitulado “Tabela” e seguido de numeração própria e seqüencial) informando O QUE são os
dados, QUANDO e ONDE eles foram colhidos. Na base da Figura falta inserir o cabeçalho (intitulado
“Figura” seguido de numeração própria e seqüencial diferente da utilizada nas tabelas) informando
QUANDO e ONDE os dados foram colhidos. Tanto na tabela quanto na figura as palavras devem ser
traduzidas para a língua onde o material será publicado (no caso o Português). Não é recomendável
deixar o fundo da figura colorido.

Comentário: a medida resumo adequada para descrever a variável Bloco é a MODA, pois o nível de
mensuração atingido pela variável foi o NOMINAL. De acordo com a Tabela e Figura, na amostra, o
"Bloco modal" é a "Europa", contendo 12 (30,8%) dos 39 países amostrados, seguido pelo bloco “America
Latina” contendo 10(25,6%) e pelo bloco “Ásia” contendo 9 (23,1%) países.

RANK SC

Comentário: a medida resumo adequada para descrever a variável RANKSC é a MEDIANA, pois o nível
de mensuração atingido pela variável foi o ORDINAL. De acordo com a Tabela, na amostra, o RANKSC
varia de 1 a 121 com mediana de 25,5, primeiro quartil de 10,75 e terceiro quartil de 39,50, desse modo,
na amostra, cerca de 50% dos países apresentam rank abaixo de 26; cerca de 50% apresentam rank
entre 11 e 40 e cerca de 25% apresentam rank acima de 40. A Tabela também mostra que um dos 39
países não apresentou valor de RANKSC (Missing = 1). De acordo com o Box Plot, na amostra, o Congo,
Mongólia e Equador apresentam, nessa ordem, as piores posições no rank.

NCISCO
Comentário: a medida resumo adequada para descrever a
variável NCISCO é a MEDIANA, pois o nível de mensuração
atingido foi o racional, a distribuição é unimodal e, tanto o
histograma quanto o Box Plot, sugerem uma forte assimetria
positiva na distribuição da variável. Ainda de acordo com o
Box Plot, USA é o país campeão em número de citações
(com mais de 50.000.000), seguido pelo Reino Unido,
Alemanha e França. De acordo com a Tabela, na amostra,
o NCISCO varia de 5.000 a 57.895.000 com mediana de
843.000, primeiro quartil de 194.250 terceiro quartil de
3.436.750 o que pode ser indicado por 843.000(194.250—
3.436.750). Assim, na amostra, cerca de 50% dos países
foram citados na Scopus mais de 843.000 vezes, cerca de
50% foram citados entre 194.250 e 3.436.750 vezes e cerca
de 25% foram citados acima de 3.436.750 vezes. A Tabela
também mostra que um dos 39 países amostrados não
apresenta valor de NCISCO (Missing = 1).

CMKcal

Comentário: a medida resumo adequada


para descrever a variável CMKcal é a
MEDIA, pois o nível de mensuração atingido
pela variável foi o racional, a distribuição é
unimodal e, tanto o histograma quanto o Box
Plot, sugerem uma fraca assimetria positiva
na distribuição da variável. De acordo com a
Tabela, na amostra, o CMKcal varia de cerca
de 2137 a 3581 com média de 2967 e desvio
padrão de 392 kcal o que pode ser indicado
por 2967±392. O intervalo de referência 95%
terá raio aproximado de 2x392=784 e irá
variar de aproximadamente 2183 até 3751. A
Tabela também mostra que todos os 39
países em estudo apresentaram valor de
CMKcal (Missing = 0).
2. (a) Com base na matriz de dispersões a seguir e na teoria estudada em aula informe o
coeficiente de correlação que deve ser utilizado em cada um dos seis pares de variáveis.

Para CMKcal e NCISCO convém usar o r-Spearman, pois apesar de


ambas serem quantitativas e n>30, o diagrama de dispersão delas
não acusa a linearidade;

Para CMKcal e RANKSC deve-se usar o r-Spearman, pois temos


uma variável quantitativa (a CMKcal) e uma ordinal ( a RANKSC);

Para CMKcal e GOV1RP pode-se usar o r-bisserial de pontos, pois


temos uma variável quantitativa (a CMKcal) e uma dicotomia (a
GOV1RP);

Para NCISCO e RANKSC deve-se usar o r-Spearman pois temos uma


variável quantitativa (a NCISCO) e uma ordinal (a RANKSC);

Para NCISCO e GOV1RP pode-se usar o r-bisserial de pontos, pois


temos uma variável quantitativa (a NCISCO) e uma dicotomia (a
GOV1RP). O uso do r-bisserial para este caso não é a melhor
opção;

Para RANKSC e GOV1RP é recomendável o uso do Teste U de


Mann-Whitney, pois uma variável é ordinal (a RANKSC) e a outra é
uma dicotomia (a GOV1RP).

(b). Com base nas matrizes de correlação dadas a seguir (a primeira de Spearman e a
segunda de Pearson) Interprete o valor e avalie a significância estatística da correlação entre
as variáveis. Use a parte (a) desta questão para fazer sua escolha do coeficiente mais
adequado e, para CMKcal e NCISCO, também exiba um texto alternativo que é
rotineiramente empregado em publicações.

CMKcal e NCISCO:
Na amostra identifica-se uma moderada correlação ordinal positiva (rsp = 0,640) entre CMKcal e NCISCO. Esta correlação é
estatisticamente significante para um alfa de 5% , pois o p-valor do coeficiente vale 0,000 que é menor que 0,05. Pode-se dizer
que quanto maior o CMKcal do país, maior tende a ser o seu NCISCO. Texto alternativo: Identifica-se uma moderada correlação
ordinal positiva entre CMKcal e NCISCO que é estatisticamente significante (r=0,640, p=0,000), isto é, existe evidência estatística
de que quanto maior o CMKcal do país, maior tende a ser o seu NCISCO.

CMKcal e RANKSC:
Na amostra identifica-se uma moderada correlação ordinal negativa (rsp = - 0,618) entre CMKcal e RANKSC. Esta correlação é
estatisticamente significante para um alfa de 5%, pois o p-valor do coeficiente vale 0,000 que é menor que 0,05. Pode-se dizer que
quanto melhor for a posição do país no rank, maior tende a ser o seu CMKcal.

CMKcal e GOV1RP:
Na amostra identifica-se uma fraca correlação bisserial de pontos negativa (rbp = - 0,365) entre CMKcal e GOV1RP. Esta correlação
é estatisticamente significativa para um alfa de 5%, pois o p-valor do coeficiente vale 0,022 que é menor que 0,05. Pode-se dizer
que países cujo governo é uma RP tendem a ter um menor CMKcal médio do que o de países com governo não RP.

NCISCO e RANKSC:
Na amostra identifica-se uma muito forte correlação ordinal negativa (rsp = - 0,975) entre NCISCO e RANKSC. Esta correlação é
estatisticamente significativa para um alfa de 5%, pois o p-valor do coeficiente vale 0,000 que é menor que 0,05. Pode-se dizer que
quanto melhor a posição do país no rank, maior tende a ser o seu NCISCO.
NCISCO e GOV1RP:
Na amostra identifica-se uma muito fraca correlação bisserial de pontos negativa (rbp = 0,018 ) entre NCISCO e GOV1RP. Esta
correlação não é estatisticamente significativa para um alfa de 5%, pois o p-valor do coeficiente vale 0,915 que é maior que 0,05.
Dizer que o resultado não é estatisticamente significativo equivale dizer que ele não deve ser inferido para a população.

*Não é recomendado avaliar a correlação entre RANKSC e GOV1RP por meio de qualquer das tabelas apresentadas nesta questão.

3. Na avaliação da significância estatística da correlação entre RANKSC e GOV1RP o teste U


de Mann Whitney produziu as duas tabelas a seguir. Com um alfa de 5% o que nos diz o teste
sobre a significância da correlação entre RANKSC e GOV1RP?

O teste U de Mann Whitney compara o posto médio (Mean Rank) nos grupos definidos pela dicotomia. A
hipótese Ho do teste afirma que os postos médios não diferem e tal hipótese equivale dizer que as
variáveis NÃO ESTÃO CORRELACIONADAS. Visto que o p-valor do teste resultou em 0,000 que é
menor do que 0,05, então devemos rejeitar Ho com um alfa de 5% e isso implica afirmar que as variáveis
estão significativamente correlacionadas. O exame dos postos médios permite dizer que os países RP
tendem a apresentar RANKSC maiores, isto é, tendem a apresentar piores posições do que os países
não RP.

4. O Risco Relativo (RR) corresponde à razão entre o “risco do desfecho alvo no grupo
tratado”/“risco do desfecho alvo no grupo não tratado” e a Razão de Chances (OR)
corresponde à razão entre a “Chance do desfecho alvo no grupo tratado”/“chance do
desfecho alvo no grupo não tratado”. A tabela a seguir exibe o valor do RR, do OR e de seus
respectivos IC(95%) considerando GOV1RP como variável de agrupamento e QVSM1a como
variável de desfecho. A primeira linha exibe o OR e seu IC para o desfecho alvo QVSM1a = 0
(QV inaceitável pelo critério SM) e a segunda linha exibe o RR e seu IC para o mesmo
desfecho alvo. Em todos os casos o grupo tratado considerado é GOV1RP=0 (País com
governo que não é uma república presidencialista). Interprete os valores do OR, do RR e use
o IC95% do RR para testar a hipótese de que as variáveis GOV1RP e QVSM1a não estão
associadas.
ORINA = 0,90
Na amostra a chance de um país NãoRP apresentar QVSM
inaceitável é 0,90 vezes a chance de um país RP apresentar
QVSM inaceitável.

RRINA = 0,628
NA amostra o risco de um país NãoRP apresentar QVSM
inaceitável é 0,628 vezes o risco de um país RP apresentar
QVSM inaceitável.

O IC95% do RR vai de 0,435 até 0,907. Visto que o IC95% NÃO contém o "1", então é razoável admitir, com 95% de
confiança, que na população de países que deu origem a nossa amostra o RR não assume o valor 1, mais ainda, que o
RR assume um valor inferior a 1. Com efeito, se o RR assume um valor inferior a 1 então R INA/NãoRP / RINA/RP < 1 e daí
podemos concluir que, com 95% de confiança, RINA/NãoRP < RINA/RP , isto é, as variáveis GOV1RP e QVSM1 estão
significativamente associadas e o risco de identificarmos um país NãoRP com QVSM inaceitável é inferior ao de
identificarmos um país RP com QVSM inaceitável na população.
5. As tabelas a seguir exibem os onze modelos de regressão simples de CMKcal sobre NCISCO
disponíveis no software SPSS e suas descrições. Com base no r-square informe o melhor e o
pior ajuste. Interprete o valor e a significância do r-square e a declividade da RLS. Informe
quais modelos exigem que todos os valores "não missing" sejam positivos.

Considerando o r-square, o melhor ajuste será a Regressão Logarítmica, pois ela é a que apresenta o maior r-square
estatisticamente significativo (r-square = 0,508 com p = 0,000). Os modelos Compound, Growth, Exponential e Logistic
apresentaram o pior desempenho, pois todos eles têm o menor r-square significativo (r-square = 0,124 com p<0,05).

A RLS é a função Yp = 2915,08 + 0,016.X onde Yp = CMKcal e X = NCISCO. O ajuste RLS apresentou um r-square de
0,142 que tem p-valor de 0,020. Considerando o r-square da RSL, podemos dizer que, na amostra, cerca de 14% da
variação total observada no CMKcal é explicado pela variável NCISCO por meio da RLS ajustada. Tal resultado é
estatisticamente significativo para um alfa de 5%, pois o p-valor do r-square vale 0,020 que é menor que 0,05.

A declividade da RLS é B=0,016 e, somente para a regressão simples, tal declividade tem p-valor coincidente com o do
r-square. Podemos interpretar a declividade dizendo que, na amostra, se aumentarmos o NCISCO de uma unidade (1
milhar de citações) espera-se que o CMKcal aumente de 0,016 kcal. Tal resultado é estatisticamente significativo para
um alfa de 5%, pois o p-valor do r-square vale 0,020 que é menor que 0,05.

De acordo com a tabela 'model description' os modelos Compound, Power, S, Growth, Exponential e Logistic exigem
que todos os valores considerados no ajuste sejam positivos.

6. A Tabela a seguir exibe o Kappa entre um QVSM1a e o QVPIB1a. A tabela também exibe o
ERRO PADRÃO do Kappa. Construa e interprete o IC de 95,44% para o Kappa populacional.

Na amostra, O Kappa de Cohen calculado para QVSM1a e QVPIB1a foi de 0,249. Considerando
uma margem de erro de aproximadamente 2x(0,155) = 0,31, podemos dizer, com 95,44% de
confiança, que o Kappa para a população de onde extraímos a amostra pertence ao intervalo
de e -0,061 até 0,559. Visto que o "0" pertence ao intervalo é razoável admitir que os
diagnósticos dados por QVSM e QVPIB não são significativamente concordantes.

7. As Tabelas a seguir exibem os resultados do ajuste da RLM da variável CMKal sobre as


demais variáveis quantitativas e dicotomias da base. Exiba a equação da RLM, interprete o
valor e avalie a significância estatística do r-square e dos coeficientes das variáveis NCISCO e
GOV1rp. Utilize o modelo ajustado para estimar o CMKcal do Brasil sabendo que ele tem
NCISCO=1331, QVSM1a = 0 e QVPIB = 1. Se o erro de previsão é dado pela diferença entre o
valor previsto e o valor observado qual foi o erro de previsão do CMKcal brasileiro se o valor
observado foi de 3283,2 kcal? Como podemos interpretar a constante que aparece na função
ajustada?
Com base na tabela MODEL SUMMARY temos r-square = 0,288, assim, podemos dizer que, na
amostra, cerca de 29% da variação total observada no CMKcal é explicada pelas variáveis
independentes NCISCO, GOV1RP, QVSM1a e QVPIB1a, por meio da função ajustada. Tal
resultado é estatisticamente significativo para um alfa de 5% pois o p-valor do r-square vale
0,021 (veja a tabela ANOVA) que é menor que 0,05.

Com base na tabela COEFFICIENTS, podemos escrever:

Yp = 2975,62 + 0,021.X1 – 230,91.X2 + 127,57.X3 + 39,77.X4

Onde Y=CMKcal, X1=NCISCO, X2=GOV1RP, X3=QVSM1a e X4=QVPIB1a.

O coeficiente da variável NCISCO pode se interpretado da seguinte maneira: na amostra, se


aumentarmos a NCISCO de uma unidade (=1000 citações) e fixarmos as demais variáveis
independentes do modelo, espera-se que o CMKcal do país AUMENTE de 0,012 kcal. Tal
resultado não é estatisticamente significativo para um alfa de 5%, pois o p-valor do coeficiente
de NCISCO vale 0,121 que é maior que 0,05. Dizer que o resultado não é estatisticamente
significativo e isso equivale dizer que ele não deve ser inferido para a população.

O coeficiente da variável Gov1RP pode ser interpretado da seguinte maneira: na amostra, se


migrarmos de um país de governo não RP para um pais RP e fixarmos as demais variáveis
independentes do modelo, espera-se que o CMKcal do país reduza de 230,91 kcal. Tal
resultado não é estatisticamente significativo para um alfa de 5% pois o p-valor do coeficiente
de Gov1RP vale 0,097 que é maior que 0,05. Dizer que o resultado não é estatisticamente
significativo equivale dizer que ele não deve ser inferido para a população.

Para obter o CMKcal previsto para o Brasil basta substituir os valores das variáveis
independentes informadas para o Brasil na função ajustada, isto é, calcular:

Yp = 2975,62 + 0,021.(1331) – 230,91.(1) + 127,57.(0) + 39,77.(1)

que irá resultar em Yp = 2812,43 kcal.

O erro de previsão foi E = 2812,43 - 3283,2 = -470,77 kcal.

A constante que aparece no ajustamento corresponde ao CMKcal de um país que apresenta


todas as variáveis independentes nulas. Se tal país foi incluído na amostra a interpretação da
constante será consistente. A constante também pode ser denominado o CMKcal autônomo,
isto é, o CMKcal que independe das variáveis independentes utilizadas no ajuste.
PARTE INDIVIDUAL DO TRABALHO (VALE 4,0 PONTOS)
Cada membro do grupo deve escolher uma das questões a seguir e manuscrever a resposta no
campo correspondente. A questão valerá 4 pontos e será somada aos 16 pontos das outras
questões para formar a nota do trabalho. Respostas não manuscritas receberão pontuação 0.

View publication stats

Você também pode gostar