Você está na página 1de 2

Exercício 3

Arquivo de dados: cancer.txt

Fonte: MAGALHÃES, M.N.; DE LIMA, A.C.P. Noções de Probabilidade e Estatística. 7.


ed. São Paulo: EdUSP, 2007.

O arquivo contém dados de uma pesquisa sobre a incidência de câncer em pacientes, e é


apresentado em 9 colunas representando as seguintes variáveis:

Ident: identificação do paciente.


Grupo: diagnóstico
(1 = falso-negativo: diagnosticados como não tendo a doença quando na verdade a tinham;
2 = negativo: diagnosticados como não tendo a doença quando de fato não a tinham;
3 = positivo: diagnosticados corretamente como tendo a doença;
4 = falso-positivo: diagnosticados como tendo a doença quando na verdade não a tinham)
Idade: idade, em anos.
AKP: espectro químico da análise do sangue-alkaliine phosphatose;
P: concentração de fosfato no sangue;
LDH: enzima lactate dehydrogenase;
ALB: albumina
N: nitrogênio na ureia
GL: glicose

a. Faça o histograma e o boxplot e calcule medidas descritivas para três variáveis dentre as
colunas 2 e 9.

b. Obtenha as medidas de posição e dispersão para as variáveis Idade e Glicose para cada tipo
de diagnóstico e compare as respostas obtidas.

c. Médicos afirmam que o grupo dos falso-positivos é mais jovem que o dos falso-negativos. O
que você diria a respeito?
d. Você diria que há diferença entre a glicose no sangue dos pacientes falso-positivos e falso-
negativos?

e. Utilizando a mediana da variável GL, classifique os pacientes em dois grupos, de alta e de


baixa taxa de glicose. Denote essa nova variável por Clagl. Você diria que as variáveis Clagl e
ALB estão relacionadas de alguma forma?

f. Considere os valores da variável Idade em três grupos: jovem, com até 25 anos (inclusive),
meia idade para indivíduos com idades entre 25 e 55 anos (inclusive) e sênior para maiores de
55 anos. Estude o comportamento desses grupos em relação à concentração de fosfato e tire as
conclusões pertinentes.

Você também pode gostar