Você está na página 1de 36

Anlise

Exploratria
de Dados com
auxlio do R
Medidas descritivas
(de posio e de disperso)

Variveis
Histograma
quantitativas Grficos
de barras
Boxplot
Distribuio de frequncias

Variveis
de setores
qualitativas Grficos
de barras

2
Exemplo: Projeto Qualidade de Vida
Dados CEA-QV: Projeto Avaliao da fadiga em mulheres
com cncer de mama durante o tratamento quimioterpico

Estudo realizado pela Escola de Enfermagem da Universidade


de So Paulo EEUSP

Objetivo: Quantificar uma possvel associao entre fadiga,


qualidade de vida e nvel de hemoglobina em mulheres com
cncer de mama em tratamento quimioterpico
Coleta dos Dados: junho/2010 a maio/2011

Anlise Estatstica: realizada pelo Centro de Estatstica


Aplicada (CEA), IME-USP, em 2015.
3
Exemplo: Projeto Qualidade de Vida
Amostra: 30 mulheres com idades acima de 19 anos, com
diagnstico de cncer de mama, tratadas no Ambulatrio de
Mastologia da Faculdade de Medicina da USP-Ribeiro Preto, no
perodo de junho/2010 a maio/2011.

Dados coletados:
- Variveis demogrficas e biomtricas
- Fadiga e qualidade de vida: mensuradas por meio do
questionrio FACIT-F verso 4
- Nvel de hemoglobina (g/dL)

Coletadas nas sesses 1, 5 e 8 de quimioterapia


4
Variveis demogrficas e biomtricas
Idade (em anos)
Etnia (codificao no arquivo de dados):
branca (1), preta (2), parda (3), amarela (4)

Estado Civil (codificao no arquivo de dados):


casada (1), solteira (2), separada (3) e viva (4)
Peso: em Kg

Altura: em cm

IMC - ndice de massa corporal: em Kg/cm2


5
Variveis demogrficas e biomtricas
Fumante: fumante (2) ou no fumante (1)

Situao do trabalho (codificao):


ativa (1), est de licena sade (2), desempregada (3),
aposentada (4) e pensionista (5)

Escolaridade (codificao no arquivo de dados):


Ens. Fundamental Incompleto (1), Ens. Fundam. Completo (2),
Ensino Mdio Incompleto (3), Ensino Mdio Completo (4),
Ensino Superior Incompleto (5) e Ensino Superior Completo (6)

6
Variveis do questionrio sobre fadiga
Questionrio FACIT-F:
Dividido em 4 domnios: BES, BEFi, BEE, BEF
Cada domnio tem 6 ou 7 questes
Cada questo tem pontuao de 0 a 4
Aps o paciente responder, calcula-se o escore de cada um dos domnios

BES BEFi BEE BEF HB

Exemplo
Pontuao BEFi: 0 a 28 - quanto maior o escore, melhor a sensao
de bem-estar.
7
Projeto Qualidade de Vida - Variveis
Bem estar fsico (BEFi): varivel relacionada pr-disposio
fsica, sensao de dores, enjoo, etc. A pontuao varia de 0 a 28.
Bem estar social/familiar (BES): varivel relacionada interao
da paciente com a famlia e amigos. A pontuao varia de 0 a 28.
Bem estar emocional (BEE): varivel relacionada a questes
psicolgicas, como stress, preocupao com o estgio da doena, etc.
A pontuao varia de 0 a 24.

Bem estar funcional (BEF): varivel relacionada pr-disposio


para trabalhar, alegria de viver, etc. A pontuao varia de 0 a 28.

Nas quatro variveis de qualidade de vida, quanto maior o


escore, melhor o bem estar fsico.
8
Projeto Qualidade de Vida - Variveis

Subescala de fadiga (SF): varivel relacionada fadiga,


engloba sintomas como fraqueza, cansao, falta de energia,
dificuldade de dormir, etc. A pontuao varia de 0 a 52.

FACT-G: medida relacionada qualidade de vida, obtida


somando-se as pontuaes das variveis BEFi, BES, BEE e
BEF. A pontuao varia de 0 a 108.

Nvel de hemoglobina (HB) no sangue, em g/dL.

Tempo: instante que foi coletada os dados de bem estar:


1=1.sesso de quimioterapia, 5=5.sesso e 8=8.sesso.
9
Projeto Qualidade de Vida (QV): Banco de Dados

n=30
Variveis demogrficas e
biomtricas da paciente.
No variam com os
tempos de coleta.

Tempos de
coleta: 1, 5 e 8

Variveis do Questionrio
FACIT-F e do nvel de
Hemoglobina.
Avaliadas em cada sesso
de quimioterapia: sesses
1, 5 e 8.

10
APOIO COMPUTACIONAL
Software sugerido: R

Vantagem: software livre


Download: http://www.r-project.org/
- Escolher opo Download R
- Seguir os passos de instalao

Biblioteca Rcmdr

Ambiente baseado em menus


Deve ser instalada aps instalao do R
Instrues de instalao na pgina do curso no paca

11
Carregando dados no R : Arquivo QV
(1) Carregar Rcmdr:

(2) Importar dados (Excel):

12
Projeto Qualidade de Vida: Dados demogrficos e biomtricos
Visualizar / Editar dados
Rcmdr: Ver conjunto de dados

13
Etnia
Nominal
Variveis Fumante
qualitativas Escolaridade Ordinal

Idade, Peso
Variveis Contnua
quantitativas IMC
BEFi
Discreta
BEE
14
Variveis Qualitativas
Etnia
Fumante
Escolaridade
Estado Civil
Situao de trabalho

Devido codificao no arquivo de dados, algumas variveis


qualitativas podem assumir valores numricos, mas esses valores
representam um fator (categoria).

Nesse caso, tem-se que converter os valores numricos para


fatores/categorias.
15
Por exemplo, a varivel Fumante assume valores 1 e 2.
preciso converter para os atributos: no-fumante e fumante.
Rcmdr: Converter uma varivel numrica em fator

16
TABELA DE FREQUNCIAS
Rcmdr: Estatsticas Resumos
Distribuies de frequncia

counts: HabFumar
No Fumante Fumante
19 11

percentages: HabFumar
Sada Rcmdr: No Fumante Fumante
17
63.33 36.67
Grficos para variveis qualitativas

Grfico de setores (pizza)


Rcmdr: Grficos Grfico de Pizza

Grfico de barras
Rcmdr: Grficos Grfico de Barras

18
Exemplo: Grfico de setores (pizza) da
varivel HabFumar (hbito de fumar)

HabFumar

No Fumante

Fumante

19
Exemplo: Grfico de barras para a varivel
ESCOLARIDADE
Rcmdr: Grficos Grfico de Barras
20
15
10
5
0

EF incompl EF EM incompl EM ES incompl ES

ESCOLARIDADE

20
Variveis Quantitativas
Para obter uma distribuio de frequncias de uma varivel
quantitativa discreta, transform-la em fator (ver slides 16 e 17) ,
com os fatores sendo os prprios nmeros.

Para obter uma distribuio de frequncias de uma varivel


quantitativa contnua, tem-se, primeiro, que construir intervalos
de classe, e depois obter a tabela de frequncias.

Por exemplo,
Construir
Varivel: Idade quantitativa intervalos
de classe
21
(1) criar nova varivel no Rcmdr
Rcmdr: Dados Modificao ...
Agrupar em classes ...

Criao da nova varivel


ClasseIdade a partir de Idade.
22
(2) obter a distribuio de frequncias da nova varivel

Rcmdr: Estatsticas Resumos


Distribuies de frequncias

Sada Rcmdr:
counts:
ClasseIdade
(24,33] (33,42] (42,51] (51,60] (60,69]
2 3 14 6 5

percentages:
ClasseIdade
(24,33] (33,42] (42,51] (51,60] (60,69]
6.67 10.00 46.67 20.00 16.67
23
A sada do Rcmdr pode ser editada, obtendo-se, por
exemplo, a tabela abaixo.

Distribuio de frequncias para ClasseIdade

Classes de Idade f fr (%)


(24,33] 2 6,67
(33,42] 3 10,00
(42,51] 14 46,67
(51,60] 6 20,00
(60,69] 5 16,67
Total 30 100,00 24
Grficos para variveis quantitativas

Histograma
Rcmdr: Grficos Histograma

Clicar na aba opes


Escolher nmero de classes ou deixar em automtico
e depois clicar densidades
Pode editar ttulo e legendas dos eixos

Boxplot
Rcmdr: Grficos Boxplot
25
Exemplo: Histograma da Idade
Rcmdr: Grficos Histograma Options
(nmero de classes=5) ...

Classes de Idade f

(20; 30] 2
(30; 40] 2
(40; 50] 15
(50; 60] 6
(60; 70] 5
Total 30
26
BOXPLOT

Boxplot um desenho esquemtico para


representar os dados por meio de um
retngulo construdo com os quartis e os
valores mnimo e mximo.

27
Boxplot - Construo
LS=Q3+1,5(Q3-Q1)
Mximo Essa linha no desenhada no grfico

Q3
75%
Mediana
50%

Q1
25%

Mnimo
LI=Q1-1,5(Q3-Q1)
Mximo o maior valor menor que LS;
Mnimo o menor valor maior que LI. 28 linha no desenhada no grfico
Essa
Exemplo: varivel Altura

Dados ordenados (n=30)


Min=146 Q1=152.5 Q2=158 Q3=161 Max=175
146 148 149 150 150 152
152 152 154 154 156 156 Identificao da
observao
156 156 158 158 159 160
160 160 160 161 161 162
173,75
162 164 165 165 172 175

Observao aberrante?

LI = Q1 - 1,5(Q3 - Q1) =139,75


LS = Q3 + 1,5(Q3 - Q1) =173,75
Varivel Quantitativa por Grupo
Os grficos (histograma e boxplot) podem tambm ser
construdos para cada categoria (grupo) de uma varivel
qualitativa. Isso til para comparar grupos.
Exemplo: Histograma de Idade por Hbito de Fumar

30
Histogramas por Grupo
IDADE de acordo com o IMC de acordo com o
HBITO DE FUMAR HBITO DE FUMAR
HabFumar = No Fumante

0.08
Densidade

0.04
0.00
20 25 30 35 40 45

IMC

HabFumar = Fumante

0.08
Densidade

0.04
0.00

20 25 30 35 40 45

IMC

31
Varivel Quantitativa por Grupo

Exemplo: Boxplot de IMC por Hbito de Fumar

32
Boxplots por Grupo

IDADE de acordo com o IMC de acordo com o


HBITO DE FUMAR HBITO DE FUMAR

33
Para treinar o uso do R e Rcmdr, sugerimos os exerccios a
seguir.
Exerccio 1:
Considere os dados demogrficos e biomtricos do Projeto
Qualidade de Vida (arquivo CEA-QV-demogrficos.xls).
a) Usando o R, converta as variveis etnia, estado civil,
escolaridade para fatores. Obtenha a tabela de frequncias e faa
uma representao grfica para cada uma dessas variveis. Descreva
e comente os resultados.

b) Usando o R, faa um histograma da varivel peso. Descreva e


comente o que voc visualiza no grfico.

c) Usando o R, faa o boxplot da varivel idade. Descreva e


comente o que voc visualiza no grfico.
Exerccio 2:
Considere os dados de fadiga do Projeto Qualidade de Vida
(arquivo CEA-QV-sessao.xls).
A varivel Tempo indica o tempo de coleta (1a., 5a., 8a.sesso de
quimioterapia) dos dados de fadiga

A varivel HB mede o nvel de hemoglobina no sangue.

A varivel BEFi (Bem Estar Fsico) varia de 0 a 28.

A varivel FACT-G a soma das variveis de BE e varia de 0 a 108.

A varivel SF (Subescala de Fadiga) engloba sintomas relacionados


fadiga e varia de 0 a 52.
Para as variveis BEFi, FACT-G e SF , quanto maior a pontuao,
melhor a sensao de bem estar ou qualidade de vida da paciente.

Usando o R, faa os itens abaixo.


a) A varivel Tempo indica o tempo de coleta (1a., 5a., 8a.sesso de
quimioterapia) dos dados de fadiga. Converta a varivel Tempo para
fator e denomine-a Sessao.

b1) Faa o histograma da varivel BEFi por Sessao. Comente.


b2) Faa o histograma da varivel HB por Sessao. Comente.

c1) Faa o boxplot da varivel FACT-G por Sessao. Comente.


c2) Faa o boxplot da varivel SF por Sessao. Comente.
Considerando os grficos acima, comente sobre o efeito da
quimioterapia sobre o bem estar ou qualidade de vida das
pacientes.

Você também pode gostar