Você está na página 1de 156

ESTATSTICA APLICADA BIOTECNOLOGIA

Ps Graduao em Toxinologia Instituto Butantan


Pedro da Silva Peixoto Instituto de Matemtica e Estatstica Universidade de So Paulo (pedrospeixoto@yahoo.com.br)
mai-12

Sobre o curso

O CURSO

Aulas Aulas: 6 Dias: 28/05 at 02/07 - Segundas-feiras Horrio: 14h00 17h00 Local: Sala Barbosa Rodrigues

Avaliao

Projeto Final
Meu contato

Por e-mail: pedrospeixoto@yahoo.com.br

Contedo

O CURSO

Aula 1 Anlise descritiva Aula 2 Inferncia estatstica paramtrica Aula 3 Inferncia no paramtrica Aula 4 Inferncia multifatorial Aula 5 Anlises de regresso e de dados categricos Aula 6 Tpicos em estatstica

Avaliao

O CURSO

Projeto Final Desenvolver um projeto de anlise estatstica que envolva as principais ferramentas estudadas A cada aula ser proposta uma parte do projeto, para ser desenvolvido ao longo do curso A nota ser dada pelo relatrio final que ser entregue contendo as anlises realizadas

Aulas

O CURSO

Parte terica Sero apresentados os conceitos pertinentes. Demonstraes? Clculos? Matemtica?


Parte prtica Aplicar os conceitos em dados reais Ser necessrio que o aluno tenha acesso a um computador contendo: Microsoft Excel, ou similar gratuito LibreOffice Calc Microsoft Word, ou similar gratuito LibreOffice Writer Possibilidade de instalao de outros softwares (Bioestat)

Referncias

O CURSO

Terica Concepts & Applications of Inferential Statistics - Richard Lowry http://faculty.vassar.edu/lowry/webtext.html Princpios de Bioestatstica Pagano e Gauvreau Estatstica Bsica Bussab e Morettin Biostatistical Analysis Zar
Prtica

Funes estatsticas no Excel (com exemplos) Em Portugus: http://office.microsoft.com/pt-br/excel-help/funcoesestatisticas-HP005203066.aspx Em ingls: http://office.microsoft.com/en-us/excel-help/statisticalfunctions-HP005203066.aspx

CONCEITOS GERAIS E ANLISE DESCRITIVA


Estatstica Aplicada Biotecnologia

mai-12

INTRODUO

Propsitos

INTRODUO

Sntese

Resumir informaes para melhorar compreenso dos dados Mdia Mediana Devio Padro Outras Estatsticas

Visualizao

Interpretaes e anlises baseadas em elementos visuais Grficos Diagramas

Inferncia

Inferir o comportamento de uma populao usando como base uma amostra Testes de hipteses

Importncia da Estatstica no Projeto de Pesquisa

INTRODUO

Planejando a coleta de dados

Organizando os dados

Anlises ao longo do processo para guiar a pesquisa

Interpretao dos resultados

Comparaes, discusses e concluses

A AMOSTRA

Inferncia Estatstica

AMOSTRAGEM

Populao

Amostra

Estatsticas Inferncia

Amostra

AMOSTRAGEM

Populao o conjunto de todos os elementos sob investigao. Em um experimento desejamos entender melhor as caractersticas da populao. Em geral NO temos acesso aos dados de toda a populao. Temos uma amostra.

Exemplo
Desejamos saber se um novo tratamento para hipertenso ou no eficaz.

Gostaramos que o tratamento pudesse ser usado por TODOS aqueles que sofrem de hipertenso.
Nossa populao o conjunto de todas as pessoas que sofrem de hipertenso

Amostra

AMOSTRAGEM

Amostra e Populao
Uma amostra refere-se a uma certa populao, e as concluses sobre esta amostra inferem sobre esta populao. EX: Amostra de ratos suios recm nascidos iro trazer informaes sobre ratos suios recem nascidos. Nada pode-se dizer em relao a outros tipos de ratos.

Aleatoriadade
Uma vez determinada a populao, a escolha dos elementos no pode ter vis. EX: Se vamos analisar coelhos de um certo tipo, no podemos, por exemplo, pegar s os coelhos mais calminhos

Tamanho da amostra
Devido ao custo de obteno de amostras vivas, o tamanho baixo. Cuidado para no ser to baixo! EX: No possivel realizar alguns testes estatsticos com menos de 4 elementos na amostra

Dicas

AMOSTRAGEM

Anotaes
Anote o mximo de informaes que puder sobre a amostra coletadas EX: Equipamento usado, se teve alguma dificuldade ou demorou mais tempo, quem fez a coleta,...

Trplicas
Para reduzir o erro de medio realize a coleta em triplicata EX: Faa a medio do fator de interesse 3 vezes e considere a mdia das medies como valor a ser analisado.

Outras formas de amostragem


Sistematizada Estratificada Tenha segurana de que voc sabe o que est fazendo!

PRIMEIRAS ESTATSTICAS

POR ONDE COMEAR?

PRIMEIRAS ESTATSTICAS

Variveis Qualitativas
Nominal
EX: Orgo afetado por um tratamento Moda, propores

Ordinal
EX: Pouca, muita dor Mediana, propores

Variveis Quantitativas
Ordinal
EX: 1,2,3,4,5,.... Mediana, quartis, percentis

Intervalar ou de razo
EX: Absorbncia, presso, comprimento, volume, % Mdia, DP, Mediana, quartis, %, ...

ORGANIZANDO OS DADOS

PRIMEIRAS ESTATSTICAS

Variveis Qualitativas
Infectado No infectado Total Grupo A 13 7 20 Grupo B 9 11 20 Grupo C 5 15 20 Total 27 33 60

Variveis Quantitativas
Amostra
1

Grupo A
2,5 3

Grupo B
3,5
2,7

Grupo C
4
3,5

2
3 4 5

1,3
2,6 . .

2,4
. . .

3,1
. . .

Grupos dependentes ou independentes ?

MEDIDAS RESUMO

Medidas em vrios rgos de um mesmo elemento amostral Medidas em vrios tempos de um mesmo elemento amostral
Pergunte-se: Se eu tirar essa medida deste grupo, e logo tirar o elemento amostral, ele ir tambm ser tirado de outros grupos? Se sim, ento h dependncia!

DEPENDENTES

Cada medio provm de elementos amostrais distintos Ao tirar uma medida, ou um elemento, os outros grupos no so afetados

INDEPENDENTES

Medidas resumo

MEDIDAS RESUMO

Posio e Disperso

Medidas de posio (centralizadoras)

MEDIDAS RESUMO

MDIA a medida centralizadora mais usada. Para calcular faa some os elementos e divida pelo nmero de elementos Ex: (3 + 5 + 9 + 4 + 8 + 2) / 6 = 5.16.
3 5 9 4 8 2

MEDIANA Leva em conta no a grandeza dos nmeros mas sua disposio


Ordena-se os elementos e toma-se o central (ou mdia dos centrais)

Para calcular ordene os valores: 2, 3, 4, 5, 7, 8, 9.


A mediana vale 5
3 5 9 7 4 8 2

Medidas de disperso

MEDIDAS RESUMO

DESVIO PADRO AMOSTRAL a medida de disperso mais usada. Use sempre um software para fazer a conta. Soma-se as diferenas com relao s medias ao quadrado, e depois divide-se por N-1 (e no N, Por qu?). Depois toma-se a raz. Exemplo: Mdia: 5.16 Desvios com relao a mdia Eleva ao Quadrado
-2.17 -0.17 3.83 -1.17 2.83 -3.17
3 5 9 4 8 2

4.71

0.03

14.67

1.37

8.01

10.05

Soma e divide por 5 : 7.76 (esta a varincia) Tomando a raz temo o desejado: 2.78

Medidas de disperso

MEDIDAS RESUMO

Variao Inter-Quartis Leva a posio relativa dos nmeros e no seu valor em si Os quartis apenas dividem a amostra. Os quartis mais famosos so os quartis de nmero 1 (25%) e 3 (75%) O quartil de nmero 2 a mediana (50%) A Variao interquartil a diferena entre o 3 e o 1 quartil Ex:
3 5 9 4 8 2 5

Em ordem temos:

25% dos dados abaixo de : 3.5 50% dos dados abaixo de : 5 75% dos dados abaixo de : 6.5 Variao Interquartis : 3 Deixa as contas para o computador para evitar confuso.

Estatsticas em Variveis Quantitativas


Estatsticas Mdia Desvio Padro Mediana Tempo 1 Tempo 2 Tempo 3

Excel - Frmulas

MEDIDAS RESUMO

Excel Mdia (Average)

Excel Seleo de Dados

VISUALIZAO GRFICA

Visualizao de variveis qualitativas


100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
No infectado Infectado

VISUALIZAO GRFICA

No infectado

Infectado

Grupo A 35% 65%

Grupo B 55% 45%

Grupo C 75% 25%

Grupo A
Infectado 65% No infectado 35%

Grupo B
Infectado 45%

Grupo C
Infectado 25%

No infectado 55%

No infectado 75%

Grupos INDEPENDENTES
Amostra 1 Grupo A
3,07 3,72 3,23 3,74 3,86 3,32 3,48 3,27 3,91 3,59

Grfico de pontos
8.00

VISUALIZAO GRFICA

Grupo B
5,68 7,02 7,57 7,15 5,49 5,36 5,29 5,34 5,17 6,00

Grupo C
2,46 2,21 2,44 3,82 3,49 2,25 2,27 3,86 2,67 2,04

7.00

Valor da Varivel

6.00 5.00 4.00 3.00 2.00 1.00

2
3

4
5 6 7 8 9 10

0.00

Grupo A

Grupo B

Grupo C

Grfico Resumo
8.00 7.00 Mdia e Desvio 6.00 5.00 4.00

Mdia Desvio Padro

3,52 0,29

6,01 0,90

2,75 0,70

3.00
2.00 1.00 0.00 Grupo A Grupo B Grupo C

Grfico de Barras com Erros

Barras de Erros

VISUALIZAO GRFICA

Variveis CORRELACIONADAS

VISUALIZAO GRFICA

Mdia e DP da varivel
16 14 12 10

Varivel

8
6 4 2 0

20

40

60

80 100 Tempo (min)

120

140

160

VISUALIZAO GRFICA

Grfico de Linhas

VARIAO PERCENTUAL (DELTA PERCENTIL)

Motivao e Clculos

VARIAO PERCENTUAL

Dados Aplica-se a dados quantitativos de variveis DEPENDENTES! EX: Evoluo do IC em 3 instantes de tempo Movitao O interesse est apenas na variao dos valores e no nos nmeros em si. EX: No inporta se o IC alto ou baixo, mas sim se ele aumentou ou diminui no tempo. Clculo Variao Percentual = (Valor no instante de interesse Valor no instante inicial) x 100 ______________________________________________ (Valor absoluto no instante inicial)

Grficos

VARIAO PERCENTUAL

Evoluo Temporal
10 8 6 4 2 0 T0 -2 T1 T2 T4 T5

-4

Evoluo Percentual
160% 140% 120%

T ( x) T (0) % | T (0) |

100%
80% 60% 40% 20% 0% T0 T1 T2 T4 T5

CUIDADOS!
100%

VARIAO PERCENTUAL

50%

SEM O MDULO!!!

0% T0 T1 T2 T4 T5

T ( x) T (0) % T (0)
ERRADO!!

-50%

-100%

-150% 160% -200% 140% 120% 100%

CORRETO:

80% 60% 40% 20% 0% T0 T1 T2 T4 T5

T ( x) T (0) % | T (0) |

BOXPLOT

Motivao e Clculos

BOXPLOT

Dados Aplica-se a amostras com dados quantitativos

Movitao Resumir a distribuio dos dados de forma grfica com a menor perda de informaes possvel.

Clculos Mediana (Divide os dados pela metade por ordem de grandeza) Quartis (Diviso dos dados por ordem de grandeza na medida) Q1 divide em 25% Q2 divide em 50% (equivale a mediana) Q3 divide em 75% Variao inter-quartil Q3 Q1 : Fornece uma medida de variabilidade dos dados

Descrio

BOXPLOT

Outlier

Mediana (50%)

Mdia

Amostra 1

-5

10

15

20

1. Quartil (25%)

3. Quartil (75%)

1,5*(Variao Interquartil) ou Mximo

Como fazer ?

BOXPLOT

EXCEL: www.ime.usp.br/~pedrosp

Coloque aqui seu ttulo

Coloque aqui o quer escrito no eixo x

6 4 2 0 -2 -4 -6 -8 Grupo A Grupo B

Outros Software

BOXPLOT

BioEstat : http://www.mamiraua.org.br/download/

No destaca outliers No destaca mdia

SOFTWARES

Software

SOFTWARES

Clculos das Estatsticas Bsicas


Microsoft Excel Software comercial, mas presente em muitos computadores

rea de Biolgicas
BioEstat (Livre) Simples mas completo www.mamiraua.org.br/download/ OpenEPi (Livre ) - Online S testes paramtricos www.openepi.com BioStat (comercial) - Completo www.analystsoft.com/br/products/biostat/ Sigmaplot+SigmaStat (comercial) Completo

Gerais
Minitab (comercial) Completo e fcil de usar SPSS (comercial) Completo e fcil de usar S-Plus (comercial) Completo mas menos amigvel Possui verso livre R-Statistics exige programao Statistica (comercial)

Dados no BioEstat

SOFTWARES

BioEstat utiliza padro americano de casas decimais (usa 3.14 no lugar de 3,14) Se o Excel estiver configurado com , faa o seguinte:

Dados no BioEstat

SOFTWARES

Copiar e colar

PROJETO

Projeto : Parte 1 Anlise descritiva de varivel independente

PROJETO

Encontrar 1 varivel quantitativa que tenha: - 2 ou mais grupos (1 Controle e demais de Teste )

- Tamanho entre 6 e 12 elementos em cada grupo

Organizar os dados em forma de tabela Calcular as estatsticas: Mdia, Desvio Padro, Mediana, 1. E 3. Quartis, Intervalo Interquatis

Fazer um grfico de barras com mdias e barras de erros com 1 desvio padro para cima e 1 para baixo

Fazer um Boxplot com os grupos

Crair um relatrio (Word - .doc), resumido, contendo informaes sobre os dados, justificando independncia, indicando o propsito da anlise descritiva, e contendo a anlise descritiva

Dicas

PROJETO

Organize os dados e faa os clculos das estatsticas no Excel

Mesmo que isso demore, um tempo investido para voc economizar tempo no futuro

No Excel aperte F1 para obter ajuda e digite por exemplo: media que ele ir lhe ajudar!

NO FAAM CONTAS NA MO OU NA CALCULADORA!

Outras Dicas

DVIDAS?

GRFICO NO EXCEL --> WORD - Clicar em copiar no grfico

- Clicar em colar ESPECIAL no WORD


- Colar como FIGURA, BITMAP ou METAARQUIVO AVANADO

USURIOS DE MACINTOSH

- Use o Microsoft Office para Mac para os grficos


- Utilize os programas online para os testes (ver final da aula 2) - possvel instalar o BioEstat no Mac (mas no to simples)

DVIDAS?

OBRIGADO E AT A PRXIMA AULA!!

pedrospeixoto@yahoo.com.br

INFERNCIA I TESTES PARAMTRICOS


Estatstica Aplicada Biotecnologia

mai-12

INTERVALO DE CONFIANA E DISTRIBUIES

Intervalo de Confiana

INFERNCIA

Erro de medida Uma medida obtida de uma amostra uma ESTIMATIVA da medida real para a populao Logo contm ERRO ! O erro depende da distribuio da varivel na populao e na amostra

Intervalo de Confiana
Para cada medida possvel atribuirmos uma noo de confiabilidade usando a amostra. Exemplo: Calculamos uma mdia 5 para uma amostra, mas com base em sua distribuio, podemos estimar que a mdia da populao est na verdade entre entre 4 e 6 com 95% de confiana

Teoria de distribuies

INFERNCIA

Distribuies Normal T-student Qui-quadrado Envolvem noes de disperso! Mdia com Distribuio Normal

Teoria de distribuies

INFERNCIA

T-Student
Se a varivel tem distribuio Normal na populao, ou a amostra suficientemente grande (>30) , mas no conhecemos o desvio da populao, s da amostra, ento ... ... A mdia amostral se distribui conforme uma t-Student ... A distribuio t-Student depende dos graus de liberdade (n-1), que denotamos por

Teoria de distribuies

INFERNCIA

Erro Padro
Usado para estimar o intervalo de confiana da mdia amostral S = Desvio Padro Amostral N = Tamanho da Amostra

s se n

Intervalo de Confiana Normal (95% de confiana): Presupe que conhecemos o desvio populacional Intervalo: x 1,96 / n T-Student (95% de confiana): Sabemos que a varivel na populao tem distribuio Normal Mas s temos informao da amostra Intervalo: x t se

tv um valor tabelado, em geral prximo de 2.

Teoria de distribuies

INFERNCIA

Na prtica
Usamos o erro padro para termos uma noo grfica de erro associada a uma amostra
9 8 7 6

5
4 3

2
1 0 A B

CUIDADO: Na literatura podem aparecer grficos com barras contendo desvio padro ou erro padro !!!

TESTES DE HIPTESES

Hiptese? Hiptese uma afirmao

INFERNCIA

Em uma certa populao as mdias de tempo de recuperao dos indduos que tomam um certo remdio e daqueles que no tomam so iguais

O teste da hiptese uma pergunta

Ser que em uma certa populao as mdias de tempo de recuperao dos indduos que tomam um certo remdio e daqueles que no tomam so iguais?

O resultado do teste uma resposta

Com base na amostra pode-se dizer que - No h indcios de diferena estatisticamente significativa no tempo mdio de recuperao entre os que tomam e os que no tomam o remdio, ou - H indcios de diferena estatisticamente significativa no tempo mdio de recuperao entre os que tomam e os que no tomam o remdio

Possveis respostas Erros tipo I e II

INFERNCIA

ERRO TIPO I ACEITAR A HIPTESE QUANDO ELA VERDADEIRA REJEITAR A HIPTESE QUANDO ELA VERDADEIRA

ERRO TIPO II ACEITAR A HIPTESE QUANDO ELA FALSA REJEITAR A HIPTESE QUANDO ELA FALSA

Nvel Descritivo (p-valor)

INFERNCIA

P-valor
a probabilidade de se obter o efeito observado, dado que a hiptese verdadeira Ele nos fornece uma medida de se podemos rejeitar ou no a hiptese proposta

Na prtica
P-valor < 5%: Ento com 95% de confiana estatstica dizemos que podemos rejeitar a hiptese P-valor > 5%: Ento no h evidncias estatsticamente significativas que nos levem a rejeitar a hiptese

Hipteses e parmetros

INFERNCIA

Hiptese principal ou nula: Mdia (ou mediana) dos grupos A e B so iguais Hiptese alternativa: Mdia (ou mediana) dos grupos A e B so diferentes

Testes de Hipteses: Que teste usar? Depende de caractersticas dos seus dados Paramtrico: Conheo informaes de distribuio da varivel na populao No Paramtrico: No conheo informaes de distribuio da varivel na populao

Unicaudal ou Bicaudal

INFERNCIA

Hiptese principal ou nula: Mdia (ou mediana) dos grupos A e B so iguais

Bicaudal
Hiptese alternativa: Mdia (ou mediana) dos grupos A e B so diferentes

Hiptese principal ou nula: Mdia (ou mediana) dos grupos A e B so iguais

Unicaudal
Hiptese alternativa: Mdia (ou mediana) do grupo A maior que do B ou Mdia (ou mediana) do grupo A menor que do B

Teoria de distribuies

INFERNCIA

Paramtrico vs No Paramtrico

Inferncia quando tomamos decises para a populao com base em uma amostra
Ela paramtrica quando conhecemos a distribuio da populao. Na prtica isso significa dizer qua a varivel tem distribuio Normal na populao Ela no paramtrica quando no temos informaes sobre a distribuio da varivel na populao. Na prtica isso no conhecemos a distribuio na populao

Paramtrico vs No Paramtrico

INFERNCIA

Paramtrico
Distribuio da varivel na populao conhecida (ex: Normal)
Estudos anteriores com amostras grandes revelam normalidade Amostras grandes (~> 20) Comparo mdias e/ou varincias Mais poderoso (*)

No Paramtrico
No conheo a distribuio da varivel na populao Amostras pequenas

Comparo medianas e/ou distribuies

Utiliza postos (ranks)

Menos poderoso (*)

(*) Poder: Habilidade do teste de detectar um efeito dado que ele realmente exista

Teste de normalidade

INFERNCIA

Grficos Testes

Histograma
QQ-Normal-Plot

ShapiroWilk AndersonDarling DAgostino Kolmogorov-Smirnov

p-valor < 5%

No Normal

p-valor > 5%

Normal

Tipos de testes de hipteses

TESTES DE HIPTESES

Frequncias Variveis Qualitativas


Teste de Homogeniedade (1 categoria) Teste Qui-Quadrado Teste Exato de Fisher

Relao Variveis Quantitativas


Correlao Pearson Spearman

Diferenas

Teste de associao ou independncia

Regresses Paramtricas No paramtricas

(2 ou mais categorias)
Teste Qui-Quadrado Testes exatos binomiais

Testes de diferenas

TESTES DE HIPTESES

GRUPOS NO CORRELACIONADOS

GRUPOS CORRELACIONADOS (TEMPOS, ESTGIOS)

2 GRUPOS

+ 2 GRUPOS

2 GRUPOS

+ 2 GRUPOS

Paramtrico:

Paramtrico:

Paramtrico:

Paramtrico: ANOVA para medidas repetidas No Paramtrico: Friedman

t-Student

ANOVA

T-Student pareado

No Paramtrico: Mann-Whitney

No Paramtrico: Kruskall-Wallis

No Paramtrico: Wilcoxon Pareado

TESTES DE DIFERENAS PARAMTRICOS

T-Student - 2 grupos independentes

TESTES PARAMTRICOS

Teste T-Student : Comparao de mdias ! H trs possveis testes: Tamanhos das amostras iguais, varincias iguais Tamanhos das amostras diferentes, varincias iguais Tamanhos das amostras diferentes, varincias diferentes Varincias Iguais? Exige que seja feito um teste de comparao de varincias Teste-F (Excel) Caso p-valor < 5% mostra indcios de que as varincias so diferentes:

T-Student - 2 grupos independentes

TESTES PARAMTRICOS

Caso Varincias Iguais (homocedstico): Usar = ttest(var1, var2, 2, 2) Caso Varincias Diferentes (heterocedstico): Usar = ttest(var1, var2, 2, 3)

Caudas

Tipo

T-Student - 2 grupos dependentes

TESTES PARAMTRICOS

Test T-Student Pareado: Comparao de mdias


Amostras necessariamente com o mesmo tamanho !!!!! equivalente a subtrair um grupo do outro e testar se a mdia zero Excel : use tipo 1

Caudas

Tipo = 1

ANOVA 1 Fator Amostras Independentes

TESTES PARAMTRICOS

Anova 1 fator amostras independentes: Comparao de mdias


- Comparao de diversos grupos independentes - Assume que as varincias so aproximadamente iguais - Dados retirados de uma mesma populao - Distribuio normal da varivel na populao - Dados na mesma escala
Group A 3.00 4.17 3.00 3.00 Group B 1.00 4.00 7.00 8.00 Group C 3.00 4.00 5.00 3.00 Group D 1.00 2.00 3.00 4.00 Group E 8.00 7.00 6.00 7.00

Hiptese: Mdias dos grupos so iguais Alternativa: Mdias dos grupos no so iguais

6.00
5.00 4.00 3.00 3.00 3.00 2.00 3.00

7.00
2.00 3.00 1.00 7.00 3.00 8.00 9.00

6.00
7.00 8.00 9.00 7.00

5.00
6.00 7.00

8.00
9.00 7.00 6.00 5.00 4.00

TESTES PARAMTRICOS

Anova - EXSTAT

Ferramentas de Estatstica no Excel Analysis Toolpack

TESTES PARAMTRICOS

ANOVA 1 Fator Amostras correlacionadas

TESTES PARAMTRICOS

Anova 1 fator amostras correlacionadas: Comparao de mdias


Comparao de diversos grupos dependentes !!! Assume que as varincias so iguais e normalidade Amostras com o mesmo tamanho !!! Conhecida como Anova de 1 fator para medidas repetidas Conhecida tambm como ANOVA de 2 fatores sem replicao

Hiptese: Mdias dos tempos/medidas so iguais Alternativa: Mdias dos temposmedidas no so iguais

Anova Medidas Repetidas - Online

TESTES PARAMTRICOS

SOFTWARES

Software

SOFTWARES

Excel
No permite o clculo de estatsticas no paramtricas diretamente Software comercial, mas presente na grande maioria das mquinas ADD-INS EXSTAT (s alguns testes, www.ime.usp.br/~pedrosp) MEGASTAT (completo, gratuto, http://highered.mcgrawhill.com/sites/0070983755/student_view0/megastat.html)

rea de Biolgicas
BioEstat (Livre) Simples mas completo www.mamiraua.org.br/download/ BioStat (comercial) - Completo www.analystsoft.com/br/products/biostat/ Sigmaplot +SigmaStat (comercial) Completo www.sigmaplot.com Inclui o Sigmastat a partir da verso 12 Graphpad Prism (comercial) http://www.graphpad.com/prism/Prism.htm

Testes Online!

SOFTWARES

http://faculty.vassar.edu/lowry/VassarStats.html VassarStats: Website for Statistical Computation NY Completo e com texto explicativo de cada teste
Lowry, R. 2011. VassarStats: Web Site for Statistical Computation. [Online]. Available at: http://faculty.vassar.edu/lowry/VassarStats.html [May 02, 2011].

http://www.fon.hum.uva.nl/Service/Statistics.html

IFA services (Institute of Phonetic Sciences Amesterdam) Menos completo, mas muito indicado para testes no paramtricos

Referncias

REFERNCIAS

Concepts & Applications of Inferential Statistics Richard Lowry - http://faculty.vassar.edu/lowry/webtext.html

PROJETO

Projeto : Parte 2 Inferncia Paramtrica

PROJETO

Utilize a varivel com 2 ou mais grupos independentes obtido anteriormente.

Execute o teste paramtrico apropriado para verificar diferena estatstica entre as mdias dos grupos

Interprete o resultado e analise-o juntamente com os grficos obtidos anteriormentes

Complemente o relatrio (Word) com as novas anlises:


- Estatsticas e grficos

- Interpretao das estatsticas

INFERNCIA II TESTES NO PARAMTRICOS


Estatstica Aplicada Biotecnologia

mai-12

TESTES DE HIPTESES

Tipos de testes de hipteses

TESTES DE HIPTESES

Frequncias Variveis Qualitativas


Teste de Homogeniedade (1 categoria) Teste Qui-Quadrado Teste Exato de Fisher

Relao Variveis Quantitativas


Correlao Pearson Spearman

Diferenas

Teste de associao ou independncia

Regresses Paramtricas No paramtricas

(2 ou mais categorias)
Teste Qui-Quadrado Testes exatos binomiais

Testes de diferenas

TESTES DE HIPTESES

GRUPOS NO CORRELACIONADOS

GRUPOS CORRELACIONADOS (TEMPOS, ESTGIOS)

2 GRUPOS

+ 2 GRUPOS

2 GRUPOS

+ 2 GRUPOS

Paramtrico:

Paramtrico:

Paramtrico:

Paramtrico: ANOVA para medidas repetidas No Paramtrico: Friedman

t-Student

ANOVA

T-Student pareado

No Paramtrico: Mann-Whitney

No Paramtrico: Kruskall-Wallis

No Paramtrico: Wilcoxon Pareado

TESTES DE DIFERENAS NO PARAMTRICOS

Postos (ranks)

TESTES DE DIFERENAS NO PARAMTRICOS

Valor 63,5 70,4 55,1 79,8 60,0 40,7

Posto 3 2 5 1 4 6

Usa a teoria conhecida para a distribuio de postos para o teste

Consequncias
No leva em conta a distncia entre os valores, s a ordem! Geralmente testa-se igualdade de medianas Se h um valor muito discrepante dos demais isso no afeta o teste H perda de informaes

Mann-Whitney U

TESTES DE DIFERENAS NO PARAMTRICOS

Caractersticas do Mann-Whitney

Teste de soma de postos de Wilcoxon (W. rank-sum test) 2 Grupos independentes Hiptese: As distribuies dos grupos so iguais, ou Hiptese: As medianas dos grupos so iguais Insensvel a outliers Os grupos no precisam ter o mesmo tamanho

Cuidados
Se a distribuio for normal melhor usar o teste t-Student para grupos independentes Precisa ter 4 ou mais elementos na amostra de cada grupo

TESTES DE DIFERENAS NO PARAMTRICOS

Mann Whitney no BioEstat

Resultados do Mann Whitney no BioEstat

TESTES DE DIFERENAS NO PARAMTRICOS

Hiptese: Mediana da Amostra 1 = Mediana da Amostra 2 Alternativa: Mediana da Amostra 1 > Mediana da Amostra 2 Resultado: P-valor 1,41% -> Rejeito a hiptese com 95% de confiana

Kruskal-Wallis

TESTES DE DIFERENAS NO PARAMTRICOS

Caractersticas do Kruskal-Wallis

Anlise de varincia no paramtrica 3 ou + grupos independentes Hiptese: As distribuies de todos os grupos so iguais, Hiptese: As medianas de todos os grupos so iguais Insensvel a outliers Os grupos no precisam ter o mesmo tamanho
Cuidados Se a distribuio for normal melhor usar o teste ANOVA de um critrio (one-way) Precisa ter 4 ou mais elementos na amostra de cada grupo Se tiver s 2 grupos use o Mann-Whitney

Kruskal-Wallis no Template de Excel - EXSTAT

TESTES DE DIFERENAS NO PARAMTRICOS

P-valor < 5% Rejeito hiptese de igualdade entre as medianas Mas quais so diferentes entre si? Uma forma usar Mann-Whitney para saber

Wilcoxon Pareado

TESTES DE DIFERENAS NO PARAMTRICOS

Caractersticas do Wilcoxon Pareado


Teste de Sinais de Postos de Wilcoxon 2 grupos dependentes, pareados Hiptese: As distribuies dos grupos so iguais, Hiptese: As medianas dos grupos so iguais Insensvel a outliers Os grupos precisam ter o mesmo tamanho
Cuidados Se a distribuio for normal melhor usar o teste t-Student pareado Precisa ter 4 ou mais elementos na amostra de cada grupo No confundir com o Wilcoxon Soma de Postos!

Wilcoxon Pareado - IFA services (Institute of Phonetic Sciences Amesterdam)

TESTES DE DIFERENAS NO PARAMTRICOS

P-valor

Online: http://www.fon.hum.uva.nl/Service/Statistics.html Teste Bicaudal Dividir p-valor por 2 para obter unicaudal

Friedman

TESTES DE DIFERENAS NO PARAMTRICOS

Caractersticas do Friedman

Anlise de varincia no paramtrica 3 ou + grupos dependentes Hiptese: As distribuies de todos os grupos so iguais, Hiptese: As medianas de todos os grupos so iguais Insensvel a outliers Os grupos precisam ter o mesmo tamanho
Cuidados Se a distribuio for normal melhor usar o teste ANOVA para medidas repetidas Precisa ter 4 ou mais elementos na amostra de cada grupo Se tiver s 2 grupos use o Wilcoxon

TESTES DE DIFERENAS NO PARAMTRICOS

Friedman no BioEstat

Friedman Resultados do BioEstat

TESTES DE DIFERENAS NO PARAMTRICOS


Faz tambm as comparaes 2 a 2 !!!

GRFICOS

Grficos em testes de diferenas

GRFICOS

CATEGORIAS NO CORRELACIONADAS

CATEGORIAS CORRELACIONADAS

Paramtrico: Barras com erros


9 8 7 6 5 4 3 2 1 0 A

No Paramtrico: Boxplot
15

Paramtrico: Linha com erros

No Paramtrico: Boxplot com linha

10

5
10 9
10 9 8 7 6 5 4 3 2 1 0

0
B

50 Tempo (min)100
7 6 5 4 3 2 1 0

150

Group A

Group B

Group C

Antes

Depois

PROJETO

Projeto : Parte 3 Inferncia No Paramtrica

PROJETO

Utilize a varivel (apenas 1 fator) com 2 ou mais grupos independentes/dependentes obtido anteriormente. Execute o teste apropriado para verificar diferena estatstica entre as medianas dos grupos (no paramtrico)

Interprete o resultado e analise-o juntamente com os resultados obtidos anteriormente

Complemente o Relatrio (Word):

- Descrio dos dados


- Tabela com os dados - Estatsticas e grficos - Interpretao das estatsticas

Projeto

PROJETO

Relatrio -Introduo : -Discorra brevemente sobre o que se tratam os dados incluindo a justificativa de relao de dependncia entre as categorias

-Metodologia: -Quais mtodo voc vai usar para analisar os dados e por qu? -Quais programas vai usar?
-Resultados: -Anlise descritiva (mdia, mediana, desvio,...) -Grficos de barras/linhas e boxplot -Comparao de mdias (paramtrico) -Comparao de medianas (no paramtrico) -Discusso/Concluses -Que tipo de efeito observou ? -Era o esperado?

-Anexo/apndice: tabela contendo os dados

Escrevendo

PROJETO

Em METODOLOGIA: Destacar TODA a metodologia estatstica usada e o motivo. EXEMPLOS: Como no conhecemos as distribuies de probabilidade das variveis na populao, foram usados testes no paramtricos para comparaes de variveis quantitativas, e boxplots para as representaes grficas (... Destacar quais e quando usou...) Consideramos um nvel de significncia de 95% para os testes de hiptese (...) Em RESULTADOS: Anlise descritiva da amostra Interpretar os dados e as estatsticas obtidas. EXEMPLO: Observa-se que h uma diferena estatisticamente significativa (pvalor < 5%) nas medianas dos nveis de glicose quando consideramos o grupo controle em relao ao de teste, indicando nveis maiores no grupo de teste. Isso pode ser observado na figura 4.3, onde apresentamos o boxplot que refere-se ao teste, (...). DICA: Usem como referncia outros artigos/teses (de qualidade)

Projeto

PROJETO

Entrega Por e-mail: pedrospeixoto@yahoo.com.br Mande com o assunto: Projeto de Estatstica - Butantan Data: At 15/7 Entregue o relatrio (.doc, .docx, .pdf) e o arquivo contendo as anlises em Excel. Avaliao 1/5 - Organizao 1/5 - Anlise Descrita e grficos 1/5 - Testes de comparaes paramtricos 1/5 - Testes de comparaes no paramtricos 1/5 - Interpretaes e anlises Software

Use o que achar mais adequado para o seu perfil, sugestes: BioEstat Softwares Online Excel + Templates Excel (MegaStat, EXSTAT)

Projeto

PROJETO

Observaes importantes

Utilize no projeto dados de apenas 1 fator. Podem ser com grupos independentes, ou dependentes. O fator pode ter 2 ou mais categorias. Fique atento as escolhas dos testes pertinentes (paramtricos e no paramtricos) Caso a sua base de dados tenha 2 fatores escolha 1 para trabalhar, de preferncia o de grupos independentes. Caso queira trabalhar com 2 fatores, faa a ANOVA apropriada (vamos estudar a seguir). Esta parte no ser levada em conta na avaliao. Caso no tenha uma amostra com essas caracteristicas tente obter uma com colegas os artigos. Caso mesmo assim no consiga, pode simular os dados, assim temos o efeito didatico.

INFERNCIA III - ANOVAS


Estatstica Aplicada Biotecnologia

mai-12

ANOVA

Testes de diferenas

TESTES DE HIPTESES

GRUPOS NO CORRELACIONADOS

GRUPOS CORRELACIONADOS (TEMPOS, ESTGIOS)

2 GRUPOS

+ 2 GRUPOS

2 GRUPOS

+ 2 GRUPOS

Paramtrico:

Paramtrico:

Paramtrico:

Paramtrico: ANOVA para medidas repetidas No Paramtrico: Friedman

t-Student

ANOVA

T-Student pareado

No Paramtrico: Mann-Whitney

No Paramtrico: Kruskall-Wallis

No Paramtrico: Wilcoxon Pareado

ANOVA

ANOVA

ANOVA Anlise de Varincia (ANalysis Of VAriance)


Existem diversos tipos!!! usado para anlises globais, com diversos grupos simultaneamente. J vistos: ANOVA de 1 fator para grupos independentes ANOVA de 1 fator para medidas repetidas (dados correlacionados) A ser visto: ANOVA de 2 fatores para amostras independentes ANOVA de 2 fatores com um deles para dados correlacionados ANOVA de 2 fatores com com ambos fatores com dados correlacionados Importante!! Anlises do tipo ANOVA so geralmente paramtricas, logo pressupe normalidade Alm disso, em geral assume se que as varincias so iguais

ANOVA 2 fatores

ANOVA

Como o nome diz envolve 2 fatores. Exemplo:

Serpente A Serpente B Serpente C Controle 3 5 7 2 5 8 3 6 7 4 5 8 5 7 7 Trat 1 5 6 9 4 6 7 3 7 9 2 7 6 6 6 7 Trat 2 5 7 13 4 7 11 3 8 11 3 7 12 3 9 10

2 fatores com amostras independentes

Mdias Controle Trat 1 Trat 2 Erro Padro

Serpente A 3.4 4 3.6 Serpente A

Serpente B 5.6 6.4 7.6 Serpente B

Serpente C 7.4 7.6 11.4 Serpente C

Controle
Trat 1 Trat 2

0.51
0.71 0.40

0.40
0.24 0.40

0.24
0.60 0.51

ANOVA 2 fatores

ANOVA

ANOVA 2 fatores com replicao (Data Analysis Excel) Fator das linhas (Tratamento)
ANOVA Source of Variation Sample Columns Interaction Within Total
14 12

SS 34.53 198.53 27.33 39.60 300.00

df 2 2 4 36 44.00

MS 17.27 99.27 6.83 1.10

F 15.70 90.24 6.21

P-value 0.001% 0.000% 0.066%

F crit 3.26 3.26 2.63

Fator das colunas (Serpentes) Interao (Tratamento x Serpentes)

Controle

Trat 1

Trat 2

10 8 6 4
2 0

Serpente A

Serpente B

Serpente C

ANOVA 2 fatores

ANOVA

2 fatores com um dos fatores com dados correlacionados

Tipo de Tratamento e Estgios (Tempo) Fator 1: Controle/Trat.A/Trat.B Fator 2: Logo aps procedimento/1dia depois/ 2dias depois Lago de coleta e Profundidade Fator 1: LagoA/ LagoB Fator 2: 0m/ 1m/ 5m Tratamento e diluio Fator 1: Controle/Trat.A/Trat.B Fator 2: 1/4000, 1/8000, 1/16000

2 fatores com um ambos fatores com dados correlacionados

Periodo e Diluio Fator 1: Antes/Depois Fator 2: 1/4000, 1/8000, 1/16000 poca e profundidade Fator 1: Vero/Inverno Fator 2: 0m/ 1m/ 5m

ANOVA Online

ANOVA

http://faculty.vassar.edu/lowry/vsanova.html

ANOVA 2 fatores com dados correlacionados


1.00

ANOVA

Controle

Tratamento

Diluio DO 1/4000 1/8000 1/16000 1/32000 Controle 0.7 0.3 0.2 0.1 0.8 0.2 0.2 0.1 0.6 0.2 0.1 0.1 Tratamento 0.7 0.3 0.2 0.1 0.9 0.5 0.4 0.3 0.8 0.4 0.3 0.2

0.90 0.80 0.70

0.60 0.50
0.40 0.30 0.20 0.10

0.00
1/4000 1/8000 1/16000 1/32000

No rejeito hiptese de igualdade entre linhas (Controle/Trat)

Rejeito hiptese de igualdade entre colunas (Diluio)

ANOVA 2 fatores

ANOVA

ANOVA 2 Fatores com dados correlacionados: Nem todo software faz !

Muitos estudos usam ANOVA 2 fatores para amostras independentes mesmo com dados correlacionados. Evitem !!!! Exemplo anterior (calculado no Excel):
ANOVA Source of Variation Sample Columns Interaction Within

SS 0.09 1.28 0.00 0.11

df 1 3 3 16

MS 0.09 0.43 0.00 0.01

F P-value 13.24 0.221% 60.45 0.000% 0.22 88.407%

ANOVA 2 fatores

ANOVA

Balanceamento: Cada fator de linha tenha sempre o mesmo nmero de amostras para cada fator de coluna. Amostras no balanceadas exigem tratamento especial (ANOVA 2 fatores sem balanceamento) Tambm conhecido como modelo linear generalizado.

Anlise dos detalhes: Se observamos efeito de um fator: Quais das categorias/grupos se diferenciam das demais? Comparaes 2 a 2: Tukey, Scheff, Mann-Whitney, Teste-t, Wilcoxon, Bonferroni, ...

Anlise Global: ANOVA

Anlise dos detalhes: Comparaes Mltiplas

COMPARAES MLTIPLAS

Comparaes Mltiplas

COMPARAES MLTIPLAS

Erro Comparao AxC : 5%

Erro Comparao AxB : 5%

Erro Comparao BxC : 5%

Erro do Conjunto (Familywise)


100%-(95%)^3=14.2 %

Mtodos de Correes

COMPARAES MLTIPLAS

J sei quantas comparaes vou fazer e uso um nvel de significncia menor (<5%) ou corrijo os p-valores obtidos de testes t-student

Bonferroni

Muito conservador

Holm-Bonferroni Mais poderoso Dunn-Sidak Duncan Fisher LSD Assume independncia Obsoleto Melhor usar Holm-Sidak

Holm-Sidak

Em geral uma boa escolha

Testes Post Hoc

COMPARAES MLTIPLAS

Testes realizados depois de uma ANOVA para comparaes mltiplas

Teste t-Student com correes


Conservador, poderoso Student-Newman-Keuls Detecta diferenas onde talvez no exista Dunnet Compara versus controle Tukey (-HSD, -Kramer) Uma boa escolha no caso geral Scheff Faz comparaes mais sofisticadas (no s 2 a 2)

ANOVA NO PARAMTRICA

COMPARAES MLTIPLAS

Testes Post-Hoc para Kruskal- Wallis ?


Uso os testes anteriores para os postos !

Mann-Whitney com correes


Conservador, poderoso Student-Newman-Keuls Detecta diferenas onde talvez no exista Dunnet Compara versus controle Tukey (-HSD, -Kramer) Dunn Menos conservador Permite grupos com tamanhos diferentes Indicado no caso geral

COMPARAES MLTIPLAS - RECOMENDAES

COMPARAES MLTIPLAS

Comparaes Mltiplas

Paramtrico

No paramtrico

Tukey

Dunn ou Tukey

Holm-Sidak

Holm-Sidak

RESUMO

Testes de diferenas
Paramtrico:
t-Student 2 GRUPOS No Paramtrico: GRUPOS NO CORRELACIONADOS Mann-Whitney Paramtrico: ANOVA + 2 GRUPOS No Paramtrico: Kruskall-Wallis Paramtrico: T-Student pareado 2 GRUPOS No Paramtrico: GRUPOS CORRELACIONADOS (TEMPOS, ESTGIOS) + 2 GRUPOS No Paramtrico: Wilcoxon Pareado Paramtrico: ANOVA med. rep. Comparaes Mult: Dunnet ou Tukey Comparaes Mult: Teste Prprio Comparaes Mult: Tukey

TESTES DE HIPTESES

Comparaes Mult: Dunn ou Tukey

Friedman

Resumo Grupos Independentes

ANOVA

Global:
ANOVA 2 fatores
Serp A 3 2 3 4 5 5 4 3 2 6 5 4 3 3 3 Serp B 5 5 6 5 7 6 6 7 7 6 7 7 8 7 9 Serp C 7 8 7 8 7 9 7 9 6 7 13 11 11 12 10
Controle

Trat 1

Fixando fator de linha (ou coluna):


ANOVA 1 fator indep. Kruskall-Wallis

Fixando Fator de Coluna e Linha (comparaes 2 a 2):


Testes post hoc (Tukey, Holm-Sidak) Teste t Mann-Whitney

Trat 2

Resumo Grupos Dependentes

ANOVA

Global: ANOVA 2 fatores com dados correlacionados nas colunas


T0 3 2 3 4 5 5 4 3 2 6 5 4 3 3 3 T1 5 5 6 5 7 6 6 7 7 6 7 7 8 7 9 T2 7 8 7 8 7 9 7 9 6 7 13 11 11 12 10

Controle

Fixando Fator de Linha:


ANOVA 1 fator med. rep. Friedman

Teste t Mann-Whitney Testes post hoc

Trat 2

Fixando Fator de Coluna e comparando linhas 2 a 2:

Trat 1

Fixando Fator de Linha e comparando colunas 2 a 2:


Teste t pareado Wilcoxon Testes post hoc

Fixando Fator de Coluna:


ANOVA 1 fator indep Kruskall-Wallis

Grficos para 2 fatores

GRFICOS

CATEGORIAS NO CORRELACIONADAS

CATEGORIAS CORRELACIONADAS

Paramtrico: Barras com erros


14 12

Paramtrico: Linhas com erros

Controle

Trat 1

Trat 2
14

10 8 6 4
2 0

Controle

Trat 1

Trat 2

12
10

8
6 4

Serpente A

Serpente B

Serpente C

2
0 T0 T1 T2

Projeto

PROJETO

Plus para o projeto

Caso sua base dados tenha 2 fatores, tente usar a metodologia de ANOVA com 2 fatores Inclua no projeto as anlises posteriori, de comparaes mltiplas, caso tenha mais de 2 grupos. Caso no tenha uma amostra com essas caractersticas simule um conjunto de dados para exercitar a metodologia estudada. Essa parte no entrar na nota do projeto

ANLISES DE DADOS CATEGRICOS E REGRESSES


Estatstica Aplicada Biotecnologia

mai-12

ANLISES DE DADOS CATEGRICOS

Dados

ANLISE DE DADOS CATEGRICOS

Dados Nominais ou Categricos


Local de Coleta
Rural Urbana Transio

Sim/No Masculino/Feminino Pouca/Mdia/Muita Dor Escolaridade

33% 50% 17%

Hipteses

ANLISE DE DADOS CATEGRICOS

Associao ou independncia

Sexo x Fumo Sexo x Local de Tumor Fumo x Local de Tumor


Paciente 1 2 3 Sexo M F F Fumo S N S Local Tumor Pulmo Estmago Traqueia

4
5 6 .

M
M . .

S
N . .

Pulmo
Estmago . .

Testes

ANLISE DE DADOS CATEGRICOS

Exemplo: Fumo x Tumor Fumo Pulmo 28 12 40 Tumor Estmago 8 27 35 Traqueia 14 11 25 Total

S N Total
45 40 35
Nmero de Pacientes

50 50 100

12

30 25 20 15 10 5 0 Pulmo Estmago Tumor Traqueia


14
8 28 27 11

Fumo

N S

Existe associao?

Testes

ANLISE DE DADOS CATEGRICOS

Exemplo: Fumo x Tumor Existe associao? Teste Qui-quadrado Usando Vassar Stats H evidncia de associao com 95% de confiana

Valores Esperados: Fumo S N Total Pulmo 20 20 40

Tumor Estmago 17.5 17.5 35

Traqueia 12.5 12.5 25

Total 50 50 100

40*50/100=20 Para o Qui-Quadrado no pode haver valor esperado menor que 5. Os softwares te avisam caso isso ocorra. Alternativa: Fisher

Testes

ANLISE DE DADOS CATEGRICOS

Teste alternativo para N pequeno: Teste exato de Fisher Dos que tiveram metastese: Sobrevivncia Fumo Sim No S 3 9 N 6 2 Total 9 11
12 10 8 6 4 2 3 Sim Sobrevivncia No 6 9 2

Esperados: Total 12 8 20 Fumo S N Total Sobrevivncia Sim No 5.4 6.6 3.6 4.4 9 11 Total 12 8 20

Fumo
N

Testes

ANLISE DE DADOS CATEGRICOS

Testes Bsicos
N grande Todas as clulas com valor maior que 5: Qui-quadrado N pequeno: Teste exato de Fisher

Outros
Correo de continuidade de Yates para Qui-quadrado Associao com dependncia McNemar Razo de risco, risco relativo Razo de chances (odds ratio)

Importante
O teste deve ser sempre feito com as quantidades reais, e no com %

EXERCCIO

Exerccio Regresso

EXERCCIO

Obtenha uma tabela de contingncia para fazer uma anlise de regresso ou use os dados fornecidos

Calcule os valores esperados e faa os grficos apropriados

Faa as anlises de associao adequadas

Relatrio (Word):
- Caso os dados estejam ligados aos dados usados anteriormente, apenas acrescente as anlises no relatrio do projeto.

- Caso contrrio, monte um relatrio simples contendo a parte de anlise de regresso.

Dados para o exerccio

EXERCCIO

Caso no tenha um conjunto de dados use este:

Dieta

Homem

Mulher

Total

Sim
No Total

1
11 12

9
3 12

10
14 24

REGRESSES

Introduo

REGRESSES

Regresso ? Estabelecer um modelo com base em um conjunto de dados Propsito 2 variveis : Medir a relao entre elas Mais variveis : Explicar uma varivel em funo das demais Requisitos 2 ou mais variveis numricas provenientes de uma mesma amostra Geralmente variveis independentes Distribuio Normal das variveis na populao Alguns tipos ... Linear (simples e mltipla) Logstica (Variveis categricas ou binrias) Modelos Lineares Generalizados Modelos temporais

Correlao

REGRESSES

Correlao de Pearson: Definio e conceitos


Mede a relao entre 2 variveis numricas proveninetes de uma mesma amostra. A mostra deve ser pareada uma medida entre -1 e 1 Correlao negativa => correlao inversa Positiva => direta

Quando mais perto de 1 ou -1 maior a correlao


Grfico: Diagrama de Dispersso (Scatterplot)

Importante: preciso termos a hiptese de normalidade satisfeita.

Correlao

REGRESSES

CORRELAO NO IMPLICA CAUSA


Exemplos: H uma grande correlao entre a venda de sorvetes e afogamentos. Ser que sorvetes causam afogamentos? Ou simplesmente no vero tomamos mais sorvetes e usamos mais a piscina/praia ? H um correlao alta nas ltimas dcadas at hoje entre o o CO2 e a obesidade. Ser que o CO2 engorda?

Regresso

REGRESSES

Regresso Linear Simples


Modelo simples de relao entre 2 variveis Formado por um coeficiente de tendncia e um de constante Um parmetro de avaliao o coeficiente de determinao R2 entre 0 e 1
y = 0.7066x + 2.5655 R = 0.5457

X 1.00 2.00 3.00 4.00 3.00 2.00 4.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00

Y 2.00 5.00 6.00 7.00 4.00 3.00 5.00 4.00 5.00 2.00 8.00 9.00 8.00 8.00 7.00

10.00 9.00 8.00 7.00 6.00 5.00 4.00 3.00 2.00 1.00 0.00 0.00 2.00 4.00 x 6.00

8.00

10.00

Regresso Linear Simples

REGRESSES

Regresses Logartmicas
Diluio (1/x) 4000 8000 16000 32000 64000 Densidade ptica 0.703 0.311 0.139 0.058 0.015
0.8
0.7 0.6

REGRESSES

y = -8E-06x + 0.4542 R = 0.5399

Densidade ptica

0.5
0.4

0.3
0.2

0.1
0 -0.1

10000

20000

30000

40000

50000

60000

-0.2

Escala X em Log:
0.8 0.7 0.6

Diluio (1/x)

y = -8E-06x + 0.4542 R = 0.5399

Escala X e Y em Log:
1

Densidade ptica

0.5
0.4

0.3
0.2

Densidade ptica

0.1

0.1
0

4000 -0.1
-0.2

8000

16000
Diluio (1/x)

32000

64000
0.01 4000

8000

16000
Diluio (1/x)

32000

64000

Regresses Logartmicas Diluio (1/x) Log2(DO) 4000 -0.508 8000 -1.685 16000 -2.847 32000 -4.108 64000 -6.059
-1
-2

REGRESSES

y = -9E-05x - 0.9252 R = 0.9352

Log2(DO)

-3

-4 -5

Log2(DO)=a*(Diluio)+b DO=2
(a*(Diluio)+b)

-6 4000 14000 24000 34000


Log2(Diluio)

44000

54000

64000

0.8

Densidade ptica

Densidade Log2(Diluio) ptica 11.9658 0.703 12.9658 0.311 13.9658 0.139 14.9658 0.058 15.9658 0.015

0.7

y = -0.1629x + 2.5202 R = 0.8472

0.6
0.5 0.4

0.3
0.2 0.1

DO=a* log2(Diluio)+b

0
-0.1 11

12

13

14

15

16

-0.2

Log2(Diluio)

Regresses Logartmicas

REGRESSES

Log2(Diluio) 11.966 12.966 13.966 14.966 15.966

Log2(DO) -0.508 -1.685 -2.847 -4.108 -6.059

Log2(DO)=a*Log2(Diluio)+b DO=2 a*log2(Diluio) 2b DO= 2b (Diluio) a

0 -1
Log2(DO)

y = -1.3524x + 15.846 R = 0.9867

-2

-3
-4 -5 -6
11.0 11.5 12.0 12.5 13.0 13.5
Log2(Diluio)

14.0

14.5

15.0

15.5

16.0

Correlao No Paramtrica

REGRESSES

Coeficiente de Correlao de SPEARMAN: -No exige normalidade no paramtrico -Usa postos para obter a correlao
X 4.0 0.0 3.0 1.0 5.0 2.0 3.5 0.5 0.3 4.5 3.2 4.8 5.1 5.4 5.7 2.7 1.4 2.2 Y 5.0 0.0 4.0 3.7 8.0 2.5 4.2 2.5 1.4 6.7 5.3 9.0 10.0 13.0 16.0 4.1 3.9 6.1
18
16

14

12 10

8
6

4
2 0 0 1 2 3 X
20 18
16 14 12 10 8 6 4 2 0 0 5 10 Postos X 15 20

Pearson 0.866

Postos Y

Postos x Postos y 7.0 9.0 18.0 18.0 10.0 12.0 15.0 14.0 4.0 5.0 13.0 15.5 8.0 10.0 16.0 15.5 17.0 17.0 6.0 6.0 9.0 8.0 5.0 4.0 3.0 3.0 2.0 2.0 1.0 1.0 11.0 11.0 14.0 13.0 12.0 7.0

Spearman 0.95

EXERCCIO

Exerccio Regresso

EXERCCIO

Obtenha 2 variveis de uma mesma amostra para fazer uma anlise de regresso ou use os dados fornecidos

Faa a parte de anlise descritiva e grfica

Calcule a correlao (Pearson e Spearman), ajuste uma regresso linear adequada e interprete os resultados

Relatrio (Word):
- Caso os dados estejam ligados aos dados usados anteriormente, apenas acrescente as anlises no relatrio do projeto.

- Caso contrrio, monte um relatrio simples contendo a parte de anlise de regresso.

Dados para o exerccio

EXERCCIO

Caso no tenha um conjunto de dados com 2 variveis utilize esse exemplo, onde temos os resultados de um ELISA

Grau de diluio Protenas/mL Absorbncia

1 1/2 1/4 1/8 1/16 1/32 1/64

2.8E+09 1.4E+09 7.0E+08 3.5E+08 1.8E+08 8.8E+07 4.4E+07

1.792 1.522 1.153 0.688 0.431 0.237 0.161

RESUMO DO DIA

Tipos de testes de hipteses

TESTES DE HIPTESES

Frequncias Variveis Qualitativas


Teste de Homogeniedade (1 categoria) Teste Qui-Quadrado Teste Exato de Fisher

Relao Variveis Quantitativas


Correlao Pearson Spearman

Teste de associao ou independncia (2 ou mais categorias) Teste Qui-Quadrado Testes exatos de Fisher (binomiais)

Regresses Paramtricas No paramtricas

Grficos X Testes

TESTES DE HIPTESES

Frequncias
Variveis Qualitativas
Testes de Comparao de Distribuies em Categorias Barras com frequncias Pizza/torta

Relao
Variveis Quantitativas
Correlao/Regresses

Diagrama de Dispersso (Scatterplot)

100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

Grupo A 35% 65%

Grupo B 55% 45%

Grupo C 75% 25%

10.00 9.00 8.00 7.00 6.00 5.00 4.00 3.00 2.00 1.00 0.00 0.00 2.00 4.00 x 6.00

y = 0.7066x + 2.5655 R = 0.5457

No infectado Infectado

8.00

10.00

OBRIGADO E BONS ESTUDOS!!!

Dvidas? pedrospeixoto@yahoo.com.br www.ime.usp.br/~pedrosp