Escolar Documentos
Profissional Documentos
Cultura Documentos
Elaboração
Produção
APRESENTAÇÃO....................................................................................................................................................................................... 4
INTRODUÇÃO.............................................................................................................................................................................................. 7
UNIDADE I
ANÁLISE EXPLORATÓRIA.................................................................................................................................................................................................. 9
CAPÍTULO 1
MEDIDAS DE TENDÊNCIA CENTRAL E MEDIDAS DE DISPERSÃO................................................................................................... 9
CAPÍTULO 2
REGRAS GERAIS DE PROBABILIDADE E INDEPENDÊNCIA.............................................................................................................. 26
CAPÍTULO 3
DISTRIBUIÇÃO DE PROBABILIDADES......................................................................................................................................................... 32
UNIDADE II
ESTATÍSTICA ANALÍTICA.................................................................................................................................................................................................. 41
CAPÍTULO 1
CONCEITOS GERAIS EM ESTATÍSTICA ANALÍTICA............................................................................................................................... 41
UNIDADE III
ANÁLISES MULTIVARIADAS........................................................................................................................................................................................... 79
CAPÍTULO 1
CONCEITOS GERAIS EM ANÁLISES MULTIVARIADAS........................................................................................................................ 79
CAPÍTULO 2
AGRUPAMENTO DE VARIÁVEIS...................................................................................................................................................................... 84
UNIDADE IV
ANÁLISES DE REDES NEURAIS ................................................................................................................................................................................. 104
CAPÍTULO 1
CONCEITOS GERAIS EM ANÁLISES DE REDES NEURAIS............................................................................................................... 104
CAPÍTULO 2
CONCEITOS EM ALGORITMOS...................................................................................................................................................................... 111
CAPÍTULO 3
CONCEITOS EM MACHINE LEARNING....................................................................................................................................................... 118
REFERÊNCIAS....................................................................................................................................................................................... 128
APRESENTAÇÃO
Caro aluno
Conselho Editorial
4
ORGANIZAÇÃO DO CADERNO
DE ESTUDOS E PESQUISA
A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto
antes mesmo de iniciar sua leitura ou após algum trecho pertinente
para o autor conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma
pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em
seu raciocínio. É importante que ele verifique seus conhecimentos, suas
experiências e seus sentimentos. As reflexões são o ponto de partida
para a construção de suas conclusões.
Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam
para a síntese/conclusão do assunto abordado.
5
Organização do Caderno de Estudos e Pesquisa
Saiba mais
Informações complementares para elucidar a construção das sínteses/
conclusões sobre o assunto abordado.
Sintetizando
Trecho que busca resumir informações relevantes do conteúdo,
facilitando o entendimento pelo aluno sobre trechos mais complexos.
6
INTRODUÇÃO
A estatística, nos dias de hoje, é uma ciência que permeia diversos outros
campos científicos. É apresentada a muitos cientistas, durante seu processo de
formação acadêmico-profissional, como uma ferramenta para coletar dados,
organizá-los, analisá-los e interpretá-los. Quase toda ciência produzida tem
uma análise estatística envolvida.
Objetivos
» Revisão conceitual de estatística descritiva.
7
Introdução
8
ANÁLISE
EXPLORATÓRIA UNIDADE I
CAPÍTULO 1
Medidas de tendência central e
medidas de dispersão
Quando você pega um novo conjunto de dados, você deve mergulhar nele e
deve ter uma hipótese pronta. Caelainn Barr, jornalista premiada, explica o
seu método de lidar com fontes de dados em: http://datajournalismhandbook.
org/1.0/en/understanding_data_4.html.
9
Unidade i | Análise exploratória
Estatística e bioinformática
Figura 1. Representação esquemática de como o vírus SARS-CoV-2 consegue invadir uma célula de um hospedeiro.
O momento da entrada do
S2
vírus na célula do
Receptor ACE-2 hospedeiro seria um alvo
S1
da célula para ação de medicamentos
hospedeira de tal forma a inibir a viremia
interage com os no organismo.
subdomínios S.
TMPRSS2
ACE-2
10
Análise exploratória | Unidade i
Biologia
Matemática
Medicina e Estatística
Bioinformática
Ciências da
computação
Aspectos gerais
As medidas de tendência central e de dispersão são meios de se descrever uma
sequência de dados, isto é, um banco de dados a ser trabalhado. De maneira
geral, as medidas de tendência central descrevem o que os “dados têm em
comum” (onde se repetem, onde são similares etc.) e as medidas de dispersão
descrevem a diferença dos dados e a distancia entre eles.
11
Unidade i | Análise exploratória
Figura 3. Relação de uma amostra com a população, estatísticas descritivas e estatísticas inferenciais.
População Amostra
(características)
Técnicas de amostragem
Análise descritiva
(estatística descritiva)
Inferência estatística
Agora que falamos desses conceitos iniciais sobre população, amostra e como
se relacionam com a estatística descritiva e analítica, falaremos sobre a estatística
descritiva.
Estatística descritiva
12
Análise exploratória | Unidade i
Distribuição
Moda
13
Unidade i | Análise exploratória
Média
Média consiste no somatório de todos os valores dos seus dados e dividir pelo
total de “indivíduos” em uma amostra ou uma população. É representada pelas
fórmulas a seguir:
Exemplo:
A idade é uma variável numérica quantitativa, por isso a média é aplicada aqui.
Essa é uma média aritmética, que é uma medida simples de se estabelecer o “meio”
da amostra.
14
Análise exploratória | Unidade i
Mediana
A mediana indica o “lugar” que fica exatamente no meio dos dados ordenados.
Ela não leva em conta o valor apresentado pelo indivíduo, mas a ordem desses
valores e onde fica o meio.
Quando ordenamos o exemplo anterior: 3, 5, 6, 8, 9, 13, 16, 19, 20, 21, 22, 22,
22, 24, 34, 35, 46, 52, 62, 85.
Então, como temos 20 indivíduos, 21/2 = 10,5. A mediana está entre os valores
do indivíduo 10 e do indivíduo 11.
3, 5, 6, 8, 9, 13, 16, 19, 20, 21, 22, 22, 22, 24, 34, 35, 46, 52, 62, 85
10 indivíduos 10 indivíduos
A mediana é de valor igual a 21,5. A metade
do caminho entre 21 (10º. Indivíduo) e 22 (11º.
Indivíduo)
Moda
3, 5, 6, 8, 9, 13, 16, 19, 20, 21, 22, 22, 22, 24, 34, 35, 46, 52, 62, 85
15
Unidade i | Análise exploratória
moda = mediana = média moda < mediana < média média < mediana < moda
Medidas de dispersão
As medidas de dispersão avaliam quanto os dados estão “espalhados”, quanto são
“diferentes”, dentro do seu banco de dados da sua amostra. Em outras palavras,
eles medem a variabilidade dos seus dados. A figura a seguir apresenta duas
distribuições, uma mais variável e uma menos variável.
Menos variável
Mais variável
Amplitude
Variância e desvio-padrão
∑ ( xi − x )
n
s2 = i =1
2
n −1
Porém, esse é um dado difícil de interpretar. Por exemplo, suponha que você
precisa calcular a variância da idade da amostra que estávamos trabalhando
como exemplo nas medidas de tendência central.
( 3 − 26, 2 )
+ ( 5 − 26, 2 ) + … + ( 85 − 26, 2 )
2 2 2
2
s = 442, 69 anos quadrados
20 − 1
Coeficiente de variação
17
Unidade i | Análise exploratória
A homogeneidade dos dados pode ser avaliada por esse valor, do coeficiente de
variação. Quanto menor o coeficiente, mais homogênea é aquela variável. Em
geral, um coeficiente inferior a 0,25 indica uma variável homogênea (REIS et al.,
2002).
Intervalo interquartil
Figura 8. Um gráfico de boxplot a respeito de uma frequência, também apresentada na imagem com uma distribuição dos
pontos.
25% Outliers
limite superior
20% barra superior
Q3 (terceiro quartil)
15%
Intervalo Mediana
interquartil
10%
Q1 (primeiro quartil
barra inferior
5%
18
Análise exploratória | Unidade i
Figura 9. Relações das medidas de central com o boxplot, histograma e medidas de tendência central.
6e
mediana = 73,34 mediana = 6975,14
3e-05
0e+00
50 60 70 80 0 200000 40000 600000 800000
p = 0,25 (n + 1)
p = 0,5 (n + 1)
p = 0,75 (n + 1)
19
Unidade i | Análise exploratória
Contínuas
(contagem de medidas:
altura, peso etc.)
Medidas de tendencia
Numéricas central e de dispersão
Discretas
(contagem de coisas:
número de vagas, número
de pessoas)
Todos os tipos de
variáveis
Nominal
(denominações sem grau
de hierarquia: raça do
animal, cor da pelagem Moda, descrições de
etc.) frquência, gráficos de
barras, ramos e folhas,
Categórica pizza etc.
Ordinal
(denominações com
hierarquias: julgamento
bom/razoável/ruim
Além das variáveis quantitativas, um dado pode ser qualitativo: grupo de cores
de camisetas (branca, amarela, rosa, azul); classificação de uma corrida (primeiro,
segundo, terceiro, quarto.). Esses dados também devem ser trabalhados.
20
Análise exploratória | Unidade i
Figura 11. Exemplo de gráfico de dados qualitativos, onde as categorias não têm ordem correta e um gráfico em que as
categorias têm ordem.
0
Camisetas rosas Camisetas azuis Camisetas brancas Camisetas verdes
21
Unidade i | Análise exploratória
“simples”, para que o raciocínio possa ser compreendido, contudo saibam que até
em experimentos mais complexos, também pode ser utilizado.
100 1600
Essa escala
apresenta a
porcentagem
0
de similaridade Essa escala
75 apresenta a”
entre as
sequências 1200 frequência
(com as linhas absoluta” de
finas). similaridade
0 entre as
25
sequências.
8000
Cada ponto nesse eixo é uma espécie de triatomíneo
que foi analisada e vermelha representa as espécies
que atingiram 100%.
1 Transcriptoma ou transcritoma se refere ao conjunto completo de transcritos de um dado organismo, órgão, tecido ou linhagem celular.
2 Não coloquei toda a tabela, porque foram várias análises, inseri no nosso material somente as primeiras linhas para não ficar carregado e não
perdermos de vista a aplicação de conceitos de estatística descritiva em bioinformática.
22
Análise exploratória | Unidade i
Sequência do
Comparações Cobertura Divergência
transcriptoma Percentual
Locus <10 de
Desvio
NCBI RSA Sequência Espécie Média Mínimo leituras identidade Distância
Padrão
(%)
Rhodnius
SRX1996481 cytb EF011724.1 13,831.35 1996 - 99.85 0.00152 0.00144
robustus II
Rhodnius
AF421341.1 5745.50 48 - 99.55 0.00463 0.00252
robustus II
80 Normal
Difícil
Muito difícil
60
40
20
0
Uso da Uso de Montar Envio de
lanceta pipeta o teste imagens
para o
sistema
Fonte: adaptada de Iruzubieta et al., 2021.
23
Unidade i | Análise exploratória
Figura 14. Linha do tempo demonstrando o aparecimento de outras linhagens no estado do Amazonas em comparação a
outros estados.
Amazonas
Outras
localidades
1.00 P2
1.0 P1
0
Março 2020 Maio 2020 Agosto 2020 Outubro, 2020 Dezembro 2020
24
Análise exploratória | Unidade i
NUNO, R.F. et al. Genomics and epidemiology of the P.1 SARS-CoV-2 lineage
in Manaus, Brazil. Science, n. 372, pp. 815-821, 2021. Disponível em: http://
science.sciencemag.org/content/sci/372/6544/815.full.pdf.
Leia também:
25
CAPÍTULO 2
Regras gerais de probabilidade e
independência
Aspectos gerais
A Estatística, enquanto ciência de observação de eventos, se fundamenta em
probabilidade: se um evento ocorre ou não. Então, está fundamentada em
modelos matemáticos probabilísticos (FACCENDA; STEFANELO, 2014;
DIEZ et al., 2019). Compreender como funciona a probabilidade matemática
ajuda a entender as análises de estatística que veremos mais adiante.
Outro exemplo para ajudar a esclarecer esse teorema dos grandes números: com
um dado de 6 faces, começamos um experimento, lançando o dado para o alto.
A chance de tirar um número em um dado de 6 faces é de 1/6, quando fazemos
100 mil lançamentos para testar os números “sorteados”, a probabilidade tende
a 1/6. Veja no gráfico a seguir.
Figura 15. Probabilidades de se obter um determinado resultado lançando um dado de 6 faces várias vezes.
0,3
0,2
0,1
0,0
1 10 100 10000 10000 100000
Número de lançamentos do dado
27
Unidade i | Análise exploratória
NETO, P.B.; SILVA, T.C. Lei dos Grandes Números [On-line] Disponível em: https://
www.rpubs.com/pedrin1/533227. Acesso em: 4/2/2021.
E veja os vídeos
Regras de probabilidade
As opções relacionadas a um evento acontecer são: acontecer ou não acontecer.
Por isso, que a probabilidade varia de 0 a 1. Algumas operações matemáticas
com probabilidade:
P ( A ∪ B=
) P ( A) + P ( B ) − P ( A ∪ B )
» Eventos mutuamente excludentes (acontece somente um ou outro)
P ( A ∪ B=
) P ( A) + P ( B ) , sendo que A ∩=
B ∅
» Probabilidade complementar
P ( AC ) = 1 − P ( A )
28
Análise exploratória | Unidade i
Teorema de Bayes
Por exemplo, qual a probabilidade de um casal ter duas filhas meninas, sendo
que a primogênita é uma menina? A fórmula seria essa:
P ( A B ) x P ( A)
P ( A B) =
P ( B)
29
Unidade i | Análise exploratória
Links interessantes:
Tipo de probabilidade e
Em palavras Em símbolos matemáticos
regras
O número de resultados no espaço amostral é n resultados Evento E
Probabilidade clássica conhecido e cada resultado é igualmente provável P(E) =
de acontecer. n resultados amostra
30
Análise exploratória | Unidade i
Tipo de probabilidade e
Em palavras Em símbolos matemáticos
regras
P ( Ae B ) = P ( A ) .P ( A B )
É utilizada para encontrar a probabilidade de dois
Regra de multiplicação P ( Ae B ) = P ( A ) .P ( B ) *
eventos ocorrerem.
*eventos indepedentes
P ( Aou B ) = P ( A ) + P ( B ) − P ( AeB )
É utilizada quando pelo menos um dos dois
Regra da adição P ( Ae
= B ) P ( A) + P ( B ) *
eventos deve acontecer.
*eventos mutuamente exclusivos
Fonte: adaptado de Larson, 2010.
31
CAPÍTULO 3
Distribuição de probabilidades
Aspectos gerais
Distribuição de probabilidade é o conjunto de todas as probabilidades dentro do
seu grupo. Por exemplo: distribuição de probabilidade da soma de dois lados de
um dado de 6 faces jogado de forma aleatória (DIEZ et al. 2019).
Tabela 3. Distribuição de probabilidade da soma de duas faces de um dado de 6 lados, quando jogado aleatoriamente.
1 2 3 4 5 6 5 4 3 2 1
Probabilidade
36 36 36 36 36 36 36 36 36 36 36
Fonte: adaptada de Diez et al., 2019.
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
1 2 3 4 5 6 7 8 9 10 11
32
Análise exploratória | Unidade i
33
Unidade i | Análise exploratória
Distribuição normal
A distribuição normal é a mais comum na estatística: simétrica, unimodal, curva
em sino. Diversas características na natureza, quando mensuradas, adotam
distribuição semelhante a essa. Mas não idêntica, porque a distribuição normal
padrão tem média igual a ZERO e desvio-padrão igual a 1. Porque essa é a
distribuição da probabilidade de um evento ocorrer ou não ocorrer.
68%
95%
99,7
μ-3δ μ-2δ μ- δ μ μ+ δ μ + 2δ μ + 3δ
34
Análise exploratória | Unidade i
Figura 18. Curva normal x probabilidade. A área pintada de azul indica a probabilidade de um evento ocorrer.
Area da curva =
probabilidade de Area da curva =
ocorrência do probabilidade de
evento não ocorrência do
evento
Para ajudar nesses cálculos da área sob o sino da distribuição normal, temos não
somente as indicações da figura acima, temos também uma tabela de Z-escore
que pode ser visualizada em: ESTATÍSTICA: Teste Z (ou Escore Padronizado)
(cpaqv.org) http://www.cpaqv.org/estatistica/teste_z.pdf.
30 40 50 60 70 80 90 100
30 40 50 60 70 80 90 100
36
Análise exploratória | Unidade i
geométrica
» A probabilidade de sucesso p é constante.
» A variável aleatória X representa o número de tentativas até o
sucesso.
Tem como critérios:
» O experimento consiste em calcular o número de vezes X que um
evento ocorre em um dado intervalo, que pode ser tempo, espaço,
área ou volume. µ X e− p
Distribuição
P ( x) =
de Poisson » A probabilidade de um evento ocorrer é a mesma para cada intervalo. x!
» O número de ocorrência de um intervalo é independente dos outros.
» O parametro de análise é o µ - o número médio das ocorrências em
cada intervalo.
Fonte: adaptada de Larson, 2010.
O teorema do limite central é uma peça chave para a maior parte da estatística
inferencial. Ele descreve a relação entre a distribuição das médias amostrais e a
média da população fonte da amostra. Pressupostos citados por Larson (2010):
37
Unidade i | Análise exploratória
Matemáticamente falando:
38
Análise exploratória | Unidade i
39
Unidade i | Análise exploratória
acurada.-,Aproxima%C3%A7%C3%A3o%20da%20Distribui%C3%A7%
C3%A3o%20Binomial%20pela%20Distribui%C3%A7%C3%A3o%20
Normal,e%20vari%C3%A2ncia%20V(X). Acesso em: 6/5/2021.
40
ESTATÍSTICA
ANALÍTICA UNIDADE II
CAPÍTULO 1
Conceitos gerais em estatística
analítica
41
Unidade ii | Estatística analítica
Construções
conceituais
Planejamento e amostra Operações
Coleta
Formulação
do problema
Quadro
teórico
conceitual
Variáveis
Então, como você pode ver, o planejamento da amostra é um ponto crucial para
que toda uma pesquisa envolvendo levantamento populacional seja realizada.
Para estudos que não envolvem seres vivos, você irá realizar repetições ou
comparações de tratamento, como um experimento para avaliar uma reação
frente a um aditivo, ou quanto de massa seca tem em um determinado alimento
por diferentes métodos de secagem, o delineamento amostral depende do que
você irá estudar. De uma maneira geral, para análises de experimentos de
bancada (por exemplo: o processo de secagem da mandioca para alimentação de
animais de produção):
42
Estatística analítica | Unidade ii
43
Unidade ii | Estatística analítica
Estatística analítica
Partimos da
hipótese para a
análise de dados
Linear
Covariância Regressão Múltipla
Não Linear
Correlação
Método
Representação
gráfica
Relações
Variáveis
Mínimos
quadrados
Linear
Diagrama de População Amostra
dispersão
Regressão
Não conhecemos bem para séries
as relações e não temos temporais
hipótese formal
A estatística é uma ciência que apoia outras ciências e nem sempre é fácil
de ser compreendida. Nem sempre o papel do estatístico é bem-visto nos
grupos de pesquisa. Sobre esse tópico, David Sackett, pesquisador da área
médica, propôs um conceito “simplificado” para explicar estatística para
médicos. Que a confiança de um estudo (isto é, o quanto seu intervalo de
confiança é curto) é igual ao sinal (diferença entre tratamentos), dividido
pelo ruído (soma de todos os fatores que podem afetar o experimento) e
isso vezes a raiz do tamanho da amostra (PEREIRA; NASCIMENTO, 2015).
44
Estatística analítica | Unidade ii
Quando retiramos várias amostras de uma população, elas não são exatamente
iguais, existe variações entre amostras, contudo, se o N amostral for o suficiente,
a distribuição amostral terá características semelhantes à distribuição dessa
característica na população de origem, de acordo com o teorema do limite central.
45
Unidade ii | Estatística analítica
com 95% ou 99% de confiança. E o que isso significa? Que estamos 95% confiantes
de que a média populacional está contida nesse intervalo calculado a partir da
média amostral. Portanto, quanto mais “enxuto” for esse intervalo numérico,
mais precisa será a análise.
Intervalos de confiança
Parâmetros:
Estatísticas
Essa fórmula nos indica que a média (valor pontual estimado na amostra) mais/ou
menos o percentil crítico Z, que na curva normal padronizada (quando
adequado), nos dará o nível de confiança que pretendemos alcançar nesse cálculo.
Quando pretendemos ter um intervalo de confiança de 95%, o Zα /2 assume valor
de 1,96. Esse alfa é divido por dois porque é bicaudal o cálculo (para “trás” da
média e para “frente” da média).
46
Estatística analítica | Unidade ii
Por último, EP significa erro padrão: desvio padrão das médias amostrais. Lembra
que existe variabilidade entre as amostras? O erro padrão é representado pela
fórmula EP = δ / n .
47
Unidade ii | Estatística analítica
Figura 24. Distribuição T de Student com diferentes graus de liberdade: a linha vermelha representa a curva com o menor N
e a linha preta a curva com o maior N.
48
Estatística analítica | Unidade ii
1 1 ( nA − 1) S A2 + ( nB − 1) S B2
› EPdiferença = S(2p ) + + 2
→ S pooled =
nA nB nA + nB − 2
49
Unidade ii | Estatística analítica
p*n 5 e (1 − p ) n 5
(
p( A) 1 − p( A) )+ (
p( B ) 1 − p( B ) )
( )
p( A) − p( B ) ± Zα /2
n( A) n( B )
Resolução:
Antes de mais nada, note que esse exemplo pede uma confiança de 92%
(então, o α dele não seria 5% igual ao que estamos acostumados, seria 8%
ou 0,08).
pˆ (1 − pˆ )
pˆ ± zα /2 *
n
Temos que:
157
𝑝𝑝Ƹ =
500
Esse valor tem que ser consultado na tabela normal.
𝑧𝑧𝛼𝛼/2 = 𝑧𝑧0,08 = 𝑧𝑧0,04 = 1,75 Veja a aula do IME da USP sobre como usar a
2
tabela normal
Distribuição Normal (usp.br)
OU Cálculo das Probabilidades e Estatística I
(ufpb.br)
Substituindo:
0,314 (1 − 0,314 )
0,314 ± 1, 75*
500
0,314 ± 0, 036
50
Estatística analítica | Unidade ii
Teste de hipótese
População
51
Unidade ii | Estatística analítica
Tomada de decisão
Situação real
Aceitar H0 Rejeitar H0
Decisão errada. Erro tipo I. Probabilidade = α (nível
Decisão correta. Nível de confiança do teste de significância do teste).
H0 é verdadeira
mensurado pela probabilidade: 1 – α.
Exemplo: A pessoa é condenada, mas está inocente.
Decisão errada. Erro tipo II Probabilidade = β. Decisão correta. Poder do teste, probabilidade = 1 - β.
H0 é falsa
Exemplo: A pessoa é absolvida, mas é culpada.
Fonte: adaptada de Assis, 2020.
H0
1-α RC (região crítica)
α/2
Valor crítico ou T, Z, x2
tabelado
2. Unicaudal à esquerda:
H0: µ1 = µ2 H1: µ1 < µ2
RC (região crítica)
H0
1-α
α/2
Valor crítico ou T, Z, x2
tabelado
3. Bicaudal
H0: µ1 = µ2 H1: µ1 ≠ µ2
α/2 α/2
52
Estatística analítica | Unidade ii
» Conclua o teste:
» Teste x2:
2
( observado − esperado )2
x = ∑
esperado
53
Unidade ii | Estatística analítica
» Hipótese científica:
» Hipótese estatística:
Análise de dados
54
Estatística analítica | Unidade ii
Tabela 5.
GL Nível de significância α
0,5 0,3 0,2 0,1 0,05
1 0,455 1,074 1,642 2,706 3,841
2 1,386 2,408 3,219 4,605 5,991
3 2,366 3,665 4,642 6,251 7,815
4 3,357 4,878 5,989 7,779 9,488
Fonte: Alle, 2017.
55
Unidade ii | Estatística analítica
› Essa é importante, para definir se o teste que você irá usar é paramétrico
ou não paramétrico
2 amostras emparelhadas
Teste T emparelhado
Amostras independetes
n < 25 Teste de Qui-quadrado
Dados ordinais e dados
contínuos não
Testes não paramétricos como
paramétricos
Wilcoxon, Man-Whitney, Friedman e
Kruskal-Wallis
56
Estatística analítica | Unidade ii
57
Unidade ii | Estatística analítica
P-valor
De uma maneira geral, diz-se que um p-valor < 0,001 é uma evidência
fortíssima contra H0, p-valor < 0,05 uma evidência moderada. Lembra-se de
que a hipótese H0 é a hipótese nula? Que os tratamentos são iguais entre os
grupos? Que não houve diferenças? Portanto, se existem evidências contra a
58
Estatística analítica | Unidade ii
hipótese nula, dizemos que houve diferenças entre os tratamentos, que existe
diferença importante, por causa da força da evidência contra H0.
Área de não
rejeição de
H0
Área de
rejeição de H0 Área de rejeição de
H0
p-valor p-valor
59
Unidade ii | Estatística analítica
Figura 29. Esquema de estudos epidemiológicos que avaliam condições de exposição e desfecho.
Coorte experimental
Exposição Desfecho
Caso controle
Transversal
Fonte: adaptada de Pontes, 2018.
Exemplo:
60
Estatística analítica | Unidade ii
a 45
Risco Exp1 a+b 45 + 1836
RR
= = = = 0, 638
Risco Exp 2 c 73
c+d 73 + 1875
a.c 45*1875
OR
= = = 0, 630
b.d 73*1836
61
Unidade ii | Estatística analítica
Exemplo:
62
Estatística analítica | Unidade ii
Correlação linear
Correlação é definida como a medida do grau de relação entre duas variáveis. Veja
o exemplo que o prof. Ademir de Oliveira utilizou no seu material de aula sobre
correlação e regressão.
Tabela 9. Tempo, em minutos, e quantidade de procaina1 hidrolizada, em 10-5 moles/litro, no plasma canino.
63
Unidade ii | Estatística analítica
Y
35
30
25
20
15
10
0 X
0 5 10 15 20
Essas variáveis possuem uma relação linear, ou seja, uma correlação linear.
O coeficiente de correlação (ρ) mede a covariabilidade entre duas variáveis.
Quando as variáveis são quantitativas (discretas ou contínuas) e normalmente
distribuídas, calculamos o coeficiente de correlação de Pearson:
_
_
∑( yi − y ) xi − x
_
_
∑ yi − y xi − x
Cov ( X , Y ) n − 1
=r = =
Var ( X ) .Var (Y ) _ _ _ _
∑( xi − x) 2 ∑( yi − y ) 2 ∑( xi − x) 2 ∑( yi − y ) 2
.
n −1 n −1
64
Estatística analítica | Unidade ii
1− r2
Sr = ~ é o erro padrão do coeficiente de correlação
n−2
Outra correlação linear, não paramétrica que pode ser calculada é a correlação
por postos ou Spearman, que analisa a associação entre variáveis que se
apresentem em escala de mensuração pelo menos ordinal, de modo que os
elementos em estudo possam dispor-se por postos em duas séries ordenadas.
65
Unidade ii | Estatística analítica
Regressão
_ _
∑ xi − x yi − y
_ _
b= βˆ= a= αˆ = y − b x
_
∑( xi − x) 2
_
_
[∑ xi − x yi − y ] / n − 1
Cov ( X , Y )
=b = 2
sX _
[∑ xi − x) 2 / n − 1
_ _
∑ x i − x yi − y =∑ x i yi −
( ∑ xi )( ∑ yi )
n
_
( ∑ xi ) 2
∑( xi − x ) 2 = ∑ xi2 −
n
66
Estatística analítica | Unidade ii
30
25
20
15
10
0 X
0 5 10 15 20
› xi é a variável independente;
› εi é o erro aleatório.
67
Unidade ii | Estatística analítica
Análise de resíduos
Os resíduos são explicados pela diferença entre o valor observado para o valor
esperado e=i Yi − Yˆi , ou seja, a análise dos resíduos nos permite compreender por
que um modelo não apresentou um bom ajuste. Portanto, pela análise dos resíduos
descobre-se o motivo do modelo não ter se ajustado corretamente aos dados.
Essa análise consegue indicar se alguma suposição do modelo foi violada; se não
há linearidade entre X e Y; não há normalidade dos erros, heterocedasticidade,
correlação entre os erros; presença de observações atípicas.
Quando fazemos um gráfico dos resíduos de uma regressão bem ajustada, não
observamos nenhuma tendência. Isso porque a variância é constante.
Figura 32. Gráfico de resíduos de uma regressão linear demonstrando uma variância constante.
1
Erro
0
-1
Figura 33. Gráficos de resíduos de regressões lineares que não possuem variância constante.
0
0
68
Estatística analítica | Unidade ii
∑ ∑ yˆ + ∑ e + 2∑ yˆ e
n 2 n 2 n 2 n
i
=i 1 =
y =
i
i 1= i 1 i=i 1 i i
∑
n
1
=i 1 i i = 1
i 1 i i =
n
i 1 i
n
( )
yˆ e = βˆ ∑ x e = βˆ ∑ x yi − βˆ1 xi = 0 =
∑ i 1y=
n
i = ∑ i 1y
2 n
ˆi2 + ∑ i 1ei2
=
n
∑ βˆ x
∑= ∑
n n n 2
2
yˆ 2 2
xi2 2
2 nS X ˆ SX variância explicada pelo modelo
i i 1 1 i = ˆ
β = ˆ=
β β=
2
=
=i 1 =
1
i 1
1 1
∑ y ∑ y ∑ i
n n n 2
2
i
2
y 2 nS Y SY variância total
=i 1 = i 1 i =i 1
∑
n 2
2
e
i =1 i
r = 1−
∑
n 2
y
i =1 i
69
Unidade ii | Estatística analítica
∑ i =1(Yi − Y )2
n
» =
SSTO
∑ (Yˆ − Y ) 2
n
»=
SSR
i =1 i
∑ (Y − Yˆ )
2
»=
SSE n
i =1 i i
( β − β )
2
1
( )
2
β1 − β ∑
n
σ 2 / ∑ i =1xi2
n 2
x
i =1 i
F=
1,( n − 2 )
→ F=
1,( n − 2 )
∑ ∑
n 2 n 2
i i 1 i
e e
=i 1 =
−2
2
σ n
βˆ12 ∑ i 1x= ∑ i 1yˆi2 /1
2 n n
i
→ F1,==
( n − 2) F1,=
( n − 2)
∑ ∑
2 n 2 n
ei e
i 1 i
=i 1 =
−2
n n−2
70
Estatística analítica | Unidade ii
n e 2
∑ i _
ˆ − Y )= ˆ x ) 2 SR= βˆ 2 n x 2
E {MSE}= E i =1 = σ 2 SR ∑ ∑ ∑ 1 ∑i 1 i
n n n
= (Y i
2
ˆ
y 2
=
i ( β1 i
n − 2
=i 1 =i 1 =i 1 =
E ( SSR ) =
n
x 2 E βˆ 2
∑ i =1 i ( )
1
ˆ + E 2 βˆ E ( SSR ) = n x 2 σ
2
E ( SSR ) ∑i 1=
=
n
xi
2
VAR β1 1
( ) ( )
∑ i 1 i n x 2 1
+ β 2
∑ i =1 i
=
SSR
σ + β1 ∑ i =1xi
2 2 n 2
MSR
= E =
1
= H 0 : β1 0 e H1 : β1 ≠ 0
MSR
F* = e quando H 0 é verdadeira, F* tem distribuição F com 1 e (n-2) graus de
MSE
liberdade, sendo o procedimento de teste o seguinte:
*
» Se F ≤ f1,(n − 2),1−α aceitva-se a hipótese nula H 0
*
» Se F > f1,(n − 2),1−α aceita-se a hipótese alternativa H1
71
Unidade ii | Estatística analítica
Assim como nas análises anteriores, para realizar a ANCOVA, precisamos aceitar
alguns pressupostos:
» Variâncias homogêneas.
• estimativas imprecisas;
• erros-padrão maiores;
72
Estatística analítica | Unidade ii
› SSxTotal = ∑ ∑ ( xij − x )
2
› SSxgroup = ∑ n j ( x j − x )
2
› SSxerror = ∑ ∑ ( xij − x j )
2
› SPxyTotal = ∑∑ ( x
j i
ij − x )( yij − y )
› SPxyGroup = ∑nj ( x
j
j − x )( y j − y )
› SPxyerror = ∑∑ ( x
j i
ij − x j )( yij − y j )
› SS y adjtotal
= SS total −
y
xy
SS x total
( SP error ) ( SP total )
2 2
› SS adjgroup =
y SS group + y
xy
−
xy
SS x error SS x total
( SPxy error )
2
› SS =
y adjerror SS y error −
SS x error
( SS total )2
xy
( N − 2)
› SS x total α = 5% (mais frequente)
F (1, N − 2 ) =
SS y adjtotal
73
Unidade ii | Estatística analítica
74
Estatística analítica | Unidade ii
Depois que o autor calculou a reta de regressão linear, ele fez um gráfico.
75
Unidade ii | Estatística analítica
Figura 34. Gráfico da regressão linear relacionando as vendas com os custos em publicidade.
gl SQ MQ F F significante
Regressão 1 337251,1858 337251,1858 171,19043 3,458E-13
Resíduo 27 53190,92517 1970,035265
Total 28 3900442,1379
Coeficientes Erro padrão Stat p-valor 95% inferior 95%superior
Intersecção 265,1563 23,05179 11,5026311 0,035 217,8579 312,4546
Vendas (em mil 7,42588 0,567555 13,0839761 0,001 6,26135 8,590406
Kwanzas)
Fonte: Canhanga, 2020.
O autor conclui:
A regressão linear simples é um modelo matemático que pode ser usado
em muitos casos como ferramenta para fazer previsões quantitativas.
A utilização de softwares ajuda de forma mais rápida a buscar possíveis
soluções de problemas modelados e tomar decisões de forma rápida e
assertiva. Depois de analisados os dados com os elementos essenciais
da regressão linear simples, podemos concluir que com as mesmas
condições do comportamento de mercado, foi possível fazer previsão
de alguns números com vista a dar resposta ao problema com um nível
de confiança de 95%.
(CANHANGA, 2020)
76
Estatística analítica | Unidade ii
Análise de estudo com base no artigo “Aplicação de regressão linear para correção
de dados dietéticos”, de Betzabeth Slater et al., publicado na Revista de Saúde
Pública, v. 41, n. 2, pp. 190-6, 2007. Disponível em: https://www.scielosp.org/
pdf/rsp/2007.v41n2/190-196/pt.
Esse estudo tem por objetivo oferecer um método para correção de dados
dietéticos em estudos epidemiológicos, relacionando o desenvolvimento de
doenças e a ingestão de alimentos. Nem sempre é possível mensurar de forma
acurada e precisa a dieta habitual dos indivíduos estudados.
Tabela 13. Estatística descritiva da ingestão de energia e macronutrientes obtidos por QFAA e R24h de 79 indivíduos, antes e
após o ajuste pela energia e a correção. Município de São Paulo, 1999.
Proteína (g)
QFAA bruto 68,5 20,5 64,7; 73,6 20,0 - 123,6
QFAA ajustado 68,9 11,5 66,3; 71,5 43,9 - 105,9
R24h bruto 78,9 26,8 73,6; 85,5 169,7 - 78,9
R24h ajustado 80,86 16,3 76,7; 84,0 44,5 - 139,7
Valor corrigido 80,4 2,3 79,8; 80,9 75,4 - 87,7
Carboidrato (g)
QFAA bruto 263,1 77,9 248,4; 282,4 76,0 - 457,1
QFAA ajustado 265,3 23,8 260,0; 270,6 216,8 - 318,2
R24h bruto 240,1 74,0 226,0; 258,4 72,5 - 407,9
R24h ajustado 242,3 35,3 234,3; 250,2 159,9 - 325,5
Valor corrigido 242,2 9,6 239,99; 244,30 222,5 - 263,6
77
Unidade ii | Estatística analítica
Tabela 14. Estimativas dos parâmetros α e λ, erros-padrão e coeficientes de correlação de Pearson (r) de energia e
macronutrientes ajustados pela energia. Município de São Paulo, 1999.
Nutriente α’ λ’ Erro-padrão r
Energia 214,20 0,89 0,06 0,87
Proteína 66,64 0,20 0,16 0,14
Carboidratos 134,71 0,41 0,16 0,27
Lipídio total 62,83 0,22 0,15 0,16
Fonte: Slater et al., 2007.
78
ANÁLISES
MULTIVARIADAS UNIDADE III
CAPÍTULO 1
Conceitos gerais em análises
multivariadas
Aspectos gerais
A análise multivariada consiste em um conjunto de métodos estatísticos que
analisa três ou mais variáveis que podem ser dependentes ou independentes.
Existem diversos tipos de análises que podem ser executados, por exemplo:
quando não há uma variável dependente e todas são interdependentes podemos
utilizar análise fatorial ou análise de determinantes. Quando existe uma
variável dependente quantitativa, podemos realizar uma regressão múltipla.
Se é qualitativa, trabalhamos com chances de ocorrência de evento, regressão
logística.
79
Unidade iii | Análises multivariadas
80
Análises multivariadas | Unidade iii
81
Unidade iii | Análises multivariadas
Variável É o desfecho, é a
dependente, Na modelagem
variável que sofre Exemplo: doença,
matemá�ca é
efeito ou influência de morte
conhecida como Y
outras variáveis
resposta
Variáveis É o que buscamos
independentes, saber, como essa Na modelagem
Exemplo: hábitos,
condição matemá�ca é
exposições, influencia a
tratamentos
conhecida como X
fatores de risco resposta
Nutrição Variável
materna independente X1
Peso ao
Variável nascimento
resposta Y
Tempo de Variável
independente X2
gestação
82
Análises multivariadas | Unidade iii
como lidar com ele. Isso porque essa observação pode enviesar sua modelagem,
ou justamente algum tipo de comportamento que está sendo buscado dentro de
determinada situação que você está analisando.
Esses comportamentos podem ser observados por uma “análise visual” da base
de dados (por exemplo, se em idade houver um indivíduo com 210 anos, esse
possivelmente foi valor aberrante devido a erro de digitação). Mas nem sempre
isso pode ser possível, devido ao tamanho de muitas bases de dados que são
trabalhadas. Outros métodos podem incluir, a depender da natureza da variável,
sua análise descritiva, gráficos de dispersão, histogramas.
83
CAPÍTULO 2
Agrupamento de variáveis
84
Análises multivariadas | Unidade iii
Figura 37. Exemplo de agrupamento de variáveis para estudo de fatores associados à ocorrência de uma determinada
doença.
85
Unidade iii | Análises multivariadas
A organização dos dados também pode ser hierárquica, como, por exemplo, em
uma árvore genealógica.
Além dessas duas formas, as variáveis podem ser incluídas no modelo de uma
forma hierarquizada. Isto é, de acordo com o grau de “proximidade” (importância)
dentro do evento estudado.
É importante lembrar que, para trabalhar com modelos regressivos com mais de
uma variável independente, alguns pressupostos devem ser observados:
86
Análises multivariadas | Unidade iii
Assim como na regressão linear simples, podemos estimar pelo método dos
quadrados mínimos e determinar a linha reta mais adequada, minimizando a
soma dos quadrados das diferenças entre os valores estimados de Y por meio
da reta de regressão e os valores observados de Y. E o método da máxima
verossimilhança, que consiste em determinar uma função, denominada
função de verossimilhança L(y, θ), que consiste na função de probabilidade de
ocorrência daquele específico conjunto de dados e estimar os parâmetros que a
maximizam.
87
Unidade iii | Análises multivariadas
Doentes A B
Sadios C D
A/C A.D A ( B + D)
Odds =
ratio = Razão de Prevalências
=
B/D B.C B ( A+C)
Interpretação:
Intervalo de
confiança do OR
ou do RP tem o
valor 1 incluído
numerador =
OR e RR > 1 OR e RR < 1
denominador)
88
Análises multivariadas | Unidade iii
Correlações
Pelagem clara Pelagem curta
Pelagem clara Coeficiente de Correlação 1,000 -,047
Sig. (2 extremidades) . ,580
N 143 140
Pelagem curta Coeficiente de Correlação -,047 1,000
Sig. (2 extremidades) ,580 .
N 140 155
Fonte: elaborada pela autora.
89
Unidade iii | Análises multivariadas
Correlações
Quintal com Quintal com Quintal com Conviver
predominância presença predominância com
Residência de terra e de matéria Uso de telas de áreas outros
tem quintal grama orgânica nas janelas cimentadas animais
Residência Coeficiente de
1,000 ,466** ,267** -,013 ,146 -,024
tem quintal correlação
Sig. (2
. ,000 ,001 ,873 ,073 ,772
extremidades)
N 151 151 151 151 151 151
Quintal com Coeficiente de
,466** 1,000 ,482** -,156 -,770** ,023
predominância correlação
de terra e
Sig. (2
grama ,000 . ,000 ,055 ,000 ,780
extremidades)
N 151 151 151 151 151 151
Quintal com Coeficiente de
,267** ,482** 1,000 -,079 -,346** ,037
presença correlação
de matéria
Sig. (2
orgânica ,001 ,000 . ,336 ,000 ,653
extremidades)
N 151 151 151 151 151 151
Uso de telas Coeficiente de
-,013 -,156 -,079 1,000 ,202* -,062
nas janelas correlação
Sig. (2
,873 ,055 ,336 . ,013 ,447
extremidades)
N 151 151 151 151 151 151
Quintal com Coeficiente de
,146 -,770** -,346** ,202* 1,000 -,023
predominância correlação
de áreas
Sig. (2
cimentadas ,073 ,000 ,000 ,013 . ,784
extremidades)
N 151 151 151 151 151 151
Conviver com Coeficiente de
-,024 ,023 ,037 -,062 -,023 1,000
outros animais correlação
Sig. (2
,772 ,780 ,653 ,447 ,784 .
extremidades)
N 151 151 151 151 151 151
**. A correlação é significativa no nível 0,01 (2 extremidades).
90
Análises multivariadas | Unidade iii
Correlações
Compareceu
Animal ter recibo
Conhecimentos a pelo menos Escore
algum tipo de
sobre sintomas uma consulta poder
vacina algum
lvh com med. vet. no aquisitivo
momento na vida
último ano
Coeficiente de
1,000 ,128 ,020 ,022
Conhecimentos sobre correlação
sintomas lvh Sig. (2 extremidades) . ,118 ,807 ,787
N 151 151 151 150
Resumo do modelo
Etapa Verossimilhança de log -2 R quadrado cox & snell R quadrado nagelkerke
1 119,887a ,263 ,380
A. Estimação finalizada no número de iteração 6 porque as estimativas de parâmetro mudaram
foram alteradas para menos de ,001.
Fonte: elaborada pela autora.
91
Unidade iii | Análises multivariadas
Variáveis na equação
95% c.i. Para exp(b)
B S.e. Wald Df Sig. Exp(b) Inferior Superior
Quintal com área predominante de
1,635 ,790 4,280 1 ,039 5,127 1,090 24,120
terra e vegetação
Animal tomou alguma vacinação -,965 ,583 2,737 1 ,098 ,381 ,122 1,195
Levou o cão a pelo uma consulta
-1,545 ,877 3,105 1 ,078 ,213 ,038 1,189
com mv no último ano
Escore socioaquisitivo (dicotômico) 1,213 ,492 6,088 1 ,014 3,365 1,283 8,824
Convive com outros animais -,608 ,545 1,244 1 ,265 ,544 ,187 1,585
Conhece sintomas de lvh 1,398 ,713 3,849 1 ,050 4,049 1,001 16,370
Casa com quintal 1,272 1,318 ,931 1 ,335 3,568 ,269 47,253
Presença de matéria orgânica no
-,577 ,532 1,174 1 ,279 ,562 ,198 1,595
quintal
Uso de tela nas janelas -,767 ,802 ,913 1 ,339 ,465 ,096 2,238
Pelagem clara 1,067 ,484 4,859 1 ,028 2,908 1,126 7,513
Pelagem curta 1,515 ,651 5,420 1 ,020 4,549 1,271 16,285
Constante -4,287 1,545 7,700 1 ,006 ,014
A. Variável(is) inserida(s) na etapa 1: quint_terraegrama, vacina, consultasvetultimoano, escore16, outros_animais,
sintomas_em_humanos, quint, quint_mo, janela_telada, usaresse_corpelagem, usaresse_pelagemcurta.
Fonte: elaborada pela autora.
92
Análises multivariadas | Unidade iii
Estimativas do parâmetro
95% Intervalo de
95% Intervalo de Confiança de Wald
Confiança de Wald Teste de hipótese Exp(B) para Exp(B)
Erro Qui-quadrado
Parâmetro B Padrão Inferior Superior de Wald df Sig. Inferior Superior
(Interceptação) -1,489 ,8242 -3,104 ,127 3,262 1 ,071 ,226 ,045 1,135
[Outros_animais=,00] ,230 ,2624 -,284 ,744 ,767 1 ,381 1,258 ,752 2,105
[Outros_animais=1,00] 0a . . . . . . 1 . .
[sintomas_em_humanos=,00] -,642 ,2607 -1,153 -,131 6,058 1 ,014 ,526 ,316 ,878
[sintomas_em_humanos=1,00] 0a . . . . . . 1 . .
[Quint=,00] -,707 ,9681 -2,604 1,191 ,533 1 ,465 ,493 ,074 3,290
[Quint=1,00] 0a . . . . . . 1 . .
[Quint_terraegrama=,00] -1,087 ,5775 -2,219 ,045 3,543 1 ,060 ,337 ,109 1,046
[Quint_terraegrama=1,00] 0a . . . . . . 1 . .
[Quint_Mo=,00] ,287 ,2769 -,255 ,830 1,077 1 ,299 1,333 ,775 2,293
[Quint_Mo=1,00] 0a . . . . . . 1 . .
[janela_telada=,00] ,404 ,4510 -,480 1,288 ,804 1 ,370 1,498 ,619 3,626
[janela_telada=1,00] 0a . . . . . . 1 . .
[vacina=,00] ,484 ,3410 -,185 1,152 2,011 1 ,156 1,622 ,831 3,165
[vacina=1,00] 0a . . . . . . 1 . .
[consultasvetultimoano=,00] 1,041 ,6036 -,142 2,224 2,972 1 ,085 2,831 ,867 9,242
[consultasvetultimoano=1,00] 0a . . . . . . 1 . .
[escore16=,00] -,667 ,3164 -1,287 -,047 4,442 1 ,035 ,513 ,276 ,954
[escore16=1,00] 0a . . . . . . 1 . .
[USARESSE_pelagemcurta=,00] -,822 ,4123 -1,630 -,013 3,971 1 ,046 ,440 ,196 ,987
[USARESSE_
0a . . . . . . 1 . .
pelagemcurta=1,00]
[USARESSE_corpelagem=,00] -,492 ,2470 -,977 -,008 3,975 1 ,046 ,611 ,377 ,992
93
Unidade iii | Análises multivariadas
Estimativas do parâmetro
[USARESSE_corpelagem=1,00] 0a . . . . . . 1 . .
(Escala) 1b
Variável Dependente: VARIAVEL DEPENDENTE
Modelo: (Interceptação), Outros_animais, sintomas_em_humanos, Quint, Quint_terraegrama, Quint_Mo, janela_telada, vacina,
consultasvetultimoano, escore16, USARESSE_pelagemcurta, USARESSE_corpelagem
a. Definido para zero porque este parâmetro é redundante.
b. Fixo no valor exibido.
Fonte: elaborada pela autora.
AIC =
1.242344
94
Análises multivariadas | Unidade iii
------------------------------------------------------------------------------------
---
| Robust
Interval]
----------------------+-------------------------------------------------------------
---
1.27824
.9988036
3.257584
.5571058
------------------------------------------------------------------------------------
---
.
end of do-file
. do “C:\Users\LUCIA~1.SAN\AppData\Local\Temp\STD00000000.tmp”
95
Unidade iii | Análises multivariadas
Optimization : ML Residual df =
132
Scale parameter =
1
Deviance = 84.54193962 (1/df) Deviance =
.6404692
Pearson = 94.21489583 (1/df) Pearson =
.7137492
AIC =
1.244832
Log pseudolikelihood = -80.27096981 BIC =
-564.8955
------------------------------------------------------------------------------------
---
| Robust
Interval]
----------------------+-------------------------------------------------------------
---
.9763879
4.241355
5.953078
2.589945
.3493091
------------------------------------------------------------------------------------
---
96
Análises multivariadas | Unidade iii
end of do-file
AIC =
1.229027
Log pseudolikelihood = -86.40608777 BIC =
-639.6505
------------------------------------------------------------------------------------
---
| Robust
Interval]
----------------------+-------------------------------------------------------------
---
97
Unidade iii | Análises multivariadas
1.12366
3.554003
5.216928
1.671929
12.76648
1.256281
.2140089
---------------------------------------------------------------------------------------
------------------------------------------------------------------------------------
---
| Robust
----------------------+-------------------------------------------------------------
---
98
Análises multivariadas | Unidade iii
---------------------------------------------------------------------------------------
Comparação entre os valores de odds ratio ajustado obtido por uma regressão
logística e de razão de prevalências ajustado pela regressão de Poisson.
99
Unidade iii | Análises multivariadas
Tabela 25. Características do ambiente em que ele vive e como ele vive.
1,441 1,294
Conviver com 1 - sim 8 16 0,441
156 (0,566-3,667) (0,685-2,443)
algum gato
0 - não 34 98
1,042 1,031
Conviver com 1 - sim 17 45 0,910
156 (0,506-2,145) (0,609-1,744)
alguma ave
0 - não 25 69
1,375 1,250
Conviver com 1 - sim 2 4 0,718
156 (0,242-7,798) (0,391-3,991)
suínos
0 - não 40 110
4,823 3,727
Residência com 1 - sim 41 102 0,188b
156 (0,607-38,29) (0,557-24,938)
quintal
0 - não 1 12
Casa ter
quintal com 6,000 4,333
predominância 1 - sim 39 78 0,002
156 (1,738-20,71) (1,418-13,241)
áreas com
vegetação e ou
com terra 0 - não 3 36
Casa ter 0,151 0,212
1 - sim 2 26 0,010
quintal com (0,034-0,673) (0,054-0,827)
151
predominância de
áreas cimentadas 0 - não 38 85
100
Análises multivariadas | Unidade iii
101
Unidade iii | Análises multivariadas
Tenha sempre em mente que hoje existem máquinas e programas que “fazem
as contas”, o diferencial do profissional com habilidades em estatísticas é
determinar que tipos “de contas” precisam ser feitas.
102
Análises multivariadas | Unidade iii
103
ANÁLISES DE REDES
NEURAIS UNIDADE IV
CAPÍTULO 1
Conceitos gerais em análises de redes
neurais
Deep neural
networking
(pretraining)
Multi-layered SVM
ADALINE perceptron
XOR (backpropagation)
Perceptron
Anos Anos sem grandes avanços
dourados
Cérebro eletrônico
McCulloch & Pitts Rosenblatt, Widrow and Hoff Minsky and Papert Rumelhart, Hinton and Wiliams Vapnik and Cortes Hinton and Ruslan
Inspirações biológicas
O sistema nervoso é a parte do organismo responsável pela interação do ser
com o ambiente. Além de captar e processar informações externas, ele também
coordena ações voluntárias e involuntárias do ser. No homem e na maioria dos
mamíferos, é composto por sistema nervoso central e sistema periférico. O central
se divide em duas estruturas: o cérebro e a medula espinhal. Já o periférico se
divide em sistema eferente (somático e visceral) e aferente (somático e visceral). A
figura a seguir representa o funcionamento do sistema nervoso.
105
Unidade iv | Análises de redes neurais
Integração
(Consciente)
Braços
dendríticos
Corpo celular
Dendritos
Axônio
Axônio
106
Análises de redes neurais | Unidade iv
X1 w
1
Sinais de X2
⬚
entrada w Saída Y
.
2
.
.
Pesos sinápticos
Fonte: adaptada de McCullock & Pitts (1943) apud Furtado (2019).
( II ) yk = θ ( uk )
Cada neurônio é também excitado por uma polarização constante (matemática)
chamada “bias” ou bk constante de valor 1. Ela é transmitida ao neurônio através
da sinapse wi,0. Essa constante está presente em quase todas as redes neurais,
variando somente a função de ativação. Normalmente, a faixa de saída está em
um intervalo fechado [0, 1] ou alternativamente em [-1, 1], podendo também
esse intervalo de saída estar entre (- ∞, + ∞) (FURTADO, 2019). Com essa
constante, temos, por fim, a equação:
( III=
) yk θ ( u k + bk )
107
Unidade iv | Análises de redes neurais
Xo
X Y1
X Y2
Y0
Xm
Camada de
saída
Camada de
entrada Primeira camada Segunda
oculta camada oculta
108
Análises de redes neurais | Unidade iv
Xw = y
1 𝑥𝑥𝑖𝑖 … 𝑥𝑥1𝑑𝑑 𝑤𝑤𝑜𝑜 𝑦𝑦0
: : : 𝑥𝑥2𝑑𝑑 𝑤𝑤1 ::
1 𝑥𝑥𝑖𝑖𝑖𝑖 …𝑥𝑥𝑛𝑛𝑛𝑛 𝑤𝑤𝑑𝑑 𝑦𝑦𝑛𝑛
109
Unidade iv | Análises de redes neurais
Perceptron
O Perceptron foi uma das primeiras redes neurais artificiais desenvolvidas – em
1958 por Rosenblatt e equipe. Consiste em um classificador linear que mapeia
o valor de entrada (x) para um valor de saída binário simples. Ou seja, somente
processa informações que sejam linearmente separáveis.
1, if w.x + b ≥ 0
f ( x) =
0, else
110
CAPÍTULO 2
Conceitos em algoritmos
111
Unidade iv | Análises de redes neurais
O centroide é definido como um ponto aleatório que pode ou não coincidir com
uma instância da relação e que depois vai ser recalculado a partir da média dos
elementos próximos (cálculo de distância entre pontos). Já um medoide é um
ponto que coincide com algum elemento dos dados. Tanto o K-means quanto o
K-medoid são chamados de algoritmos baseados em protótipos, pois os centros
são deslocados para ficarem mais próximos das instâncias a um certo número
de interações, normalmente definido por meio de um parâmetro do algoritmo
(AMARAL, 2016).
112
Análises de redes neurais | Unidade iv
Algoritmos de aprendizagem
São caminhos pré-traçados para se conhecer os dados. Podem ser classificados
em aprendizagem supervisionada, cujo objetivo é encontrar uma função a partir
de dados de treinamentos rotulados. O objetivo é encontrar os parâmetros
ótimos que ajustem um modelo que possa prever rótulos desconhecidos em
outros objetos (o conjunto de teste). Se o rótulo é um número real, a tarefa é
chamada de regressão. Se o rótulo vem de um conjunto finito e não ordenado,
então a tarefa é chamada de classificação (SILVA, 2018).
Atravessou o
labirinto
Não atravessou
o labirinto
113
Unidade iv | Análises de redes neurais
Para esses algoritmos, você dispõe de características (Xn) sobre objetos (matriz
A) e rótulos (vetor b). O objetivo é encontrar um conjunto de pesos e viés
ótimo para essas características, de acordo com alguma função de custo, como
vimos na unidade anterior sobre regressão.
Árvore de decisão
Figura 49. Exemplo de árvore de decisão para alocação de objetivos em função das suas cores em caixas de armazenamento.
Objetos de
diferentes
cores
Tons
Tons pastéis
vibrantes
Amarelo,
Laranjado e
vermelho e Caixa 3 Caixa 4
verde
azul
Caixa 1 Caixa 2
114
Análises de redes neurais | Unidade iv
Figura 50. Exemplo de gráficos de análises de componentes principais em uma análise gênica da relação de 3 genes com o
fenótipo de um ser.
Espaço original dos dados
Espaço componente
PCA
PC2
PC1
Gene 3
PC2
PC1
115
Unidade iv | Análises de redes neurais
Algoritmo Fp Growth
116
Análises de redes neurais | Unidade iv
117
CAPÍTULO 3
Conceitos em Machine Learning
Conceitos gerais
O conceito de Machine Learning designa uma área da computação que trabalha
com algoritmos que “aprendem” a executar uma tarefa, com base nos dados
disponibilizados. Como visto anteriormente, existem diversos tipos de
algoritmos, contudo o mais utilizado em Machine Learning é o algoritmo de redes
neurais. Um exemplo de um algoritmo do nosso dia a dia, é o filtro de spam
da caixa de e-mails. Com base em informações que fornecemos, ele “aprende” a
identificar que tipos de mensagens são spam e quais não são (MOURA, 2019).
Veja a representação esquemática a seguir de um filtro de spam comum e um
filtro de spam dentro do conceito de Machine Learning:
Figura 52. a) Filtro de spam comum. b) Filtro de spam concebido com os conceitos de Machine Learning.
a)
Filtro em
Teste produção
s
Tratar erros
b)
Tratar erros
Sim
Filtro em
Separar e-mails Treinar o algoritmo Não produção
para usar no para reconhecer o Erro utilizando o
treinamento padrão dos spams algoritmo
s
treinado
118
Análises de redes neurais | Unidade iv
de muita intervenção humana. Por isso tem esse nome e envolve conceitos de
inteligência artificial.
Esses aspectos têm revolucionado diversas áreas da ciência, porque com as análises
de redes neurais e Machine Learning as máquinas podem: realizar previsões,
memorizar, reproduzir padrões e apontar a melhor escolha, e isso lidando com
base de dados com mais de 1 bilhão de linhas. Contudo, mesmo com todos os
avanços da inteligência artificial, as máquinas ainda não podem criar algo novo. O
componente humano dessas análises ainda é essencial.
Machine
Learning clássico
Supervisionado (os
Não
dados são numericos
supervisionado
ou pré-categorizados)
Generalização
Clustering Associação
(detectar
Classificação Regressão (dividido por (idenfificar
dependencias de
similaridades) sequências)
dados)
∑ ( y − h ( x ))
2
=E i w
i =1
Silva et al. (2020), com esse exemplo, explicam que n é o número de padrões de
entrada, yi é a saída da rede (para um dado conjunto de parâmetros – w) e hw(x) o
valor esperado de saída.
Treinamento de Perceptrons
119
Unidade iv | Análises de redes neurais
Isso escrito de outra forma (RUSSEL et al. 2003 apud SILVA et al., 2020):
› Err ← y [ e] − g ( in )
› W j ←W j + α * Err * g ′ ( in ) * x j x j [ e]
120
Análises de redes neurais | Unidade iv
Regras de
if-then-else
inferência
Lógica
Regras difusas
fuzzy
Figura 55. Características desejáveis para as regras de extração de conhecimento de redes neurais.
•acurácia;
•fidelidade;
Qualidade •consistência;
•compreensibilidade.
Portabilidade •extensão de que uma dada técnica possa ser aplicada através de um
grupo de arquiteturas de RNs e regimes treinados.
121
Unidade iv | Análises de redes neurais
Veja a seguir o exemplo de uso, extração e análise de dados por meio de redes
neurais.
Figura 56. Evolução do ENZO: A) Ciclo de evolução B) Novo ciclo de evolução, com a implementação do novo módulo.
Seleção
Seleção
Crossover
Crossover
Mutação
Mutação
Treinamento da rede
123
Unidade iv | Análises de redes neurais
pior
0.5
0.4
fitness
0.3
0.2
0.1
0 5 10 15 20 25 30 35 40 45 50 55
Geração=
124
Análises de redes neurais | Unidade iv
» Regra 6: Se (B ¹ 1) E (B ¹ 4) E (C ¹ 1) E (C ¹ 4) E (D ¹ 2) E (D ¹ 4) então
Classe 2.
Dados de teste
Exemplos cobertos pela regra Percentual de acerto
1 100%
6 100%
4 100%
2 100%
6 83%
8 75%
Fonte: Santos, 1999.
Além disso, você tem que ter uma grande base de dados (Machine Learning não
funciona muito bem com uma base de dados pequena) e você pode não ter uma
hipótese já definida para análise dos seus dados, mas elas precisam de um objetivo
claro para que você possa direcionar a máquina.
125
Unidade iv | Análises de redes neurais
Ciência de dados
Python
Linguagem R
126
Análises de redes neurais | Unidade iv
127
REFERÊNCIAS
AMARAL, F. Aprenda mineração de dados: teoria e prática. Rio de janeiro: Alta Book, 2016.
Aproximações das Distribuições Binomial e Poisson pela Normal. [On-line] Disponível em:
https://www.inf.ufsc.br/~andre.zibetti/probabilidade/aproximacao-binomial-poisson-pela-
normal.html#:~:text=de%20forma%20acurada.-,Aproxima%C3%A7%C3%A3o%20da%20
Distribui%C3%A7%C3%A3o%20Binomial%20pela%20Distribui%C3%A7%C3%A3o%20
Normal,e%20vari%C3%A2ncia%20V(X). Acesso em: 6/5/2021.
BIASSOLI, M. Interpretação de OR, RR, ... Parte II: Algoritmo simplificado. YouTube,
2016. Disponível em: https://www.youtube.com/watch?v=kRp-eG2lyF8. Acesso em: 6/5/2021.
128
Referências
CARRASCO, C. G.; LEMES, T. S. Uma avaliação do erro tipo II no uso do teste t-student.
CASTIEL, L. P. POVOA, E. C. Dr. Sackett & “Mr. Sacketeer”... Encanto e desencanto no reino
da expertise na medicina baseada em evidências. Cad. Saúde Pública, Rio de Janeiro, v. 17, n. 1,
pp. 205-214. Disponível em: https://www.scielo.br/j/csp/a/sPxfRTfDwpNtv5QDsKBZN6k/?f
ormat=pdf&lang=pt. Acesso em: 10/5/2021.
CIÊNCIA TODO DIA. Machine Learning Explicado. YouTube, 2021. Disponível em:
https://www.youtube.com/watch?v=0PrOA2JK6GQ. Acesso em: 6/5/2021.
CORREIA, L. Por que os resultados da maioria dos estudos publicados são falsos?
Medicina Baseada em Evidências Medicina Baseada em Evidências, 2017. Disponível em: http://
medicinabaseadaemevidencias.blogspot.com/2017/04/por-que-os-resultados-da-maioria-dos.
html. Acesso: 31/1/2021.
129
Referências
130
Referências
FONSECA, J. S.; MARTINS, G. A. Curso de estatística. 5 ed. São Paulo: Atlas, 1994.
FREUND, Y. SCHAPIRE, R.E. Large Margin Classification Using the Perceptron Algorithm.
Machine Learning, v. 37, n. 3, pp. 277-296, 1999. Disponível em: https://link.springer.com/arti
cle/10.1023/A:1007662407062.
FURTADO, M. I. V. Redes neurais artificiais [recurso eletrônico]: uma abordagem para sala
de aula. Ponta Grossa (PR): Atena Editora, 2019.
GOODFELOW, I.; BENGIO, Y.; COURVILLE, A. Deep learning Book. [On-line], 2016.
HAIR, J.; BLACK, W. C.; BABIN, B. B.; ANDERSON, R.E.; TATHAM, R. L. Análise
Multivariada de Dados. 6 ed. Porto Alegre: Bookman, 2009.
131
Referências
KENJI, B. Machine Learning para Leigos. Venturus, 2019. Disponível em: https://www.
venturus.org.br/machine-learning-para-leigos/. Acesso em: 6/5/2021.
LACERDA, W. S. Guia de aulas práticas de redes neurais artificiais: versão 1.3. Lavras:
UFLA, 2019. Disponível em: http://repositorio.ufla.br/bitstream/1/29980/5/APOSTILA_
Guia%20de%20aulas%20pr%C3%A1ticas%20de%20redes%20neurais%20artificiais-%20
vers%C3%A3o%201.3.pdf. Acesso: 31/1/2021.
LARSON, R. Estatística aplicada. Tradução Luciana Vianna 4. ed. São Paulo: Pearson Prentice
Hall, 2010.
LEE, J. The 10 Algorithms Machine Learning Engineers Need to Know. Disponível em:
https://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html. Acesso
em: 7/1/2021.
132
Referências
NETO, P. B.; SILVA, T. C. Lei dos Grandes Números [On-line] Disponível em: https://www.
rpubs.com/pedrin1/533227. Acesso em: 4/2/2021.
NUNO, R. F. et al. Genomics and epidemiology of the P.1 SARS-CoV-2 lineage in Manaus,
Brazil. Science, 2021 v. 372, n. 6544, pp. 815-821. doi: 10.1126/science.abh2644. Disponível:
https://pubmed.ncbi.nlm.nih.gov/33853970/ Acesso: 14/5/2021.
PERES, F. Regressão Logística Multinomial no SPSS (Parte 1). YouTube, 2020. Disponível
em: https://www.youtube.com/watch?v=6K89oXjYPLI. Acesso em: 6/5/2021.
133
Referências
PRATES, W.; JOPPEN, H. Outliers, o que são e como tratá-los em uma análise de
dados? [On-line] Aquarela, 2017. Disponível em: https://www.aquare.la/o-que-sao-
outliers-e-como-trata-los-em-uma-analise-de-dados/. Acesso: 31/1/2021.
PROFESSOR GURU. #07 – Teste de Hipóteses para a média com variância populacional
desconhecida. YouTube, 2017. Disponível em: https://www.youtube.com/watch?v=IfiGkWIs_7Y.
Acesso em: 6/5/2021.
134
Referências
RUMEL, D. “Odds ratio”: algumas considerações. Rev. Saúde Pública, São Paulo v. 20, n. 3,
1986. Disponível em: https://www.revistas.usp.br/rsp/article/view/23359/25389.
RUSSELL, S. J.; NORVIG, P. Artificial intelligence: a modern approach. 2. ed. New Jersey:
Prentice Hall International, 2003.
SACKETT, D. I. et al. Evidence-Based Medicine. How to Practice and Teach EBM. Evidence-
Based Medicine, 2005. Disponível em: https://www.researchgate.net/publication/246115972_
Evidence-Based_Medicine_How_to_Practice_and_Teach_EBM_Evidence-Based_Medicine.
Acesso em: 12/3/2021.
SANTOS, R. et al. Extração de Regras de Redes Neurais via Algoritmos Genéticos. Anais...
IV Congresso Brasileiro de Redes Neurais. São José dos Campos, Brasil, 1999. Disponível
em: https://www.researchgate.net/publication/228960317_Extracao_de_Regras_de_Redes_
Neurais_via_Algoritmos_Geneticos.
135
Referências
136
Referências
VILELA JUNIOR, G.B. Estatística: Teste Z (ou Escore Padronizado). Disponível em:
http://www.cpaqv.org/estatistica/teste_z.pdf. Acesso em: 6/5/2021.
VU, J.; HARRINGTON, D. Introductory Statistics for the Life and Biomedical Sciences. 1
ed. OpenIntro Statistics, 2020.
137