Você está na página 1de 137

BIOESTATÍSTICA APLICADA

Elaboração

Ana Izabel Passarella Teixeira

Produção

Equipe Técnica de Avaliação, Revisão Linguística e Editoração


SUMÁRIO

APRESENTAÇÃO....................................................................................................................................................................................... 4

ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA.................................................................................................. 5

INTRODUÇÃO.............................................................................................................................................................................................. 7

UNIDADE I
ANÁLISE EXPLORATÓRIA.................................................................................................................................................................................................. 9

CAPÍTULO 1
MEDIDAS DE TENDÊNCIA CENTRAL E MEDIDAS DE DISPERSÃO................................................................................................... 9

CAPÍTULO 2
REGRAS GERAIS DE PROBABILIDADE E INDEPENDÊNCIA.............................................................................................................. 26

CAPÍTULO 3
DISTRIBUIÇÃO DE PROBABILIDADES......................................................................................................................................................... 32

UNIDADE II
ESTATÍSTICA ANALÍTICA.................................................................................................................................................................................................. 41

CAPÍTULO 1
CONCEITOS GERAIS EM ESTATÍSTICA ANALÍTICA............................................................................................................................... 41

UNIDADE III
ANÁLISES MULTIVARIADAS........................................................................................................................................................................................... 79

CAPÍTULO 1
CONCEITOS GERAIS EM ANÁLISES MULTIVARIADAS........................................................................................................................ 79

CAPÍTULO 2
AGRUPAMENTO DE VARIÁVEIS...................................................................................................................................................................... 84

UNIDADE IV
ANÁLISES DE REDES NEURAIS ................................................................................................................................................................................. 104

CAPÍTULO 1
CONCEITOS GERAIS EM ANÁLISES DE REDES NEURAIS............................................................................................................... 104

CAPÍTULO 2
CONCEITOS EM ALGORITMOS...................................................................................................................................................................... 111

CAPÍTULO 3
CONCEITOS EM MACHINE LEARNING....................................................................................................................................................... 118

REFERÊNCIAS....................................................................................................................................................................................... 128
APRESENTAÇÃO

Caro aluno

A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se


entendem necessários para o desenvolvimento do estudo com segurança e qualidade.
Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como
pela interatividade e modernidade de sua estrutura formal, adequadas à metodologia
da Educação a Distância – EaD.

Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade dos


conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos específicos
da área e atuar de forma competente e conscienciosa, como convém ao profissional
que busca a formação continuada para vencer os desafios que a evolução científico-
tecnológica impõe ao mundo contemporâneo.

Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de


modo a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal
quanto na profissional. Utilize-a como instrumento para seu sucesso na carreira.

Conselho Editorial

4
ORGANIZAÇÃO DO CADERNO
DE ESTUDOS E PESQUISA

Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas


em capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio
de textos básicos, com questões para reflexão, entre outros recursos editoriais que
visam tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes
de consulta para aprofundar seus estudos com leituras e pesquisas complementares.

A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.

Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto
antes mesmo de iniciar sua leitura ou após algum trecho pertinente
para o autor conteudista.

Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma
pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em
seu raciocínio. É importante que ele verifique seus conhecimentos, suas
experiências e seus sentimentos. As reflexões são o ponto de partida
para a construção de suas conclusões.

Sugestão de estudo complementar


Sugestões de leituras adicionais, filmes e sites para aprofundamento do
estudo, discussões em fóruns ou encontros presenciais quando for o
caso.

Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam
para a síntese/conclusão do assunto abordado.

5
Organização do Caderno de Estudos e Pesquisa

Saiba mais
Informações complementares para elucidar a construção das sínteses/
conclusões sobre o assunto abordado.

Sintetizando
Trecho que busca resumir informações relevantes do conteúdo,
facilitando o entendimento pelo aluno sobre trechos mais complexos.

Para (não) finalizar


Texto integrador, ao final do módulo, que motiva o aluno a continuar
a aprendizagem ou estimula ponderações complementares sobre o
módulo estudado.

6
INTRODUÇÃO

A estatística, nos dias de hoje, é uma ciência que permeia diversos outros
campos científicos. É apresentada a muitos cientistas, durante seu processo de
formação acadêmico-profissional, como uma ferramenta para coletar dados,
organizá-los, analisá-los e interpretá-los. Quase toda ciência produzida tem
uma análise estatística envolvida.

Contudo, nem sempre ela é aplicada corretamente. Principalmente nas áreas


biológicas e médicas. Correlação estatística não implica em correlação biológica.
Associação estatística não determina causa e efeito.

O objetivo desse módulo é trabalhar conceitos estatísticos e como eles podem


ser aplicados, para que, em suas trajetórias profissionais como bioinformatas,
saibam escolher a melhor análise para o seu banco de dados. Isso tudo com
rigor e critérios acadêmicos válidos, pois, com o advento dos computadores e
programas de análise de dados, fazer essas “contas na mão” é algo ultrapassado.

Saiba que, além de programas estatísticos bem estabelecidos no mercado como


SPSS (Software SPSS - Brasil | IBM), STATA (STATA 16), existem diversas
linguagens de programação R: The R Project for Statistical Computing (r-project.
org) RStudio | Open source & professional software for data science teams - RStudio
com diversos pacotes, e o melhor de tudo, são gratuitos.

Então, tenha em mente que esse material é um guia de estudos, focado em


questões conceituais, para permitir que você possa realizar uma análise
adequada da sua base de dados. Diversas leituras e videoaulas são indicadas (tudo
disponível gratuitamente na internet, e previamente avaliadas e selecionadas
para complementar os seus estudos – tentei selecionar o máximo de material em
português, contudo, algumas indicações são em inglês). Portanto, veementemente
recomendo que leiam e assistam. Esses conteúdos complementam esse caderno
de estudos e ajudam nos seus estudos.

Objetivos
» Revisão conceitual de estatística descritiva.

» Conceitos gerais em estatística analítica e modelos lineares.

7
Introdução

» Análise crítica e interpretação de modelos lineares.

» Análises crítica de aplicações de estatísticas multivariadas.

» Conceitos gerais análises de redes neurais.

8
ANÁLISE
EXPLORATÓRIA UNIDADE I

CAPÍTULO 1
Medidas de tendência central e
medidas de dispersão

Por que estudar estatística?


A estatística é uma ciência dedicada a extrair informação útil de uma base de
dados. Mas o que são dados? Dado é um valor atribuído a alguma coisa. E a
definição de informação é que consiste no processamento/análise de dados. E,
nesse sentido, o conhecimento consiste na informação aplicada, aprendida e
entendida.

Portanto, a estatística é um conjunto de métodos utilizados para se analisar


dados. Pode ser aplicada em praticamente todas as áreas do conhecimento
humano, e em algumas áreas recebe um nome especial. Esse é o caso da
Bioestatística, que trata de aplicações da Estatística em Ciências Biológicas e
da Saúde. E isso envolve etapas, como a coleta de informações, ou dados, as
medidas dessas informações e métodos utilizados na intepretação desses dados.
Em resumo, a bioestatística consiste em métodos para coleta e descrição dos
dados e, então, a verificação da força da evidência nos dados pró ou contra
certas ideias científicas. A presença de uma variação não previsível nos dados
faz disso uma tarefa pouco trivial (LEG, 2012).

Dados, em estatística, são chamados de variáveis e que podem ser de diversas


formas categorizadas (variáveis discretas, contínuas, qualitativas etc.) e são os
grandes componentes das bases de dados. E serão o objeto do nosso estudo nesse
módulo.

Quando você pega um novo conjunto de dados, você deve mergulhar nele e
deve ter uma hipótese pronta. Caelainn Barr, jornalista premiada, explica o
seu método de lidar com fontes de dados em: http://datajournalismhandbook.
org/1.0/en/understanding_data_4.html.

9
Unidade i | Análise exploratória

Leia sobre as razões para se estudar estatística

» Construindo Estatísticas. Aplicações da Estatística no dia a dia.


Disponível em: http://estatisticacomascomplexas.blogspot.com/2009/
12/aplicacoes-da-estatistica-no-dia-dia_16.html.

» RAMOS, R. Por que Estatística é tão importante? O Estatístico, 2106.


https://oestatistico.com.br/por-que-estatistica-importante/ Razões para
se estudar Estatística? (ufpr.br)

» RODRIGUES, C. F. S. et al. Importância do uso adequado da estatística


básica nas pesquisas clínicas. Ver Bras Anestesiol., v. 67, n. 6, pp. 619-
625, 2017. Disponível em: https://www.scielo.br/j/rba/a/N5PgBCrzhDkfR
bX8QXsctHx/?format=pdf&lang=pt.

Estatística e bioinformática

A bioinformática é uma ciência nova, que se relaciona com diversas áreas do


conhecimento. Foi desenvolvida com o objetivo de mapear as sequências
genéticas, utilizando métodos estatísticos capazes de analisar grandes quantidades
de dados biológicos. Com essas técnicas, é possível predizer funções de genes e
demonstrar relações entre genes e proteínas. Esse campo está em plena extensão,
principalmente devido às grandes inovações tecnológicas (ALVES, 2013).

Um exemplo recente da grande importância da bioinformática são os estudos


para compreender como o vírus SARS-CoV-2 consegue invadir uma célula,
e os meios como isso acontece. Esquemas didáticos, como o apresentado a
seguir, foram elaborados com base em esquemas analíticos de bioinformática.
Toda informação da bioinformática sobre como os receptores interagem,
foi esquematizada de forma gráfica para facilitar as análises e auxiliar na
compreensão do processo. Esse estudo em específico avalia em que locais as
drogas terapêuticas poderiam agir, e assim tratar os pacientes.

Figura 1. Representação esquemática de como o vírus SARS-CoV-2 consegue invadir uma célula de um hospedeiro.

O momento da entrada do
S2
vírus na célula do
Receptor ACE-2 hospedeiro seria um alvo
S1
da célula para ação de medicamentos
hospedeira de tal forma a inibir a viremia
interage com os no organismo.
subdomínios S.

TMPRSS2
ACE-2

Fonte: adaptada de Sha et al., 2021.

10
Análise exploratória | Unidade i

Portanto, tenham em mente que essa área multidisciplinar está fundamentada em


outras áreas de conhecimento, e uma grande base para isso são os conhecimentos
de análise de dados, que podem ser estatísticos ou computacionais. Para
escolher qual deverá ser utilizado em sua base de dados, os seus conhecimentos
teóricos devem estar corretamente fundamentados, pois com os dias de hoje e
toda inovação tecnológica existente, “as máquinas fazem as contas” e o grande
ponto é saber dizer que “contas” que a máquina deverá realizar.

Figura 2. Relações entre a bioinformática com outras áreas de conhecimento.

Biologia

Matemática
Medicina e Estatística
Bioinformática

Ciências da
computação

Fonte: adaptada de Silveira, 2002.

Aspectos gerais
As medidas de tendência central e de dispersão são meios de se descrever uma
sequência de dados, isto é, um banco de dados a ser trabalhado. De maneira
geral, as medidas de tendência central descrevem o que os “dados têm em
comum” (onde se repetem, onde são similares etc.) e as medidas de dispersão
descrevem a diferença dos dados e a distancia entre eles.

Em uma análise de um banco de dados, o analista deve aplicar primeiramente


essas medidas para conhecer o seu banco de dados. Pois, conforme dito por
Fonseca e Martins (1994) as medidas de tendencia central e dispersão, ou seja
a estatística descritiva, tem por finalidade apresentar os dados de maneira
organizada, sejam em tabelas ou gráficos. E essa apresentação indica: centro,
variação, distribuição e valores atípicos dos dados.

O banco de dados geralmente é composto de uma amostra de uma população.


E o que é população? Define-se população como o conjunto de elementos
que têm em comum determinada característica, ou seja, é o conjunto de

11
Unidade i | Análise exploratória

elementos mantidos sob as mesmas condições, sejam elas naturais ou


artificiais. Por exemplo, crianças entre 8 e 10 anos domiciliadas em Brasília –
isto é uma população alvo de um estudo. Já o termo amostra é referente a
todo subconjunto (porção) considerado aleatoriamente de uma população.
As amostras são importantes em trabalhos, porque permitem que se tenha
uma noção de uma população analisando somente uma parte dessa população.
Além disso, é denominada amostra aleatória quando todos indivíduos de
uma população têm a mesma chance (probabilidade) de integrar a amostra
(FACCENDA; STEFANELO, 2014).

Como funciona uma amostra de uma população em uma análise de bioestatística:


deve ser probabilística, seu cálculo deve considerar o tamanho da população,
a frequência do evento estudado e o nível de confiança que se espera dessa
amostra. Com isso, teremos uma amostra representativa de uma população, que
permitirá que conclusões sejam feitas a respeito dessa mesma população. Veja a
representação esquemática a seguir.

Figura 3. Relação de uma amostra com a população, estatísticas descritivas e estatísticas inferenciais.

População Amostra
(características)
Técnicas de amostragem

Análise descritiva
(estatística descritiva)

Inferência estatística

Conclusões sobre Informações


as características contidas nos
da população Estatística analítica (análises multivariadas) dados

Fonte: adaptada de Ferreira, 2012.

Agora que falamos desses conceitos iniciais sobre população, amostra e como
se relacionam com a estatística descritiva e analítica, falaremos sobre a estatística
descritiva.

Estatística descritiva

A estatística descritiva consiste em “arrumar” os dados para serem analisados. Para


dados numéricos, utiliza ferramentas de medidas central e medidas de dispersão.
Para dados categóricos, utiliza frequências e gráficos.

12
Análise exploratória | Unidade i

Medidas de tendência central

Quando organizamos um banco de dados de uma amostra em formato gráfico,


podemos ver alguns aspectos em relação à quantidade de cada um dos itens
presentes, como a distribuição e aos locais com maiores concentrações da
amostra, conforme a figura a seguir.

Figura 4. Classificação de gráficos de dados.

Distribuição

Assimétrica à esquerda Simétrica Assimétrica à direita

Moda

Unimodal Bimodal Uniforme Multimodal

Fonte: Çetinkaya-Rundel, 2020.

As medidas de tendência central são medidas resumo que apresentam as


similaridades dos dados, isto é, sobre quais valores que os dados se distribuem.
Indicam a localização da maior concentração de valores.

As medidas de tendência central são: média, mediana e moda. O quadro a seguir


apresenta uma comparação entre as características dessas três medidas.

Quadro 1. Comparação entre as características das medidas de tendência central.

Média Mediana Moda


É a medida de tendência central É a medida do centro O valor que ocorre com maior
Medida encontrada pela soma de todos os valores, quando os valores frequência em seu banco de
dividida pelo número total de elementos. estão ordenados. dados.
» É resistente a valores
» Não é enviesada.
É resistente para extremos.
Vantagens » Tende a ser mais consistente do que as valores extremos. » Única medida central para
outras medidas.
dados qualitativos.
É uma medida
Desvantagens Não resistente a valores extremos. É uma medida enviesada.
enviesada.
Fonte: adaptado de Mayer, 2016.

13
Unidade i | Análise exploratória

Média

Média consiste no somatório de todos os valores dos seus dados e dividir pelo
total de “indivíduos” em uma amostra ou uma população. É representada pelas
fórmulas a seguir:

Figura 5. Fórmulas matemáticas para indicar a média.

µ – é o símbolo matemático-estatístico para indicar a média populacional.


𝚺𝚺𝑿𝑿𝑿𝑿
𝝁𝝁 =
𝒏𝒏 x – é o símbolo matemático-estatístico para indicar a média da amostra.

Σ𝑋𝑋𝑋𝑋 – é o símbolo matemático-estatístico para indicar o somatório dos indivíduos.

n – é o símbolo matemático-estatístico para indicar o número de elementos da


𝚺𝚺𝑿𝑿𝑿𝑿 amostra.
𝒙𝒙 =
𝑵𝑵 N – é o símbolo matemático-estatístico para indicar o número de elementos da
população.

Fonte: elaborada pela autora.

Exemplo:

Em um banco de dados hipotético: amostra, obtida aleatoriamente por sorteio


de uma população de um bairro da cidade A, temos as seguintes notações de
idade de todos os indivíduos que compõem a amostra: 13, 24, 5, 6, 8, 22, 35,
52, 85, 62, 16, 21, 22, 34, 46, 19, 22, 20, 3, 9.

Qual a média de idade dessa amostra?


13 + 24 + 5 + 6 + 8 + 22 + 35 + 52 + 85 + 62 + 16 + 21 + 22 + 34 + 46 + 19 + 22 + 20 + 3 + 9
x=
20
524
x
= = 26, 2
20

Portanto, lembrando a fórmula da média, temos que somar os valores de todos


e dividir pelo total de indivíduos. A média da idade dos sujeitos da amostra
é de 26,2 anos.

A idade é uma variável numérica quantitativa, por isso a média é aplicada aqui.
Essa é uma média aritmética, que é uma medida simples de se estabelecer o “meio”
da amostra.

14
Análise exploratória | Unidade i

Mediana

A mediana indica o “lugar” que fica exatamente no meio dos dados ordenados.
Ela não leva em conta o valor apresentado pelo indivíduo, mas a ordem desses
valores e onde fica o meio.

Quando ordenamos o exemplo anterior: 3, 5, 6, 8, 9, 13, 16, 19, 20, 21, 22, 22,
22, 24, 34, 35, 46, 52, 62, 85.

Visualmente, em uma amostra pequena, é fácil identificar a mediana, contudo


existe uma fórmula matemática para isso, em que n representa o total de
indivíduos da amostra:
n
  quando o total de indivíduos da amostra é impar
2
 n +1
  quando o total de indivíduos da amostra é par
 2 

Então, como temos 20 indivíduos, 21/2 = 10,5. A mediana está entre os valores
do indivíduo 10 e do indivíduo 11.
3, 5, 6, 8, 9, 13, 16, 19, 20, 21, 22, 22, 22, 24, 34, 35, 46, 52, 62, 85

10 indivíduos 10 indivíduos
A mediana é de valor igual a 21,5. A metade
do caminho entre 21 (10º. Indivíduo) e 22 (11º.
Indivíduo)

Moda

É o valor que mais se repete na amostra.

Novamente, considerando o exemplo da amostra que estamos trabalhando:

3, 5, 6, 8, 9, 13, 16, 19, 20, 21, 22, 22, 22, 24, 34, 35, 46, 52, 62, 85

A moda nessa sequência numérica da amostra é igual a 22, pois esse é o


número que mais se repete.

Considerações sobre as medidas de tendência central

Em gráficos, podemos observar como essas medidas estão distribuídas, a


depender do tipo de distribuição e como seus valores se comportam, conforme
as características apresentadas no quadro 1. Veja a figura a seguir:

15
Unidade i | Análise exploratória

Figura 6. Relações das medidas de tendência central em representações gráficas.

Simétrica Assimétrica (concentração à esquerda Assimétrica (concentração à direita


ou cauda à direita) ou cauda à esquerda)

moda = mediana = média moda < mediana < média média < mediana < moda

Fonte: adaptado de Reis et al., 2002.

Medidas de dispersão
As medidas de dispersão avaliam quanto os dados estão “espalhados”, quanto são
“diferentes”, dentro do seu banco de dados da sua amostra. Em outras palavras,
eles medem a variabilidade dos seus dados. A figura a seguir apresenta duas
distribuições, uma mais variável e uma menos variável.

Figura 7. Distribuições com diferentes graus de variabilidade.

Menos variável
Mais variável

Fonte: Çetinkaya-Rundel, 2020.

Amplitude

Consiste no quanto a curva de distribuição se estende, ou seja, o maior valor


menos o menor valor. Não costuma ser uma medida muito utilizada porque
pode estar sujeita a pontos extremos e destoantes da amostra.
16
Análise exploratória | Unidade i

Variância e desvio-padrão

É definida como a média quadrada dos desvios (FACCENDA; STEFANELO,


2014). O desvio é quanto cada item da amostra está diferindo da média.
Matematicamente, é definida como:

∑ ( xi − x )
n
s2 = i =1
2

n −1

Porém, esse é um dado difícil de interpretar. Por exemplo, suponha que você
precisa calcular a variância da idade da amostra que estávamos trabalhando
como exemplo nas medidas de tendência central.

( 3 − 26, 2 )
+ ( 5 − 26, 2 ) + … + ( 85 − 26, 2 )
2 2 2
2
s = 442, 69 anos quadrados
20 − 1

que valores negativos não se anulem. E para ajudar na compreensão, utilizamos


o desvio padrão, que é compreendido como a raiz quadrada da variância. Por que
fazer isso? Para voltar a unidade de medida ao original.
padrão δ
Desvio= 4442, 69 66,5 anos
=

Então, o desvio padrão dessa amostra é de 66,5 anos.

Quando temos uma distribuição simétrica, o desvio padrão consegue ajudar a


indicar (FACCENDA; STEFANELO, 2014):

» [x - δ ; x + δ ], incluem cerca de 68% das observações;

» [x - 2 δ ; x + 2 δ ], incluem cerca de 95% das observações;

» [x - 3 δ ; x + 3 δ ], incluem cerca de 99% das observações.

Coeficiente de variação

O coeficiente de variação é uma medida que expressa quanto da escala de


medida é ocupada pelo desvio padrão. Isto é, se o desvio padrão é “grande” ou
“pequeno”. É uma medida adimensional, ou seja, não tem unidade de medida,
o que serve para comparar dados que estão em escalas diferentes, o que seria
impossível utilizando somente os valores dos desvios padrão (REIS et al., 2002).
É representada pela fórmula:
desvio padrão
Coeficiente de variação =
média

17
Unidade i | Análise exploratória

A homogeneidade dos dados pode ser avaliada por esse valor, do coeficiente de
variação. Quanto menor o coeficiente, mais homogênea é aquela variável. Em
geral, um coeficiente inferior a 0,25 indica uma variável homogênea (REIS et al.,
2002).

Intervalo interquartil

O intervalo interquartil é a diferença entre o terceiro e o primeiro quartil. É a


medida de “espalhamento dos dados” complementar à mediana. Pois a mediana
indica 50% dos dados. O primeiro quartil indica 25% dos dados e o terceiro
quartil 75%. Uma maneira mais fácil de entender essa medida é com o auxílio
de um gráfico do tipo caixa (boxplot). Veja a figura a seguir:

Figura 8. Um gráfico de boxplot a respeito de uma frequência, também apresentada na imagem com uma distribuição dos
pontos.

25% Outliers

limite superior
20% barra superior

Q3 (terceiro quartil)
15%

Intervalo Mediana
interquartil
10%
Q1 (primeiro quartil

barra inferior
5%

Fonte: adaptada de Diez et al., 2019.

Como vocês podem notar, o intervalo interquartil é uma medida de dispersão


que não é afetada pelos pontos “outliers”, pontos extremos à observação. A relação
desse tipo de gráfico com um histograma é apresentada a seguir.

18
Análise exploratória | Unidade i

Figura 9. Relações das medidas de central com o boxplot, histograma e medidas de tendência central.

média = 70,51 média = 12482,3

6e
mediana = 73,34 mediana = 6975,14

3e-05
0e+00
50 60 70 80 0 200000 40000 600000 800000

50 60 70 80 0 200000 40000 600000 800000

Fonte: Çetinkaya-Rundel, 2020.

Os quartis também podem ser chamados de medidas separatrizes. Para calcular,


considerando n o número total de observações:

» Primeiro quartil. 25% dos dados são iguais ou menores ao valor do


primeiro quartil.

p = 0,25 (n + 1)

» Segundo quartil, é igual à mediana. 50% dos dados são iguais ou


menores ao valor do segundo quartil.

p = 0,5 (n + 1)

» Terceiro quartil. 75% dos dados são iguais ou menores ao valor do


terceiro quartil.

p = 0,75 (n + 1)

A fase inicial de um processo de análise de dados coletados é a estatística


descritiva. Com esses conceitos, podemos organizar, resumir e descrever
os aspectos importantes de um conjunto de dados. Bem como identificar
padrões e identificar anomalias. São utilizadas medidas de tendência central
e de dispersão para esse fim, bem como o uso de gráficos (REIS et al., 2002).

A escolha da medida correta para se interpretar um dado recai sobre o tipo


da variável (o dado) que se está analisando.

19
Unidade i | Análise exploratória

Figura 10. Relação entre os tipos de variáveis e análises recomendadas.

Contínuas
(contagem de medidas:
altura, peso etc.)
Medidas de tendencia
Numéricas central e de dispersão

Discretas
(contagem de coisas:
número de vagas, número
de pessoas)
Todos os tipos de
variáveis
Nominal
(denominações sem grau
de hierarquia: raça do
animal, cor da pelagem Moda, descrições de
etc.) frquência, gráficos de
barras, ramos e folhas,
Categórica pizza etc.

Ordinal
(denominações com
hierarquias: julgamento
bom/razoável/ruim

Fonte: elaborada pela autora.

Considerando dados categóricos

Além das variáveis quantitativas, um dado pode ser qualitativo: grupo de cores
de camisetas (branca, amarela, rosa, azul); classificação de uma corrida (primeiro,
segundo, terceiro, quarto.). Esses dados também devem ser trabalhados.

Esses dados podem ser apresentados em tabelas de colunas, descrevendo a sua


frequência. Além desse tipo de gráfico, podemos utilizar gráficos com colunas
agrupadas, gráficos de pizza. Também podemos organizar os dados em tabelas de
contingência (DIEZ et al., 2019).

20
Análise exploratória | Unidade i

Figura 11. Exemplo de gráfico de dados qualitativos, onde as categorias não têm ordem correta e um gráfico em que as
categorias têm ordem.

Número de diferentes cores de camisetas por grupos de alunos


6

0
Camisetas rosas Camisetas azuis Camisetas brancas Camisetas verdes

Alunos do grupo 1 Alunos do grupo 2

Concurso de alunos de três diferentes colégios para definir


grupos de desempenho em olimpiadas de matemática
12
10
8
6
4
2
0
Pontuação para ser Pontuação para ser Pontuação para ser Pontuação para ser
classificado no primeiro classificado no segundo classificado no terceiro classificado no quarto grupo
grupo grupo grupo

Alunos colégio A Alunos colégio B Alunos colégio C

Fonte: elaborada pela autora.

Tabela 1. Exemplo de tabela de contingência.

Pessoas com câncer de Garganta Pessoas sem câncer de Garganta


Pessoas que são fumantes 25 15
Pessoas que não são fumantes 10 35
Total 35 50
Fonte: elaborada pela autora.

Observe nessa tabela, que apesar de ela apresentar um número, as variáveis em


si são qualitativas, porque descrevem a quantidade de pessoas que são ou não
fumantes e que possuem ou não câncer de garganta.

Os conhecimentos de estatística descritiva são a base para compreender sua base


de dados e analisá-la de forma correta. Os exemplos até aqui apresentados são

21
Unidade i | Análise exploratória

“simples”, para que o raciocínio possa ser compreendido, contudo saibam que até
em experimentos mais complexos, também pode ser utilizado.

Vamos a um exemplo de um artigo de bioinformática. O artigo de Brito


et al. (2019), intitulado Transcriptome‑based molecular systematics: Rhodnius
montenegrensis (Triatominae) and its position within the Rhodnius prolixus–Rhodnius
robustus cryptic–species complex, publicado na Parasites and Vectors, é um artigo
de bioinformática que trabalha na identificação de espécies de triatomíneos
(vetores da doença de Chagas).

Na análise das semelhanças e diferenças entre os códigos genéticos, os autores


usaram ferramentas de estatística descritiva para realizar essas análises. Utilizou
de gráficos de barras compostas para indicar a similaridade entre os genes por
dois parâmetros e cores para separar os tipos de barras. Apesar de ser uma
análise complexa, a análise de transcriptomas1, a apresentação foi visual, simples
e eficiente.

Figura 12. Gráfico para demonstrar as análises dos transcriptomas de barbeiros.

100 1600
Essa escala
apresenta a
porcentagem
0
de similaridade Essa escala
75 apresenta a”
entre as
sequências 1200 frequência
(com as linhas absoluta” de
finas). similaridade
0 entre as
25
sequências.

8000
Cada ponto nesse eixo é uma espécie de triatomíneo
que foi analisada e vermelha representa as espécies
que atingiram 100%.

Fonte: adaptada de Brito et al., 2019.

Além de gráficos, os autores também utilizaram tabelas para descrição dessas


similaridades e diferenças. Veja a seguir2, tem medidas de dispersão e medidas de
tendência central:

1 Transcriptoma ou transcritoma se refere ao conjunto completo de transcritos de um dado organismo, órgão, tecido ou linhagem celular.
2 Não coloquei toda a tabela, porque foram várias análises, inseri no nosso material somente as primeiras linhas para não ficar carregado e não
perdermos de vista a aplicação de conceitos de estatística descritiva em bioinformática.

22
Análise exploratória | Unidade i

Tabela 2. Apresentação de medidas de dispersão em um estudo genômico.

Sequência do
Comparações Cobertura Divergência
transcriptoma Percentual
Locus <10 de
Desvio
NCBI RSA Sequência Espécie Média Mínimo leituras identidade Distância
Padrão
(%)
Rhodnius
SRX1996481 cytb EF011724.1 13,831.35 1996 - 99.85 0.00152 0.00144
robustus II
Rhodnius
AF421341.1 5745.50 48 - 99.55 0.00463 0.00252
robustus II

Fonte: adaptada de Brito et al., 2019.

Esse artigo, em sua íntegra, pode ser encontrado em:

BRITO, R.N.; GERALDO, J.A. et al. Transcriptome-based molecular systematics:


Rhodnius montenegrensis (Triatominae) and its position within the Rhodnius
prolixus–Rhodnius robustus cryptic–species complex. Parasites Vectors,
(2019) 12:305. Disponível em: https://parasitesandvectors.biomedcentral.
com/track/pdf/10.1186/s13071-019-3558-9.pdf. Acesso em: 12/5/2021.

Outro exemplo é o trabalho de Iruzubieta et al. (2021), publicado na Nature. Esse


estudo avaliou a aplicabilidade de uma estratégia de autotestagem para detecção
de SARS-CoV-2 em uma população. Avaliaram-se pontos como facilidade
na execução das etapas para o teste, e apresentou-se um gráfico simples para
descrever a frequência que os participantes da amostra descreveram sobre a
facilidade ou dificuldade de realizar o teste. Observem que os autores usaram
colunas com escala de cores para mostrar a porcentagem e frequência relativa
de participantes que declararam o grau de facilidade/dificuldade com as etapas
da testagem.

Figura 13. Dificuldades da população em realizar a autotestagem.

100 Muito fácil


Fácil
Porcentagem

80 Normal
Difícil
Muito difícil
60

40

20

0
Uso da Uso de Montar Envio de
lanceta pipeta o teste imagens
para o
sistema
Fonte: adaptada de Iruzubieta et al., 2021.

23
Unidade i | Análise exploratória

Outro tipo de análise de bioinformática que utilizou conceitos de estatística


descritiva realizou uma linha de tempo do aparecimento de novas variantes do
vírus SARS-CoV-2 no estado do Amazonas com outras localidades.

Os casos de infecção por SARS-CoV-2 em Manaus, Brasil, ressurgiram


no final de 2020, apesar dos níveis anteriormente elevados de infecção. O
sequenciamento do genoma de vírus amostrados em Manaus entre novembro
de 2020 e janeiro de 2021 revelou o surgimento e a circulação de uma nova
variante do SARS-CoV-2. A linhagem P.1 adquiriu 17 mutações, incluindo
um trio na proteína spike (K417T, E484K e N501Y) associada ao aumento
da ligação ao receptor ACE2 humano. A linha de tempo demonstra que a
emergência P.1 ocorreu em meados de novembro de 2020, e foi precedida
por um período de evolução molecular mais rápida. Usando um modelo
dinâmico de duas categorias que integra dados genômicos e de mortalidade,
estimamos que a P.1 pode ser 1,7-2,4 vezes mais transmissível, e que a infecção
anterior (não P.1) fornece 54-79% da proteção contra infecção com P.1, que
fornece contra linhagens não P.1. A vigilância genômica global aprimorada
de variantes preocupantes, que podem apresentar maior transmissibilidade
e/ou evasão imunológica, é crítica para acelerar a capacidade de resposta à
pandemia (FARIA et al., 2021).

Figura 14. Linha do tempo demonstrando o aparecimento de outras linhagens no estado do Amazonas em comparação a
outros estados.

Amazonas
Outras
localidades

1.00 P2

1.0 P1
0

Março 2020 Maio 2020 Agosto 2020 Outubro, 2020 Dezembro 2020

Fonte: adaptada de Nuno et al., 2021.

24
Análise exploratória | Unidade i

Se quiser ler esse trabalho em sua forma integral acesse:

NUNO, R.F. et al. Genomics and epidemiology of the P.1 SARS-CoV-2 lineage
in Manaus, Brazil. Science, n. 372, pp. 815-821, 2021. Disponível em: http://
science.sciencemag.org/content/sci/372/6544/815.full.pdf.

Leia também:

RODRIGUES, C. F. S. Importância do uso adequado da estatística básica nas


pesquisas clínicas. Disponível: https://www.scielo.br/j/rba/a/N5PgBCrzhDkfRb
X8QXsctHx/?format=html&lang=pt.

25
CAPÍTULO 2
Regras gerais de probabilidade e
independência

Aspectos gerais
A Estatística, enquanto ciência de observação de eventos, se fundamenta em
probabilidade: se um evento ocorre ou não. Então, está fundamentada em
modelos matemáticos probabilísticos (FACCENDA; STEFANELO, 2014;
DIEZ et al., 2019). Compreender como funciona a probabilidade matemática
ajuda a entender as análises de estatística que veremos mais adiante.

Por definição, a probabilidade é expressa como a proporção de vezes que


um evento ocorreria, quando se observou o processo aleatoriamente em um
número infinito de vezes (DIEZ et al., 2019). É um conceito abstrato, mas de
maneira prática poderia ser expresso por aquele problema comum em toda aula
de probabilidade: se jogarmos uma moeda 50 vezes para o alto, quantas caras e
coroas você irá obter? Então, a probabilidade também pode ser expressa como o
evento que você busca sobre todos os eventos possíveis.
Probabilidade de tirar cara quando jogar uma moeda :
1 ( a moeda tem uma cara )
=
2 ( a moeda gerar cara ou coroa )

Nesse cenário, temos que a probabilidade de retirar cara quando lançarmos


uma moeda é de 1/2, ou 50%. Como a probabilidade consiste em um evento
acontecer dentre todos os eventos, então ela assume valores entre 0 e 1. Ou 0%
a 100%.

A probabilidade também pode ser calculada como eventos somados, ou como


eventos excludentes. Ou seja, uma combinação de diferentes eventos em
diferentes formas. Por exemplo, se quisermos saber a probabilidade de tirar 3
ou 5 quando lançamos um dado de seis faces:
1 1 2 1
P (1 e 2 ) = P (1) + P ( 2 ) = + = =
6 6 6 3

A lei dos grandes números é um importante ponto no estudo das probabilidades.


De forma resumida, ela afirma que quanto maior o número de amostras (vezes
que um determinado evento pode acontecer), mais ela tenderá ao valor esperado
(NETO e SILVA, 2019):
26
Análise exploratória | Unidade i

A lei dos grandes números é um dos teoremas mais importantes no ramo


da probabilidade, assim como de outras áreas. Ela se refere ao conceito de
probabilidade baseada em uma fórmula estudada da matemática. De forma
simplificada, ela diz que quanto maior o número de amostras, mais ela tenderá
ao valor esperado, ou seja, tende para a probabilidade teórica. Vamos considerar
a variável aleatória X que irá representar o valor numérico de um experimento
aleatório e seja X1, X2 … Xn uma amostra aleatória de X com n grande. Segue:

Outro exemplo para ajudar a esclarecer esse teorema dos grandes números: com
um dado de 6 faces, começamos um experimento, lançando o dado para o alto.
A chance de tirar um número em um dado de 6 faces é de 1/6, quando fazemos
100 mil lançamentos para testar os números “sorteados”, a probabilidade tende
a 1/6. Veja no gráfico a seguir.

Figura 15. Probabilidades de se obter um determinado resultado lançando um dado de 6 faces várias vezes.

0,3

0,2

0,1

0,0
1 10 100 10000 10000 100000
Número de lançamentos do dado

Fonte: adaptada de Diez et al., 2019.

27
Unidade i | Análise exploratória

Visite o link a seguir para saber mais.

NETO, P.B.; SILVA, T.C. Lei dos Grandes Números [On-line] Disponível em: https://
www.rpubs.com/pedrin1/533227. Acesso em: 4/2/2021.

E veja os vídeos

» ESTATÍSTICA PARA CONCURSO. Lei dos Grandes Números - Tamanho


Amostral para Proporção (Estatística|Marinha). 2020. Disponível em:
https://www.youtube.com/watch?v=gJHPe_WlX_M.

» CARVALHO, M. O Teorema Central do Limite. OBMEP, 2019. Disponível


em: https://www.youtube.com/watch?v=ypOC4hVdSY0.

Regras de probabilidade
As opções relacionadas a um evento acontecer são: acontecer ou não acontecer.
Por isso, que a probabilidade varia de 0 a 1. Algumas operações matemáticas
com probabilidade:

» A probabilidade da ocorrência do evento A ou B (ou de ambos)

P ( A ∪ B=
) P ( A) + P ( B ) − P ( A ∪ B )
» Eventos mutuamente excludentes (acontece somente um ou outro)

P ( A ∪ B=
) P ( A) + P ( B ) , sendo que A ∩=
B ∅

» Probabilidade complementar

P ( AC ) = 1 − P ( A )

Quando a ocorrência de um evento não afeta a ocorrência de outro evento,


temos o que chamamos de “independência estatística”. Nesse caso precisamos
multiplicar as probabilidades. Veja a fórmula:
P ( A ∩ B) =
P ( A ) .P ( B )

Quando os eventos não são independentes, isto é, a ocorrência de um afeta a


ocorrência de outro, chamamos de probabilidade condicional:
 A  P ( A ∩ B)
P  =
B P ( B)

28
Análise exploratória | Unidade i

Quando dois eventos distintos podem acontecer simultaneamente:


B A
P (= ) .P   P ( B ) .P  
A ∩ B ) P ( A=
 A B

Teorema de Bayes

No século XVIII, o reverendo Bayes descreveu o conceito de probabilidade


condicional. A interpretação contemporânea do resultado de um estudo deve se
embasar neste pensamento bayesiano. Significa que antes de avaliar a veracidade
do estudo, temos que avaliar a probabilidade pré-estudo (pré-teste) da hipótese
ser verdadeira, pois essa influencia o valor preditivo positivo (CORREIA, 2017).

No pensamento bayesiano (probabilidade condicional), um estudo é um teste que


serve para moldar uma probabilidade antes existente (pré-teste). Se positivo, o
estudo aumenta a probabilidade pré-teste, resultando na probabilidade pós-teste
maior do que a pré-teste. Mas se essa probabilidade pré-teste for originalmente
muito baixa, mesmo que o estudo positivo aumente a probabilidade, essa poderá
terminar ainda baixa (aumentar uma coisa muito pequena pode resultar em uma
coisa “menos pequena”, porém ainda pequena). Daí a importância da probabilidade
pré-teste na interpretação do estudo. A probabilidade pré-teste de uma hipótese
estar correta depende de sua plausibilidade e das evidências intermediárias que
respaldam a ideia como mais ou menos promissora (CORREIA, 2017).

Ficou confuso? Vamos refletir a respeito e trabalhar com um exemplo.


Matematicamente, a probabilidade condicional consiste no cálculo da
probabilidade de um evento A, dado que o evento B ocorreu. Em notação
matemática é escrito assim: P ( A B ) .

Por exemplo, qual a probabilidade de um casal ter duas filhas meninas, sendo
que a primogênita é uma menina? A fórmula seria essa:
P ( A B ) x P ( A)
P ( A B) =
P ( B)

» P(A): probabilidade que os dois filhos sejam meninas: 1/4.

» P(B): probabilidade de que um filho seja menina: 3/4.

» P(B|A): probabilidade de que os dois sejam meninas, visto que uma é


menina: 1.

29
Unidade i | Análise exploratória

» P(A|B): probabilidade de que os dois sejam meninas: a ser calculado.


1
1x
P( A
= B) = 4 1
3 3
4

MACIEL, E.M.G.S.; TELLES, S.F.P. Ensaio sobre a relação epistemológica


entre probabilidade e método científico. Cad. Saúde Pública, Rio de
Janeiro, v. 16, n. 2, pp. 487-497, 2000. Disponível em: https://www.scielo.
br/j/csp/a/Rwjqv9BYxFwmVLPf6sGRFVS/?lang=pt.

Links interessantes:

» Probabilidade e Estatística – Os Fundamentos Para Cientistas de


Dados – Parte 1. Ciência e Dados, 2020. Disponível em: https://www.
cienciaedados.com/probabilidade-e-estatistica-os-fundamentos-para-
cientistas-de-dados-parte-1/.

» Teorema de Bayes – YouTube Disponível em: https://www.youtube.com/


watch?v=9OOZf4klOeM.

» Entenda o Teorema de Bayes (ótima explicação!). Didática Tech, 2019.


Disponível em: https://www.youtube.com/watch?v=I643PqSrETM.

» NASCIMENTO, I. Uma visão amigável do Teorema de Bayes. LAMFO,


2017. Disponível em: https://lamfo-unb.github.io/2017/08/04/Uma-visao-
amigavel-do-Teorema-de-Bayes/

» Teorema de Bayes - Wiki R (ufrgs.br). Disponível em: https://www.ufrgs.br/


wiki-r/index.php?title=Teorema_de_Bayes

» BASTOS, R.; Hippert H. Estatística Aplicada à Medicina. Disponível em:


https://www.ufjf.br/linge/files/2020/03/T%c3%b3pico_3_Prob1.pdf.

Quadro 2. Resumo de probabilidade e regras de probabilidade.

Tipo de probabilidade e
Em palavras Em símbolos matemáticos
regras
O número de resultados no espaço amostral é n resultados Evento E
Probabilidade clássica conhecido e cada resultado é igualmente provável P(E) =
de acontecer. n resultados amostra

A frequência de resultados no espaço amostral é frequencia evento E ∫


Probabilidade empírica = P(E) =
estimada a partir de experimentação. Frequencia total n
Amplitude das regras de A probabilidade de o evento acontecer é 1 e não 0 P ( E )  1
probabilidade acontecer é 0.
O complemento do evento E é o conjunto de todos
Eventos complementares os resultados de um espaço amostral não incluído P ( E′) = 1 − P ( E )
em E, chamado de E’.

30
Análise exploratória | Unidade i

Tipo de probabilidade e
Em palavras Em símbolos matemáticos
regras
P ( Ae B ) = P ( A ) .P ( A B )
É utilizada para encontrar a probabilidade de dois
Regra de multiplicação P ( Ae B ) = P ( A ) .P ( B ) *
eventos ocorrerem.
*eventos indepedentes

P ( Aou B ) = P ( A ) + P ( B ) − P ( AeB )
É utilizada quando pelo menos um dos dois
Regra da adição P ( Ae
= B ) P ( A) + P ( B ) *
eventos deve acontecer.
*eventos mutuamente exclusivos
Fonte: adaptado de Larson, 2010.

31
CAPÍTULO 3
Distribuição de probabilidades

Aspectos gerais
Distribuição de probabilidade é o conjunto de todas as probabilidades dentro do
seu grupo. Por exemplo: distribuição de probabilidade da soma de dois lados de
um dado de 6 faces jogado de forma aleatória (DIEZ et al. 2019).

Tabela 3. Distribuição de probabilidade da soma de duas faces de um dado de 6 lados, quando jogado aleatoriamente.

Soma de dois lados de um dado 2 3 4 5 6 7 8 9 10 11 12

1 2 3 4 5 6 5 4 3 2 1
Probabilidade
36 36 36 36 36 36 36 36 36 36 36
Fonte: adaptada de Diez et al., 2019.

Quando realizamos um gráfico dessa distribuição de probabilidade, observe o


padrão que se forma:

Figura 16. Gráfico com a distribuição de probabilidade.

Probabilidade da soma de dois lados de um dado jogado


aleatoriamente
0,18

0,16

0,14

0,12

0,1

0,08

0,06

0,04

0,02

0
1 2 3 4 5 6 7 8 9 10 11

Fonte: adaptada de Diez et al., 2019.

Existem diversas curvas ou distribuições de probabilidade: distribuição normal,


distribuição T-Student etc.

Considerando que existem diversos tipos de distribuição de probabilidades, e


essas se adequam a diversos modelos, o que mais iremos explorar aqui é a curva
normal. Mas para melhorar essa compreensão, vamos revisar uns tópicos sobre
amostragem?

32
Análise exploratória | Unidade i

Aspectos gerais sobre amostragem

O conceito de amostra, em estudos quantitativos, é um conjunto de dados


coletados de uma maneira pré-definida.

Em estudos envolvendo populações (humanas, animais etc.), os conceitos de


amostragem são aplicados a um conjunto real e finito de elementos, denominado
população do estudo. As características ou atributos de cada ser são chamados de
parâmetros ou valores populacionais (SILVA, 2015).

Para se delinear uma estratégia de amostragem, antes de mais nada, o


delineamento experimental tem que estar pronto. Experimento é uma pesquisa
em que o pesquisador controla (observa/descreve/analisa) as variáveis
independentes (causa-fator-tratamento-exposição) e observa seus efeitos em
variáveis dependentes (efeito-resposta-doença-desfecho). A validade dos efeitos
detectados (validade interna) é assegurada por alocação aleatória das variáveis
independentes, e assim, cria-se um ambiente que permite uma comparação.
Porém, nem sempre isso é possível, ainda mais em estudos com seres humanos
e animais, por questões de ética e práticas (SILVA, 2015).

Em estudos em ciências médicas, existem delineamentos que tentam manter esse


princípio da amostragem. São marcados por critérios de direcionalidade sobre os
quais são construídos os grupos de comparação (SILVA, 2015).

MERCHÁN-HAMANN, E.; TAUIL, P.L. Proposta de classificação dos


diferentes tipos de estudos epidemiológicos descritivos. Epidemiol
Serv Saúde, v. 30, 1, 2021. Disponível em: https://doi.org/10.1590/s1679-
49742021000100026.

A unidade de uma amostra é a menor parte distinta da população, por exemplo:


cidadão x população da cidade X. Universo amostral: Cidade X. O ideal numa
amostra é que todas as unidades amostrais tenham as mesmas chances de
serem sorteadas para compor a amostra. Contudo, nem sempre isso é possível.
Podemos limitar a população de uma cidade, por exemplo: garotas de 12-16
anos para testagem de HPV (papilomavirus humano). Existem outras técnicas,
por exemplo: amostras por conglomerados – utilizamos setores censitários. Os
meios estatísticos matemáticos utilizados para calcular amostras são baseados na
distribuição da curva normal.

33
Unidade i | Análise exploratória

Em estudos experimentais de bancada, a tríade experimental consta de: replicação,


aleatorização e controle. Replicação seria ter vários blocos ou grupamentos nos
tratamentos, por exemplo: teste de antifúngicos em grupos de alimentos, sendo
um grupo soja, outro carne enlatada, outro arroz. Na aleatorização, toda unidade
tem que ter a mesma chance de ter um tratamento atribuído. O grupo controle
é o grupo que “receberia o placebo”, ou em caso de testes de antibióticos, por
exemplo. O grupo controle é o que recebe o mesmo tratamento dos outros,
porém, não recebe o antibiótico. Teste de inibição de crescimento bacteriano,
o grupo controle não recebe antibiótico para demonstrar que sem a presença do
antibiótico, haveria crescimento bacteriano. Para estudos de bancada, o tamanho
amostral é definido pelo tipo de estudo em si.

Distribuição normal
A distribuição normal é a mais comum na estatística: simétrica, unimodal, curva
em sino. Diversas características na natureza, quando mensuradas, adotam
distribuição semelhante a essa. Mas não idêntica, porque a distribuição normal
padrão tem média igual a ZERO e desvio-padrão igual a 1. Porque essa é a
distribuição da probabilidade de um evento ocorrer ou não ocorrer.

A distribuição pode ser matematicamente descrita: N (µ, δ) ou seja N (média e


desvio-padrão). Já o Z escore é o número de desvios-padrões na amostra, que
x −µ
ficam acima ou abaixo da média. É calculado Z = em que X consiste no
δ
número de observações que foram realizadas.

Então, quando estimamos uma amostra, estamos prevendo um número de


observações necessárias em uma população para ela “estar representada” em um
menor número de pessoas.

Figura 17. Curva normal e a distribuição dos escores.

68%

95%

99,7

μ-3δ μ-2δ μ- δ μ μ+ δ μ + 2δ μ + 3δ

Fonte: adaptada de Diez et al., 2019.

34
Análise exploratória | Unidade i

Esse Z escore, quando calculado em relação ao tamanho da área, apresenta a


probabilidade de um evento ocorrer.

As distribuições normais típicas envolvem médias diferentes de 0 e desvios-padrão


diferentes de 1. Nesses casos, devemos ser capazes de encontrar probabilidades
correspondentes a valores da variável x e, dado algum valor de probabilidade,
devemos ser capazes de encontrar o valor correspondente da variável x
(TADANO, 2014).

Figura 18. Curva normal x probabilidade. A área pintada de azul indica a probabilidade de um evento ocorrer.

Area da curva =
probabilidade de Area da curva =
ocorrência do probabilidade de
evento não ocorrência do
evento

Fonte: adaptada de Diez et al., 2019.

Para ajudar nesses cálculos da área sob o sino da distribuição normal, temos não
somente as indicações da figura acima, temos também uma tabela de Z-escore
que pode ser visualizada em: ESTATÍSTICA: Teste Z (ou Escore Padronizado)
(cpaqv.org) http://www.cpaqv.org/estatistica/teste_z.pdf.

Como a média é uma estimativa, podemos calcular o quanto esperamos estar


“corretos”, pela curva de probabilidade da distribuição normal. Se a amplitude
do intervalo de confiança for muito grande, sua amostra não será de confiança.
Trocadilhos à parte, podemos estimar por probabilidade a “estabilidade” das
estimativas que realizamos. Se tivéssemos recursos ilimitados para sortear
continuamente as unidades amostrais, isto é, o quanto elas serão semelhantes
em novos sorteios e observações. Ou seja, quanto maior a variância da amostra,
maior a incerteza da estimativa. Para isso, podemos obter a variância das
médias por via matemática e o desvio padrão das médias igual a S = δ . Frente X
n
a essa fórmula, podemos afirmar que o erro amostral depende da variância da
amostra (δ) e do esforço amostral (ou tamanho de amostra n).

Com base no cálculo do erro amostral e os Z valores, podemos estimar esse


intervalo de confiança: − z.S x ≤ X ≤ z.S x . Quando queremos calcular 95% da área
da curva normal padronizada, ou um intervalo de confiança de 95%, o valor
35
Unidade i | Análise exploratória

de Z é igual a 1,96 (ou α de 0,05). Em outras situações: 90% de confiança, α de


0,1 e Z valor é igual a 1,64. Com intervalo de confiança de 99%, α de 0,01 e z
valor igual 2,25.

Em ciências médicas/biológicas convencionou-se usar intervalos de confiança de


95%.

Fazendo um cálculo de tamanho amostral

» Determinação do tamanho de uma amostra. Disponível em: http://www.


cienciasecognicao.org/portal/wp-content/uploads/2011/09/Tamanho-da-
Amostra-1-1.pdf.

» Slide 1. Disponível em: https://moodle.ufsc.br/pluginfile.php/825590/


mod_resource/content/1/tamanho%20da%20amostra%20e%20
amostragem%20-%20aula%20mestrado%202013-1.pdf

Exemplos mais práticos.

A observação de peso de 1.500 pessoas selecionadas ao acaso plotadas (colocada


em um gráfico) em gráfico de barras (IME, 2019).

Figura 19. Histograma do peso medido de 1.500 pessoas.

30 40 50 60 70 80 90 100
30 40 50 60 70 80 90 100

Fonte: adaptada de IME, 2019.

Em uma análise visual, podemos observar que a distribuição é aproximadamente


simétrica, em torno dos 70 kg e a maioria dos valores aparenta estar dentro do
intervalo (55-85 kg). Se escolhermos uma pessoa aleatória dessa amostra, qual
valor você apostaria ser o peso dela? Em torno de 70 kg?

ME SALVA! DPB05 - Distribuição Normal (Aula I) - Probabilidade e


Estatística. YouTube, 2015. Disponível em: https://www.youtube.com/
watch?v=MoGes4OzsIk.

36
Análise exploratória | Unidade i

Existem outras distribuições de probabilidade, além da distribuição normal, que


são utilizadas em estatística também.

Quadro 3. Distribuições utilizadas em estatística.

Distribuição Resumo Fórmulas


Um experimento binomial é um experimento de probabilidade que
preenche os seguintes critérios:
» O experimento é repetido por um número fixo de tentativas (n), onde
cada tentativa é independente das outras.
» Há apenas dois resultados possíveis para cada tentativa, que são: (S) n!
Distribuição P ( x) = . p x .q n − x
binomial sucesso ou (F) fracasso. ( n − x )! x !
» A probabilidade de sucesso P(S) é a mesma em cada tentativa.
» A variável aleatória x contabiliza o número de tentativas com sucesso
do total de tentativas (n).

Os parametros são n (quantidade de tentativas) e p (o sucesso) e q = 1 - p.


Obedece as seguintes condições:
» Uma tentativa é produzida e reproduzida até que o sucesso ocorra.
Distribuição » As tentativas são independentes entre si.
P ( x) = p (q)
n− x

geométrica
» A probabilidade de sucesso p é constante.
» A variável aleatória X representa o número de tentativas até o
sucesso.
Tem como critérios:
» O experimento consiste em calcular o número de vezes X que um
evento ocorre em um dado intervalo, que pode ser tempo, espaço,
área ou volume. µ X e− p
Distribuição
P ( x) =
de Poisson » A probabilidade de um evento ocorrer é a mesma para cada intervalo. x!
» O número de ocorrência de um intervalo é independente dos outros.
» O parametro de análise é o µ - o número médio das ocorrências em
cada intervalo.
Fonte: adaptada de Larson, 2010.

Teorema do limite central

O teorema do limite central é uma peça chave para a maior parte da estatística
inferencial. Ele descreve a relação entre a distribuição das médias amostrais e a
média da população fonte da amostra. Pressupostos citados por Larson (2010):

» Se amostras de tamanho n, onde n ≥ 30 são retiradas de uma população


com média µ e desvio padrão σ, então a distribuição amostral das
médias das amostras se aproxima da distribuição normal. Quanto maior
o tamanho da amostra, maior a aproximação.

37
Unidade i | Análise exploratória

» Se a população é normalmente distribuída, a distribuição amostral das


médias amostrais é normalmente distribuída para qualquer tamanho
de n.

Esse teorema descreve a distribuição da média de uma amostra aleatória de uma


população com variância finita. Quando o tamanho amostral é suficientemente
grande, a distribuição da média é uma distribuição aproximadamente normal.
O teorema aplica-se independentemente da forma da distribuição da população.
Muitos procedimentos estatísticos comuns requerem que os dados sejam
aproximadamente normais. O teorema central do limite permite a aplicação desses
procedimentos úteis a populações que são fortemente não normais (MINITAB,
2019).

Matemáticamente falando:

Para variáveis aleatórias Xn, independentes e com a mesma distribuição de


média µ e variância σ 2 , a distribuição da soma X= X 1 + X 2 +…+ X n se aproxima
à medida que N cresce da distribuição Y ~ N ( µ x ,σ x2 ) em que
= µ x n=
µ e σ x2 nσ 2

Leia sobre como estudar o teorema do limite central no artigo intitulado:

» RODRIGUES, C. K. Um breve estudo sobre a abordagem do teorema


central do limite nos livros-texto. XIII CIAEM-IACME, Recife, Brasil, 2011.
Disponível em: https://xiii.ciaem-redumate.org/index.php/xiii_ciaem/xiii_
ciaem/paper/viewFile/1586/568.

» Material do EaD da USP: TeoremaLimiteCentral.pdf. Disponível em:


https://edisciplinas.usp.br/pluginfile.php/5857292/mod_resource/
content/1/TeoremaLimiteCentral.pdf.

» Ensaios: da amostra ao teorema do limite central Um pouco dos


fundamentos e uma aplicação prática. Disponível em: https://www.
embrapa.br/busca-de-publicacoes/-/publicacao/1109183/ensaios-da-
amostra-ao-teorema-do-limite-central-um-pouco-dos-fundamentos-
e-uma-aplicacao-pratica

Video aulas sobre a Teoria do Limite Central:

» Intervalo de Confiança - Conceitos | Nível de Confiança | Inferência


Estatística. Disponível: https://www.youtube.com/watch?v=sWle26_vNbI

» TLC: Demonstração. Disponível em: https://www.youtube.com/


watch?v=0HChJT7t9l8.

38
Análise exploratória | Unidade i

Aproximação da distribuição binominal para curva


normal

A distribuição binominal se aproxima de uma curva normal quando np ≥ 5 e


nq ≥ 5, com média µ = np e desvio-padrão δ = npq (lembre-se, n é o número
de tentativas, p a probabilidade do evento e q = 1 – p). Veja a figura a seguir,
quanto maior o n e todas essas características são atendidas, mais a distribuição
binominal se aproxima de uma curva normal.

Figura 20. Distribuição binominal x distribuição normal.

Fonte: adaptada de Larson, 2010.

Essa aproximação pela normal é baseada no Teorema Limite Central. Em geral,


quanto mais simétrica for a frequência da probabilidade da binomial, melhor
será a aproximacão.

» LEB. Distribuições (binomial, Poisson, Normal). [On-line] Disponível


em: https://leb.fmvz.usp.br/ensino/vps-0126-metodos-quantitativos-
em-saude-animal/exercicios/distribuicoes-binomial-poisson-normal.
Acesso em: 6/5/2021.

» Aula de Distribuição em Estatística UFSC [On-line]. Disponível em:


https://www.inf.ufsc.br/~andre.zibetti/probabilidade/aproximacao-
binomial-poisson-pela-normal.html#:~:text=de%20forma%20

39
Unidade i | Análise exploratória

acurada.-,Aproxima%C3%A7%C3%A3o%20da%20Distribui%C3%A7%
C3%A3o%20Binomial%20pela%20Distribui%C3%A7%C3%A3o%20
Normal,e%20vari%C3%A2ncia%20V(X). Acesso em: 6/5/2021.

» Aproximação Binomial pela Normal. Disponível em: https://www.ime.


usp.br/~rfaria/cursos/verao-2019/Aulas/Aula%2010/Aproximacao_da_
Binomial_pela_Normal.pdf.

» Semana 8 – Distribuição de Probabilidades. Segredos da estatística.


[On-line]. Disponível em: https://segredosdaestatistica.wordpress.
com/semanas/semana-8-distribuicao-de-probabilidades/#:~:text=A%20
distribui%C3%A7%C3%A3o%20de%20probabilidades%20associa,
valor%20de%20uma%20vari%C3%A1vel%20aleat%C3%B3ria.

» ESTATÍSTICA. Aproximação da binomial pela normal – Exercício


resolvido. You Tube. 2018. Disponível em: https://www.youtube.com/
watch?v=1HBFUavjI1M.

40
ESTATÍSTICA
ANALÍTICA UNIDADE II

CAPÍTULO 1
Conceitos gerais em estatística
analítica

Depois de visitarmos conceitos sobre estatística descritiva (medidas de tendência


central, medidas de dispersão, gráficos e tabelas), iremos trabalhar agora com a
estatística analítica. Lembrando que esse material é um guia para os seus estudos,
o ponto de partida para que todos esses conhecimentos sejam corretamente
sedimentados.

A estatística analítica é definida como o conjunto de técnicas, baseadas na


teoria das probabilidades, que permitem construir proposições de carácter
probabilístico acerca da população, partindo da observação de alguns dos seus
elementos (amostra) (VAIRINHOS, 1996). Ou seja, ela pode permitir a investigação
de características que estão sendo estudadas, e responde se pode ser realizada
uma inferência dessa análise para população alvo.

Dentro de análises estatísticas, o conceito de amostra é fundamental. A depender


de como sua amostra foi planejada, as possibilidades de conclusões a respeito
do seu experimento podem ser distintas. Veja a representação esquemática a
seguir sobre a importância da amostra em todo delineamento experimental de
um estudo.

41
Unidade ii | Estatística analítica

Figura 21. Principais atividades dos levantamentos por amostragem.

Construções
conceituais
Planejamento e amostra Operações

Coleta
Formulação
do problema

Quadro
teórico
conceitual

Hipótese Plano de Processamento


Metodologia: amostragem
Delineamento
Questionários : Crítica
Entrevistas Tamanho
Plano de
Testes Tipo
observação
Sorteio
Definições (o Plano inicial Estimadores
que vai ser de análise Piloto
estudado)
Orçamento
População Pessoal
alvo Infraestrutura Análise
Cronograma
Objetivos Interpretação

Variáveis

Elaboração de relatórios e publicação de resultados

Fonte: adaptada de Silva, 2015.

Então, como você pode ver, o planejamento da amostra é um ponto crucial para
que toda uma pesquisa envolvendo levantamento populacional seja realizada.

Amostras obtidas de populações, sejam populações humanas ou de animais,


devem ser representativas. O cálculo é baseado no tamanho da população e na
frequência da característica que você espera detectar. O site OpenEpi Menu tem
uma calculadora de tamanho de amostra que você pode explorar.

Para estudos que não envolvem seres vivos, você irá realizar repetições ou
comparações de tratamento, como um experimento para avaliar uma reação
frente a um aditivo, ou quanto de massa seca tem em um determinado alimento
por diferentes métodos de secagem, o delineamento amostral depende do que
você irá estudar. De uma maneira geral, para análises de experimentos de
bancada (por exemplo: o processo de secagem da mandioca para alimentação de
animais de produção):

42
Estatística analítica | Unidade ii

» Amostras grandes n > 100.

» Amostras médias n > 30.

» Amostras pequenas n < 30.

» Amostras muito pequenas n < 12.

Aqui apresento umas indicações de esquemas de aulas que podem te


ajudar a compreender as questões referentes à amostragem.

» Tamanho de amostra e amostragem Moodle UFSC. Disponível em:


https://moodle.ufsc.br/pluginfile.php/825590/mod_resource/content/1/
tamanho%20da%20amostra%20e%20amostragem%20-%20aula%20
mestrado%202013-1.pdf.

» Delineamento e planejamento – Curso de Ecologia. Disponível em: http://


labtrop.ib.usp.br/lib/exe/fetch.php?media=cursos:planeco:material:Au
la01_PlanejamentoDelineamento2021.pdf.

» MORADIN, V. S. et al. Delineamento experimental e tamanho de amostra


para alface cultivada em hidroponia. Ciência Rural, Santa Maria, v. 30, n. 5,
pp. 779-781, 2000. Disponível em: https://www.scielo.br/j/cr/a/sJpG9GvZD
mrpDNJ7g4BxPxF/?lang=pt&format=pdf. Acesso em: 7/1/2021.

» Princípios de Bioestatística Cálculo de Tamanho de Amostra (ufmg.br)


http://www.est.ufmg.br/~enricoc/pdf/medicina/aula24-25_tam-amostra.
pdf

Sites de comissão de ética em pesquisa com animais (CEUA) com


recomendações para o cálculo e uso consciente de animais em pesquisas:

» Comissão de Ética no Uso Animal (CEUA). Disponível em: http://ceua.unb.


br/.

» PRPI – CEUA. Disponível em: https://ceua.prpi.ufg.br/.

» ICB | Pesquisa. Disponível em: https://ww3.icb.usp.br/.

A estatística analítica busca descrever as relações entre as variáveis e como uma


pode influenciar sobre a outra, ou matematicamente falando y = f (x). A relação
a ser estabelecida depende da natureza das variáveis da análise (ver tópicos de
definição de variáveis discretas, contínuas, nominais (figura 6 da unidade I).

Quando, previamente temos uma hipótese, as relações entre as variáveis podem


ser estudadas por meio de covariância, correlação e regressão. Dentro de cada um
desses caminhos estatísticos, pressupostos devem ser respeitados.

43
Unidade ii | Estatística analítica

A figura a seguir, apresenta um diagrama, indicando os “braços” da estatística


analítica e como eles podem ser relacionados:

Figura 22. Análises de estatística analítica.

Estatística analítica
Partimos da
hipótese para a
análise de dados

Linear
Covariância Regressão Múltipla
Não Linear

Correlação

Método
Representação
gráfica
Relações
Variáveis
Mínimos
quadrados

Linear
Diagrama de População Amostra
dispersão

Regressão
Não conhecemos bem para séries
as relações e não temos temporais
hipótese formal

Data mining e Outras análises, exemplos: análises de


Learning Machine componentes principais, regressão log-
linear, regressão não paramétrica

Fonte: adaptada de Laurearte, 2021.

A estatística é uma ciência que apoia outras ciências e nem sempre é fácil
de ser compreendida. Nem sempre o papel do estatístico é bem-visto nos
grupos de pesquisa. Sobre esse tópico, David Sackett, pesquisador da área
médica, propôs um conceito “simplificado” para explicar estatística para
médicos. Que a confiança de um estudo (isto é, o quanto seu intervalo de
confiança é curto) é igual ao sinal (diferença entre tratamentos), dividido
pelo ruído (soma de todos os fatores que podem afetar o experimento) e
isso vezes a raiz do tamanho da amostra (PEREIRA; NASCIMENTO, 2015).

44
Estatística analítica | Unidade ii

Essa explicação da estatística, aparentemente simples, ajuda muito


para que profissionais (não estatísticos) possam compreender melhor
os experimentos científicos da sua área de ação. Veja mais sobre esse
pesquisador em:

» SACKETT, D. I. et al. Evidence-Based Medicine. How to Practice and Teach


EBM. Evidence-Based Medicine, 2005. Disponível em: https://www.
researchgate.net/publication/246115972_Evidence-Based_Medicine_
How_to_Practice_and_Teach_EBM_Evidence-Based_Medicine.

» CASTIEL, L. P. POVOA, E. C. Dr. Sackett & “Mr. Sacketeer”... Encanto e


desencanto no reino da expertise na medicina baseada em evidências.
Cad. Saúde Pública, Rio de Janeiro, v. 17, n. 1, pp. 205-214. Disponível em:
https://www.scielo.br/j/csp/a/sPxfRTfDwpNtv5QDsKBZN6k/?format=pdf
&lang=pt.

Aspectos gerais sobre intervalos de confiança e


testes de hipóteses
Estatística analítica é uma ferramenta que auxilia na tomada de decisões. Quando
obtemos uma amostra, podemos calcular um intervalo de confiança para poder
estimar onde estaria esse parâmetro na população. Portanto, o problema da
Inferência Estatística é fazer uma afirmação sobre parâmetros da população por
meio da amostra. A validade de nossa afirmação será mais bem compreendida se
soubermos o que acontece com a estatística T, quando retiramos todas as amostras
de uma população conhecida, segundo o plano amostral adotado. Isto é, qual a
distribuição de T quando (X1, X2, ..., Xn) assume todos os valores possíveis
(FACCENDA; STEFANELO, 2014).

Quando retiramos várias amostras de uma população, elas não são exatamente
iguais, existe variações entre amostras, contudo, se o N amostral for o suficiente,
a distribuição amostral terá características semelhantes à distribuição dessa
característica na população de origem, de acordo com o teorema do limite central.

Conceitos do teorema central: a média amostral, extraída de uma população


normalmente distribuída X ~ N(µ ; σ 2), é uma variável aleatória com distribuição
normal, com média µ e variância σ2 /n à medida que o tamanho da amostra
tende ao infinito. Quando estimamos esse valor da média amostral, podemos
apresentá-lo como pontual ou dentro de um intervalo. A esse intervalo,
convencionou-se chamar de intervalo de confiança e, geralmente, é trabalhado

45
Unidade ii | Estatística analítica

com 95% ou 99% de confiança. E o que isso significa? Que estamos 95% confiantes
de que a média populacional está contida nesse intervalo calculado a partir da
média amostral. Portanto, quanto mais “enxuto” for esse intervalo numérico,
mais precisa será a análise.

Intervalos de confiança

Quando calculamos um intervalo de confiança, queremos estimar em qual intervalo


numérico deve estar o parâmetro da população fonte da amostra. Para isso,
precisamos de alguns parâmetros (características da população) para as estatísticas
(características da amostra). Para relembrar as definições matemáticas para as
fórmulas:

Parâmetros:

» Π: proporção de algum atribuído, dentre os elementos da população.

» µ: média de alguma variável quantitativa nos os elementos da população.

» δ: desvio padrão de uma variável dentre os elementos da população.

Estatísticas

» P: proporção de elementos com o atributo, dentre os observados na


amostra.

» X : média da variável, a ser calculada com elementos da amostra.

» S: desvio padrão da variável, a ser calculado com elementos da amostra.

Fórmula geral para o cálculo de intervalo de confiança para uma média:


X ± Zα /2 *EP

Essa fórmula nos indica que a média (valor pontual estimado na amostra) mais/ou
menos o percentil crítico Z, que na curva normal padronizada (quando
adequado), nos dará o nível de confiança que pretendemos alcançar nesse cálculo.
Quando pretendemos ter um intervalo de confiança de 95%, o Zα /2 assume valor
de 1,96. Esse alfa é divido por dois porque é bicaudal o cálculo (para “trás” da
média e para “frente” da média).

46
Estatística analítica | Unidade ii

Figura 23. Representação do intervalo de confiança de 95% na curva normal padronizada.

Fonte: adaptada de Duarte, 2014.

Por último, EP significa erro padrão: desvio padrão das médias amostrais. Lembra
que existe variabilidade entre as amostras? O erro padrão é representado pela
fórmula EP = δ / n .

Por exemplo, construir um intervalo de confiança de 95% de probabilidade


para o valor do parâmetro µX, conhecendo-se o valor de X. Suponhamos que
não conhecemos parâmetro populacional e que a média amostral é igual a 40,
variância igual a 20 e tamanho amostral igual a 40:
X ± Zα /2 *EP =
0,95
 x− µ 
P  −1,96 < < 1,96  =0,95
 σx 
P( x − 1,96 × σ x < µ < X + 1,96 × σ x ) =
0,95
 20 20 
P  40 − 1,96 × < µ < 40 + 1,96 × =0,95
 40 40 
P ( 33,801 < µ < 46,198 ) =
0,95

Portanto, o intervalo de confiança para a média amostral de 40 é IC 95% (33,


80-46, 19). Isso indica, com 95% de confiança, que o parâmetro populacional
da amostra que você está trabalhando deve estar dentro desse intervalo de
confiança.

O erro padrão costuma ser estimado por estudos anteriores, levantamentos,


censos. Contudo, quando não se tem acesso a esse valor? Podemos utilizar a
distribuição T de Student. Essa distribuição permite usar o desvio padrão da
amostra como estimador do desvio padrão populacional por ser uma distribuição
de probabilidades que incorpora uma maior “incerteza”.

47
Unidade ii | Estatística analítica

A distribuição T de Student muda em função do tamanho da amostra (graus de


liberdade), ou seja, muda de acordo com o tamanho de N. Veja a figura a seguir.
Quando o tamanho da amostra é igual ou maior a 30 (n=30), a distribuição T de
Student se assemelha à distribuição normal. Quando o N é pequeno, maior é a
incerteza “agregada” na distribuição T de Student.

Figura 24. Distribuição T de Student com diferentes graus de liberdade: a linha vermelha representa a curva com o menor N
e a linha preta a curva com o maior N.

Fonte: Wikipedia, 2021.

A fórmula do cálculo do intervalo de confiança com a distribuição T de Student


S 
é x ± t gl= n−1  . O valor do T deve ser verificado na tabela de distribuição de
 n
acordo com o tamanho amostral (n-1).

Assista às vídeos-aula do Prof. Guru no Youtube:

» PROFESSOR GURU. #01 - Intervalo de Confiança - Conceitos | Nível de


Confiança | Inferência Estatística. Disponível em: https://www.youtube.
com/watch?v=sWle26_vNbI.

» PROFESSOR GURU. #02 - Intervalo de Confiança para a Média com


Variância Conhecida. Disponível em: https://www.youtube.com/
watch?v=TnIaORtYgzE.

» PROFESSOR GURU. #03 - Exemplo 1 - Intervalo de Confiança para a


Média com Variância Conhecida. Disponível em: https://www.youtube.
com/watch?v=SReIn8aCCNo.

» PROFESSOR GURU. #04 - Exemplo 2 - Intervalo de Confiança para a


Média com Variância Conhecida. Disponível em: https://www.youtube.
com/watch?v=381-OeGFD84.

48
Estatística analítica | Unidade ii

» PROFESSOR GURU. #07 - Intervalo de Confiança para a Média com


a Variância Desconhecida. Disponível em: https://www.youtube.com/
watch?v=2QvoklsWXuU.

» PROFESSOR GURU. #08 - Distribuição t-Student - Conceitos e Tabela.


Disponível em: https://www.youtube.com/watch?v=y_-UOcQMpms.

O intervalo de confiança também pode ser calculado para diferenças entre


médias de duas amostras obtidas da mesma população. Para isso, assumimos que
a diferença entre as médias será ZERO, porque as médias deveriam ser iguais
(lembram das distribuições de probabilidade?).

» Como seria isso? Você tem dois grupos amostrais (A e B) da mesma


população que foram submetidos a diferentes dietas. Você quer
comparar a perda de peso entre os grupos. Diferença de média entre
amostras com desvio padrão conhecido:
DPA2 DPB2
› (X A − X B ) ± tgl *EP ( da diferença ) → ( X A − X B ) ± Z α
nA
+
nB
2

› Quando não sabemos o desvio padrão de cada amostra, pela


distribuição T de Student a variância entre as amostras é igual,
porque a população fonte é a mesma. Aí podemos calcular uma
variância combinada entre as amostras (pooled).

 1 1  ( nA − 1) S A2 + ( nB − 1) S B2
› EPdiferença = S(2p ) +  + 2
 → S pooled =
 nA nB  nA + nB − 2

Outra situação que também podemos usar o cálculo do intervalo de confiança é


em proporções (variáveis qualitativas), exemplo: quantas bolas da amostra são
vermelhas?
p (1 − p )
» p
( amostra ) ± Zα /2 *EP → EP =
n

» Esse tipo de variável discreta (qualitativa) descreve o número de


sucessos em N tentativas, resultado binário: sim, não, doente,
saudável.

› Esse tipo de variável se encaixa na distribuição binomial de


probabilidades. E assim, como ocorre com outras distribuições, se
o N for grande o suficiente, a distribuição binomial se aproxima da
distribuição normal.

49
Unidade ii | Estatística analítica

p*n  5 e (1 − p ) n  5

› Para diferença entre proporções:

(
p( A) 1 − p( A) )+ (
p( B ) 1 − p( B ) )
( )
p( A) − p( B ) ± Zα /2
n( A) n( B )

Exemplos de exercícios resolvidos adaptados do Veduca. Disponível em:


https://veduca.sfo2.cdn.digitaloceanspaces.com/uploads/33f08530d6d3d5
9e304c979c9b401373.pdf.

Um empresário quer lançar um produto, realizou uma pesquisa com 500


potenciais consumidores. Desses, somente 157 demonstraram interesse em
comprar o produto. Realize o intervalo de confiança com 92% de uma pessoa
adquirir o produto.

Resolução:

Antes de mais nada, note que esse exemplo pede uma confiança de 92%
(então, o α dele não seria 5% igual ao que estamos acostumados, seria 8%
ou 0,08).

A fórmula de intervalo de confiança para uma proporção:

pˆ (1 − pˆ )
pˆ ± zα /2 *
n

Temos que:

157
𝑝𝑝Ƹ =
500
Esse valor tem que ser consultado na tabela normal.
𝑧𝑧𝛼𝛼/2 = 𝑧𝑧0,08 = 𝑧𝑧0,04 = 1,75 Veja a aula do IME da USP sobre como usar a
2
tabela normal
Distribuição Normal (usp.br)
OU Cálculo das Probabilidades e Estatística I
(ufpb.br)

Substituindo:

0,314 (1 − 0,314 )
0,314 ± 1, 75*
500
0,314 ± 0, 036

A resposta que deve ser dada ao dono da empresa é que a probabilidade


que o produto seja consumido, com intervalo de confiança de 92% é de
27,8% a 35,0%.

50
Estatística analítica | Unidade ii

Teste de hipótese

O teste de hipóteses é um procedimento estatístico usado para avaliar se


os dados são compatíveis com uma hipótese. Isso baseado na análise de uma
amostra, por meio da teoria de probabilidades, usado para avaliar determinados
parâmetros que são desconhecidos numa população (SAMPAIO; LEONI, 2015).
O teste de hipótese é uma ferramenta objetiva para auxiliar o pesquisador a
aceitar ou rejeitar uma hipótese estatística com base em seus resultados. Isto é,
se a probabilidade de que uma diferença maior ou igual à observada tenha sido
ocasionada pelo acaso, se realmente não houver, isto é, se H0 for verdadeira
(ASSIS, 2020).

O teste de hipótese é um meio de podermos pensar em hipóteses das


características da população com base nos valores encontrados na amostra.

Figura 25. Relação da amostra com teste de hipótese.

População

Parametro que você quer pesquisar


Possibilidade de
inferir
Amostra
Teste de hipótese
Resultados reais medidos na
amostra

Fonte: elaborada pela autora.

Nesse sentido, é válido salientar que a hipótese científica e a hipótese estatística


não são exatamente a mesma coisa. A hipótese científica consiste na pergunta da
pesquisa: Qual o melhor tratamento para doença X? No seu experimento, você
terá os tipos de tratamentos, o grupo controle etc. A hipótese estatística consiste
na análise da “igualdade” ou “diferenças” entre valores medidos em cada grupo. A
maioria desses tipos de testes são paramétricos, isso é baseado na teoria do limite
central.

A H 0, ou hipótese nula, consiste em dizer que não existe diferença entre os


grupos analisados, isto é, são iguais. Exemplo: As médias observadas são iguais.
em notação matemática: ( H 0 : µ1 = µ2 ). A hipótese alternativa H1 consiste em
rejeitar H0, isto é, existe diferença entre os grupos. É importante ressaltar que a
H0 é considerada verdadeira ao longo da realização do teste de hipótese, até que
haja clara evidência para rejeitá-la. E a rejeição de H0 implica numa aceitação
de H1 com risco conhecido alfa (α) (ASSIS, 2020).

51
Unidade ii | Estatística analítica

Ao aceitar ou rejeitar uma hipótese nula, podemos “acertar” ou incorrer em um


erro. Veja o quadro a seguir.

Quadro 4. Resultados e erros na tomada de decisão em um teste estatístico.

Tomada de decisão
Situação real
Aceitar H0 Rejeitar H0
Decisão errada. Erro tipo I. Probabilidade = α (nível
Decisão correta. Nível de confiança do teste de significância do teste).
H0 é verdadeira
mensurado pela probabilidade: 1 – α.
Exemplo: A pessoa é condenada, mas está inocente.
Decisão errada. Erro tipo II Probabilidade = β. Decisão correta. Poder do teste, probabilidade = 1 - β.
H0 é falsa
Exemplo: A pessoa é absolvida, mas é culpada.
Fonte: adaptada de Assis, 2020.

A abordagem dos testes de hipóteses para controlar os erros consiste em fixar a


probabilidade associada ao erro tipo I, α, e minimizar a probabilidade associada ao
tipo II (β). Isso porque a possibilidade de rejeitar Ho incorretamente é considerada
grave, pois essa hipótese corresponde ao que deve ser defendida, a menos que
existam evidências convincentes a apontarem em sentido contrário. O que pode
minimizar ambos os tipos de erros é aumentar o tamanho do N (ASSIS, 2020).
Os testes de hipóteses podem ser unicaudais ou bicaudais. Isto é, quando
calcularmos a área sobre a curva da distribuição de probabilidades, pode ser em
uma “cauda” ou nas duas. De acordo com Assis (2020), os testes de hipóteses
podem ser:

Figura 26. Classificações de testes de hipóteses.


1. Unicaudal à direita:
H0: µ1 = µ2 H1: µ1 > µ2

H0
1-α RC (região crítica)

α/2

Valor crítico ou T, Z, x2
tabelado

2. Unicaudal à esquerda:
H0: µ1 = µ2 H1: µ1 < µ2

RC (região crítica)
H0
1-α

α/2

Valor crítico ou T, Z, x2
tabelado

3. Bicaudal
H0: µ1 = µ2 H1: µ1 ≠ µ2

RC (região RC (região crítica)


crítica) H0
1-α

α/2 α/2

Valor crítico ou Valor crítico ou T, Z, x2


tabelado tabelado

Fonte: adaptada de Assis, 2020.

52
Estatística analítica | Unidade ii

Portanto, para calcular um teste de hipótese:

» Escrever a hipótese nula e a alternativa.

» Calcular o valor observado da fórmula teste (Zobs, Tobs etc.).

» Gráfico da distribuição (uni/bicaudal).

» Obtenha o valor crítico do teste (tabela de distribuição correspondente).

» Conclua o teste:

› Se o valor observado estiver contido na região crítica: rejeite H0.

› Se o valor observado não estiver contido na região crítica: aceite H0.

Testes mais comuns utilizados:

» Teste Z para uma amostra:

› Usado com amostras grandes (n ≥ 30 unidades na amostra) e desvio


padrão e média conhecidas na população:
x − µ0
z=
σ
n

» Teste T para uma amostra:

› Usado quando temos amostras pequenas (n < 30) e parâmetros


populacionais desconhecidos:
x − µ0
Tgl −1 =
S
n

» Teste x2:

› Para comparação entre proporções:

2
 ( observado − esperado )2 
x = ∑ 
 esperado 
 

Veja esse exemplo de aplicação do teste x2 em genética, da aula da professora


Alle (2017), da UFPR.

53
Unidade ii | Estatística analítica

» Estudo: comparação no cruzamento linhagens de camundongos para


determinar o gene de orelhas grandes

› Linhagem F1: camundongos com orelhas grandes.

› Linhagem F2: 155 com orelhas grandes e 45 com orelhas pequenas.

» Hipótese científica:

› O tamanho das orelhas nos camundongos tem herança mendeliana e


o alelo P (orelhas grandes) é completamente dominante em relação ao
alelo p (orelhas pequenas).

› A proporção de tamanho de orelhas esperada é de 3 camundongos


de orelhas grandes para 1 camundongo de orelhas pequenas.

» Hipótese estatística:

› H0 a frequência observada não é significativamente diferente da


frequência esperada.

› H1 a frequência observada é significativamente diferente da


frequência esperada.

Análise de dados

Tabela 4. Exemplo de sala de aula da Professora Alle (2017).

Fenótipo de F2 Observado (O) Esperado (E) (O-E) (O-E)2/2


Orelhas grandes 155 (3/4) x200= 150 155 –5 = 5 52/150 = 0,167
Orelhas pequenas 45 (1/4) x200 = 50 45 – 50 = - 5 (-5)2/50 = 0,5
Total 200 200 0 0,667
Fonte: Alle, 2017.

» Valor do x2 calculado foi de 0,667.

» O valor calculado deve ser comparado com o valor tabelado.

» A tabela do x2 também deve ser olhada de acordo com os graus de


liberdade (GL = n - 1).

» No nosso caso 2 fenótipos - 1 = 1 grau de liberdade.

54
Estatística analítica | Unidade ii

» Se usarmos α 5%, na tabela iremos procurar o encontro da coluna 0,05


com a linha de 1 grau de liberdade (veja logo a seguir).

» x2 calc 0,667 < x2 tab 3,841

› Se χ 2 calculado > ou = χ 2 tabelado: Rejeita-se Ho.

› Se χ 2 calculado < χ 2 tabelado: Aceita-se Ho.

Exemplo de tabela de X2 e como usar:

Tabela 5.

GL Nível de significância α
0,5 0,3 0,2 0,1 0,05
1 0,455 1,074 1,642 2,706 3,841
2 1,386 2,408 3,219 4,605 5,991
3 2,366 3,665 4,642 6,251 7,815
4 3,357 4,878 5,989 7,779 9,488
Fonte: Alle, 2017.

Saiba mais sobre exemplos de testes X2 em genética na aula da Professora


Alle, Teste de Hipóteses em Genética, disponível em: http://www.remendel.
ufpr.br/wp-content/uploads/2017/11/Aula-06-Teste-de-Hip%C3%B3teses-em-
Gen%C3%A9tica.pdf.

Como escolher o teste de hipóteses corretamente

Para escolher corretamente o teste de hipóteses, primeiramente você deve


analisar a hipótese científica, formular as hipóteses estatísticas e analisar os seus
dados com as seguintes perguntas:

» Como foi definida a sua amostra?

» Você tem grupos de amostras?

» Qual o tipo de variável que você está trabalhando?

» É independente qualitativa ou quantitativa?

» E as suas variáveis dependentes, são qualitativas ou quantitativas?

55
Unidade ii | Estatística analítica

» Seus dados têm distribuição normal ou aproximadamente normal?

› Essa é importante, para definir se o teste que você irá usar é paramétrico
ou não paramétrico

Os testes de Shapiro-Wilk e o teste de Kolmogorov-Smirnov dizem se os


dados têm distribuição normal, de acordo com o tipo de variável que você
está trabalhando. Qual a relação entre as variáveis? Se variável dependente
nominal/ordinal e variável independente quantitativa. Se essas variáveis
dependentes são categorias distintas ou ligadas e se apresentam distribuição
normal ou não.

A figura a seguir apresenta um esquema geral de testes de hipótese e os


caminhos a serem percorridos em forma de árvore de decisão.

Figura 27. Definição do teste de hipóteses.

Amostra isolada Teste T

2 amostras emparelhadas
Teste T emparelhado

Dados contínuos 2 amostras independentes


normalmente
distribuídos Teste T indepedente

> 2 amostras emparelhadas


ANOVA com repetição

> 2 amostras independentes


One Way ANOVA

Amostras emparelhadas com


n < 25 Teste do Sinal
Base de dados e suas
distribuições
Amostras emparelhadas com
n < 25 Teste Macnamar
Dados nominais
Amostras independetes
n < 25 Teste de Fisher

Amostras independetes
n < 25 Teste de Qui-quadrado
Dados ordinais e dados
contínuos não
Testes não paramétricos como
paramétricos
Wilcoxon, Man-Whitney, Friedman e
Kruskal-Wallis

Fonte: adaptada de Li En e Coughi, 2004.

56
Estatística analítica | Unidade ii

Tenha em mente que nenhum teste de hipótese é 100% correto em suas


conclusões. Os testes de hipótese são baseados em probabilidades.
Lembram dos erros tipo I e tipo II? Esses erros são determinados pelo nível
de significância do teste (valor de α) e pelo poder do teste (β). O erro tipo I
consiste em rejeitar a hipótese nula quando ela é verdadeira. Quando você
define um α de 0,05, significa que você aceita uma chance de 5% de estar
errado. Para minimizar esse erro, você deverá diminuir o valor de α, contudo,
isso diminuirá suas chances de detectar uma diferença verdadeira. O erro
tipo II é quando a hipótese nula é falsa e você não a rejeita. Para minimizar
o erro tipo II, você deve aumentar o tamanho da sua amostra. O poder do
teste é calculado por 1 - β. Isto é, a probabilidade de você de fato rejeitar a
hipótese nula quando ela é falsa (MINITAB, 2019).

Vídeos sobre essa temática:

» ESTATÍSTICA PARA CONCURSO. Teste de Hipóteses - Erros do Tipo I e II


- Entenda Importantes conceitos de #Estatística. Disponível em: https://
www.youtube.com/watch?v=IYryia6xcKw.

Artigos e reflexões sobre os Erros tipo I e tipo II

» CARRASCO, C. G.; LEMES, T. S. Uma avaliação do Erro tipo II no teste


t-student. C.Q.D. - Revista Eletrônica Paulista de Matemática, Bauru,
v. 3, pp. 7-16, 2014. Disponível em: https://www.fc.unesp.br/Home/
Departamentos/Matematica/revistacqd2228/v03a02-uma-avaliacao-do-
erro-tipo-ii.pdf

» Testes de significância, erros e exercício resolvido. Disponível em: http://


www.dpi.ufv.br/~peternelli/inf162.www.16032004/materiais/CAPITULO6.
pdf.

» Material de edisciplina da USP [Modo de Compatibilidade. Disponível


em: https://edisciplinas.usp.br/pluginfile.php/3196129/mod_resource/
content/1/T%C3%B3pico_11.pdf.

» NORMANDO, D. et al. Análise do emprego do cálculo amostral e do erro


do método em pesquisas científicas publicadas na literatura ortodôntica
nacional e internacional. Dental Press J. Orthod., v. 16, n. 6, 2011. Disponível
em: https://www.scielo.br/j/dpjo/a/Z3nFTVsKKkRD8qSQh3dTqkR/?forma
t=pdf&lang=pt.

A escolha do teste estatístico é muito importante. Todas essas questões


estão apontadas no material indicado a seguir. Inclusive, tem uma
apresentação em formato de Power Point que te ajuda na escolha do teste,
com um passo a passo bem explicado, e um artigo científico a respeito de
como usar esse material.

57
Unidade ii | Estatística analítica

Veja as videoaulas selecionadas do YouTube:

» SAUVÉ, J. Escolha de um teste estatístico - 1. YouTube, 2012. Disponível


em: https://www.youtube.com/watch?v=-LgAOsUMrt8.

» Professor Guru. #05 - Exemplo 1 - Teste de Hipótese para a média


populacional com variância conhecida. YouTube, 2017. Disponível em:
https://www.youtube.com/watch?v=dIuicq-hlm4.

» Professor Guru. #06 - Exemplo 2 - Teste de Hipótese para a média


populacional com variância conhecida. YouTube, 2017. Disponível em:
https://www.youtube.com/watch?v=LLO03co_gRI.

» Professor Guru. #07 - Teste de Hipóteses para a média com variância


populacional desconhecida. YouTube, 2017. Disponível em: https://www.
youtube.com/watch?v=IfiGkWIs_7Y.

» Professor Guru. #08 - Teste de Hipóteses para a proporção (1


população). YouTube, 2017. Disponível em: https://www.youtube.com/
watch?v=UjzEnGDAR8g.

P-valor

O p-valor que tanto vemos falar em estatística representa o nível descritivo de


um teste estatístico. É intrinsecamente relacionada ao valor de significância do
teste definido como α. Quando o α é de 5%, o p-valor menor ou igual a 0,05
indica que a hipótese nula deve ser rejeitada, ou seja, existem diferenças entre
os grupos. Dizemos que o p-valor foi significante, estatisticamente falando.
Quando o p-valor é maior do que 0,05, dizemos que não houve diferença entre
os grupos, que não tem significância estatística. Esse p-valor corresponde ao
que buscamos na distribuição de probabilidades, se está na região crítica ou não.

Em termos práticos, o p-valor é caracterizado pelo grau de adesão dos dados


amostrais à hipótese nula. Calculando-se as probabilidades condicionais, supondo
que H0 é verdadeira. Portanto, o p-valor está entre 0 e 1. Se o p-valor estiver
muito na cauda, isso indica que os dados não estão trazendo muitas evidências a
favor de H0, caso contrário, não teremos evidência contra H0 (IM/UFRJ, 2020).

De uma maneira geral, diz-se que um p-valor < 0,001 é uma evidência
fortíssima contra H0, p-valor < 0,05 uma evidência moderada. Lembra-se de
que a hipótese H0 é a hipótese nula? Que os tratamentos são iguais entre os
grupos? Que não houve diferenças? Portanto, se existem evidências contra a

58
Estatística analítica | Unidade ii

hipótese nula, dizemos que houve diferenças entre os tratamentos, que existe
diferença importante, por causa da força da evidência contra H0.

Figura 28. Demonstração de p-valor significante.

Área de não
rejeição de
H0
Área de
rejeição de H0 Área de rejeição de
H0

p-valor p-valor

-ӏZobsӏ - Zα/2 0 Zα/2 Zobs

Fonte: adaptada de Portal Action, 2020.

É necessária muita cautela na hora de se interpretar o resultado de um teste


estatístico. Ser significante estatisticamente pode não ser significante do ponto de
vista clínico ou experimental e vice-versa. Amostras grandes podem evidenciar
alguma diferença estaticamente significante entre grupos, contudo sem
significado clínico. Concluir que uma diferença entre médias não é significante,
não quer dizer que as médias sejam iguais. Significa que não houve evidências
suficientes para provar que essa diferença fosse significativa. Se houve falha
na análise (erro tipo II) pode ter sido por tamanho amostral, por exemplo. O
p-valor é de cada estudo, cada amostra, cada análise. Se um experimento em
uma temática, obtém um p-valor de 0,05 e outro, da mesma temática, de 0,01
isso não implica, diretamente, dizer que o segundo estudo tinha uma amostra
maior, por isso uma diferença maior (LOUREIRO; GAMEIRO, 2011).

LOUREIRO, L. M. J. GAMEIRO, M. G. H. Interpretação crítica dos resultados


estatísticos: para lá da significância estatística. Revista de Enfermagem
Referência, Série III, n. 3, pp.151-162, 2011. Disponível em: https://www.ibilce.
unesp.br/Home/Departamentos/CiencCompEstatistica/Adriana/interpretacao-
critica-dos-resultados-estatisticos.pdf. Acesso em: 7/1/2021.

59
Unidade ii | Estatística analítica

RODRIGUES, C. F. S.; LIMA, F. J. C.; BARBOSA, F. B. Importância do uso


adequado da estatística básica nas pesquisas clínicas. Brazilian Journal of
Anesthesiology, v. 67, n. 6, pp. 619-625, 2017. Disponível em: https://www.
sciencedirect.com/science/article/pii/S0034709417300673?via%3Dihub.
Acesso em: 7/1/2021.

FERREIRA, J. C. PATINO, C. M. O que significa o p-valor? J Bras Pneumol., v. 41,


n. 5, 2015. Disponível em: https://www.scielo.br/pdf/jbpneu/v41n5/pt_1806-
3713-jbpneu-41-05-00485.pdf. Acesso em: 7/3/2021.

Associações entre variáveis qualitativas


Quando temos variáveis qualitativas, para observar as possíveis associações,
precisamos fazer uma tabela de contingência, ou descritiva cruzada. São análises
utilizadas em estudos biológicos, epidemiológicos e médicos. São geralmente
identificadas como exposição x desfecho.

Figura 29. Esquema de estudos epidemiológicos que avaliam condições de exposição e desfecho.

Coorte experimental

Exposição Desfecho
Caso controle

Transversal
Fonte: adaptada de Pontes, 2018.

As medidas de associação expressam a magnitude da associação e desfecho. As


mais comumente utilizadas são: risco relativo (RR), Odds ratio (OR).

Exemplo:

Tabela 6. Tabela de contingência.

Exposição Desfecho clínico


Sim Não
Exposição 1 a b a+b
Exposição 2 c d c+d
a+c b+d
Fonte: elaborada pela autora.

60
Estatística analítica | Unidade ii

Exemplo: Versão simplificada do estudo de Hjrkind et al. (2017), utilizada como


exemplo no e-book de Bioestatística da UERJ, de Freire (2021). O estudo se
refere à associação de atividade física com diabetes em homens.

Tabela 7. Associação entre atividade física e diabetes.

Atividade física Diabetes mellitus


Sim Não
+ de 4x na semana 45 1836 1881
a b (a + b)
inativo 73 1875 1948
c d (c + d)
118 3711
(a + c) (b + d)
Fonte: Hjrkind apud Freire, 2021.

O risco relativo (RR) consiste na razão entre os riscos. E risco consiste na


probabilidade de quem está sofrendo determinada exposição, desenvolva
determinado desfecho. No exemplo de Freire (2020), acima:

a 45
Risco Exp1 a+b 45 + 1836
RR
= = = = 0, 638
Risco Exp 2 c 73
c+d 73 + 1875

Nesse exemplo, o RR de fazer atividade física em comparação ao com inatividade


tem um efeito protetor, diminuindo a probabilidade de se desenvolver diabetes
mellitus. Portanto, de acordo com esse estudo, fazer atividade física pode te
proteger contra diabetes.

O Odds Ratio (OR) é um conceito relativo à chance, é um pouco diferente de


p
probabilidade. A chance é calculada em cima da probabilidade Chance =
1− p
. De
forma resumida, pode ser calculada pela multiplicação dos produtos cruzados

a.c 45*1875
OR
= = = 0, 630
b.d 73*1836

Observou que os valores do RR e do OR nesse exemplo do Freire (2021) são


aproximados? Isso acontece em eventos com desfechos mais raros (< 10%), esses
valores se aproximam.

61
Unidade ii | Estatística analítica

Outra medida é a razão de prevalências (RP). Ela é calculada de maneira


semelhante ao RR, contudo, ela é utilizada em estudos que descrevem
prevalências (e não avaliam questões de causa e efeito). As medidas RR e OR
fornecem força de associação entre uma exposição e um desfecho. Podem ser
utilizadas em estudos de caso controle ou coortes. Já a razão de prevalência é
utilizada em estudos transversais que descrevem simultaneamente a prevalência
dos desfechos e exposições, então, essa medida pode descrever alguma associação
entre as variáveis. Para essas medidas, também devem ser calculados intervalos
de confiança. Além disso, essas medidas podem ser ajustadas por modelagem
matemática, com o uso de técnicas de regressão, como iremos ver mais adiante.

Outro uso de tabelas de contingência na estatística médica consiste na validação


de testes de diagnóstico. O que é exatamente esse tipo de análise? Ela guarda um
paralelo com as medidas OR/RR/RP. Um teste que tem sua performance/acurácia
sendo avaliada é confrontado contra um teste de referência para detecção de
determinada morbidade.

Exemplo:

Tabela 8. Tabela de contingência para validação de teste diagnóstico.

Teste sob avaliação de acurácia Teste de referência


Positivo Negativo
Positivo a b a+b
Negativo c d c+d
a+c b+d
Fonte: elaborada pela autora.

As principais medidas de acurácia de um teste de diagnóstico são a sensibilidade


e especificidade. E são muito utilizados em estudos médicos e biomédicos que
avaliam dispositivos de detecção de uma morbidade. Sensibilidade consiste na
proporção entre os resultados positivos no teste avaliado e todos os positivos
a
no teste de referência ou seja sensibilidade = e especificidade consiste na
a+c
proporção dos resultados negativos no teste avaliado em relação a todos os
resultados negativos no teste de referência especificidade = d .
b+d
Observe que os dados qualitativos são muito utilizados, ainda mais para
modelagens envolvendo regressões logística, regressão de Poisson (com ou
sem ajuste robusto) dentre outros tipos de análises, principalmente em estudos
epidemiológicos.

62
Estatística analítica | Unidade ii

Os artigos abaixo lhe trarão ainda mais conhecimento sobre o assunto:

QUIJANO, F. Medidas de associação em epidemiologia. Departamento


Epidemiologia – FSP. Universidade de São Paulo. São Paulo, 2017. Disponível
em: https://edisciplinas.usp.br/pluginfile.php/3639250/mod_resource/
content/1/Medidas%20de%20asocia%C3%A7%C3%A3o.pdf.

WAGNER, M. B. Medidas de associação em estudos psicológicos: risco


relativo e odds ratio. Jornal de Pediatria, v. 74, pp. 247-251, 1998. Disponível
em: https://lume.ufrgs.br/bitstream/handle/10183/54354/000246332.pdf?
sequence=1&isAllowed=y.

MENEZES, A. M. B.; SANTOS, I. S. Curso de Epidemiologia Básica para


pneumologistas. Disponível em: http://itarget.com.br/newclients/sbpt.org.
br/2011/downloads/arquivos/COM_EPID/COM_EPID_1_Curso_Epidemiologia_
Basica_para_Pneumologistas.pdf.

Associação entre variáveis quantitativas

Correlação linear

Quando se tem a associação entre variáveis quantitativas, estamos observando


se essas variáveis têm alguma “correlação”. É quando uma mudança em uma
quantidade de uma variável é acompanhada por alterações em outras variáveis.
Por exemplo: altura x idade de crianças; alto consumo de calorias x obesidade.

Correlação é definida como a medida do grau de relação entre duas variáveis. Veja
o exemplo que o prof. Ademir de Oliveira utilizou no seu material de aula sobre
correlação e regressão.

Tabela 9. Tempo, em minutos, e quantidade de procaina1 hidrolizada, em 10-5 moles/litro, no plasma canino.

Tempo em minutos (X) Quantidade hidrolizada (Y)


2 3,5
3 5,7
5 9,9
8 16,3
10 19,3
12 25,7
14 28,2
15 32,6
Total 69 141,2
1
anestésico local

Fonte: Oliveira, 2019.

63
Unidade ii | Estatística analítica

Com a simples observação dos dados apresentados na tabela acima, podemos


ver que quando o tempo aumenta, a quantidade de procaína hidrolisada também
aumenta (OLIVEIRA, 2019). Quando traçamos um diagrama de dispersão,
podemos observar também essa variação:

Figura 30. Gráfico de dispersão dos dados da tabela 1.

Y
35

30

25

20

15

10

0 X
0 5 10 15 20

Fonte: adaptada de Oliveira, 2019.

Essas variáveis possuem uma relação linear, ou seja, uma correlação linear.
O coeficiente de correlação (ρ) mede a covariabilidade entre duas variáveis.
Quando as variáveis são quantitativas (discretas ou contínuas) e normalmente
distribuídas, calculamos o coeficiente de correlação de Pearson:
_
 _

∑( yi − y )  xi − x 
   _
 _

∑  yi − y   xi − x 
Cov ( X , Y ) n − 1   
=r = =
Var ( X ) .Var (Y ) _ _ _ _
∑( xi − x) 2 ∑( yi − y ) 2 ∑( xi − x) 2 ∑( yi − y ) 2
.
n −1 n −1

O resultado é o coeficiente de correlação (ρ), que consiste em um número


adimensional que varia de -1 a 1. Quando ele é igual a zero, a correlação é nula.
Quando é igual a 1 é uma correlação positiva perfeita (enquanto uma variável
aumenta, a outra aumenta também). Quando é igual a -1, é uma correlação
negativa perfeita (enquanto uma variável aumenta a outra diminui). O exemplo
da figura 30 é uma correlação positiva. Para dizer se o coeficiente de correlação é
fraco/forte, estabeleceu-se o seguinte:

» 0 a 0,35 ou -0,35 a 0: correlação fraca;

» 0,35 a 0,65 ou -0,65 a -0,35: correlação média;

64
Estatística analítica | Unidade ii

» 0,65 a 0,95 ou -0,95 a -0,65: correlação forte;

» 0,95 a 0,99 ou -0,99 a -0,95: correlação muito forte;

» 1 ou -1: correlação perfeita.

O coeficiente de correlação é calculado com base em uma amostra, contudo na


população, essas variáveis podem não apresentar correlação. Para isso temos um
teste de hipótese em que: H0: p = 0 (não existe correlação entre X e Y)/ H1: p ≠ 0
(existe correlação entre X e Y).
rxy . n − 2 rxy
=tc = ~ Distribuição T de Student com n − 2 graus de liberdade
1 − rxy2 Sr

1− r2
Sr = ~ é o erro padrão do coeficiente de correlação
n−2

O r2 é igual ao rxy2 e é o coeficiente de determinação. Isto é, ele diz o quanto de


variação em Y é explicada pela variação em X. Por exemplo, se o rxy é igual a
0,9918, o r2 = 0,99182 = 0,9836. E isso significa à proporção que a variação de Y
é explicada por X.

Outra correlação linear, não paramétrica que pode ser calculada é a correlação
por postos ou Spearman, que analisa a associação entre variáveis que se
apresentem em escala de mensuração pelo menos ordinal, de modo que os
elementos em estudo possam dispor-se por postos em duas séries ordenadas.

O cálculo da correlação é realizado pela diferença entre o posto X e o posto Y,


chamada de di e n o número de pontos dados entre as variáveis.
6 ∑ idi2
rspearman = 1 −
n ( n 2 − 1)

Assim como no coeficiente de correlação de Pearson, os resultados de Spearman


variam entre -1 e 1. E o teste de hipótese é o mesmo.

Videoaula de resolução de exercícios sobre correlação da USP, disponível


em: https://eaulas.usp.br/portal/video.action?idItem=12222.

65
Unidade ii | Estatística analítica

Regressão

O nome regressão é dado à tentativa de se estabelecer uma função entre as


variáveis que explique a relação entre elas, uma técnica que permite estimar
o comportamento médio de uma variável resposta em relação a uma ou mais
variáveis explicativas. Quando essa função é de primeiro grau, é uma regressão
linear. Matematicamente, pode-se representar o conjunto de pontos (xi, yi) de
uma regressão linear pela equação da reta: y =α + β x + ε .

Para calcular uma regressão linear, partimos também do pressuposto que a


distribuição da variável Y para uma variável X é normal. Então o objetivo de
uma regressão linear é determinar os valores de α e β. O método dos quadrados
mínimos é um jeito de calcular esses valores. Com base no exemplo do professor
Ademir de Oliveira, com os dados da tabela 1:

_  _ 
 
∑  xi − x   yi − y 
   _ _
b= βˆ=   a= αˆ = y − b x
_
∑( xi − x) 2
 _
 _

[∑  xi − x   yi − y ] / n − 1
Cov ( X , Y )   
=b = 2
sX  _

[∑  xi − x) 2  / n − 1
 

b é denominado coeficiente de regressão de Y em X; simboliza-se por bY.X

_  _ 
 
∑  x i − x   yi − y  =∑ x i yi −
( ∑ xi )( ∑ yi )
   n
 
_
( ∑ xi ) 2
∑( xi − x ) 2 = ∑ xi2 −
n

Então, o cálculo da regressão linear do exemplo da tabela 9:


∑x∑ y 69.141, 2
∑ xy − 1589, 2 −
n 8 371,35
bY . X
= = 2
= 2
= 2,16
2 (∑ x) (69) 171,88
∑x − 767 −
n 8
_ _
141, 2  69 
a=y− b x = −  2,16  = 17, 65 – ( 2,16 .8, 63) =− 0,98
8  8 

A equação da regressão linear do exemplo da tabela 9: yˆi =


−0,98 + 2,16.xi

66
Estatística analítica | Unidade ii

Figura 31. Quantidade de procaina hidrolizada ( Yˆ ) em função do tempo (X).

=ŷ 2,1606 x − 0,985


Y
35

30

25

20

15

10

0 X
0 5 10 15 20

Fonte: adaptada de Oliveira, 2019.

Observe a reta em relação com os pontos.

Pressupostos da regressão linear

» O modelo é linear nos parâmetros: Yi =


α + β xi + ε i

› Yi é a variável aleatória dependente;

› xi é a variável independente;

› εi é o erro aleatório.

» Distribuição condicional de Y dado X é normal.

» Homogeneidade da variância (homocedasticidade) da variável resposta


Y dado o conjunto de variáveis independentes X.

Quadro 5. Comparação entre os usos da correlação e regressão linear.

Correlação linear Regressão linear


Não determina causalidade, mas pode dar pistas Não determina causalidade, mas pode dar pistas
Pode ser testada estatisticamente Pode ser testada estatisticamente
Identifica se duas variáveis se relacionam de forma linear Determina uma relação linear entre duas variáveis
Determina o quanto mais próximo de uma reta é a relação Traz elementos que permitem predições (identifica o quanto
entre as variáveis uma variável afeta a outra)
Não indica o quanto uma variável é afetada por outra Necessita de uma análise de resíduos para decidir sobre sua
adequação
Fonte: adaptada de Vasconcelos e Feitosa, 2017.

67
Unidade ii | Estatística analítica

Videoaula no YouTube sobre Pressupostos da Regressão Linear. Pressupostos


da Regressão Linear Simples – YouTube. Disponível em: https://www.youtube.
com/watch?v=vRIDSr_hTNk.

Análise de resíduos

Os resíduos são explicados pela diferença entre o valor observado para o valor
esperado e=i Yi − Yˆi , ou seja, a análise dos resíduos nos permite compreender por
que um modelo não apresentou um bom ajuste. Portanto, pela análise dos resíduos
descobre-se o motivo do modelo não ter se ajustado corretamente aos dados.
Essa análise consegue indicar se alguma suposição do modelo foi violada; se não
há linearidade entre X e Y; não há normalidade dos erros, heterocedasticidade,
correlação entre os erros; presença de observações atípicas.

Analisando os resíduos da regressão:


ei = yi − yˆi → yi = yˆi + ei

Quando fazemos um gráfico dos resíduos de uma regressão bem ajustada, não
observamos nenhuma tendência. Isso porque a variância é constante.

Figura 32. Gráfico de resíduos de uma regressão linear demonstrando uma variância constante.
1
Erro

0
-1

Fonte: adaptada de Allam, 2021.

Quando o gráfico assume esses formatos, conforme figura 5 apresenta, o


pressuposto de variância constante do resíduo não está sendo respeitado.

Figura 33. Gráficos de resíduos de regressões lineares que não possuem variância constante.

Variância heterocedástica Forma não adequada ao modelo


Erro
Erro

0
0

Fonte: adaptada de Allam, 2021.

68
Estatística analítica | Unidade ii

Então, assumimos que os erros não são correlacionados e com variância


constante, conforme a figura acima. E ao analisarmos isso, fazemos a análise dos
resíduos.

Progredindo a análise dos resíduos, podemos estimar essas diferenças atribuindo


os valores i=1,2,3...n e somando:

∑ ∑ yˆ + ∑ e + 2∑ yˆ e
n 2 n 2 n 2 n
i
=i 1 =
y =
i
i 1= i 1 i=i 1 i i

Considerando= que yˆi βˆ= ˆ


1 xi  yi ei βˆ1 xi ei , podemos demonstrar como a soma dos
resíduos é igual a zero.


n
1
=i 1 i i = 1
i 1 i i =
n
i 1 i
n
( )
yˆ e = βˆ ∑ x e = βˆ ∑ x yi − βˆ1 xi = 0 =
 ∑ i 1y=
n
i = ∑ i 1y
2 n
ˆi2 + ∑ i 1ei2
=
n

Analisando a fórmula, constatamos o seguinte: a variação dos valores de Y em


_
torno de sua média Y é a soma de duas parcelas: variação explicada que é a
_
variação dos valores estimados pela reta de regressão em torno de Y conhecida
como. A outra parcela exprime a variação dos valores de Y em torno da reta de
regressão. Essa parcela é também chamada variação residual ou variação não
explicada.

A relação entre a variação explicada e a total do modelo:

∑ βˆ x
∑= ∑
n n n 2
2
yˆ 2 2
xi2 2
2 nS X  ˆ SX  variância explicada pelo modelo
i i 1 1 i = ˆ
β = ˆ=
β  β=
2
=
=i 1 =
1
i 1
1 1 
∑ y ∑ y ∑ i
n n n 2
2
i
2
y 2 nS Y  SY  variância total
=i 1 = i 1 i =i 1

Essa relação, também chamada de coeficiente de determinação, que pode


assumir valores: 0 ≤ r 2 ≤ 1 , e quanto mais próximo do valor de 1, melhor o ajuste
do modelo. E pode ser calculado por:


n 2
2
e
i =1 i
r = 1−

n 2
y
i =1 i

Análise de variância (ANOVA)

A análise de variância é um teste de hipótese por meio do teste F.

69
Unidade ii | Estatística analítica

Tabela 10. ANOVA – F.

Origem da Soma dos Graus de Média da Soma


Variação Quadrados Liberdade dos Quadrados
Regressão SSR 1 MSR = SSR/1
Resíduo (Erro) SSE n -2 MSE = SSE/n-2
Total SSTO n -1
Fonte: elaborada pela autora.

As somas de quadrados são descritas pelas fórmulas:


_

∑ i =1(Yi − Y )2
n
» =
SSTO

∑ (Yˆ − Y ) 2
n
»=
SSR
i =1 i

∑ (Y − Yˆ )
2
»=
SSE n
i =1 i i

› SSTO = SSR + SSE

A análise da variância do modelo de regressão linear simples consiste,


basicamente, no teste de nulidade do parâmetro. A existência de regressão
entre Y e X ( β1 ≠ 0 ) será aceita na medida que a parcela SSR (variação explicada
pela influência linear de X) da soma SSTO for suficientemente maior do que
a parcela SSE (variação não explicada por X e causada por fatores aleatórios).
O objetivo é testar a nulidade do coeficiente β1, isto é, H 0: β 1 = 0. A hipótese
de não existência da relação linear entre Y e X, ou seja β 1=0, é testada pela
estatística F1(1,(n-2)), sendo rejeitada se o valor observado de F conforme acima,
for maior do f(1,(n-2)) tabelado:

( β − β )
2
1

( )
2
β1 − β ∑
n
σ 2 / ∑ i =1xi2
n 2
x
i =1 i
F=
1,( n − 2 )
→ F=
1,( n − 2 )
∑ ∑
n 2 n 2
i i 1 i
e e
=i 1 =
−2
2
σ n
βˆ12 ∑ i 1x= ∑ i 1yˆi2 /1
2 n n
i
→ F1,==
( n − 2) F1,=
( n − 2)
∑ ∑
2 n 2 n
ei e
i 1 i
=i 1 =
−2
n n−2

Prosseguindo, para calcular o teste:

70
Estatística analítica | Unidade ii

 n e 2 
∑ i _
ˆ − Y )= ˆ x ) 2 SR= βˆ 2 n x 2
E {MSE}= E  i =1 = σ 2 SR ∑ ∑ ∑ 1 ∑i 1 i
n n n
= (Y i
2
ˆ
y 2
=
i ( β1 i
 n − 2 
=i 1 =i 1 =i 1 =

E ( SSR ) =
n
x 2 E βˆ 2
∑ i =1 i ( )
1

 
ˆ + E 2 βˆ  E ( SSR ) = n x 2  σ
2
E ( SSR ) ∑i 1=
=
n
xi
2 

VAR β1 1
 ( ) ( )
∑ i 1 i  n x 2 1 
+ β 2

 ∑ i =1 i
=

 SSR 
 σ + β1 ∑ i =1xi
2 2 n 2
MSR
= E =
 1 
= H 0 : β1 0 e H1 : β1 ≠ 0

MSR
F* = e quando H 0 é verdadeira, F* tem distribuição F com 1 e (n-2) graus de
MSE
liberdade, sendo o procedimento de teste o seguinte:
*
» Se F ≤ f1,(n − 2),1−α aceitva-se a hipótese nula H 0

*
» Se F > f1,(n − 2),1−α aceita-se a hipótese alternativa H1

» P(Fd1 ,d2 ≤ f1,(n − 2),p ) =


p

A análise da ANOVA também é utilizada para comparar a variação devida ao


tratamento com a variação devido ao acaso ou resíduo. Muito utilizada para
comparar diferentes tratamentos entre grupos, pressuposto:

» as K populações tenham a mesma variância σ2 - condição de


homocedasticidade;

» a variável de interesse seja normalmente distribuída em todas as


populações.

O p-valor representa a probabilidade de ser obtida uma observação da


distribuição F com k - 1 e k(r - 1) graus de liberdade maior ou igual ao valor
observado pela Fcalc. Ou seja, o p-valor é a probabilidade, sob H0, de ocorrência
do valor particular observado para a estatística de teste ou de valores mais
extremos. A probabilidade de significância de um teste mede a força da
evidência contra H0 em uma escala numérica. Um p-valor pequeno indica uma
forte justificativa (evidência) para a rejeição de H0.

71
Unidade ii | Estatística analítica

Exemplo: temos um N de 30 e 6 tratamentos a serem aplicados. Fazendo a


 6  6!
comparação 2 a 2, pelo teste T ou Z, seriam necessários 15 testes =  = 15 .

 2  2!4!
pela análise de variância ANOVA, H0 assume que µ1 = µ2 = µ3 = ... µ6. Já o H1,
que pelo menos uma média do tratamento será diferente.

Análise de covariância (ANCOVA)

A análise de covariância ou ANCOVA foi desenvolvida com base na ANOVA.


Essa análise avalia os efeitos e interações entre as variáveis independentes. Essas
variáveis são incluídas na análise devido à influência que elas possuem sobre o
desfecho, e são conhecidas como covariáveis. Segundo Hair et al. (2006), com
a ANCOVA, podemos eliminar o erro sistemático e explicar diferenças nas
respostas devido a características dos respondentes. Mostram modelos lineares
com resposta contínua para um ou mais preditores categóricos.

Assim como nas análises anteriores, para realizar a ANCOVA, precisamos aceitar
alguns pressupostos:

» As distribuições das médias amostrais de cada grupo são normais.


Porém, resiste à violação desse pressuposto se não houver dados
discrepantes e o teste bicaudal com mais de 20 GL.

» Variâncias homogêneas.

» Os relacionamentos entre as covariáveis com a variável dependente/


resposta são lineares (multicolinearidade). É recomendável eliminar das
análises covariáveis que sejam muito correlacionadas ou que produzam
uma relação não linear.

› Multicolinearidade ocorre quando uma variável independente é


altamente correlacionada com outras variáveis independentes,
inclusive estabelecendo uma relação linear com algumas.
Consequências:

• estimativas imprecisas;

• erros-padrão maiores;

• dificuldades de separar os efeitos de cada variável independente


sobre a variável dependente.

72
Estatística analítica | Unidade ii

Comparando ANOVA e ANCOVA, observamos que: ANOVA é focada no


efeito experimental e no erro (experimental e diferenças individuais), já a
ANCOVA é focada no efeito, erro e covariáveis.

No cálculo da ANCOVA: H0 não há efeitos da variável independente sobre a


variável dependente controlada pela covariável µ1 = µ2 = µ3; H1 há efeitos da
variável independente sobre a variável dependente controlada pela covariável.
Calculando:

» A soma dos quadrados:

› SSxTotal = ∑ ∑ ( xij − x )
2

› SSxgroup = ∑ n j ( x j − x )
2

› SSxerror = ∑ ∑ ( xij − x j )
2

» A soma dos produtos dos resíduos:

› SPxyTotal = ∑∑ ( x
j i
ij − x )( yij − y )

› SPxyGroup = ∑nj ( x
j
j − x )( y j − y )

› SPxyerror = ∑∑ ( x
j i
ij − x j )( yij − y j )

» A soma dos quadrados ajustados:


( SS total )
2

› SS y adjtotal
= SS total −
y
xy

SS x total

( SP error ) ( SP total )
2 2

› SS adjgroup =
y SS group + y
xy

xy

SS x error SS x total

( SPxy error )
2

› SS =
y adjerror SS y error −
SS x error

» Teste F para ANCOVA

 ( SS total )2 
 xy
 ( N − 2)
›  SS x total  α = 5% (mais frequente)
F (1, N − 2 ) = 
SS y adjtotal

73
Unidade ii | Estatística analítica

Veja essas videoaulas sobre ANOVA e ANCOVA para sedimentar os seus


conhecimentos:

» SIMON, F. O. Estatística e Probabilidade - Aula 14 – Análise de Variância


(ANOVA). YouTube, 2018. Disponível em: https://www.youtube.com/
watch?v=1ceP2FL5fzE.

» ME SALVA! MDC01 - Introdução e One Way ANOVA (Aula I) –


Probabilidade e Estatística. YouTube, 2016. Disponível em: https://
www.youtube.com/watch?v=Sr9THtnEFkU.

» DADOS NO DIVÃ. Análise e Estatística. AULA 11 - ANCOVA. YouTube,


2018. Disponível em: https://www.youtube.com/watch?v=l9t51or1gvs.

» CIENTÍSTICA & PODCAST NARUHODO. Estatística Psicobio I-Apresentação


a ANOVA Two-Way, MANOVA, ANCOVA e GLM Independente. YouTube,
2020. Disponível em: https://www.youtube.com/watch?v=RH-tCM8W33A.

Análise e interpretação de modelos lineares


regressivos (MLRs)
Análise do estudo com base no artigo “Modelo matemático para previsão de
vendas: Regressão Linear Simples”, de Anastácio Pascoal Espandi Canhanga
(2020), publicado no Cadernos do IME, série matemática DOI 10.12957/
cadmat.2020.50427 Disponível em: https://www.e-publicacoes.uerj.br/index.
php/cadmat/article/view/50427/34104.

Questão do trabalho: Um gerente gostaria de avaliar se o investimento em


publicidade traria retorno em breve. Com os dados de fluxo de caixa, realizou-se
uma regressão linear. Primeiramente, avaliou e identificou-se uma grande
correlação entre custos e retornos e realizaram-se os gráficos de resíduos e
ajuste. Depois, realizou-se uma ANOVA e simulações dos recursos que podem
ser obtidos.

É um trabalho simples, contudo bem executado e demonstra bem a funcionalidade


da regressão.

74
Estatística analítica | Unidade ii

Tabela 11. Dados coletados - custos e receitas (vendas).

Observações/dia Custo em mil kwanzas (Kz) Vendas em mil kwanzas (Kz)


1 11,00 300,00
2 13,00 350,00
3 15,00 360,00
4 20,00 380,00
5 23,00 380,00
6 23,00 400,00
7 25,00 420,00
8 26,00 500,00
9 26,00 420,00
10 27,00 530,00
11 30,00 560,00
12 33,00 550,00
13 35,00 580,00
14 40,00 600,00
16 43,00 600,00
17 43,00 640,00
18 45,00 540,00
19 45,00 650,00
20 47,00 620,00
21 48,00 610,00
22 50,00 675,00
23 52,00 678,00
24 52,00 620,00
25 55,00 600,00
26 56,00 650,00
27 56,00 675,00
28 60,00 700,00
29 60,00 650,00
Fonte: Canhanga, 2020.

Depois que o autor calculou a reta de regressão linear, ele fez um gráfico.

75
Unidade ii | Estatística analítica

Figura 34. Gráfico da regressão linear relacionando as vendas com os custos em publicidade.

Fonte: Canhanga, 2020.

A reta obtida foi R = 265, 1563 + 7, 42588 ∗ C

No arquivo do artigo, você poderá observar que o autor realizou os gráficos de


resíduos e de distribuição de probabilidade. Depois, podemos observar a ANOVA.

Tabela 12. ANOVA.

gl SQ MQ F F significante
Regressão 1 337251,1858 337251,1858 171,19043 3,458E-13
Resíduo 27 53190,92517 1970,035265
Total 28 3900442,1379
Coeficientes Erro padrão Stat p-valor 95% inferior 95%superior
Intersecção 265,1563 23,05179 11,5026311 0,035 217,8579 312,4546
Vendas (em mil 7,42588 0,567555 13,0839761 0,001 6,26135 8,590406
Kwanzas)
Fonte: Canhanga, 2020.

O autor conclui:
A regressão linear simples é um modelo matemático que pode ser usado
em muitos casos como ferramenta para fazer previsões quantitativas.
A utilização de softwares ajuda de forma mais rápida a buscar possíveis
soluções de problemas modelados e tomar decisões de forma rápida e
assertiva. Depois de analisados os dados com os elementos essenciais
da regressão linear simples, podemos concluir que com as mesmas
condições do comportamento de mercado, foi possível fazer previsão
de alguns números com vista a dar resposta ao problema com um nível
de confiança de 95%.
(CANHANGA, 2020)

76
Estatística analítica | Unidade ii

Análise de estudo com base no artigo “Aplicação de regressão linear para correção
de dados dietéticos”, de Betzabeth Slater et al., publicado na Revista de Saúde
Pública, v. 41, n. 2, pp. 190-6, 2007. Disponível em: https://www.scielosp.org/
pdf/rsp/2007.v41n2/190-196/pt.

Esse estudo tem por objetivo oferecer um método para correção de dados
dietéticos em estudos epidemiológicos, relacionando o desenvolvimento de
doenças e a ingestão de alimentos. Nem sempre é possível mensurar de forma
acurada e precisa a dieta habitual dos indivíduos estudados.

Metodologia: a base de dados vem de 79 adolescentes em idade escolar, com


os hábitos alimentares devidamente registrados. Primeiro, executram-se
as estatísticas descritivas, depois, testou-se a normalidade dos dados com
Kolmogorov-Smirnov. Por meio de um modelo de regressão, com a análise
dos erros, utilizou-se o modelo regressivo para predizer os valores reais de
consumo. Observe nas duas tabelas como os dados são apresentados.

Tabela 13. Estatística descritiva da ingestão de energia e macronutrientes obtidos por QFAA e R24h de 79 indivíduos, antes e
após o ajuste pela energia e a correção. Município de São Paulo, 1999.

Nutriente Média Desvio-padrão IC 95% Mínimo-máximo


Energia (Kcal)
QFAA bruto 2.023,6 563,4 1.897,4; 2.149,8 1.026,3 - 3.426,5
R24h bruto 2.004,9 570,2 1.877,2; 2.132,6 878,2 - 3.578,6
Valor corrigido 2.005,1 498,6 1.893,4; 2.116,8 1.122,5 - 3.246,7

Proteína (g)
QFAA bruto 68,5 20,5 64,7; 73,6 20,0 - 123,6
QFAA ajustado 68,9 11,5 66,3; 71,5 43,9 - 105,9
R24h bruto 78,9 26,8 73,6; 85,5 169,7 - 78,9
R24h ajustado 80,86 16,3 76,7; 84,0 44,5 - 139,7
Valor corrigido 80,4 2,3 79,8; 80,9 75,4 - 87,7

Carboidrato (g)
QFAA bruto 263,1 77,9 248,4; 282,4 76,0 - 457,1
QFAA ajustado 265,3 23,8 260,0; 270,6 216,8 - 318,2
R24h bruto 240,1 74,0 226,0; 258,4 72,5 - 407,9
R24h ajustado 242,3 35,3 234,3; 250,2 159,9 - 325,5
Valor corrigido 242,2 9,6 239,99; 244,30 222,5 - 263,6

77
Unidade ii | Estatística analítica

Nutriente Média Desvio-padrão IC 95% Mínimo-máximo


Lipídios (g)
QFAA bruto 76,0 25,2 71,1; 82,2 24,8 - 146,7
QFAA ajustado 76,6 9,1 74,5; 78,6 59,6 - 99,2
R24h bruto 78,0 28,5 72,3; 85,0 23,2 - 170,9
R24h ajustado 79,5 12,4 76,8; 82,3 47,3 - 112,2
Valor corrigido 79,5 2,0 79,1; 80,0 75,8 - 84,5
QFAA: Questionário de Freqüência Alimentar para AdolescentesR24h: Recordatório de 24 horas

Fonte: Slater et al., 2007.

Tabela 14. Estimativas dos parâmetros α e λ, erros-padrão e coeficientes de correlação de Pearson (r) de energia e
macronutrientes ajustados pela energia. Município de São Paulo, 1999.

Nutriente α’ λ’ Erro-padrão r
Energia 214,20 0,89 0,06 0,87
Proteína 66,64 0,20 0,16 0,14
Carboidratos 134,71 0,41 0,16 0,27
Lipídio total 62,83 0,22 0,15 0,16
Fonte: Slater et al., 2007.

Observe a diferença entre os valores brutos e ajustados na tabela 1, o intervalo


de confiança “encurtou”. Exatamente pela correção dos erros, o que diminui a
imprecisão dos relatos. Na tabela acima, observe os coeficientes de correlação.

Do ponto de vista estatístico, os pesquisadores seguiram os pressupostos, contudo


em sua discussão. Eles apresentam limitações desses modelos para atender à
questão biológica da relação que eles pretendem estudar. A estatística pode ser
uma ferramenta poderosa ou não. Porque além dos resultados calculados, deve
haver a plausabilidade biológica. Senão, fica como na história das cegonhas
e bebês. Observaram em um vilarejo na Inglaterra que quando via-se mais
cegonhas, mais bebês nasciam. Mas qual seria a ligação? Estatisticamente era
uma ótima relação, e biológica?

78
ANÁLISES
MULTIVARIADAS UNIDADE III

CAPÍTULO 1
Conceitos gerais em análises
multivariadas

Aspectos gerais
A análise multivariada consiste em um conjunto de métodos estatísticos que
analisa três ou mais variáveis que podem ser dependentes ou independentes.
Existem diversos tipos de análises que podem ser executados, por exemplo:
quando não há uma variável dependente e todas são interdependentes podemos
utilizar análise fatorial ou análise de determinantes. Quando existe uma
variável dependente quantitativa, podemos realizar uma regressão múltipla.
Se é qualitativa, trabalhamos com chances de ocorrência de evento, regressão
logística.

Tabela 15. Exemplos de tipos de análises multivariadas.

Regressão Análise discriminante Regressão logística Regressão de Análise fatorial


múltipla Poisson
Dependência A variável dependente é Permite estabelecer a Modelagem de Técnica multivariada de
estatística de uma qualitativa (dicotômica/ probabilidade de ocorrência variáveis que interdependência em
variável em relação multicotômica) e as variáveis de determinado evento para envolvam dados que todas as variáveis
a duas ou mais independentes podem ser situações em que a variável de contagem ou são simultaneamente
variáveis. quantitativa ou qualitativa. dependente é qualitativa e taxas. consideradas.
de natureza dicotômica.
Meta: encontrar Meta: identificar quais Cada variável é relacionada
relação causal. variáveis diferenciam grupos com as demais, a fim de
ou categorias. estudar as inter-relações
existentes entre elas,
buscando a redução ou
sumarização dos dados.
Estimar os valores
dependentes a
partir das variáveis
independentes.
Fonte: adaptada de Costa, 2007.

79
Unidade iii | Análises multivariadas

A grande questão em conduzir uma análise multivariada não é a conta em


si, não é o cálculo, é a escolha do método de análise escolhido. Para escolher
corretamente o método, deve-se levar em conta como o estudo foi realizado
(Foi um inquérito? Foi um caso controle? Foi um ensaio clínico randomizado?
Foi um ensaio experimental?), pois isso pode afetar como será julgada a questão
de causa-efeito para fins de modelagem na regressão. Isso, porque correlação
nem sempre indica causa. Além disso, também é importante ter conhecimento
do fenômeno biológico/técnico envolvido para que a interpretação do modelo
seja correta.

Confusão, interação e como escolher o modelo


multivariado
Quando se estudam fenômenos e se faz uma regressão múltipla, pode haver
interação/confusão entre as variáveis independentes que podem influenciar o
efeito sobre a variável dependente.

Deve-se ter cuidado ao aprofundar as análises descritivas de um banco de


dados por meio de regressões ou outros métodos que estimam correlações
condicionais, porque podem ser interpretadas erroneamente como causalidade.

O confundimento é a situação que ocorre quando os efeitos de uma ou mais


variáveis não podem ser distinguidos uns dos outros. Exemplo: na avaliação
da relação do sedentarismo e a incidência de doenças coronárias, a idade pode
ser um fator de confudimento, pois perturba a associação entre sedentarismo
e doenças coronárias. Já a interação existe uma combinação dos efeitos entre
as variáveis, esse efeito pode ser aditivo ou não sobre a variável dependente
(ASSIS et al., 2019). Outro exemplo é o estudo de doenças brônquicas como
resultado a exposição de poluição atmosférica e o hábito de fumar como variável
de confusão (PEREIRA, 1995).

Os vieses podem ser:

» seleção – a medida de associação fica distorcida em função de como os


dados dos indivíduos foram escolhidos para participação no trabalho
(critérios de seleção);

» informação – a medida de associação fica distorcida em função de


como essa informação sobre exposição/desfecho é anotada.

80
Análises multivariadas | Unidade iii

Esses aspectos influenciam na validade do estudo. A validade é resultado direto


do quanto os resultados são distorcidos em função de erros metodológicos na
concepção da elaboração do banco de dados. Ou seja, a validade do estudo é
resultado do erro sistemático na coleta dos dados, já a precisão de um estudo é
resultado do erro aleatório na amostra.

Como suspeitar da presença de variáveis de


confundimento?

Essa verificação de suspeitas começa no início da preparação para o experimento


e coleta de dados, quando definimos a exposição causal hipotética a ser
estudada, isto é, qual exposição influencia no desfecho do estudo. As exposições
adicionais são variáveis externas que necessitam de atenção:

» variáveis confundidoras são as que precisam ser neutralizadas no


planejamento e análise (por exemplo, idade e poluição atmosférica na
relação de hábito de fumar e câncer de laringe);

» as variáveis externas não confudidoras são aquelas que não precisam


ser neutralizadas, por não terem influência sobre o desfecho
estudado (como no exemplo de hábito de fumar e câncer de laringe, o
sedentarismo possivelmente não cause influencia alguma) (PEREIRA,
1995).

As variáveis de confundimento são aquelas que: estão associadas à exposição


principal em foco e/ou ser um outro fator de risco para o desfecho e/ou não
constitui elo entre a exposição e o desfecho (PEREIRA, 1995). Portanto, durante o
planejamento do experimento, essas situações devem ser corretamente planejadas
e analisadas. O que constitui a primeira forma de evitar o viés de confundimento.

Outras estratégias preventivas que podem ser usadas para evitar o


confundimento na etapa de elaboração do experimento são: restrição,
pareamento e randomização. A restrição constitui em definir claramente
quem vai ser objeto do estudo e em que situação. Pareamento entre sujeitos
do estudo é uma estratégia que pode fundamentar um estudo de caso-controle
pareado. E por último a randomização, ela é a mais eficiente para eliminar viés
de confundimento, contudo não é uma alternativa que possa ser utilizada em
todos os delineamentos experimentais.

81
Unidade iii | Análises multivariadas

Na fase de análise, outras estratégias podem ser utilizadas para controlar o


viés de confudimento: estratificação e análises multivariadas. A estratificação
consiste em separar em grupos, de acordo com a possível suspeita de viés de
confudimento. Por exemplo, a idade como fator de confundimento no estudo de
exposição hábito de fumar e câncer de laringe. Podemos separar os sujeitos do
estudo por faixa etária (estratificação) e analisar a medida de risco em cada grupo.

Montando uma análise multivariada

A análise multivariada é a extensão matemática para o modelo de rede de causas.


Por exemplo, quando consideramos uma doença (o desfecho) resultado de
múltiplos fatores, é interessante determinar como esses fatores concorrem para
o aparecimento da doença (exposição/desfecho; variável dependente/variáveis
independentes) (PEREIRA, 1995).

Figura 35. Representação esquemática de como construir uma análise multivariada.

Variável É o desfecho, é a
dependente, Na modelagem
variável que sofre Exemplo: doença,
matemá�ca é
efeito ou influência de morte
conhecida como Y
outras variáveis
resposta
Variáveis É o que buscamos
independentes, saber, como essa Na modelagem
Exemplo: hábitos,
condição matemá�ca é
exposições, influencia a
tratamentos
conhecida como X
fatores de risco resposta

Fonte elaborada pela autora.

Figura 36. Modelo multivariado.

Nutrição Variável
materna independente X1
Peso ao
Variável nascimento
resposta Y
Tempo de Variável
independente X2
gestação

Fonte: adaptada de Pereira, 1995.

Como lidar com outliers?

Ouliters consistem em valores “aberrantes”, destoantes de todos os outros em


sua base de dados. E esse dado deve ser analisado com muita calma para saber

82
Análises multivariadas | Unidade iii

como lidar com ele. Isso porque essa observação pode enviesar sua modelagem,
ou justamente algum tipo de comportamento que está sendo buscado dentro de
determinada situação que você está analisando.

Esses comportamentos podem ser observados por uma “análise visual” da base
de dados (por exemplo, se em idade houver um indivíduo com 210 anos, esse
possivelmente foi valor aberrante devido a erro de digitação). Mas nem sempre
isso pode ser possível, devido ao tamanho de muitas bases de dados que são
trabalhadas. Outros métodos podem incluir, a depender da natureza da variável,
sua análise descritiva, gráficos de dispersão, histogramas.

Quando identificados, algumas estratégias podem ser implementadas para


lidar com esses valores discrepantes. Você pode excluir o indivíduo (analito,
resultado etc.) com esse valor da sua análise. Você pode realizar uma análise
em separado com todos os outliers (por exemplo: empresas que estão faturando
apesar da crise financeira do mercado). Você pode também, com algoritmos de
clusterização, corrigir esses valores e atribuir o que seria um valor adequado
para aquela variável (PRATES; JOPEN, 2017).

» SISLAU FMUSP. Análise Multivariada. YouTube, 2013. Disponível em:


https://www.youtube.com/watch?v=ou1Q90sUbNA .

» AQUARELA ADVANCED ANALYTICS. Big Data Clustering Strategy for


Business. YouTube, 2016. Disponível em: https://www.youtube.com/
watch?v=Qz_UIAT1TMs.

83
CAPÍTULO 2
Agrupamento de variáveis

Como fazer agrupamento de variáveis


O agrupamento de variáveis consiste em como você organiza suas variáveis
para trabalhar com elas. Em termos técnicos consiste em colocar as unidades do
estudo em grupos, de acordo com características por elas compartilhadas. Para
análises estatísticas estocásticas, podemos agrupar de acordo com os objetivos
das análises e com as características do banco de dados.

Contudo, com o advento da ciência de dados, data mining, algoritmos


computacionais, essa separação e classificação das variáveis. As etapas a serem
seguidas para realizar um agrupamento, identificação e separação dos grupos
recomendadas por cientistas de dados são (THEODORIDIS; KOUTROUMBAS,
2008):

» Seleção de características: deve-se selecionar as características, aspectos


e fatores que mais contribuem para a discriminação dos grupos.
Por exemplo: os animais são carnívoros, herbívoros ou onívoros?
Na separação de cores: são cores primárias ou cores secundárias?
Essa redução das características facilita a análise de dados, inclusive
existe uma análise estatística exclusivamente para isso: a análise de
componentes principais.

» Medida de proximidade: como o problema é achar uma partição


natural em um conjunto de dados, é necessário definirmos alguma
medida que quantifique o quão similar (ou dissimilar) são dois vetores
de características. Por exemplo, em medidas quantitativas que você
faz um corte. (Fator em análise: a altura de objetos, você quer fazer
o agrupamento em duas categorias e estabelece um corte: acima dos
valores de 30, o objetivo é classificado como alto, valores abaixo de 30,
o objeto é classificado como baixo).

» Critério de agrupamento: é o resultado da medida de proximidade


definida, deseja-se saber como o conjunto de dados deve ser
particionado, de tal maneira que cada grupo contenha dados com
maior similaridade. Em análises mais simples, como do exemplo do

84
Análises multivariadas | Unidade iii

item anterior, essas duas etapas se sobrepõem. Contudo, em análises


mais complexas, os algoritmos de agrupamento utilizam uma função
de critério, tais como a soma dos quadrados das distâncias, para
encontrar um agrupamento que otimize a função de critério.

» Algoritmo de agrupamento: essa etapa se refere à escolha do algoritmo


que deve ser utilizado para descobrir a estrutura do conjunto de
dados, isto é, como seus dados são vistoriados/analisados para “serem
separados”.

» Validação dos resultados: com os agrupamentos definidos, deve-se


avaliar se o agrupamento está correto.

» Interpretação dos resultados: essa etapa demanda um especialista


no problema. É uma análise de dados sobre genética? Chame um
geneticista. É uma análise sobre a ocorrência de uma doença? Chame um
epidemiologista. E assim por diante.

Trabalhando com diversas variáveis


Após a verificação da natureza das variáveis, quais são as independentes e as
dependentes, está na hora de começar a ajustar o seu modelo. Quando temos
diversas variáveis independentes para fazer uma regressão, elas podem ser
agrupadas de diferentes maneiras. E a “entrada” ou “saída” do modelo regressivo
multivariado podem ser organizadas de várias formas.

Em um estudo sobre os fatores associados à ocorrência de uma determinada


doença, você pode agrupar os dados por categorias para depois fazer a modelagem
matemática.

Figura 37. Exemplo de agrupamento de variáveis para estudo de fatores associados à ocorrência de uma determinada
doença.

Fatores genéticos Comorbidades Comportamentos sociais

• Expressão de HLA • Diabético ou não diabético • Fumante ou não fumante


• IL12RB1 (Gene envolvido na • Cardiopata ou não • Trabalha em atividade de
expressão da interleucina e cardiopata risco
atividade imune de linfócitos
Th1)

Fonte: elaborada pela autora.

85
Unidade iii | Análises multivariadas

A organização dos dados também pode ser hierárquica, como, por exemplo, em
uma árvore genealógica.

Figura 38. Exemplo de agrupamento hierárquico.

Grupo 1 Pai e mãe

Grupo 2 Filho F1A Filho F1B

Grupo 3 Neto F2A Neto F2B Neto F2A

Fonte: elaborada pela autora.

Depois dos seus dados devidamente organizados, a entrada de variáveis no


modelo de regressão pode ser realizada de diversas formas. As principais são as
“backwards selection”, em que todas as variáveis são colocadas e depois retiradas
uma a uma, para avaliar os ajustes. Já a “stepfoward selection”, uma variável é
incluída por vez no modelo.

Além dessas duas formas, as variáveis podem ser incluídas no modelo de uma
forma hierarquizada. Isto é, de acordo com o grau de “proximidade” (importância)
dentro do evento estudado.

É importante lembrar que, para trabalhar com modelos regressivos com mais de
uma variável independente, alguns pressupostos devem ser observados:

» Distribuição normal: para um valor fixo da variável independente X


(que, idealmente, deve ser contínua), Y é uma v.a. com distribuição
normal, com média e variância finitas. Observação: se Y for uma
variável dicotômica trabalhamos com regressão logística.

» Os resultados da variável dependente Y para cada valor de Xi são


independentes uns dos outros.

» O valor médio de Y é uma função de linha reta sobre os valores de Xi.

» Homocedasticidade: a variância de Y é a mesma, quaisquer que sejam os


valores de Xi.

86
Análises multivariadas | Unidade iii

Assim como na regressão linear simples, podemos estimar pelo método dos
quadrados mínimos e determinar a linha reta mais adequada, minimizando a
soma dos quadrados das diferenças entre os valores estimados de Y por meio
da reta de regressão e os valores observados de Y. E o método da máxima
verossimilhança, que consiste em determinar uma função, denominada
função de verossimilhança L(y, θ), que consiste na função de probabilidade de
ocorrência daquele específico conjunto de dados e estimar os parâmetros que a
maximizam.

No exemplo a seguir, vamos comparar uma regressão logística e uma regressão


de Poisson. Nesse exemplo, foi realizado um grupamento hierárquico.

Informações sobre a base de dados e necessidade das análises logo a seguir.

Artigo final publicado como:

TEIXEIRA, A. I. P. et al. A cross-sectional approach including dog owner


characteristics as predictors of visceral leishmaniasis infection in dogs. Mem
Inst Oswaldo Cruz, Rio de Janeiro, v. 115, e190349, 2020. Disponível em:
https://www.scielo.br/j/mioc/a/Kkp9zR84JZsFW5TYsTpQWWJ/?format=p
df&lang=en.

A leishmaniose visceral canina é uma enfermidade que, apesar dos esforços de


controle, continua a ser um problema de saúde pública. O estudo de fatores
associados à infecção canina pode contribuir para a elaboração de melhores
estratégias de controle. Foi realizado um estudo transversal em amostra
representativa da população canina de uma região endêmica do Distrito Federal
para estimar a prevalência de infecção e dos fatores associados à infecção no
período de outubro de 2015 a março de 2017. A infecção foi detectada por meio
da aplicação combinada de métodos parasitológicos convencionais, sorológicos e
moleculares.

» A variável Y = o cão estar doente/cão não estar doente.

» As variáveis Xn = aspectos relacionados a biologia do animal (pelagem,


macho/fêmea, porte etc.); aspectos ambientais (residência, quintal
cimentado/quintal com grama etc.); aspectos de cuidados com o animal
(vacinação, alimentação etc.).

87
Unidade iii | Análises multivariadas

» É um estudo epidemiológico que passou por duas modelagens


matemáticas, regressão logística e regressão de Poisson por ajuste
robusto.

› Essas metodologias foram exploradas porque a variável dependente


é dicotômica.

Relembre rapidamente aqui as medidas de associação para variáveis


dicotômicas:

Figura 39. Tabela de contingência.

Fator de exposição (variáveis


independentes)

(variável dependente em uma regressão para ajuste da SIM NÃO


medida)

Doentes A B

Sadios C D

Fonte: elaborada pela autora.

A/C A.D A ( B + D)
Odds =
ratio = Razão de Prevalências
=
B/D B.C B ( A+C)

Interpretação:

Figura 40. Interpretação de medidas de associação.

Intervalo de
confiança do OR
ou do RP tem o
valor 1 incluído

Não há associação Há associação


entre as variáveis entre as variáveis

numerador =
OR e RR > 1 OR e RR < 1
denominador)

O fator de exposição O fator de exposição "evita"


"aumenta" a chance/risco que o evento ocorra. Efeito de
do evento ocorrer proteção

Fonte: elaborada pela autora.

88
Análises multivariadas | Unidade iii

Veja mais em:

» BIASSOLI, M. Interpretação de OR, RR, ... Parte II: Algoritmo simplificado.


YouTube, 2016. Disponível em: https://www.youtube.com/watch?v=kRp-
eG2lyF8.

» PERES, F. Regressão Logística Multinomial no SPSS (Parte 1). YouTube,


2020. Disponível em: https://www.youtube.com/watch?v=6K89oXjYPLI.

» BIOESTATÍSTICA EM GOTAS. Regressão de Poisson. YouTube, 2020.


Disponível em: https://www.youtube.com/watch?v=lGQ4vxrmdnU.

» BIOESTATÍSTICA EM GOTAS. Análise Discriminante. YouTube, 2020.


Disponível em: https://www.youtube.com/watch?v=SIk_vQ_yGb0.

» BIOESTATÍSTICA EM GOTAS. Análise Multivariada Escolha do Modelo


Estatístico. YouTube, 2020. Disponível em: https://www.youtube.com/
watch?v=cSv4HFovrW8.

» RUMEL, D. “Odds ratio”: algumas considerações. Rev. Saúde Pública, São


Paulo v. 20, n. 3, 1986. Disponível em: https://www.revistas.usp.br/rsp/
article/view/23359/25389.

» WAGNER, M. B. CALLEGARI, S. D. Medidas de associação em estudos


epidemiológicos: risco relativo e odds ratio. Jornal de Pediatria, v. 74,
pp. 247-251, 1998. Disponível em: https://www.lume.ufrgs.br/bitstream/
handle/10183/54354/000246332.pdf?sequence=1.

Primeiro, foi realizada uma análise de covariância:

Tabela 16. Tabelas de covariância (elaboradas no programa SPSS).

Correlações
Pelagem clara Pelagem curta
Pelagem clara Coeficiente de Correlação 1,000 -,047
Sig. (2 extremidades) . ,580
N 143 140
Pelagem curta Coeficiente de Correlação -,047 1,000
Sig. (2 extremidades) ,580 .
N 140 155
Fonte: elaborada pela autora.

89
Unidade iii | Análises multivariadas

Tabela 17. Tabela de covariância.

Correlações
Quintal com Quintal com Quintal com Conviver
predominância presença predominância com
Residência de terra e de matéria Uso de telas de áreas outros
tem quintal grama orgânica nas janelas cimentadas animais
Residência Coeficiente de
1,000 ,466** ,267** -,013 ,146 -,024
tem quintal correlação
Sig. (2
. ,000 ,001 ,873 ,073 ,772
extremidades)
N 151 151 151 151 151 151
Quintal com Coeficiente de
,466** 1,000 ,482** -,156 -,770** ,023
predominância correlação
de terra e
Sig. (2
grama ,000 . ,000 ,055 ,000 ,780
extremidades)
N 151 151 151 151 151 151
Quintal com Coeficiente de
,267** ,482** 1,000 -,079 -,346** ,037
presença correlação
de matéria
Sig. (2
orgânica ,001 ,000 . ,336 ,000 ,653
extremidades)
N 151 151 151 151 151 151
Uso de telas Coeficiente de
-,013 -,156 -,079 1,000 ,202* -,062
nas janelas correlação
Sig. (2
,873 ,055 ,336 . ,013 ,447
extremidades)
N 151 151 151 151 151 151
Quintal com Coeficiente de
,146 -,770** -,346** ,202* 1,000 -,023
predominância correlação
de áreas
Sig. (2
cimentadas ,073 ,000 ,000 ,013 . ,784
extremidades)
N 151 151 151 151 151 151
Conviver com Coeficiente de
-,024 ,023 ,037 -,062 -,023 1,000
outros animais correlação
Sig. (2
,772 ,780 ,653 ,447 ,784 .
extremidades)
N 151 151 151 151 151 151
**. A correlação é significativa no nível 0,01 (2 extremidades).

*. A correlação é significativa no nível 0,05 (2 extremidades).

Fonte: elaborada pela autora.

90
Análises multivariadas | Unidade iii

Tabela 18. Tabela de covariância.

Correlações
Compareceu
Animal ter recibo
Conhecimentos a pelo menos Escore
algum tipo de
sobre sintomas uma consulta poder
vacina algum
lvh com med. vet. no aquisitivo
momento na vida
último ano
Coeficiente de
1,000 ,128 ,020 ,022
Conhecimentos sobre correlação
sintomas lvh Sig. (2 extremidades) . ,118 ,807 ,787
N 151 151 151 150

Animal ter recibo Coeficiente de


,128 1,000 ,206* ,018
algum tipo de vacina correlação
Rô de spearman

algum momento na Sig. (2 extremidades) ,118 . ,011 ,826


vida N 151 151 151 150

Compareceu a pelo Coeficiente de


,020 ,206* 1,000 -,048
menos uma consulta correlação
com med. vet. no Sig. (2 extremidades) ,807 ,011 . ,556
último ano N 151 151 151 150
Coeficiente de
,022 ,018 -,048 1,000
Escore poder correlação
aquisitivo Sig. (2 extremidades) ,787 ,826 ,556 .
N 150 150 150 150
Fonte: elaborada pela autora.

A correlação é significativa no nível 0,05 (2 extremidades).

As variáveis com correlação alta foram previamente excluídas das análises.

Nas análises univariadas, os p-valores <0,20 foram incluídas nas análises

Observe as “saídas” de dois diferentes programas (SPSS e STATA) com análises


diferentes e no final a comparação entre os dois valores ajustados.

Regressão logística ontestep (todas entram na análise) com todas as


variáveis.

Tabela 19. Regressão logística.

Resumo do modelo
Etapa Verossimilhança de log -2 R quadrado cox & snell R quadrado nagelkerke
1 119,887a ,263 ,380
A. Estimação finalizada no número de iteração 6 porque as estimativas de parâmetro mudaram
foram alteradas para menos de ,001.
Fonte: elaborada pela autora.

91
Unidade iii | Análises multivariadas

Tabela 20. Regressão logística.

Variáveis na equação
95% c.i. Para exp(b)
B S.e. Wald Df Sig. Exp(b) Inferior Superior
Quintal com área predominante de
1,635 ,790 4,280 1 ,039 5,127 1,090 24,120
terra e vegetação
Animal tomou alguma vacinação -,965 ,583 2,737 1 ,098 ,381 ,122 1,195
Levou o cão a pelo uma consulta
-1,545 ,877 3,105 1 ,078 ,213 ,038 1,189
com mv no último ano
Escore socioaquisitivo (dicotômico) 1,213 ,492 6,088 1 ,014 3,365 1,283 8,824
Convive com outros animais -,608 ,545 1,244 1 ,265 ,544 ,187 1,585
Conhece sintomas de lvh 1,398 ,713 3,849 1 ,050 4,049 1,001 16,370
Casa com quintal 1,272 1,318 ,931 1 ,335 3,568 ,269 47,253
Presença de matéria orgânica no
-,577 ,532 1,174 1 ,279 ,562 ,198 1,595
quintal
Uso de tela nas janelas -,767 ,802 ,913 1 ,339 ,465 ,096 2,238
Pelagem clara 1,067 ,484 4,859 1 ,028 2,908 1,126 7,513
Pelagem curta 1,515 ,651 5,420 1 ,020 4,549 1,271 16,285
Constante -4,287 1,545 7,700 1 ,006 ,014
A. Variável(is) inserida(s) na etapa 1: quint_terraegrama, vacina, consultasvetultimoano, escore16, outros_animais,
sintomas_em_humanos, quint, quint_mo, janela_telada, usaresse_corpelagem, usaresse_pelagemcurta.
Fonte: elaborada pela autora.

Regressão logística stepfoward

Tabela 21. Regressão logística.

Verossimilhança de log -2 R quadrado Cox & Snell R quadrado Nagelkerke


120,873a
,258 ,373
Fonte: elaborada pela autora.

Tabela 22 Variáveis na equação

Exp(B) 95% C.I. para EXP(B)


B S.E. Wald df Sig. Inferior Superior
Outros_animais -,544 ,538 1,021 1 ,312 ,580 ,202 1,667
sintomas_em_humanos(1) 1,449 ,708 4,190 1 ,041 4,261 1,064 17,069
Quint(1) 1,148 1,315 ,762 1 ,383 3,152 ,239 41,516
Etapa 1 a
Quint_terraegrama(1) 1,731 ,783 4,889 1 ,027 5,644 1,217 26,169
Quint_Mo(1) -,549 ,529 1,076 1 ,299 ,578 ,205 1,629
vacina(1) -,903 ,576 2,460 1 ,117 ,405 ,131 1,253
consultasvetultimoano(1) -1,503 ,872 2,973 1 ,085 ,223 ,040 1,228

92
Análises multivariadas | Unidade iii

Exp(B) 95% C.I. para EXP(B)


B S.E. Wald df Sig. Inferior Superior
escore16(1) 1,207 ,492 6,019 1 ,014 3,342 1,275 8,762
USARESSE_corpelagem(1) 1,080 ,483 5,007 1 ,025 2,944 1,143 7,582
Etapa 1 a
USARESSE_
1,433 ,638 5,036 1 ,025 4,190 1,199 14,646
pelagemcurta(1)
Constante -4,385 1,556 7,943 1 ,005 ,012
a. Variável(is) inserida(s) na etapa 1: Outros_animais, sintomas_em_humanos, Quint, Quint_terraegrama, Quint_Mo,
vacina, consultasvetultimoano, escore16, USARESSE_corpelagem, USARESSE_pelagemcurta.

Tabela 23. Regressão logística.

Estimativas do parâmetro
95% Intervalo de
95% Intervalo de Confiança de Wald
Confiança de Wald Teste de hipótese Exp(B) para Exp(B)
Erro Qui-quadrado
Parâmetro B Padrão Inferior Superior de Wald df Sig. Inferior Superior
(Interceptação) -1,489 ,8242 -3,104 ,127 3,262 1 ,071 ,226 ,045 1,135
[Outros_animais=,00] ,230 ,2624 -,284 ,744 ,767 1 ,381 1,258 ,752 2,105
[Outros_animais=1,00] 0a . . . . . . 1 . .
[sintomas_em_humanos=,00] -,642 ,2607 -1,153 -,131 6,058 1 ,014 ,526 ,316 ,878
[sintomas_em_humanos=1,00] 0a . . . . . . 1 . .
[Quint=,00] -,707 ,9681 -2,604 1,191 ,533 1 ,465 ,493 ,074 3,290
[Quint=1,00] 0a . . . . . . 1 . .
[Quint_terraegrama=,00] -1,087 ,5775 -2,219 ,045 3,543 1 ,060 ,337 ,109 1,046
[Quint_terraegrama=1,00] 0a . . . . . . 1 . .
[Quint_Mo=,00] ,287 ,2769 -,255 ,830 1,077 1 ,299 1,333 ,775 2,293
[Quint_Mo=1,00] 0a . . . . . . 1 . .
[janela_telada=,00] ,404 ,4510 -,480 1,288 ,804 1 ,370 1,498 ,619 3,626
[janela_telada=1,00] 0a . . . . . . 1 . .
[vacina=,00] ,484 ,3410 -,185 1,152 2,011 1 ,156 1,622 ,831 3,165
[vacina=1,00] 0a . . . . . . 1 . .
[consultasvetultimoano=,00] 1,041 ,6036 -,142 2,224 2,972 1 ,085 2,831 ,867 9,242
[consultasvetultimoano=1,00] 0a . . . . . . 1 . .
[escore16=,00] -,667 ,3164 -1,287 -,047 4,442 1 ,035 ,513 ,276 ,954
[escore16=1,00] 0a . . . . . . 1 . .
[USARESSE_pelagemcurta=,00] -,822 ,4123 -1,630 -,013 3,971 1 ,046 ,440 ,196 ,987
[USARESSE_
0a . . . . . . 1 . .
pelagemcurta=1,00]
[USARESSE_corpelagem=,00] -,492 ,2470 -,977 -,008 3,975 1 ,046 ,611 ,377 ,992

93
Unidade iii | Análises multivariadas

Estimativas do parâmetro
[USARESSE_corpelagem=1,00] 0a . . . . . . 1 . .
(Escala) 1b
Variável Dependente: VARIAVEL DEPENDENTE
Modelo: (Interceptação), Outros_animais, sintomas_em_humanos, Quint, Quint_terraegrama, Quint_Mo, janela_telada, vacina,
consultasvetultimoano, escore16, USARESSE_pelagemcurta, USARESSE_corpelagem
a. Definido para zero porque este parâmetro é redundante.
b. Fixo no valor exibido.
Fonte: elaborada pela autora.

Extrato de saída do modelo regressivo de Poisson com ajuste robusto

Modelo Cuidados > biológico > ambiente

. glm infectados consultasvetultimoano vacina escore16, family(poisson)


link(log) vce(robust) eform

Iteration 0: log pseudolikelihood = -94.877446


Iteration 1: log pseudolikelihood = -92.905513
Iteration 2: log pseudolikelihood = -92.902845
Iteration 3: log pseudolikelihood = -92.902844

Generalized linear models No. of obs =


156
Optimization : ML Residual df =
152
Scale parameter =
1
Deviance = 101.8056885 (1/df) Deviance =
.6697743
Pearson = 116.389053 (1/df) Pearson =
.7657175

Variance function: V(u) = u [Poisson]


Link function : g(u) = ln(u) [Log]

AIC =
1.242344

94
Análises multivariadas | Unidade iii

Log pseudolikelihood = -92.90284425 BIC =


-665.7724

------------------------------------------------------------------------------------

---

| Robust

infectados | IRR Std. Err. z P>|z| [95% Conf.

Interval]

----------------------+-------------------------------------------------------------

---

consultasvetultimoano | .4674135 .2399176 -1.48 0.138 .1709189

1.27824

vacina | .5758609 .1617999 -1.96 0.050 .332013

.9988036

escore16 | 1.849778 .5341052 2.13 0.033 1.050373

3.257584

_cons | .3103603 .0926381 -3.92 0.000 .1728998

.5571058

------------------------------------------------------------------------------------

---

.
end of do-file

. do “C:\Users\LUCIA~1.SAN\AppData\Local\Temp\STD00000000.tmp”

. glm infectados vacina escore16 usaresse_pelagemcurta usaresse_


corpelagem, family(poisson) link(log) vce(robust) eform

Iteration 0: log pseudolikelihood = -82.114604


Iteration 1: log pseudolikelihood = -80.275014
Iteration 2: log pseudolikelihood = -80.270971
Iteration 3: log pseudolikelihood = -80.27097

Generalized linear models No. of obs =


137

95
Unidade iii | Análises multivariadas

Optimization : ML Residual df =
132
Scale parameter =
1
Deviance = 84.54193962 (1/df) Deviance =
.6404692
Pearson = 94.21489583 (1/df) Pearson =
.7137492

Variance function: V(u) = u [Poisson]


Link function : g(u) = ln(u) [Log]

AIC =
1.244832
Log pseudolikelihood = -80.27096981 BIC =
-564.8955

------------------------------------------------------------------------------------

---

| Robust

infectados | IRR Std. Err. z P>|z| [95% Conf.

Interval]

----------------------+-------------------------------------------------------------

---

vacina | .5554585 .1598577 -2.04 0.041 .3159954

.9763879

escore16 | 2.252199 .7273538 2.51 0.012 1.195939

4.241355

usaresse_pelagemcurta | 2.494189 1.107064 2.06 0.039 1.045002

5.953078

usaresse_corpelagem | 1.545943 .4070029 1.65 0.098 .9227755

2.589945

_cons | .1009694 .0639385 -3.62 0.000 .0291857

.3493091

------------------------------------------------------------------------------------

---

96
Análises multivariadas | Unidade iii

end of do-file

. glm infectados vacina escore16 usaresse_pelagemcurta quint_mo quint_


terraegrama outros_animais, family(poisson) link(log) vce(robust) eform

Iteration 0: log pseudolikelihood = -88.878802


Iteration 1: log pseudolikelihood = -86.421243
Iteration 2: log pseudolikelihood = -86.406095
Iteration 3: log pseudolikelihood = -86.406088

Generalized linear models No. of obs =


152
Optimization : ML Residual df =
145
Scale parameter =
1
Deviance = 88.81217554 (1/df) Deviance =
.6124978
Pearson = 99.42108344 (1/df) Pearson =
.6856626

Variance function: V(u) = u [Poisson]


Link function : g(u) = ln(u) [Log]

AIC =
1.229027
Log pseudolikelihood = -86.40608777 BIC =
-639.6505

------------------------------------------------------------------------------------

---

| Robust

infectados | IRR Std. Err. z P>|z| [95% Conf.

Interval]

----------------------+-------------------------------------------------------------

---

97
Unidade iii | Análises multivariadas

vacina | .6262655 .1867878 -1.57 0.117 .3490455

1.12366

escore16 | 2.027373 .5806397 2.47 0.014 1.15651

3.554003

usaresse_pelagemcurta | 2.311009 .9600585 2.02 0.044 1.023737

5.216928

quint_mo | 1.001515 .2618624 0.01 0.995 .5999247

1.671929

quint_terraegrama | 4.152008 2.379465 2.48 0.013 1.350346

12.76648

outros_animais | .7680715 .1928163 -1.05 0.293 .4695874

1.256281

_cons | .0452395 .0358702 -3.90 0.000 .0095632

.2140089

---------------------------------------------------------------------------------------

Log pseudolikelihood = -86.40608777 BIC = -639.6505

------------------------------------------------------------------------------------

---

| Robust

infectados | IRR Std. Err. z P>|z| [95% Conf. Interval]

----------------------+-------------------------------------------------------------

---

vacina | .6262655 .1867878 -1.57 0.117 .3490455 1.12366

escore16 | 2.027373 .5806397 2.47 0.014 1.15651 3.554003

usaresse_pelagemcurta | 2.311009 .9600585 2.02 0.044 1.023737 5.216928

quint_mo | 1.001515 .2618624 0.01 0.995 .5999247 1.671929

quint_terraegrama | 4.152008 2.379465 2.48 0.013 1.350346 12.76648

98
Análises multivariadas | Unidade iii

outros_animais | .7680715 .1928163 -1.05 0.293 .4695874 1.256281

_cons | .0452395 .0358702 -3.90 0.000 .0095632 .2140089

---------------------------------------------------------------------------------------

Comparação entre os valores de odds ratio ajustado obtido por uma regressão
logística e de razão de prevalências ajustado pela regressão de Poisson.

Observe atentamente a diferença entre os tamanhos dos intervalos de confiança


dos valores ajustados pelas duas regressões e reflita sobre qual foi o mais
adequado para publicação. Lembrando que as tabelas a seguir apresentam os
OR corrigidos pela regressão logística e a razão de prevalências ajustada pela
regressão de Poisson com ajuste robusto.

Tabela 24. Características inerentes ao cão.

Odds Ratio Razão de


Não corrigido Prevalências
N Variáveis Infectados p valor a
infectados ajustada
(IC 95%)
1 - fêmea 1,048 1,035
19 52 0,896
Sexo 160 (0,516-2,128) (0,614-,1744)
0 - macho 23 66
2,797 2,238
1 - pelo curto 37 82 0,042
Pelagem 155 (1,007-7,767) (0,905-5,270)
0 - pelo não curto 5 31
2,053 1,674
1 - pelagem clara 18 32 0,061
(0,959-4,391) (0,979-2,861)
Cor da pelagem 143
0 - pelagens não
20 73
claras
1 - algum grau de 1,615 1,400
7 13 0,342
magreza (0,597-4,370) (0,721-2,715)
Estrutura corporal 160
0 - normal ou
35 105
obeso
1 - ter algum 0,958 0,960
23 64 0,913
Presença de ectoparasito (0,477-2,051) (0,555-1,690)
142
ectoparasitos 0 - não ter
15 40
ectoparasito
1 - maior ou igual 1,498 1,348
Escore clínico 15 41 0,266
158 a 2 pontos (0,733-3,061) (0,795-2,286)
dicotômico
0 - até 1 ponto 26 76
a
p-valor da estatística qui-quadrado; b p-valor do Teste Exato de Fisher

Fonte: elaborada pela autora.

99
Unidade iii | Análises multivariadas

Tabela 25. Características do ambiente em que ele vive e como ele vive.

Não p Odds Ratio Razão de


N Variáveis Infectados Prevalências
infectados valora (IC 95%)
0,590 0,689
Conviver com 1 - sim 28 88 0,182
156 (0,271-1,284) (0,271-1,284)
outros animais
0 - não 14 26
0,764 0,823
1 - sim 25 75 0,469
Conviver com (0,369-1,528) (0,488-1,388)
156
outros cães 0 - não
17 39

1,441 1,294
Conviver com 1 - sim 8 16 0,441
156 (0,566-3,667) (0,685-2,443)
algum gato
0 - não 34 98
1,042 1,031
Conviver com 1 - sim 17 45 0,910
156 (0,506-2,145) (0,609-1,744)
alguma ave
0 - não 25 69
1,375 1,250
Conviver com 1 - sim 2 4 0,718
156 (0,242-7,798) (0,391-3,991)
suínos
0 - não 40 110
4,823 3,727
Residência com 1 - sim 41 102 0,188b
156 (0,607-38,29) (0,557-24,938)
quintal
0 - não 1 12

Casa ter
quintal com 6,000 4,333
predominância 1 - sim 39 78 0,002
156 (1,738-20,71) (1,418-13,241)
áreas com
vegetação e ou
com terra 0 - não 3 36
Casa ter 0,151 0,212
1 - sim 2 26 0,010
quintal com (0,034-0,673) (0,054-0,827)
151
predominância de
áreas cimentadas 0 - não 38 85

Presença de 1,725 1,487


1 - sim 23 47 0,132
matéria orgânica 156 (0,845-3,520) (0,884-2,499)
no quintal 0 - não 19 67
0,014 0,044
1 - sim 3 96 0,160
Janela telada 156 (0,004-0,051) (0,014-0,136)
0 - não 39 18
0,908 0,908
Uso de repelentes 1 - sim 29 81 0,808
156 (0,421-1,961) (0,421-1,961)
domiciliares
0 - não 13 33
Fonte: elaboração própria.

100
Análises multivariadas | Unidade iii

Tabela 26. Conhecimentos do proprietário, e cuidados ofertados ao cão.

Não Odds Ratio Razão de


N Variáveis Infectados p valora Prevalências
infectados (IC 95%)
0,739 0,800
Alguma visita da 1 - sim 14 46 0,424
156 (0,351-1,553) (0,459-1,393)
zoonose
0 - não 28 68
0,994 0,996
1 - sim 23 62 0,730b
Conhecimentos (0,488-2,028) (0,593-1,674)
156
sobre LVC 0 - negativo ou
19 51
ignorado

Conhecimento 1,192 1,137


1 - sim 21 52 0,626
sobre a (0,581-2,241) (0,678-1,906)
156
Transmissão da 0 - negativo ou
LVC 21 62
ignorado

Conhecimentos 2,719 1,910


1 - sim 8 9 0,127b
sobre Sintomas (0,972-7,601) (1,066-3,420)
155
da LV em 0 - negativo ou
humanos 34 104
ignorado
Conhecimentos 1,040
sobre a 1,055
1 - sim 7 18 0,725b (0,521-2,072)
possibilidade cura (0,406-2,743)
155
da leishmaniose
visceral para os 0 - negativo ou
35 95
cães? ignorado
Conhecimento 1,172
1,259
sobre existência 1 - sim 15 45 0,654b (0,695-1,976)
da vacina contra (0,586-2,702)
156
a leishmaniose
visceral para os 0 - negativo ou
27 68
cães? ignorado

Tipo de 2 - alimentação 1,443 1,308


21 66 0,314
alimentação específica (0,705-2,955) (0,774-2,210)
155
ofertada ao 1 - alimentação
animal 20 48
comum

O animal ter tido 0,438 0,570


algum tipo de 1 - sim 30 97 0,052 (0,334-0,974)
156 (0,188-1,019)
vacinação alguma
vez na vida 0 - não 12 17

1 - no interior 0,812 0,856


4 13 1,000b
Local aonde o da residência (0,248-2,654) (0,248-2,654)
148
animal dorme 2 - fora da
36 95
residência

101
Unidade iii | Análises multivariadas

Não Odds Ratio Razão de


N Variáveis Infectados p valora Prevalências
infectados (IC 95%)
0,812 0,662
1 - sim 40 111 0,612b
Ambiente externo 156 (0,248-2,654) (0,219-2,001)
0 - não 2 3
0,777 0,831
1 - sim 20 62 0,485
Uso de repelentes 157 (0,382-1,577) (0,495-1,396)
0 - não 22 53
1,428 1,285
Queixa de 1 - sim 7 14 0,477
156 (0,533-3,827) (0,658-2,509)
emagrecimento
0 - não 35 100
Consultas no 0,398 0,487
1 - sim 4 27 0,049
veterinário (0,128-1,230) (0,189-1,250)
155
(pelo menos 1 no
0 - não 38 87
último ano)
2,007 1,679
Escore poder 1 - > 16 pontos 29 60 0,066
aquisitivo (0,948-4,252) (0,947-2,976)
156
dicotômico 0 - até 16
13 54
pontos
a
p-valor da estatística qui-quadrado; b p-valor do Teste Exato de Fisher

Fonte: elaborada pela autora.

Foram escolhidos para publicação a regressão de Poisson com ajuste robusto


e os valores de razão de prevalências corrigidos. Isso porque, conforme você
pode observar, o intervalo de confiança é menor para razão de prevalências, que
inclusive em muitas literaturas científicas sobre epidemiologia é considerada a
melhor medida para estudos de prevalência. Além disso, vale a pena lembrar que
um intervalo de confiança “mais curto” indica uma maior precisão do dado.

Tenha sempre em mente que hoje existem máquinas e programas que “fazem
as contas”, o diferencial do profissional com habilidades em estatísticas é
determinar que tipos “de contas” precisam ser feitas.

Atualmente, as equipes de pesquisa e desenvolvimento são equipes


multidisciplinares. Com isso, na equipe de trabalho, o profissional responsável
pelas análises estatísticas é informado sobre a natureza biológica, médica,
química e científica do trabalho estudado. Veja os diferentes estudos
indicados a seguir. Eles abordam eventos distintos. E todos realizaram
análises multivariadas.

102
Análises multivariadas | Unidade iii

» MELO, M. M. D. C.; SOUZA, W. V; COUTO, G. B. L. Comparação de métodos


de regressão variada no estudo de determinantes da cárie dentária em
crianças. Rev. Bras. Saúde Matern. Infant., Recife, v. 14, n. 4, pp. 343-352,
2014. Disponível em: https://www.scielo.br/j/rbsmi/a/HDGN6gxVTs6Fchzn
4Vrw8Bz/?format=pdf&lang=pt.

» SANTOS, A. M. et al. Usando redes neurais artificiais e regressão


logística na predição da Hepatite A. Rev Bras Epidemiol, v. 8, n. 2, pp.
117-26, 2005. Disponível em: https://www.scielo.br/j/rbepid/a/wpHxNf
pjJz4k9VHBRrzgVfw/?lang=pt&format=pdf.

» CRUZ, P. G. Modelos empíricos para estimar o acúmulo de matéria seca


de capim-marandu com variáveis agrometeorológicas. Pesq. agropec.
bras., Brasília, v. 46, n. 7, pp. 675-681, 2011. Disponível em: https://www.
scielo.br/j/pab/a/dqkvQdxrZfDr67gDdqT3H8D/?lang=pt&format=pdf.

» CHAZAM, A. C. S.; CAMPOS, M. R.; PORTUGAL, F. B. Qualidade de vida


de estudantes de medicina da UERJ por meio do Whoqol-bref: uma
abordagem multivariada. Ciência & Saúde Coletiva, v. 20, n. 2, pp. 547-
556, 2015.

» Morgana Ferreira de Barros Orientador: Jeane Eliete Laguila Visentainer.


Estudo de genes de resposta imune em pacientes com Hemofilia.
Revista Brasileira de Hematologia e Hemoterapia. Disponível em:
https://www.scielo.br/j/rbhh/a/V6K9VvffDpyxMZKD9krYxdK/?format=
pdf&lang=pt.

» MASCIOLI, A. S. et al. Estimativas de parâmetros genéticos e


fenotípicos e análise de componentes principais para características
de crescimento na raça Canchim. Rev. bras. zootec., v. 29, n. 6, pp.
1654-1660, 2000. Disponível em: https://www.scielo.br/j/rbz/a/XDfBP
BsWfHBjjR8rMSvphFd/?lang=pt&format=pdf.

» SOUZA, J.C. et al. Estimativa das distâncias genéticas e componentes


principais em bovinos de corte no Brasil. Arch. Zootec., v. 59, n. 228,
pp. 479-485, 2010. Disponível em: https://scielo.isciii.es/pdf/azoo/
v59n228/art1.pdf.

103
ANÁLISES DE REDES
NEURAIS UNIDADE IV

CAPÍTULO 1
Conceitos gerais em análises de redes
neurais

Aspectos gerais e breve histórico


O conceito de redes neurais artificiais faz parte de uma técnica de análise cujo
funcionamento tenta reproduzir uma rede de neurônios natural (cérebro). Isso
tem alcançado bons resultados em diversas áreas de conhecimento científico,
principalmente pela rápida evolução de hardware e software dos últimos anos
(LIMA, 2012).

Pode-se dizer que consiste em uma simulação cognitiva, imitando as estruturas


e os mecanismos de raciocínio de um cérebro. Portanto, uma rede neural
artificial consiste em uma estrutura conexionista, na qual o processamento
é distribuído por um grande número de pequenas unidades densamente
interligadas. Esses elementos processadores interligados, “os neurônios”, com
conexões estabelecidas com um determinado valor, ou peso de conexão, ou ainda
“sinapses”. Desse modo, todo o processamento é realizado distributivamente
entre os elementos processadores da rede, onde cada qual o realiza isolada
e paralelamente, enviando seu resultado para outras unidades através das
conexões entre eles. Embora cada “neurônio” faça um processamento bastante
simples, a associação os capacita a realizar problemas altamente complexos
(FURTADO, 2019).

Em termos gerais, as redes neurais são formadas por um conjunto de entradas,


camada oculta (que realiza o processamento da informação) e saídas, e assim que
ela guarda um paralelo com um neurônio biológico em sua função de transmitir
um impulso elétricos. As redes neurais também podem ser definidas como um
algoritmo de classificação de dados, que é “escrito” em um programa e “aplicado”
em uma base de dados.
104
Análises de redes neurais | Unidade iv

Linha histórica do desenvolvimento das redes neurais

Depois desse período (1986/1987), passaram-se alguns anos sem grandes


avanços, e a partir da primeira conferência de redes neurais, houve um novo
desenvolvimento acadêmico-técnico dessa área, conforme a figura a seguir.

Figura 41. Linha do tempo atualizada.

Deep neural
networking
(pretraining)
Multi-layered SVM
ADALINE perceptron
XOR (backpropagation)

Perceptron
Anos Anos sem grandes avanços
dourados

Cérebro eletrônico

McCulloch & Pitts Rosenblatt, Widrow and Hoff Minsky and Papert Rumelhart, Hinton and Wiliams Vapnik and Cortes Hinton and Ruslan

Adjustable XOR problem Solution to nonlinearly Limitations of learning


weights Learneble weights “exclusive or” problem separable problems and prior knowledge Hierarquical
Weights are not And threshold predict the outputs of big computation, local Kernel function: feature learning
learned XOr logic gates given optima and overfiting human intervention
two binary inputs.

Fonte: adaptada de Deep Learning.

LACERDA, W. S. Guia de aulas práticas de redes neurais artificiais:


versão 1.3. Lavras: UFLA, 2019. Disponível em: http://repositorio.
ufla.br/bitstream/1/29980/5/APOSTILA_Guia%20de%20aulas%20pr%C3%A1
ticas%20de%20redes%20neurais%20artificiais-%20vers%C3%A3o%20
1.3.pdf.

Inspirações biológicas
O sistema nervoso é a parte do organismo responsável pela interação do ser
com o ambiente. Além de captar e processar informações externas, ele também
coordena ações voluntárias e involuntárias do ser. No homem e na maioria dos
mamíferos, é composto por sistema nervoso central e sistema periférico. O central
se divide em duas estruturas: o cérebro e a medula espinhal. Já o periférico se
divide em sistema eferente (somático e visceral) e aferente (somático e visceral). A
figura a seguir representa o funcionamento do sistema nervoso.

105
Unidade iv | Análises de redes neurais

Figura 42. Organização funcional do sistema nervoso do ser humano.

Sistema nervoso central

Integração
(Consciente)

Sistema nervoso periférico


Sistema nervoso
entrada aferente ou sensitiva
periférico
saída eferente ou motora
Integração
Ambiente (inconsciente)

Fonte: adaptada de Cunningham, 2014.

A unidade funcional do sistema nervoso é o neurônio, que biologicamente funciona


como unidade processadora mínima. As percepções do ambiente (neurônios
sensoriais eferentes) são transmitidas por uma rede de neurônios até o sistema
nervoso central que processa essa informação e envia, também por meio de
neurônios, agora os efetores, a resposta a esse estímulo. A ideia das redes neurais é
imitar esse meio de processamento da informação.

O neurônio é composto por dendritos, axônio e corpo celular. E a informação


entre os neurônios é transmitida por neurotransmissores, via um estímulo
elétrico. A figura a seguir apresenta uma fotomicrografia de neurônios.

Figura 43. Fotomicrografia de neurônios.

Braços
dendríticos

Corpo celular

Dendritos
Axônio

Axônio

Fonte: adaptada de Cunningham, 2014.

106
Análises de redes neurais | Unidade iv

O neurônio sobre qual as redes neurais artificiais são desenvolvidas consiste em


uma estrutura lógico-matemática que procura imitar um neurônio biológico.
Nesse sentido, o dendrito consistiria na entrada, o corpo celular ao processamento
e o axônio à saída da informação. Os estímulos captados pelas entradas são
processados pela função do soma, e o limiar de disparo do neurônio biológico
é substituído pela função de transferência. A figura a seguir representa um
esquema de um neurônio matemático conforme esquematizado por McCullock
& Pitts, em 1943. (FURTADO, 2019)

Figura 44. Esquema de uma unidade processadora.


Centro do neurônio

Dendritos Função de ativação Axônio

X1 w
1
Sinais de X2
෍⬚
entrada w Saída Y
.
2

.
.
Pesos sinápticos
Fonte: adaptada de McCullock & Pitts (1943) apud Furtado (2019).

Em linguagem matemática, esse modelo é representado logo a seguir, em que xj


representa os sinais de entrada; wkj os pesos sinápticos; yk os sinais de saída e θ (0)
função de ativação.
m
(I ) uk = ∑w
j −l
kj .x j

( II ) yk = θ ( uk )
Cada neurônio é também excitado por uma polarização constante (matemática)
chamada “bias” ou bk constante de valor 1. Ela é transmitida ao neurônio através
da sinapse wi,0. Essa constante está presente em quase todas as redes neurais,
variando somente a função de ativação. Normalmente, a faixa de saída está em
um intervalo fechado [0, 1] ou alternativamente em [-1, 1], podendo também
esse intervalo de saída estar entre (- ∞, + ∞) (FURTADO, 2019). Com essa
constante, temos, por fim, a equação:
( III=
) yk θ ( u k + bk )

107
Unidade iv | Análises de redes neurais

O valor de ativação do neurônio é conhecido como threshold. O valor dessa


ponderação é conhecido como função de ativação. Veja alguns exemplos de
funções de ativação.
0, se u < θ
função unipolar → f (u ) =

1, se u < θ
função linear → f ( u ) =
u
1
função sigmoide → f ( u ) =− u
1+ e

Além da função de ativação, outra característica importante do neurônio é que


cada conexão que ele faz pode ter um peso distinto associado:
excitatória Wi > 0
inibitória Wi < 0
inexistente Wi = 0

O termo arquitetura de redes neurais é aplicado quando temos uma organização


de vários neurônios artificiais para analisar uma base de dados. Em geral, são
classificadas em três camadas: camada de entrada, camadas ocultas (que podem
ser mais de uma camada) e camada de saída. E essas camadas podem ter diferentes
conexões. Portanto, isso consiste em uma série de neurônios organizados em
várias camadas. Na figura a seguir, temos um exemplo de uma representação
esquemática de uma rede neural.

Figura 45. Sistema de redes neurais artificiais.

Xo

X Y1

X Y2

Y0

Xm
Camada de
saída
Camada de
entrada Primeira camada Segunda
oculta camada oculta

Fonte: adaptada de Matheus, 2017.

108
Análises de redes neurais | Unidade iv

Isso funciona como um sistema matricial, com alinhamentos sucessivos de diversas


transformações lineares (ou não) seguidas por alguma função diferençável, que
é aplicada elemento a elemento da matriz de entrada. Para melhor entendê-las,
vamos partir de uma rede neural bem simples: um modelo de regressão linear, que
pode ser entendido como uma rede neural com um único neurônio (MATHEUS,
2017).

Xw = y
1 𝑥𝑥𝑖𝑖 … 𝑥𝑥1𝑑𝑑 𝑤𝑤𝑜𝑜 𝑦𝑦0
: : : 𝑥𝑥2𝑑𝑑 𝑤𝑤1 ::
1 𝑥𝑥𝑖𝑖𝑖𝑖 …𝑥𝑥𝑛𝑛𝑛𝑛 𝑤𝑤𝑑𝑑 𝑦𝑦𝑛𝑛

Videoaulas introdutórias sobre sistemas de redes lineares:

» ESTATIDADOS. Redes Neurais Artificiais - Conceitos teóricos e práticos


básicos - Matheus Pussaignolli. YouTube, 2019. Disponível em: https://
www.youtube.com/watch?v=FCRStdk9hRg

» DIDÁTICA TECH. Introdução a Redes Neurais e Deep Learning. YouTube,


2020. Disponível em: https://www.youtube.com/watch?v=Z2SGE3_2Grg.

» CARIDÁ, V. F. Redes Neurais Convolucionais (CNN) e Classificação de


Imagens. YouTube, 2020. Disponível em: https://www.youtube.com/
watch?v=yN9L9mnPyBA.

As transformações da prática médica nos últimos anos – sobretudo com a


incorporação de novas tecnologias da informação – apontam a necessidade
de ampliar as discussões sobre o processo ensino-aprendizagem na
educação médica. A utilização de novas tecnologias computacionais no
ensino médico tem demonstrado inúmeras vantagens no processo de
aquisição de habilidades para a identificação e a resolução de problemas,
o que estimula a criatividade, o senso crítico, a curiosidade e o espírito
científico. Nesse contexto, ganham destaque as Redes Neurais Artificiais
(RNA) – sistemas computacionais cuja estrutura matemática é inspirada no
funcionamento do cérebro humano –, as quais têm sido úteis no processo
ensino-aprendizagem e na avaliação de estudantes de Medicina. Sobre
esses conceitos e aplicação no ensino da medicina leia RBEM38_N04.indd
(scielo.br) .

SIQUEIRA-BATISTA, R. et al. As redes neurais artificiais e o ensino da


medicina artificial Neural Networks and medical Education. Revista
Brasileira de Educação Médica, v. 38, n. 4, pp. 548-556, 2014.

109
Unidade iv | Análises de redes neurais

Perceptron
O Perceptron foi uma das primeiras redes neurais artificiais desenvolvidas – em
1958 por Rosenblatt e equipe. Consiste em um classificador linear que mapeia
o valor de entrada (x) para um valor de saída binário simples. Ou seja, somente
processa informações que sejam linearmente separáveis.
1, if w.x + b ≥ 0
f ( x) = 
 0, else

Quando temos três ou mais níveis de Perceptron, temos um multilayerd


Perceptron (MLP) ou um Perceptron multicamadas. Cada camada tem uma
função específica, e a camada de saída recebe as informações de todas as camadas
para elaborar a resposta final. O que, consequentemente, obtém mais de uma
reta classificadora.

Figura 46. Exemplo de um gráfico de classificação de um Perceptron multicamadas.

Fonte: adaptada de wikipedia.png.

FREUND, Y.; SCHAPIRE, R. E. Large Margin Classification Using the Perceptron


Algorithm. Machine Learning, v. 37, n. 3, pp. 277-296, 1999. Disponível em:
https://cseweb.ucsd.edu//~yfreund/papers/LargeMarginsUsingPerceptron.pdf

110
CAPÍTULO 2
Conceitos em algoritmos

Pré-requisitos para trabalhar com algoritmos e


análises de redes neurais
A teoria da probabilidade é de interesse fundamental no desenvolvimento da
inteligência artificial. Apesar de ter sido uma ciência desenvolvida para lidar
com estudo de frequências de eventos, como retirar uma determinada carta de
um baralho, isso não é tão perceptível em estudos médicos, por exemplo. Se um
médico analisa um paciente e diz que ele tem 40% de chance de ter gripe, isso
é algo diferente do experimento probabilístico de retirar cartas de um baralho.
Não podemos fazer infinitas réplicas do paciente, nem há qualquer razão para
acreditar que réplicas diferentes do paciente apresentariam os mesmos sintomas,
mas com condições subjacentes variáveis. Nesse caso, para o ato de diagnosticar
usamos a probabilidade para representar um grau de crença, com 1 indicando
certeza de que o paciente está com gripe e 0 indicando certeza de que o paciente
não está com gripe. O primeiro tipo de probabilidade, relacionado diretamente
às taxas em que eventos ocorrem é conhecido como probabilidade frequentista,
enquanto o último, relacionado aos níveis qualitativos de certeza, é conhecido
como probabilidade bayesiana (GOODFELLOW et al., 2016).

Então, pensando em diversos ramos de aplicação, probabilidade é um meio


de se lidar com as incertezas que cercam a nossa realidade. Em um raciocínio
matemático, é um sistema lógico para se lidar com incerteza. Algo será positivo
ou negativo, dado uma série de afirmações. Portanto, a teoria da probabilidade
fornece um conjunto de regras formais para determinar a probabilidade de uma
proposição ser verdadeira dada a probabilidade de outras proposições. Quando
trabalhamos com computadores e programação, supõe-se que o hardware
trabalhe sem defeitos e os cuidados e incertezas são direcionados aos softwares.
De acordo com Goodfelow et al. (2016), em “Machine Learning”, as incertezas
podem advir de:

» Estocasticidade inerente ao sistema que está sendo modelado. Por


exemplo: comportamentos de partículas subatômicas têm sido descritos
como probabilísticos ou cenários teóricos em que postulamos ter uma
dinâmica aleatória, como um jogo de cartas devidamente embaralhadas.

111
Unidade iv | Análises de redes neurais

» Observações incompletas: sistemas determinísticos podem aparentar


estocásticos quando não podemos observar todas as variáveis que
orientam o comportamento do sistema. Por exemplo, no problema de
Monty Hall, a um competidor de um game show é solicitado escolher
entre três portas e ganhar um prêmio atrás da porta escolhida. Duas
portas levam a uma cabra, enquanto uma terceira leva a um carro. A
superação dada pela escolha do competidor é determinística, mas do
ponto de vista do competidor, o resultado é incerto.

» Modelagem incompleta: por exemplo, quando usamos um modelo


que deve descartar algumas das informações que observamos. As
informações descartadas resultam em incerteza nas previsões do
modelo.

Além dos conhecimentos em probabilidade, também é interessante ter conceitos


de álgebra linear bem fundamentados por causa do uso de matrizes e funções na
definição das análises das redes neurais artificiais.

Algoritmos são a base da elaboração dos programas na ciência de dados, quase


como se fosse um “novo ramo” da estatística, que apresenta um jeito de lidar com
os diversos tipos e a grande quantidade de dados que são gerados com o advento
da ciência da computação. Ferramentas de mineração de dados funcionariam
como a organização da base de dados e análises descritivas. E algoritmos podem
dizer aos computadores como isso deve ser feito.

Por exemplo, para realizar o agrupamento de dados, podemos utilizar um


algoritmo para buscar as similaridades entre os dados analisados e formar os
grupos, como os algoritmos K-means e K-medoid. Eles são baseados em “centroides”
ou “medoides”.

O centroide é definido como um ponto aleatório que pode ou não coincidir com
uma instância da relação e que depois vai ser recalculado a partir da média dos
elementos próximos (cálculo de distância entre pontos). Já um medoide é um
ponto que coincide com algum elemento dos dados. Tanto o K-means quanto o
K-medoid são chamados de algoritmos baseados em protótipos, pois os centros
são deslocados para ficarem mais próximos das instâncias a um certo número
de interações, normalmente definido por meio de um parâmetro do algoritmo
(AMARAL, 2016).

112
Análises de redes neurais | Unidade iv

Algoritmos de aprendizagem
São caminhos pré-traçados para se conhecer os dados. Podem ser classificados
em aprendizagem supervisionada, cujo objetivo é encontrar uma função a partir
de dados de treinamentos rotulados. O objetivo é encontrar os parâmetros
ótimos que ajustem um modelo que possa prever rótulos desconhecidos em
outros objetos (o conjunto de teste). Se o rótulo é um número real, a tarefa é
chamada de regressão. Se o rótulo vem de um conjunto finito e não ordenado,
então a tarefa é chamada de classificação (SILVA, 2018).

Figura 47. Gráficos representando funções de algoritmos de aprendizagem supervisionada.


Classificação Regressão

Fonte: adaptada de Silva, 2018.

Já na aprendizagem não supervisionada, existem menos informações sobre os


objetivos, e o conjunto de treinamento não é rotulado. O objetivo é encontrar
similaridades ou diferenças e alocá-los em grupos adequados, inclusive indicando
anomalias (objetos que destoam de todos os grupos) (SILVA, 2018).

Aprendizagem por reforço é aquele “sistema de recompensas”, que é muito


utilizado em sistemas de inteligência artificial. Veja o exemplo a seguir, a cada vez
que o rato conseguir atravessar o labirinto e ganhar a recompensa, ele ficará “mais
hábil” em conseguir atravessar outros labirintos e ganhar outras recompensas.
A ideia na inteligência artificial é conseguir elaborar um sistema que possa se
autoaprimorar a cada análise de dados.

Figura 48. Representação esquemática de um sistema de aprendizagem por reforço.

Atravessou o
labirinto

Rato de Labirinto a ser


laboratório percorrido

Não atravessou
o labirinto

Fonte: adaptada de Silva, 2018.

113
Unidade iv | Análises de redes neurais

Regressão, regressão logística e classificação linear

Para esses algoritmos, você dispõe de características (Xn) sobre objetos (matriz
A) e rótulos (vetor b). O objetivo é encontrar um conjunto de pesos e viés
ótimo para essas características, de acordo com alguma função de custo, como
vimos na unidade anterior sobre regressão.

Já a regressão logística é um algoritmo de classificação binária, em que os


rótulos de saída são dicotômicos (sim/não; 0/1...). O exemplo a seguir calcula a
probabilidade de um objeto pertencer a uma determinada classe:
1
( y 1|=
P= x) t
1 + e− w x

Árvore de decisão

É um algoritmo simples que te ajuda na tomada de decisão. Cada etapa a ser


construída deve ser bem fundamentada, e ao final da árvore você terá uma tomada
de decisão.

Figura 49. Exemplo de árvore de decisão para alocação de objetivos em função das suas cores em caixas de armazenamento.

Objetos de
diferentes
cores

Tons
Tons pastéis
vibrantes

Cores Cores Tons


Tons de rosa
primárias secundárias esverdeados

Amarelo,
Laranjado e
vermelho e Caixa 3 Caixa 4
verde
azul

Caixa 1 Caixa 2

Fonte: elaborada pela autora.

Análise de componentes principais

Consiste em uma técnica multivariada que transforma um conjunto de variáveis


originais em outro, denominada componentes principais. E cada componente

114
Análises de redes neurais | Unidade iv

principal é uma combinação linear de todas as variáveis originais. Por isso é


associada a ideia de redução da massa de dados, com menor perda de informação
(VARELLA, 2008). É calculado como matriz da correlação dos atributos e
autovetores, com todas as projeções desses autovetores calculadas.

Figura 50. Exemplo de gráficos de análises de componentes principais em uma análise gênica da relação de 3 genes com o
fenótipo de um ser.
Espaço original dos dados
Espaço componente
PCA

PC2
PC1
Gene 3

PC2
PC1

Fonte: adaptado de Lee, 2019.

Como fazer análise de componentes principais:

» ESTATIDADOS. Parte 1 - Análise Multivariada - Análise dos Componentes


Principais. YouTube, 2019. Disponível em: https://www.youtube.com/
watch?v=G2yGT3af9FA.

» CARVALHO RIBEIRO. Tutorial R | PCA análise de componentes


principais em 1 linha de código. YouTube, 2019. Disponível em: https://
www.youtube.com/watch?v=jOo0L-Jypyc.

» AZEVEDO, A. Análise Multivariada: componentes principais. YouTube,


2020. Disponível em: https://www.youtube.com/watch?v=VTYRwBKNPZk.

Leia os artigos a seguir onde foram executadas análises de componentes


principais:

» HONGYU, K. et al. Análise de Componentes Principais: Resumo Teórico,


Aplicação e Interpretação. E&S Engineering and Science, v. 1, n. 5, 2015.
Disponível em: https://periodicoscientificos.ufmt.br/ojs/index.php/eng/
article/view/3398.

» LYRA, W. S. Classificação periódica: um exemplo didático para ensinar


análise de componentes principais. Quim. Nova, v. 33, n. 7, pp. 1594-
1597, 2010. Disponível em: https://www.scielo.br/j/qn/a/5d4pv5StPBB4
97gxkYBN3XH/?format=pdf&lang=pt.

115
Unidade iv | Análises de redes neurais

» GOMES, J. B. V. Análise de componentes principais de atributos físicos,


químicos e mineralógicos de solos do bioma cerrado. R. Bras. Ci. Solo,
v. 28, pp. 137-153, 2004. Disponível em: https://www.scielo.br/j/rbcs/a/
YqNHPQbCSVL4s4ZbVnmYsKQ/?format=pdf&lang=pt.

Algoritmo Fp Growth

É um algoritmo que procura na base de dados os mais frequentes e descarta os


menos frequentes. A “raiz” seria o banco de dados inicial e cada “brotamento” um
agrupamento com os dados mais frequentes do grupo anterior (WIKIBOOKS,
2021).

A representação esquemática desse algoritmo remete à árvore de decisão,


contudo, quando se programa o computador para fazer isso, cada critério dos
mais frequentes é analisado e os dados organizados.

Figura 51. Representação esquemática de como funciona um algoritmo Fp-Growth.

Fonte: adaptada de Wikibooks, 2021.

Esse algoritmo é uma muito utilizado em estudos de genética. Veja a seguir as


indicações de leitura com aplicações desse algoritmo.

Aplicações algoritmo FP-Growth em trabalhos científicos:

» BARIK, S. Pattern Discovery using Fuzzy FP-growth Algorithm from Gene


Expression Data. International Journal of Advanced Computer Science
and Applications, v. 1, n. 5, 2010. Disponível em: https://www.researchgate.
net/publication/49587764_Pattern_Discovery_using_Fuzzy_FP-growth_
Algorithm_from_Gene_Expression_Data.

» KASSAHUN. Y. Automatic classification of epilepsy types using ontology-


based and genetics-based Machine Learning. Artif Intell Med, v. 61, n. 2, pp.
79-88, 2014. Disponível em: https://pubmed.ncbi.nlm.nih.gov/24743020/.

116
Análises de redes neurais | Unidade iv

» FILHO, A. C. Comparação de métodos de agrupamento para o estudo


da divergência genética em cultivares de feijão. Ciência Rural, Santa
Maria, v. 38, n. 8, pp. 2138-2145, 2008. Disponível em: https://www.
scielo.br/j/cr/a/wRrKnzGvwqNL3mDTqVQcY6q/?lang=pt&format=pdf.

117
CAPÍTULO 3
Conceitos em Machine Learning

Conceitos gerais
O conceito de Machine Learning designa uma área da computação que trabalha
com algoritmos que “aprendem” a executar uma tarefa, com base nos dados
disponibilizados. Como visto anteriormente, existem diversos tipos de
algoritmos, contudo o mais utilizado em Machine Learning é o algoritmo de redes
neurais. Um exemplo de um algoritmo do nosso dia a dia, é o filtro de spam
da caixa de e-mails. Com base em informações que fornecemos, ele “aprende” a
identificar que tipos de mensagens são spam e quais não são (MOURA, 2019).
Veja a representação esquemática a seguir de um filtro de spam comum e um
filtro de spam dentro do conceito de Machine Learning:

Figura 52. a) Filtro de spam comum. b) Filtro de spam concebido com os conceitos de Machine Learning.
a)

Identificar padrões Desenvolver filtro


dos spams de spams

Filtro em
Teste produção
s

Tratar erros

b)
Tratar erros

Sim

Filtro em
Separar e-mails Treinar o algoritmo Não produção
para usar no para reconhecer o Erro utilizando o
treinamento padrão dos spams algoritmo
s
treinado

Spams são sinalizados Usuário


pelos usuários e entram recebe spam
na base de dados do com um
treinamento padrão
diferente

Fonte: adaptada de Moura, 2019.

Observe atentamente os dois fluxos, a e b. Consegue notar a diferença do


conceito de Machine Learning que está presente? Com esse tipo de algoritmos,
a máquina pode se ajudar para seguir na análise corretamente, sem precisar

118
Análises de redes neurais | Unidade iv

de muita intervenção humana. Por isso tem esse nome e envolve conceitos de
inteligência artificial.

Esses aspectos têm revolucionado diversas áreas da ciência, porque com as análises
de redes neurais e Machine Learning as máquinas podem: realizar previsões,
memorizar, reproduzir padrões e apontar a melhor escolha, e isso lidando com
base de dados com mais de 1 bilhão de linhas. Contudo, mesmo com todos os
avanços da inteligência artificial, as máquinas ainda não podem criar algo novo. O
componente humano dessas análises ainda é essencial.

Figura 53. Divisões do aprendizado de máquina clássico.

Machine
Learning clássico

Supervisionado (os
Não
dados são numericos
supervisionado
ou pré-categorizados)

Generalização
Clustering Associação
(detectar
Classificação Regressão (dividido por (idenfificar
dependencias de
similaridades) sequências)
dados)

Fonte: adaptada de Gomez, 2019.

O treinamento supervisionado é acompanhado pela apresentação de uma


sequência no vetor de treinamento, associada a um vetor de saída-alvo, isto é,
tem o objetivo de minimizar a diferença entre o valor de saída da rede e o valor
desejado. Uma típica função de erro a ser minimizada, pode ser observada na
equação a seguir (SILVA et al., 2020).
n

∑ ( y − h ( x ))
2
=E i w
i =1

Silva et al. (2020), com esse exemplo, explicam que n é o número de padrões de
entrada, yi é a saída da rede (para um dado conjunto de parâmetros – w) e hw(x) o
valor esperado de saída.

Treinamento de Perceptrons

Os algoritmos de aprendizagem de RN visam ao ajuste dos pesos da rede para


minimizar alguma medida do erro, no conjunto de treinamento. Desse modo, a

119
Unidade iv | Análises de redes neurais

aprendizagem é formulada como uma busca de otimização no espaço de pesos,


sendo a medida tradicional a soma dos erros quadráticos. O erro quadrático para
um único exemplo de treinamento com entrada x e saída verdadeira y (RUSSEL
et al., 2003 apud SILVA et al., 2020). Um continuamento da equação anterior:

1 1 2 É possível usar o declínio do gradiente para


𝐸𝐸 = 𝐸𝐸𝐸𝐸𝐸𝐸 2 = ൫𝑦𝑦 − ℎ𝑤𝑤 ሺ𝑥𝑥ሻ൯
2 2 reduzir o erro quadrático, calculando a derivada
−𝛼𝛼𝛼𝛼𝛼𝛼 parcial de E, em relação a cada peso.
∆𝑤𝑤ሺ𝑗𝑗ሻ =
𝜕𝜕𝜕𝜕ሺ𝑗𝑗ሻ
𝜕𝜕𝜕𝜕 𝜕𝜕𝜕𝜕𝜕𝜕𝜕𝜕 A taxa de aprendizagem é dada por α e g’. A
= 𝐸𝐸𝐸𝐸𝐸𝐸 ∗ taxa de aprendizagem é dada por α e g’ é a
𝜕𝜕𝑤𝑤𝑖𝑖 𝜕𝜕𝑤𝑤𝑗𝑗 derivada da função de ativação.
𝑛𝑛
𝜕𝜕 Se o erro Err = y – hw (x) for positivo, então a
= 𝐸𝐸𝐸𝐸𝐸𝐸 ∗ 𝑔𝑔 ቌ𝑦𝑦 − ෍ 𝑤𝑤𝑗𝑗 𝑥𝑥𝑗𝑗 ቍ
𝜕𝜕𝑤𝑤𝑖𝑖 saída da rede é pequena demais. Portanto, os
𝑗𝑗=0
pesos devem ser aumentados para as entradas
= −𝐸𝐸𝐸𝐸𝐸𝐸 ∗ 𝑔𝑔′ሺ𝑖𝑖𝑖𝑖ሻ ∗ 𝑥𝑥𝑗𝑗 positivas e diminuídos para as entradas
𝑊𝑊𝑗𝑗 ← 𝑊𝑊𝑗𝑗 + 𝛼𝛼 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸 ∗ 𝑔𝑔ሺ𝑖𝑖𝑖𝑖ሻ ∗ 𝑥𝑥𝑗𝑗 negativas. Acontece o oposto quando o erro é
negativo

Isso escrito de outra forma (RUSSEL et al. 2003 apud SILVA et al., 2020):

» Algoritmo do aprendizado de declínio de gradiente para perceptrons.

› Função: APRENDIZAGEM-DE-PERCEPTRONS retorna uma


hipótese de perceptrons.

› Entrada: exemplos, um conjunto de exemplos cada um com x = x1,


x2, x3, xn com saída y.

› Rede: perceptrons com pesos Wjj=0...n e função de ativação g.

› Repita para cada e e exemplos, faça:


n
› in ← ∑W j x j [ e]
j =0

› Err ← y [ e] − g ( in )

› W j ←W j + α * Err * g ′ ( in ) * x j x j [ e]

› Até algum critério de parada ser satisfeito.

› Retornar: hipótese da rede neural.

120
Análises de redes neurais | Unidade iv

Extração de conhecimentos de redes neurais


Uma das grandes vantagens de se usar redes neuras treinadas para analisar um
banco de dados é que você não precisa de uma hipótese inicial para analisar
seus dados e realizar todas as regressões estatísticas clássicas para encontrar
um modelo. A hipótese fica a cargo das conexões das redes neurais. Contudo,
a “explicação” para como a rede neural chegou à determinada hipótese sobre os
dados ou valores retornados nem sempre é clara, o que dificulta o seu uso. Nesse
sentido, as técnicas de extração de conhecimentos auxiliam no entendimento
dos resultados obtidos.

Figura 54. Técnicas de extração de conhecimento de redes neurais.

Regras de
if-then-else
inferência

Outra aplicabilidade Árvores


desse tipo de de
algoritmo decisão

Lógica
Regras difusas
fuzzy

Fonte: adaptada de Silva, 2020.

As características que devem ser buscadas quando estiver elaborando as regras


para extração de conhecimento das redes neurais estão destacadas na figura a
seguir.

Figura 55. Características desejáveis para as regras de extração de conhecimento de redes neurais.

•regras simbólicas convencionais (booleana, proposicional);


Poder expressivo ou •regras baseadas em lógica fuzzy;
formato de regra •regras expressas na forma de lógica de primeira.

•acurácia;
•fidelidade;
Qualidade •consistência;
•compreensibilidade.

• granularidade da RN, a qual pode ser implícita ou explícita;


Translucidez •decomposicional, eclética ou pedagógica.

Portabilidade •extensão de que uma dada técnica possa ser aplicada através de um
grupo de arquiteturas de RNs e regimes treinados.

Fonte: adaptada de Silva, 2020.

121
Unidade iv | Análises de redes neurais

Veja a seguir o exemplo de uso, extração e análise de dados por meio de redes
neurais.

SANTOS, R. et al. Extração de Regras de Redes Neurais via Algoritmos Genéticos.


Anais... IV Congresso Brasileiro de Redes Neurais. São José dos Campos, Brasil, 1999.
Disponível em: https://www.researchgate.net/publication/228960317_Extracao_
de_Regras_de_Redes_Neurais_via_Algoritmos_Geneticos.

Resumo: Na extração de conhecimento de um banco de dados, um problema


frequentemente encontrado são os dados com ruído. Nesse sentido, as redes
neurais são uma opção, porque geralmente são tolerantes a ruídos no conjunto
de treinamento, mas têm um desempenho ruim para explicar como uma solução
é encontrada. Assim, é apresentado um método para obtenção de conhecimento
correto e compreensível por meio da extração de regras de redes neurais treinadas.
Tal método usa algoritmo genético para encontrar uma topologia adequada para
uma rede neural que permite ao algoritmo RX extrair um conjunto de regras tão
preciso e compreensível quanto possível. O sistema proposto foi testado com
dois conjuntos de dados disponíveis publicamente e os resultados foram muito
satisfatórios.

» Foi usado o software ENZO, porém, esse software não possui um


algoritmo de extração de regras de redes neurais.

» Implementação de módulo para extração de dados (figura composta a


seguir).

› Este módulo também efetua o cálculo do fitness do conjunto de regras


extraído e atribui tal fitness à rede neural.

» A rede evoluída pelo ENZO é uma rede neural feedforward


completamente conectada, com apenas uma camada oculta.

» A base de dados é dividida em 3 partes: um conjunto de treinamento,


um conjunto de validação, e um conjunto de teste. Apenas os dois
primeiros são usados durante a evolução do algoritmo genético

» Os dados do conjunto de treinamento são usados para treinar a rede


neural. Uma vez que uma rede é treinada, regras são extraídas a
partir dela, o algoritmo de extração de regras também usa os dados
de treinamento. Entretanto, uma vez que as regras foram extraídas,
122
Análises de redes neurais | Unidade iv

é necessário avaliar a qualidade dessas regras, a qual será usada como


função de fitness do indivíduo (rede neural). Essa avaliação usa os dados
do conjunto de validação, que é independente do conjunto.

Figura 56. Evolução do ENZO: A) Ciclo de evolução B) Novo ciclo de evolução, com a implementação do novo módulo.

A) Ciclo de evolução B) Novo ciclo de evolução

Seleção
Seleção

Crossover
Crossover

Mutação
Mutação

Treinamento da rede Treinamento da rede

Avaliação da rede Extração de regras

Treinamento da rede

Fonte: Santos, 1999.

» Para extração das regras uma adaptação do algoritmo RX de Lu,


Setiono e Liu (1995):

› avalia a qualidade das regras extraídas em relação à precisão preditiva


e compreensibilidade, enquanto o algoritmo RX avalia as regras
apenas com relação à precisão preditiva.
A
› Cálculo da confiança FC =
ETC
• FC é o fator de confiança da regra, A é o número de acertos e
ETC é o número de exemplos cobertos pela regra.

› Cálculo do fitness do conjunto de regras extraídas da rede


neural é composto da taxa de acerto do conjunto de regras e da
compreensibilidade desse mesmo conjunto de regras.
A
TC =
ECV

123
Unidade iv | Análises de redes neurais

» Duas bases de dados disponíveis publicamente no repositório Machine


Learning (http://www.ics.uci.edu/AI/Machine-Learning.html).

» A primeira base utilizada foi Hayes-Roth. Essa base possui 4 atributos


previsores e um atributo meta, como apresentado.

» Criou-se para essa base uma rede neural feedforward totalmente


conectada, com 15 neurônios na camada de entrada, 5 neurônios na
camada oculta e 3 neurônios na camada de saída.

» Para a evolução com o algoritmo genético foram efetuadas 50 gerações,


com população de 30 indivíduos e 10% de mutação.

» A segunda base utilizada foi a Zoo. Essa base possui 16 atributos


previsores e um atributo meta. Não a incluí aqui no nosso material
como exemplo.

Resultados: A figura a seguir apresenta a evolução do melhor fitness, do pior


fitness e da média dos fitness, para o problema Hayes-Roth. A taxa de acerto do
conjunto de regras no conjunto de exemplos de teste foi de 89,28%.

Figura 57. Evolução do fitness da base Hayes-Roth.


0.6

pior
0.5

0.4
fitness

0.3

0.2

0.1

0 5 10 15 20 25 30 35 40 45 50 55
Geração=

Fonte: Santos, 1999.

A seguir é apresentado o conjunto de regras obtido pela evolução do algoritmo


genético em conjunto com o algoritmo de extração de regras RX. Na tabela a
seguir, encontram-se os percentuais de acerto de cada regra obtida.

» Regra 1: Se (B =1) E (C=1) E (D =2) então Classe 1.

» Regra 2: Se (B ¹ 4) E (C = 1) E (D ¹ 2) E (D ¹ 4) então Classe 1.

» Regra 3: Se (B = 1) E (C ¹ 4) E (D ¹ 2) E (D ¹ 4) então Classe 1.

124
Análises de redes neurais | Unidade iv

» Regra 4: Se (B ¹ 1) E (B ¹ 4) E (C = 1) E (D ¹ 2) E (D ¹ 4) então Classe 2.

» Regra 5: Se (B ¹ 4) E (C ¹ 1) E (C ¹ 4) E (D = 2) então Classe 2.

» Regra 6: Se (B ¹ 1) E (B ¹ 4) E (C ¹ 1) E (C ¹ 4) E (D ¹ 2) E (D ¹ 4) então
Classe 2.

Tabela 27. Hayes-Roth: taxa de acerto das regrasobtidas.

Dados de teste
Exemplos cobertos pela regra Percentual de acerto
1 100%
6 100%
4 100%
2 100%
6 83%
8 75%
Fonte: Santos, 1999.

Comparando-se a taxa de acerto do conjunto de regras obtidos da base Hayes-Roth


citada anteriormente, a saber 89,28%, com o percentual de ocorrência da classe
default (classe da maioria) no conjunto de testes, que é de 50%, observa-se boa
precisão dos conjuntos de regras.

Redes neurais e learning machine


O que você precisa para trabalhar com redes neurais e aprendizado de máquina?
Conhecimentos de álgebra linear, estatística e conhecimentos de linguagem de
programação. Por que esse último é importante? Porque é por meio da ciência
da computação que as redes neurais são construídas.

Além disso, você tem que ter uma grande base de dados (Machine Learning não
funciona muito bem com uma base de dados pequena) e você pode não ter uma
hipótese já definida para análise dos seus dados, mas elas precisam de um objetivo
claro para que você possa direcionar a máquina.

» Capítulo 40 – Introdução às Redes Neurais Convolucionais - Deep


Learning Book. Disponível em: https://www.deeplearningbook.com.br/
introducao-as-redes-neurais-convolucionais/.

125
Unidade iv | Análises de redes neurais

» GRANATYR, J. Conceitos básicos sobre Machine Learning e Data


Science. IA Expert Academy, 2020. Disponível em: https://iaexpert.
academy/2020/09/10/conceitos-basicos-sobre-machine-learning-e-data-
science/.

» KENJI, B. Machine Learning para Leigos. Venturus, 2019. Disponível em:


https://www.venturus.org.br/machine-learning-para-leigos/.

» GOMES, P. C. T. Machine Learning | Um Guia sobre Aprendizado de


Máquinas! Datageeks, 2019. Disponível em: https://www.datageeks.com.
br/machine-learning/.

» NERDOLOGIA TECH. Machine Learning: como ensinar uma máquina


a aprender. YouTube, 2018. Disponível em: https://www.youtube.com/
watch?v=mhe5e2B9bL8.

» CIÊNCIA TODO DIA. Machine Learning Explicado. YouTube, 2021.


Disponível em: https://www.youtube.com/watch?v=0PrOA2JK6GQ.

» CORTIZ, D. Curso de Inteligência Artificial para todos - Aula 1. YouTube,


2020. Disponível em: https://www.youtube.com/watch?v=Ze-Q6ZNWpco.

Ciência de dados

Python

Python é uma linguagem de programação versátil, em que se pode desenvolver


aplicativos, jogos, programas e consegue se comunicar com outras linguagens,
como C, C++, Java. Foi criada em 1991, por Van Rossumem, com o objetivo de
ser uma linguagem simples e efetiva. É um software livre que os usuários podem
compartilhar suas linhas de dados.

Materiais de apoio para estudar essa linguagem:

» PYTHON TUTORIAL. Uma introdução a linguagem de


programação Python. Disponível em: https://www.devmedia.com.
br/python-tutorial/33274.

Linguagem R

É uma linguagem muito usada em análise de dados e análises estatísticas.


Foi criado por Ross Ihaka e Robert Gentleman, na Nova Zelândia, em 1993.
Atualmente, é mantido por uma comunidade de colaboradores voluntários,

126
Análises de redes neurais | Unidade iv

reunidos no R: Contributors (r-project.org), que contribuem com o código


fonte da linguagem e com a expansão da funcionalidade das bibliotecas.

Assim como Python, possui diversos pacotes com diferentes funcionalidades.


Deepnet que pode ser usado para o treinamento de Deep Machine Learning. Darch
é um outro pacote muito famoso no Deep Machine Learning, criado por George
Hinton (importante figura do Deep Machine Learning).

Indicações de cursos para começar a estudar R

» DEBASTIANI, V. J. Aprendendo R em 10 minutos. Disponível em:


https://vanderleidebastiani.github.io/tutoriais/Aprendendo_R_em_10_
minutos.html.

» CURSO-R.COM. Capítulo 3 R Básico | Ciência de Dados em R.


Disponível em: https://livro.curso-r.com/3-r-base.html.

127
REFERÊNCIAS

ALLAMAN, I. B. Laboratório de estatística computacional. [On-line] Disponível em:


Disponível em: http://nbcgib.uesc.br/lec/professores/ivan?layout=edit&id=151. Acesso:
31/1/2021.

ALLE, L. F. Teste de Hipóteses em Genética. [On-line]. Disponível em: http://www.


remendel.ufpr.br/wp-content/uploads/2017/11/Aula-06-Teste-de-Hip%C3%B3teses-em-
Gen%C3%A9tica.pdf. Acesso em: 6/5/2021.

ALVES, A. S. A bioinformática e sua importância para a biologia molecular. REBES, Pombal


(PB), Brasil, v. 3, n. 4, pp. 18-25, 2013.

AMARAL, F. Aprenda mineração de dados: teoria e prática. Rio de janeiro: Alta Book, 2016.

AN, T. L.; CUOGHI, O. A. A utilização da estatística na Ortodontia. Revista Dental Press de


Ortodontia e Ortopedia Facial. Dental Press Editora, v. 9, n. 6, pp. 97-108, 2004. Disponível em:
https://repositorio.unesp.br/handle/11449/15537. Acesso em: 7/3/2021

Aproximação Binomial pela Normal. Disponível em: https://www.ime.usp.br/~rfaria/cursos/


verao-2019/Aulas/Aula%2010/Aproximacao_da_Binomial_pela_Normal.pdf. Acesso em:
6/5/2021.

Aproximações das Distribuições Binomial e Poisson pela Normal. [On-line] Disponível em:
https://www.inf.ufsc.br/~andre.zibetti/probabilidade/aproximacao-binomial-poisson-pela-
normal.html#:~:text=de%20forma%20acurada.-,Aproxima%C3%A7%C3%A3o%20da%20
Distribui%C3%A7%C3%A3o%20Binomial%20pela%20Distribui%C3%A7%C3%A3o%20
Normal,e%20vari%C3%A2ncia%20V(X). Acesso em: 6/5/2021.

AQUARELA ADVANCED ANALYTICS. Big Data Clustering Strategy for Business.


YouTube, 2016. Disponível em: https://www.youtube.com/watch?v=Qz_UIAT1TMs. Acesso
em: 6/5/2021.

ASSIS, J. P.; SOUSA, R. P.; DIAS, C. T. S. Glossário de estatística. Mossoró: EdUFERSA,


2019.

ASSIS, J. P.; SOUSA, R. P.; LINHARES, P. C. F. Testes de hipóteses estatísticas. Mossoró:


EdUFERSA, 2020.

AZEVEDO, A. Análise Multivariada: componentes principais. YouTube, 2020.


Disponível em: https://www.youtube.com/watch?v=VTYRwBKNPZk.

BIASSOLI, M. Interpretação de OR, RR, ... Parte II: Algoritmo simplificado. YouTube,
2016. Disponível em: https://www.youtube.com/watch?v=kRp-eG2lyF8. Acesso em: 6/5/2021.

BIOESTATÍSTICA EM GOTAS. Análise Discriminante. YouTube, 2020. Disponível em:


https://www.youtube.com/watch?v=SIk_vQ_yGb0. Acesso em: 6/5/2021.

128
Referências

BIOESTATÍSTICA EM GOTAS. Análise Multivariada Escolha do Modelo Estatístico.


YouTube, 2020. Disponível em: https://www.youtube.com/watch?v=cSv4HFovrW8. Acesso
em: 6/5/2021.

BIOESTATÍSTICA EM GOTAS. Regressão de Poisson. YouTube, 2020. Disponível em:


https://www.youtube.com/watch?v=lGQ4vxrmdnU. Acesso em: 6/5/2021.

BRITO, R. N.; GERALDO, J. A. et al. Transcriptome-based molecular systematics: Rhodnius


montenegrensis (Triatominae) and its position within the Rhodnius prolixus–Rhodnius robustus
cryptic–species complex. Parasites Vectors, v. 12, p. 305, 2019. Disponível em: https://
parasitesandvectors.biomedcentral.com/articles/10.1186/s13071-019-3558-9. Acesso em:
12/5/2021.

CANHANGA, A. P. E. Modelo matemático para previsão de vendas: Regressão Linear Simples.


Cadernos do IME - Série Matemática, Rio de Janeiro, n. 14, 2020. Disponível em: https://
www.e-publicacoes.uerj.br/index.php/cadmat/article/view/50427/34104.

Capítulo 40 - Introdução às Redes Neurais Convolucionais - Deep Learning Book. Disponível


em: https://www.deeplearningbook.com.br/introducao-as-redes-neurais-convolucionais/.
Acesso em: 6/5/2021.

CARIDÁ, V. F. Redes Neurais Convolucionais (CNN) e Classificação de Imagens.


YouTube, 2020. Disponível em: https://www.youtube.com/watch?v=yN9L9mnPyBA. Acesso
em: 6/5/2021.

CARRASCO, C. G.; LEMES, T. S. Uma avaliação do erro tipo II no uso do teste t-student.

CARVALHO RIBEIRO. Tutorial R | PCA análise de componentes principais em 1 linha


de código. YouTube, 2019. Disponível em: https://www.youtube.com/watch?v=jOo0L-
Jypyc. Acesso em: 6/5/2021.

CASTIEL, L. P. POVOA, E. C. Dr. Sackett & “Mr. Sacketeer”... Encanto e desencanto no reino
da expertise na medicina baseada em evidências. Cad. Saúde Pública, Rio de Janeiro, v. 17, n. 1,
pp. 205-214. Disponível em: https://www.scielo.br/j/csp/a/sPxfRTfDwpNtv5QDsKBZN6k/?f
ormat=pdf&lang=pt. Acesso em: 10/5/2021.

CIENTÍSTICA & PODCAST NARUHODO. Estatística Psicobio I - Apresentação a ANOVA


Two-Way, MANOVA, ANCOVA e GLM Independente. YouTube, 2020. Disponível em:
https://www.youtube.com/watch?v=RH-tCM8W33A. Acesso em: 6/5/2021.

CIÊNCIA TODO DIA. Machine Learning Explicado. YouTube, 2021. Disponível em:
https://www.youtube.com/watch?v=0PrOA2JK6GQ. Acesso em: 6/5/2021.

CORREIA, L. Por que os resultados da maioria dos estudos publicados são falsos?
Medicina Baseada em Evidências Medicina Baseada em Evidências, 2017. Disponível em: http://
medicinabaseadaemevidencias.blogspot.com/2017/04/por-que-os-resultados-da-maioria-dos.
html. Acesso: 31/1/2021.

129
Referências

CORTIZ, D. Curso de Inteligência Artificial para todos - Aula 1. YouTube, 2020.


Disponível em: https://www.youtube.com/watch?v=Ze-Q6ZNWpco. Acesso em 6/5/2021.

CURSO-R.COM. Capítulo 3 R Básico | Ciência de Dados em R. Disponível em: https://


livro.curso-r.com/3-r-base.html. Acesso em: 12/5/2021.

DADOS NO DIVÃ. Análise e Estatística. AULA 11 - ANCOVA. YouTube, 2018. Disponível


em: https://www.youtube.com/watch?v=l9t51or1gvs. Acesso em: 6/5/2021.

DEBASTIANI, V. J. Aprendendo R em 10 minutos. Disponível em: https://vanderleidebastiani.


github.io/tutoriais/Aprendendo_R_em_10_minutos.html. Acesso em: 12/5/2021.

Determinação do tamanho de uma amostra. Disponível em: http://www.cienciasecognicao.


org/portal/wp-content/uploads/2011/09/Tamanho-da-Amostra-1-1.pdf. Acesso em:
6/5/2021.

DIDÁTICA TECH. Introdução a Redes Neurais e Deep Learning. YouTube, 2020.


Disponível em: https://www.youtube.com/watch?v=Z2SGE3_2Grg. Acesso em: 6/5/2021.

DOI: 10.21167/cqdvol3201423169664cgctsl0716. Disponível em: https://www.fc.unesp.br/


Home/Departamentos/Matematica/revistacqd2228/v03a02-uma-avaliacao-do-erro-tipo-ii.pdf.
Acesso em: 6/5/2021.

ESTATIDADOS. Parte 1 - Análise Multivariada - Análise dos Componentes Principais.


YouTube, 2019. Disponível em: https://www.youtube.com/watch?v=G2yGT3af9FA. Acesso em:
6/5/2021.

ESTATIDADOS. Redes Neurais Artificiais - Conceitos teóricos e práticos básicos –


Matheus Pussaignolli. YouTube, 2019. Disponível em: https://www.youtube.com/
watch?v=FCRStdk9hRg. Acesso em: 6/5/2021.

ESTATÍSTICA. Aproximação da binomial pela normal - Exercício resolvido. You Tube.


2018. Disponível em: https://www.youtube.com/watch?v=1HBFUavjI1M. Acesso em: 6/5/2021.

ESTATÍSTICA PARA CONCURSO. Pressupostos da Regressão Linear Simples. YouTube,


2019. Disponível em: https://www.youtube.com/watch?v=vRIDSr_hTNk. Acesso em: 6/5/2021.

ESTATÍSTICA PARA CONCURSO. Teste de Hipóteses - Erros do Tipo I e II - Entenda


Importantes conceitos de #Estatística. Disponível em: https://www.youtube.com/
watch?v=IYryia6xcKw. Acesso em: 6/5/2021.

FACCENDA, O.; STEFANELO, L. L. Bioestatística aplicada ao movimento humano.


Dourados (MS): UEMS, 2014. 116p.

FACURE, M. Introdução às Redes Neurais Artificiais [On-line]. Disponível em: https://


matheusfacure.github.io/2017/03/05/ann-intro/. Acesso em: 7/3/2021.

130
Referências

FERREIRA, C. S. Elementos de Estatística. Departamento de Estatística UFJF, 2012, Disponível


em: https://www.ufjf.br/clecio_ferreira/files/2012/04/Cap1-Amostragem1.pdf. Acesso em:
7/1/2021.

FERREIRA, J. C.; PATINO, C. M. O que significa o p-valor? J Bras Pneumol., v. 41, n. 5,


pp. 485-485, 2015. Disponível em: https://www.scielo.br/pdf/jbpneu/v41n5/pt_1806-3713-
jbpneu-41-05-00485.pdf. Acesso em: 7/3/2021.

FILHO, A. C. Comparação de métodos de agrupamento para o estudo da divergência genética


em cultivares de feijão. Ciência Rural, Santa Maria, v. 38, n. 8, pp. 2138-2145, 2008. Disponível
em: https://www.scielo.br/j/cr/a/wRrKnzGvwqNL3mDTqVQcY6q/?lang=pt&format=pdf.

FONSECA, J. S.; MARTINS, G. A. Curso de estatística. 5 ed. São Paulo: Atlas, 1994.

FREIRE, S. M. Bioestatística Básica, 2021. Disponível em: http://www.lampada.uerj.br/


arquivosdb/_book/bioestatisticaBasica.html.

FREUND, Y. SCHAPIRE, R.E. Large Margin Classification Using the Perceptron Algorithm.
Machine Learning, v. 37, n. 3, pp. 277-296, 1999. Disponível em: https://link.springer.com/arti
cle/10.1023/A:1007662407062.

FURTADO, M. I. V. Redes neurais artificiais [recurso eletrônico]: uma abordagem para sala
de aula. Ponta Grossa (PR): Atena Editora, 2019.

GOMEZ, P. C. T. Machine Learning para todos, de forma simples e com exemplos!


[On-line], 2019. Disponível em: https://www.datageeks.com.br/machine-learning/. Acesso em:
7/3/2021.

GOODFELOW, I.; BENGIO, Y.; COURVILLE, A. Deep learning Book. [On-line], 2016.

GRANATYR, J. Conceitos básicos sobre Machine Learning e Data Science. IA Expert


Academy, 2020. Disponível em: https://iaexpert.academy/2020/09/10/conceitos-basicos-sobre-
machine-learning-e-data-science/. Acesso em: 6/5/2021.

HAIR, J.; BLACK, W. C.; BABIN, B. B.; ANDERSON, R.E.; TATHAM, R. L. Análise
Multivariada de Dados. 6 ed. Porto Alegre: Bookman, 2009.

HONGYU, K. et al. Análise de Componentes Principais: Resumo Teórico, Aplicação e


Interpretação. E&S Engineering and Science, v. 1, n. 5, 2015. Disponível em: https://
periodicoscientificos.ufmt.br/ojs/index.php/eng/article/view/3398. Acesso em: 12/5/2021.

IRUZUBIETA et al Feasibility of largescale population testing for SARSCoV2 detection by


selftesting at home. Scientifc Reports, v. 11, p. 9819, 2021. Disponível em: https://www.nature.
com/articles/s41598-021-89236-x . Acesso em: 12/5/2021.

131
Referências

KASSAHUM, Y. et al. Automatic classification of epilepsy types using ontology-based and


genetics-based machine learning. Artif Intell Med., v. 61, n. 2, pp. 79-88, 2014. Disponível em:
https://pubmed.ncbi.nlm.nih.gov/24743020/. Acesso em: 6/5/2021.

KENJI, B. Machine Learning para Leigos. Venturus, 2019. Disponível em: https://www.
venturus.org.br/machine-learning-para-leigos/. Acesso em: 6/5/2021.

KLEIN, BG. Tratado de Fisiologia Veterinária Cunningham. 5 ed. Elsevier, 2014.

LACERDA, W. S. Guia de aulas práticas de redes neurais artificiais: versão 1.3. Lavras:
UFLA, 2019. Disponível em: http://repositorio.ufla.br/bitstream/1/29980/5/APOSTILA_
Guia%20de%20aulas%20pr%C3%A1ticas%20de%20redes%20neurais%20artificiais-%20
vers%C3%A3o%201.3.pdf. Acesso: 31/1/2021.

LARSON, R. Estatística aplicada. Tradução Luciana Vianna 4. ed. São Paulo: Pearson Prentice
Hall, 2010.

LEB. Distribuições (binomial, Poisson, Normal). [On-line] Disponível em: https://leb.fmvz.


usp.br/ensino/vps-0126-metodos-quantitativos-em-saude-animal/exercicios/distribuicoes-
binomial-poisson-normal. Acesso em: 6/5/2021.

LEE, J. The 10 Algorithms Machine Learning Engineers Need to Know. Disponível em:
https://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html. Acesso
em: 7/1/2021.

LIMA, A. H. N. Seleção de características de dados utilizando redes neurais artificiais. [on-line]


Proceedings... XIII Brazilian Symposium on Information Systems, Lavras, Minas Gerais, June
5-8, 2017. Disponível em: https://sol.sbc.org.br/index.php/sbsi/article/view/6035/5933. Acesso
em 07/03/2021

LOUREIRO, L. M. J. GAMEIRO, M. G. H. Interpretação crítica dos resultados estatísticos: para


lá da significância estatística. Revista de Enfermagem Referência, Série III, n. 3, pp.151-162,
2011. Disponível em: https://www.ibilce.unesp.br/Home/Departamentos/CiencCompEstatistica/
Adriana/interpretacao-critica-dos-resultados-estatisticos.pdf. Acesso em 07/01/2021

LYRA, W. S. Classificação periódica: um exemplo didático para ensinar análise de componentes


principais. Quim. Nova, v. 33, n. 7, pp. 1594-1597, 2010. Disponível em: https://www.scielo.
br/j/qn/a/5d4pv5StPBB497gxkYBN3XH/?format=pdf&lang=pt. Acesso em: 12/5/2021.

MENEZES, A. M. B.; SANTOS, I. S. Curso de Epidemiologia Básica para pneumologistas.


Disponível em: http://itarget.com.br/newclients/sbpt.org.br/2011/downloads/arquivos/COM_
EPID/COM_EPID_1_Curso_Epidemiologia_Basica_para_Pneumologistas.pdf.

MERCHÁN-HAMANN, E.; TAUIL, P.L. Proposta de classificação dos diferentes tipos de


estudos epidemiológicos descritivos. Epidemiol Serv Saúde, v. 30, 1, 2021. Disponível em:
https://doi.org/10.1590/s1679-49742021000100026.

132
Referências

ME SALVA! DPB05 - Distribuição Normal (Aula I) - Probabilidade e Estatística. YouTube,


2015. Disponível em: https://www.youtube.com/watch?v=MoGes4OzsIk. Acesso em: 6/5/2021.

ME SALVA! MDC01 - Introdução e One Way ANOVA (Aula I) - Probabilidade e


Estatística. YouTube, 2016. Disponível em: https://www.youtube.com/watch?v=Sr9THtnE
FkU. Acesso em: 6/5/2021.

MORADIN, V. S. et al. Delineamento experimental e tamanho de amostra para alface cultivada


em hidroponia. Ciência Rural, Santa Maria, v. 30, n. 5, pp. 779-781, 2000. Disponível em:
https://www.scielo.br/j/cr/a/sJpG9GvZDmrpDNJ7g4BxPxF/?lang=pt&format=pdf. Acesso em:
7/1/2021.

MORAIS, M. B. C. Introdução a análise multivariada. 2007. Disponível em: https://


edisciplinas.usp.br/mod/resource/view.php?id=1521441. Acesso em: 7/1/2021.

NERDOLOGIA TECH. Machine Learning: como ensinar uma máquina a aprender.


YouTube, 2018. Disponível em: https://www.youtube.com/watch?v=mhe5e2B9bL8. Acesso em:
6/5/2021.

NETO, P. B.; SILVA, T. C. Lei dos Grandes Números [On-line] Disponível em: https://www.
rpubs.com/pedrin1/533227. Acesso em: 4/2/2021.

NORMANDO, D. et al. Análise do emprego do cálculo amostral e do erro do método em


pesquisas científicas publicadas na literatura ortodôntica nacional e internacional. Dental Press
J. Orthod., v. 16, n. 6, 2011. Disponível em: https://www.scielo.br/j/dpjo/a/Z3nFTVsKKkRD
8qSQh3dTqkR/?format=pdf&lang=pt. Acesso: 31/1/2021.

NUNO, R. F. et al. Genomics and epidemiology of the P.1 SARS-CoV-2 lineage in Manaus,
Brazil. Science, 2021 v. 372, n. 6544, pp. 815-821. doi: 10.1126/science.abh2644. Disponível:
https://pubmed.ncbi.nlm.nih.gov/33853970/ Acesso: 14/5/2021.

OLIVEIRA, J. A. D. Material didático: regressão e correlação linear. [On-line] Disponível


em: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&v
ed=2ahUKEwiNlbjBzPTuAhUyH7kGHb3WCSc4HhAWMAd6BAgHEAM&url=http%3A%2F%
2Fwww.fcav.unesp.br%2FHome%2Fdepartamentos%2Fcienciasexatas%2FJOAOADEMIRDEOLI
VEIRA%2F13%2520aula.doc&usg=AOvVaw2t_M2TbAbB2JV3UZkNZA3o.

PEREIRA, B. B. NASCIMENTO, E. M. Aprendizado estatístico em medicina. Curso da Seagro


Presidente Prudente (SP), 2015. Disponível em: https://cancri.ead.unesp.br/sigeve/evento_
imagens/arq_apoio_5_1439146834.pdf. Acesso em: 4/2/2021.

PEREIRA, M. G. Epidemiologia: teoria e prática. Rio de Janeiro: Editora Nova Guanabara,


1995.

PERES, F. Regressão Logística Multinomial no SPSS (Parte 1). YouTube, 2020. Disponível
em: https://www.youtube.com/watch?v=6K89oXjYPLI. Acesso em: 6/5/2021.

133
Referências

PONTES, E. L. R. J. Probabilidade ou chance? Rev. Saúde Pública de Mato Grosso do Sul,


v. 1, n. 1, pp. 125-129, 2018.

PRATES, W.; JOPPEN, H. Outliers, o que são e como tratá-los em uma análise de
dados? [On-line] Aquarela, 2017. Disponível em: https://www.aquare.la/o-que-sao-
outliers-e-como-trata-los-em-uma-analise-de-dados/. Acesso: 31/1/2021.

PROFESSOR GURU. #01 – Intervalo de Confiança – Conceitos | Nível de Confiança |


Inferência Estatística. Disponível em: https://www.youtube.com/watch?v=sWle26_vNbI.
Acesso em: 6/5/2021.

PROFESSOR GURU. #02 – Intervalo de Confiança para a Média com Variância


Conhecida. Disponível em: https://www.youtube.com/watch?v=TnIaORtYgzE. Acesso em:
6/5/2021.

PROFESSOR GURU. #03 – Exemplo 1 – Intervalo de Confiança para a Média com


Variância Conhecida. Disponível em: https://www.youtube.com/watch?v=SReIn8aCCNo.
Acesso em: 6/5/2021.

PROFESSOR GURU. #04 – Exemplo 2 – Intervalo de Confiança para a Média com


Variância Conhecida. Disponível em: https://www.youtube.com/watch?v=381-OeGFD84.
Acesso em: 6/5/2021.

PROFESSOR GURU. #05 – Exemplo 1 – Teste de Hipótese para a média populacional


com variância conhecida. YouTube, 2017. Disponível em: https://www.youtube.com/
watch?v=dIuicq-hlm4. Acesso em: 6/5/2021.

PROFESSOR GURU. #06 – Exemplo 2 – Teste de Hipótese para a média populacional


com variância conhecida. YouTube, 2017. Disponível em: https://www.youtube.com/
watch?v=LLO03co_gRI. Acesso em: 6/5/2021.

PROFESSOR GURU. #07 – Intervalo de Confiança para a Média com a Variância


Desconhecida. Disponível em: https://www.youtube.com/watch?v=2QvoklsWXuU. Acesso em:
6/5/2021.

PROFESSOR GURU. #07 – Teste de Hipóteses para a média com variância populacional
desconhecida. YouTube, 2017. Disponível em: https://www.youtube.com/watch?v=IfiGkWIs_7Y.
Acesso em: 6/5/2021.

PROFESSOR GURU. #08 – Distribuição t-Student – Conceitos e Tabela. Disponível em:


https://www.youtube.com/watch?v=y_-UOcQMpms. Acesso em: 6/5/2021.

PROFESSOR GURU. #08 – Teste de Hipóteses para a proporção (1 população). YouTube,


2017. Disponível em: https://www.youtube.com/watch?v=UjzEnGDAR8g. Acesso em: 6/5/2021.

PYTHON TUTORIAL. Uma introdução a linguagem de programação Python. Disponível


em: https://www.devmedia.com.br/python-tutorial/33274. Acesso em: 12/05/2021.

134
Referências

QUIJANO, F. Medidas de associação em epidemiologia. Departamento Epidemiologia – FSP.


Universidade de São Paulo. São Paulo, 2017. Disponível em: https://edisciplinas.usp.br/pluginfile.
php/3639250/mod_resource/content/1/Medidas%20de%20asocia%C3%A7%C3%A3o.pdf. Acesso
em: 6/5/2021.

REIS, E. A.; REIS I. A. Análise Descritiva de Dados. Relatório Técnico do Departamento


de Estatística da UFMG, 2002. Disponível em: http://www.est.ufmg.br/portal/arquivos/rts/
rte0202.pdf.

RIBEIRO, E. M. S. Correlação e covariância: exercícios de lista. Disponível em: https://


eaulas.usp.br/portal/video.action?idItem=12222. Acesso em: 6/5/2021.

RODRIGUES, C. F. S.; LIMA, F. J. C.; BARBOSA, F. B. Importância do uso adequado da


estatística básica nas pesquisas clínicas. Brazilian Journal of Anesthesiology, v. 67, n. 6,
pp. 619-625, 2017. Disponível em: https://www.scielo.br/j/rba/a/N5PgBCrzhDkfRbX8QXs
ctHx/?format=pdf&lang=pt. Acesso em: 12/3/2021.

ROSNER, B. Fundamentals of Biostatistics. Brooks/Cole, 2011.

R PROJECT. R: The R Project for Statistical Computing. Disponível em: r-project.org.

RUMEL, D. “Odds ratio”: algumas considerações. Rev. Saúde Pública, São Paulo v. 20, n. 3,
1986. Disponível em: https://www.revistas.usp.br/rsp/article/view/23359/25389.

RUSSELL, S. J.; NORVIG, P. Artificial intelligence: a modern approach. 2. ed. New Jersey:
Prentice Hall International, 2003.

SACKETT, D. I. et al. Evidence-Based Medicine. How to Practice and Teach EBM. Evidence-
Based Medicine, 2005. Disponível em: https://www.researchgate.net/publication/246115972_
Evidence-Based_Medicine_How_to_Practice_and_Teach_EBM_Evidence-Based_Medicine.
Acesso em: 12/3/2021.

SAMPAIO, N. A. S.; LEONI, R. C. Utilização dos testes de hipóteses para a média na


tomada de decisão. Disponível em: https://www.aedb.br/wp-content/uploads/2015/05/545.
pdf. Acesso em: 4/2/2021.

SANTOS, R. et al. Extração de Regras de Redes Neurais via Algoritmos Genéticos. Anais...
IV Congresso Brasileiro de Redes Neurais. São José dos Campos, Brasil, 1999. Disponível
em: https://www.researchgate.net/publication/228960317_Extracao_de_Regras_de_Redes_
Neurais_via_Algoritmos_Geneticos.

SAUVÉ, J. Escolha de um teste estatístico – 1. YouTube, 2012. Disponível em: https://www.


youtube.com/watch?v=-LgAOsUMrt8. Acesso em: 6/5/2021.

135
Referências

Semana 8 – Distribuição de Probabilidades. Segredos da estatística. [On-line]. Disponível


em: https://segredosdaestatistica.wordpress.com/semanas/semana-8-distribuicao-de-
probabilidades/#:~:text=A%20distribui%C3%A7%C3%A3o%20de%20probabilidades%20
associa,valor%20de%20uma%20vari%C3%A1vel%20aleat%C3%B3ria. Acesso em: 6/5/2021.

SHAH, N. V.; NABI, S. U. et al. An update on emerging therapeutics to combat COVID-19


Basic. Clin Pharmacol Toxicol., v. 129, pp.104-129, 2021. Disponível em: https://
onlinelibrary.wiley.com/doi/epdf/10.1111/bcpt.13600.

SILVA, J. C. Algoritmos de Aprendizagem de Máquina: qual deles escolher? Um guia rápido


sobre vários algoritmos em diferentes tarefas de aprendizagem. Machina Sapiens, 2017.
Disponível em: https://medium.com/machina-sapiens/algoritmos-de-aprendizagem-de-
m%C3%A1quina-qual-deles-escolher-67040ad68737. Acesso em: 4/2/2021.

SILVA, J. G. R. Introdução a Linguagem Python. Disponível em: https://www.ufjf.br/


ciro_barbosa/files/2010/04/slides_joao.pdf. Acesso: 12/5/2021.

SILVA, N. N. Amostragem probabilística: um curso introdutório. 3. ed. São Paulo: Editora


USP, 2015.

SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. Bioinformática: contexto computacional


e aplicações. [On-line], 2020. Disponível em: https://www.ucs.br/educs/arquivo/ebook/
bioinformatica-contexto-computacional-e-aplicacoes/. Acesso em: 4/2/2021.

SIMON, F. O. Estatística e Probabilidade – Aula 14 – Análise de Variância (ANOVA).


YouTube, 2018. Disponível em: https://www.youtube.com/watch?v=1ceP2FL5fzE. Acesso em:
6/5/2021.

SIQUEIRA-BATISTA, R. et al. As redes neurais artificiais e o ensino da medicina artificial


Neural Networks and medical Education. Revista Brasileira de Educação Médica, v. 38, n. 4,
pp. 548-556, 2014.

SISLAU FMUSP. Análise Multivariada. YouTube, 2013. Disponível em: https://www.youtube.


com/watch?v=ou1Q90sUbNA. Acesso em: 6/5/2021.

TADANO, Y. S. Probabilidade e estatística. Universidade Tecnológica Federal do Paraná.


Disponível em: http://paginapessoal.utfpr.edu.br/yaratadano/2014-2/cc32f-probabilidade-e-
estatistica/aulas/Aula%207%20-%20Variaveis%20Aleatorias.pdf/at_download/file.

TEIXEIRA, A. I. P. et al. A cross-sectional approach including dog owner characteristics


as predictors of visceral leishmaniasis infection in dogs. Mem Inst Oswaldo Cruz, Rio de
Janeiro, v. 115, e190349, 2020. Disponível em https://www.scielo.br/j/mioc/a/Kkp9zR84JZs
FW5TYsTpQWWJ/?format=pdf&lang=en.

THEODORIDIS, S.; KOUTROUMBAS, K. Pattern recognition. Elsevier Science, 2008.

136
Referências

UEL. Explicação do teste de Shapiro-Wilk [On-line] Disponível em: http://www.uel.br/


projetos/experimental/pages/arquivos/Shapiro.html. Acesso em: 6/5/2021.

VARELLA, C. A. A. Análise componentes principais. Seropédica (RJ): UFRRJ, 2008.


Disponível em: http://www.ufrrj.br/institutos/it/deng/varella/Downloads/multivariada%20
aplicada%20as%20ciencias%20agrarias/Aulas/analise%20de%20componentes%20principais.pdf.
Acesso em: 4/2/2021.

VASCONCELOS, V. V. FEITOSA, F. F. Regressão Linear I. UFABC. [On-line], 2017. Disponível


de: https://pt.slideshare.net/vitor_vasconcelos/regresso-linear-i. Acesso em: 4/2/2021.

VEDUCA. Exercícios resolvidos sobre Intervalo de confiança com variância


conhecida. [On-line] Disponível em: https://veduca.sfo2.cdn.digitaloceanspaces.com/uplo
ads/33f08530d6d3d59e304c979c9b401373.pdf. Acesso 31/1/2021.

VILELA JUNIOR, G.B. Estatística: Teste Z (ou Escore Padronizado). Disponível em:
http://www.cpaqv.org/estatistica/teste_z.pdf. Acesso em: 6/5/2021.

VU, J.; HARRINGTON, D. Introductory Statistics for the Life and Biomedical Sciences. 1
ed. OpenIntro Statistics, 2020.

WAGNER, MB. CALLEGARI, SD. Medidas de associação em estudos epidemiológicos:


risco relativo e odds ratio. Jornal de Pediatria, v. 74, pp. 247-251, 1998. Disponível em:
https://www.lume.ufrgs.br/bitstream/handle/10183/54354/000246332.pdf?sequence=1.
Acesso 31/01/2021.

WIKIPEDIA. Distribuição T de Student. Disponível em: https://pt.wikipedia.org/wiki/


Distribui%C3%A7%C3%A3o_t_de_Student#:~:text=A%20distribui%C3%A7%C3%A3o%20t%20
de%20Student,trabalhasse%20para%20a%20cervejaria%20Guinness. Acesso em 14/2/2021.

137

Você também pode gostar