Escolar Documentos
Profissional Documentos
Cultura Documentos
Para tanto antes de falar de analise de variância vamos relembrar alguns conceitos.
Tratamento- Um tratamento ´e uma condição imposta ou objeto que se deseja medir ou avaliar em
um experimento. Normalmente, em um experimento, ´e utilizado mais de um tratamento, eles
podem ser quantitativos (pode se contar) ou qualitativos.
Hipóteses e Objetivos: Todo experimento deve ter como objetivo gerar dados para comprovar ou
não alguma hipótese em consideração (ou conjectura). Os objetivos devem ser totalmente pré-
estabelecidos e claros. A hipótese pode ser sobre o comportamento de alguma tecnologia, manejo,
raça, etc.( No entanto, na prática existe variabilidade e o valor F calculado será maior que ZERO.
A estatística F é calculada através da razão QMTratamento/QMResíduo.
Quanto maior for a estatística F, menor a chance desse valor acontecer sob a hipótese de um
modelo de efeito nulo (igualdade de tratamentos). Ou seja, o valor de F deve ser grande (maior que
o Fc tabelado, em nível de significância) para rejeitar H0 e concluir pela diferença significativa entre
algum contraste de médias de tratamentos. Quando isso ocorre (F ≥ Fc) dizemos que o valor da
estatística “caiu” na região crítica. Na Figura a seguir podemos observar a região crítica para a
distribuição F de Snedecor, para nível de significância ( = 0,05) ou 5%. A região crítica é formada
por valores maiores que Fc (valor F crítico ou F tabelado para o correspondente nível de
significância de interesse).
Unidade experimental: ou parcela ´e onde ´e feita a aplicação do tratamento. E´ a unidade
experimental que fornece os dados para serem avaliados. Elas podem ser formadas por grupos ou
indivíduos, buscando sempre minimizar o erro experimental.
Repetição: ´e o numero de vezes que um tratamento aparece no experimento. O numero de
repetições, em um experimento, vai depender também dos recursos disponíveis, do tipo de
experimento ( delineamento) e, também, da variabilidade do experimento ou da variável resposta.
A aleatorização ou casualização consiste em um conjunto de regras que define o processo de
distribuição das parcelas na area experimental. A funcao da casualizacao e evitar a
tendenciosidade ou o vies dos efeitos das variaveis nao controladas sobre os resultados obtidos no
experimento permitindo que as estimativas e os testes de hipoteses sejam validos.
Bordadura e área útil
Para que não haja influência de fatores de borda, especialmente maior luminosidade, ventos e
competição por luz e nutrientes com material na parcela adjacente, é necessário separar a
bordadura e colher só materiais da área útil da parcela. Para isso toda área experimental deve ser
plantada com bordadura, especialmente parcelas de borda.
A não observância desse fato pode aumentar a variabilidade , subjetivamente avalia-se em mais
de 30%.
Falando em Variável resposta:, ela é e qualquer característica que apresenta variação, por
exemplo, a altura de pessoas, o peso de animais, o comprimento de uma peça, o numero de
microrganismos em um litro de leite etc. Quando o valor de uma variável não pode ser determinado
antes da realização de um experimento, tem-se então uma variável aleatória. As variáveis que
assumem valores enumeráveis, são denominadas variáveis aleatórias discretas.
Variância ( 2) - É a média da soma dos quadrados dos desvios em relação à própria média. A
variância é a medida comumente usada para resumir a variabilidade de uma distribuição, pois mede
a concentração dos dados em torno de sua média.
Podemos fazer uma análise de variância com dados que tenham distribuição conhecida ou não. A
partir daí para a realização de testes de hipóteses estatísticos é necessário que o conjunto de dados
obedeça algumas pressuposições. Tabela da Analise de Variância
FV – Fontes de Variacao- Nessa coluna sao descritas as causas de variabilidade dos dados do
experimento. Nosso interesse esta em conhecer a variabilidade ENTRE os TRATAMENTOS. Todas
as outras fontes de variabilidade sao agrupadas
em RESÍDUO.
GL – Graus de Liberdade A cada fonte de variacao esta associado um numero de graus de
liberdade.
SQ – Somas de Quadrados-Sao as somas dos quadrados de desvios ou as medidas de
variabilidade calculadas para cada fonte de variacao.
QM – Quadrados Medios- Sao obtidos pela razao entre as Somas de Quadrados e os seus
respectivos graus de liberdade. Sao as medidas de variabilidade para cada fonte de variacao,
comparaveis entre si.
FC – valor da estatistica F- E o valor obtido para a comparacao entre os quadrados
medios, dado pela razao entre o QM Entre Tratamentos e o QM do Residuo. E a estatistica de teste
apropriada para o teste de hipotese sobre os quadrados medios.
O quadrado médio (QM) para cada fonte e variação é obtido pela razão entre a soma de quadrados
da fonte de variação em questão pelo seus respectivos graus de liberdade. A partir da Tabela de
análise de variância podemos obter algumas estatísticas importantes de interesse prático:
1) Coeficiente de determinação: R2 = SQTratamento/SQTotal Expressa proporcionalmente ou
percentualmente quanto da variabilidade dos dados pode ser atribuída ao tratamento. Ou,
quanto o conjunto de dados está ajustado ao modelo de análise. Importante estatística que
definirá a confiabilidade dos resultados.
2) 2) Desvio padrão geral médio: s = QMRe síduo É uma média ponderada da variabilidade
das respostas dentro de cada tratamento. Ou seja, mede quanto as repetições de cada
tratamento estão variando entre si.
3) Coeficiente de variação: CV = (s/ y ). 100 Obtida a partir da média geral dos y . Essa
estatística expressa percentualmente a precisão com que o experimento foi realizado.
Quanto menor o valor do CV melhor é a precisão experimental. Essa precisão esta
relacionada com a forma como o experimento foi instalado e conduzido. Várias
classificações de CV foram propostas por diversos autores.
4) DELINEAMENTOS EXPERIMENTAIS
É o plano utilizado na experimentação e implica na forma como os tratamentos serão
designados ou arranjados nas unidades experimentais. É feito no sentido de evitar
influências de fatores estranhos e propiciar condições para que os tratamentos possam
expressar seus verdadeiros efeitos. O delineamento será escolhido em função da
disponibilidade de parcelas homogêneas, de material para sua instalação, condução e
colheita. Portanto, há necessidade de conhecimento do local, do animal e da condução do
próprio experimento para que o planejamento do delineamento seja adequado.
EX- DBC- Exemplo: Se desejarmos comparar a preferência de uma praga “X” por 4 variedades
de cana-de-açúcar (Tratamentos: Va, Vb, Vc, Vd), podemos instalar vasos com as diferentes
variedades em uma casa de vegetação e submete-las ao ataque da praga, a fim de comparar os
resultados. Supondo 5 repetições (1, 2, 3, 4, 5), um possível croqui do sorteio dos tratamentos será:
Nesse caso, em um experimento com 4 tratamentos e 5 repetições, teremos 20 parcelas
homogêneas, onde os tratamentos e repetições deverão ser sorteados aleatoriamente na área
experimental (no caso, vasos).
Tema-2-Arranjos Fatoriais e Parcelas Subdivididas.
Os experimentos fatoriais sao aqueles que consideram as combinações entre dois ou mais
grupos de tratamentos ou fatores. Normalmente, tem-se de 2 a 3 fatores, cada um com diferentes
níveis. Por exemplo, um fator poderia ser temperatura de cozimento e outro fator poderia ser tipo
de embalagem. Cada um destes fatores teria mais de um nível, ou seja, várias temperaturas e
vários tipos de embalagem.
Conclusão:
Recipientes: De acordo com o teste F existe
diferença significativa, ao nível de 1% de
significância entre n´níveis do fator Recipiente,
considerando a variável altura média das mudas.
Espécies: De acordo com o teste F, existe
diferença significativa, ao n´nível de 1% de
significância, entre n´níveis do fator Espécie,
considerando a variável altura média das mudas.
Interação R x E: De acordo com o teste F, existe
interação significativa entre os níveis dos fatores
Recipientes e Espécies, ao n´nível de significância
de 1%, ou seja, a altura média das mudas de
Eucalipto no recipiente i depende da espécie j (e
vice-versa).
Dado que a interação foi significativa, não ´e
possível estudar isoladamente os efeitos dos
fatores Recipientes ou Espécies. O procedimento
seguinte ´e realizar o desdobramento dos Graus
de liberdade da Interação e efeitos principais para
estudar o comportamento das espécies dentro de
cada recipiente (E(R)) e/ou o comportamento
de crescimento das mudas nos Recipientes em
função da Espécie utilizada.
O procedimento consiste em uma Análise de
variância dos efeitos principais mais a interação
entre os fatores envolvidos na interação
significativa. Para construir esta análise de
variância, utiliza-se o Quadro Auxiliar (Tabela 7).
Parcelas subdivididas (Split-plot)
DIC e DBC em Parcela Subdividida (“SPLIT PLOT”)
Nos experimentos fatoriais, todas as combinações de tratamentos eram distribuídos nas unidades
experimentais, seguindo a casualização de um delineamento inteiramente casualizado, em blocos
ao acaso ou em quadrado latino. Entretanto há outros tipos de casualização e uma dessas
alternativas nos leva ao delineamento em PARCELAS SUBDIVIDIDAS (BANZATO & KRONKA,
2006).
Os níveis do fator colocado nas parcelas são denominados Tratamentos principais (Fator A), e os
níveis do fator casualizado nas subparcelas de cada parcela são denominados tratamentos
secundários (Fator B). Assim, em resumo nos experimentos em parcelas subparcelas é esperada
ser menor do que entre parcelas, o fator que é esperado apresentar menores diferenças (maior
precisão é desejada) deve ser casualizado nas subparcelas de cada parcela.
Em experimentos fatoriais com dois ou mais fatores, quando há alguma limitação para instalar o
experimento, ou mesmo para facilitar a instalação, utiliza-se o experimento em parcelas
subdivididas. Em alguns casos, ´e a ´única forma de aplicação dos tratamentos `as unidades
experimentais.
Este tipo de experimento consiste em alocar o fator A em parcelas principais (ou primária) e o fator
B nas subparcelas (secundárias). Cada parcela funciona como um “bloco”para as subparcelas.
Se existirem mais de dois fatores, o experimento ´e chamado de parcelas subsubdivididas e assim
por diante. Esse experimento pode, ainda, ser instalado em qualquer delineamento.
Figura 10: Croqui de uma parcela principal de um experimento em Parcelas subdivididas
Tipos de parcelas subdivididas
1- Espaço: Em cada parcela há uma subdivisão de sua área em sub-áreas, constituindo, cada uma delas, uma
sub-parcela. Suponha um experimento para testar 4 tipos de gradagem e 3 espécies de capins segundo um
DIC em parcelas subdivididas.
2- Tempo: Neste caso as parcelas não se subdivide em sub-áreas, mas, periodicamente são tomados dados no
tempo, constituindo estas tomadas as subparcelas. Suponha um experimento para avaliar 2 tipos de
sistemas forrageiros e 3 ciclos de pastejo segundo um DIC em parcelas subdivididas.
3-
- ESTAT´ISTICA UNIVARIADA a suposição básica ´e que cada unidade experimental fornece uma
´única medida em determinada variável de interesse, chamada resposta. –
ESTAT´ISTICA MULTIVARIADA nestas situações se obtém um vetor de medidas em cada unidade
experimental –
DADOS LONGITUDINAIS cada unidade experimental fornece um vetor de resposta que representa
a mesma quantidade física observada em instantes de tempo.
Estudos longitudinais têm interesse especial quando o objetivo ´e avaliar tanto mudanças globais
quanto individuais ao longo do tempo. Em primeiro lugar, eles permitem que a variável resposta
seja observada em unidades amostrais sob n´níveis constantes de outras covariáveis que podem
influenciá-la.
A maior desvantagem dos estudos longitudinais está relacionada com seu custo, pois em muitas
situações exige-se um grande esforço para garantir a observação das unidades amostrais nos
instantes pré-determinados, e em outras, o período de observação pode ser muito longo. Em muitos
ensaios clínicos, por exemplo, ´e necessário acompanhar os pacientes com extremo cuidado para
que cumpram o protocolo experimental e não abandonem o estudo. Os aspectos técnicos também
podem ser considerados como uma desvantagem, pois a análise estatística de dados obtidos sob
esse tipo de planejamento ´e, em geral, mais difícil que a análise de dados obtidos sob esquemas
transversais. Essencialmente, os problemas com que nos deparamos no contexto de estudos
longitudinais são similares `aqueles com que nos defrontamos em estudos transversais. Para dados
com distribuições normais, eles podem ser classificados como problemas de Análise de Variância
(ANOVA) ou Análise de Regressão (linear ou não linear). A diferença básica entre eles reside numa
possível dependência (estatística) entre as observações intraunidades amostrais, presente apenas
nos dados provenientes de estudos longitudinais. A consequência prática desse tipo de
dependência reflete-se `as vezes num fenômeno conhecido como trilhamento (tracking), segundo
o qual, unidades amostrais com n´níveis de resposta mais altos (ou mais baixos) no início da coleta
de observações tendem a manter suas posições relativas ao longo de todo o estudo. O esforço
adicional requerido na análise de dados longitudinais relativamente `aquele exigido em estudos
transversais concentra-se praticamente na modelagem dessa estrutura de dependência estatística.
Em estudos longitudinais, os dados associados a cada unidade amostral podem ser expressos na
forma de um vetor cujos elementos são os valores da variável resposta (pressão sanguínea, por
exemplo) em cada instante de observação e de uma matriz cujos elementos correspondem aos
valores das variáveis explicativas (ou independentes) que podem ter uma natureza classificatória
(tratamento, gênero, por exemplo) ou não (tempo, temperatura, etc.). Dentre essas, algumas
podem variar entre unidades amostrais (tratamento, gênero, por exemplo) e outras podem ter
variação intraunidades amostrais (h´abitos tabagistas, exposição `a poluentes etc.);
Quando o esquema de coleta de dados determina que todas as unidades amostrais devem ser observadas
nos mesmos instantes (igualmente espacados ou n~ao), dizemos que o planejamento _e balanceado com
rela_c~ao ao tempo. Se, por outro lado, o planejamento determina que conjuntos diferentes de unidades
amostrais sejam observados em conjuntos de instantes diferentes [como nos chamados planejamentos
encadeados (linked) ou mais geralmente transversais mistos segundo a nomenclatura apresentada por Rao
& Rao (1966)] ou permite que os dados sejam coletados irregularmente ao longo do tempo, ele _e dito
desbalanceado com rela_c~ao ao tempo. Tanto neste caso quanto naqueles planejados de forma balanceada
mas para os quais existem observa_c~oes omissas, os dados s~ao ditos desbalanceados com rela_c~ao ao
tempo. Um resumo dos principais conceitos empregados em pesquisas sobre dados longitudinais bem como
uma tentativa de padroniza_c~ao da terminologia correspondente podem ser encontrados em Helms
(1992).
Para efeito de análise, dados de estudos longitudinais devem ser dispostos de forma a conter uma indicação
da unidade amostral a que os valores das variáveis respostas e variáveis explicativas estão associados. Na
Tabela 1.1.1 apresentamos um paradigma para a disposição de um conjunto de dados em que as diferentes
unidades amostrais são observadas em conjuntos de instantes de tempo possivelmente diferentes. Em cada
unidade amostral, tanto a resposta (Y ) quanto as variáveis explicativas (X, W, V e Z) são observadas em cada
instante. As variáveis X, W e V representam características xas da unidade amostral e por isso s~ao
covariáveis independentes do tempo ao passo que a variável Z _e uma covariável dependente do
tempo pois seus valores não são constantes ao longo do tempo. Num estudo clinico, por exemplo, X e W
poderiam representar o sexo e o tipo de droga administrado aos participantes, caracterizando fatores no
sentido usual de ANOVA. A variável V poderia corresponder _a idade dos pacientes, caracterizando uma
covariável no esp__rito de An_alise de Covariância (ANCOVA). A variável Z, por sua vez, poderia
indicar a quantidade de gordura animal ingerida pelos participantes entre instantes consecutivos avaliação,
justiçando a classicação acima designada.
Neste caso, num estudo em que a variável resposta _e a nota em um certo tipo de teste aplicado a
adolescentes em diferentes ocasiões, o fator X representa um método de ensino (e.g., M_etodo A = 0 e
M_etodo B = 1), W representa o sexo (Feminino =0 e Masculino =1), a variável V indica a idade e a variável
Z representa o número de horas dedicadas ao estudo num certo periodo, a matriz (1.1.2)
associada a uma adolescente com 14 anos submetida ao método de ensino B seria espece cada como
Quando os fatores X e W têm mais do que dois niveis podemos representá-los por meio do acréscimo de
colunas _a matriz Xi: Com objetivos computacionais, _e comum concatenar os pers de resposta e as
matrizes de variáveis explicativas individuais,
A forma mais simples de análise de dados longitudinais envolve o uso de técnicas de ANOVA paramétrica ou
não paramétrica tendo como variável resposta algum tipo de medida resumo uni ou bivariada do per_l de
respostas (que _e essencialmente multivariado). Exemplos t__picos dessas medidas resumo s~ao a _area
sob a curva ou o desfecho (endpoint). Esse enfoque incorpora a estrutura de correlação intraunidades
amostrais da mesma forma que as diferenças consideradas em problemas analisados por meio de testes t
pareados o fazem. Ele _e _útil quando o objetivo _e a comparação das populações sob investigação com
respeito a alguma característica da distribuição da variável resposta e não inclui uma avaliação de seu
comportamento longitudinal. O leitor poder_a consultar Rowell & Walters (1976) ou Bryant & Gillings (1985).
Alternativamente, modelos lineares ou não lineares podem ser empregados para avaliar a relação entre a
variável resposta e as variáveis explicativas. Esses modelos podem ser classificados como populacionais
médios (population-averaged) ou individuais (subject-speci_c). Modelos populacionais médios são aqueles
em que a atenção está focada no valor esperado da resposta (entre todos os indivíduos da população) e
modelos individuais são aqueles em que o interesse recai nas respostas de cada individuo. O leitor poder_a
consultar Zeger, Liang & Albert (1988) para detalhes sobre o assunto, embora as diferenças entre as duas
classes possa ser esclarecida com os exemplos apresentados na próxima seção.
Sob outra perspectiva, modelos para dados longitudinais podem ser classificados como incondicionais ou
condicionais. Os primeiros são aqueles em que o valor esperado da variável resposta, E(yik), _e expresso
exclusivamente em termos das variáveis explicativas xi1k; : : : ; xipk: Se, entre elas, o tempo _e tomado como
uma variável discreta que indica a ordem em que a resposta _e observada em cada unidade amostral sob
um planejamento balanceado (possivelmente com dados omissos), os modelos correspondentes são
conhecidos como modelos de persiçãos e são equivalentes _aqueles costumeiramente considerados em
ANOVA ou ANCOVA. Nos casos em que o tempo _e encarado como uma variável continua, i.e., em que o
interesse recai na sua relação funcional com a variável resposta, os modelos correspondentes são
designados modelos de crescimento ou curvas de crescimento. Modelos condicionais, por outro lado, são
aqueles em que a relação entre a variável resposta e as variáveis explicativas num certo instante _e
condicionada a valores prévios da resposta. Por exemplo,
Duas abordagens distintas podem ser consideradas para o processo de construção desses modelos. A
primeira _e essencialmente orientada pelos dados e considera funções polinomiais para descrever a relação
entre a variável resposta e as variáveis explicativas. Talvez seja este o enfoque mais comumente empregado
na prática, principalmente em razão da simplicidade das técnicas utilizadas na análise. Apesar
de que em muitos casos esse tipo de modelos não incorpora o verdadeiro mecanismo gerador dos dados,
eles podem ser satisfatórios dentro de certos limites.
No que tange aos parâmetros de localização (ou de regressão), esse enfoque não difere muito daquele
usualmente adotado na análise de dados com estrutura transversal; o componente distintivo _e obtido por
meio do relaxamento da suposição de independência para as observações intraunidades amostrais
Regressão É uma série de técnicas voltadas para a modelagem e a investigação de relações entre
dois ou mais atributos (variáveis aleatórias) Exemplo Na análise de correlação linear, o objetivo
é determinar o grau de relacionamento entre duas variáveis. Já na análise de regressão linear, o
objetivo é determinar o modelo que expressa esta relação (equação de regressão), a qual é
ajustada aos dados
Para que serve? Ela permite construir um modelo matemático que represente dois atributos x e y
y = f(x), onde f(·) é a função que relaciona x e y x é a variável independente da equação y =
f(x) é a variável dependente das variações de x
Qual função usar? Na maioria dos casos, f(·) é desconhecida Cabe ao usuário escolher uma
função apropriada para aproximar f(·) Normalmente usa-se um modelo polinomial Também
podemos usar o modelo para fins de otimização
A análise de regressão compreende quatro tipos básicos de modelos Linear simples Linear
multivariado Não linear simples Não linear multivariado
Regressão simples Nesse tipo de regressão existe apenas uma variável de saída (y) e uma de
entrada (x) Exemplo: 𝑦 = 𝑓(𝑥) Regressão múltipla Nesse tipo de regressão existe apenas uma
variável de saída (y) e várias de entrada (xi , i=1,...p) Exemplo: 𝑦 = 𝑓(𝑥1, 𝑥2, … , 𝑥𝑝)
Regressão linear Tem esse nome porque se considera que a relação da entre as variáveis é
descrita por uma função linear (equação da reta ou do plano) Exemplo: 𝑦 = 𝛼 + 𝛽�
A análise de regressão linear estuda a relação entre a variável dependente ou variável resposta
ሺܻ ሻ e uma ou várias variáveis independentes ou regressoras ሺܻ ଵ,…,ܻ ሻ. Esta relação
representa-se por meio de um modelo matemático, ou seja, por uma equação que associa a
variável dependente ሺܻ ሻ com as variáveis independentes ሺܻ ଵ,…,ܻ ሻ. O Modelo de Regressão
Linear Simples define-se como a relação linear entre a variável dependente ሺܻ ሻ e uma variável
independente ሺܻ ሻ. Enquanto que o Modelo de Regressão Linear Múltiplo define-se como a relação
linear entre a variável dependente ሺܻ ሻ e várias variáveis independentes ሺܻ ଵ,…,ܻ ሻ. Neste
capítulo vamos apenas debruçar-nos sobre o modelo de regressão linear simples. Será
apresentado o modelo teórico e os seus pressupostos, assim como a estimação dos parâmetros
do modelo pelo método dos mínimos quadrados. Serão ainda construídos testes e intervalos de
confiança para os parâmetros do modelo.
MODELO TEÓRICO A equação representativa do modelo de regressão linear simples é dado por:
representa o valor da variável resposta ou dependente, ܻ , na observação ܻ , ܻ ൌ 1, … ,
ܻ (aleatória); . ݔrepresenta o valor da variável independente, ܻ , na observação ܻ , ܻ ൌ 1, … ,
ܻ (não aleatória); . ߝ ܻ , ൌ 1, … , ܻ são variáveis aleatórias que correspondem ao erro (variável
que permite explicar a variabilidade existente em ܻ e que não é explicada por ܻ ); . ߚ e ߚଵ
correspondem aos parâmetros do modelo. O parâmetro ߚ representa o ponto em que a recta
regressora corta o eixo dos ݕݕquando ܻ ൌ 0 e é chamado de intercepto ou coeficiente linear.
O parâmetro ߚଵ representa a inclinação da recta regressora, expressando a taxa de mudança em
ܻ , ou seja, indica a mudança na média da distribuição de probabilidade de ܻ para um aumento de
uma unidade na variável ܻ . Na Figura 2.1 podemos observar a interpretação geométrica dos
parâmetros ߚ e ߚଵ.
2.2.PRESSUPOSTOS DO MODELO
Ao definir o modelo ሺ2.1ሻ estamos a pressupor que: a) A relação existente entre ܻ e ܻ é linear. b) Os erros são
independentes com média nula. Pressupondo então que ܧ ܻ ሺߝሻ ൌ 0, tem-se:
Os MLGs (Modelos Lineares Generalizados) são uma extensão dos modelos de regressão simples
e múltipla. Eles possibilitam utilizar outras distribuições para os erros e uma função de ligação
relacionando a média da variável resposta à combinação linear das variáveis explicativas.
Os Modelos Lineares Generalizados permitem, portanto, ‘alargar’ as suposições admitidas e
examinar não somente as relações lineares entre as variáveis explicativas e a resposta.
Com os modelos lineares generalizados é possível modelar variáveis de interesse que assumem a
forma de contagem, contínuas simétricas e assimétricas, binárias e categóricas.
Uma das limitações dos MLGs é a exigência de que os erros sejam independentes. Isso significa
que eles não são capazes de modelar bancos de dados com estruturas longitudinais (amostras
medidas mais de uma vez ao longo do tempo), espaciais ou multiníveis. Mas é possível contornar
essa fraqueza utilizando Modelos Lineares Generalizados Mistos ou Equações de Estimações
Generalizadas.
Abaixo, listamos as principais distribuições exigidas pela classe MLGs, e o tipo de dado que cada
uma delas modela:
1. Regressão de Poisson
As regressões de Poisson são usadas para modelar dados de contagem, por exemplo, o número
de mortes em determinada região ou o número de consumidores que entram em um
estabelecimento comercial. Normalmente, é utilizada uma função de ligação logarítmica para
relacionar a variável resposta às variáveis explicativas. Essa função é muito importante para essas
regressões, pois impede o surgimento de resultados negativos e fornece boas interpretações a
partir do exponencial dos coeficientes. Quando a contagem está sujeita a uma população e o
número de eventos for pequeno em relação ao tamanho da população, acrescenta-se um offset às
regressões de Poisson e, caso contrário, utiliza-se a regressão binomial logística. Em modelos de
Poisson é comum a presença de super dispersão, sendo que, quando presente no modelo, se faz
necessário utilizar uma variância robusta ou migrar para modelos como a Binomial Negativa.
3. Regressão Gama
A regressão Gama é usada para modelar dados positivos e assimétricos. Enquanto a regressão de
Poisson trata de modelar variáveis de contagem, ou seja, discretas, a regressão Gama modela
variáveis contínuas. Normalmente também se utiliza a função de ligação logarítmica pelas mesmas
razões já apresentadas na regressão de Poisson.
Pode-se utilizar esse tipo de modelo, por exemplo, para estudar os fatores que influenciam no valor
de um imóvel (como sua condição, localização, área construída, etc.) ou ainda os fatores que
influenciam na demanda de produtos em diferentes centros de distribuição.
Como se pôde ver, a classe de Modelos Lineares Generalizados é uma ferramenta poderosa que
supera as limitações dos modelos de regressão linear e possibilita a resolução de muitos
problemas, das mais diversas áreas do conhecimento.
MLG é definido por uma distribuição de probabilidade, membro da família (1.5) de distribuições,
para a variável resposta, um conjunto de variáveis independentes descrevendo a estrutura linear
do modelo e uma função de ligação entre a média da variável resposta e a estrutura linear. Entre
os métodos estatisticos para a análise de dados univariados que são casos especiais dos MLG,
citam-se:
(a) modelo clássico de regressão múltipla (Legendre, Gauss, in¶³cio do s¶eculo XIX) e modelo de
análise de variância para experimentos planejados (Fisher, 1920 a 1935) com o erro aleatório tendo
distribuição normal;
(b) modelo complemento log-log para ensaios de diluição, envolvendo a distribuição binomial
(Fisher, 1922);
(c) modelo probito (Bliss, 1935) para o estudo de proporções, envolvendo a distribuição binomial;
(d) modelo logístico (Berkson, 1944; Dyke e Patterson, 1952; Rasch, 1960; Cox, 1970) para o
estudo de proporções, envolvendo a distribuição binomial;
(e) modelos log-lineares para analise de dados na forma de contagens em tabelas de contingência,
envolvendo a distribuição de Poisson e a multinominal (Birch, 1963; Haberman, 1970);
(f) modelo logistico para tabelas multidimensionais de proporções;
(g) os modelos de testes de vida, envolvendo a distribuição exponencial (Feigl e Zelen, 1965; Zippin
e Armitage, 1966; Gasser, 1967);
(h) polinomios inversos para ensaios de adubação, envolvendo a distribuição normal na escala
logaritmica e linearidade na escala inversa (Nelder, 1966);
(i) modelo de analise de variância com efeitos aleatórios;
(j) modelo estrutural para dados com distribuição gama;
O modelo linear misto (LMM) é um modelo linear, frequentemente utilizado para trabalhar dados
longitudinais ou de medidas repetidas, que possibilita definir tanto parâmetros populacionais (efeitos
fixos), como coeficientes individuais (efeitos aleatórios), além do erro experimental. Conceitualmente,
pode ser apresentado como:
Onde:
ββ representa todos os termos fixos
γγ representa os termos aleatórios (assumidos como normalmente distribuídos)
ee representa o erro/resíduo
Pragmaticamente, este modelo oferece mais flexibilidade à ANOVA de medidas repetidas e sua
utilização vem ganhando mais espaço em Psicologia e áreas da saúde (Gueorguieva &
Krystal, 2004).
Desta forma, para a definição correta do modelo, deve-se ter em mente o que são efeitos fixos
e efeitos aleatórios:
Seja, por exemplo, um conjunto de dados de alturas (Y) e diâmetros de árvores (X) de diferentes
espécies em uma floresta inequiânea tropical, obtido em um procedimento de amostragem.
Utilizando a metodologia dos modelos mistos, além estimar os parâmetros para descrever o
comportamento médio da curva das alturas em relação aos diâmetros (efeito fixo), pode-se
predizer os parâmetros para diferenciação do comportamento da curva por espécie (Figura 1),
considerando as espécies como efeitos aleatórios, uma vez que nem todas as espécies de
árvores na população podem ter sido amostradas.
Os efeitos fixos são compartilhados por todos os indivíduos, enquanto os aleatórios são
específicos de cada um dos participantes. Com isso, a trajetória de cada indivíduo pode ser
modelada, permitindo que um subconjunto dos parâmetros de regressão seja definido como
aleatório.
Tanto O LMM, como a ANOVa de Medidas Repetidas costumam ser utilizados em dados
longitudinais. A tabela a seguir apresenta algumas das principais características de ambas as
análises.
Além do exemplo anterior, os modelos mistos tem sido utilizados em vários estudos de
mensuração por possibilitar a separação de um conjunto de dados em níveis hierárquicos.
Entre eles, tem-se: modelagem do crescimento em área basal e em altura dominante de
povoamentos submetidos a diferentes tratamentos silviculturais, ajuste de equações de
afilamento, modelagem do crescimento em nível de árvore individual, predição do volume
acumulado nos troncos das árvores, entre outros (WEISKITTEL et al., 2011).
2. Métodos de estimação
Os critérios para avaliar o ajuste dos modelos mistos normalmente são: o critério de informa
de Akaike (AIC) e o critério de informação de Schwarz ou critério de informação Bayesiano (BIC),
os quais são obtidos, respectivamente, por:
em que: p = número de parâmetros do modelo; log (L) = máximo valor do logaritmo da função
de máxima verossimilhança; n = número de observações.
As estimativas dos critérios AIC e BIC baseiam-se na variável dependente, assim não se pode
comparar as estimativas destes critérios quando se tem diferentes transformações das
variáveis dependentes.
No processo de modelagem, onde se pretende avaliar a contribuição dos efeitos aleatórios nos
modelos mistos, alguns passos devem ser seguidos (RESENDE et al., 2014):
b) Obter o deviance, dado por D = - 2log (L), para o modelo com e sem o efeito testado;
c) Fazer a diferença entre os deviances dos modelos com e sem o efeito testado, obtendo a
razão de verossimilhança;
d) Testar, via teste de Razão de Máxima Verossimilhança (LRT), a significância desta diferença,
por meio do teste Qui-quadrado, com 1 grau de liberdade.
3. Exemplo
Alternativamente, variáveis como tipo ou classe de solo ou classe de precipitação podem ser
empregadas também como métodos indiretos de classificação da capacidade produtiva ou em
associação com o índice de local (CLUTTER et al., 1983; DAVIS et al., 2001).
Resultados:
* Classe de solo:
* Classe de precipitação:
As estimativas dos parâmetros fixos e as estatísticas dos ajustes das equações abaixo mostram
que as classes de precipitação e de solo, incluídas no modelo como variável aleatória por meio
da estrutura dos modelos mistos, em substituição ao índice de local, resultou em bom ajuste
das respectivas equações, mostrando-se também como alternativas para caracterizar a
capacidade produtiva dos plantios de eucalipto, em substituição às variáveis índice de local.
No entanto, o índice de local no modelo de crescimento e produção ainda foi a
variável proxy que resultou em estimativas mais precisas.
Para projetar o estoque volumétrico dos plantios de eucalipto com as equações ajustadas
referentes aos modelos lineares mistos, torna-se necessário utilizar as estimativas conjuntas
dos parâmetros fixos e parâmetros aleatórios, as quais são apresentadas a seguir:
Modelos Lineares Generalizados Mistos - Ligação Canônica
Este modelo também é conhecido como regressão hierárquica ou regressão multinível e permite
examinar relações entre variáveis medidas em diferentes níveis de dados com essa estrutura. Para
utilizá-lo, é necessário ter, além de uma estrutura hierárquica na população, uma variável resposta
quantitativa medida no menor nível. Pode-se ter variáveis explicativas em quaisquer um dos níveis.
Claramente 2.12 possui muitos parâmetros. Em regressão hierárquica é ainda mais importante que
sejam incluídas apenas as variáveis e interações que forem de fato importantes para o estudo, pois
esse tipo de modelo pode car facilmente super parametrizado. Em (2.12), temos:
i) Efeitos fixos:
yij é a resposta do j-ésimo indivíduo do grupo i.
xij é o valor da variável explicativa, de nível indivíduo, do j-ésimo indivíduo do grupo i.
wij é o valor da variável explicativa, de nível grupo, do grupo i-ésimo grupo.
2.4 Inferência Bayesiana
Na teoria de probabilidade, o teorema de bayes permite obter a probabilidade de um evento a partir
de um conhecimento ou informação a priori que esteja relacionado com esse evento. Além disso,
também é possível utilizá-lo para se obter distribuições de probabilidade de uma certa variável.
Dessa maneira, dizemos que as probabilidades são atualizadas conforme mais informação são
obtidas. Sua forma matemática para dois eventos A e B é descrita por:
A Estatística Não paramétrica pode ser definida como uma coleção alternativa de métodos
estatísticos aplicada a conjuntos de dados onde as condições necessárias para aplicação de uma
técnica clássica inferencial (p. ex., Intervalo de Confiança, Teste de Hipótese) não são
satisfatoriamente atendidas. É também bastante útil no tratamento de dados onde o nível de
mensuração das observações não é dos melhores. Já nos testes não paramétricos, também
conhecidos como testes de distribuição livres, não há exigências quanto ao conhecimento da
distribuição da variável estudada Conjunto de técnicas que permitem fazer inferências para a
população sem a necessidade de obedecer a certos pressupostos (métodos livres de distribuição):
Normalidade dos dados Homogeneidade das variâncias.
ESTES ESTATÍSTICOS DE HIPÓTESES NÃO PARAMÉTRICOS. São testes que não dependem
de parâmetros populacionais, como por exemplo: média e variância, estes tipos de testes não
estão condicionados por qualquer distribuição de probabilidades dos dados em análise, sendo
também designados por “distribution-free tests”. Outra conceituação atribuída aos testes
paramétricos é que são testes que utilizam os dados ordenados para o cálculo de sua estatística.
Com essas premissas de bases de conceituações os testes de hipóteses de homogeneidade
e estacionariedade, que pelas suas características distributivas e pelo tamanho de suas amostras,
podem ser apenas testadas com o emprego dos testes não paramétricos. A rejeição ou não rejeição
da hipótese de homogeneidade de uma serie hidrológica é frequentemente decidida por meio do
teste não paramétrico proposto por Mann e Whitney (1947). O teste Mann-Whitney é equivalente
ao teste da soma dos postos de Wilcoxon. Em hidrologia estatística, o termo “estacionariedade”
refere-se ao fato que, excluídas as flutuações aleatórias, as observações amostrais são invariantes,
com relação à cronologia de suas ocorrências. Os tipos de não estacionariedades incluem
tendências saltos e ciclos, ao longo do tempo. Uma tendência temporal, eventualmente presente
em uma serie hidrológica Xt, ao longo do tempo t, pode ser detectada pela correlação entre a série
e o índice de tempo. Essa e a ideia essencial do teste não paramétrico de Spearman
Testes não paramétricos sobre duas medianas A ideia inicial básica para aplicação desses testes
é de que as amostras sejam independentes e selecionadas aleatoriamente, cada uma com mais
de 10 valores. Para testar se duas amostras independentes são provenientes de populações com
medianas iguais usa-se o teste da soma dos postos de Wilcoxon a qual usa postos de dados
amostrais de populações independentes.
Testes não paramétricos sobre a correlação entre duas amostras
O teste de correlação de postos de Spearman usa postos de dados amostrais em pares
combinados e testa a associação entre duas amostras. O coeficiente de correlação de postos de
Spearman (rs) indica se há uma correlação entre essas duas amostras. A idéia inicial para que a
aplicação do teste é que as amostras sejam extraídas em pares e selecionadas aleatoriamente.
Obs.: Diferenças iguais a zero devem ser ignoradas. Essa solução, porém, só é satisfeita se houver
poucos zeros.
O teste dos sinais é fácil de aplicar e praticamente não exige pressuposições. Mas possui pouco
poder.
Siegel (1977) apresenta um estudo referente ao efeito da ausência do pai no desenvolvimento das
crianças. Dezessete casais foram entrevistados, pais e mães separadamente, e foi verificado o
grau de discernimento quanto à disciplina paterna após o retorno dos pais ao lar, após uma grande
ausência. Buscou-se então verificar se havia ou não diferença entre os cônjuges. Apesar de serem
esperadas diferenças favoráveis à mãe, tendo em vista a ausência prolongada dos pais,
considerou-se como hipótese inicial (nula) a de não diferença entre os pais. Além disso, três casais
foram eliminados do estudo, tendo em vista que o pai e a mãe apresentaram graus de
discernimento considerados iguais. Assim, os
resultados referentes aos 14 casais restantes, as diferenças no grau de discernimento (Di) e o sinal
destas diferenças, representados por 1 se é positivo e por 0 se este sinal é negativo, são mostrados
na tabela 1.
Tema 8:Estatística Multivariada
A seguir apresentaremos uma síntese de alguns dos métodos de análise multivariada mais
utilizados:
• Análise de correspondência
• Análise de componentes principais
• Análise fatorial
• Análise de cluster
• Análise de regressão múltipla
• Modelagem de equações estruturais
A análise de correspondência é uma técnica de análise multivariada que tem como objetivo básico
verificar a associação entre variáveis categóricas gerando tabelas de contingência. estes como o
qui-quadrado, por exemplo, são utilizados para avaliar se a informação contida nas linhas da tabela
é independente, ou não, da informação contida nas colunas. Benefícios da análise de
correspondência
É objetiva e não faz suposições: Como os resultados reais não são usados, mas um cálculo dos
números em relação aos outros resultados, a análise de correspondência é muito objetiva. Não há
suposições distributivas subjacentes e, portanto, acomoda todas as variáveis de categoria.
Existem múltiplas variáveis: A força óbvia da análise de correspondência é que ela lida com
múltiplas variáveis de maneira fácil e simples. Isso é algo que nenhum outro método estatístico faz
com tanta facilidade.
Torna as coisas mais simples: Ao contrário de muitas outras ferramentas de ciência de dados, a
análise de correspondência usa uma tabela enorme e complicada com várias variáveis e categorias
e, no final, fornece uma visualização simples.
Limitações
É facilmente incompreendida: Como a análise de correspondência mostra relações relativas, as
pessoas que leem o gráfico geralmente interpretam mal os resultados. A ideia de que não há força
de correlação por causa da distância física entre os pontos é um pensamento falho, derivado da
não compreensão do gráfico.
Os dados devem ser consistentes: A análise de correspondência só é útil quando há pelo menos
duas linhas e duas colunas nos dados..
A análise de correspondência é muito influenciada por outliers: Quando a média dos dados
está sendo calculada na tabela multivariada, se houver dados discrepantes, isso distorce todo o
resultado. A influência dos dados discrepantes é enorme e pode fazer com que toda a análise seja
deturpada.
Falta de significância estatística: Ao contrário dos qui quadrados, que mostram claramente
significância estatística, a análise de correspondência mostra apenas uma relação. Não há menção
ou maneira de medir se esses relacionamentos têm algum significado ou se a força do
relacionamento se deve a algo que não seja o acaso.
A análise de componentes principais, também conhecida como PCA (do inglês Principal
Component Analysis), é um método de análise multivariada que tem por finalidade básica a análise
dos dados de forma reduzida, eliminando as sobreposições e escolhendo a forma mais
representativa dos dados a partir de combinações lineares das variáveis originais. O objetivo
é encontrar um meio de condensar a informação contida em várias variáveis originais em um
conjunto menor de variáveis estatísticas (componentes) com uma perda mínima de informação.
Quando se utiliza a matriz de covariância para extração, as componentes são influenciadas pelas
variáveis de maior variância. Sendo assim, quando existe uma discrepância muito acentuada entre
as variâncias, as componentes principais acabam sendo de pouca utilidade, uma vez que cada
componente tende a ser dominada por uma variável.
Em muitos casos, isso ocorre devido às diferenças existentes nas escalas e unidades de medidas
das variáveis. Quando isso ocorre deve-se utilizar a matriz de correlação para extrair as
componentes para que as variáveis de maior escala numérica não “roubem” a importância da
componente para si.
Existem diversas funções para realizar a Análise de Componentes Principais no R, como por
exemplo:
Para exemplificar, temos que um banco exige oito informações de candidatos a empréstimos:
renda, grau de instrução, idade, tempo na residência atual, tempo no emprego atual, poupança,
dívidas e número de cartões de crédito. Um administrador bancário deseja analisar esses dados
para determinar a melhor maneira de agrupá-los e relatá-los. Dessa forma, a análise de
componentes principais é realizada para reduzir o número de variáveis para tornar os dados mais
fáceis de analisar, escolhendo um número de componentes que explique boa porcentagem da
variação dos dados.
Análise Fatorial
Da mesma forma, a análise fatorial tem como objetivo principal descrever a variabilidade original
de um conjunto de variáveis em um número reduzido de variáveis latentes. A análise fatorial é uma
técnica estatística exploratória que permite realizar esse trabalho. Ela procura definir, em um estudo
com muitas variáveis, conjuntos de variáveis altamente correlacionadas, conhecidos como fatores.
Os fatores têm o objetivo de resumir as diversas variáveis em um conjunto menor de dimensões
com uma perda mínima de informação.A análise fatorial pode ser observada sob uma perspectiva
exploratória ou confirmatória.
Quando aplicada em estudos que exigem a redução do número de variáveis para favorecer a
análise exploratória, ou quando utiliza os fatores para a criação de medidas compostas, dizemos
que assume uma perspectiva exploratória.
Por outro lado, se o estudo envolve uma base conceitual que permite compreender a relação entre
as variáveis, então um fator pode assumir determinado significado. Ele pode representar um
conceito, medido pelo conjunto de variáveis que o compõe, que não seria possível verificar
individualmente.
Análise Fatorial Exploratória
A análise fatorial exploratória é capaz de tornar mais simples um estudo complexo, reduzindo um
grande número de variáveis correlacionadas em fatores com baixa correlação entre si. Ela
estabelece a correlação das variáveis observáveis e as organiza em fatores, que por si só são
variáveis não observáveis.
Vamos supor agora que um pesquisador está reproduzindo um estudo realizado no exterior e
precisa traduzir o questionário aplicado. Nesse caso, durante a tradução, uma ou mais perguntas
podem perder seu significado, o que pode levar a uma alteração no entendimento dos
entrevistados.
Neste caso, a análise fatorial cumpre o papel de confirmar se as mesmas perguntas do questionário
continuam formando os mesmos constructos do estudo. Isso porque, devido à tradução, uma ou
mais variáveis podem não estar mais correlacionados com as demais variáveis dos seus
respectivos constructos. Em alguns casos, podem até estar indo na direção contrária. Sua
importância para a formação de conhecimento
Análise de Cluster
Ao analisar uma base de dados, um dos principais desafios do analista é resumir a informação
coletada. Em muitos casos, quando contamos com um grande número de observações, pode ser
de interesse criar grupos. Dentro de cada grupo os elementos devem ser semelhantes entre si e
diferentes dos elementos dentro dos outros grupo, a análise de cluster, também conhecida como
análise de conglomerados, classificação ou agrupamento, é uma técnica de análise multivariada
que tem como propósito agrupar os elementos selecionados em grupos com características
similares entre si de maneira que os elementos em grupos diferentes sejam heterogêneos em
relação a estas mesmas características.
A análise de cluster é uma técnica estatística usada para classificar elementos em grupos, de forma
que elementos dentro de um mesmo cluster sejam muito parecidos, e os elementos em diferentes
clusters sejam distintos entre si. Para definir a semelhança – ou diferença – entre os elementos é
usada uma função de distância, que precisa ser definida considerando o contexto do problema em
questão. Podemos dividir a análise de cluster em dois grandes tipos de métodos: hierárquicos e
não hierárquicos.
Esses métodos não exigem que já se tenha um número inicial de clusters e são considerados
inflexíveis uma vez que não se pode trocar um elemento de grupo. Eles podem ser classificados
em dois tipos: Aglomerativos e Divisivos.
Usualmente, os métodos não hierárquicos são mais eficientes na análise de bancos de dados com
maior número de observações.
A maioria dos ambientes e softwares de análise estatística possuem opções para realizar a análise
de cluster e a construção de dendogramas. O software R possui uma grande quantidade de funções
e pacotes para se trabalhar com análise de agrupamento.
A regressão multivariada é uma coleção de técnicas estatísticas que constroem modelos que
descrevam de maneira razoável relações entre várias variáveis explicativas de um determinado
processo.A diferença entre a regressão linear simples e a multivariada é que nesta são tratadas
duas ou mais variáveis explicativas.
A Modelagem de Equações Estruturais é uma família de modelos estatísticos que busca explicar
as relações entre múltiplas variáveis. Ela examina a estrutura de inter-relações expressas em uma
série de equações, semelhante a uma série de equações de regressão múltipla. Tais equações
descrevem todas as relações entre constructos envolvidos na análise. Constructos são fatores
inobserváveis ou fatores latentes representados por múltiplas variáveis.
A SEM pode ser vista como uma combinação das técnicas de análise fatorial e análise de
regressão múltipla.
As principais características
A SEM é conhecida por muitos nomes: análise estrutural de covariância, análise de variável latente,
e, às vezes, simplesmente pelo nome do pacote especializado usado (Exemplo: LISREL, AMOS).
Apesar de existirem diferentes maneiras para testar as SEM, todos os modelos de equações
estruturais são caracterizados por três aspectos:
O SEM (CB-SEM) baseado em covariância é usado principalmente para confirmar (ou rejeitar)
teorias, isto é, um conjunto de relações sistemáticas entre múltiplas variáveis que podem ser
testadas empiricamente. Ele faz isso determinando o quão bem um modelo teórico proposto pode
estimar a matriz de covariância para um conjunto de dados de amostra.
Como exemplo prático, temos que um pesquisador deseja avaliar várias relações de dependência
de forma instantânea entre variáveis latentes (variáveis que sintetizam a informação de várias
outras variáveis). A modelagem de equações estruturais realiza o processo de sintetização dos
dados e estima os parâmetros das relações de dependência.
10 Análise Discriminante
A variável dependente é qualitativa, podendo ser dicotômica (sim-não) ou multicotômica (alto-
médio-baixo), e as variáveis independentes podem ser quantitativa ou qualitativa. Esta técnica
estatística auxilia na identificação de quais variáveis conseguem diferenciar grupos ou categorias.
12 Análise Fatorial: É uma técnica multivariada de interdependência em que todas as variáveis são
simultaneamente consideradas. Cada variável é relacionada com as demais, a fim de estudar as
inter-relações existentes entre elas, buscando a redução ou sumarização dos dados.
13 Análise de Cluster: É o nome dado ao grupo de técnicas multivariadas cuja finalidade primária
é agregar objetos com base nas características que eles possuem. O objetivo é classificar uma
amostra de indivíduos ou objetos em um pequeno número de grupos mutuamente excludentes,
com base nas similaridades entre eles.
15 O Truque! “O truque na estatística multivariada, se existe, não está nos cálculos, fácil e
rapidamente feitos num computador com software adequado instalado. O truque consiste em
escolher o método apropriado ao tipo de dados, usá-lo corretamente, saber interpretar os
resultados e retirar deles as conclusões corretas.” (Reis, 2001, p.11)
Tema 9-Estatística Espacial.
A Estatística espacial pode ser definida como uma coleção de técnicas que busca descrever os
padrões existentes em que os dados são espacialmente localizados e se considera explicitamente
a possível importância de seu arranjo espacial na análise ou interpretação dos resultados. A
estatística espacial distingue-se da estatística clássica por associar cada dado a uma localização
no espaço • Cada dado é referenciado espacialmente, este referenciamento poder ser qualquer
tipo de coordenada (X, Y) espacial • Análise de dados espaciais focaliza-se nas técnicas onde se
considera a localização espacial dos dados.
• Exploração sistemática do padrão dos eventos e de sua associação com outras variáveis
• Modelagem dos fenômenos cuja distribuição é afetada pela sua localização geográfica e pela sua
relação com seus vizinhos.
Eventos ou Padrões Pontuais • São fenômenos expressos por meio de ocorrências identificadas
como pontos localizados no espaço. • John Snow (1854) - estudo da epidemia de cólera em
Londres.
Áreas com contagens • São fenômenos associados aos dados de levantamentos que referem-se a
indivíduos localizados em pontos específicos no espaço. • Exemplos: Taxa de homicídios por
bairros; Taxa de incidência de doenças por município; Numero de imóveis novos uma cidade;
Tipos de Dados- Abaixo, é possível observar os tipos de dados analisados em Estatística Espacial.
Logo, para que um problema seja de Estatística Espacial, os dados obrigatoriamente devem possuir
um índice que faz referencia à uma localização geográfica. Ou seja, a referência geográfica é
explicitamente utilizada na modelagem.
A percepção visual da distribuição espacial dos dados é bastante eficaz no sentido de traduzir os
padrões existentes com considerações objetivas, assim como na percepção da associação com as
possíveis causas, direcionando e sustentando as tomadas de decisões.
Análise de Dados Espaciais trata das análises onde dados observáveis são obtidos a partir de
algum processo operando no espaço e para os quais se utilizam métodos para descrever ou
explicar o comportamento deste processo e sua possível relação com outros fenômenos espaciais.
Desta forma, o objetivo da Análise de Dados Espaciais é de aumentar a compreensão básica do
processo, assim como buscar evidências em relação às hipóteses estabelecidas ou ainda predizer
valores em áreas onde as observações não foram feitas.
A grande evolução computacional das técnicas de mapeamento e da acessibilidade aos Sistemas
de Informação Geográfica (SIG) são os principais responsáveis pelo avanço da estatística espacial
e pela possibilidade da realização de modelagens sofisticadas dentro deste contexto.
Porém, uma introdução a respeito dos três tipos de dados georeferenciados é apresentada na
seqüência.
São aqueles que identificam eventos ou fenômenos como pontos localizados no espaço. Neste
caso, o interesse principal consiste nas coordenadas geográficas que representam a localização
exata dos acontecimentos. Na prática, dados relacionados à crimes são um exemplo dos
frequentemente estudados. O foco é a detecção de padrões e fontes de influência – se aleatórios
ou não – para distribuição espacial dos pontos.
São dados usualmente obtidos através de levantamentos populacionais, tais quais censos,
estatísticas de saúde, cadastramentos populacionais, entre outros, agregados por áreas de uma
região. Em outras palavras, representar-se-á cada uma das áreas do mapa por uma quantia para
cada uma das variáveis do estudo. As áreas são subdivisões do mapa – é tradicional chamar todo
o espectro geográfico por região – com, supostamente, homogeneidade interna, usualmente
delimitadas por polígonos fechados. Na prática, porém, as áreas constituem partições de caráter
administrativo, político ou geofísico. Uma discussão mais profunda sobre dados de área aparece
na Seção 3.3 desta monografia.
Esta seção admite outras nomenclaturas e engloba subdivisões muito encontradas na literatura.
Tais quais geoestatística e superfícies aleatórias. Os dados se tratam de amostras de campo,
regular ou irregularmente distribuídos. Em situações cotidianas, normalmente as amostras são
derivadas de estações fixas de monitoração, coleta ou medição de certa variável de interesse. O
objetivo da análise deste tipo de dado é de modelar uma superfície espacial que represente o
comportamento da variável em estudo no espaço geográfico. Para isso, através da modelagem,
trata-se de expandir os resultados amostrados nas estações de coleta para as demais regiões que
não tiveram informações coletadas. O principal resultado das análises deste tipo de dado
compreende mapas geológicos e topográficos. Como exemplo, poderíamos pensar na modelagem
da superfície da qualidade do ar em algum estudo sobre poluição.
Nos dados de área, considera-se uma região dividida em áreas contíguas, disjuntas e bem
definidas. Para cada uma das áreas da região é associada uma quantia, ou indicador, de acordo
com a característica que se está estudando. Em outras palavras, podemos dizer que na análise de
dados de área lidamos com eventos agregados em espaços delimitados por polígonos fechados.
Ou seja, os valores (indicadores) associados às áreas não estão relacionados à localização
específica pontual de um evento no espaço, mas correspondem a uma quantidade que representa
um padrão global para a área em relação à variável em estudo. Na prática, as divisões geográficas
que resultam nas áreas são – normalmente – de caráter político, administrativo e geofísico,
geralmente caracterizadas por bairros, municípios, setores censitários.
O objetivo da análise de dados de área não consiste na predição de valores para áreas não
observadas, visto que, na quase totalidade das vezes, todas as áreas apresentam informações
disponíveis. Sendo assim, o objetivo principal obedece à identificação de determinado padrão ou
configuração espacial no que diz respeito à variável aleatória de interesse, assim como possíveis
relações no espaço com covariáveis.
Sendo assim, a abordagem para dados de área apresentada neste trabalho é, portanto, apenas
recomendada para dados obtidos através de levantamentos populacionais. Para os casos em que
a numeração completa dos eventos não for possível e a amostragem for a única possibilidade,
maiores considerações na modelagem são necessárias. Um exemplo de trabalho que considera a
análise de dados epidemiológicos amostrados é Nejjari et al. (1993).
Sendo assim, a integralidade dos dados espaciais epidemiológicos é então apenas questionada
quanto aos erros de registro ou falta de diagnóstico, inerentes à ação dopesquisador.
O procedimento padrão de representação gráfica para dados de área corresponde ao Mapa com
Padrão de Cores (Choropleth Map), que apresenta as áreas da região coloridas de acordo com
uma escala discreta associada aos valores correspondentes de cada área.
Bailey e Gatrell (1995) apresentam uma sugestão para o cálculo no número de classes da escala
de cores. As classes poderiam ser definidas por intervalos iguais, através dos quantis, com base
em desvios padrões ou até com freqüências pré-fixadas nas caudas (trimmed).
Intuitivamente, podemos acreditar que áreas próximas, dependendo daquilo que se estuda, tendem
a apresentar valores mais similares (relação direta) ou dissimilares (relação inversa). Esta idéia de
dependência espacial está associada ao conceito estatístico de autocorrelação espacial, onde
cálculo da autocorrelação espacial obedece à maneira de quantificação da dependência espacial.
O termo autocorrelação assume o prefixo “auto” por fazer referência a uma mesma variável
aleatória, apenas considerando correlação entre diferentes localizações.
Moran (1950) e Geary (1954) apresentam índices que, assim como o variograma, correspondem a
ferramentas utilizáveis na quantificação da magnitude desta autocorrelação. Tais índices, porém,
carregam limitações ao considerar que a variável aleatória de interesse é identicamente distribuída
nas áreas. Para – principalmente – dados epidemiológicos, onde na maioria das vezes
consideramos taxas ou riscos, é muito difícil que esta suposição seja satisfeita pelo fato de que a
distribuição deste tipo de dado depende do tamanho da população em risco, propondo distribuições
de probabilidades diferentes para a variável aleatória associada a cada área. Ou seja, áreas com
tamanhos diferentes (contingente de população em risco diferentes), em que taxas, riscos ou
proporções estão sendo consideradas, apresentarão variabilidades diferentes, acarretando,
consequentemente, a não aplicabilidade dos índices de Moran e Geary. Assunção e Reis (1999)
propuseram um índice que mede a autocorrelação espacial para dados epidemiológicos.
3.2. REDES NEURAIS ARTIFICIAIS (MLP) O campo das redes neurais artificiais costuma
ser chamado apenas de redes neurais ou perceptron multicamadas. Um perceptor é um
modelo de neurônio único, que foi o precursor de redes neurais. É um campo que investiga
como modelos simplificados, de cérebros biológicos, podem ser usados para resolver
tarefas computacionais difíceis, como as de modelagem preditiva que vemos no
aprendizado de máquina. O objetivo não é criar modelos realistas do cérebro, mas sim
desenvolver algoritmos robustos e estruturas de dados que possamos usar para modelar
problemas complexos. A Figura 3 apresenta a estrutura de uma Rede Neural Artificial, de
modo que as RNA’s são basicamente compostas por "neurônios", representados pelos
círculos, e suas interconexões entre os neurônios são representadas pelos traços, os quais
são responsáveis por conectar e indicar “pesos” para o neurônio subsequente. Na parte
mais à esquerda da figura, temos a camada de entrada, responsável pelo processamento e
transmissão dos dados de entrada para a camada subsequente. Esta, por sua vez, é
conhecida como camada oculta/camada intermediária, onde em conjunto com a função de
ativação reproduz relações não lineares a fim de melhorar a capacidade da rede de
aprender. Já à direita da figura, temos a camada de saída que, por sua vez, é responsável
por apresentar o valor final do problema solucionado (NEAGOE et al, 2018). Figura 3:
Estrutura de um modelo RNA. Fonte: (SILVEIRA et al, 2021) O poder das redes neurais
deriva de sua capacidade de aprender a representação em seus dados de treinamento e
como relacioná-los da melhor forma com a variável, a ser predita. Nesse sentido, as redes
neurais aprendem um mapeamento. Matematicamente, elas são capazes de aprender
qualquer função de mapeamento, e provaram ser um algoritmo de aproximação universal.
A capacidade preditiva das redes neurais vem de suas estruturas hierárquicas, ou da
inserção de várias camadas internas (ISMAIL et al, 2015).