Você está na página 1de 57

UFPI-

Tema -1 Análise de Variância e Delineamentos Experimentais


Resumo do Resumo
A estatística experimental trata de metodologias para coleta, organização, análise e interpretação
de dados obtidos em levantamentos amostrais ou em experimentos especialmente delineados para
tal fim, com o objetivo de tomar melhores decisões.
Se as metodologias forem bem empregadas, será possível associar probabilidades às conclusões.
Por isso é fundamental que haja um criterioso planejamento e um desenvolvimento cuidadoso de
todas as etapas de um experimento, ou levantamento.
Na coleta dos dados as variáveis medidas ou obtidas podem ser qualitativas ou quantitativas. As
variáveis qualitativas se apresentam como uma qualidade (atributo) do objeto de estudo. Já as
quantitativas se apresentam como valores (números) resultantes de uma contagem ou
mensuração.
As variáveis qualitativas podem ser ordinais ou nominais, os valores das variáveis ordinais
expressam ordem, por exemplo, a produção de leite de vacas: baixa, média ou alta. Enquanto que
os valores das variáveis nominais expressam apenas nomes, sem relacionamento, por exemplo,
raça de bovinos de corte (Canchim, Nelore etc..), sexo (macho, fêmea), cor do colmo da cana-de-
açúcar (roxo, listrado, verde etc.).

Para tanto antes de falar de analise de variância vamos relembrar alguns conceitos.
Tratamento- Um tratamento ´e uma condição imposta ou objeto que se deseja medir ou avaliar em
um experimento. Normalmente, em um experimento, ´e utilizado mais de um tratamento, eles
podem ser quantitativos (pode se contar) ou qualitativos.
Hipóteses e Objetivos: Todo experimento deve ter como objetivo gerar dados para comprovar ou
não alguma hipótese em consideração (ou conjectura). Os objetivos devem ser totalmente pré-
estabelecidos e claros. A hipótese pode ser sobre o comportamento de alguma tecnologia, manejo,
raça, etc.( No entanto, na prática existe variabilidade e o valor F calculado será maior que ZERO.
A estatística F é calculada através da razão QMTratamento/QMResíduo.
Quanto maior for a estatística F, menor a chance desse valor acontecer sob a hipótese de um
modelo de efeito nulo (igualdade de tratamentos). Ou seja, o valor de F deve ser grande (maior que
o Fc tabelado, em nível de significância) para rejeitar H0 e concluir pela diferença significativa entre
algum contraste de médias de tratamentos. Quando isso ocorre (F ≥ Fc) dizemos que o valor da
estatística “caiu” na região crítica. Na Figura a seguir podemos observar a região crítica para a
distribuição F de Snedecor, para nível de significância ( = 0,05) ou 5%. A região crítica é formada
por valores maiores que Fc (valor F crítico ou F tabelado para o correspondente nível de
significância de interesse).
Unidade experimental: ou parcela ´e onde ´e feita a aplicação do tratamento. E´ a unidade
experimental que fornece os dados para serem avaliados. Elas podem ser formadas por grupos ou
indivíduos, buscando sempre minimizar o erro experimental.
Repetição: ´e o numero de vezes que um tratamento aparece no experimento. O numero de
repetições, em um experimento, vai depender também dos recursos disponíveis, do tipo de
experimento ( delineamento) e, também, da variabilidade do experimento ou da variável resposta.
A aleatorização ou casualização consiste em um conjunto de regras que define o processo de
distribuição das parcelas na area experimental. A funcao da casualizacao e evitar a
tendenciosidade ou o vies dos efeitos das variaveis nao controladas sobre os resultados obtidos no
experimento permitindo que as estimativas e os testes de hipoteses sejam validos.
Bordadura e área útil
Para que não haja influência de fatores de borda, especialmente maior luminosidade, ventos e
competição por luz e nutrientes com material na parcela adjacente, é necessário separar a
bordadura e colher só materiais da área útil da parcela. Para isso toda área experimental deve ser
plantada com bordadura, especialmente parcelas de borda.
A não observância desse fato pode aumentar a variabilidade , subjetivamente avalia-se em mais
de 30%.
Falando em Variável resposta:, ela é e qualquer característica que apresenta variação, por
exemplo, a altura de pessoas, o peso de animais, o comprimento de uma peça, o numero de
microrganismos em um litro de leite etc. Quando o valor de uma variável não pode ser determinado
antes da realização de um experimento, tem-se então uma variável aleatória. As variáveis que
assumem valores enumeráveis, são denominadas variáveis aleatórias discretas.

A Analise de Variância (ANOVA- Analysis of variance),) ´e um procedimento utilizado para


comparar três ou mais tratamentos. Existem muitas variações da ANOVA devido aos diferentes
tipos de experimentos que podem ser realizados, visto que ANOVA é uma técnica que consiste,
fundamentalmente, em decompor a variância total de um conjunto, em variâncias parciais,
correspondentes a fontes de variação diferentes e determinadas. Feito isto, as variâncias poderão
ser comparadas entre si por meio de algum teste estatístico.

Variância ( 2) - É a média da soma dos quadrados dos desvios em relação à própria média. A
variância é a medida comumente usada para resumir a variabilidade de uma distribuição, pois mede
a concentração dos dados em torno de sua média.
Podemos fazer uma análise de variância com dados que tenham distribuição conhecida ou não. A
partir daí para a realização de testes de hipóteses estatísticos é necessário que o conjunto de dados
obedeça algumas pressuposições. Tabela da Analise de Variância

FV – Fontes de Variacao- Nessa coluna sao descritas as causas de variabilidade dos dados do
experimento. Nosso interesse esta em conhecer a variabilidade ENTRE os TRATAMENTOS. Todas
as outras fontes de variabilidade sao agrupadas
em RESÍDUO.
GL – Graus de Liberdade A cada fonte de variacao esta associado um numero de graus de
liberdade.
SQ – Somas de Quadrados-Sao as somas dos quadrados de desvios ou as medidas de
variabilidade calculadas para cada fonte de variacao.
QM – Quadrados Medios- Sao obtidos pela razao entre as Somas de Quadrados e os seus
respectivos graus de liberdade. Sao as medidas de variabilidade para cada fonte de variacao,
comparaveis entre si.
FC – valor da estatistica F- E o valor obtido para a comparacao entre os quadrados
medios, dado pela razao entre o QM Entre Tratamentos e o QM do Residuo. E a estatistica de teste
apropriada para o teste de hipotese sobre os quadrados medios.
O quadrado médio (QM) para cada fonte e variação é obtido pela razão entre a soma de quadrados
da fonte de variação em questão pelo seus respectivos graus de liberdade. A partir da Tabela de
análise de variância podemos obter algumas estatísticas importantes de interesse prático:
1) Coeficiente de determinação: R2 = SQTratamento/SQTotal Expressa proporcionalmente ou
percentualmente quanto da variabilidade dos dados pode ser atribuída ao tratamento. Ou,
quanto o conjunto de dados está ajustado ao modelo de análise. Importante estatística que
definirá a confiabilidade dos resultados.
2) 2) Desvio padrão geral médio: s = QMRe síduo É uma média ponderada da variabilidade
das respostas dentro de cada tratamento. Ou seja, mede quanto as repetições de cada
tratamento estão variando entre si.
3) Coeficiente de variação: CV = (s/ y ). 100 Obtida a partir da média geral dos y . Essa
estatística expressa percentualmente a precisão com que o experimento foi realizado.
Quanto menor o valor do CV melhor é a precisão experimental. Essa precisão esta
relacionada com a forma como o experimento foi instalado e conduzido. Várias
classificações de CV foram propostas por diversos autores.

4) DELINEAMENTOS EXPERIMENTAIS
É o plano utilizado na experimentação e implica na forma como os tratamentos serão
designados ou arranjados nas unidades experimentais. É feito no sentido de evitar
influências de fatores estranhos e propiciar condições para que os tratamentos possam
expressar seus verdadeiros efeitos. O delineamento será escolhido em função da
disponibilidade de parcelas homogêneas, de material para sua instalação, condução e
colheita. Portanto, há necessidade de conhecimento do local, do animal e da condução do
próprio experimento para que o planejamento do delineamento seja adequado.

Delineamento Inteiramente Casualizado (DIC)


.
É o delineamento mais simples. Para ser utilizado exige que todas as parcelas experimentais sejam
homogêneas. As condições ambientais também deverão ser as mais uniformes possíveis, a fim de
que, o único componente que possa vir a sofrer variação de uma parcela para outra, sejam os
tratamentos. É um delineamento com um só bloco.
Por essa razão, normalmente esse tipo de delineamento é aplicado em experimentos realizados
em laboratório ou casa de vegetação, por ser mais fácil o controle do ambiente.
Em laboratório, a umidade, temperatura e outros fatores deverão ser constantes e o técnico que
conduzirá o experimento deverá ser preferencialmente o mesmo, a fim de evitar variação entre as
parcelas.
Da mesma forma, se o experimento for realizado em vasos, numa casa de vegetação, todos os
vasos deverão ser iguais, preenchidos com o mesmo substrato, ser submetido à mesma irrigação,
etc. É conveniente também, a cada certo intervalo de tempo, promover um rodízio entre os vasos,
para que todos sejam submetidos as mesmas condições ambientais.
Caso o experimento seja realizado em uma área de campo, esta deve ser homogênea, ou seja,
possuir mesmo tipo de solo e igual fertilidade em toda sua extensão, além de receber mesmo
tratamento (adubação, irrigação, etc.), exceto se alguns desses fatores forem os tratamentos em
teste.

Delineamento em blocos completos casualizados (DBC)


O delineamento em blocos completos com tratamentos casualizados nos blocos, abreviadamente
denominado de blocos ao acaso (DBC), caracteriza-se por possuir blocos. Especificamente neste
texto, trataremos do DBC com uma única repetição de todos os tratamentos, casualizados dentro
de cada bloco, ou seja, dessa forma o número de repetições será igual ao número de blocos.
Como já vimos, bloco é um subconjunto de parcelas homogêneas, em que os tratamentos deverão
manifestar seus efeitos de forma independente do bloco e de forma aditiva. Por exemplo, parcelas
numa mesma altitude (curva de nível), árvores de mesma altura, espécie ou diâmetro, etc. Devido
as suas características, como a facilidade de instalação, separação de cada repetição em um bloco,
além da realização de grande parte dos experimentos agrícolas serem realizados no campo
(geralmente em áreas heterogêneas, separadas por curvas de nível, devido a declividade), o DBC
é o delineamento mais utilizado na experimentação agrícola.

Delineamento em quadrado latino (DQL)


Este delineamento permite o controle da heterogeneidade entre as parcelas quanto a dois fatores
Blocos interferentes. Assim, o conceito de bloco é aplicado duas vezes. É como se as parcelas
fossem agrupadas segundo uma tabela de dupla entrada, em que uma classifica quanto aos níveis
do fator “A” de heterogeneidade e outra classifica quanto aos níveis do fator “B” de
heterogeneidade. Cada fator deve ter o mesmo número de níveis. Ou seja, o número de linhas e o
número de colunas da tabela devem ser iguais e iguais ao número de tratamentos, que deve estar
balanceadamente em toda linha e toda coluna. Este delineamento é, muitas vezes, utilizado para
eliminar a variação (heterogeneidade) do solo em duas direções perpendiculares (linhas numa
direção e colunas na direção perpendicular), considerando-se a localização topográfica das
parcelas. Isso acontece normalmente em solos baixos, onde se usam drenos em duas direções, ou
que tenham influência de ventos, rios, matas, etc.

EX- DBC- Exemplo: Se desejarmos comparar a preferência de uma praga “X” por 4 variedades
de cana-de-açúcar (Tratamentos: Va, Vb, Vc, Vd), podemos instalar vasos com as diferentes
variedades em uma casa de vegetação e submete-las ao ataque da praga, a fim de comparar os
resultados. Supondo 5 repetições (1, 2, 3, 4, 5), um possível croqui do sorteio dos tratamentos será:
Nesse caso, em um experimento com 4 tratamentos e 5 repetições, teremos 20 parcelas
homogêneas, onde os tratamentos e repetições deverão ser sorteados aleatoriamente na área
experimental (no caso, vasos).
Tema-2-Arranjos Fatoriais e Parcelas Subdivididas.
Os experimentos fatoriais sao aqueles que consideram as combinações entre dois ou mais
grupos de tratamentos ou fatores. Normalmente, tem-se de 2 a 3 fatores, cada um com diferentes
níveis. Por exemplo, um fator poderia ser temperatura de cozimento e outro fator poderia ser tipo
de embalagem. Cada um destes fatores teria mais de um nível, ou seja, várias temperaturas e
vários tipos de embalagem.

Quando todas as combinações possíveis estão presentes no experimento, tem-se um


experimento fatorial completo, caso contrário, tem-se um experimento fatorial incompleto ou
fracionário.
Em um experimento, quando os n´níveis de diferentes fatores são combinados, ´e possível
determinar se existe interação entre os n´níveis de diferentes fatores. Quando ocorre a interação,
pode-se então, estudar o comportamento de cada fator dentro de níveis do outro fator através da
decomposição da soma de quadrados na análise de variância.
Os experimentos conduzidos num esquema fatorial permitem que se façam inferências sob vários
aspectos, por exemplo, determinar qual combinação de n´níveis de fatores temperatura e tipo de
embalagem fornece o maior tempo de conservação do alimento, citando o exemplo acima.
Um experimento fatorial pode ser conduzido tanto num delineamento completamente
casualizado quanto em blocos casualizados ou em quadrado latino, entre outros.
Um experimento fatorial não constitui por si só um delineamento. Ele ´e apenas uma forma de
arranjo dos tratamentos no experimento.
O número de fatores em um experimento depende das causas que podem estar afetando a variável
resposta. Quando tem-se um número muito grande de fatores ou níveis de fatores, as combinações
aumentam muito, dificultando, `as vezes, a instalação do experimento.
Quando utiliza-se três fatores ou mais, a interpretação da interação tripla ou ordem superior torna
se difícil de ser interpretada.
Para tanto é necessário conhecer alguns definições.
Fator: uma causa de variação conhecida e de interesse do pesquisador (um tipo de tratamento).
Nível: uma subdivisão do fator. Pode ser quantitativo ou qualitativo.
Efeito Principal: pode-se estudar isoladamente o efeito de cada fator no experimento;
Efeito da Interação: quando existir, pode-se estudar o comportamento de cada fator, na presença
ou ausência de n´níveis dos demais fatores. A interação ocorre somente entre n´níveis de diferentes
fatores.
Interação entre fatores
Uma das principais informações em experimentos fatoriais é a da interação entre os fatores, ou
seja, verificar se as diferenças nas respostas dos níveis de um fator são similares ou diferentes em
cada um dos níveis do (s) outro (s) fator (es). As interações são efeitos adicionais positivos
(sinergismo) ou negativos (antagonismo) que aparecem quando se combinam níveis de dois ou
mais fatores. No entanto, nem sempre é fácil de detectar ou analisar completamente os efeitos de
interações.
Seja, por exemplo, um experimento fatorial A x B, com níveis m e n, respectivamente, para os
fatores A e B, e para simplificar com r repetições. Nesse caso, a interação tem (m-1)(n-1) graus de
liberdade. Quando se faz análise de variância “rotineira”, a estatística F serve para testar a interação
média ou “pooled”. Pode-se dizer que é um teste da interação “por experimento”.
Há várias situações possíveis:
1) Interação significativa do tipo simples: As respostas de um fator não são similares para todos os
níveis do outro fator: A interpretação pode ser obtida com ‘cortes’ da resposta de um fator para
cada nível do outro fator. É um procedimento muito usual e eficaz para essa situação, detectando
em quais ‘cortes’ ocorrem respostas diferentes que promovem interações significativas. O
procedimento é frequentemente denominado análise com desdobramento dos graus de liberdade.
2) Interação “quase significativa” do tipo simples: Mesmo nesse caso pode ser interessante
examinar as interações mais detalhadamente. Podem ser construídos testes para examinar efeitos
“por comparação”. É uma situação com implicações teóricas similares as que ocorrem em outras
áreas da estatística: Testes de coeficientes de regressão múltipla, procedimentos de comparações
múltiplas, etc. Há taxas de erros associadas as interações do experimento como um todo e as
associadas às comparações (O’Neill & Wetherill, 1971). Algumas comparações podem ser muito
mais importantes que outras..
3) Interação significativa do tipo complexa: Diferentemente dos casos anteriores, as respostas
responsáveis pelas interações não estão fortemente associadas a níveis de qualquer dos fatores.
Há m x n combinações ou tratamentos e as interações são devidas a tratamentos específicas. Para
esses casos, a análise com auxílio de ‘cortes’ é pouco efetiva e a alternativa é avaliar todas
“caselas” ou tratamentos, na tentativa de detectar melhores ou piores combinações dos níveis dos
fatores.
Exemplo: Análise de variância de um experimento fatorial 2 x 3, com interação significativa
O experimento a seguir (6) refere-se a um estudo de mudas de Eucalipto onde foi estudado o
crescimento (cm) de duas espécies (E1 e E2) em três tipos de recipientes (R1,R2,R3). O
delineamento utilizado foi o completamente casualizado com 4 repetições.
F tabelado:
F0;05(2; 18) = 3; 55
F0;01(2; 18) = 6; 01
F0;05(1; 18) = 4; 41
F0;01(1; 18) = 8; 29

Conclusão:
Recipientes: De acordo com o teste F existe
diferença significativa, ao nível de 1% de
significância entre n´níveis do fator Recipiente,
considerando a variável altura média das mudas.
Espécies: De acordo com o teste F, existe
diferença significativa, ao n´nível de 1% de
significância, entre n´níveis do fator Espécie,
considerando a variável altura média das mudas.
Interação R x E: De acordo com o teste F, existe
interação significativa entre os níveis dos fatores
Recipientes e Espécies, ao n´nível de significância
de 1%, ou seja, a altura média das mudas de
Eucalipto no recipiente i depende da espécie j (e
vice-versa).
Dado que a interação foi significativa, não ´e
possível estudar isoladamente os efeitos dos
fatores Recipientes ou Espécies. O procedimento
seguinte ´e realizar o desdobramento dos Graus
de liberdade da Interação e efeitos principais para
estudar o comportamento das espécies dentro de
cada recipiente (E(R)) e/ou o comportamento
de crescimento das mudas nos Recipientes em
função da Espécie utilizada.
O procedimento consiste em uma Análise de
variância dos efeitos principais mais a interação
entre os fatores envolvidos na interação
significativa. Para construir esta análise de
variância, utiliza-se o Quadro Auxiliar (Tabela 7).
Parcelas subdivididas (Split-plot)
DIC e DBC em Parcela Subdividida (“SPLIT PLOT”)
Nos experimentos fatoriais, todas as combinações de tratamentos eram distribuídos nas unidades
experimentais, seguindo a casualização de um delineamento inteiramente casualizado, em blocos
ao acaso ou em quadrado latino. Entretanto há outros tipos de casualização e uma dessas
alternativas nos leva ao delineamento em PARCELAS SUBDIVIDIDAS (BANZATO & KRONKA,
2006).

A principal característica do delineamento em Parcela Subdividida é que as parcelas que recebem


os níveis de um dos fatores, são subdivididas em subparcelas as quais os níveis de um fator
adicional são aplicados.

Os níveis do fator colocado nas parcelas são denominados Tratamentos principais (Fator A), e os
níveis do fator casualizado nas subparcelas de cada parcela são denominados tratamentos
secundários (Fator B). Assim, em resumo nos experimentos em parcelas subparcelas é esperada
ser menor do que entre parcelas, o fator que é esperado apresentar menores diferenças (maior
precisão é desejada) deve ser casualizado nas subparcelas de cada parcela.
Em experimentos fatoriais com dois ou mais fatores, quando há alguma limitação para instalar o
experimento, ou mesmo para facilitar a instalação, utiliza-se o experimento em parcelas
subdivididas. Em alguns casos, ´e a ´única forma de aplicação dos tratamentos `as unidades
experimentais.
Este tipo de experimento consiste em alocar o fator A em parcelas principais (ou primária) e o fator
B nas subparcelas (secundárias). Cada parcela funciona como um “bloco”para as subparcelas.
Se existirem mais de dois fatores, o experimento ´e chamado de parcelas subsubdivididas e assim
por diante. Esse experimento pode, ainda, ser instalado em qualquer delineamento.
Figura 10: Croqui de uma parcela principal de um experimento em Parcelas subdivididas
Tipos de parcelas subdivididas
1- Espaço: Em cada parcela há uma subdivisão de sua área em sub-áreas, constituindo, cada uma delas, uma
sub-parcela. Suponha um experimento para testar 4 tipos de gradagem e 3 espécies de capins segundo um
DIC em parcelas subdivididas.
2- Tempo: Neste caso as parcelas não se subdivide em sub-áreas, mas, periodicamente são tomados dados no
tempo, constituindo estas tomadas as subparcelas. Suponha um experimento para avaliar 2 tipos de
sistemas forrageiros e 3 ciclos de pastejo segundo um DIC em parcelas subdivididas.
3-

Exemplo: Produção de aveia.


Os dados apresentados a seguir, foram obtidos através de um experimento conduzido no
delineamento em blocos completos casualizados no arranjo de parcelas subdivididas. Neste
experimento estudou-se o efeito de diferentes variedades de aveia (A) e diferentes tratamentos
de sementes (B) sobre o rendimento em kg/parcela.
A utilização do delineamento em parcelas subdivididas se justifica quando:
Quando um fator adicional é incorporado a um experimento, para ampliar seu objetivo; Quando não
é possível casualizar a combinação dos fatores (Tratamentos) entre as parcelas experimentais, por
exemplo quando se tem profundidades diferentes de solo sendo estudadas, tempos de incubação,
estágios vegetativos das plantas e etc.; Quando um dos tratamentos associado a um dos níveis
exigir maior quantidade de material do que a quantidade do outro fator; Nos ensaios em parcelas
subdivididas ao se realizar o quadro de análise de variância devem ser obtidos dois resíduos.
Resíduo a: Base de comparação dos tratamentos principais; Resíduo b: Base de comparação dos
tratamentos secundários e das Interações.
Tema 3-Análise de dados Longitudinais

Estudos longitudinais constituem um caso especial daqueles conhecidos sob a denominação de


medidas repetidas, que englobam os planejamentos do tipo split-plot e com intercambio (crossover
). Planejamento do tipo split-plot envolvem dois fatores; as unidades experimentais (whole-plots)
são aleatoriamente alocadas aos diferentes n´níveis do primeiro fator e os n´níveis do segundo
fator são aplicados `a unidades observacionais (split-plots).

- ESTAT´ISTICA UNIVARIADA a suposição básica ´e que cada unidade experimental fornece uma
´única medida em determinada variável de interesse, chamada resposta. –
ESTAT´ISTICA MULTIVARIADA nestas situações se obtém um vetor de medidas em cada unidade
experimental –
DADOS LONGITUDINAIS cada unidade experimental fornece um vetor de resposta que representa
a mesma quantidade física observada em instantes de tempo.
Estudos longitudinais têm interesse especial quando o objetivo ´e avaliar tanto mudanças globais
quanto individuais ao longo do tempo. Em primeiro lugar, eles permitem que a variável resposta
seja observada em unidades amostrais sob n´níveis constantes de outras covariáveis que podem
influenciá-la.
A maior desvantagem dos estudos longitudinais está relacionada com seu custo, pois em muitas
situações exige-se um grande esforço para garantir a observação das unidades amostrais nos
instantes pré-determinados, e em outras, o período de observação pode ser muito longo. Em muitos
ensaios clínicos, por exemplo, ´e necessário acompanhar os pacientes com extremo cuidado para
que cumpram o protocolo experimental e não abandonem o estudo. Os aspectos técnicos também
podem ser considerados como uma desvantagem, pois a análise estatística de dados obtidos sob
esse tipo de planejamento ´e, em geral, mais difícil que a análise de dados obtidos sob esquemas
transversais. Essencialmente, os problemas com que nos deparamos no contexto de estudos
longitudinais são similares `aqueles com que nos defrontamos em estudos transversais. Para dados
com distribuições normais, eles podem ser classificados como problemas de Análise de Variância
(ANOVA) ou Análise de Regressão (linear ou não linear). A diferença básica entre eles reside numa
possível dependência (estatística) entre as observações intraunidades amostrais, presente apenas
nos dados provenientes de estudos longitudinais. A consequência prática desse tipo de
dependência reflete-se `as vezes num fenômeno conhecido como trilhamento (tracking), segundo
o qual, unidades amostrais com n´níveis de resposta mais altos (ou mais baixos) no início da coleta
de observações tendem a manter suas posições relativas ao longo de todo o estudo. O esforço
adicional requerido na análise de dados longitudinais relativamente `aquele exigido em estudos
transversais concentra-se praticamente na modelagem dessa estrutura de dependência estatística.
Em estudos longitudinais, os dados associados a cada unidade amostral podem ser expressos na
forma de um vetor cujos elementos são os valores da variável resposta (pressão sanguínea, por
exemplo) em cada instante de observação e de uma matriz cujos elementos correspondem aos
valores das variáveis explicativas (ou independentes) que podem ter uma natureza classificatória
(tratamento, gênero, por exemplo) ou não (tempo, temperatura, etc.). Dentre essas, algumas
podem variar entre unidades amostrais (tratamento, gênero, por exemplo) e outras podem ter
variação intraunidades amostrais (h´abitos tabagistas, exposição `a poluentes etc.);
Quando o esquema de coleta de dados determina que todas as unidades amostrais devem ser observadas
nos mesmos instantes (igualmente espacados ou n~ao), dizemos que o planejamento _e balanceado com
rela_c~ao ao tempo. Se, por outro lado, o planejamento determina que conjuntos diferentes de unidades
amostrais sejam observados em conjuntos de instantes diferentes [como nos chamados planejamentos
encadeados (linked) ou mais geralmente transversais mistos segundo a nomenclatura apresentada por Rao
& Rao (1966)] ou permite que os dados sejam coletados irregularmente ao longo do tempo, ele _e dito
desbalanceado com rela_c~ao ao tempo. Tanto neste caso quanto naqueles planejados de forma balanceada
mas para os quais existem observa_c~oes omissas, os dados s~ao ditos desbalanceados com rela_c~ao ao
tempo. Um resumo dos principais conceitos empregados em pesquisas sobre dados longitudinais bem como
uma tentativa de padroniza_c~ao da terminologia correspondente podem ser encontrados em Helms
(1992).
Para efeito de análise, dados de estudos longitudinais devem ser dispostos de forma a conter uma indicação
da unidade amostral a que os valores das variáveis respostas e variáveis explicativas estão associados. Na
Tabela 1.1.1 apresentamos um paradigma para a disposição de um conjunto de dados em que as diferentes
unidades amostrais são observadas em conjuntos de instantes de tempo possivelmente diferentes. Em cada
unidade amostral, tanto a resposta (Y ) quanto as variáveis explicativas (X, W, V e Z) são observadas em cada
instante. As variáveis X, W e V representam características xas da unidade amostral e por isso s~ao
covariáveis independentes do tempo ao passo que a variável Z _e uma covariável dependente do
tempo pois seus valores não são constantes ao longo do tempo. Num estudo clinico, por exemplo, X e W
poderiam representar o sexo e o tipo de droga administrado aos participantes, caracterizando fatores no
sentido usual de ANOVA. A variável V poderia corresponder _a idade dos pacientes, caracterizando uma
covariável no esp__rito de An_alise de Covariância (ANCOVA). A variável Z, por sua vez, poderia
indicar a quantidade de gordura animal ingerida pelos participantes entre instantes consecutivos avaliação,
justiçando a classicação acima designada.
Neste caso, num estudo em que a variável resposta _e a nota em um certo tipo de teste aplicado a
adolescentes em diferentes ocasiões, o fator X representa um método de ensino (e.g., M_etodo A = 0 e
M_etodo B = 1), W representa o sexo (Feminino =0 e Masculino =1), a variável V indica a idade e a variável
Z representa o número de horas dedicadas ao estudo num certo periodo, a matriz (1.1.2)

associada a uma adolescente com 14 anos submetida ao método de ensino B seria espece cada como
Quando os fatores X e W têm mais do que dois niveis podemos representá-los por meio do acréscimo de
colunas _a matriz Xi: Com objetivos computacionais, _e comum concatenar os pers de resposta e as
matrizes de variáveis explicativas individuais,

A forma mais simples de análise de dados longitudinais envolve o uso de técnicas de ANOVA paramétrica ou
não paramétrica tendo como variável resposta algum tipo de medida resumo uni ou bivariada do per_l de
respostas (que _e essencialmente multivariado). Exemplos t__picos dessas medidas resumo s~ao a _area
sob a curva ou o desfecho (endpoint). Esse enfoque incorpora a estrutura de correlação intraunidades
amostrais da mesma forma que as diferenças consideradas em problemas analisados por meio de testes t
pareados o fazem. Ele _e _útil quando o objetivo _e a comparação das populações sob investigação com
respeito a alguma característica da distribuição da variável resposta e não inclui uma avaliação de seu
comportamento longitudinal. O leitor poder_a consultar Rowell & Walters (1976) ou Bryant & Gillings (1985).
Alternativamente, modelos lineares ou não lineares podem ser empregados para avaliar a relação entre a
variável resposta e as variáveis explicativas. Esses modelos podem ser classificados como populacionais
médios (population-averaged) ou individuais (subject-speci_c). Modelos populacionais médios são aqueles
em que a atenção está focada no valor esperado da resposta (entre todos os indivíduos da população) e
modelos individuais são aqueles em que o interesse recai nas respostas de cada individuo. O leitor poder_a
consultar Zeger, Liang & Albert (1988) para detalhes sobre o assunto, embora as diferenças entre as duas
classes possa ser esclarecida com os exemplos apresentados na próxima seção.

Sob outra perspectiva, modelos para dados longitudinais podem ser classificados como incondicionais ou
condicionais. Os primeiros são aqueles em que o valor esperado da variável resposta, E(yik), _e expresso
exclusivamente em termos das variáveis explicativas xi1k; : : : ; xipk: Se, entre elas, o tempo _e tomado como
uma variável discreta que indica a ordem em que a resposta _e observada em cada unidade amostral sob
um planejamento balanceado (possivelmente com dados omissos), os modelos correspondentes são
conhecidos como modelos de persiçãos e são equivalentes _aqueles costumeiramente considerados em
ANOVA ou ANCOVA. Nos casos em que o tempo _e encarado como uma variável continua, i.e., em que o
interesse recai na sua relação funcional com a variável resposta, os modelos correspondentes são
designados modelos de crescimento ou curvas de crescimento. Modelos condicionais, por outro lado, são
aqueles em que a relação entre a variável resposta e as variáveis explicativas num certo instante _e
condicionada a valores prévios da resposta. Por exemplo,

Duas abordagens distintas podem ser consideradas para o processo de construção desses modelos. A
primeira _e essencialmente orientada pelos dados e considera funções polinomiais para descrever a relação
entre a variável resposta e as variáveis explicativas. Talvez seja este o enfoque mais comumente empregado
na prática, principalmente em razão da simplicidade das técnicas utilizadas na análise. Apesar
de que em muitos casos esse tipo de modelos não incorpora o verdadeiro mecanismo gerador dos dados,
eles podem ser satisfatórios dentro de certos limites.
No que tange aos parâmetros de localização (ou de regressão), esse enfoque não difere muito daquele
usualmente adotado na análise de dados com estrutura transversal; o componente distintivo _e obtido por
meio do relaxamento da suposição de independência para as observações intraunidades amostrais

Tema- 4-Modelos de Regressão Linear e Não-Linear

Regressão É uma série de técnicas voltadas para a modelagem e a investigação de relações entre
dois ou mais atributos (variáveis aleatórias)  Exemplo  Na análise de correlação linear, o objetivo
é determinar o grau de relacionamento entre duas variáveis.  Já na análise de regressão linear, o
objetivo é determinar o modelo que expressa esta relação (equação de regressão), a qual é
ajustada aos dados
Para que serve?  Ela permite construir um modelo matemático que represente dois atributos x e y
 y = f(x), onde f(·) é a função que relaciona x e y  x é a variável independente da equação  y =
f(x) é a variável dependente das variações de x
 Qual função usar?  Na maioria dos casos, f(·) é desconhecida  Cabe ao usuário escolher uma
função apropriada para aproximar f(·)  Normalmente usa-se um modelo polinomial  Também
podemos usar o modelo para fins de otimização
 A análise de regressão compreende quatro tipos básicos de modelos  Linear simples  Linear
multivariado  Não linear simples  Não linear multivariado
Regressão simples  Nesse tipo de regressão existe apenas uma variável de saída (y) e uma de
entrada (x)  Exemplo: 𝑦 = 𝑓(𝑥)  Regressão múltipla  Nesse tipo de regressão existe apenas uma
variável de saída (y) e várias de entrada (xi , i=1,...p)  Exemplo: 𝑦 = 𝑓(𝑥1, 𝑥2, … , 𝑥𝑝)
 Regressão linear  Tem esse nome porque se considera que a relação da entre as variáveis é
descrita por uma função linear (equação da reta ou do plano)  Exemplo: 𝑦 = 𝛼 + 𝛽�

A análise de regressão linear estuda a relação entre a variável dependente ou variável resposta
ሺܻ ሻ e uma ou várias variáveis independentes ou regressoras ሺܻ ଵ,…,ܻ ௣ሻ. Esta relação
representa-se por meio de um modelo matemático, ou seja, por uma equação que associa a
variável dependente ሺܻ ሻ com as variáveis independentes ሺܻ ଵ,…,ܻ ௣ሻ. O Modelo de Regressão
Linear Simples define-se como a relação linear entre a variável dependente ሺܻ ሻ e uma variável
independente ሺܻ ሻ. Enquanto que o Modelo de Regressão Linear Múltiplo define-se como a relação
linear entre a variável dependente ሺܻ ሻ e várias variáveis independentes ሺܻ ଵ,…,ܻ ௣ሻ. Neste
capítulo vamos apenas debruçar-nos sobre o modelo de regressão linear simples. Será
apresentado o modelo teórico e os seus pressupostos, assim como a estimação dos parâmetros
do modelo pelo método dos mínimos quadrados. Serão ainda construídos testes e intervalos de
confiança para os parâmetros do modelo.
MODELO TEÓRICO A equação representativa do modelo de regressão linear simples é dado por:
௣representa o valor da variável resposta ou dependente, ܻ , na observação ܻ , ܻ ൌ 1, … ,
ܻ (aleatória); . ‫ ݔ‬௣representa o valor da variável independente, ܻ , na observação ܻ , ܻ ൌ 1, … ,
ܻ (não aleatória); . ߝ ܻ , ௣ൌ 1, … , ܻ são variáveis aleatórias que correspondem ao erro (variável
que permite explicar a variabilidade existente em ܻ e que não é explicada por ܻ ); . ߚ ௣e ߚଵ
correspondem aos parâmetros do modelo. O parâmetro ߚ ௣representa o ponto em que a recta
regressora corta o eixo dos ‫ ݕݕ‬quando ܻ ൌ 0 e é chamado de intercepto ou coeficiente linear.
O parâmetro ߚଵ representa a inclinação da recta regressora, expressando a taxa de mudança em
ܻ , ou seja, indica a mudança na média da distribuição de probabilidade de ܻ para um aumento de
uma unidade na variável ܻ . Na Figura 2.1 podemos observar a interpretação geométrica dos
parâmetros ߚ ௣e ߚଵ.

2.2.PRESSUPOSTOS DO MODELO
Ao definir o modelo ሺ2.1ሻ estamos a pressupor que: a) A relação existente entre ܻ e ܻ é linear. b) Os erros são
independentes com média nula. Pressupondo então que ‫ܧ‬ ܻ ሺߝ௜ሻ ൌ 0, tem-se:

O parâmetro 􀟚􀟚 representa a inclinação da recta regressora, expressando a taxa de mudança


em 􀟚, ou seja, indica a mudança na média da distribuição de probabilidade de 􀟚 para um
aumento de uma unidade na variável 􀟚.
Na Figura 2.1 podemos observar a interpretação geométrica dos parâmetros 􀟚􀟚 e 􀟚􀟚.
PRESSUPOSTOS DO MODELO
Ao definir o modelo 􀟚2.1􀟚 estamos a pressupor que:
a) A relação existente entre 􀟚 e 􀟚 é linear.
b) Os erros são independentes com média nula.

TEMA-05: Modelos Lineares Generalizados.

Os MLGs (Modelos Lineares Generalizados) são uma extensão dos modelos de regressão simples
e múltipla. Eles possibilitam utilizar outras distribuições para os erros e uma função de ligação
relacionando a média da variável resposta à combinação linear das variáveis explicativas.
Os Modelos Lineares Generalizados permitem, portanto, ‘alargar’ as suposições admitidas e
examinar não somente as relações lineares entre as variáveis explicativas e a resposta.

Geralmente em um problema de modelagem envolvendo MLG, deve-se definir: o comportamento


(distribuição) da variável resposta; as variáveis explicativas;
• a função de ligação que irá ligar as variáveis explicativas à variável resposta.

Com os modelos lineares generalizados é possível modelar variáveis de interesse que assumem a
forma de contagem, contínuas simétricas e assimétricas, binárias e categóricas.

Uma das limitações dos MLGs é a exigência de que os erros sejam independentes. Isso significa
que eles não são capazes de modelar bancos de dados com estruturas longitudinais (amostras
medidas mais de uma vez ao longo do tempo), espaciais ou multiníveis. Mas é possível contornar
essa fraqueza utilizando Modelos Lineares Generalizados Mistos ou Equações de Estimações
Generalizadas.

Algumas regressões admitidas pela classe de Modelos Lineares Generalizados

Abaixo, listamos as principais distribuições exigidas pela classe MLGs, e o tipo de dado que cada
uma delas modela:

1. Regressão de Poisson
As regressões de Poisson são usadas para modelar dados de contagem, por exemplo, o número
de mortes em determinada região ou o número de consumidores que entram em um
estabelecimento comercial. Normalmente, é utilizada uma função de ligação logarítmica para
relacionar a variável resposta às variáveis explicativas. Essa função é muito importante para essas
regressões, pois impede o surgimento de resultados negativos e fornece boas interpretações a
partir do exponencial dos coeficientes. Quando a contagem está sujeita a uma população e o
número de eventos for pequeno em relação ao tamanho da população, acrescenta-se um offset às
regressões de Poisson e, caso contrário, utiliza-se a regressão binomial logística. Em modelos de
Poisson é comum a presença de super dispersão, sendo que, quando presente no modelo, se faz
necessário utilizar uma variância robusta ou migrar para modelos como a Binomial Negativa.

2. Regressão de Bernoulli / Regressão Logística

A regressão de Bernoulli é utilizada na modelagem de fenômenos que podem ser resumidos em


uma variável binária, ou seja, se ocorreu ou não um evento. Quando se escolhe a função de ligação
‘logit’, ela passa a ser chamada de regressão logística. Essa função é bastante utilizada pois, além
de ser própria para dados binários auxiliando na tomada de decisões do tipo “Sim” ou “Não”, permite
que sejam feitas interpretações a partir de Odds Ratios (Razões de Chances). A regressão logística
é muito utilizada em modelos de concessão de crédito, onde a partir de informações oferecidas
pelo solicitante, a instituição financeira decide pela liberação ou não do crédito. Também é
frequentemente utilizada em pesquisas clínicas que tem como objetivo verificar os fatores de
influência na ocorrência ou não de uma determinada doença.

3. Regressão Gama

A regressão Gama é usada para modelar dados positivos e assimétricos. Enquanto a regressão de
Poisson trata de modelar variáveis de contagem, ou seja, discretas, a regressão Gama modela
variáveis contínuas. Normalmente também se utiliza a função de ligação logarítmica pelas mesmas
razões já apresentadas na regressão de Poisson.

Pode-se utilizar esse tipo de modelo, por exemplo, para estudar os fatores que influenciam no valor
de um imóvel (como sua condição, localização, área construída, etc.) ou ainda os fatores que
influenciam na demanda de produtos em diferentes centros de distribuição.

Como se pôde ver, a classe de Modelos Lineares Generalizados é uma ferramenta poderosa que
supera as limitações dos modelos de regressão linear e possibilita a resolução de muitos
problemas, das mais diversas áreas do conhecimento.

MLG é definido por uma distribuição de probabilidade, membro da família (1.5) de distribuições,
para a variável resposta, um conjunto de variáveis independentes descrevendo a estrutura linear
do modelo e uma função de ligação entre a média da variável resposta e a estrutura linear. Entre
os métodos estatisticos para a análise de dados univariados que são casos especiais dos MLG,
citam-se:
(a) modelo clássico de regressão múltipla (Legendre, Gauss, in¶³cio do s¶eculo XIX) e modelo de
análise de variância para experimentos planejados (Fisher, 1920 a 1935) com o erro aleatório tendo
distribuição normal;
(b) modelo complemento log-log para ensaios de diluição, envolvendo a distribuição binomial
(Fisher, 1922);
(c) modelo probito (Bliss, 1935) para o estudo de proporções, envolvendo a distribuição binomial;
(d) modelo logístico (Berkson, 1944; Dyke e Patterson, 1952; Rasch, 1960; Cox, 1970) para o
estudo de proporções, envolvendo a distribuição binomial;
(e) modelos log-lineares para analise de dados na forma de contagens em tabelas de contingência,
envolvendo a distribuição de Poisson e a multinominal (Birch, 1963; Haberman, 1970);
(f) modelo logistico para tabelas multidimensionais de proporções;
(g) os modelos de testes de vida, envolvendo a distribuição exponencial (Feigl e Zelen, 1965; Zippin
e Armitage, 1966; Gasser, 1967);
(h) polinomios inversos para ensaios de adubação, envolvendo a distribuição normal na escala
logaritmica e linearidade na escala inversa (Nelder, 1966);
(i) modelo de analise de variância com efeitos aleatórios;
(j) modelo estrutural para dados com distribuição gama;

(l) modelo de regressão nao-simetrica


e outros modelos familiares.
Alem dessas tecnicas usuais, outros modelos podem ser definidos dentro do contexto dos MLG
como, por exemplo, os modelos de Box e Cox (1964) e alguns modelos de series temporais. Devido
ao grande numero de metodos estatísticos que engloba, a teoria dos MLG vem desempenhando
um papel importante na Estat¶stica moderna, tanto para especialistas, quanto para nao-
especialistas.
Os modelos lineares generalizados podem ser usados quando se tem umaúnica variavel aleatoria
Y associada a um conjunto de variaveis explanatórias x1; : : : ; xp. Para uma amostra de n
observações (yi; xi) em que xi = (xi1; : : : ; xip)T e o vetor coluna de vari¶aveis explicativas, o MLG
envolve os tres componentes:

• Componente aleatorio: representado por um conjunto de variaveis aleatórias independentes


Y1; : : : ; Yn provenientes de uma mesma distribuição que faz parte da familia de distribuições
(1.5) com medias ¹1; : : : ; ¹n,
• Componente sistemático: as variáveis explicativas entram na forma de uma soma linear de
seus efeitos

• Função de ligação: uma função que relaciona o componente aleatorio ao componente


sistematico, ou seja, vincula a media ao preditor linear, isto e,
Os MLG permitem explicar a resposta Y em função de variáveis explicativas e são muito fexíveis
devido à possibilidade da utilização de diferentes distribuições para a variável resposta e diferentes
formas para a função de ligação. Dessa maneira, pode-se selecionar um modelo que representa
melhor os dados e com maior precisão.
Tema 6- Modelos Mistos

O modelo linear misto (LMM) é um modelo linear, frequentemente utilizado para trabalhar dados
longitudinais ou de medidas repetidas, que possibilita definir tanto parâmetros populacionais (efeitos
fixos), como coeficientes individuais (efeitos aleatórios), além do erro experimental. Conceitualmente,
pode ser apresentado como:

Onde:
ββ representa todos os termos fixos
γγ representa os termos aleatórios (assumidos como normalmente distribuídos)
ee representa o erro/resíduo
Pragmaticamente, este modelo oferece mais flexibilidade à ANOVA de medidas repetidas e sua
utilização vem ganhando mais espaço em Psicologia e áreas da saúde (Gueorguieva &
Krystal, 2004).

Desta forma, para a definição correta do modelo, deve-se ter em mente o que são efeitos fixos
e efeitos aleatórios:

a) Efeito fixo: se todos os níveis de um determinado fator estiverem presentes no experimento


(ou análise), ou seja, corresponderem aos níveis existentes na população, estes serão
considerados fatores fixos;
b) Efeito aleatório: se os níveis de um fator de uma população não estiverem presentes em sua
totalidade, por razões diversas, estes serão denominados de fatores aleatórios.

Seja, por exemplo, um conjunto de dados de alturas (Y) e diâmetros de árvores (X) de diferentes
espécies em uma floresta inequiânea tropical, obtido em um procedimento de amostragem.
Utilizando a metodologia dos modelos mistos, além estimar os parâmetros para descrever o
comportamento médio da curva das alturas em relação aos diâmetros (efeito fixo), pode-se
predizer os parâmetros para diferenciação do comportamento da curva por espécie (Figura 1),
considerando as espécies como efeitos aleatórios, uma vez que nem todas as espécies de
árvores na população podem ter sido amostradas.

Os efeitos fixos são compartilhados por todos os indivíduos, enquanto os aleatórios são
específicos de cada um dos participantes. Com isso, a trajetória de cada indivíduo pode ser
modelada, permitindo que um subconjunto dos parâmetros de regressão seja definido como
aleatório.

Tanto O LMM, como a ANOVa de Medidas Repetidas costumam ser utilizados em dados
longitudinais. A tabela a seguir apresenta algumas das principais características de ambas as
análises.

Além do exemplo anterior, os modelos mistos tem sido utilizados em vários estudos de
mensuração por possibilitar a separação de um conjunto de dados em níveis hierárquicos.
Entre eles, tem-se: modelagem do crescimento em área basal e em altura dominante de
povoamentos submetidos a diferentes tratamentos silviculturais, ajuste de equações de
afilamento, modelagem do crescimento em nível de árvore individual, predição do volume
acumulado nos troncos das árvores, entre outros (WEISKITTEL et al., 2011).

2. Métodos de estimação

Em um modelo linear misto, a solução conjunta para estimar os valores de β e predizer os


valores de g, passa pela resolução do seguinte sistema de equações, cujos estimadores dos
efeitos fixos são BLUE (Best Linear Unbiased Estimator ) - Melhor Estimador Linear não Viesado
- e os preditores dos efeitos aleatórios, denominados de BLUP (Best Linear Unbiased Predictor)
- Melhor Preditor Linear não Viesado:
Para isso, métodos de estimação como Máxima Verossimilhança (Maximum Likelihood – ML) e
Máxima Verossimilhança Restrita (Restricted Maximum Likelihood – REML) são utilizados para
esta finalidade, por meio de softwares como SAS, R, Statistica, Stata, etc.

O método da Máxima Verossimilhança consiste na obtenção da função de verossimilhança ou


função densidade de probabilidade conjunta das observações. Visa estimar valores numéricos
dos parâmetros para os quais a função é máxima. Geralmente se maximiza o valor do
logaritmo da função de máxima verossimilhança (L), por ser mais fácil operacionalmente.

Os critérios para avaliar o ajuste dos modelos mistos normalmente são: o critério de informa
de Akaike (AIC) e o critério de informação de Schwarz ou critério de informação Bayesiano (BIC),
os quais são obtidos, respectivamente, por:

em que: p = número de parâmetros do modelo; log (L) = máximo valor do logaritmo da função
de máxima verossimilhança; n = número de observações.

As estimativas dos critérios AIC e BIC baseiam-se na variável dependente, assim não se pode
comparar as estimativas destes critérios quando se tem diferentes transformações das
variáveis dependentes.

No processo de modelagem, onde se pretende avaliar a contribuição dos efeitos aleatórios nos
modelos mistos, alguns passos devem ser seguidos (RESENDE et al., 2014):

a) Obter o ponto de máximo valor do logaritmo da função de máxima verossimilhança residual


[log(L)] para o modelo com e sem o efeito a ser testado;

b) Obter o deviance, dado por D = - 2log (L), para o modelo com e sem o efeito testado;

c) Fazer a diferença entre os deviances dos modelos com e sem o efeito testado, obtendo a
razão de verossimilhança;
d) Testar, via teste de Razão de Máxima Verossimilhança (LRT), a significância desta diferença,
por meio do teste Qui-quadrado, com 1 grau de liberdade.

3. Exemplo

A produção e o crescimento florestal são função da idade da floresta (I); da capacidade


produtiva do local, normalmente expressa pelo índice de local (S); e da densidade populacional,
expressa pela área basal por hectare (CLUTTER et al., 1983). Assim sendo, um dos modelos
tradicionais na área florestal, que utiliza estas variáveis para a projeção da produção
volumétrica por unidade de área, é o modelo de Schumacher (1939), dado por:

Alternativamente, variáveis como tipo ou classe de solo ou classe de precipitação podem ser
empregadas também como métodos indiretos de classificação da capacidade produtiva ou em
associação com o índice de local (CLUTTER et al., 1983; DAVIS et al., 2001).

No entanto, a inclusão de classes de solo e precipitação, em substituição ao índice de local,


como variáveis para expressar a capacidade produtiva do local em um modelo de crescimento
e produção, deve ser feita em uma estrutura de modelo misto, onde, no processo inicial de
modelagem, pode-se considerar a inclusão de interceptos e coeficientes aleatórios associados
às variáveis Idade (I) e área basal por hectare (B), como, por exemplo:

em que: β0, β1 e β2 = parâmetros fixos do modelo; ai = intercepto aleatório para a i-ésima


classe de solo ou precipitação; b1i e b2i = coeficientes de inclinação aleatórios para a i-ésima
classe de solo ou precipitação.

Para desenvolver o exemplo considerando os modelos descritos anteriormente, foram


utilizando dados de plantios clonais E. grandis x E. urophylla, plantados no espaçamento 3,0 x
2,0 m e obtidos de medições de 133 parcelas permanentes circulares de 472 m2 de área, em
povoamentos com idades entre 20 e 98 meses, localizados no norte da Bahia As parcelas
estavam em locais com diferentes precipitações médias anuais, distribuídas em 6 classes: 850,
900, 950, 1000, 1100, 1200mm, e em 13 classes de solo.

Resultados:

Após o ajuste e da realização do teste de Razão de Máxima Verossimilhança, os modelos mistos


selecionados foram:

* Classe de solo:

* Classe de precipitação:

As estimativas dos parâmetros fixos e as estatísticas dos ajustes das equações abaixo mostram
que as classes de precipitação e de solo, incluídas no modelo como variável aleatória por meio
da estrutura dos modelos mistos, em substituição ao índice de local, resultou em bom ajuste
das respectivas equações, mostrando-se também como alternativas para caracterizar a
capacidade produtiva dos plantios de eucalipto, em substituição às variáveis índice de local.
No entanto, o índice de local no modelo de crescimento e produção ainda foi a
variável proxy que resultou em estimativas mais precisas.
Para projetar o estoque volumétrico dos plantios de eucalipto com as equações ajustadas
referentes aos modelos lineares mistos, torna-se necessário utilizar as estimativas conjuntas
dos parâmetros fixos e parâmetros aleatórios, as quais são apresentadas a seguir:
Modelos Lineares Generalizados Mistos - Ligação Canônica
Este modelo também é conhecido como regressão hierárquica ou regressão multinível e permite
examinar relações entre variáveis medidas em diferentes níveis de dados com essa estrutura. Para
utilizá-lo, é necessário ter, além de uma estrutura hierárquica na população, uma variável resposta
quantitativa medida no menor nível. Pode-se ter variáveis explicativas em quaisquer um dos níveis.

Claramente 2.12 possui muitos parâmetros. Em regressão hierárquica é ainda mais importante que
sejam incluídas apenas as variáveis e interações que forem de fato importantes para o estudo, pois
esse tipo de modelo pode car facilmente super parametrizado. Em (2.12), temos:
i) Efeitos fixos:
yij é a resposta do j-ésimo indivíduo do grupo i.
xij é o valor da variável explicativa, de nível indivíduo, do j-ésimo indivíduo do grupo i.
wij é o valor da variável explicativa, de nível grupo, do grupo i-ésimo grupo.
2.4 Inferência Bayesiana
Na teoria de probabilidade, o teorema de bayes permite obter a probabilidade de um evento a partir
de um conhecimento ou informação a priori que esteja relacionado com esse evento. Além disso,
também é possível utilizá-lo para se obter distribuições de probabilidade de uma certa variável.
Dessa maneira, dizemos que as probabilidades são atualizadas conforme mais informação são
obtidas. Sua forma matemática para dois eventos A e B é descrita por:

A abordagem bayesiana para inferência estatística segue diretamente de (2.21).


Na inferência clássica, assumimos que o parâmetro é xo e desconhecido, mas no paradigma
bayesiano assumimos que o parâmetro que se deseja estimar é aleatório e atribuímos à ele uma
distribuição a priori, que re ete a informação conhecida sobre esse parâmetro. Obtida uma amostra
que contenha informações sobre esse parâmetro, podemos atualizar sua distribuição usando
(2.21). A distribuição a posteriori, para um parâmetro dado a observação da variável aleatório Y,
é dada
por:
Tema: 7: Testes não-paramétricos

A Estatística Não paramétrica pode ser definida como uma coleção alternativa de métodos
estatísticos aplicada a conjuntos de dados onde as condições necessárias para aplicação de uma
técnica clássica inferencial (p. ex., Intervalo de Confiança, Teste de Hipótese) não são
satisfatoriamente atendidas. É também bastante útil no tratamento de dados onde o nível de
mensuração das observações não é dos melhores. Já nos testes não paramétricos, também
conhecidos como testes de distribuição livres, não há exigências quanto ao conhecimento da
distribuição da variável estudada Conjunto de técnicas que permitem fazer inferências para a
população sem a necessidade de obedecer a certos pressupostos (métodos livres de distribuição):
 Normalidade dos dados  Homogeneidade das variâncias.
ESTES ESTATÍSTICOS DE HIPÓTESES NÃO PARAMÉTRICOS. São testes que não dependem
de parâmetros populacionais, como por exemplo: média e variância, estes tipos de testes não
estão condicionados por qualquer distribuição de probabilidades dos dados em análise, sendo
também designados por “distribution-free tests”. Outra conceituação atribuída aos testes
paramétricos é que são testes que utilizam os dados ordenados para o cálculo de sua estatística.
Com essas premissas de bases de conceituações os testes de hipóteses de homogeneidade
e estacionariedade, que pelas suas características distributivas e pelo tamanho de suas amostras,
podem ser apenas testadas com o emprego dos testes não paramétricos. A rejeição ou não rejeição
da hipótese de homogeneidade de uma serie hidrológica é frequentemente decidida por meio do
teste não paramétrico proposto por Mann e Whitney (1947). O teste Mann-Whitney é equivalente
ao teste da soma dos postos de Wilcoxon. Em hidrologia estatística, o termo “estacionariedade”
refere-se ao fato que, excluídas as flutuações aleatórias, as observações amostrais são invariantes,
com relação à cronologia de suas ocorrências. Os tipos de não estacionariedades incluem
tendências saltos e ciclos, ao longo do tempo. Uma tendência temporal, eventualmente presente
em uma serie hidrológica Xt, ao longo do tempo t, pode ser detectada pela correlação entre a série
e o índice de tempo. Essa e a ideia essencial do teste não paramétrico de Spearman

Testes não paramétricos sobre duas medianas A ideia inicial básica para aplicação desses testes
é de que as amostras sejam independentes e selecionadas aleatoriamente, cada uma com mais
de 10 valores. Para testar se duas amostras independentes são provenientes de populações com
medianas iguais usa-se o teste da soma dos postos de Wilcoxon a qual usa postos de dados
amostrais de populações independentes.
Testes não paramétricos sobre a correlação entre duas amostras
O teste de correlação de postos de Spearman usa postos de dados amostrais em pares
combinados e testa a associação entre duas amostras. O coeficiente de correlação de postos de
Spearman (rs) indica se há uma correlação entre essas duas amostras. A idéia inicial para que a
aplicação do teste é que as amostras sejam extraídas em pares e selecionadas aleatoriamente.

Vantagens dos Métodos Não-Paramétricos


1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla
diversidade de situações, porque não exigem populações distribuídas
normalmente.
2. Ao contrário dos métodos Paramétricos, os métodos Não-Paramétricos
podem freqüentemente ser aplicados a dados não-numéricos.
3. Os métodos Não-Paramétricos em geral envolvem cálculos mais simples do
que seus correspondentes Paramétricos, sendo, assim, mais fáceis de
entender.
Desvantagens dos Métodos Não-Paramétricos
1. Os métodos Não-Paramétricos tendem a perder informação, porque os
dados numéricos são freqüentemente reduzidos a uma forma qualitativa.
2. Os testes Não-Paramétricos não são tão eficientes quanto os testes
Paramétricos; assim, com um teste Não-Paramétrico, em geral
necessitamos de uma amostra maior ou maiores diferenças para então
rejeitarmos uma hipótese nula.

Teste para Amostras Dependentes (Pareadas)


Teste dos Sinais
É utilizado para análise de amostras dependentes. Logo, esse teste é uma
alternativa para o teste “t” para amostras dependentes. É aplicado em situações
em que o pesquisador deseja determinar se duas condições são diferentes.
O teste do sinal tem pouco poder, pois usa como informação apenas o sinal
das diferenças entre pares. A única pressuposição exigida pelo teste do sinal é a
de que a distribuição da variável seja contínua. Esse teste não faz qualquer
suposição sobre a forma da distribuição das diferenças de médias. É útil nos
trabalhos de pesquisa em que é impossível ou inviável a obtenção de uma mensuração quantitativa,
mas é possível estabelecer postos em relação a cada um dos dois membros de cada par.
A lógica do teste é que as condições podem ser consideradas iguais quando as quantidades de "+"
e "-" forem aproximadamente iguais.
Procedimento:
a) Formular as hipóteses: a hipótese em teste é a de que as medidas feitas no par são iguais;
b) Comparar o valor da primeira medida com o valor da segunda medida, feita no mesmo par de
pessoas, animais ou objetos; atribuir o símbolo “+” para todo par de observações em que a primeira
medida for maior do que a segunda e “-“ quando acontecer o contrário;
c) Contar o número de “+” e de “-“;
d) Para pequenas amostras utilize:
Distribuição amostral. A probabilidade associada de ocorrência é dada pela
distribuição binomial com
p = q = 1/2 .
d) Para grandes amostras utilize:
Aproximação da distribuição binomial pela normal. Do mesmo modos:
p = q = 1/2

Obs.: Diferenças iguais a zero devem ser ignoradas. Essa solução, porém, só é satisfeita se houver
poucos zeros.
O teste dos sinais é fácil de aplicar e praticamente não exige pressuposições. Mas possui pouco
poder.
Siegel (1977) apresenta um estudo referente ao efeito da ausência do pai no desenvolvimento das
crianças. Dezessete casais foram entrevistados, pais e mães separadamente, e foi verificado o
grau de discernimento quanto à disciplina paterna após o retorno dos pais ao lar, após uma grande
ausência. Buscou-se então verificar se havia ou não diferença entre os cônjuges. Apesar de serem
esperadas diferenças favoráveis à mãe, tendo em vista a ausência prolongada dos pais,
considerou-se como hipótese inicial (nula) a de não diferença entre os pais. Além disso, três casais
foram eliminados do estudo, tendo em vista que o pai e a mãe apresentaram graus de
discernimento considerados iguais. Assim, os
resultados referentes aos 14 casais restantes, as diferenças no grau de discernimento (Di) e o sinal
destas diferenças, representados por 1 se é positivo e por 0 se este sinal é negativo, são mostrados
na tabela 1.
Tema 8:Estatística Multivariada

A estatística multivariada compreende um conjunto de técnicas que analisam simultaneamente um


conjunto de variáveis que caracterizam os objetos ou indivíduos de uma amostra. Usualmente as
técnicas de estatística multivariada são classificadas em técnicas de dependência ou
interdependência. Nas técnicas de dependência uma variável (variável dependente) é explicada
por outras variáveis (variáveis independentes). Fazem parte das técnicas de dependência os
modelos de regressão múltipla e a análise discriminante . Por sua vez, nas técnicas de
interdependência nenhuma variável é considerada dependente ou independente, mas todas as
variáveis são analisadas simultaneamente com a finalidade de encontrar uma estrutura para todo
conjunto de variáveis.

Os objetivos mais gerais do emprego de técnicas multivariadas são:


a) redução de dados ou simplificação estrutural: a partir de correlação ou associação das variáveis
originais, busca-se construir índices ou variáveis alternativas que sintetizam as informações
originais, sem sacrificar informações valiosas e que tornam as interpretações mais simples. Por
exemplo: Análise de Componentes Principais (ACP), Análise Fatorial (AF), Análise de Correlação
Canônica (ACC) ou Análise de Correspondência Múltipla (ACM);
b) classificação e discriminação: criam-se grupos de objetos ou variáveis similares, baseados em
dados amostrais ou experimentais. Para tanto, utilizam-se as técnicas de análise de cluster (AA),
quando a divisão da população não é conhecida a priori, ou análise discriminante (AD), quando já
se detém conhecimento prévio sobre os possíveis grupos a fim de classificar um elemento amostral;
c) investigação de relação entre as variáveis: com o auxílio de técnicas multivariadas busca-se
investigar a natureza da relação ente as variáveis, ou seja, se as mesmas são mutuamente
independentes ou uma ou mais são dependentes de outras. Técnicas como regressão múltipla,
regressão logística, modelagem de equações estruturais, dentre outras, são úteis para atingir esse
objetivo. A utilização adequada da análise multivariada depende do bom conhecimento das
técnicas e das suas limitações. Como afirma Marriot (1974): “se os resultados divergirem com a
opinião formada, impedirem uma simples interpretação lógica, não estiverem claramente em uma
apresentação gráfica, logo os mesmos estariam provavelmente errados. [...] Os métodos não
devem ser utilizados como máquinas automáticas de encher linguiça, transformando massas
numéricas em pacotes de fatos científicos”.

Métodos de Análise Multivariada

A seguir apresentaremos uma síntese de alguns dos métodos de análise multivariada mais
utilizados:

• Análise de correspondência
• Análise de componentes principais
• Análise fatorial
• Análise de cluster
• Análise de regressão múltipla
• Modelagem de equações estruturais

A análise de correspondência é uma técnica de análise multivariada que tem como objetivo básico
verificar a associação entre variáveis categóricas gerando tabelas de contingência. estes como o
qui-quadrado, por exemplo, são utilizados para avaliar se a informação contida nas linhas da tabela
é independente, ou não, da informação contida nas colunas. Benefícios da análise de
correspondência

Os benefícios da análise de correspondência são:


Exibição das relações entre categorias: A forma como as informações são apresentadas
visualmente significa que qualquer pessoa pode entender facilmente a força das relações entre as
categorias com um pouco de treinamento ou explicação.

É objetiva e não faz suposições: Como os resultados reais não são usados, mas um cálculo dos
números em relação aos outros resultados, a análise de correspondência é muito objetiva. Não há
suposições distributivas subjacentes e, portanto, acomoda todas as variáveis de categoria.

Existem múltiplas variáveis: A força óbvia da análise de correspondência é que ela lida com
múltiplas variáveis de maneira fácil e simples. Isso é algo que nenhum outro método estatístico faz
com tanta facilidade.

Torna as coisas mais simples: Ao contrário de muitas outras ferramentas de ciência de dados, a
análise de correspondência usa uma tabela enorme e complicada com várias variáveis e categorias
e, no final, fornece uma visualização simples.

Limitações
É facilmente incompreendida: Como a análise de correspondência mostra relações relativas, as
pessoas que leem o gráfico geralmente interpretam mal os resultados. A ideia de que não há força
de correlação por causa da distância física entre os pontos é um pensamento falho, derivado da
não compreensão do gráfico.

Os dados devem ser consistentes: A análise de correspondência só é útil quando há pelo menos
duas linhas e duas colunas nos dados..

A análise de correspondência é muito influenciada por outliers: Quando a média dos dados
está sendo calculada na tabela multivariada, se houver dados discrepantes, isso distorce todo o
resultado. A influência dos dados discrepantes é enorme e pode fazer com que toda a análise seja
deturpada.

Escala de coordenadas nos mapas: Quando o gráfico de análise de correspondência é


elaborado, as coordenadas de linha e coluna são criadas. No entanto, elas podem ser desenhadas
de forma que as relações resultantes não sejam exibidas com precisão. Isso pode resultar em um
mapa de aparência estranha, com conjuntos de dados agrupados e outros pontos de dados muito
distantes.

Falta de significância estatística: Ao contrário dos qui quadrados, que mostram claramente
significância estatística, a análise de correspondência mostra apenas uma relação. Não há menção
ou maneira de medir se esses relacionamentos têm algum significado ou se a força do
relacionamento se deve a algo que não seja o acaso.

Análise de Componentes Principais

A análise de componentes principais, também conhecida como PCA (do inglês Principal
Component Analysis), é um método de análise multivariada que tem por finalidade básica a análise
dos dados de forma reduzida, eliminando as sobreposições e escolhendo a forma mais
representativa dos dados a partir de combinações lineares das variáveis originais. O objetivo
é encontrar um meio de condensar a informação contida em várias variáveis originais em um
conjunto menor de variáveis estatísticas (componentes) com uma perda mínima de informação.

O número de componentes principais se torna o número de variáveis consideradas na análise, mas


geralmente as primeiras componentes são as mais importantes já que explicam a maior parte da
variação total. As componentes principais em geral são extraídas via matriz de covariância, mas
também podem ser extraídas via matriz de correlação.
Extraindo as Componentes Principais

Quando se utiliza a matriz de covariância para extração, as componentes são influenciadas pelas
variáveis de maior variância. Sendo assim, quando existe uma discrepância muito acentuada entre
as variâncias, as componentes principais acabam sendo de pouca utilidade, uma vez que cada
componente tende a ser dominada por uma variável.

Em muitos casos, isso ocorre devido às diferenças existentes nas escalas e unidades de medidas
das variáveis. Quando isso ocorre deve-se utilizar a matriz de correlação para extrair as
componentes para que as variáveis de maior escala numérica não “roubem” a importância da
componente para si.

Existem diversas funções para realizar a Análise de Componentes Principais no R, como por
exemplo:

• Função: prcomp() – Pacote: stats


• Função: princomp() – Pacote: stats
• Função: PCA() – Pacote: FactoMineR
• Função: dudi.pca() – Pacote: ade4
• Função: acp() – Pacote: amap
Na maioria dessas funções, extrair as componentes principais via matriz de correlação significa
padronizar, através do escore Z, as variáveis de interesse. Isso pode ser feito utilizando argumentos
já disponíveis nessas funções, uma vez que a matriz de covariância de variáveis padronizadas
equivale a matriz de correlação dos dados brutos.

Para exemplificar, temos que um banco exige oito informações de candidatos a empréstimos:
renda, grau de instrução, idade, tempo na residência atual, tempo no emprego atual, poupança,
dívidas e número de cartões de crédito. Um administrador bancário deseja analisar esses dados
para determinar a melhor maneira de agrupá-los e relatá-los. Dessa forma, a análise de
componentes principais é realizada para reduzir o número de variáveis para tornar os dados mais
fáceis de analisar, escolhendo um número de componentes que explique boa porcentagem da
variação dos dados.

Análise Fatorial

Da mesma forma, a análise fatorial tem como objetivo principal descrever a variabilidade original
de um conjunto de variáveis em um número reduzido de variáveis latentes. A análise fatorial é uma
técnica estatística exploratória que permite realizar esse trabalho. Ela procura definir, em um estudo
com muitas variáveis, conjuntos de variáveis altamente correlacionadas, conhecidos como fatores.
Os fatores têm o objetivo de resumir as diversas variáveis em um conjunto menor de dimensões
com uma perda mínima de informação.A análise fatorial pode ser observada sob uma perspectiva
exploratória ou confirmatória.

Quando aplicada em estudos que exigem a redução do número de variáveis para favorecer a
análise exploratória, ou quando utiliza os fatores para a criação de medidas compostas, dizemos
que assume uma perspectiva exploratória.

Por outro lado, se o estudo envolve uma base conceitual que permite compreender a relação entre
as variáveis, então um fator pode assumir determinado significado. Ele pode representar um
conceito, medido pelo conjunto de variáveis que o compõe, que não seria possível verificar
individualmente.
Análise Fatorial Exploratória

A análise fatorial exploratória é capaz de tornar mais simples um estudo complexo, reduzindo um
grande número de variáveis correlacionadas em fatores com baixa correlação entre si. Ela
estabelece a correlação das variáveis observáveis e as organiza em fatores, que por si só são
variáveis não observáveis.

Análise Fatorial Confirmatória

Vamos supor agora que um pesquisador está reproduzindo um estudo realizado no exterior e
precisa traduzir o questionário aplicado. Nesse caso, durante a tradução, uma ou mais perguntas
podem perder seu significado, o que pode levar a uma alteração no entendimento dos
entrevistados.

Neste caso, a análise fatorial cumpre o papel de confirmar se as mesmas perguntas do questionário
continuam formando os mesmos constructos do estudo. Isso porque, devido à tradução, uma ou
mais variáveis podem não estar mais correlacionados com as demais variáveis dos seus
respectivos constructos. Em alguns casos, podem até estar indo na direção contrária. Sua
importância para a formação de conhecimento

Análise de Cluster

Ao analisar uma base de dados, um dos principais desafios do analista é resumir a informação
coletada. Em muitos casos, quando contamos com um grande número de observações, pode ser
de interesse criar grupos. Dentro de cada grupo os elementos devem ser semelhantes entre si e
diferentes dos elementos dentro dos outros grupo, a análise de cluster, também conhecida como
análise de conglomerados, classificação ou agrupamento, é uma técnica de análise multivariada
que tem como propósito agrupar os elementos selecionados em grupos com características
similares entre si de maneira que os elementos em grupos diferentes sejam heterogêneos em
relação a estas mesmas características.

A análise de cluster é uma técnica estatística usada para classificar elementos em grupos, de forma
que elementos dentro de um mesmo cluster sejam muito parecidos, e os elementos em diferentes
clusters sejam distintos entre si. Para definir a semelhança – ou diferença – entre os elementos é
usada uma função de distância, que precisa ser definida considerando o contexto do problema em
questão. Podemos dividir a análise de cluster em dois grandes tipos de métodos: hierárquicos e
não hierárquicos.

Métodos Hierárquicos: Os métodos hierárquicos da análise de cluster tem como principal


característica um algoritmo capaz de fornecer mais de um tipo de partição dos dados. Ele gera
vários agrupamentos possíveis, onde um cluster pode ser mesclado a outro em determinado passo
do algoritmo.

Esses métodos não exigem que já se tenha um número inicial de clusters e são considerados
inflexíveis uma vez que não se pode trocar um elemento de grupo. Eles podem ser classificados
em dois tipos: Aglomerativos e Divisivos.

• Métodos Aglomerativos: nesse caso, todos os elementos começam separados e vão


sendo agrupados em etapas, um a um, até que tenhamos um único cluster com todos
os elementos. O número ideal de clusters é escolhido dentre todas as opções.
• Métodos Divisivos: no método divisivo todos os elementos começam juntos em um
único cluster, e vão sendo separados um a um, até que cada elemento seja seu
próprio cluster. Assim como no método aglomerativo, escolhemos o número ótimo de
clusters dentre todas as possíveis combinações.

Métodos Não Hierárquicos

Os métodos não-hierárquicos da análise de cluster são caracterizados pela necessidade de definir


uma partição inicial e pela flexibilidade, uma vez que os elementos podem ser trocados de grupo
durante a execução do algoritmo.

O procedimento geral adotado para os métodos não hierárquicos é:

• escolher uma partição inicial (baseada em conhecimentos anteriores do problema);


• realizar o deslocamento do objeto de seu grupo para outros grupos;
• verificar o valor do critério utilizado, decidindo pela clusterização que apresentar
melhoria.
Esse processo é repetido até que não se obtenha mais nenhuma melhoria com os deslocamentos.
Os métodos das k-médias e o Fuzzy c-Médias são alguns exemplos conhecidos desses métodos,
que tem como vantagem a possibilidade de mover um elemento de um cluster para o outro, o que
não é possível no método hierárquico.

Usualmente, os métodos não hierárquicos são mais eficientes na análise de bancos de dados com
maior número de observações.

Como fazer Análise de Cluster?

A maioria dos ambientes e softwares de análise estatística possuem opções para realizar a análise
de cluster e a construção de dendogramas. O software R possui uma grande quantidade de funções
e pacotes para se trabalhar com análise de agrupamento.

Análise de Regressão Multivariada

A regressão multivariada é uma coleção de técnicas estatísticas que constroem modelos que
descrevam de maneira razoável relações entre várias variáveis explicativas de um determinado
processo.A diferença entre a regressão linear simples e a multivariada é que nesta são tratadas
duas ou mais variáveis explicativas.

Pensa-se que a energia elétrica consumida mensalmente na produção de um determinado produto


químico está relacionada com a temperatura média ambiental, o número de dias do mês, a pureza
média do produto e o número de toneladas de produto produzidas. Utiliza-se da regressão
multivariada para verificar essas influências, de forma instantânea.

A Modelagem de Equações Estruturais

A Modelagem de Equações Estruturais (SEM – Structural Equation Modeling) inclui um conjunto


diversificado de modelos matemáticos, algoritmos de computador e métodos estatísticos que
operam juntos para permitir aos pesquisadores incorporar conceitos não observáveis através de
variáveis indicadoras medidas indiretamente. Ele também facilita a contabilização do erro de
medição nas variáveis observadas.

A Modelagem de Equações Estruturais é uma família de modelos estatísticos que busca explicar
as relações entre múltiplas variáveis. Ela examina a estrutura de inter-relações expressas em uma
série de equações, semelhante a uma série de equações de regressão múltipla. Tais equações
descrevem todas as relações entre constructos envolvidos na análise. Constructos são fatores
inobserváveis ou fatores latentes representados por múltiplas variáveis.

A SEM pode ser vista como uma combinação das técnicas de análise fatorial e análise de
regressão múltipla.

As principais características

A SEM é conhecida por muitos nomes: análise estrutural de covariância, análise de variável latente,
e, às vezes, simplesmente pelo nome do pacote especializado usado (Exemplo: LISREL, AMOS).

Apesar de existirem diferentes maneiras para testar as SEM, todos os modelos de equações
estruturais são caracterizados por três aspectos:

1. Estimação de relações de dependência múltipla e inter-relacionada.


2. Uma habilidade para representar conceitos não observados nessas relações é corrigir
erro de mensuração no processo de estimação.
3. Definição de um modelo para explicar o conjunto inteiro de relações.
Modelo de Equações Estruturais baseado em Covariância (Covariance-based Structural
Equation Modeling)

O SEM (CB-SEM) baseado em covariância é usado principalmente para confirmar (ou rejeitar)
teorias, isto é, um conjunto de relações sistemáticas entre múltiplas variáveis que podem ser
testadas empiricamente. Ele faz isso determinando o quão bem um modelo teórico proposto pode
estimar a matriz de covariância para um conjunto de dados de amostra.

Modelo de Equações Estruturais via PLS

(Partial Least Square Structural Equation Modeling)

Em contraste, o PLS-SEM, também chamado de modelagem de caminho PLS, é usado


principalmente para desenvolver teorias em pesquisa exploratória. Ele faz isso, concentrando-se
em explicar a variância nas variáveis dependentes ao examinar o modelo. A modelagem
de equações estruturais, denominada SEM (do inglês Structural Equation Modeling), é um método
de análise multivariada que combina aspectos de regressão múltipla e de análise fatorial, com o
objetivo de estimar simultaneamente uma série de relações de dependência.

Como exemplo prático, temos que um pesquisador deseja avaliar várias relações de dependência
de forma instantânea entre variáveis latentes (variáveis que sintetizam a informação de várias
outras variáveis). A modelagem de equações estruturais realiza o processo de sintetização dos
dados e estima os parâmetros das relações de dependência.

O que é análise multivariada?


“De um modo geral, refere-se a todos os métodos estatísticos que simultaneamente analisam
múltiplas medidas sobre cada indivíduo ou objeto sob investigação. Qualquer análise simultânea
de mais de duas variáveis de certo modo pode ser considerada análise multivariada.”(HAIR et al.,
2005, p.26). Análise MultivariadaAvaliação de comportamentos e tendências para a tomada de
decisão Informação Conhecimento Dados Tratamento e Análise Tomada de Decisão Processo de
geração de conhecimento de um fenômeno (FÁVERO et al, 2009)

4 Técnicas Multivariadas de Análise de Dados


Análise univariada: comportamento e distribuição de uma variável isolada Análise bivariada:
associação, correlação e análise de variância relativas a duas variáveis simultaneamente Análise
multivariada: todas as variáveis são aleatórias e inter-relacionadas, de modo que seus diferentes
efeitos não podem ser interpretados separadamente

5 Técnicas Multivariadas de Análise de Dados


Quantas variáveis são analisadas simultaneamente? Análise univariada Análise bivariada Análise
multivariada uma duas mais de duas Tipos de análise de dados em função do número de variáveis
(FÁVERO et al, 2009)

6 Esquema de Banco de Dados


Matriz nxmVariáveisObservaçõesVar 1Var 2Var 3...Var mObs 1Obs 2Obs 3Obs n

7 Preparação da Análise de Dados


Número de variáveis a serem analisadas ao mesmo temp oNível de mensuração das variáveis de
interesse Interesse descritivo ou inferencial da análise Interesse na inter-relação ou na relação de
dependência das variáveis em estudo (para duas ou mais variáveis)

8 Tipos de Variáveis Variáveis Quantitativas Variáveis Qualitativas


Variáveis Discretas Variáveis Contínuas Variáveis Qualitativas Variáveis Nominais Variáveis
Ordinais

9 Regressão Múltipla Sua ideia-chave é a dependência estatística de uma variável em relação a


duas ou mais variáveis independentes .Seus principais objetivos podem ser descritos como:
Encontrar a relação causal entre as variáveis. Estimar os valores da variável dependente a partir
dos valores conhecidos ou fixados das variáveis independentes.

10 Análise Discriminante
A variável dependente é qualitativa, podendo ser dicotômica (sim-não) ou multicotômica (alto-
médio-baixo), e as variáveis independentes podem ser quantitativa ou qualitativa. Esta técnica
estatística auxilia na identificação de quais variáveis conseguem diferenciar grupos ou categorias.

11 Regressão Logística Técnica de análise multivariada que permite estabelecer a probabilidade


de ocorrência de determinado evento para situações em que a variável dependente é qualitativa e
de natureza dicotômica .Pode ser utilizada mesmo quando alguns dos pressupostos da análise
discriminante não forem atendidos.

12 Análise Fatorial: É uma técnica multivariada de interdependência em que todas as variáveis são
simultaneamente consideradas. Cada variável é relacionada com as demais, a fim de estudar as
inter-relações existentes entre elas, buscando a redução ou sumarização dos dados.

13 Análise de Cluster: É o nome dado ao grupo de técnicas multivariadas cuja finalidade primária
é agregar objetos com base nas características que eles possuem. O objetivo é classificar uma
amostra de indivíduos ou objetos em um pequeno número de grupos mutuamente excludentes,
com base nas similaridades entre eles.

14 MDSO Escalonamento Multidimensional (MDS) é um procedimento que permite determinar a


imagem relativa percebida de um conjunto de objetos, transformando os julgamentos de
similaridade ou preferência em distâncias representadas no espaço multidimensional.

15 O Truque! “O truque na estatística multivariada, se existe, não está nos cálculos, fácil e
rapidamente feitos num computador com software adequado instalado. O truque consiste em
escolher o método apropriado ao tipo de dados, usá-lo corretamente, saber interpretar os
resultados e retirar deles as conclusões corretas.” (Reis, 2001, p.11)
Tema 9-Estatística Espacial.

A Estatística espacial pode ser definida como uma coleção de técnicas que busca descrever os
padrões existentes em que os dados são espacialmente localizados e se considera explicitamente
a possível importância de seu arranjo espacial na análise ou interpretação dos resultados. A
estatística espacial distingue-se da estatística clássica por associar cada dado a uma localização
no espaço • Cada dado é referenciado espacialmente, este referenciamento poder ser qualquer
tipo de coordenada (X, Y) espacial • Análise de dados espaciais focaliza-se nas técnicas onde se
considera a localização espacial dos dados.

Os objetivos da estatística espacial são:

• Descrição cuidadosa e precisa de eventos no espaço geográfico (incluindo a descrição de


padrões)

• Exploração sistemática do padrão dos eventos e de sua associação com outras variáveis

• Modelagem dos fenômenos cuja distribuição é afetada pela sua localização geográfica e pela sua
relação com seus vizinhos.

• Estatística Clássica; • Estatística Descritiva (média, variância) • Regressão •

Estatística Espacial • Descrever o padrão espacial.

Principais aplicações: • Epidemiologia - determinação de padrão espacial de doenças e associação


com fatores de disseminação; • Geologia - determinação de distribuição espacial de depósitos
minerais e capacidade de exploração; • Agronomia - determinação de padrão espacial e planos de
amostragem para o controle de doenças e pragas; • Economia - estudos em econometria espacial
(processos dinâmicos em tempo e espaço);

Padrões Espaciais • A forma como as amostras se organizam no espaço é conhecida como


distribuição espacial ou padrão espacial • Tipos de padrões espaciais:

Padrões Espaciais • Aleatório (Distribuição Poisson)

• Regular (Distribuição Binomial);

• Agregado (Distribuição Binomial Negativa)

• Existem três tipos de dados espaciais:

• Eventos ou Padrões Pontuais

• Áreas com contagens


• Superfícies contínuas.

Eventos ou Padrões Pontuais • São fenômenos expressos por meio de ocorrências identificadas
como pontos localizados no espaço. • John Snow (1854) - estudo da epidemia de cólera em
Londres.

Áreas com contagens • São fenômenos associados aos dados de levantamentos que referem-se a
indivíduos localizados em pontos específicos no espaço. • Exemplos: Taxa de homicídios por
bairros; Taxa de incidência de doenças por município; Numero de imóveis novos uma cidade;

Superfícies contínuas • São fenômenos que se distribuem continuamente em uma região. • Um


exemplo desse tipo de dados são medidas da concentração de um elemento químico no solo.

Tipos de Dados- Abaixo, é possível observar os tipos de dados analisados em Estatística Espacial.

Tipos de Dados Exemplo Problemas Típicos

Análise de Eventos Eventos Localizados Ocorrência de Determinação de Padrões


Pontuais Doenças

Análise de Superfícies Amostra de campo e Depósitos Minerais Interpolação e medidas de


matrizes Incerteza

Análise de Áreas Polígonos e Atributos Dados Censitários Regressão e Distribuições


Conjuntas

A Estatística Espacial é a área da Estatística que trata de compreender a distribuição espacial de


dados oriundos de fenômenos ocorridos no espaço geográfico. Ou seja, estuda métodos científicos
para a coleta, descrição, visualização e análise de dados que possuem coordenadas geográficas.
Quando, na análise em questão, deseja-se analisar o fenômeno no espaço ao longo do tempo,
passamos a tratar de um problema espaço-temporal.

Logo, para que um problema seja de Estatística Espacial, os dados obrigatoriamente devem possuir
um índice que faz referencia à uma localização geográfica. Ou seja, a referência geográfica é
explicitamente utilizada na modelagem.

A percepção visual da distribuição espacial dos dados é bastante eficaz no sentido de traduzir os
padrões existentes com considerações objetivas, assim como na percepção da associação com as
possíveis causas, direcionando e sustentando as tomadas de decisões.

Segundo Bailey & Gatrell (1995):

Análise de Dados Espaciais trata das análises onde dados observáveis são obtidos a partir de
algum processo operando no espaço e para os quais se utilizam métodos para descrever ou
explicar o comportamento deste processo e sua possível relação com outros fenômenos espaciais.
Desta forma, o objetivo da Análise de Dados Espaciais é de aumentar a compreensão básica do
processo, assim como buscar evidências em relação às hipóteses estabelecidas ou ainda predizer
valores em áreas onde as observações não foram feitas.
A grande evolução computacional das técnicas de mapeamento e da acessibilidade aos Sistemas
de Informação Geográfica (SIG) são os principais responsáveis pelo avanço da estatística espacial
e pela possibilidade da realização de modelagens sofisticadas dentro deste contexto.

Um Sistema de Informação Geográfica é um conjunto de equipamentos e programas


computacionais que possibilitam a integração de mapas e gráficos com um banco de dados, além
de ferramentas capazes de coletar, armazenar, manejar, analisar e visualizar informações
georeferenciadas. Possibilitando a visualização espacial de variáveis, permitindo fácil detecção do
padrão espacial.

3.2. Tipologia dos Dados Espaciais

Na análise espacial, três tipos de dados georeferenciados são principalmente considerados.

A diferenciação entre os tipos de dados diz respeito a sua natureza estocástica.


Consequentemente, diferentes metodologias estatísticas são empregadas na análise de cada um
dos tipos.

Porém, uma introdução a respeito dos três tipos de dados georeferenciados é apresentada na
seqüência.

3.2.1. Processos Pontuais

São aqueles que identificam eventos ou fenômenos como pontos localizados no espaço. Neste
caso, o interesse principal consiste nas coordenadas geográficas que representam a localização
exata dos acontecimentos. Na prática, dados relacionados à crimes são um exemplo dos
frequentemente estudados. O foco é a detecção de padrões e fontes de influência – se aleatórios
ou não – para distribuição espacial dos pontos.

3.2.2. Dados de Área

São dados usualmente obtidos através de levantamentos populacionais, tais quais censos,
estatísticas de saúde, cadastramentos populacionais, entre outros, agregados por áreas de uma
região. Em outras palavras, representar-se-á cada uma das áreas do mapa por uma quantia para
cada uma das variáveis do estudo. As áreas são subdivisões do mapa – é tradicional chamar todo
o espectro geográfico por região – com, supostamente, homogeneidade interna, usualmente
delimitadas por polígonos fechados. Na prática, porém, as áreas constituem partições de caráter
administrativo, político ou geofísico. Uma discussão mais profunda sobre dados de área aparece
na Seção 3.3 desta monografia.

3.2.3. Superfícies Contínuas

Esta seção admite outras nomenclaturas e engloba subdivisões muito encontradas na literatura.
Tais quais geoestatística e superfícies aleatórias. Os dados se tratam de amostras de campo,
regular ou irregularmente distribuídos. Em situações cotidianas, normalmente as amostras são
derivadas de estações fixas de monitoração, coleta ou medição de certa variável de interesse. O
objetivo da análise deste tipo de dado é de modelar uma superfície espacial que represente o
comportamento da variável em estudo no espaço geográfico. Para isso, através da modelagem,
trata-se de expandir os resultados amostrados nas estações de coleta para as demais regiões que
não tiveram informações coletadas. O principal resultado das análises deste tipo de dado
compreende mapas geológicos e topográficos. Como exemplo, poderíamos pensar na modelagem
da superfície da qualidade do ar em algum estudo sobre poluição.

3.2.4. Dados de Interação Espacial


Estes dados, cuja localização é considerada fixa tal qual em superfícies contínuas, correspondem
a um par ordenado que indicam ponto de saída (origem) e ponto de chegada (destino). Através
destes, se torna viável compreender o comportamento dos fluxos – identificando acessibilidade
questões como acessibilidade e atratividade – através da modelagem, que pode inclusive permitir
predizer efeitos oriundos de alterações no cenário dos mesmos. Como exemplo, cita-se estudos
migratórios que podem estar associados a um planejamento comercial, de transportes e de saúde.

3.3. Análise de Dados de Área

Nos dados de área, considera-se uma região dividida em áreas contíguas, disjuntas e bem
definidas. Para cada uma das áreas da região é associada uma quantia, ou indicador, de acordo
com a característica que se está estudando. Em outras palavras, podemos dizer que na análise de
dados de área lidamos com eventos agregados em espaços delimitados por polígonos fechados.
Ou seja, os valores (indicadores) associados às áreas não estão relacionados à localização
específica pontual de um evento no espaço, mas correspondem a uma quantidade que representa
um padrão global para a área em relação à variável em estudo. Na prática, as divisões geográficas
que resultam nas áreas são – normalmente – de caráter político, administrativo e geofísico,
geralmente caracterizadas por bairros, municípios, setores censitários.

Muitas vezes, principalmente sob perspectiva epidemiológica, ambiental e sócio-econômica, e de


acordo com a abordagem prioritária desta monografia, os dados são apresentados na forma de
contagens de ocorrências de um evento. Faz-se, todavia, a necessidade de alguma padronização
na quantia bruta da contagem observada, visto que as áreas habitualmente apresentam populações
em risco de tamanhos diferentes. A maneira mais comum de tratar este problema é através do
cálculo de taxas de incidência, riscos relativos e proporções. Tais são usualmente obtidos através
de levantamentos populacionais, como censos, estatísticas de saúde, cadastramentos
populacionais, entre outros.

O objetivo da análise de dados de área não consiste na predição de valores para áreas não
observadas, visto que, na quase totalidade das vezes, todas as áreas apresentam informações
disponíveis. Sendo assim, o objetivo principal obedece à identificação de determinado padrão ou
configuração espacial no que diz respeito à variável aleatória de interesse, assim como possíveis
relações no espaço com covariáveis.

Sendo assim, a abordagem para dados de área apresentada neste trabalho é, portanto, apenas
recomendada para dados obtidos através de levantamentos populacionais. Para os casos em que
a numeração completa dos eventos não for possível e a amostragem for a única possibilidade,
maiores considerações na modelagem são necessárias. Um exemplo de trabalho que considera a
análise de dados epidemiológicos amostrados é Nejjari et al. (1993).

Metodologias de amostragem de dados espaciais estão, de maneira satisfatória, apresentadas em


Ripley (1981), Cressie (1993) e Thomson (1992). Entretanto, ao considerarmos dados de
epidemiologia espacial, nos confrontamos com metodologias ainda não suficientemente
desenvolvidas, possivelmente pelo fato de que, nesta área específica, os dados são geralmente
derivados de totais enumerações de eventos. Estes derivam de registros oficiais com obtenção
rotineira ou estatísticas oficiais governamentais.

Sendo assim, a integralidade dos dados espaciais epidemiológicos é então apenas questionada
quanto aos erros de registro ou falta de diagnóstico, inerentes à ação dopesquisador.

3.3.1. Representação Gráfica

O procedimento padrão de representação gráfica para dados de área corresponde ao Mapa com
Padrão de Cores (Choropleth Map), que apresenta as áreas da região coloridas de acordo com
uma escala discreta associada aos valores correspondentes de cada área.
Bailey e Gatrell (1995) apresentam uma sugestão para o cálculo no número de classes da escala
de cores. As classes poderiam ser definidas por intervalos iguais, através dos quantis, com base
em desvios padrões ou até com freqüências pré-fixadas nas caudas (trimmed).

Na prática, normalmente o pesquisador já conhece os valores críticos ou intervalos de interesse


para o fenômeno que está estudando. Consequentemente, talvez o mais interessante a se fazer
não seja aplicar fórmulas para determinar o número nem como serão definidas as classes da escala
de cores, mas sim considerar o interesse do pesquisador ou do especialista.

3.3.2. Autocorrelação Espacial

Intuitivamente, podemos acreditar que áreas próximas, dependendo daquilo que se estuda, tendem
a apresentar valores mais similares (relação direta) ou dissimilares (relação inversa). Esta idéia de
dependência espacial está associada ao conceito estatístico de autocorrelação espacial, onde
cálculo da autocorrelação espacial obedece à maneira de quantificação da dependência espacial.
O termo autocorrelação assume o prefixo “auto” por fazer referência a uma mesma variável
aleatória, apenas considerando correlação entre diferentes localizações.

Moran (1950) e Geary (1954) apresentam índices que, assim como o variograma, correspondem a
ferramentas utilizáveis na quantificação da magnitude desta autocorrelação. Tais índices, porém,
carregam limitações ao considerar que a variável aleatória de interesse é identicamente distribuída
nas áreas. Para – principalmente – dados epidemiológicos, onde na maioria das vezes
consideramos taxas ou riscos, é muito difícil que esta suposição seja satisfeita pelo fato de que a
distribuição deste tipo de dado depende do tamanho da população em risco, propondo distribuições
de probabilidades diferentes para a variável aleatória associada a cada área. Ou seja, áreas com
tamanhos diferentes (contingente de população em risco diferentes), em que taxas, riscos ou
proporções estão sendo consideradas, apresentarão variabilidades diferentes, acarretando,
consequentemente, a não aplicabilidade dos índices de Moran e Geary. Assunção e Reis (1999)
propuseram um índice que mede a autocorrelação espacial para dados epidemiológicos.

Tema 10: Inteligência computacional na análise de dados experimentais

A Inteligência Computacional envolve um conjunto de técnicas inspiradas na Natureza que visam


o desenvolvimento de sistemas inteligentes. Estas técnicas imitam características do
comportamento humano, tais como: aprendizado, raciocínio, evolução e adaptação. Entre elas
estão as Redes Neurais, os Algoritmos Genéticos e a Lógica Nebulosa. Os Sistemas Inteligentes
têm aplicação nos mais diversos setores, incluindo: energético, econômico/comercial, seguros,
telecomunicações, mercado de capitais, industrial, meio-ambiente e medicina, obtendo, em muitos
casos, uma eficiência superior àquela obtida por métodos convencionais.
O aprendizado de máquina ou machine learning é área multidisciplinar da inteligência artificial que
reúne conhecimentos de ciência da computação, estatística e teoria da informação com o intuito de
desenvolver modelos computacionais capazes de extrair informações importantes presentes nos
dados (LECUN; BENGIO; HINTON, 2015). Informações estas que não são identificadas por
métodos convencionais e que propiciam melhorias na capacidade de reconhecimento de padrões.
Devido a essa propriedade, técnicas de aprendizado de máquinas têm recebido grande atenção no
cenário mundial, principalmente por auxiliar na solução de problemas de agrupamento,
classificação e predição (SINGH et al., 2016). Essa área não está restrita somente à literatura
especializada, mas também em aplicações rotineiras da sociedade moderna como em sites de
busca, redes sociais, “e-commerce” e equipamentos como câmeras e smartphones. O atual
crescimento na utilização do aprendizado de máquinas se deve a um conjunto de fatores dos quais
o principal é o aumento no volume de informação a ser processada, o que propiciou o surgimento
de conhecimentos específicos em dados de elevado volume, comumente denominada de Big Data
(MA; ZHANG; WANG, 2014). O aprendizado de máquinas se tornou essencial na análise de dados
com elevado volume e variedade, uma vez que os métodos estatísticos utilizados em dados de
maior dimensão não propiciam soluções eficientes. Portanto, estudos aplicados as áreas financeira,
médica, genômica de qualquer natureza e processamento de sinais têm se baseado na utilização
dessa abordagem.
MODELAGENS PROPOSTAS Uma breve descrição dos métodos estatísticos e de inteligência
computacional utilizados no problema será feito a seguir:
i) Modelos Box & Jenkins A metodologia Box & Jenkins é bastante utilizada na análise de
modelos paramétricos. Esta consiste em ajustar modelos auto-regressivos integrados de
médias móveis (ARIMA), a um conjunto de dados. Para a utilização da modelagem Box &
Jenkins é fundamental que o fenômeno observado seja estacionário ou tenha sido
transformado em uma série estacionária, pois é a partir de processos estacionários que a
modelagem faz previsões para valores futuros a partir do passado. Além da
estacionariedade, é necessário que os erros sejam não correlacionados e normais com
média zero e variância um. Os dados que compõem a série devem ter distribuição normal
e variância constante. A metodologia constrói modelos seguindo um ciclo iterativo,
considerando os próprios dados. O ciclo iterativo é composto de: •Especificação
•Identificação •Estimação •Verificação Se o modelo atender a todos os pressupostos das
etapas do ciclo iterativo, o mesmo é adequado para realizar previsões.
ii) ii) Método Holt-Winters O método de alisamento exponencial de Holt-Winters é utilizado
para séries sazonais e de padrão um pouco mais complexo. Dependendo do nível,
tendência e sazonalidade apresentada pela série, dois tipos de procedimentos podem ser
utilizados, já que estes procedimentos são baseados em constantes de suavização
diferentes associadas às componentes da série. O primeiro procedimento considera uma
série sazonal multiplicativa, onde sazonalidade da série é afetada pelo seu nível. O segundo
procedimento considera uma série sazonal aditiva, onde o padrão sazonal não se altera
quando o nível da mesma é alterado. O método de Holt-Winters tem por idéia amortecer
informações passadas em três passos, estimando assim nível, taxa de crescimento e fatores
sazonais, utilizando uma constante de amortecimento para cada um desses passos.
iii) iii) Redes Neurais As Redes Neuras artificiais tem capacidade de adquirir, armazenar e
utilizar conhecimentos experimentais. Elas são inspiradas nos neurônios biológicos e na
estrutura massivamente paralela do cérebro. As Redes Neurais artificiais buscam
implementar modelos matemáticos tendo a capacidade de adpatar parâmetros após a
interação com o ambiente de aprendizado melhorando assim gradativamente o
desempenho da rede. O procedimento consiste em fazer com que a rede passe por um
período de aprendizagem (treino), apresentando-a diversos padrões de modo que a mesma
aprenda as características referentes a esse padrão. Em seguida ocorre a fase de validação,
onde novos padrões são apresentados com o intuito de validar o modelo. Após esse
procedimento, ocorre a fase de testes, onde se verifica a qualidade do modelo. Nesta fase,
observações nunca vistas pela rede são apresentadas e confrontadas com a resposta
informada pela rede. Um bom modelo de rede neural deve ser capaz de aprender com
eficiência, sem perder a sua capacidade de generalização do fenômeno.
Figura 1 - Arquitetura de uma RNA Multilayer perceptron
iv) iv) Lógica Fuzzy A lógica fuzzy é uma técnica inteligente que permite modelar o modo
impreciso e aproximado de raciocínio humano expresso por um conjunto lingüístico. Caso
o utilizador consiga expressar sua tomada de decisão em um conjunto de regras
antecedentes e conseqüentes (se... então), logo um algoritmo pode ser criado e se torna
passível de implementação em um ambiente computacional. Portanto, uma dificuldade na
técnica é obter regras a partir do conhecimento de especialistas. Para solucionar tal
dificuldade existem diversas técnicas para extração de regras a partir dos próprios dados
numéricos. As variáveis lingüísticas são representadas por conjuntos fuzzy, onde cada
conjunto tem uma função de pertinência a ele associado. Portanto a principal função das
variáveis lingüísticas é tentar caracterizar aproximadamente fenômenos mal definidos e/ou
complexos. O raciocínio fuzzy pode ser dividido da seguinte maneira: • Transformar as
variáveis do problema em valores fuzzy (fuzzyficação); • Aplicar os operadores Fuzzy •
Aplicar as implicações • Combinar todas as saídas fuzzy • Transformar os resultados
fuzzyficados em valores reais interpretáveis (defuzzyficação) Figura 2 - Sistema Fuzzy e
suas funções
v) v) Métrica de comparação : Para comparar os resultados será utilizado o MAPE, aplicado
nos dezessete últimos valores da série. Estas observações serão utilizadas como teste,
portanto a sua previsão por cada metodologia será o objeto de comparação. O MAPE (Mean
Absolute Percentage Error) indica o nível de precisão do modelo em relação ao valor real.
100 1 x N Z Z Z MAPE N K k k k ∑= − = Onde N é o número de previsões realizadas, Zk e
Z k são os valores reais e previstos, respectivamente.
vi) K-Means O método k-Means proposto por Macqueen (1967) é um algoritmo de aprendizado não
supervisionado cuja a finalidade é agrupar observações similares em um número k de grupos
definido previamente. Com essa finalidade, esse algoritmo visa minimizar uma função critério
baseada na distância euclidiana como medida de dissimilaridade (MIRANDA, 2011), conforme a
seguinte expressão:

vii) em que n é o número de observações, 捲沈 é a localização


da i-ésima observação, 権珍 é o jésimo centroide. O processo iterativo do algoritmo k-Means
segue os passos: (i) Definir os k grupos e os seus respectivos centroides de forma aleatória
ou com base em algum critério; (ii) atribuir cada observação ao grupo com centroide mais
próximo; (iii) recalcular os centroides dos grupos e alocar novamente as observações; e (iv)
determinar um critério de convergência e se este não for satisfeito realizar novamente a
etapa ii

APRENDIZADO DE MÁQUINA: ASPECTOS TEÓRICOS E TÉCNICOS


3.1. EXTREME GRADIENT BOOSTING (XGBOOST) O
Extreme Gradient Boost (XGBoost), é um modelo de aprendizado de máquina, amplamente
utilizado para solucionar problemas de classificação e regressão, derivado dos modelos
ensemble, ou seja, produz seus resultados baseado em combinações de árvores de decisão
(NGUYEN et al, 2020). Segundo a artigo apresentado em (CHEN et al, 2016), o termo
Boosting é um processo que busca melhorar os resultados do modelo, de modo que o
algoritmo se fundamenta na ideia de conciliar os classificadores genéricos para construir
classificadores mais robustos, além da existência de uma função objetivo, que contribui para
o classificador alcançar o melhor resultado possível. De maneira geral, podemos definir a
função objetivo através da função de perda somada à uma função de regularização, onde
ao decorrer das interações, o modelo buscará construir uma árvore de decisão que minimize
a função objetivo (ELAVARASAN et al, 2020).
O funcionamento do XGBoost é constituído pelos seguintes passos: • O previsor local
recebe a entrada dos dados.
• A árvore baseada na função de custo é construída.
• A função de custo da árvore baseada no desempenho atingido é otimizada.
• É gerado o resultado por meio do agrupamento dos resultados atingidos por cada previsor
(levando em consideração o peso atribuído a cada um).

3.2. REDES NEURAIS ARTIFICIAIS (MLP) O campo das redes neurais artificiais costuma
ser chamado apenas de redes neurais ou perceptron multicamadas. Um perceptor é um
modelo de neurônio único, que foi o precursor de redes neurais. É um campo que investiga
como modelos simplificados, de cérebros biológicos, podem ser usados para resolver
tarefas computacionais difíceis, como as de modelagem preditiva que vemos no
aprendizado de máquina. O objetivo não é criar modelos realistas do cérebro, mas sim
desenvolver algoritmos robustos e estruturas de dados que possamos usar para modelar
problemas complexos. A Figura 3 apresenta a estrutura de uma Rede Neural Artificial, de
modo que as RNA’s são basicamente compostas por "neurônios", representados pelos
círculos, e suas interconexões entre os neurônios são representadas pelos traços, os quais
são responsáveis por conectar e indicar “pesos” para o neurônio subsequente. Na parte
mais à esquerda da figura, temos a camada de entrada, responsável pelo processamento e
transmissão dos dados de entrada para a camada subsequente. Esta, por sua vez, é
conhecida como camada oculta/camada intermediária, onde em conjunto com a função de
ativação reproduz relações não lineares a fim de melhorar a capacidade da rede de
aprender. Já à direita da figura, temos a camada de saída que, por sua vez, é responsável
por apresentar o valor final do problema solucionado (NEAGOE et al, 2018). Figura 3:
Estrutura de um modelo RNA. Fonte: (SILVEIRA et al, 2021) O poder das redes neurais
deriva de sua capacidade de aprender a representação em seus dados de treinamento e
como relacioná-los da melhor forma com a variável, a ser predita. Nesse sentido, as redes
neurais aprendem um mapeamento. Matematicamente, elas são capazes de aprender
qualquer função de mapeamento, e provaram ser um algoritmo de aproximação universal.
A capacidade preditiva das redes neurais vem de suas estruturas hierárquicas, ou da
inserção de várias camadas internas (ISMAIL et al, 2015).

21 3.3. FLORESTA ALEATÓRIA (RF) Floresta Aleatória (Random Forest - RF) é


considerado um método ensemble, isto é, parte de que a melhor decisão é proveniente da
opinião de um grupo treinado, e não apenas de um indivíduo. Trata-se de um conjunto de
estimadores que induzem a criação de seus próprios aprendizes e estratégias, onde os
aprendizes base são todas as árvores de classificação/regressão. Este método de
aprendizado pode tomar duas estratégias: o Bagging e o Boosting. A principal diferença
entre ambas as técnicas é que, em um determinado nó, ao invés de usar todas as variáveis
como o Boosting, o Bagging usa apenas um subconjunto aleatório para selecionar as
variáveis no critério de divisão. Desta forma, tal randomização pode reduzir a correlação
entre as diferentes árvores e, portanto, melhorar o desempenho da previsão.
O método consiste na execução de três etapas básicas:
● Gerar conjuntos de amostras bootstrap da base de dados de treinamento.
● Para cada amostra bootstrap, criar uma árvore de regressão (sem ajuste) com a seguinte
modificação: em cada nó, gera-se uma amostra aleatória das variáveis de entrada de toda
base de dados de treino onde escolhe-se a melhor subdivisão dessas variáveis, com, e
representando o número total das variáveis da base.
● Prever a nova saída a partir do cálculo da média das saídas de árvores de regressão
quando novas variáveis são inseridas ao modelo. A Figura 4 mostra, de maneira
simplificada, a estrutura de um modelo do tipo Random Forest, onde a mesma parte de um
banco de dados (x), e em cada nó subsequente o algoritmo toma sua decisão com base em
métricas predefinidas de regressão e ou classificação, atingindo a resposta média final (y),
para um determinado problema (WU et al, 2017). 22 Figura 4: Estrutura de um modo RF.
Fonte: (EHSAN et al, 2017).
3.4. MÁQUINA DE VETORES DE SUPORTE (SVR) Máquinas de Vetores de Suporte
(Support Vector Machines - SVRs) é um método desenvolvido com base no aprendizado
estatístico: um novo paradigma na área de AM. O método gera um hiperplano ótimo que
maximiza a margem no espaço dos dados, que é a distância entre os vetores de suporte
das classes distintas. Esses vetores recebem essa denominação em virtude da sua
proximidade com a superfície de decisão, contribuindo de maneira decisiva para a definição
de tal superfície (RADHIKA et al, 2009). Apesar de surgir visando problemas de
classificação, pode facilmente ser adaptado para resolver problemas de regressão, a partir
do uso de uma função de perda, a qual é minimizada com um regularizador. Assim, os SVRs
utilizados para regressão são comumente chamados de SVR (Support Vector Regression -
Regressão Vetorial de Suporte). Desta forma, adaptando-o para nosso contexto, o problema
consiste em encontrar uma função não linear que minimize o erro da previsão com relação
ao conjunto de treinamento (YANG et al, 2002). A Figura 5 nos ilustra, de maneira sucinta,
a separação de duas classes. A reta central está representando o hiperplano ótimo de
separação, que potencializa a margem, que é a distância entre os vetores de suporte das
classes distintas.
Início Geral da prova base

A Estatística é um conjunto de técnicas úteis para a tomada de decisão sobre um processo ou


população, baseada na análise da informação contida em uma amostra desta população. A
Estatística é uma ciência que oferece uma coleção de métodos para planejar experimentos e
levantamentos para obter dados, organizar, resumir, analisar, interpretar dados e deles extrair
conhecimento. A estatística experimental trata de metodologias para coleta, organização, análise
e interpretação de dados obtidos em levantamentos amostrais ou em experimentos especialmente
delineados para tal fim, com o objetivo de tomar melhores decisões.
Se as metodologias forem bem empregadas, será possível associar probabilidades às conclusões.
A Estatística Experimental tem por objetivo o estudo dos experimentos, incluindo o planejamento,
execução, análise dos dados e interpretação dos resultados obtidos.
Conceitos básicos:
Uma população é uma coleção completa de todos os elementos (valores, pessoas, medidas, etc)
a serem estudados. Um censo é uma coleção de dados relativos a todos os elementos de uma
população. Uma amostra é uma sub-coleção de elementos extraídos de uma população.
Um parâmetro é uma medida numérica que descreve uma característica de uma população. Uma
estatística é uma medida numérica que descreve uma característica de uma amostra.
Os dados quantitativos consistem em números que representam contagens ou medidas.
Os dados qualitativos podem ser separados em diferentes categorias que se distinguem por
alguma característica não-numérica. Os dados são a matéria prima da Estatística. Definido o
assunto de interesse, os dados são obtidos da medição de determinada característica ou
propriedade desse objeto, pessoa ou coisa.
Os dados discretos resultam de um conjunto finito de valores possíveis, ou de um conjunto
enumerável desses valores. Os dados contínuos resultam de um número infinito de valores
possíveis que podem ser associados a pontos em uma escala contínua de tal maneira que não haja
lacunas ou interrupções.
Variável - Qualquer conjunto de dados contém informações sobre algum grupo de indivíduos. As
informações são organizadas em variáveis. Uma variável é uma característica, propriedade ou
atributo de uma unidade da população, cujo valor pode variar entre as unidades da população.
Variação – O padrão de variação de uma variável constitui a sua distribuição. A distribuição de uma
variável quantitativa registra seus valores numéricos e a frequência de ocorrência de cada valor.
Basicamente duas formas de se obter dados para uma pesquisa cientifica:
Estudos observacionais: os dados são obtidos `a medida que se tornam disponíveis. Utiliza-se
t´técnicas de amostragem ou não. Exemplo: censo demográfico, pesquisa eleitoral.
Experimentos planejados: o pesquisador faz variações propositais nas variáveis controláveis de
alguns sistemas ou processos. Exemplo: os ´índices de retorno no valor líquido usando três tipos
de alavancagem financeira.
Experimento ou ensaio: E um trabalho previamente planejado para estudar o(s) efeito(s) ´ do(s)
fator(es) que se quer comparar.
Fator :E o m´método, elemento ou material cujo efeito se deseja medir ou ´ comparar em um
experimento
Variável resposta: E a variável mensurada usada para avaliar o efeito do fator. ´ Exemplos: Altura,
peso, diâmetro, km/l, valor em reais, etc.
Unidade experimental ou parcela: E a unidade que vai receber o n´nível do fator e fornecer os
dados que ´ deverão refletir seu efeito. Exemplos: um carro, uma pessoa, uma empresa, dois
carros, um lote de peças.
Delineamento experimental: E o plano utilizado na experimentação e implica na forma como o ´
fator será designado `as unidades experimentais. Exemplos: Delineamento inteiramente
casualizado (1 fator), blocos casualizados (2 fatores), quadrado latino, etc.
Erro experimental :E o efeito de fatores que atuam de forma aleatória e que não são ´ passíveis
de controle pelo experimentador.
Repetição: As unidades experimentais do mesmo grupo recebem, em estatística, o nome de
repetições e sua finalidade ´e obter uma estimativa do erro experimental;
Casualizacao: Consiste em se aplicar os n´níveis (grupos) do fator `as parcelas, através do sorteio.
Tem por finalidade propiciar a todos os n´níveis (grupos) do fator a mesma probabilidade de serem
designados a qualquer das unidades experimentais;
Controle Local: E uma t´técnica usada para melhorar a precisão do experimento, cuja ´ finalidade
´e dividir um ambiente heterogêneo em subambientes homogêneos e tornar o delineamento
experimental mais eficiente, pela redução do erro experimental.
Hipóteses e Objetivos: Todo experimento deve ter como objetivo gerar dados para comprovar ou
não alguma hipótese em consideração (ou conjectura). Os objetivos devem ser totalmente pré-
estabelecidos e claros. A hipótese pode ser sobre o comportamento de alguma tecnologia, manejo,
raça, etc.( No entanto, na prática existe variabilidade e o valor F calculado será maior que ZERO.
A estatística F é calculada através da razão QMTratamento/QMResíduo.
Quanto maior for a estatística F, menor a chance desse valor acontecer sob a hipótese de um
modelo de efeito nulo (igualdade de tratamentos). Ou seja, o valor de F deve ser grande (maior que
o Fc tabelado, em nível de significância) para rejeitar H0 e concluir pela diferença significativa entre
algum contraste de médias de tratamentos. Quando isso ocorre (F ≥ Fc) dizemos que o valor da
estatística “caiu” na região crítica. Na Figura a seguir podemos observar a região crítica para a
distribuição F de Snedecor, para nível de significância ( = 0,05) ou 5%. A região crítica é formada
por valores maiores que Fc (valor F crítico ou F tabelado para o correspondente nível de
significância de interesse).
Variável resposta:, ela é e qualquer característica que apresenta variação, por exemplo, a altura de
pessoas, o peso de animais, o comprimento de uma peça, o numero de microrganismos em um
litro de leite etc. Quando o valor de uma variável não pode ser determinado antes da realização de
um experimento, tem-se então uma variável aleatória. As variáveis que assumem valores
enumeráveis, são denominadas variáveis aleatórias discretas.

A Analise de Variância (ANOVA- Analysis of variance),) ´e um procedimento utilizado para


comparar três ou mais tratamentos. Existem muitas variações da ANOVA devido aos diferentes
tipos de experimentos que podem ser realizados, visto que ANOVA é uma técnica que consiste,
fundamentalmente, em decompor a variância total de um conjunto, em variâncias parciais,
correspondentes a fontes de variação diferentes e determinadas. Feito isto, as variâncias poderão
ser comparadas entre si por meio de algum teste estatístico.
Variância ( 2) - É a média da soma dos quadrados dos desvios em relação à própria média. A
variância é a medida comumente usada para resumir a variabilidade de uma distribuição, pois mede
a concentração dos dados em torno de sua média.
Podemos fazer uma análise de variância com dados que tenham distribuição conhecida ou não. A
partir daí para a realização de testes de hipóteses estatísticos é necessário que o conjunto de dados
obedeça algumas pressuposições.
FV – Fontes de Variacao- Nessa coluna sao descritas as causas de variabilidade dos dados do
experimento. Nosso interesse esta em conhecer a variabilidade ENTRE os TRATAMENTOS. Todas
as outras fontes de variabilidade sao agrupadas
em RESÍDUO.
GL – Graus de Liberdade A cada fonte de variacao esta associado um numero de graus de
liberdade.
SQ – Somas de Quadrados-Sao as somas dos quadrados de desvios ou as medidas de
variabilidade calculadas para cada fonte de variacao.
QM – Quadrados Medios- Sao obtidos pela razao entre as Somas de Quadrados e os seus
respectivos graus de liberdade. Sao as medidas de variabilidade para cada fonte de variacao,
comparaveis entre si.
FC – valor da estatistica F- E o valor obtido para a comparacao entre os quadrados
medios, dado pela razao entre o QM Entre Tratamentos e o QM do Residuo. E a estatistica de teste
apropriada para o teste de hipotese sobre os quadrados medios.
O quadrado médio (QM) para cada fonte e variação é obtido pela razão entre a soma de quadrados
da fonte de variação em questão pelo seus respectivos graus de liberdade. A partir da Tabela de
análise de variância podemos obter algumas estatísticas importantes de interesse prático:
1) Coeficiente de determinação: R2 = SQTratamento/SQTotal Expressa proporcionalmente ou
percentualmente quanto da variabilidade dos dados pode ser atribuída ao tratamento. Ou,
quanto o conjunto de dados está ajustado ao modelo de análise. Importante estatística que
definirá a confiabilidade dos resultados.
2) 2) Desvio padrão geral médio: s = QMRe síduo É uma média ponderada da variabilidade
das respostas dentro de cada tratamento. Ou seja, mede quanto as repetições de cada
tratamento estão variando entre si.
Coeficiente de variação: CV = (s/ y ). 100 Obtida a partir da média geral dos y . Essa estatística
expressa percentualmente a precisão com que o experimento foi realizado. Quanto menor o valor
do CV melhor é a precisão experimental. Essa precisão esta relacionada com a forma como o
experimento foi instalado e conduzido. Várias classificações de CV foram propostas por diversos
autores.
A analise de variância para testar essas hipóteses só ´e válida se forem satisfeitas as seguintes
condições: 1 aditividade: os efeitos devem se somar (não há interação);
2 independência: os erros ( ij) devem ser independentes;
3 normalidade: os erros ( ij) devem possuir uma distribuição normal (teste Shapiro-Wills e análise
gráfica);
4 homoscedasticidade ou homogeneidade de variâncias: os erros ( ij) devem possuir uma
variância comum σ 2 (teste de Bartlett, teste F m´máximo e teste de Levene);

Você também pode gostar