Escolar Documentos
Profissional Documentos
Cultura Documentos
Regressão Parametrizada
Regressão Parametrizada
"
( ) * +
, - . / .+
000. . / .+ 12 ,
!) 13456
Universidade Federal de Pernambuco
Centro de Informática
Pós-graduação em Ciência da Computação
RECIFE
2016
! "
"!# $ %
& ' ( ( )
( ' * +% $ , !- .
#. /
0 / $
1 23 4,5 6 ( 7 8
(' !- .
7 8 '8 9
" # $%&'(&$')*!
++++++++++++++++++++++++++++++++++++++++++++++++++++++
! " " # $ %
$ &' #
+++++++++++++++++++++++++++++++++++++++++++++
,! ! " - . /
. , 0 & 1
++++++++++++++++++++++++++++++++++++++++++++++
,! ! 2 3
. , 0 & 1
+++++++++++++++++++++++++++++++++++++++++++++
,! ! 4 3
1 & 1
++++++++++++++++++++++++++++++++++++++++++++++
,! ! " 5
1 & 1
+++++++++++++++++++++++++++++++++++++++++++++
, ! !6 " " 7
1 8 & 1
+++++++++++++++++++++++++++++++++++++++++++++
,! ! 9 4 : ; 4
. , 0 & :
Agradecimentos
A Deus, por sempre me guiar nas escolhas que fiz e que me permitiram chegar até aqui.
Aos meus orientadores, Renata e Getúlio, por todo o tempo disponibilizado e auxílios
diversos.
À Dione, por suas palavras de perseverança e de apoio.
Aos familiares, pelo suporte oferecido.
Aos amigos que de alguma forma contribuíram para a realização deste trabalho. Em
especial a Andrey, Angélica, Bruno, Daniel, Danielle, Derzu, Francisca, Leonardo, Magno,
Pollyanna e Telmo.
À Capes, pelos apoios concedidos, e sem os quais este trabalho não poderia ter sido
realizado.
A tarefa não é tanto ver o que ninguém viu ainda, mas pensar o que ninguém
pensou sobre algo que todos vêem.
—ARTHUR SCHOPENHAUER
Resumo
1 Introdução 15
1.1 Análise de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Organização da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Referências 109
Apêndice 113
Anexo 178
1
Introdução
média, desvio padrão e mediana. Billard e Diday (2000b) estenderam os conceitos de função
de correlação e covariância, proporcionando a obtenção de uma equação de regressão linear
múltipla para dados simbólicos de natureza intervalar. Chavent e Lechevallier (2002) propuseram
a distância de Hausdorff para intervalos e construíram um algoritmo de agrupamento por nuvens
dinâmicas para dados simbólicos intervalares.
A ADS tem interesse em métodos para a obtenção de conhecimento em dados simbólicos.
Em termos específicos, duas grandes áreas que estão relacionadas com a obtenção de conheci-
mento são a análise de agrupamento e a regressão linear. A análise de agrupamento envolve
técnicas para a separação de um conjunto de dados em grupos cujos elementos apresentam
similaridade entre si. A análise de regressão envolve a modelagem da dependência linear do
valor esperado de uma variável resposta em relação a outras variáveis (chamadas regressoras). A
partir do modelo construído, é possível encontrar estimativas para a resposta utilizando valores
diversos e não-observados para a variável regressora. Os métodos de agrupamento e regressão
para dados simbólicos são muito variados por causa da complexidade que esses dados apresentam
(BILLARD; DIDAY, 2006).
Este trabalho foca no estudo de agrupamento e regressão linear para dados simbólicos
intervalares. Um intervalo γ é definido como uma das expressões apresentadas na Equação (1.1)
um grupo. Em seguida, altera a composição dos grupos para obter a melhor partição.
Algoritmos de nuvem dinâmica (SOUZA; DE CARVALHO, 2005; DE CARVALHO;
LECHEVALLIER; SOUZA, 2004; CHAVENT et al., 2003; GOVAERT, 1975) englobam méto-
dos de agrupamento particionais para a separação de um conjunto em um número pré-definido de
grupos através da minimização de um critério. Este critério caracteriza o potencial de representa-
tividade que os protótipos têm com relação a seus respectivos grupos. Para isto, são utilizadas
distâncias a fim de se quantificar o grau de dissimilaridade entre um elemento do conjunto e os
protótipos dos grupos. Algoritmos de nuvem dinâmica também adotam distâncias adaptativas
(GOVAERT, 1975; DIDAY; GOVAERT, 1977), que incorporam pesos variando por grupo e por
dimensão. Estes pesos possibilitam um melhor ajuste para partições formadas por grupos com
formas e tamanhos diferentes.
Os métodos existentes na literatura para agrupamento de dados intervalares utilizam os
limites dos intervalos como pontos representativos. Com eles, são propostas as mais variadas
distâncias para medir a dissimilaridade entre os intervalos. Entretanto, esta abordagem ignora a
variação interna, uma característica inerente aos dados intervalares, ainda não discutida no con-
texto de agrupamento, mas utilizada no contexto de regressão (LIMA NETO; DE CARVALHO,
2008, 2010) através das amplitudes dos intervalos. Chavent e Lechevallier (2002) apresentaram
um algoritmo de nuvem dinâmica baseado no uso da distância de Hausdorff para intervalos e
mostraram também, como determinar os melhores protótipos, baseando-se no critério de adequa-
ção. Souza e De Carvalho (2004) propuseram o uso de distâncias City-Block, incluindo a versão
adaptativa para o agrupamento de intervalos por nuvem dinâmica. De Carvalho, Brito e Bock
(2006a) apresentaram o agrupamento com o uso de nuvem dinâmica associado com a distância
L2 para intervalos além de explorar técnicas de padronização para variáveis intervalares. De
Carvalho, Brito e Bock (2006b) propuseram o agrupamento por nuvem dinâmica com distâncias
de Hausdorff adaptativas, propiciando a criação de partições de grupos com formas e tamanhos
mais variados que a versão não adaptativa. De Carvalho e Lechevallier (2009a) apresentaram o
agrupamento por nuvem dinâmica para intervalos com o uso de distâncias quadráticas adaptati-
vas. De Carvalho e Lechevallier (2009b) sugeriram o uso das distâncias City-Block e Hausdorff
adaptativas, cujas formulações mudam a cada iteração, mas são iguais para todos os grupos,
para o agrupamento de intervalos por nuvens dinâmicas. Irpino e Verde (2008) propuseram
agrupamento por nuvens dinâmicas para dados intervalares utilizando a distância de Wasser-
sten, que supõe uma distribuição uniforme para os intervalos. A distância entre dois intervalos
corresponde à distância entre as duas respectivas funções de distribuição acumulada.
principal objetivo é encontrar uma equação linear nos parâmetros que represente a variável
resposta a partir das variáveis regressoras. O modelo é utilizado na predição de valores desco-
nhecidos ou não observados da variável resposta a partir de valores de interesse dos regressores
(RENCHER; SCHAALJE, 2008; MONTGOMERY; PECK; VINING, 2001; DRAPER; SMITH,
1981; SEBER, 1977).
Os métodos de regressão para variáveis intervalares, presentes na literatura, fixam pontos
ou parâmetros que representam os intervalos. Esta abordagem é limitativa, uma vez que os
pontos escolhidos podem não ser as melhores opções para ajuste de um modelo linear para um
conjunto de dados específico. Os métodos seguintes não supõem distribuições de probabilidades
para os erros e utilizam o método dos mínimos quadrados para a estimação de seus coeficientes.
Billard e Diday (2000b) propuseram o método do centro que constrói um modelo linear a partir
dos centros dos intervalos (para ambos, resposta e regressores). O modelo obtido é utilizado
para a predição dos limites da resposta a partir dos limites dos regressores. Billard e Diday
(2002) apresentaram o método do mínimo e do máximo que utiliza dois modelos para a regressão
intervalar, um para cada limite da variável resposta. O limite inferior da resposta depende dos
limites inferiores das variáveis regressoras, enquanto o limite superior depende dos limites
superiores dos regressores. Lima Neto e De Carvalho (2008) propuseram o método do centro
e da amplitude que, também, utiliza dois modelos: um que envolve os centros dos intervalos e
outro baseado na amplitude deles. Lima Neto e De Carvalho (2010) estenderam o método do
centro e da amplitude para incluir restrições nos coeficientes que modelam a amplitude, gerando
o método do centro e da amplitude com restrições, que garante a coerência matemática dos
limites estimados (onde o limite inferior é menor ou igual ao superior). Wang, Guan e Wu (2012)
apresentaram o método da informação completa que utiliza todos os pontos dos intervalos para
a realização da modelagem. Dois modelos de regressão são usados para estimar os limites da
variável resposta. Através da combinação linear de Moore (MOORE, 1966), os limites dos
regressores são utilizados de maneira alternada para estimar os limites inferiores e superiores da
variável resposta. Este método, também, garante a coerência matemática da predição.
Domingues, Souza e Cysneiros (2010) apresentaram um método de regressão linear
intervalar robusto a outliers. Para este método são ajustados dois modelos independentes de
regressão linear com erros simétricos para os centros e as amplitudes das variáveis envolvidas.
Lima Neto, Cordeiro e De Carvalho (2011) representaram variáveis intervalares como vetores
bivariados e propuseram a regressão simbólica bivariada para dados do tipo intervalo utilizando
a teoria de modelos lineares generalizados, com funções de ligação da família exponencial
bivariada. Souza, Queiroz e Cysneiros (2011) apresentaram classificadores de padrões para
dados intervalares utilizando modelos de regressão logística para intervalos. Quatro abordagens
são analisadas e para cada uma delas, foi utilizada uma representação diferente para os intervalos.
Fagundes, Souza e Cysneiros (2013) propuseram um modelo de regressão robusta para intervalos
que trata a presença de outliers nos conjuntos de dados. Nesta abordagem, os intervalos
são modelados através de dois modelos: um que relaciona os centros e outro que relaciona
1.3. OBJETIVOS 19
1.3 Objetivos
Dados intervalares multivariados podem ser interpretados como hipercubos em um
espaço multidimensional (CHAVENT, 2004). Os hipercubos apresentam uma região interna
que denota uma variação que os intervalos representam (relacionada com uma incerteza). Como
avanço nesta área, este trabalho propõe um mapeamento de intervalos para pontos que preserva a
posição espacial e a variação interna. Também é construído um algoritmo de agrupamento por
nuvens dinâmicas baseado na distância Lq híbrida que utiliza os pontos obtidos no mapeamento.
O hibridismo está relacionado ao uso de dois componentes de dissimilaridade. Um deles é
direcionado na posição espacial enquanto o outro, na variação interna. Três casos usuais da
distância Lq híbrida são analisadas: L1 híbrida, L2 híbrida e L∞ híbrida. Em outra abordagem,
são adicionados pesos para balancear cada um dos componentes no cálculo da dissimilaridade
final. E ainda são exploradas as versões adaptativas das distâncias híbridas.
Este trabalho ainda propõe um novo método de regressão linear por meio de uma
representação paramétrica para intervalos. Esta parametrização permite que o próprio modelo de
regressão encontre os melhores pontos representativos nos intervalos das variáveis regressoras,
sem que eles sejam fixados previamente, o que torna a modelagem mais geral. Além disso,
propõe-se a utilização de transformações para intervalos como mecanismo de auxílio para garantir
a coerência matemática na predição da resposta, em que os limites inferiores dos intervalos são
menores ou iguais aos superiores. No método proposto não existe suposição de distribuição
para os erros e os coeficientes da regressão são estimados utilizando o método dos mínimos
quadrados.
1.4 Metodologia
A metodologia utilizada na investigação do agrupamento e da regressão propostos
envolve a comparação deles com alguns dos métodos presentes na literatura. Para análise de
agrupamento, é utilizado o índice de Rand ajustado (HUBERT; ARABIE, 1985), que quantifica
1.5. ORGANIZAÇÃO DA TESE 20
a qualidade de uma agrupamento, dado que se conhece a partição original dos dados. Para
a regressão, é avaliada a qualidade das estimativas produzidas pelo modelo para os limites
inferiores e superiores dos intervalos, com os modelos que não assumem distribuição para os
erros. Os índices usados para isso são a magnitude relativa do erro da estimativa e a média
da magnitude relativa do erro da estimativa (KITCHENHAM et al., 2001; FOSS et al., 2003).
Para uma comparação estatística entre os resultados, são gerados intervalos de confiança não-
paramétricos com algoritmo de bootstrap (MARTINEZ; MARTINEZ, 2007; EFRON, 1979).
Dados reais, também, são analisados e comparados.
modelos. Também é mostrada uma análise que verifica a coerência matemática dos intervalos
preditos e a discussão de situações em que a utilização de transformações intervalares se torna
necessária. A comparação do entre os métodos de regressão intervalar é realizada pela construção
de intervalos de confiança bootstrap tanto para os dados sintéticos como para os reais.
Capítulo 6 - Conclusão
Este capítulo apresenta as conclusões para os métodos de agrupamento e de regressão
propostos para os dados intervalares. Também são apresentados direcionamentos para trabalhos
futuros.
22
2
Agrupamento por Nuvens Dinâmicas para
Intervalos
Distâncias adaptativas permitem um cálculo de dissimilaridade mais adequado para grupos com
formas mais irregulares e tamanhos heterogêneos. Assim, a medida de dissimilaridade usada tem
um alto impacto na obtenção dos grupos finais. Este fato estimula o estudo de funções de distân-
cias que exploram toda a informação que certos tipos de dados têm (JOHNSON; WICHERN,
1982; ANDERSON, 1984).
Este capítulo apresenta a fundamentação teórica para agrupamento por nuvens dinâmicas,
dividido como se segue. A Seção 2.1 apresenta a definição de distâncias bem como a formulação
da distância Lq para dados pontuais. A Seção 2.2 apresenta o critério a ser minimizado na
construção das classes do agrupamento. A Seção 2.3 revela distâncias propostas na literatura
para quantificar a dissimilaridade de dados intervalares. A Seção 2.4 descreve a construção de
distâncias adaptativas. A Seção 2.5 está relacionada com a determinação dos protótipos para
distâncias propostas na literatura. A Seção 2.6 apresenta o algoritmo completo para a realização
de agrupamento por nuvens dinâmicas para dados intervalares, utilizando algumas distâncias
existentes na literatura.
2.1 Distâncias
Para obter partições em um conjunto, é necessária a definição de uma distância que
quantifique a dissimilaridade. Ela mostra o quão estão próximos dois elementos do conjunto. O
agrupamento por nuvens dinâmicas baseia-se no nível de dissimilaridade entre instâncias e os
protótipos das classes.
Dados quaisquer três elementos xn , xm e xl de um conjunto X, uma medida de distância é
uma função φ : X × X → R+ ∪ {0}, que apresenta as seguintes propriedades (GAN; MA; WU,
2007):
I. Não negatividade
φ (xm , xn ) ≥ 0.
II. Reflexividade
φ (xm , xn ) = 0 ⇐⇒ xm = xn .
III. Comutatividade
φ (xm , xn ) = φ (xn , xm ).
O conjunto X é arbitrário, incluindo o que contém os dados intervalares. Entretanto, pode não ser
tão simples encontrar uma função que satisfaça as propriedades de distância e que explore toda a
informação contida pelas instâncias do conjunto de interesse (ANDERSON, 1984; JOHNSON;
WICHERN, 1982).
2.2. CRITÉRIO PARA OTIMIZAÇÃO 24
Esta distância é muito utilizada por métodos de agrupamento propostos para dados pontuais.
Esta tese apresenta um mapeamento de intervalos para pontos. Novas distâncias são definidas
para dados intervalares, baseando-se na distância Lq e no resultado do mapeamento proposto.
K N
Jφ (Γ, P) = ∑ ∑ φ (γn, gk ) 1k,n, (2.4)
k=1 n=1
em que φ é uma função de distância e 1k,n representa a função indicadora dada pela Equação
(2.5) (
1, se γn ∈ Ck ,
1k,n = (2.5)
0, se γn 6∈ Ck .
A solução ótima para a minimização deste critério pode ser obtida por análise combinatória.
Entretanto, esta solução é computacionalmente inviável uma vez que o número de configurações
a serem testadas aumenta rapidamente com o crescimento de N (MARDIA; KENT; BIBBY,
1979; JOHNSON; WICHERN, 1982). As próximas seções discutem distâncias para dados
intervalares e a determinação de protótipos para a minimização do critério de agrupamento.
2.3. DISTÂNCIAS L1 , L2 E L∞ PARA INTERVALOS 25
Similarmente, a distância L2 para intervalos (DE CARVALHO; BRITO; BOCK, 2006) tem sua
expressão determinada de acordo com a Equação (2.7)
p n o
dL22 (γn , gk ) =
j 2 j 2
j j
∑ |γn − g¯ k | + |γ̄n − ḡk | . (2.7)
j=1 ¯
em que max{·, ·} corresponde a função máximo. Estas distâncias utilizam apenas os limites
(inferiores e superiores) dos intervalos.
p
j
com λk > 0 e ∏ λkj = 1 (DE CARVALHO et al., 2006; DE CARVALHO; LECHEVALLIER,
j=1
2009a,b). A distância φ pode ser qualquer uma daquelas definidas pelas Equações (2.6), (2.7)
ou (2.8). Os pesos podem ser calculados analiticamente usando multiplicadores de Lagrange
(DE CARVALHO et al., 2006), o que resulta na Equação (2.10)
n o 1
p N h h h h p
∏h=1 ∑n=1 φ [γn , γ̄n ], [gk , ḡk ] 1k,n
j
λk = ¯ ¯ , (2.10)
N j j j j
∑n=1 φ [γn , γ̄n ], [gk , ḡk ] 1k,n
¯ ¯
2.4. DISTÂNCIAS ADAPTATIVAS 26
em que 1k,n é a função indicadora dada pela Equação (2.5). Para a classe k e a dimensão j, o
denominador da fração é a medida da dispersão intra-classe (coesão), da respectiva dimensão
e classe em relação ao protótipo Gk . O numerador é sempre constante e equivale à média
geométrica das dispersões intra-classe de todas as dimensões. Como o numerador não muda, o
j
comportamento do peso λk depende apenas do denominador. Assim, o valor do peso aumenta
quando a respectiva dispersão intra-classe diminui (os elementos da respectiva dimensão estão
muito próximos do protótipo da classe).
A distância L1 adaptativa (AL1 ) para intervalos (SOUZA; DE CARVALHO, 2004) é
descrita pela Equação (2.11)
p
j j j
dAL1 (γn , gk ) = ∑ λk |γnj − gk | + |γ̄nj − ḡk | . (2.11)
j=1 ¯ ¯
2.5 Protótipos
Os representantes das classes, os protótipos, dependem da distância escolhida para a
realização do agrupamento. Quando a soma de todas as distâncias dos elementos da classe ao
respectivo protótipo é minimizada, tem-se a melhor representação. Souza e De Carvalho (2004)
mostraram que o melhor protótipo intervalar, quando a distância L1 é usada, equivale à mediana
dos limites (inferiores e superiores) dos intervalos alocados na classe de interesse. Desta forma,
considerando todos os elementos intervalares que pertencem à classe Ck , seu protótipo pode ser
calculado a partir da Equação (2.17)
n o
j j
gk = Me γnj e ḡk = Me γ̄nj , (2.17)
¯ γn ∈Ck ¯ γn ∈Ck
n o
em que Me γnj e Me γ̄nj são, respectivamente, as medianas dos limites inferiores e
γn ∈Ck ¯ γn ∈Ck
superiores dos intervalos da j-ésima dimensão das instâncias alocadas na classe Ck .
De Carvalho, Brito e Bock (2006) apresentaram a média dos limites dos intervalos como
o melhor protótipo quando a distância L2 é utilizada em agrupamento. Assim, o protótipo é
determinado conforme a Equação (2.18)
j 1 N j
j 1 N
gk = ∑ γ 1
n k,n e ḡ k = ∑ γ̄nj 1k,n , (2.18)
¯ |Ck | n=1 ¯ |Ck | n=1
onde Me {mnj } e Me {lnj } são, respectivamente, as medianas dos centros e das metades das
γn ∈Ck γn ∈Ck
amplitudes dos intervalos da j-ésima dimensão das instâncias alocadas na classe Ck .
As distâncias adaptativas têm os mesmo protótipos obtidos pela minimização das não-
adaptativas correspondentes. As versões adaptativas das distâncias intervalares L1 , L2 e L∞
apresentam os mesmos protótipos que L1 , L2 e L∞ , respectivamente (DE CARVALHO; BRITO;
BOCK, 2006; DE CARVALHO et al., 2006; SOUZA; DE CARVALHO, 2004).
2.6. ALGORITMO 28
2.6 Algoritmo
O Algoritmo 1 apresenta um resumo dos passos a serem executados para a realização de
agrupamento por nuvens dinâmicas. Ele engloba as abordagens não-adaptativa e adaptativa para
as distâncias intervalares.
Algoritmo 1 Algoritmo de agrupamento por nuvens dinâmicas para dados intervalares utilizado
distâncias não-adaptativas e adaptativas
Entrada Conjunto Γ (como definido na seção 2.2); Número de classes K; Distância φ ;
Saída Uma partição, composta por K classes (Ck , com 1 ≤ k ≤ K), que divide o conjunto Γ;
1: Atribua, de forma aleatória, os elementos de Γ às classes;
2: Encontre os melhores protótipos para as classes, utilizando a partição atual e a distância φ ;
3: Se (a distância é adaptativa) Então
4: Calcule os pesos adaptativos usando a Equação adequada ((2.12), (2.14) ou (2.16));
5: Fim Se
6: mudou ← falso;
7: Para n=1:N Faça
8: Catual ← classe em que o elemento γn está alocado;
9: Cnovo ← classe cujo protótipo é mais próximo de γn (de acordo com a distância φ );
10: Se (Catual 6= Cnovo ) Então
11: Mude a classe de γn para Cnovo ;
12: mudou ← verdadeiro;
13: Fim Se
14: Fim Para
15: Se (mudou é igual a verdadeiro) Então
16: Volte ao passo 2;
17: Fim Se
3
Agrupamento por Nuvens Dinâmicas para
Intervalos Baseado em Mapeamento Híbrido
Fonte: do autor
Apenas a variação interna não é suficiente para se obter uma dissimilaridade entre
intervalos, uma vez que ela corresponde ao formato deles. A posição espacial é incorporada
e, neste caso, usamos os limites inferiores de todas as dimensões. Desta forma, propõe-se o
mapeamento de uma instância intervalar p-dimensional em dois pontos p-dimensionais. Um deles
está relacionado com a posição espacial dos intervalos, que corresponde aos limites inferiores
de todas as dimensões envolvidas; o outro representa a informação interna, definida pelo vetor
diagonal, como proposto na Equação (3.1).
Definição 3.1. Para uma instância intervalar p-dimensional γn (como definido pela Equação
(2.2)), o mapeamento híbrido, representado por M, que preserva sua posição espacial e sua
variação interna, gera um ponto e um vetor, ambos p-dimensionais, é descrito pela Equação
(3.2)
([γn1 , γ̄n1 ], · · · , [γnp , γ̄np ]) → {(γn1 , · · · , γnp ), (γ̆n1 , · · · , γ̆np )}. (3.2)
¯ ¯ M ¯ ¯
Como dois componentes distintos são obtidos pelo mapeamento M, um ponto e um vetor, existe
um hibridismo. A álgebra linear nos permite trabalhar com vetores como se eles fossem pontos
3.2. DISTÂNCIA LQ HÍBRIDA PARA INTERVALOS 31
{(γn1 , · · · , γnp ), (γ̆n1 , · · · , γ̆np )} → ([γn1 , γn1 + γ̆n1 ], · · · , [γnp , γnp + γ̆np ]). (3.3)
¯ ¯ M −1 ¯ ¯ ¯ ¯
Definição 3.3. A distância Lq híbrida (HLq ) entre γn e gk é definida como na Equação (3.4)
p p
j j
dHLq (γn , gk ) = ∑ |γnj − g¯ k |q + ∑ |γ̆nj − ğk |q
j=1 ¯ j=1
p
j q j q
j j
= ∑ |γn − gk | + |γ̆n − ğk | . (3.4)
j=1 ¯ ¯
Proposição 3.1. As propriedades de distância apresentadas na Seção 2.1 são satisfeitas pela
distância HLq .
Tem-se que dHLq (γn , gk ) = dLq ((γn1 , · · · , γnp ), (g1k , · · · , gkp ))+dLq ((γ̆n1 , · · · , γ̆np )), (ğ1k , · · · , ğkp )). Como
q q
¯ ¯ ¯ ¯
a distância Lq é não negativa, conclui-se que dHLq (γn , gk ) ≥ dLq ((γn1 , · · · , γnp ), (g1k , · · · , gkp )). As-
q
¯ ¯ ¯ ¯
sim, a distância HLq sempre é maior ou igual à distância Lq dos limites inferiores dos intervalos
3.2. DISTÂNCIA LQ HÍBRIDA PARA INTERVALOS 32
Definição 3.4. A distância HLq adaptativa (AHLq ) é construída substituindo a Equação (3.4)
na Equação (2.9). Sua expressão é dada pela Equação (3.5)
p
dAHLq (γn , gk ) = ∑ λkj j j
|γnj − gk |q + |γ̆nj − ğk |q .
¯
(3.5)
j=1 ¯
Os pesos da distância AHLq são calculados da Equação (2.10) com φ igual à versão unidimen-
j j j j
sional da distância HLq , ou seja, φ ([γnj , γ̄nj ], [gk , ḡk ]) = |γnj − gk |q + |γ̆nj − ğk |q . A Equação (3.6)
¯ ¯ ¯ ¯
apresenta o cálculo dos pesos adaptativos da distância AHLq
h i 1
p N h − gh |q + |γ̆ h − γ̆ h |q 1 p
∏h=1 ∑ n=1 | γ n k n k k,n
j
λk = ¯ ¯ . (3.6)
N j j q j j q
∑n=1 |γ n − g k | + |γ̆ n − ğk | 1 k,n
¯ ¯
Definição 3.5. A distância L1 híbrida (HL1 ) ocorre quando o parâmetro q da distância HLq
é igual a 1, sendo expressa pela Equação (3.7)
p
j j
j j
dHL1 (γn , gk ) = ∑ |γn − gk | + |γ̆n − ğk | . (3.7)
j=1 ¯ ¯
Definição 3.6. A distância L2 híbrida (HL2 ) é obtida a partir da distância HLq quando q = 2.
Sua formulação é apresentada na Equação (3.8)
p
j 2 j 2
j j
dHL2 (γn , gk ) = ∑ |γn − gk | + |γ̆n − ğk | . (3.8)
j=1 ¯ ¯
3.2. DISTÂNCIA LQ HÍBRIDA PARA INTERVALOS 33
p
Quando q → ∞, q Lq converge para a função máximo, que é aplicada em todas as
dimensões envolvidas. A distância L∞ se origina deste limite (ANDERSON, 1984; GAN; MA;
WU, 2007). De modo similar, isto pode ser estendido para o mapeamento para construir a
distância L∞ híbrida (HL∞ ) explicitada pela Equação (3.9).
p j p j
dHL∞ (γn , gk ) = max{|γnj − gk |} + max{|γ̆nj − ğk |}, (3.9)
j=1 ¯ ¯ j=1
As distâncias HL1 , HL2 e HL∞ têm expressões diferentes, quando comparadas com as
distâncias L1 , L2 e L∞ , propostas na literatura, apresentadas, respectivamente, nas Equações (2.6),
(2.7) e (2.8). A maior diferença é observada na distância HL∞ , em que o máximo é aplicado
de forma independente para a posição espacial e para a variação interna (considerando todas
as dimensões) e existe uma simples soma. A distância L∞ aplica a função máximo para cada
dimensão, usando os limites do intervalo, depois soma todos os resultados.
Definição 3.8. A distância HL1 adaptativa (AHL1 ) ocorre quando q = 1 na Equação (3.5).
Sua expressão é explicitada pela Equação (3.10)
p
j j j
dAHL1 (γn , gk ) = ∑ λk j j
|γn − gk | + |γ̆n − ğk | . (3.10)
j=1 ¯ ¯
Os pesos das distâncias AHL1 e AHL2 podem ser calculados da Equação (3.6), com o 1 e 2,
como os valores de q, respectivamente.
Como a distância HL∞ possui uma formulação diferente, que não corresponde àquela
proposta na literatura de distâncias adaptativas, não é possível construir uma versão adaptativa
para ela. Isto ocorre porque as dimensões de HL∞ não são separáveis, como ocorre nas outras
distâncias.
Definição 3.10. A distância HLq com pesos (WHLq ) (para q ≥ 1 e q 6= ∞) é proposta como
na Equação (3.12)
p
j t j j q j t j j q
dW HLq (γn , Gk ) = (w )
∑ k,1 n ¯ k |γ − g | + (wk,2 ) |γ̆n − ğ k | , (3.12)
j=1 ¯
j j j j
com as restrições: wk,1 + wk,2 = 1; wk,1 ≥ 0; wk,2 ≥ 0; e t ∈]1, ∞[.
Os valores dos pesos híbridos são determinados utilizando o método dos multiplicadores de
j j
Lagrange. Assim, wk,1 e wk,2 são, respectivamente, os pesos da posição espacial e da variação
interna. O parâmetro t relaciona o cálculo dos pesos sob a perspectiva de programação não-linear
e deve ser definido previamente. Com t ∈]1, ∞[, garante-se a integridade dos resultados obtidos
com os multiplicadores de Lagrange.
N N
j j j q j j j q
ξk,1 = |
∑ n ¯k
γ − g | 1k,n e ξ k,2 = |
∑ n kγ̆ − ğ | 1k,n .
n=1 ¯ n=1
j ξk,1 j ξk,2
wk,1 = 1 + j e wk,2 = 1 + j . (3.13)
ξk,2 ξk,1
3.2. DISTÂNCIA LQ HÍBRIDA PARA INTERVALOS 35
Definição 3.11. A distância HL∞ com pesos (WHL∞ ) é proposta pela Equação (3.14)
p j p j
dW HL∞ (γn , gk ) = (wk,1 )t max{|γnj − gk |} + (wk,2 )t max{|γ̆nj − ğk |}, (3.14)
j=1 ¯ ¯ j=1
Proposição 3.3. Fixando a classe Ck , os pesos do hibridismo da distância W HL∞ são calcula-
dos utilizando o método dos multiplicadores de Lagrange, com as restrições: wk,1 + wk,2 = 1;
wk,1 ≥ 0; wk,2 ≥ 0; e t ∈]1, ∞[. Sejam
N N p
p j j
ξk,1 = ∑ max{|γn − gk |} 1k,n e ξk,2 = ∑ max{|γ̆n − ğk |} 1k,n .
j j
n=1 j=1 ¯ ¯ n=1 j=1
1 1
1 ξk,2 t−1 ξk,1 t−1
Quando t → ∞, o valor de → 0. Desta forma, as expressões , ,
t −1 ξk,1 ξk,2
j ! j !
1 1
ξk,2 t−1 ξk,1 t−1 1
e tendem a 1. Em consequência, os pesos no hibridismo tendem a .
j
ξk,1
j
ξk,2 2
Assim, à medida que o valor de t aumenta o pesos tendem a ficar estabilizados, dando iguais
importâncias às posições espaciais e às variações internas dos intervalos. Por outro lado, se
1
t → 1+ (tende a 1 pela direita), o valor de → ∞ e dois resultados são possíveis. Se
t −1
j ! t−1
1
t−1
1
j j ξk,1 ξ k,1
ξk,1 > ξk,2 ou ξk,1 > ξk,2 , as expressões e j
tendem a ∞, em consequência,
ξk,2 ξ k,2
j j
wk,1 ewk,1 tendem a 1. Pelo mesmo raciocínio, wk,2 e wk,2 tendem
a 0. Os pesos no hibridismo
se comportam opostamente à medida que o valor do parâmetro t se aproxima de 1. Este último
comportamento é o mais desejável para o cálculo dos pesos uma vez que isto implica em
contribuições diferentes para cada uma das componentes. Assim, sugere-se o uso de valores
baixos para o parâmetro t.
3.2. DISTÂNCIA LQ HÍBRIDA PARA INTERVALOS 36
Proposição 3.5. Fixando a classe Ck e a dimensão j, o protótipo da distância HL2 tem uma
solução analítica. Ele é obtido pelas expressões
j 1 N j
j j 1 p
gk = ∑ γ n 1k,n e ḡk = gk + ∑ γ̆nj 1k,n , (3.17)
¯ |Ck | n=1 ¯ ¯ |Ck | j=1
j 1 N j
j j 1 N
gk= ∑ γn 1k,n e ḡk = gk + ∑ γ̆nj 1k,n ,
¯ |Ck | n=1 ¯ ¯ |Ck | n=1
3.3. AVALIAÇÃO EXPERIMENTAL 38
Algoritmo 3 Algoritmo de agrupamento por nuvens dinâmicas para dados intervalares, usando
distâncias híbridas
Entrada Conjunto Γ (como definido na seção 2.2); Número de classes: K; Distância híbrida HLq (não-
adaptativa ou adaptativa; com ou sem pesos no hibridismo); Parâmetro t para distâncias com pesos no
hibridismo;
Saída Uma partição, composta por K classes (Ck , com 1 ≤ k ≤ K), que divide o conjunto Γ;
1: Atribua, aleatoriamente, as instâncias de Γ para as classes;
2: Se (q = 1) ou (q = ∞) Então
3: Encontre os protótipos das classes de acordo com a partição atual, usando a Equação (3.16);
4: Senão Se (q = 2) Então
5: Encontre os protótipos das classes de acordo com a partição atual, usando a Equação (3.17);
6: Senão
7: Encontre os protótipos das classes de acordo com a partição atual, usando o Algoritmo 2;
8: Fim Se
9: Se (a distância tem pesos no hibridismo) Então
10: Se (q 6= ∞) Então
11: Calcule os pesos do hibridismo usando a Equação (3.13);
12: Senão
13: Calcule os pesos do hibridismo usando a Equação (3.15);
14: Fim Se
15: Senão Se (a distância é adaptativa) Então
16: Calcule os pesos adaptativos usando a Equação (3.6);
17: Fim Se
18: Para n=1:N Faça
19: Catual ← classe em que γn está alocada;
20: Cnovo ← classe cujo protótipo é o mais próximo de γn (de acordo com a distância escolhida);
21: Se (Catual 6= Cnovo ) Então
22: Aloque γn na classe Cnovo ;
23: Fim Se
24: Fim Para
25: Se (alguma classe foi alterada) Então
26: Volte ao passo 2;
27: Fim Se
1 B ∗b
em que µ(θ̂ ) = ∑ θ̂ . À medida que o valor de B cresce, a distribuição de θ̂ se aproxima
B b=1
ainda mais de uma normal com média próxima a θ e variância próxima de se ˆ 2 , ou seja, θ̂ ∼
ˆ 2 ). O intervalo de confiança padronizado para θ é calculado conforme apresentado na
N(θ , se
3.3. AVALIAÇÃO EXPERIMENTAL 40
Equação (3.20)
[θ̂ − z(1−α/2) se,
ˆ θ̂ + z(1−α/2) se]
ˆ (3.20)
em que z(1−α/2) indica o ponto que equivale ao percentil 100 · (1 − α/2) da distribuição normal
com média 0 e variância 1, N(0, 1). O valor α é o nível de significância.
Uma outra abordagem para a construção de intervalos de confiança se baseia no percentis
da distribuição bootstrap de uma estatística. Isto representa uma generalização quando se
compara com intervalos de confiança construídos pela Normal padronizada. Para isso, os
percentis da distribuição acumulada (G) formada pelas réplicas bootstrap da estatística são
utilizados. O intervalo de percentis com α% de confiança é definido pelos percentis α/2 e
(1 − α/2) de G. Por definição, G−1 (α) = θ̂ ∗(α) , assim, o intervalo de confiança a partir dos
percentis da distribuição bootstrap para θ é dada na Equação (3.21)
Q n n−1 R n Q n
∑Ri=1 ∑ j=1 2i j − 2 ∑i=1 2i ∑ j=1 2j
IRA = h i , (3.23)
1 ni Q n j −1 R ni Q n j
2 ∑R
i=1 2 + ∑ j=1 2 − n2 ∑i=1 2 ∑ j=1 2
n n(n − 1)
sendo = , ni j é o número de instâncias simultaneamente alocadas nos grupos ui e
2 2
v j , ni e n j são, respectivamente, o número de instâncias dos grupos ui e v j e n é o número de
instâncias de todo o conjunto.
Os valores do IRA variam no intervalo [−1, 1]. O valor 1 mostra que as partições U
e V são as mesmas. Valores próximos a 1 indicam uma forte concordância entre as partições
comparadas. Entretanto, valores próximos a 0, ou negativos, indicam a não concordância entre
as partições. Assim, o agrupamento apresenta um melhor desempenho à medida que o valor do
IRA aumenta.
3.3. AVALIAÇÃO EXPERIMENTAL 42
As configurações 5, 6, 7 e 8 tem classes que se interceptam. Seus centros são gerados de acordo
com os parâmetros:
A Figura 3.2 apresenta um exemplo com centros gerados a partir de classes bem separadas e
outro gerado a partir de classes que se interceptam.
3.3. AVALIAÇÃO EXPERIMENTAL 43
Figura 3.2: Centros de classes bem separadas (a) e de classes que se interceptam (b).
70
classe 1
60 classe 2
classe 3
50
40
y 30
20
10
−10
−10 0 10 20 30 40 50 60 70 80
x
(a)
70
classe 1
60 classe 2
classe 3
50
40
30
y
20
10
−10
0 10 20 30 40 50 60 70
x
(b)
Fonte: do autor
([cxi − ∆xi /2, cxi + ∆xi /2], [cyi − ∆yi /2, cyi + ∆yi /2]). (3.24)
Quatro formas para a geração dos tamanhos são consideradas. Na primeira, distribuições
uniformes iguais são usadas para todas as classes e dimensões. As distribuições uniformes
usadas para gerar os tamanhos dos intervalos para as configurações 1 e 5 são apresentadas na
Tabela 3.1.
3.3. AVALIAÇÃO EXPERIMENTAL 44
Na segunda, as distribuições uniformes são as mesmas para todas as classes e diferentes por
dimensão. A Tabela 3.2 apresenta as distribuições uniformes utilizadas pelas configurações 2 e 6.
Na terceira, as distribuições uniformes são diferentes entre as classes mas igual nas dimensões.
A Tabela 3.3 apresenta as distribuições uniformes usadas pelas configurações 3 e 7.
Na quarta, as distribuições uniformes são diferentes para as classes e dimensões. A Tabela 3.4
apresenta as distribuições uniformes que geram as configurações 4 e 8.
Figura 3.3: Dados intervalares para classes bem separadas. Configuração 1 (a). Configuração 2 (b). Configuração
3 (c). Configuração 4 (d).
70 70
60 60
50 50
40 40
30 30
y
y
20 20
10 10
0 0
−10 −10
−10 0 10 20 30 40 50 60 70 80 −10 0 10 20 30 40 50 60 70 80
x x
(a) (b)
70 70
60 60
50 50
40 40
30 30
y
20 20
10 10
0 0
−10 −10
−10 0 10 20 30 40 50 60 70 80 −10 0 10 20 30 40 50 60 70 80
x x
(c) (d)
Fonte: do autor
Na literatura de ADS são apresentados apenas dados sintéticos que simulam a mesma
variação para os tamanhos dos intervalos, considerando todas as classes e as dimensões (assim
como revela as configurações 1 e 5). Esta abordagem é muito restritiva pois não é o comporta-
mento que se verifica nos dados reais, em geral, as classes possuem comportamentos diferentes
entre si. As configurações onde os tamanhos dos intervalos de classes e dimensões são diferentes
são mais gerais (como proposto nas configurações 4 e 8).
Para cada uma das configurações, os resultados são analisados por meio de intervalos de
confiança construídos a partir de valores do IRA. Para cada configuração, foram gerados 100
conjuntos de intervalos. Escolhe-se uma distância intervalar e para cada conjunto valores usuais
de q são analisados. O agrupamento por nuvens dinâmicas foi aplicado 100 vezes e o resultado
3.3. AVALIAÇÃO EXPERIMENTAL 46
Figura 3.4: Dados intervalares para classes que se interceptam. Configuração 5 (a). Configuração 6 (b). Configu-
ração 7 (c). Configuração 8 (d).
70 70
60 60
50 50
40 40
30 30
y
y
20 20
10 10
0 0
−10 −10
−10 0 10 20 30 40 50 60 70 80 −10 0 10 20 30 40 50 60 70 80
x x
(a) (b)
70 70
60 60
50 50
40 40
30 30
y
20 20
10 10
0 0
−10 −10
−10 0 10 20 30 40 50 60 70 80 −10 0 10 20 30 40 50 60 70 80
x x
(c) (d)
Fonte: do autor
que apresentou o menor critério foi selecionado. Após isso, obtém-se 100 valores do IRA que
são utilizados na construção de um intervalo de confiança. Para isso, o algoritmo de bootstrap
foi aplicado a esses valores com B = 2.000 (número de réplicas bootstrap) e α = 5% (erro de
confiança). Para cada configuração, três gráficos são apresentados: para q = 1, q = 2 e q = ∞.
Para as distâncias com pesos no hibridismo, o parâmetro t é igual a 2.
A Figura 3.5 apresenta os intervalos de confiança para a configuração 1. Para q = 1, as
distâncias L1 , HL1 e WHL1 são estatisticamente iguais. As versões adaptativas AL1 e AHL1 ,
apresentam resultados piores e são estatisticamente iguais. Para q = 2, as distâncias adaptativas
e não-adaptativas apresentam os mesmos resultados. A distância WHL2 conduz a um resultado
melhor que L2 e AHL2 . Quando q = ∞, a distância L∞ superou as outras versões.
3.3. AVALIAÇÃO EXPERIMENTAL 47
Figura 3.5: Resultados para a configuração 1. q=1 (a). q=2 (b). q=∞ (c).
0.975 0.975
0.97 0.97
0.965 0.965
IRA
IRA
0.96 0.96
0.955 0.955
0.95 0.95
0.945 0.945
0.94 0.94
L1 AL1 HL1 AHL1 WHL1 L2 AL2 HL2 AHL2 WHL2
(a) (b)
0.975
0.97
0.965
IRA
0.96
0.955
0.95
0.945
0.94
L AL HL WHL
(c)
Fonte: do autor
3.3. AVALIAÇÃO EXPERIMENTAL 48
Figura 3.6: Resultados para a configuração 2. q=1 (a). q=2 (b). q=∞ (c).
1 1
0.9 0.9
0.8 0.8
0.7 0.7
IRA
IRA
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
L1 AL1 HL1 AHL1 WHL1 L2 AL2 HL2 AHL2 WHL2
(a) (b)
0.9
0.8
0.7
IRA
0.6
0.5
0.4
0.3
L∞ AL∞ HL∞ WHL∞
(c)
Fonte: do autor
3.3. AVALIAÇÃO EXPERIMENTAL 49
Figura 3.7: Resultados para a configuração 3. q=1 (a). q=2 (b). q=∞ (c).
1 1
0.995 0.995
0.99 0.99
0.985 0.985
0.98 0.98
IRA
IRA
0.975 0.975
0.97 0.97
0.965 0.965
0.96 0.96
0.955 0.955
0.95 0.95
L1 AL1 HL1 AHL1 WHL1 L2 AL2 HL2 AHL2 WHL2
(a) (b)
0.995
0.99
0.985
0.98
IRA
0.975
0.97
0.965
0.96
0.955
0.95
L∞ AL∞ HL∞ WHL∞
(c)
Fonte: do autor
3.3. AVALIAÇÃO EXPERIMENTAL 50
1 1
0.99 0.99
0.98 0.98
0.97 0.97
IRA
IRA
0.96 0.96
0.95 0.95
0.94 0.94
0.93 0.93
0.92 0.92
L1 AL1 HL1 AHL1 WHL1 L2 AL2 HL2 AHL2 WHL2
(a) (b)
0.99
0.98
0.97
IRA
0.96
0.95
0.94
0.93
0.92
L∞ AL∞ HL∞ WHL∞
(c)
Fonte: do autor
3.3. AVALIAÇÃO EXPERIMENTAL 51
Figura 3.9: Resultados para a configuração 5. q=1 (a). q=2 (b). q=∞ (c).
0.8 0.8
0.75 0.75
0.7 0.7
0.65 0.65
IRA
IRA
0.6 0.6
0.55 0.55
0.5 0.5
0.45 0.45
0.4 0.4
L1 AL1 HL1 AHL1 WHL1 L2 AL2 HL2 AHL2 WHL2
(a) (b)
0.8
0.75
0.7
0.65
IRA
0.6
0.55
0.5
0.45
0.4
L∞ AL∞ HL∞ WHL∞
(c)
Fonte: do autor
3.3. AVALIAÇÃO EXPERIMENTAL 52
Figura 3.10: Resultados para a configuração 6. q=1 (a). q=2 (b). q=∞ (c).
0.8 0.8
0.7 0.7
0.6 0.6
0.5 0.5
IRA
IRA
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
L1 AL1 HL1 AHL1 WHL1 L2 AL2 HL2 AHL2 WHL2
(a) (b)
0.8
0.7
0.6
0.5
IRA
0.4
0.3
0.2
0.1
0
L∞ AL∞ HL∞ WHL∞
(c)
Fonte: do autor
3.3. AVALIAÇÃO EXPERIMENTAL 53
Figura 3.11: Resultados para a configuração 7. q=1 (a). q=2 (b). q=∞ (c).
1 1
0.95 0.95
0.9 0.9
0.85 0.85
0.8 0.8
IRA
IRA
0.75 0.75
0.7 0.7
0.65 0.65
0.6 0.6
0.55 0.55
0.5 0.5
L1 AL1 HL1 AHL1 WHL1 L2 AL2 HL2 AHL2 WHL2
(a) (b)
0.95
0.9
0.85
0.8
IRA
0.75
0.7
0.65
0.6
0.55
0.5
L∞ AL∞ HL∞ WHL∞
(c)
Fonte: do autor
3.3. AVALIAÇÃO EXPERIMENTAL 54
Figura 3.12: Resultados para a configuração 8. q=1 (a). q=2 (b). q=∞ (c).
1 1
0.95 0.95
0.9 0.9
0.85 0.85
0.8 0.8
IRA
IRA
0.75 0.75
0.7 0.7
0.65 0.65
0.6 0.6
0.55 0.55
0.5 0.5
L1 AL1 HL1 AHL1 WHL1 L2 AL2 HL2 AHL2 WHL2
(a) (b)
0.95
0.9
0.85
0.8
IRA
0.75
0.7
0.65
0.6
0.55
0.5
L∞ AL∞ HL∞ WHL∞
(c)
Fonte: do autor
A Tabela 3.7 apresenta os valores do IRA para o conjunto formado pelos climas da
Europa Ocidental. As classes que compõem este conjunto são mediterrâneo e oceânico. Ele
contém 324 instâncias (SILVA FILHO; SOUZA, 2013). Este conjunto pode ser encontrado no
Anexo B.
Tabela 3.7: Valores do IRA para o conjunto dos clima da Europa Ocidental
As distâncias híbridas correspondem aos melhores índices. As distâncias HL1 , HL∞ , AHL1 ,
WHL1 e aumentaram consideravelmente, a similaridade da partição do agrupamento com a
partição real. Dentre todas elas, a distância AHL∞ apresenta o melhor resultado. As distâncias da
literatura apresentam índices muito próximos a 0. Os pesos finais, calculados na última iteração
na distância WHL1 , são apresentados na Tabela 3.8.
3.3. AVALIAÇÃO EXPERIMENTAL 57
Os pesos no hibridismo exibem as diferenças que existem no comportamento dos climas. Para a
classe mediterrâneo, a precipitação mínima tem alta importância na determinação da primavera
e do outono, enquanto que para o verão e o inverno a variação da precipitação tem maior
importância. Para a classe oceânico, a variação da precipitação tem a maior importância durante
todas as estações.
Tabela 3.9: Valores do IRA para o conjunto de reconhecimento de atividade humana por dados de aceleração
A Tabela 3.9 mostra que os melhores resultados, obtidos para este conjunto de dados, referem-se
ao uso de distâncias híbridas. As distâncias propostas na literatura possuem o IRA menor que
0.100, enquanto as híbridas possuem o IRA maior que 0.100. O melhor resultado foi obtido com
a distância W HL2 , cujos pesos são mostrados na Tabela 3.10.
classe classe
parado andando
posição variação posição variação
variável
espacial interna espacial interna
aceleração x 0.234676 0.765324 0.357068 0.642932
aceleração y 0.834825 0.165175 0.450722 0.549278
aceleração z 0.688707 0.311293 0.895602 0.104398
classe parado e classe andando e
falando com alguém falando com alguém
posição variação posição variação
variável
espacial interna espacial interna
aceleração x 0.410473 0.589527 0.383339 0.616661
aceleração y 0.815493 0.184507 0.570591 0.429409
aceleração z 0.684379 0.315621 0.487390 0.512610
os gestos (MADEO; LIMA; PERES, 2013). O conjunto é composto por 50 variáveis e 9.900
instâncias e está disponível para download na base de dados uci (https://archive.ics.
uci.edu/ml/datasets/Gesture+Phase+Segmentation) (LICHMAN, 2013). As
fases que compõem os gestos são divididas em 5 classes: descanso; brusco; retração; preparação;
e, no aguardo. Um pré-processamento foi aplicado para a redução do conjunto e geração de
variáveis intervalares, uma vez que o conjunto original não as possui. Foram escolhidas 9
variáveis para a representação das fases: posição da mão esquerda em x (lhx); posição da mão
esquerda em y (lhy); posição da mão esquerda em z (lhz); posição da mão direita em x (rhx);
posição da mão direita em y (rhy); posição da mão direita em z (rhz); posição da cabeça em x
(hx); posição da cabeça em y (hy); e, posição da cabeça em z (hz). Para cada classe foi aplicado
o agrupamento por nuvens dinâmicas, gerando 40 subclasses, utilizando-se a distância L1 para
pontos. A partir de cada subclasse foi gerada uma instância intervalar computando-se os mínimos
e os máximos de cada uma das variáveis envolvidas, como descrito na Equação (1.2). O conjunto
intervalar resultante possui 5 classes, cada uma delas com 40 instâncias, e pode ser encontrado
no Apêndice K. A Tabela 3.11 apresenta os valores do IRA para o conjunto de fases de gestos.
Para as classes descanso, brusco, retração e no aguardo, todas as variáveis envolvidas têm maior
peso na variação de suas posições. Na classe preparação, as variáveis rhy e ry apresentam maior
importância em seus valores mínimos. Como o conjunto é formado por informações sobre gestos,
é compreensível que as variações das variáveis obtenham maior importância nas variáveis.
da amêndoa e largura da amêndoa. Para cada tipo de semente foi aplicado o agrupamento
por nuvens dinâmicas, gerando 15 subclasses, utilizando-se a distância L1 para pontos. Cada
subclasse origina uma instância intervalar computando-se os mínimos e os máximos de cada
uma das variáveis envolvidas, como descrito na Equação (1.2). O conjunto intervalar resultante
possui 3 classes, cada uma delas com 15 instâncias, e pode ser encontrado no Apêndice L, e é
exibido na Figura 3.13.
4.2
3.8
largura da amêndoa
3.6
3.4
3.2
2.8
2.6
5 5.2 5.4 5.6 5.8 6 6.2 6.4 6.6 6.8
comprimento da amêndoa
Fonte: do autor
As distâncias HL2 e AHL2 obtiveram os melhores valores de ARI, sendo que HL2 obteve o
melhor resultado. Apesar do resultado, as distâncias com pesos no hibridismo não obtiveram
bons resultados. O pesos no hibridismo da distância W HL1 são apresentados na Tabela 3.15.
3.3. AVALIAÇÃO EXPERIMENTAL 62
Em todas as classes e variáveis, os pesos indicam uma maior importância para a variação do
comprimento e da largura. Entretanto, tais importâncias não são suficientes para melhorar o
resultado do agrupamento.
compõem este conjunto são apresentados no Apêndice M. A Tabela 3.16 apresenta os valores do
IRA obtidos.
Tabela 3.16: Valores do IRA para o conjunto vinhos brancos com qualidades 4, 6 e 8
Os valores de ARI indicam melhores resultados obtidos com as distâncias híbridas. Apesar da
aparente separação entre as classes escolhidas, os agrupamentos obtidos com a maior parte das
distâncias não apresentam valores de ARI altos, indicando a dificuldade de separação das classes.
Por outro lado, as distâncias com pesos no hibridismo se destacam com valores de ARI elevados,
quando comparados com os das outras distâncias. A distância com melhor valor de ARI á a
W HL1 , cujos pesos são apresentados na Tabela 3.17.
os mínimos e os máximos de cada uma das variáveis envolvidas, como descrito na Equação
(1.2). O conjunto resultante apresenta um total de 220 instâncias intervalares. As classes com
níveis de qualidade 6, 7 e 8 possuem, respectivamente, 120, 60 e 40 instâncias. Este conjunto é
apresentado no Apêndice N. A Tabela 3.18 apresenta os valores do IRA obtidos.
Tabela 3.18: Valores do IRA para o conjunto vinhos brancos com qualidades 6, 7 e 8
Os valores baixos de ARI não indicam bons resultados nem para as distâncias propostas na
literatura nem para as distâncias híbridas. Entretanto, as distâncias com pesos no hibridismo se
destacam com valores de ARI significativamente maiores. A distância com melhor valor de ARI
é a W HL2 , cujos pesos são apresentados na Tabela 3.19.
O conjunto é formado por 2 classes que apresentam níveis de qualidades bem diferentes entre si.
Entretanto, a maioria das distâncias, tanto as presentes na literatura como a maioria das híbridas
apresentam valores muito baixos do ARI, indicam uma dificuldade na separação das classes.
As distâncias híbridas com pesos no hibridismo apresentaram um comportamento diferente das
outras, indicando uma melhor separação das classes. A distância com melhor valor de ARI é a
W HL∞ , cujos pesos são apresentados na Tabela 3.21.
classe classe
nível de qualidade 4 nível de qualidade 7
posição variação posição variação
espacial interna espacial interna
0.24521 0.75479 0.191603 0.808397
Para as duas classes de vinhos, a variação máxima das variáveis é mais relevante do que o
máximo dos mínimos.
amplitudes não são significativas entre as classes, ela apresenta os piores resultados. Entretanto,
quando as diferenças nas amplitudes são significativas, elas apresenta os melhores desempenhos.
Nos casos mais restritos, quando as classes possuem as mesmas configurações para as
amplitudes dos intervalos, as distâncias híbridas apresentam os mesmos resultados daquelas
propostas na literatura. Nos casos mais gerais, quando as classes possuem configurações
diferentes para as amplitudes dos intervalos, elas têm melhores resultados.
Os conjuntos de dados reais analisados confirmam as conclusões obtidas a partir dos
dados sintéticos. Na maioria dos conjuntos as distâncias híbridas melhoram o resultado do
agrupamento. No pior caso, as distâncias híbridas apresentam um desempenho igual àquelas
propostas na literatura. Desta forma, as distâncias híbridas surgem como boas opções de medida
de dissimilaridade para dados intervalares, quando utilizadas no contexto de agrupamento por
nuvens dinâmicas.
Tabela 3.23: Resumo dos resultados de agrupamento para os dados sintéticos
distância
3.3. AVALIAÇÃO EXPERIMENTAL
configuração L1 AL1 HL1 AHL1 W HL1 L2 AL2 HL2 AHL2 W HL2 L∞ AL∞ HL∞ W HL∞
1 X X X X X X X
2 X X X X X X X X X X
3 X X X
4 X X X X X X X X
5 X X X X X X X
6 X X X X X X X X
7 X X X
8 X X X
68
69
4
Regressão Linear para Intervalos
Em virtude da natureza complexa que os dados intervalares têm, não é tão simples
construir um modelo de regressão linear que relacione variáveis desse tipo. Como os intervalos
podem ser vistos como uma agregação de pontos, as propostas que existem na literatura sugerem
a escolha de alguns deles para a construção dos modelos de regressão. Os métodos presentes na
literatura diferem quanto ao conjunto de pontos utilizados na representação dos intervalos. Um
método de regressão linear para intervalos deve oferecer, de forma simultânea, duas estimativas:
os limites inferiores e superiores dos intervalos. Além disso, as estimativas dos limites devem
manter a coerência matemática dos intervalos, em que o limite superior é maior ou igual ao
inferior.
A seguinte notação para as variáveis envolvidas na regressão é utilizada: Y é a variá-
vel resposta (dependente) intervalar com n observações. Neste caso, Y = (y1 , y2 , · · · , yn )T ,
em que yi = [yi , ȳi ] (i = 1, · · · , n). São consideradas p variáveis regressoras (independentes
¯
ou explicativas) intervalares {X1 , X2 , · · · , X p }. Cada variável regressora possui n observações
intervalares. Desta forma, X j = (x j1 , x j2 , · · · , x jn )T ( j = 1, · · · , p), em que x ji = [x ji , x̄ ji ]. São
¯
definidos, também, um vetor p-dimensional de intervalos xφ , com xφ = (xφ 1 xφ 2 · · · xφ p ) e sua
respectiva estimativa intervalar obtida através de um modelo de regressão, ŷφ = [ŷφ , ȳˆφ ]. Os
in f ¯
vetores linha (pontuais) xφ = (1 xφ 1 xφ 2 · · · xφ p ) e xφsup = (1 x̄φ 1 x̄φ 2 · · · x̄φ p ), baseados em xφ ,
¯ ¯ ¯
são usados pelos modelos para estimar ŷφ .
Este capítulo apresenta os métodos de regressão linear para dados intervalares propostos
na literatura e que não supõem distribuições para os erros. A Seção 4.1 apresenta o método do
centro (MC), que utiliza os centros dos intervalos na construção da regressão linear. A Seção 4.2
discute o método do mínimo e máximo (MinMax), que propõe o uso de dois modelos distintos
para a modelagem de ambos os limites da variável resposta. A Seção 4.3 mostra o método
do centro e da amplitude (MCA) que utiliza os centros e as amplitudes dos intervalos para a
construção de dois modelos lineares independentes. A Seção 4.4 apresenta o método do centro e
da amplitude com restrições (MCAR), que é uma extensão do MCA, mas que impõe restrições
aos coeficientes na modelagem da amplitude. A Seção 4.5 descreve o método da informação
completa (MIC), que define um produto interno para variáveis intervalares multidimensionais
4.1. MÉTODO DO CENTRO 70
e, a partir dele, utiliza todos os pontos dentro dos intervalos na construção de um modelo.
Resultados comparando os métodos da literatura são descritos no Capítulo 5, que incorpora o
método proposto por este trabalho.
in f
em que β jc ( j = 0, · · · , p) são os coeficientes da regressão. Os valores εi e εisup (i = 1, · · · , n)
são, respectivamente, os erros de estimação dos limites inferiores e superiores. Para o intervalo yi ,
in f
o erro de estimação do centro é definido por εic = (εi + εisup )/2. A estimação dos coeficientes
é feita pelo método dos mínimos quadrados, minimizando o somatório dos erros quadráticos do
centro, como especificado na Equação (4.2)
n
S = ∑ (εic )2 (4.2)
i=1
n p !2
yi + ȳi x ji + x̄ ji
=∑ ¯ − β0c − ∑ β jc ¯
i=1 2 j=1 2
!2
n p
= ∑ yci − β0c − ∑ β j xcji ,
i=1 j=1
em que yci = (yi + ȳi )/2 e xcji = (x ji + x̄ ji )/2, são, respectivamente os centros dos intervalos yi e
¯ ¯
x ji . A Equação (4.1) pode ser reescrita em um formato matricial, como mostrado na Equação
(4.3)
yc = X c β c + ε c , (4.3)
4.2. MÉTODO DO MÍNIMO E MÁXIMO 71
em que,
1 x11
c c
x21 · · · xcp1
1 x12
c c
x22 · · · xcp2
X =
c
.. .. .. . ,
. . . · · · ..
1 x1n x2n
c c
· · · xcpn
T
β c = β0c β1c · · · β pc ,
T
yc = yc1 yc2 · · · ycn e
T
ε c = ε1c ε2c · · · εnc ,
sendo que a potência T denota o operador transposto para matrizes. A solução por mínimos
quadrados (BILLARD; DIDAY, 2006; DRAPER; SMITH, 1981) é dada pela Equação (4.4)
in f in f
sendo que εi (i = 1, · · · , n) são os erros do modelo e β j ( j = 0, . . . , p) são os coeficientes. O
limite superior da resposta tem o modelo especificado na Equação (4.8)
p
ȳi = β0sup + ∑ β jsupx̄ ji + εisup, (4.8)
j=1
yin f = X in f β in f + ε in f , (4.9)
em que,
1 x11x21 · · · x p1
¯ ¯ ¯
1 x12x22 · · · x p2
X =
in f
.. ¯. ¯. ¯ ,
. .. .. · · · ...
1 x1n x2n · · · x pn
¯ ¯ ¯
T
in f in f in f
β = β0 β1 · · · β pin f ,
T
yin f = y1 y2 · · · yn e
¯ ¯ ¯ T
in f in f in f in f
ε = ε1 ε2 · · · εn .
A Equação (4.8) também pode ser expressa em um formato matricial, que segue na Equação
(4.11)
ysup = X sup β sup + ε sup , (4.11)
em que,
1 x̄11 x̄21 · · · x̄ p1
1 x̄12 x̄22 · · · x̄ p2
X sup
=
.. .. .. . ,
. . . · · · ..
1 x̄1n x̄2n · · · x̄ pn
T
β sup = β0sup β1sup · · · β psup ,
T
ysup = ȳ1 ȳ2 · · · ȳn e
T
ε sup = ε1sup ε2sup · · · εnsup ,
4.3. MÉTODO DO CENTRO E DA AMPLITUDE 73
O uso de dois modelos diferentes para a predição dos limites da resposta dá liberdade para
o comportamento dos limites e a interpretação do modelo se torna intuitiva. Entretanto, MinMax
não garante a coerência matemática na predição dos limites intervalares (WANG; GUAN; WU,
2012). Além disso, a regressão é prejudicada se não existe uma dependência entre os respectivos
limites da resposta e dos regressores.
em que,
1 x̆11 x̆21 · · · x̆ p1
1 x̆12 x̆22 · · · x̆ p2
X amp
=
.. .. .. . ,
(4.17)
. . . · · · ..
1 x̆1n x̆2n · · · x̆ pn
T
β amp = β0amp β1amp · · · β pamp ,
T
yamp = y̆1 y̆2 · · · y̆n e
T
ε amp = ε1amp ε2amp · · · εnamp .
A estimativa dos coeficientes, denotada por β̂ amp , é calculada pelo método dos mínimos quadra-
dos, como dado na Equação (4.18)
Para a predição usando xφ é necessário definir os vetores linha xφc = (1 xφc 1 xφc 2 · · · xφc p )
e xφamp = (1 x̆φ 1 x̆φ 2 · · · x̆φ p ), com xφc j = (x̄φ j + xφ j )/2 e x̆φ j = x̄φ j − xφ j . O valor estimado do
¯ ¯
centro é encontrado usando βˆc (como definido na Equação (4.4)), de acordo com a Equação
(4.19)
ŷcφ = xφc βˆc , (4.19)
y̆ˆφ
yˆφ = ŷcφ − , (4.21)
¯ 2
y̆ˆφ
ȳˆφ = ŷcφ +
. (4.22)
2
O MCA representa um avanço com relação ao MC. Ele pode melhorar o desempenho
para a predição dos intervalos quando existe uma dependência linear entre os amplitudes dos
regressores e da resposta. A coerência matemática na predição dos limites não é garantida por
este método (WANG; GUAN; WU, 2012).
4.4. MÉTODO DO CENTRO E DA AMPLITUDE COM RESTRIÇÕES 75
A solução da Equação (4.23) não pode ser estimada diretamente por causa das restrições
impostas aos coeficientes no modelo da amplitude. Lima Neto e De Carvalho (2010) sugerem
o uso de um algoritmo iterativo, desenvolvido por Lawson e Hanson (1974), que estima os
parâmetros de um modelo de regressão que inclui restrições positivas para os coeficientes.
O Algoritmo 5 (LIMA NETO; DE CARVALHO, 2010) apresenta o processo iterativo para
determinar os coeficientes do modelo da amplitude.
4.4. MÉTODO DO CENTRO E DA AMPLITUDE COM RESTRIÇÕES 76
Calcule o vetor z como a solução para o problema de mínimos quadrados Xp z = yamp . Apenas os
componentes z j , j ∈ P, são calculados. Defina z j ← 0, para j ∈ Z .
11: Se z j > 0, ∀ j ∈ P Então
12: β amp ← z;
13: Vá para o passo 4;
14: Fim Se n o
amp
15: Encontre o índice k ∈ P, tal que βka /(βka − zk ) = min β j /(β jamp − z j ) : z j ≤ 0, j ∈ P ;
amp amp
16: α ← βk /(βk − zk );
17: β amp ← β amp + α (z − β amp );
18: Volte ao passo 10;
19: O cálculo está completo;
Dados os coeficientes β c e β amp , a predição é feita por meio das Equações (4.19), (4.20), (4.21)
e (4.22).
O MCAR garante a coerência matemática dos intervalos preditos, mas os estimadores
dos coeficientes podem ser viesados (WANG; GUAN; WU, 2012), implicando em um ajuste que
não corresponde ao real relacionamento linear que existe entre as variáveis envolvidas. O método
não estima os coeficientes da amplitude diretamente, como observado nos outros métodos. Além
disso, se não existe uma dependência linear entre as amplitudes das variáveis, não existe uma
melhora na qualidade da predição.
4.5. MÉTODO DA INFORMAÇÃO COMPLETA 77
com (
0, se β j < 0,
τj = (4.27)
1, caso contrário.
De acordo com Wang, Guan e Wu (2012), a solução por mínimos quadrados da Equação (4.24)
gera o sistema linear apresentado na Equação (4.28),
h1n , 1n i h1n , X1 i · · · h1n , X p i h1n ,Y i
hX1 , 1n i hX1 , X1 i · · · hX1 , X p i β0 hX1 ,Y i
.. .. .. .. ..
. . . .
β1
= .
.. (4.28)
hXk , 1n i hXk , X1 i · · · hXk , X p i
.
hX ,Y i
k
.. .. .. .. ..
. . . . βp .
hX p , 1n i hX p , X1 i · · · hX p , X p i hX p ,Y i
4.5. MÉTODO DA INFORMAÇÃO COMPLETA 78
O sistema linear especificado na Equação (4.28) pode ser escrito em um formato matricial,
como descrito na Equação (4.30)
Aβ = b, (4.30)
cuja solução é determinada diretamente através da inversa da matriz A, denotada por A−1 , de
acordo com a Equação (4.31)
β = A−1 b. (4.31)
O MIC garante a coerência matemática dos limites dos intervalos preditos através da
combinação linear de Moore (que usa a função indicadora τ). Em resumo, o modelo constrói
dois modelos distintos para predição dos limites. Em cada um desses modelos, existe uma
combinação linear de alterações entre os limites inferiores e superiores dos intervalos regressores
(o que depende do sinal de β j ). Isto representa um avanço em relação aos outros métodos, uma
vez que não fixa os pontos nos regressores utilizados para a predição.
79
5
Regressão Linear com Parametrização
Este capítulo descreve o método dos intervalos parametrizados (MIP), que se baseia no
método dos mínimos quadrados para estimação dos coeficientes da regressão e não considera um
comportamento probabilístico para os erros. Dois modelos independentes são propostos, um para
cada limite da resposta. Nos dois modelos, são utilizados os limites inferiores e superiores das
variáveis regressoras. Com o uso da equação paramétrica da reta, demonstra-se que os modelos
determinam, automaticamente, os pontos nos regressores que oferecem o melhor ajuste na
regressão. Antes da determinação dos modelos, um critério é utilizado para verificar a coerência
matemática da predição. Se o critério indicar que a coerência falha, propõe-se a aplicação de
uma transformação para intervalos sobre a variável resposta.
Este capítulo foi dividido em seções que exploram os fundamentos necessários para a
elaboração do método proposto. A Seção 5.1 propõe a reapresentação paramétrica para intervalos.
A Seção 5.2 especifica os modelos utilizados na predição dos limites da variável resposta. A
Seção 5.3 discute análise da coerência matemática para os intervalos preditos e propõe algumas
transformações para intervalos com o objetivo de manter tal coerência. A Seção 5.4 apresenta a
comparação do método proposto em relação àqueles existentes na literatura através da predição
da variável resposta para dados sintéticos e reais.
q(λ ) = γ (1 − λ ) + γ̄ λ , (5.1)
¯
com 0 ≤ λ ≤ 1 (LEITHOLD, 1986; MCCREA, 2012). Fixando um valor para λ , um intervalo
se reduz a um ponto. Os limites do intervalo são obtidos com λ = 0 e λ = 1, tais que, q(0) = γ
¯
e q(1) = γ̄. O centro do intervalo é obtido quando λ = 0.5.
5.2. ESPECIFICAÇÃO DOS MODELOS 80
q ji = x ji (1 − λ j ) + x̄ ji λ j . (5.2)
¯
in f in f
em que β j ( j = 0, · · · , p) são os coeficientes desconhecidos do modelo e εi (i = 1, · · · , n) são
os erros. Substituindo a Equação (5.2) na Equação (5.3), obtém-se a Equação (5.4)
p
in f in f in f
yi = β0 + ∑ β j x ji (1 − λ j ) + x̄ ji λ j + εi . (5.4)
¯ j=1 ¯
in f in f
Suponha os novos coeficientes α j e ω j , como definidos na Equação (5.6)
α in f = β in f (1 − λ )
j j j
(5.6)
ω in f = β in f λ .
j j j
que pode ser escrita em um formato matricial, como dado na Equação (5.8)
em que,
1
x11 x̄11 x21 x̄21 · · · x p1 x̄ p1
¯ ¯ ¯
1
x12 x̄12 x22 x̄22 · · · x p2 x̄ p2
X =
lim
¯.
.. .. ¯ .. .. ¯. ..
,
..
. . . . · · · .. .
1 x1n x̄1n x2n x̄2n · · · x pn x̄ pn
¯ ¯ ¯ T
in f in f in f in f in f in f
β = β0 α1 ω1 α2 ω2 · · · α pin f ω pin f ,
T
yin f = y1 y2 · · · yn e
¯ ¯ ¯ T
ε in f = ε1in f ε2in f · · · εnin f .
A soma dos quadrados dos erros (MONTGOMERY; PECK; VINING, 2001) é dada na Equação
(5.9)
n
= ∑ (εi )2
in f
S in f
(5.9)
i=1
in f T in f
= (ε ) ε
= (yin f − X lim β in f )T (yin f − X lim β in f )
= (yin f )T yin f − 2(β in f )T (X lim )T yin f + (β in f )T (X lim )T X lim β in f .
Busca-se a estimativa de β in f que minimiza Sin f . De acordo com o método dos mínimos
quadrados, esta estimativa ocorre quando a primeira derivada de Sin f com relação a β in f é igual
a 0 e a segunda derivada é positiva definida (DRAPER; SMITH, 1981; MONTGOMERY; PECK;
VINING, 2001; SEBER, 1977). Neste sentido, derivando Sin f com relação a β in f e igualando a
0, obtém-se a Equação (5.10)
∂ Sin f
= −2(X lim )T yin f + 2(X lim )T X lim β in f = 0. (5.10)
∂ β in f
Se a matriz (X lim )T X lim admitir inversa, o valor estimado de β in f é determinado pela Equação
(5.12)
β in f = ((X lim )T X lim )−1 (X lim )T yin f . (5.12)
I. M M + M = M,
II. M + M M + = M + ,
III. (M M + )T = M M + ,
IV. (M + M)T = M + M.
em que U e V são matrizes ortogonais e Σ é uma matriz diagonal que contém os valores singulares
de ((X lim )T X lim ). Com a decomposição SVD, a pseudo-inversa de ((X lim )T X lim ) é dada pela
Equação (5.14)
((X lim )T X lim )+ = V Σ+ U, (5.14)
em que σii+ e σii são, respectivamente, os elementos presentes na digonal da i-ésima linha das
matrizes Σ+ e Σ (MEYER, 2000). Se a matriz ((X lim )T X lim ) é invertível, todos os valores
singulares são não-nulos e, neste caso, ((X lim )T X lim )+ = ((X lim )T X lim )−1 .
em que ((X lim )T X lim )+ é a pseudo-inversa de ((X lim )T X lim )+ , calculada pela Equação (5.14).
A implementação da decomposição SVD está disponível em várias plataformas de software. Nas
linguagens C e C + + é possível utilizar a biblioteca lapack ( http://www.netlib.org/
lapack/). Na linguagem R, muito comum para a modelagem de regressão, existe também um
5.2. ESPECIFICAÇÃO DOS MODELOS 83
em que,
1
x11 x̄11 x21 x̄21 · · · x p1 x̄ p1
¯ ¯ ¯
1
x 12 x̄12 x 22 x̄22 · · · x p2 x̄ p2
X lim =
¯.
.. . ¯. . ¯. .. ,
... .. .. .. · · · .. .
1 x1n x̄1n x2n x̄2n · · · x pn x̄ pn
¯ ¯ ¯ T
sup sup sup sup sup sup
β = β0 α1 ω1 α2 ω2 ··· α psup ω psup ,
T
ysup = ȳ1 ȳ2 · · · ȳn e
T
sup sup sup sup
ε = ε1 ε2 · · · εn .
A solução pelo método dos mínimos quadrados da Equação (5.19) é obtida seguindo-se os
mesmos cálculos das Equações (5.9), (5.10) e (5.16). Assim, se ((X lim )T X lim ) admitir inversa, a
estimativa pelo método dos mínimos quadrados da Equação (5.19) obtém-se a Equação (5.20)
5.3. ANÁLISE DA COERÊNCIA MATEMÁTICA 84
Por outro lado, se ((X lim )T X lim ) não admite inversa, a solução é dada pela Equação (5.21)
em que ((X lim )T X lim )+ é a pseudo-inversa da matriz ((X lim )T X lim ), calculada pela Equação
(5.14).
Apesar de se usar o mesmo modelo para modelar os dois limites da variável resposta, os
valores dos coeficientes não são, necessariamente, os mesmos. Existe apenas um único caso em
que eles são iguais: quando todos os limites inferiores das amostras são iguais a seus respectivos
limites superiores (quando a variável resposta converge para pontos).
em que κ = (κ1 ) e κ1 ∈ R.
Para o intervalo γ = [γ, γ̄], a transformação de potência é dada pela Equação (5.29)
¯
h κ1 i
2 ¯γ − 1 − ¯γ
κ 1
2 γ̄ κ1 − (1 − γ̄)κ1
, se κ1 6= 0,
h κ1 i, κ1 + (1 − γ̄)κ1
κ1 γ + 1 − γ
κ 1 κ1 γ̄
γκ = " ! ¯ (5.29)
¯ #
γ γ̄
log 1 −
¯
γ
, log
1 − γ̄
, se κ1 = 0,
¯
em que κ = (κ1 ) e κ1 ∈ R. Esta transformação é indicada para variáveis intervalares que
representam proporções.
5.3. ANÁLISE DA COERÊNCIA MATEMÁTICA 87
A Equação (5.32) apresenta a estimativa para o limite superior para as amostras da variável
resposta,
em que H é a mesma matriz de projeção utilizada na predição dos limites inferiores das amostras,
definida na Equação (5.31). Nota-se que mesmo com estimativas diferentes para os coeficientes
dos modelos, a mesma matriz de projeção H é obtida.
As amplitudes das amostras são descritas pela Equação (5.33)
As amplitudes das estimativas das amostras são calculadas através da Equação (5.34)
em que ŷ amp e yamp são vetores de dimensão n, tais que ŷ amp = (y̆ˆ1 , y̆ˆ2 , · · · , y̆ˆn )T e yamp =
(y̆1 , y̆2 , · · · , y̆n ), com y̆ˆi = ȳˆi − yˆi e y̆i = ȳi − yi , para i = 1, · · · , n. Calculando a diferença ŷ sup − ŷ in f ,
¯ ¯
obtém-se a Equação (5.35)
Sabe-se que, pela definição intervalar, y̆i ≥ 0, ∀i. A partir da Equação (5.35), obtém-se a Equação
5.3. ANÁLISE DA COERÊNCIA MATEMÁTICA 88
(5.36)
n
y̆ˆi = ∑ hi j y̆ j , (5.36)
j=1
em que hi j é o valor da i-ésima linha e j-ésima coluna da matriz H. Para a obtenção da coerência
matemática na estimação das amostras, o método deve garantir que y̆ˆi ≥ 0, ∀i. Como os valores y̆i
( j = i, · · · , n) são positivos, o comportamento do sinal da amplitude dessas estimativas depende
das linhas da matriz H. De acordo com Rencher e Schaalje (2008), 0 ≤ hii ≤ 1 e −0.5 ≤ hi j ≤ 0.5,
para i = 1, . . . , n e j = 1, · · · , n. Como os valores de hi j (quando i 6= j) podem ser negativos, a
Equação (5.36) revela que não existe garantia de que y̆ˆi ≥ 0, para algum i. Propõe-se o cálculo
ˆ como descrito na Equação (5.35), antes da realização da regressão. Se todos os valores
de y̆,
obtidos são positivos, a coerência matemática é garantida. Entretanto, se um único valor for
negativo, deve ser aplicada na variável resposta uma transformação para intervalos, como descrito
na Equação (5.25). Os parâmetros da transformação devem ser escolhidos de tal forma que a
coerência seja garantida.
k
xτ = ∑ ci Xzlim
i
, (5.37)
i=1
k
em que ci (i = 1, · · · , k) são constantes, com 0 ≤ ci ≤ 1 e ∑ ci = 1 (GOODRICH; ALBRECHT;
i=1
TISCHER, 2009). A estimativa para o limite inferior da resposta (yˆτ ) para xτ é calculada de
¯
acordo com a Equação (5.38)
5.3. ANÁLISE DA COERÊNCIA MATEMÁTICA 89
1.5
0.5
x2
−0.5
−1
−1.5
−3 −2 −1 0 1 2 3
x1
Fonte: do autor
yˆτ = xτ β in f
¯ k
= ∑ ci Xzlim
i
((X lim )T X lim )−1 (X lim )T yin f
i=1
k n
= ∑ ci ∑ hzi j y j . (5.38)
i=1 j=1 ¯
ȳˆτ = xτ β U
k
= ∑ ci Xzlim
i
((X lim )T X lim )−1 (X lim )T ysup
i=1
k n
= ∑ ci ∑ hzi j ȳ j . (5.39)
i=1 j=1
adequada, os valores de y̆ˆi , também, são não-negativos, conclui-se que a amplitude da resposta
estimada para xτ é não-negativa. Este fato confirma que o MIP garante a coerência matemática
para a predição baseada em pontos que se encontram dentro do fecho convexo da regressão.
O mesmo raciocínio é aplicado quando a pseudo-inversa é utilizada para a estimação dos
coeficientes de regressão.
1 n
MMREE = ∑ MREEi (5.42)
n i=1
( )
ˆ ˆ
1 − ȳi − ȳi
n y y
i
= ∑ ¯ ¯ i + .
2n i=1 yˆi ȳˆi
¯
Quanto mais próximos de 0 são os valores de MREE e MMREE, melhor é a adequação das
estimações aos valores das amostras (FOSS et al., 2003).
5.4. AVALIAÇÃO EXPERIMENTAL 91
para i = 1, · · · , 400.
A configuração 1 para a dependência entre as variáveis envolve a modelagem pela
abordagem centro e amplitude, de acordo com os modelos apresentados na Equação (5.44)
(
cyi = β0 + β1 cxi + εic ,
(5.44)
δyi = β2 + β3 δxi + εiδ ,
em que β0 , β1 , β2 , β3 , εi , qxi e rxi são gerados aleatoriamente. β0 segue uma distribuição uniforme
no intervalo [−67.5, −62.5] (Un(−67.5, −62.5)); β1 e β3 seguem distribuições uniformes no
intervalo [−5, 5] (Un(−5, 5)); β2 segue uma distribuição uniforme no intervalo [62.5, 67.5]
(Un(62.5, 67.5)); εi segue uma distribuição uniforme com média 0 e variância 1 (N(0, 1));
qxi = (1 − λ p ) xi + λ p x̄i e rxi = (1 − λq ) xi + λq x̄i , para i = 1, . . . , 400, em que λ p e λq são
¯ ¯
aleatoriamente gerados a partir de distribuições uniformes no intervalo [0, 1] (Un(0, 1)). A
5.4. AVALIAÇÃO EXPERIMENTAL 92
30
20
10
0
y
−10
−20
−30
−15 −10 −5 0 5 10 15
x
Fonte: do autor
150
100
50
y
−50
−100
−15 −10 −5 0 5 10 15
x
Fonte: do autor
Dada uma amostra para o regressor, são realizadas 100 iterações, cada uma com amostras
diferentes para a variável resposta, gerada através das configurações 1 ou 2. Para estimar os
coeficientes, são escolhidos, aleatoriamente, 300 pares de intervalos. Os outros 100 valores
são usados para calcular o índice MMREE. Depois, obtém-se a média dos MMREE obtidos
nas 100 iterações. Novamente outras amostras para o regressor são geradas, sendo que este
processo se repete 100 vezes, até se obter 100 médias de MMREE. Um intervalo de confiança é
5.4. AVALIAÇÃO EXPERIMENTAL 93
construído baseado nessas 100 médias, usando o algoritmo bootstrap com α = 5% e B = 2000.
O Algoritmo 6 apresenta os passos para a geração dos dados sintéticos e a construção do intervalo
de confiança para o método de regressão linear desejado.
Algoritmo 6 Geração dos dados sintéticos e retorna o intervalo de confiança relativo ao método
de regressão linear escolhido
Entrada Método de regressão linear intervalar; Configuração para ageração da variável resposta;
Saída Intervalo de confiança para o método de regressão com erro de 5%;
1: Para i=1:100 Faça
2: Gere 400 amostras para a variável regressora (xi ), como mostrado na Equação (5.43);
3: Para j=1:100 Faça
4: Baseado na configuração 1 ou 2, gere as amostras da resposta (yi ), usando xi ;
5: Escolha, aleatoriamente, 300 pares (xi , yi ) e construa o modelo linear;
6: Calcule MMREE j usando o modelo construído e os outros 100 pares (xi , yi ), conforme descrito
na Equação (5.42);
7: Fim Para
8: mi ← média do conjunto {MMER1 , MMER2 , · · · , MMER100 };
9: Fim Para
10: Determine o intervalo de confiança com os parâmetros Φ = {m1 , m2 , · · · , m100 }, B = 2000 e α = 0.05,
usando o Algoritmo 4.
Pela Tabela 5.1, notamos que os métodos MC, MinMax e MIC apresentaram os piores ajustes.
Mas, como esperado, os métodos MCA e MCAR tiveram melhores ajustes porque a configuração
1 tem dependências lineares entre os centros e as amplitudes entre as variáveis regressoras e
a resposta. Os intervalos dos métodos MIP, MCA e MCAR se interceptam, indicando que os
ajustes deles são estatisticamente iguais, com um erro de 5%. Assim, o MIP é capaz de construir
modelos de regressão linear com bons ajustes quando as variáveis possuem dependências entre
seus centros e suas amplitudes.
5.4. AVALIAÇÃO EXPERIMENTAL 94
Para esta configuração mais geral, o MC e o MIC apresentaram os piores ajustes. O MCA e o
MCAR apresentaram desempenhos semelhantes e o MinMax obteve um ajuste melhor que eles.
Por outro lado, o MIP tem seu intervalo de confiança, significativamente muito mais próximo de
0, exibindo o melhor ajuste para este tipo de configuração.
260
240
220
200
colesterol
180
160
140
120
100
10 20 30 40 50 60 70 80 90 100
idade
Fonte: do autor
A análise da estimação das amostras da resposta, descrita na Seção 5.3, mostra que nenhu-
ma transformação é necessária para garantir a coerência matemática. A Tabela 5.3 apresenta os
intervalos de confiança para o MREE.
MREE
intervalo de confiança
método média
(5% de erro)
MC 0.259 [0.177, 0.408]
MinMax 0.204 [0.094, 0.387]
MCA 0.250 [0.102, 0.499]
MCAR 0.291 [0.240, 0.358]
MIC 0.226 [0.206, 0.241]
MIP 0.066 [0.048, 0.083]
Os intervalos de confiança da Tabela 5.3 confirmam a capacidade de ajuste dos modelos propostos
pelo MIP. Se a comparação se restringir aos métodos que garantem a coerência matemática
(MCAR, MIC e MIP), verifica-se que o ajuste do MIP obteve um melhor ajuste.
5.4. AVALIAÇÃO EXPERIMENTAL 96
20
largura do pı́l eo
15
10
0
5
15
4
3 10
2
5
largura da estipe 1 comprimento da estipe
Fonte: do autor
A análise da amplitude estimada, como apresentada na Seção 5.3, revela que nenhuma
transformação precisa ser aplicada a resposta para garantir a coerência matemática. A Tabela 5.4
apresenta os intervalos de confiança para o MREE.
5.4. AVALIAÇÃO EXPERIMENTAL 97
MREE
intervalo de confiança
método média
(5% de erro)
MC 0.283 [0.202, 0.391]
MinMax 0.281 [0.094, 0.387]
MCA 0.290 [0.207, 0.396]
MCAR 0.394 [0.321, 0.474]
MIC 0.302 [0.242, 0.368]
MIP 0.283 [0.208, 0.390]
5
x 10
4.5
3.5
3
preço
2.5
1.5
0.5
0
350
6000
300
5000
250 4000
3000
200 2000
1000
cilindrada do motor 150 0
velocidade máxima
Fonte: do autor
MRE
Intervalo de confiança
método média
(5% de erro)
MC 4.512 [0.353, 12.570]
MinMax 0.548 [0.290, 0.906]
MCA 1.656 [0.339, 4.181]
MCAR 1.222 [0.802, 1.744]
MIC 1.421 [0.340, 3.016]
MIP 0.727 [0.584, 0.880]
Os intervalos de confiança da Tabela 5.5 mostram que a maioria dos métodos têm o mesmo
ajuste. Com exceção de MCAR e MIP, todos os métodos apresentam intervalos de confiança
com amplitudes grandes, indicando uma instabilidade no cálculo do MREE. Esta instabilidade
pode estar relacionada com a existência de outliers neste conjunto (FAGUNDES; SOUZA;
CYSNEIROS, 2014). A estabilidade do MIP é a maior de todas, em virtude da menor amplitude
5.4. AVALIAÇÃO EXPERIMENTAL 99
do intervalo de confiança.
O conjunto basquete (WANG; GUAN; WU, 2012) é formado por variáveis intervalares
que condensam as estatísticas de desempenho de jogadores de basquete. As variáveis são:
número de pontos por minuto (Y ), número auxílios por minuto dados a outro jogador que fez um
ponto (X1 ) e tempo jogado (X2 ). O conjunto original é formado por dados de 96 jogadores. Os
intervalos são gerados para idades específicas dos jogadores: menor ou igual a 23 anos, para
cada idade entre 24 e 34 anos e maior ou igual a 35 anos. Desta forma, um total de 13 intervalos
para cada uma das variáveis são obtidos. Este conjunto intervalar pode ser encontrado no Anexo
F e é apresentado na Figura 5.7.
0.8
0.7
pontos por minuto
0.6
0.5
0.4
0.3
0.2
40
35
30 0.3
25 0.25
0.2
20
0.15
15
tempo jogado 0.1 número de auxı́lios por minuto
0.05
Fonte: do autor
MRE
Intervalo de confiança
método média
(5% de erro)
MC 0.192 [0.132, 0.270]
MinMax 0.198 [0.119, 0.267]
MCA 0.189 [0.131, 0.272]
MCAR 0.188 [0.126, 0.268]
MIC 0.229 [0.183, 0.272]
MIP 0.260 [0.117, 0.511]
A interseção dos intervalos de confiança informa que todos os métodos têm o mesmo desempenho
a 95% de confiança. Os métodos com os menores limites nos intervalos de confiança, e que
garantem a coerência na predição, são o MCAR e o MIP.
Para a comparação dos valores estimados com os outros métodos, aplica-se a transformação
inversa, dada pela Equação (5.48), nos intervalos estimados pelo MIP,
ˆ log(1 − 0.07γ̄ˆ)
log(1 − 0.07γ)
T −1 ˆ γ̄ˆ]) =
([γ, ¯ , , (5.48)
¯ −0.07 −0.07
em que log(·) representa o logaritmo natural. A Tabela 5.7 apresenta os intervalos de confiança
para o MREE.
5.4. AVALIAÇÃO EXPERIMENTAL 101
MRE
Intervalo de confiança
método média
(5% de erro)
MC 0.646 [0.363, 0.993]
MinMax 0.781 [0.367, 1.353]
MCA 0.791 [0.394, 1.291]
MCAR 8.990 [2.165, 18.884]
MIC 4.620 [0.402, 13.543]
MIP 0.980 [0.259, 2.372]
O MCAR apresentou o pior ajuste para este conjunto, destacado ainda pela alta amplitude de
seu intervalo de confiança. Todos os outros métodos têm interseção entre si. Conclui-se então
que são estatisticamente iguais com 95% de confiança. Mesmo com um limite inferior baixo de
confiança, o MIC também apresenta uma alta amplitude indicando muita variação na qualidade
do ajuste. O MIP apresenta o menor limite inferior no intervalo de confiança e a baixa amplitude
do seu intervalo, quando comparada com as amplitudes dos métodos que garantem a coerência
matemática, indicando uma maior estabilidade na qualidade do ajuste.
95
90
85
80
peso
75
70
65
60
35
30 190
25 180
20 170
idade
altura
Fonte: do autor
MRE
Intervalo de confiança
método média
(5% de erro)
MC 0.113 [0.103, 0.126]
MinMax 0.028 [0.021, 0.036]
MCA 0.026 [0.018, 0.034]
MCAR 0.026 [0.019, 0.035]
MIC 0.141 [0.130, 0.152]
MIP 0.028 [0.020, 0.037]
O MIC apresentou o pior ajuste para o conjunto futebol. Todos os ajustes dos outros métodos são
5.4. AVALIAÇÃO EXPERIMENTAL 103
estatisticamente iguais, com 95% de confiança. Dentre os que garantem a coerência matemática,
os intervalos do MIP e do MCAR são muito semelhantes, indicando o mesmo desempenho para
o uso de ambos.
130
120
110
100
90
taxa de pulso
80
70
60
50
40
30
140
120 250
100
200
80
150
60
100
pressão diastólica 40 pressãp sistólica
Fonte: do autor
Pela análise da amplitude das estimativas da variável resposta, verificou-se que nenhuma
transformação é necessária para garantir a coerência matemática do MIP. A Tabela 5.9 apresenta
os intervalos de confiança para o MREE.
5.4. AVALIAÇÃO EXPERIMENTAL 104
MRE
Intervalo de confiança
método média
(5% de erro)
MC 0.174 [0.151, 0.197]
MinMax 0.148 [0.126, 0.172]
MCA 0.154 [0.133, 0.178]
MCAR 0.153 [0.131, 0.176]
MIC 0.260 [0.235, 0.284]
MIP 0.151 [0.127, 0.175]
O MIC apresentou o pior ajuste para o conjunto cardiologia. Como se verifica uma intersecção
dos intervalos de confiança dos outros métodos, conclui-se que eles obtiveram ajustes semelhantes
com 95% de confiança.
MRE
Intervalo de confiança
método média
(5% de erro)
MC 0.049 [0.039, 0.059]
MinMax 0.046 [0.037, 0.056]
MCA 0.048 [0.038, 0.056]
MCAR 3.998 [2.125, 7.011]
MIC 0.132 [0.108, 0.156]
MIP 0.050 [0.040, 0.060]
Os melhores ajustes para os modelos lineares ocorreram para o MIP e para os métodos que não
garantem a coerência matemática da predição, inclusive são estatisticamente iguais. O MCAR e
5.4. AVALIAÇÃO EXPERIMENTAL 105
o MIC obtiveram os piores ajustes. Dentre os métodos que garantem a coerência matemática, o
MIP se destaca pelo bom ajuste obtido.
6
Conclusão e Trabalhos Futuros
Este trabalho propôs a utilização de duas novas representações para dados do tipo
intervalo. Estas representações permitiram a criação de dois novos métodos para análise intervalar.
Um dos métodos propostos está relacionado com o agrupamento de instâncias intervalares por
nuvens dinâmicas. O outro método corresponde a criação de uma nova metodologia para a
construção de regressão linear que relaciona variáveis intervalares.
Para o agrupamento, foi proposto um mapeamento de instâncias intervalares para pontos
que preserva características inerentes a intervalos: a posição espacial e a variação interna. Este
mapeamento é invertível, assim, é possível recuperar os intervalos originais que foram mapeados.
Esta abordagem difere do que existe na literatura uma vez que, nas abordagens existentes, apenas
a posição espacial é considerada. Novas distâncias para intervalos foram criadas baseando-se
no mapeamento proposto e na distância Lq para pontos. Estas novas distâncias são dadas pelas
expressões contidas nas Equações (3.4), (3.5), (3.7), (3.8), (3.9), (3.10), (3.11), (3.12) e (3.14).
As novas distâncias criadas foram denominadas híbridas uma vez que utilizam dois tipos
diferentes de informações, provenientes do mapeamento: pontos e vetores. A nova distância
híbrida Lq para intervalos provém da combinação de duas distâncias Lq , uma aplicada à posição
espacial e a outra aplicada à variação interna. As distâncias híbridas criadas foram estendidas
para versões com pesos por classes e dimensão, utilizando o paradigma adaptativo, criou-se as
distâncias híbridas adaptativas. Elas permitem a obtenção de grupos com formatos mais variados
e com diferentes tamanhos na configuração final do agrupamento. Também, foi proposta uma
nova abordagem para a incorporação de pesos nas distâncias híbridas, e que não se verifica na
literatura. Os pesos ponderam a contribuição de cada um dos termos da combinação híbrida,
considerando cada classe e dimensão.
Dados sintéticos foram utilizados para a comparação de desempenho no agrupamento
por nuvens dinâmicas. A comparação foi realizada entre distâncias presentes na literatura
e aquelas que foram propostas por este trabalho. Quando o mesmo comportamento para a
amplitude dos intervalos foi considerado, as distâncias híbridas se comportaram estatisticamente
iguais àquelas propostas na literatura. Entretanto, quando os grupos apresentam configurações
diferentes para as amplitudes, que é um caso mais geral, as distâncias híbridas proporcionam
107
cálculo dos coeficientes, que não é transparente para quem faz a modelagem, e o MIC utiliza
cálculos intermediários através de um produto interno.
A avaliação experimental demonstrou as vantagens de utilização do método com interva-
los parametrizados. Quando ele não apresenta o melhor ajuste, ele é igual a um dos modelos
propostos na literatura. Os experimentos realizados com os dados sintéticos e reais apresentam o
bom desempenho no ajuste dos modelos lineares quando o MIP é utilizado. Assim, a regressão
linear com intervalos parametrizados se torna uma boa opção para a modelagem da dependência
linear entre variáveis intervalares.
Como trabalhos futuros, propõe-se a extensão do agrupamento por nuvens dinâmicas
utilizando a abordagem Fuzzy. Nesta extensão, uma instância apresenta uma grau de pertinência
para cada uma das classes envolvidas. Um outro estudo está relacionado com a utilização de
múltiplos protótipos na representação de uma mesma classe. Com relação às distâncias, uma outra
proposta é a criação de novas medidas de dissimilaridade para intervalos utilizando a combinação
de distâncias já conhecidas, com diferentes expressões e paradigmas: não-adaptativas, adaptativas
e com pesos no hibridismo. Podem ser exploradas, também, a criação de heurísticas para a
determinação de valores para o parâmetro t, das distâncias com pesos no hibridismo, ao longo
das iterações do algoritmo de agrupamento.
No contexto de regressão, trabalhos futuros estão relacionados com a suposição de dis-
tribuição de probabilidade para os erros da regressão para intervalos parametrizados, permitindo
a elaboração de análise de resíduos e testes de hipóteses para os coeficientes. A regressão com
intervalos parametrizados pode ser estendida para ser robusto a outliers, que, em regressão,
são elementos influentes que perturbam o ajuste do modelo. Uma outra abordagem é utilizar
as transformações para intervalos a fim de se realizar regressão não-linear e ainda garantir a
coerência matemática na predição.
109
Referências
BILLARD, L.; DIDAY, E. Symbolic Data Analysis: conceptual statistics and data mining.
Chichester, UK: John Wiley & Sons, 2006.
CASALE, P.; PUJOL, O.; RADEVA, P. Human Activity Recognition from Accelerometer Data
Using a Wearable Device. In: IBERIAN CONFERENCE ON PATTERN RECOGNITION AND
IMAGE ANALYSIS, 5., Berlin, Heidelberg. Proceedings. . . Springer-Verlag, 2011. p.289–296.
(IbPRIA’11).
CHAVENT, M. An Hausdorff distance between hyper-rectangles for clustering interval data. In:
AL, D. B. et (Ed.). Classification, Clustering an Data Mining Application, Proceedings of
the IFCS’04. [S.l.]: Springer, 2004. p.333–340.
DAVISON, A. C.; HINKLEY, D. V. Boostrap methods and their applications. New York:
Cambridge University Press, 1997.
DE CARVALHO, F. A. T.; BRITO, P.; BOCK, H.-H. Dynamic clustering for interval data based
on L2 distance. Computational Statistics, [S.l.], v.21, p.231–250, 2006.
DIDAY, E. The symbolic approach in clustering and related methods of data analysis. In: BOCK,
H.-H. (Ed.). Classification and Related Methods of Data Analysis. [S.l.]: North-Holland,
1987.
DRAPER, N. R.; SMITH, H. Applied Regression Analysis. 2nd.ed. [S.l.]: Wiley, 1981.
(Applied Regression Analysis).
EFRON, B. Bootstrap Methods: another look at the jackknife. The Annals of Statistics, [S.l.],
v.7, n.1, p.1–26, 1979.
FOSS, T. et al. A simulation study of the model evaluation criterion MMRE. Software
Engineering, IEEE Transactions on, [S.l.], v.29, n.11, p.985–995, Nov 2003.
GAN, G.; MA, C.; WU, J. Data clustering - theory, algorithms, and applications. [S.l.]:
SIAM, 2007. I-XXII, 1-466p.
REFERÊNCIAS 111
GOODRICH, B.; ALBRECHT, D.; TISCHER, P. Algorithms for the Computation of Reduced
Convex Hulls. In: NICHOLSON, A.; LI, X. (Ed.). AI 2009: advances in artificial intelligence.
[S.l.]: Springer Berlin Heidelberg, 2009. p.230–239. (Lecture Notes in Computer Science,
v.5866).
HAYKIN, S. O. Neural Networks and Learning Machines. [S.l.]: Pearson Education, 2011.
JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM Computing
Surveys, [S.l.], v.24, p.2367–2376, 1999.
KITCHENHAM, B. A. et al. What Accuracy Statistics Really Measure. In: IEE Proc.
Software. [S.l.: s.n.], 2001. v.148, n.3, p.81–85.
LEITHOLD, L. The calculus with analytic geometry. [S.l.]: Harper & Row, 1986.
LIMA NETO, E. A.; DE CARVALHO, F. A. T. Centre and Range method for fitting a linear
regression model to symbolic interval data. In: Computational Statistics & Data Analysis.
[S.l.: s.n.], 2008. v.52, n.3, p.1500–1515.
MADEO, R. C. B.; LIMA, C. A. M.; PERES, S. M. Gesture Unit Segmentation Using Support
Vector Machines: segmenting gestures from rest positions. In: ANNUAL ACM SYMPOSIUM
ON APPLIED COMPUTING, 28., New York, NY, USA. Proceedings. . . ACM, 2013. p.46–52.
(SAC ’13).
MANLY, B. F. Exponential data transformation. The Statistician, [S.l.], n.25, p.406–413, 1976.
MARDIA, K. V.; KENT, J. T.; BIBBY, J. M. Multivariate Analysis. London, UK: Academic
Press, 1979.
MEYER, C. D. Matrix analysis and applied linear algebra. Philadelphia: Society for
industrial and applied mathematics, 2000.
REFERÊNCIAS 112
SEBER, G. A. F. Linear Regression Analysis. [S.l.]: Wiley, 1977. (Wiley Series in Probability
and Statistics).
TIBSHIRANI, R. Regression Shrinkage and Selection Via the Lasso. Journal of the Royal
Statistical Society, Series B, [S.l.], v.58, p.267–288, 1994.
WANG, H.; GUAN, R.; WU, J. Linear regression of interval-valued data based on complete
information in hypercubes. In: Journal of Systems Science and Systems Engineering. [S.l.]:
SP Systems Engineering Society of China, 2012. v.21, n.4, p.422–442.
XU, W. Symbolic Data Analysis: interval-valued data regression. 2010. Tese (Doutorado em
Ciência da Computação) — The University of Georgia.
Apêndice
114
A
Demonstração da Proposição 3.1
As propriedades de distância apresentadas na Seção 2.1 são satisfeitas pela distância HLq .
p p
dHLq (γn , γm ) = ∑ |γnj − γmj |q + ∑ |γ̆nj − γ̆mj |q
j=1 ¯ ¯ j=1
= φ1 (γn , γm ) + φ2 (γn , γm ),
em que
p p
φ1 (γn , γm ) = ∑ |γnj − γmj |q e φ2(γn, γm) = ∑ |γ̆nj − γ̆mj |q.
j=1 ¯ ¯ j=1
II. Reflexividade
d(xm , xn ) = 0 ⇐⇒ xm = xn .
III. Comutatividade
d(xm , xn ) = d(xn , xm ).
I. Não negatividade
115
e que
φ2 (γn , γm ) ≤ φ2 (γn , γl ) + φ2 (γl , γm ).
Com dHLq (γn , γm ) = φ1 (γn , γm )+φ2 (γn , γm ), dHLq (γn , γl ) = φ1 (γn , γl )+φ2 (γn , γl ) e dHLq (γl , γm ) =
φ1 (γl , γm ) + φ2 (γl , γm ), tem-se
116
B
Demonstração da Proposição 3.2
j j
Fixando a classe Ck e a dimensão j, os pesos do hibridismo da distância W HLq (wk,1 e wk,2 ),
j j j j
sob as restrições: wk,1 + wk,2 = 1; wk,1 ≥ 0; wk,2 ≥ 0; e t ∈]1, ∞[, são calculados utilizando
multiplicadores de Lagrange. Sejam
N N
j j q j j q
ξk,1 = ∑ |γn − gk | 1k,n e ξk,2 = ∑ |γ̆n − ğk | 1k,n .
j j
n=1 ¯ ¯ n=1
j ξk,1 j ξk,2
wk,1 = 1 + j e wk,2 = 1 + j .
ξk,2 ξk,1
Demonstração. O critério a ser minimizado para o agrupamento por nuvens dinâmicas, para a
distância W HLq , é dado por
K N h p i
JdW HLq (Γ, P, w11,1 , · · · , wK,2
p j t j j q j t j j q
)= ∑ ∑ 1k,n ∑ (wk,1) |γn − g¯ k | + (wk,2) |γ̆n − γ̆k | , (B.1)
k=1 n=1 j=1 ¯
j j j j j
com as restrições: wk,1 + wk,2 = 1, wk,1 ≥ 0, wk,2 ≥ 0 e t ∈]1, ∞[. Os valores dos pesos, wk,1
j
e wk,2 , têm soluções analíticas obtidas pelo método dos multiplicadores de Lagrange. Seja
JdW HLq (Γ, P, w11,1 , · · · , wK,2
p
, Λ11 , · · · , ΛKp ) a versão da Equação (B.1) com os multiplicadores de
j
Lagrange (Λk ) e as restrições associadas
K N h p i
JdW HLq (Γ, P, w11,1 , · · · , wK,2 , Λ11 , · · · , ΛKp ) =
p j t j j q j t j j q
∑ ∑ 1k,n ∑ (wk,1) |γn − g¯ k | + (wk,2) |γ̆n − ğk |
k=1 n=1 j=1 ¯
K p h i
j j j
− ∑ ∑ Λk (wk,1 + wk,2 − 1) .
k=1 j=1
117
Os potenciais pesos que minimizam os valores do critério são obtidos quando as derivadas
parciais de JdW HLq são iguais a 0. Fixando a classe Ck , a dimensão j e diferenciando JdW HLq com
j
relação a wk,1 , tem-se:
n=1 ¯
Definindo
N
j j j q
ξk,1 = | −
∑ n ¯ k k,n ,
γ g | 1
n=1 ¯
j
e isolando o termo wk,1 , obtém-se
j j j
t (wk,1 )t−1 ξk,1 − Λk = 0
j
! 1
t−1
j Λ
wk,1 = k
j
. (B.2)
t ξk,1
j
Agora, diferenciando JdW HLq com relação a wk,2 , obtém-se
Definindo
N
j j j q
ξk,2 = ∑ |γ̆n − ğk | 1k,n ,
n=1
j
wk,2 é dado por
j j j
t (wk,2 )t−1 ξk,2 − Λk = 0
j
! 1
j Λk t−1
wk,2 = j
. (B.3)
t ξk,2
j j
wk,1 + wk,2 = 1
118
j
! 1
j
! 1
t−1 t−1
Λk Λk
j
+ j
=1
t ξk,1 t ξk,2
! 1 ! 1
1 1
t−1 t−1
j 1
(Λk ) t−1 j
+ j
=1
t ξk,1 t ξk,2
! 1 ! 1 −(t−1)
1 1
t−1 t−1
j
Λk = j
+ j
(B.4)
t ξk,1 t ξk,2
" 1
1 1 #−(t−1) t−1
1
t−1
1
t−1
+
t ξk,1
j j
t ξk,2
j
wk,1 = j
(t ξk,1 )
" 1 1 #−1
t−1 t−1
1 1
j + j
t ξk,1 t ξk,2
= j 1
(t ξk,1 ) t−1
−1
j ! t−1
1
ξk,1
= 1 + j .
ξk,2
" 1
1 1 #−(t−1) t−1
1
t−1
1
t−1
+
t ξk,1
j j
t ξk,2
j
wk,2 = j
(t ξk,2 )
" 1 1 #−1
t−1 t−1
1 1
j + j
t ξk,1 t ξk,2
= j 1
(t ξk,2 ) t−1
−1
j ! t−1
1
ξk,2
= 1 + j .
ξk,1
j j
Os pesos wk,1 e wk,2 são pontos críticos para a função que define o critério. Para que eles sejam
pontos de mínimo deve-se mostrar que a matriz Hessiana é positiva definida. Seja a matriz
119
∂ 2 JdW HLq ∂ 2 JdW HLq
j j j
∂ (wk,1 )2 ∂ wk,1 ∂ wk,2
H =
∂ 2 JdW HLq ∂ 2 JdW HLq
j j j
∂ wk,2 ∂ wk,1∂ (wk,2 )2
N
j t−2 j q
(w
k,1 ) | j
−
∑ n ¯ k k,n
γ g | 1 0
= t(t − 1) n=1 ¯
N
j
0 (wk,2 )t−2 ∑ |γ̆nj − ğkj |q 1k,n
n=1
Os termos t(t − 1) são positivos para t > 1. Os elementos da matriz também são positivos
para q ≥ 1. Assim, os autovalores da matriz Hessiana também são positivos. Então, conclui-se
j j
que a matriz H é positiva definida. Assim, os pesos wk,1 e wk,2 correspondem a pontos de mínimo.
Desta forma, os pesos do hibridismo para a distância W HLq podem ser calculados através as
expressões:
−1 −1
j ! t−1 j ! t−1
1 1
j ξk,1 j ξk,2
wk,1 = 1 + j e w k,2 = 1 + j .
ξk,2 ξk,1
120
C
Demonstração da Proposição 3.3
Demonstração. O critério a ser minimizado para o agrupamento por nuvens dinâmicas para a
distância W HL∞ é dado por
K N
p p
JdW HL∞ (Γ, P, w11,1 , · · · , wK,2
p j j
)= ∑∑ (wk,1 ) t
max{|γnj − gk |} + (wk,2 )t max{|γ̆nj − ğk |} 1k,n ,
k=1 n=1 j=1 ¯ ¯ j=1
(C.1)
com as restrições: wk,1 + wk,2 = 1; wk,1 ≥ 0; wk,2 ≥ 0; e t ∈]1, ∞[. A Equação (C.1) é reescrita
para incorporar os multiplicadores de Lagrange (Λk ), bem como as restrições impostas, passando
a ser descrita por
K
N p
JdW HL∞ (Γ, P, w11,1 , · · · , wK,2 , Λ11 , · · · , ΛKp ) =
p j
∑ ∑ 1k,n (wk,1)t max {|γnj − gk |}
j=1 ¯ ¯
k=1 n=1
K
p j
+ (wk,2 )t max{|γ̆nj − ğk |} − ∑ Λk wk,1 + wk,2 − 1 .
j=1 k=1
Os potenciais pesos que minimizam os valores do critério são obtidos quando as derivadas
parciais de JdW HL∞ são iguais a 0. Fixando a classe Ck , diferenciando JdW HLq com relação ao peso
121
Definindo
N p j
ξk,1 = ∑ max{|γn − gk |} 1k,n ,
j
n=1 j=1 ¯ ¯
obtém-se
Agora, diferenciando JdW HLq com relação ao peso wk,2 e igualando o resultado a 0, tem-se:
JdW HL∞ (Γ, P, w11,1 , · · · , wK,2
p
, Λ11 , · · · , ΛKp ) N
t−1 p j
=∑ t (wk,1 ) max{|γ̆n − ğk |} 1k,n − Λk = 0
j
∂ wk,2 n=1 j=1
N p
j
t (wk,1 )t−1 ∑ max{|γ̆n − ğk |} 1k,n − Λk = 0.
j=1
j
n=1
Definindo
pN
j
ξk,2 = ∑ max{|γ̆n − ğk |} 1k,n ,
j
n=1 j=1
obtém-se
wk,1 + wk,2 = 1
1 1
Λk t−1 Λk t−1
+ =1
t ξk,1 t ξk,2
" 1 1 #
1 1 t−1 1 t−1
(Λk ) t−1 + =1
t ξk,1 t ξk,2
122
" 1 1 #−(t−1)
1 t−1 1 t−1
Λk = + (C.4)
t ξk,1 t ξk,2
1
1 1 −(t−1) t−1
1 t−1
+ t ξ1
t−1
t ξk,1 k,2
wk,1 =
(t ξk,1 )
1 1 −1
1 t−1 1 t−1
t ξk,1
+ t ξk,2
= 1
(t ξk,1 ) t−1
" 1 #−1
ξk,1 t−1
= 1+ .
ξk,2
1 −(t−1)
t−1
1
1
1 t−1
+ t ξ1
t−1
tξ k,1
k,2
wk,2 =
(t ξk,2 )
1 1 −1
1 t−1 1 t−1
t ξk,1
+ t ξk,2
= 1
(t ξk,2 ) t−1
" 1 #−1
ξk,2 t−1
= 1+ .
ξk,1
Os pesos wk,1 e wk,2 são pontos críticos para a função que define o critério. Para que eles sejam
pontos de mínimo deve-se mostrar que a matriz Hessiana é positiva definida. Seja a matriz
Hessiana H do critério JdW HL∞ (Γ, P, w11,1 , · · · , wK,2
p
, Λ11 , · · · , ΛKp ), dada por
∂ 2 JdW HL∞ ∂ 2 JdW HL∞
∂ (wk,1 )2 ∂ wk,1 ∂ wk,2
H =
∂ 2 JdW HL∞ ∂ 2 JdW HL∞
∂ wk,2 ∂ wk,1 ∂ (wk,2 )2
N p
j t−2 j
(wk,1 )
∑ max j=1 ¯
j
{|γn − gk |} 1k,n
¯
0
= t(t − 1) n=1
N
j p
0 (wk,2 )t−2 ∑ max{|γ̆nj − ğkj |} 1k,n
j=1
n=1
123
Os termos t(t − 1) são positivos para t > 1. Os elementos da matriz também são positivos para
q ≥ 1. Assim, os autovalores da matriz Hessiana também são positivos. Então, conclui-se que
j j
a matriz H é positiva definida. Assim, os pesos wk,1 e wk,2 correspondem a pontos de mínimo.
Desta forma, os pesos do hibridismo da distância W HL∞ são calculados pelas expressões:
" 1 #−1
t−1 " 1 #−1
t−1
ξk,1 ξk,2
wk,1 = 1 + e wk,2 = 1 + .
ξk,2 ξk,1
124
D
Demostração da Proposição 3.4
Fixando a classe Ck e a dimensão j, o protótipo para as distâncias HL1 e HL∞ têm a mesma
solução analítica, determinada pelas expressões
n o
j j j
gk = Me γnj e ḡk = gk + Me γ̆nj ,
¯ γn ∈Ck ¯ ¯ γn ∈Ck
K N p
j j j j
JdHL1 (Γ, P) = | −
∑ ∑ k,n ∑ n ¯ k n k .
1 γ g | + |γ̆ − ğ |
k=1 n=1 j=1 ¯
N N
j j
∑ |γnj − gk | 1k,n + ∑ |γ̆nj − ğk | 1k,n .
n=1 ¯ ¯ n=1
O problema se resume a minimizar cada uma das parcelas. Cada parcela é minimizada pela
mediana do respectivo conjunto (SOUZA; DE CARVALHO, 2004; GOVAERT, 1975). Então,
n o
j j
gk = Me γnj e ğk = Me γ̆nj .
¯ γn ∈Ck ¯ γn ∈Ck
O critério a ser minimizado para a distância HL∞ é dado por
K N
p j p j
JdHL∞ (Γ, P) = ∑∑ max{|γnj − gk |} + max{|γ̆nj − ğk |} 1k,n .
k=1 n=1 j=1 ¯ ¯ j=1
125
N N
p j p j
∑ max {|γn − gk |} 1k,n + ∑ max{|γ̆n − ğk |} 1k,n ,
j=1 ¯
j
¯ j=1
j
n=1 n=1
N N
p j p j
∑ max {|γn − gk |} 1k,n e
j=1 ¯
j
¯
∑ max{|γ̆n − ğk |} 1k,n .
j=1
j
n=1 n=1
A função max pode ser ser reescrita como um limite da distância HLq , quando q → ∞. Assim,
tem-se que
!1
N N p q
p j
∑ max {|γnj − gk |} 1k,n = ∑ lim
¯
∑ |γnj − g¯ kj |q 1k,n
n=1 j=1 ¯ n=1
q→∞
j=1 ¯
e
!1
N N p q
p j j
∑ max{|γ̆n − ğk |} 1k,n =
j
j=1
∑ q→∞
lim ∑ |γ̆nj − ğk |q 1k,n .
n=1 n=1 j=1
Como os termos das somas são positivos, a minimização deles implica na minimização das
somas finais. Fixando a dimensão j, o problema se reduz a
N N
j 1 j
∑ lim {|γnj − gk |q } q 1k,n j
= ∑ |γn − gk | 1k,n
n=1
q→∞ ¯ ¯ n=1 ¯ ¯
e
N 1
N
j j
∑ lim {|γ̆nj − ğk |q } q 1k,n j
= ∑ |γ̆n − ğk | 1k,n .
q→∞
n=1 n=1
No fim, a otimização é a mesma feita para a distância HL1 , cuja solução são as medianas dos
limites inferiores e das amplitudes dos intervalos envolvidos. Assim,
n o
j j
gk = Me γnj e ğk = Me γ̆nj .
¯ γn ∈Ck ¯ γn ∈Ck
Usando o mapeamento inverso (como descrito na Equação (3.3)), o limite superior é calculado
por
j j j
ḡk = gk + ğk (D.1)
¯j
= gk + Me γ̆nj .
¯ γn ∈Ck
126
127
E
Demonstração da Proposição 3.5
Fixando a classe Ck e a dimensão j, o protótipo da distância HL2 tem uma solução analítica. Ele
é obtido pelas expressões
j 1 N j
j j 1 p
gk = ∑ γ 1
n k,n e ḡk = gk + ∑ γ̆nj 1k,n ,
¯ |Ck | n=1 ¯ ¯ |Ck | j=1
K N p
|γnj − gk |2 + |γ̆nj − ğk |2 .
j j
JdHL2 (Γ, P) = ∑ ∑ 1k,n ∑
k=1 n=1 j=1 ¯ ¯
N h i N h i
j j j 2 j j 2
Jk (Γ, P) = | − |
∑ n ¯ k k,n ∑ n k k,n .
γ g 1 + |γ̆ − ğ | 1
n=1 ¯ n=1
A minimização do critério é feita por meio do método dos mínimos quadrados, em que as
j j j
derivadas parciais de Jk com relação a gk e ğk são iguais a 0. Assim,
¯
j
∂ Jk (Γ, P) N h i
j
j
= ∑ 2 · (γ n
j
− g k ) 1k,n = 0
∂ gk n=1 ¯ ¯
N
¯
∑ γnj 1k,n − |Ck | g¯ kj = 0
n=1 ¯
j 1 N j
gk = ∑ γn 1k,n
¯ |Ck | n=1 ¯
128
e
j
∂ Jk (Γ, P) Nh i
j
j
= ∑ 2 · (γ̆ n
j
− ğk ) 1k,n =0
∂ ğk n=1
N j
∑ γ̆nj 1k,n − |Ck | ğk = 0
n=1
j 1 N
ğk = ∑ γ̆nj 1k,n
|Ck | n=1
j 1 N j
j j 1 p
gk = ∑ γ 1
n k,n e ḡk = gk + ∑ γ̆nj 1k,n ,
¯ |Ck | n=1 ¯ ¯ |Ck | j=1
129
F
Demonstração da Proposição 3.6
Fixando a classe Ck e a dimensão j, o protótipo da distância HLq (quando q > 1) pode ser calcu-
j
lado usando o método numérico de Newton-Raphson. Sejam os conjuntos Lk = {γnj |γn ∈ Ck } e
j ¯ j j
Rk = {γ̆nj |γn ∈ Ck }, o Algoritmo 2 explica como determinar os componentes do protótipo: gk e ğk .
¯
N
f (v) = ∑ |xi − v|q
i=1
com q > 1. O objetivo é encontrar o valor que minimiza f (v). Esta função pode ser reescrita
como
N
f (v) = ∑ (xi − v)q [sgn(xi − v)]q ,
i=1
N
f 0 (v) = −q ∑ (xi − v)q−1 [sgn(xi − v)]q
i=1
N
= −q ∑ |xi − v|q−1 sgn(xi − v),
i=1
N
f 00 (v) = q(q − 1) ∑ (xi − v)q−2 [sgn(xi − v)]q
i=1
130
N
= q(q − 1) ∑ |xi − v|q−2 .
i=1
Quando q > 1, a segunda derivada é sempre positiva. Logo, conclui-se que a primeira derivada é
monotônica crescente para quaisquer valores de v.
O valor v∗ que minimiza f (v) deve satisfazer f 0 (v∗ ) = 0. Considere um valor v− , com v− < x1 ,
ou seja, v− < xi , ∀xi . Então, xi − v− > 0, implicando que sgn(xi − v− ) = 1, ∀xi . Assim, a primeira
derivada se torna
N
f 0 (v− ) = −q ∑ |xi − v− |q−1
i=1
N
f 0 (v+ ) = q ∑ |xi − v+ |q−1
i=1
f 0 (vi−1 )
vi = vi−1 − .
f 00 (vi−1 )
K N p
j j q j j q
JdHLq (Γ, P) = 1 |
∑ ∑ k,n ∑ n ¯ kγ − g | + |γ̆n − ğ k | .
k=1 n=1 j=1 ¯
N h i
j j q j j q
∑ n ¯k|γ − g | + |γ̆ n − ğk | 1 k,n .
n=1 ¯
131
N N
j q j q
∑ n ¯ k k,n e
|γ j
− g | 1 | j
−
∑ n k k,n .
γ̆ ğ | 1
n=1 ¯ n=1
Os passos descritos acima para a função f (·) podem ser aplicados a cada soma, independente-
j j
mente. Os conjuntos Lk = [γnj |γn ∈ Ck ] e Rk = [γ̆nj |γn ∈ Ck ] são substituídos pelo conjunto X e os
j j ¯
componentes gk e ğk são determinados. O Algoritmo 2 apresenta os passos para encontrá-los
¯
utilizando o método numérico de Newton-Raphson. Observe que o limite superior do protótipo é
j j j
obtido através do mapeamento inverso, como descrito na Equação (3.3), tal que ḡk = gk + ğk .
¯
132
G
Demonstração da Proposição 3.7
j 1 N j
j j 1 N
gk = ∑ γ 1
n k,n e ḡk = g k + ∑ γ̆nj 1k,n ,
¯ |Ck | n=1 ¯ ¯ |Ck | n=1
K N p
JdAHLq (Γ, P, λ11 , · · · , λKp ) =
j j j q j j q
∑ ∑ 1k,n ∑ λk |γn − gk | + |γ̆n − ğk | .
k=1 n=1 j=1 ¯ ¯
N N
j j j q j j j q
λk ∑ |γn − g¯ k | 1k,n + λk ∑ |γ̆n − ğk | 1k,n .
n=1 ¯ n=1
133
O critério a ser minimizado para a distância W HLq é dado por
K N p h i
JdW HLq (Γ, P, w11,1 , · · · , wK,2
p j t j j q j t j j q
)= 1 (w
∑ ∑ k,n ∑ k,1 n ¯ k) |γ − g | + (wk,2 ) |γ̆ n − ğk | .
k=1 n=1 j=1 ¯
N N
j j q j t j q
(wk,1 )t | j
−
∑ n ¯ k k,n
γ g | 1 + (w )
k,2 ∑ |γ̆n
j
− ğ k | 1k,n .
n=1 ¯ n=1
Os pesos adaptativos e híbridos se tornam constantes quando as classes e as dimensões são
fixadas. Desta forma, o problema equivale a minimizar as duas somas:
N
N
j q j q
∑ n ¯ k k,n e
|γ j
− g | 1 | j
−
∑ n k k,n .
γ̆ ğ | 1
n=1 ¯ n=1
N
N
j 2 j 2
∑ n ¯ k k,n e
|γ j
− g | 1 | j
−
∑ n k k,n .
γ̆ ğ | 1
n=1 ¯ n=1
1 p 1 p
j
gk
¯
=
|Ck | ∑ γn 1k,n e bGj k = g¯ kj + |Ck |
j
∑ γ̆nj 1k,n ,
j=1 ¯ j=1
K N
p j p j
JdHL∞ (Γ, P, w1,1 , · · · , wK,2 ) = ∑∑ (wk,1 )t
max{|γnj − gk |} + (wk,2 )t max{|γ̆nj − ğk |} 1k,n .
k=1 n=1 j=1 ¯ ¯ j=1
N N
p j p j
∑ max {|γn − gk |} 1k,n e
j=1 ¯
j
¯
∑ max{|γ̆n − ğk |} 1k,n .
j
j=1
n=1 n=1
j j
aGk = Me anj and ∆Gk = Me ∆nj .
γn ∈Ck γn ∈Ck
Se q > 1, q 6= 2 e q 6= ∞, não é possível expressar uma solução analítica para as somas da Equação
(G). A solução é obtida como descrito na Proposição 3.6. O método numérico de Newton-
j j
Raphson é usado, como descrito pelo Algoritmo 2. Os conjuntos Lk = {γnj |γn ∈ Ck } e Rk =
j ¯ j
{γ̆nj |γn ∈ Ck } são parâmetros para este algoritmo, resultando nos valores gk e γ̆k , respectivamente.
¯
Pelo mapeamento inverso (definido na Equação (3.3)), o limite superior é obtido por
j j j
ḡk = gk + ğk . (G.1)
¯
135
H
Demonstração da Proposição 5.1
Demonstração. Para que Σ+ seja uma pseudo-inversa de Moore-Penrose, ela deve satisfazer as
seguintes condições:
I. Σ Σ+ Σ = Σ,
II. Σ+ Σ Σ+ = Σ+ ,
III. (Σ Σ+ )T = Σ Σ+ ,
IV. (Σ+ Σ)T = Σ+ Σ.
Sabe-se que Σ é uma matriz diagonal com dimensões (2p + 1) × (2p + 1) e que possui alguns
zeros, e tem dimensões k × k, considerando que existem k valores singulares não-nulos. Assim,
pode-se escrevê-la como a seguinte matriz de blocos
!
D 0
Σ= ,
0 0
em que a matriz D contém os valores singulares não-nulos da matriz Σ e os zeros matrizes cujos
elementos são todos iguais a 0. A matriz Σ+ também é diagonal e seus valores correspondem ao
inverso dos valores não-nulos de Σ e é escrita como a matriz de blocos
!
−1
D 0
Σ+ = ,
0 0
137
I
Implementação do Agrupamento por Nu-
vens Dinâmicas
1 //=========================================================
2 // Arquivo : Interval.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #include <iostream>
8 #ifndef INTERVAL_H_
9 #define INTERVAL_H_
10
11 //Esta classe gera objetos que armazenam intervalos
12 class Interval {
13 private:
14 float a; //limite inferior do intervalo
15 float b; //limite superior do intervalo
16
17 public:
18 //Construtor
19 Interval(float a = 0, float b = 0)
20 {
21 this->a = a;
22 this->b = b;
23 }
24
25 virtual ~Interval(){ }
26
27 //Retorna a amplitude do intervalo
28 inline float range()
29 {
30 return (b-a);
31 }
32
33 //Retorna um ponto do intervalo pela equação da reta
34 inline double point(double lambda)
35 {
36 return a + (b-a)*lambda;
37 }
38
39 //Seta um valor para o limite inferior
40 inline void setA(float a )
41 {
42 this->a = a;
43 }
44
45 //Seta um valor para o limite superior
46 inline void setB(float b)
47 {
48 this->b = b;
49 }
50
51 //Retorna o limite inferior
52 inline float getA()
53 {
54 return this->a;
138
55 }
56
57 //Retorna o limite superior
58 inline float getB()
59 {
60 return this->b;
61 }
62
63 //Exibe o intervalo armazenado
64 void show(char* mesage = "", bool endl = false)
65 {
66 std::cout << "(" << this->a << "," << this->b << ")";
67 if(endl)
68 std::cout << std::endl;
69 }
70
71 //Operadores para objetos dos tipo intervalo
72 Interval operator=(Interval value)
73 {
74 this->a = value.getA();
75 this->b = value.getB();
76
77 return *this;
78 }
79
80 Interval operator+(Interval value)
81 {
82 Interval temp(this->a + value.getA(), this->b + value.getB());
83 return temp;
84 }
85
86 Interval operator+=(Interval value)
87 {
88 this->a += value.getA();
89 this->b += value.getB();
90 return *this;
91 }
92
93 Interval operator-(Interval value)
94 {
95 Interval temp(this->a - value.getA(), this->b - value.getB());
96 return temp;
97 }
98
99 Interval operator-=(Interval value)
100 {
101 this->a -= value.getA();
102 this->b -= value.getB();
103 return *this;
104 }
105
106 Interval operator*(double factor)
107 {
108 Interval temp(this->a * factor, this->b * factor);
109 return temp;
110 }
111
112 friend Interval operator*(double factor, Interval value)
113 {
114 return value.operator*(factor);
115 }
116
117 Interval operator*=(double factor)
118 {
119 this->a *= factor;
120 this->b *= factor;
121 return *this;
122 }
123
124 Interval operator/(double factor)
125 {
126 Interval temp(this->a / factor, this->b / factor);
127 return temp;
128 }
129
130 Interval operator/=(double factor)
131 {
132 this->a /= factor;
133 this->b /= factor;
134 return *this;
139
135 }
136 };
137 #endif /* INTERVAL_H_ */
1 //=========================================================
2 // Arquivo : MInterval.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #include <iostream>
8 #include <vector>
9 #include "Interval.h"
10 using namespace std;
11
12 #ifndef ELEMENT_H_
13 #define ELEMENT_H_
14
15 //Esta classe define intervalos multidimensionais
16 class MInterval {
17
18 public:
19 vector<Interval> data; //Armazena os intervalos
20 int dimension; //Armazena a dimensão dos intervalos
21
22 MInterval()
23 {
24 dimension = 0;
25 }
26
27 MInterval(int dimension)
28 {
29 setDimension(dimension);
30 }
31
32 inline void setDimension(int dimension)
33 {
34 this->dimension = dimension;
35 data.resize(dimension);
36 }
37
38 virtual ~MInterval()
39 {
40 data.clear();
41 points.clear();
42 }
43
44 Interval & operator[](int index)
45 {
46 return data[index];
47 }
48
49 MInterval operator=(MInterval value)
50 {
51 points.clear();
52 for(int i=0; i < dimension; i++)
53 data[i] = value.data[i];
54
55 for(int i=0; i < (int)value.points.size(); i++)
56 points.push_back(value.points[i]);
57
58 return *this;
59 }
60
61 MInterval operator+(MInterval value)
62 {
63 MInterval temp(dimension);
64 for(int i=0; i < dimension; i++)
65 temp[i] = data[i] + value.data[i];
66
67 return temp;
68 }
69
70 void show()
71 {
72 for(int i=0; i < this->dimension; i++)
73 this->data[i].show();
74 cout << endl;
75 }
76
140
1 //=========================================================
2 // Arquivo : DistType.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #ifndef WDYNAMIC_INTERVAL_CLUSTERING_DISTTYPE_H_
8 #define WDYNAMIC_INTERVAL_CLUSTERING_DISTTYPE_H_
9
10 //Proporciona a seleção de distâncias pelo nome
11 enum d_type{D_L1, D_L2, D_HAUS, D_HLQ, D_HL_INF};
12
13 namespace DistType
14 {
15 d_type L1 = D_L1; //distância L1
16 d_type L2 = D_L2; //distância L2
17 d_type HAUS = D_HAUS; //distância Loo
18 d_type HLQ = D_HLQ; //distância HLq
19 d_type HL_INF = D_HL_INF; //distância HLoo
141
20 }
21 #endif /* WDYNAMIC_INTERVAL_CLUSTERING_DISTTYPE_H_ */
1 //=========================================================
2 // Arquivo : ComputePrototype.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #include <vector>
8 #include <algorithm>
9 #include <cmath>
10 #include <iostream>
11 using namespace std;
12
13 #ifndef COMPUTEPROTOTYPE_H_
14 #define COMPUTEPROTOTYPE_H_
15
16 //Esta classe calcula o protótipo para a distância HLq
17 //utilizando o método numérico de Newton-Hampson
18 class ComputePrototype {
19 public:
20 int q; //Valor do parâmetro q
21 vector<double> x; //Vetor de valores para determinação dos prototipos
22 double err; //Erro
23 double v; //Valor encontrado
24
25 public:
26 //Contrutor
27 ComputePrototype(vector<double>& x, int q)
28 {
29 this->x = x;
30 this->q = q;
31 err = 1e-3;
32 this-> v = 0;
33 if(x.size() >= 2)
34 {
35 sort(this->x.begin(), this->x.end());
36 newton_hampson();
37 }
38
39 if(x.size() == 1)
40 v = x[0];
41 }
42
43 //Valor do critério
44 double get_Criterion(double z)
45 {
46 double ret = 0.0;
47 for(int i=0; i < (int) x.size(); i++)
48 ret += pow(abs(x[i]-z), q);
49
50 return ret;
51 }
52
53 //Função sinal
54 double sgn(double z)
55 {
56 return (z >= 0) ? 1:-1;
57 }
58
59 //Função objetivo
60 double getH(double z)
61 {
62 double ret = 0.0;
63 for(int i=0; i < (int) x.size(); i++)
64 ret += pow(abs(x[i]-z), q);
65
66 return ret;
67 }
68
69 //Primeira derivada
70 double getdH(double z)
71 {
72 double ret = 0.0;
73 for(int i=0; i < (int) x.size(); i++)
74 ret += pow(abs(x[i]-z), q-1)*sgn(x[i]-z);
75
76 return -q*ret;
77 }
142
78
79 //Segunda derivada
80 double getddH(double z)
81 {
82 double ret = 0.0;
83 for(int i=0; i < (int) x.size(); i++)
84 ret += pow(abs(x[i]-z), q-2);
85
86 return q*(q-1)*ret;
87 }
88
89 //Aplica o método de Newton-Hampson
90 void newton_hampson()
91 {
92 v = (x[0]+x[x.size()-1])/2;
93 int n=0;
94
95 do
96 {
97 double c = get_Criterion(v);
98 double v_new = v - getdH(v)/getddH(v);
99 if(abs(v-v_new) < err || n > 100)
100 break;
101 v = v_new;
102 n++;
103 }while(true);
104 }
105 };
106 #endif /* COMPUTEPROTOTYPE_H_ */
1 //=========================================================
2 // Arquivo : Prototype.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #ifndef PROTOTYPE_H_
8 #define PROTOTYPE_H_
9
10 #include <iostream>
11 #include <algorithm>
12 #include <vector>
13 #include "MInterval.h"
14 #include "ComputePrototype.h"
15 using namespace std;
16
17 //Encontra os protótipos para cada distância
18 class Prototype
19 {
20 public:
21
22 //data: intervalos multidimensionais
23 //groups: os labels indicando os grupos do agrupamento
24 //g: o grupo que se deseja calcular o protótipo
25 //type: a distância de interesse
26 //valor de q para a distância HLq
27 static MInterval getPtototype(vector<MInterval>& data,
28 vector<int>& groups,
29 int g, // Prototype for group g
30 d_type type,
31 int q)
32 {
33 if(type == DistType::L1 || type == DistType::HL_INF || (type == DistType::HLQ && q==1))
34 return L1_prototype(data, groups, g);
35 else if(type == DistType::L2 || (type == DistType::HLQ && q==2))
36 return L2_prototype(data, groups, g);
37 else if(type == DistType::HAUS)
38 return HAUS_prototype(data, groups, g);
39 else
40 return HLQ_prototype(data, groups, g, q);
41 }
42
43 //Calcula o protótipo da distância HLoo
44 static MInterval HAUS_prototype(vector<MInterval > & data,
45 vector<int> & groups,
46 int group)
47 {
48 MInterval median(data[0].dimension);
49 vector<float> values_m[data[0].dimension];
50 vector<float> values_l[data[0].dimension];
143
51
52 for(int j=0; j < (int) data.size(); j++)
53 if(groups[j] == group)
54 {
55 for(int d=0; d < median.dimension; d++)
56 {
57 float aux_m = (data[j][d].getB()+data[j][d].getA())/2.0f;
58 float aux_l = data[j][d].range()/2.0f;
59 values_m[d].push_back(aux_m);
60 values_l[d].push_back(aux_l);
61 }
62 }
63
64 for(int d=0; d < median.dimension; d++)
65 {
66 float mi = get_median(values_m[d]);
67 float del = get_median(values_l[d]);
68 median[d].setA(mi-del);
69 median[d].setB(mi+del);
70 }
71
72 for(int d=0; d < median.dimension; d++)
73 {
74 values_m[d].clear();
75 values_l[d].clear();
76 }
77
78 return median;
79 }
80
81 //Calcula o protótipo da distância HLq
82 static MInterval HLQ_prototype(vector<MInterval>& data,
83 vector<int>& groups,
84 int g,
85 int q)
86 {
87 MInterval ret(data[0].dimension);
88 vector<double> valuesA;
89 vector<double> Delta;
90
91 for(int j=0; j < ret.dimension; j++)
92 {
93 for(int i=0; i < (int) data.size(); i++)
94 if(groups[i] == g)
95 {
96 valuesA.push_back(data[i][j].getA());
97 Delta.push_back(data[i][j].range());
98 }
99
100 ComputePrototype a(valuesA,q);
101 ComputePrototype d(Delta,q);
102
103 ret[j].setA(a.v);
104 ret[j].setB(a.v + d.v);
105
106 valuesA.clear();
107 Delta.clear();
108 }
109 //ret.show();
110 return ret;
111 }
112
113 //Calcula o protótipo da distância L2
114 static MInterval L2_prototype(vector<MInterval>& data,
115 vector<int>& groups,
116 int g)
117 {
118 MInterval ret(data[0].dimension);
119 int count = 0;
120 for(int i=0; i < (int) data.size(); i++)
121 {
122 if(groups[i] == g)
123 {
124 ret += data[i];
125 count++;
126 }
127 }
128
129 return (ret/(count));
130 }
144
131
132 //Calcula o protótipo da distância L1
133 static MInterval L1_prototype(vector<MInterval>& data,
134 vector<int>& groups,
135 int g)
136 {
137 MInterval median(data[0].dimension);
138 vector<float> values_A[data[0].dimension];
139 vector<float> values_B[data[0].dimension];
140 int size = data.size();
141
142 for(int j=0; j < size; j++)
143 if(groups[j] == g)
144 {
145 for(int d=0; d < median.dimension; d++)
146 {
147 values_A[d].push_back(data[j][d].getA());
148 values_B[d].push_back(data[j][d].getB());
149 }
150 }
151
152 for(int d=0; d < median.dimension; d++)
153 {
154 median[d].setA(get_median(values_A[d]));
155 median[d].setB(get_median(values_B[d]));
156 }
157
158 for(int d=0; d < median.dimension; d++)
159 {
160 values_A[d].clear();
161 values_B[d].clear();
162 }
163
164 return median;
165 }
166
167 //Retorna a mediana de um conjunto
168 static float get_median(vector<float> & values)
169 {
170 std::sort(values.begin(), values.end());
171 int n = values.size();
172 if(n == 0)
173 return 0;
174 if(n%2 == 1)
175 return values[n/2];
176
177 return (values[n/2] + values[n/2 - 1])/2; //par
178 }
179 };
180 #endif /* PROTOTYPE_H_ */
1 //=========================================================
2 // Arquivo : Dynamic.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #include <vector>
8 #include <iostream>
9 #include <cmath>
10 #include "DistType.h"
11 #include "MInterval.h"
12 #include "Prototype.h"
13
14 using namespace std;
15 #ifndef DYNAMIC_H_
16 #define DYNAMIC_H_
17
18 //Esta classe define os elementos comuns para o métodos
19 //de agrupamento.
20 class Dynamic
21 {
22 public:
23 int size; //Número de intervalos
24 int nGroups; //Número de grupos
25 vector<int> labels; //Classes reais dos elementos
26 vector<int> groups; //Classes do agrupamento
27 //Matriz de confusão
28 vector<vector<int> > confusion_matrix;
29 //Armazena os protótipos das classes
145
30 vector<MInterval> prototypes;
31 double rand_index; //Índice de rand do agrupamento final
32 d_type type; //Distância utilizada no agrupamento
33 double q; //Valor de q para a distância HLq
34
35 public:
36 vector<MInterval> data; //Armazena os intervalos
37
38 //Construtor
39 Dynamic(vector<MInterval> & data,
40 vector<int> & labels,
41 int nGroups,
42 d_type type,
43 double q)
44 {
45 this->data = data;
46 this->size = data.size();
47 this->labels = labels;
48 this->type = type;
49 this->nGroups = nGroups;
50 this->groups.resize(size);
51 this->rand_index = 0;
52 this->q = q;
53 prototypes.resize(nGroups);
54
55 for(int g=0; g < nGroups; g++)
56 prototypes[g].setDimension(data[0].dimension);
57 }
58
59 //Destrutor
60 virtual ~Dynamic()
61 {
62 this->groups.clear();
63 prototypes.clear();
64
65 for(int i=0; i < (int) confusion_matrix.size(); i++)
66 confusion_matrix[i].clear();
67
68 confusion_matrix.clear();
69 }
70
71 //Método virtual. Cada filho desta classe deve
72 //implementar o seu método de agrupamento.
73 virtual void find_cluster() = 0;
74
75 public:
76 //Inicializa os elementos aleatoriamente nos grupos
77 virtual void start_groups()
78 {
79 for(int i=0; i < size; i++)
80 groups[i] = rand()%nGroups;
81 }
82
83 //Mostra os grupos formados
84 void showGroups()
85 {
86 for(int i=0; i < size; i++)
87 cout << groups[i] << " ";
88 cout << endl;
89 }
90
91 //Calcula os protótipos dos grupos baseando-se
92 //na distância definida
93 virtual void update_prototypes()
94 {
95 for(int g=0; g < nGroups; g++)
96 prototypes[g] = Prototype::getPtototype(data, groups, g, type, q);
97 }
98
99 //Retorna o critério do agrupamento
100 virtual double get_Criteria()
101 {
102 double crit = 0.0;
103
104 for(int i=0; i < size; i++)
105 crit += get_distance(data[i], groups[i]);
106
107 return crit;
108 }
109
146
1 //=========================================================
2 // Arquivo : NonAdaptive.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #include "Dynamic.h"
147
8
9 #ifndef NONADAPTIVE_H_
10 #define NONADAPTIVE_H_
11
12 //Econtra o agrupamento para distâncias não-adaptativas
13 class NonAdaptive: public Dynamic
14 {
15 public:
16 //data: Contém os dados
17 //labels: Indica as classes reais dos elementos
18 //nGroups: Número de grupos
19 //type: Distância utilizada no agrupamento
20 //q: Valor do parâmetro da distância HLq
21 NonAdaptive(vector<MInterval> & data,
22 vector<int> & labels,
23 int nGroups,
24 d_type type,
25 double q):Dynamic(data, labels, nGroups, type, q)
26 { }
27
28 //Algoritmo do agrupamento
29 virtual void find_cluster()
30 {
31 start_groups();
32
33 bool changed;
34 do
35 {
36 update_prototypes();
37
38 changed = false;
39 for(int i=0; i < this->size; i++)
40 {
41 int best_group = getBestGroup(data[i]);
42
43 if(best_group != groups[i])
44 {
45 groups[i] = best_group;
46 changed = true;
47 }
48 }
49 }while(changed);
50
51 set_confusion_matrix();
52 set_rand_index();
53 }
54
55 //Retorna o grupo cujo protótipo é mais próximo de x
56 inline virtual int getBestGroup(MInterval & x)
57 {
58 double min = 1e100;
59 int group = 0;
60
61 for(int g=0; g < nGroups; g++)
62 {
63 double aux = get_distance(x, g);
64
65 if(aux < min)
66 {
67 min = aux;
68 group = g;
69 }
70 }
71
72 return group;
73 }
74
75 //Mostra um resumo do agrupamento
76 virtual void show()
77 {
78 for(int i=0; i < size; i++)
79 cout << labels[i] << " ";
80 cout << endl;
81 for(int i=0; i < size; i++)
82 cout << groups[i] << " ";
83 cout << endl;
84 cout << "confusion matrix : " << endl;
85 for(int i=0; i < nGroups; i++)
86 {
87 for(int j=0; j < nGroups; j++)
148
1 //=========================================================
2 // Arquivo : Adaptive.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #include "Dynamic.h"
8 #include <vector>
9 #include <iostream>
10 using namespace std;
11
12 #ifndef ADAPTIVE_H_
13 #define ADAPTIVE_H_
14
15 //Esta classe implementa a versão adaptativa das distâncias.
16 class Adaptive: public Dynamic
17 {
18 vector<vector<double> > w; //matriz de pesos indexada por [classe][dimensão]
19
20 public:
21
22 //data: vetor contendo o conjunto de dados a ser agrupado
23 //labels: vetor indicando a classe real a que pertencem os elementos
24 //nGroups: Número de partições
25 //type: Nome da distância (ver DistType.h)
26 //q : Parâmetro da distância HLq adaptativa
27 Adaptive(vector<MInterval> & data,
28 vector<int> & labels,
29 int nGroups,
30 d_type type,
31 double q):Dynamic(data, labels, nGroups, type, q)
32 {
33 w.resize(nGroups);
34 for(int i=0; i < nGroups; i++)
35 w[i].resize(data[0].dimension, 0);
36 }
37
38 //Destrutor
39 ~Adaptive(){
40 for(int i=0; i < nGroups; i++)
41 w[i].clear();
42 w.clear();
43 }
44
45 //Implementação do agrupamento por nuvens dinâmicas
46 virtual void find_cluster()
47 {
48 start_groups(); //Aloca os elementos nos grupos de forma aleatória
49
50 bool changed;
51 do
52 {
53 update_prototypes(); //Determina os protótipos
54
55 //Calcula os pesos
56 for(int g = 0; g < nGroups; g++)
57 set_W(g);
58
59 changed = false;
60 //Busca minizar o critério
61 for(int i=0; i < this->size; i++)
62 {
63 int best_group = getBestGroup(data[i]);
64
65 if(best_group != groups[i])
66 {
67 groups[i] = best_group;
68 changed = true;
69 }
70 }
71 }while(changed);
72
73 set_confusion_matrix(); //Define a matriz de confusão
74 set_rand_index(); //Calcula o índice de rand
75 }
76
77 //Retorna o grupo cujo protótipo é mais próximo de x
78 inline virtual int getBestGroup(MInterval & x)
79 {
80 double min = 1e100;
150
81 int group = 0;
82
83 for(int g=0; g < nGroups; g++)
84 {
85 double aux = get_distance(x, g);
86
87 if(aux < min)
88 {
89 min = aux;
90 group = g;
91 }
92 }
93
94 return group;
95 }
96
97 //Calcula os pesos adaptativos para o grupo indicado em group
98 void set_W(int group)
99 {
100 int p = data[0].dimension;
101 double sums[p];
102 for(int h=0; h < p; h++)
103 sums[h] = 0.0;
104
105 if(type == DistType::L1)
106 {
107 for(int h=0; h < p; h++)
108 for(int i=0; i < size; i++)
109 if(groups[i] == group)
110 sums[h] += abs(data[i][h].getA()-prototypes[groups[i]][h].getA()) +
111 abs(data[i][h].getB()-prototypes[groups[i]][h].getB());
112 }
113
114 if(type == DistType::L2)
115 {
116 for(int h=0; h < p; h++)
117 for(int i=0; i < size; i++)
118 if(groups[i] == group)
119 sums[h] += pow(abs(data[i][h].getA()-prototypes[groups[i]][h].getA()),2) +
120 pow(abs(data[i][h].getB()-prototypes[groups[i]][h].getB()),2);
121 }
122
123 if(type == DistType::HAUS)
124 {
125 for(int h=0; h < p; h++)
126 for(int i=0; i < size; i++)
127 if(groups[i] == group)
128 {
129 double a = abs(data[i][h].getA()-prototypes[groups[i]][h].getA());
130 double b = abs(data[i][h].getB()-prototypes[groups[i]][h].getB());
131 sums[h] += a > b ? a : b;
132 }
133 }
134
135 if(type == DistType::HLQ)
136 {
137 for(int h=0; h < p; h++)
138 for(int i=0; i < size; i++)
139 if(groups[i] == group)
140 {
141 sums[h] += pow(abs(data[i][h].getA()-prototypes[groups[i]][h].getA()),q) +
142 pow(abs(data[i][h].range()-prototypes[groups[i]][h].range()),q);
143 }
144 }
145
146 double num = 1;
147 for(int h=0; h < p; h++)
148 num *= sums[h];
149
150 for(int h=0; h < p; h++)
151 w[group][h] = pow(num, 1.0/p)/sums[h];
152 }
153
154 //Apresenta o resultado do agrupamento: grupos, matriz de confusão,
155 // índice de rand e o critério minimizado
156 virtual void show()
157 {
158 for(int i=0; i < size; i++)
159 cout << labels[i] << " ";
160 cout << endl;
151
1 //=========================================================
2 // Arquivo : DistType.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #include "Dynamic.h"
8
9 #ifndef WNONADAPTIVE_H_
10 #define WNONADAPTIVE_H_
11
12 //Implementa o agrupamento para distâncias HLq com pesos no
13 //hibridismo
14 class Weighted: public Dynamic
15 {
16 vector<vector<double> > wd1;
17 vector<vector<double> > wd2;
18 double t;
19
20 public:
21
22 //data: vetor contendo o conjunto de dados a ser agrupado
152
103 }
104
105 //Mostra um resumo do agrupamento
106 virtual void show()
107 {
108 for(int i=0; i < size; i++)
109 cout << labels[i] << " ";
110 cout << endl;
111 for(int i=0; i < size; i++)
112 cout << groups[i] << " ";
113 cout << endl;
114 cout << "confusion matrix : " << endl;
115 for(int i=0; i < nGroups; i++)
116 {
117 for(int j=0; j < nGroups; j++)
118 cout << confusion_matrix[i][j] << " ";
119 cout << endl;
120 }
121
122 cout << "Rand Index = " << rand_index << endl;
123 cout << "Final Criteria = " << this->get_Criteria() << endl;
124 cout << "weights" << endl;
125 for(int group=0; group < nGroups; group++)
126 {
127 for(int h=0; h < data[0].dimension; h++)
128 cout << "w1[" << group << "][" << h << "]=" << wd1[group][h] << " and w2[" << group << "][" << h << "]=" <<
wd2[group][h] << endl;
129 }
130 }
131
132 //Retorna o índice de rand ajustado
133 double get_rand_index()
134 {
135 return rand_index;
136 }
137
138 //Retorna o critério do agrupamento
139 virtual double get_Criteria()
140 {
141 double crit = 0.0;
142 for(int i=0; i < size; i++)
143 crit += get_distance(data[i], groups[i]);
144
145 return crit;
146 }
147
148 //Retorna a distância entre x e o protótipo de group
149 double get_distance(MInterval& x, int group)
150 {
151 double ret = 0.0;
152
153 if(type == DistType::HLQ)
154 {
155 for(int j=0; j < x.dimension; j++)
156 ret += pow(wd1[group][j],t)*pow(abs(x[j].getA()-prototypes[group][j].getA()),q) +
157 pow(wd2[group][j], t)*pow(abs(x[j].range()-prototypes[group][j].range()), q);
158 }
159
160 if(type == DistType::HL_INF)
161 {
162 double max_a = -1e100;
163 double max_d = -1e100;
164
165 for(int j=0; j < x.dimension; j++)
166 {
167 if(abs(x[j].getA()-prototypes[group][j].getA()) > max_a)
168 max_a = abs(x[j].getA()-prototypes[group][j].getA());
169 if(abs(x[j].range()-prototypes[group][j].range()) > max_d)
170 max_d = abs(x[j].range()-prototypes[group][j].range());
171 }
172
173 ret = pow(wd1[group][0], t)*max_a + pow(wd2[group][0], t)*max_d;
174 }
175
176 return ret;
177 }
178
179 //Calcula os pesos
180 void setWd_sum(int group)
181 {
154
1 //=========================================================
2 // Arquivo : Experiment.h
3 // Autor : Leandro Carlos de Souza
4 // Versão : 1.0
5 // Data : 13/04/2015
6 //=========================================================
7 #ifndef WDYNAMIC_INTERVAL_CLUSTERING_EXPERIMENT_H_
8 #define WDYNAMIC_INTERVAL_CLUSTERING_EXPERIMENT_H_
9
10 #include "files_reader.h"
11 #include "NonAdaptive.h"
12 #include "Weighted.h"
13 #include "Adaptive.h"
14 #include <locale>
15 #include <sstream>
16 #include <string>
17 #include <string.h>
18 #include <vector>
19 using namespace std;
20
21 //Implementa a chamada das classes para a realização do agrupamento
22 class Experiment {
23 public:
24 Experiment() {}
25 virtual ~Experiment(){}
26
27 //Constrói intervalo de confiança para a média utilizando bootstrap
28 //vec: um vetor contendo os valores amostrados
29 //n: número de elementos no vetor
30 static Interval get_confiance_interval(double* vec, int n)
155
31 {
32 Interval ret;
33 const int B = 2000;
34 float alpha = 0.05;
35
36 vector<double> means(B, 0);
37 for(int i=0; i < B; i++)
38 {
39 for(int j=0; j < n; j++)
40 means[i] += vec[rand()%n];
41 means[i] /= n;
42 }
43
44 std::sort(means.begin(), means.end());
45 int p_min = round((alpha/2)*B);
46 int p_max = round((1-alpha/2)*B);
47 ret.setA(means[p_min]);
48 ret.setB(means[p_max]);
49 means.clear();
50 return ret;
51 }
52
53 //Aplica agrupamento para dados reais
54 //arquivo: nome do arquivo contendo os dados
55 //size: numero de elementos
56 //dimension: dimensão dos elementos
57 //nGroups: número de grupos
58 //type: distância utilizada
59 //method: escolha do método de agrupamento:
60 //1: distâncias não-adaptativas
61 //2: distâncias adaptativas
62 //3: distâncias com pesos no hibridismo
63 //q : valor de parâmetro q na distância HLq
64 //t : valor do parâmetro t para distâncias WHLq
65 static void means_real_data(string arquivo, int size, int dimension, int nGroups,
66 d_type type, int method, int q=1, double t = 2)
67 {
68 srand(10);
69 vector<MInterval > data(size);
70 vector<int> labels(size);
71
72 //implementa a leitura do arquvivo e dos labels reais dos elementos
73 //deve ser implementado pelo usuário
74 ler_arquivo(data,labels);
75
76 double best_rand;
77 double mean_rand = 0.0;
78 int nr = 100;
79 double rands[nr];
80 double best_criteria = 1e100;
81 for(int i=0; i < nr; i++)
82 {
83 Dynamic *means = NULL;
84 if(method == 1)
85 means = new NonAdaptive(data, labels, nGroups, type, q);
86 else if(method == 3)
87 means = new Weighted(data, labels, nGroups, type, q, t);
88 else if(method == 2)
89 means = new Adaptive(data, labels, nGroups, type, q);
90
91 means->find_cluster();
92 double aux = means->get_Criteria();
93 if(aux < best_criteria)
94 {
95 best_criteria = aux;
96 best_rand = means->get_rand_index();
97 }
98
99 mean_rand += means->get_rand_index();
100 rands[i] = means->get_rand_index();
101
102 delete means;
103 }
104
105 mean_rand /= nr;
106 Interval conf = get_confiance_interval(rands, nr);
107 printf("max = %.3f\n", best_rand);
108 }
109
110 //Aplica agrupamento para dados sintéticos
156
J
Conjunto de reconhecimento de atividade
humana por dados de aceleração
K
Conjunto de fases de gestos
55 [4.54,4.57] [5.08,5.14] [2.29,2.52] [4.73,4.93] [4.57,4.77] [2.17,2.39] [4.66,4.71] [4.69,4.70] [2.59,2.65] brusco
56 [3.49,6.18] [1.76,4.10] [1.29,1.78] [4.92,5.95] [2.93,4.97] [1.26,1.70] [4.58,5.28] [1.57,1.86] [1.66,1.93] brusco
57 [4.50,5.76] [2.65,3.76] [1.27,1.55] [5.28,6.52] [2.23,3.23] [1.30,1.53] [5.03,5.56] [1.29,1.75] [1.69,1.81] brusco
58 [0.77,2.70] [1.43,4.56] [1.93,2.25] [2.37,4.25] [1.69,3.86] [1.87,2.38] [2.25,2.66] [0.81,1.31] [2.23,2.43] brusco
59 [4.85,5.85] [3.35,4.87] [1.29,1.69] [4.95,7.14] [2.93,4.30] [1.19,1.79] [4.87,5.52] [1.29,1.89] [1.74,2.15] brusco
60 [3.21,5.16] [3.84,5.34] [1.48,1.99] [3.45,5.68] [1.98,5.12] [1.30,1.84] [4.11,5.15] [1.49,1.96] [1.76,2.15] brusco
61 [1.45,3.47] [3.13,4.65] [1.68,2.25] [2.28,4.46] [1.64,4.93] [1.95,2.32] [2.25,2.91] [0.83,1.33] [2.22,2.41] brusco
62 [3.84,5.04] [3.16,5.32] [1.61,1.97] [4.70,6.30] [3.44,5.04] [1.61,2.01] [4.50,4.99] [1.79,1.95] [1.88,2.14] brusco
63 [0.50,2.15] [2.55,3.94] [1.67,2.08] [3.41,4.92] [2.38,4.77] [1.96,2.25] [2.66,3.02] [1.28,1.33] [2.17,2.25] brusco
64 [4.82,6.43] [2.68,4.04] [1.28,1.56] [3.87,5.68] [2.85,3.95] [1.26,1.58] [5.07,6.03] [1.16,2.15] [1.61,1.81] brusco
65 [2.85,4.67] [2.06,4.54] [1.45,1.68] [5.43,7.68] [1.17,2.71] [1.29,1.82] [5.51,5.96] [1.29,1.51] [1.71,1.77] brusco
66 [4.59,4.74] [4.82,5.04] [2.08,2.44] [4.70,4.82] [4.77,5.12] [2.02,2.49] [4.65,4.71] [4.69,4.70] [2.56,2.63] brusco
67 [3.34,4.98] [3.69,4.81] [1.29,1.71] [6.00,6.80] [3.71,4.60] [1.26,1.79] [4.87,5.11] [1.62,1.89] [1.68,2.15] brusco
68 [4.55,4.56] [5.12,5.15] [2.39,2.54] [4.66,4.82] [4.89,5.12] [2.08,2.44] [4.60,4.67] [4.70,4.73] [2.48,2.58] brusco
69 [4.62,4.94] [4.72,5.13] [1.52,1.55] [5.61,6.72] [1.30,1.96] [1.34,1.66] [4.83,4.98] [1.57,1.68] [1.75,1.78] brusco
70 [4.43,4.48] [4.81,4.95] [2.27,2.38] [4.78,4.90] [4.62,4.95] [2.24,2.46] [4.71,4.74] [4.69,4.73] [2.40,2.50] brusco
71 [3.39,4.42] [4.06,5.32] [1.81,1.96] [5.34,6.80] [2.36,4.09] [1.45,2.01] [4.27,4.90] [1.82,1.89] [1.97,2.14] brusco
72 [0.66,1.95] [3.64,5.74] [1.90,2.46] [2.65,5.00] [1.26,5.10] [1.95,2.20] [2.59,2.99] [1.16,2.19] [2.10,2.26] brusco
73 [3.25,5.34] [4.64,5.28] [1.51,1.69] [5.55,8.16] [1.51,2.44] [1.16,1.64] [5.37,5.86] [1.37,1.61] [1.71,1.75] brusco
74 [4.53,4.56] [5.09,5.15] [2.39,2.63] [4.68,4.88] [4.67,4.92] [1.99,2.18] [4.64,4.71] [4.69,4.71] [2.58,2.67] brusco
75 [3.51,4.43] [5.33,5.71] [1.81,1.97] [4.33,5.78] [5.59,6.20] [1.74,1.85] [4.56,5.37] [2.00,2.67] [1.72,1.86] brusco
76 [4.52,6.16] [2.49,3.16] [1.47,1.63] [4.43,5.44] [4.88,5.56] [1.49,1.57] [4.92,5.55] [1.28,2.31] [1.57,1.76] brusco
77 [4.11,5.81] [3.33,5.28] [1.29,1.55] [5.04,6.09] [2.74,4.46] [1.30,1.58] [4.71,5.28] [1.62,1.85] [1.67,1.78] brusco
78 [4.87,6.03] [2.48,3.45] [1.25,1.52] [5.71,6.33] [3.01,3.73] [1.27,1.49] [5.30,5.55] [1.35,1.53] [1.75,1.82] brusco
79 [4.84,6.21] [2.09,4.05] [1.35,1.60] [3.88,6.18] [2.13,3.86] [1.40,1.51] [4.99,5.47] [1.60,2.14] [1.62,1.77] brusco
80 [3.17,5.03] [2.73,3.81] [1.29,1.88] [5.19,7.00] [2.65,3.81] [1.22,1.88] [4.53,5.46] [1.61,1.88] [1.68,2.14] brusco
81 [3.59,3.78] [5.02,5.33] [1.78,1.83] [5.18,5.75] [1.12,3.13] [1.55,1.81] [4.17,4.59] [1.60,1.86] [1.93,1.99] retração
82 [4.39,5.74] [2.91,4.20] [1.38,1.53] [4.58,5.67] [3.07,4.03] [1.44,1.54] [4.99,5.46] [1.42,1.69] [1.73,1.81] retração
83 [3.04,4.21] [4.42,4.96] [1.77,1.97] [3.69,4.16] [4.17,4.55] [1.72,1.85] [4.91,4.97] [1.82,1.85] [2.15,2.17] retração
84 [1.18,2.36] [2.90,3.98] [1.94,2.23] [2.77,3.96] [1.37,2.90] [1.84,2.31] [2.11,2.40] [0.85,1.31] [2.23,2.40] retração
85 [2.75,3.14] [2.60,3.32] [2.12,2.18] [2.17,2.51] [2.35,3.27] [2.04,2.14] [2.43,2.46] [0.85,0.86] [2.39,2.40] retração
86 [4.55,4.58] [4.88,5.11] [2.09,2.22] [4.78,4.90] [4.99,5.06] [2.27,2.40] [4.69,4.71] [4.69,4.70] [2.48,2.51] retração
87 [4.49,4.52] [5.06,5.12] [2.78,2.95] [4.83,4.89] [4.99,5.09] [2.40,2.51] [4.69,4.70] [4.70,4.70] [2.74,2.75] retração
88 [4.43,4.73] [5.10,5.61] [1.54,1.79] [6.32,7.05] [4.57,4.67] [1.38,1.49] [5.24,5.46] [1.48,1.51] [1.71,1.73] retração
89 [4.27,5.45] [3.30,4.80] [1.46,1.53] [5.50,6.58] [2.09,3.40] [1.30,1.58] [5.20,5.40] [1.48,1.54] [1.73,1.76] retração
90 [1.89,2.17] [3.97,4.13] [2.21,2.23] [2.76,3.34] [0.51,2.44] [2.19,2.23] [2.28,2.36] [0.86,0.93] [2.37,2.41] retração
91 [4.44,4.55] [4.77,4.86] [2.27,2.49] [4.78,4.89] [4.85,5.13] [2.37,2.49] [4.68,4.69] [4.70,4.70] [2.47,2.70] retração
92 [4.51,5.01] [3.39,4.72] [1.70,1.82] [3.68,4.84] [3.94,4.56] [1.46,1.80] [4.28,4.63] [1.82,1.86] [1.91,1.97] retração
93 [2.69,3.48] [5.67,5.93] [1.79,2.08] [5.48,6.09] [5.56,5.92] [1.73,2.08] [4.29,4.38] [1.80,1.86] [1.95,1.97] retração
94 [3.55,3.88] [4.60,5.43] [1.64,1.84] [4.08,5.79] [3.46,5.22] [1.55,1.69] [4.17,4.52] [1.80,1.84] [1.95,1.99] retração
95 [4.29,4.99] [4.16,4.76] [1.71,1.92] [4.71,6.38] [3.60,4.65] [1.79,1.94] [4.85,4.94] [1.85,1.89] [2.09,2.15] retração
96 [3.52,4.35] [5.04,5.45] [1.89,2.00] [5.12,6.22] [5.01,5.41] [1.83,1.98] [4.86,4.92] [1.82,1.88] [2.09,2.16] retração
97 [4.68,5.58] [3.67,5.41] [1.39,1.59] [4.63,5.79] [3.78,5.13] [1.41,1.58] [4.99,5.47] [1.46,1.71] [1.73,1.85] retração
98 [3.32,3.73] [3.63,5.15] [1.62,1.95] [5.85,6.28] [3.37,4.79] [1.62,1.90] [4.52,4.94] [1.83,1.88] [1.98,2.13] retração
99 [1.29,2.11] [5.03,5.63] [1.98,2.14] [1.88,3.50] [3.94,5.15] [1.87,2.13] [2.58,2.88] [1.31,1.36] [2.22,2.26] retração
100 [1.18,1.40] [4.88,4.96] [2.31,2.41] [2.48,2.59] [3.05,3.75] [2.13,2.17] [2.17,2.19] [0.82,0.83] [2.42,2.42] retração
101 [1.44,1.71] [3.64,4.26] [2.07,2.21] [3.48,3.84] [3.40,3.98] [2.15,2.38] [2.34,2.45] [0.85,0.98] [2.37,2.40] retração
102 [3.84,4.87] [4.31,5.15] [1.63,1.80] [4.03,5.42] [3.88,4.94] [1.50,1.87] [4.19,4.72] [1.80,2.01] [1.89,1.99] retração
103 [3.99,4.88] [4.53,5.16] [1.82,2.00] [4.20,5.46] [3.55,5.27] [1.81,2.00] [4.85,4.95] [1.82,1.88] [2.10,2.17] retração
104 [1.47,2.65] [3.39,4.83] [2.09,2.22] [2.53,3.65] [2.38,4.81] [2.11,2.42] [2.13,2.43] [0.83,0.91] [2.36,2.44] retração
105 [3.58,4.44] [4.58,5.37] [1.66,1.84] [4.32,5.09] [4.89,5.47] [1.52,1.82] [4.17,4.52] [1.78,1.89] [1.95,1.99] retração
106 [3.70,4.67] [5.15,5.64] [1.70,1.81] [4.91,5.26] [5.17,5.69] [1.44,1.86] [4.40,5.35] [1.79,1.85] [1.76,1.98] retração
107 [4.54,4.59] [5.11,5.14] [2.47,2.64] [4.77,4.87] [4.61,5.08] [2.01,2.35] [4.66,4.69] [4.69,4.70] [2.56,2.62] retração
108 [1.80,2.14] [3.37,5.26] [1.86,1.99] [3.51,4.31] [2.13,5.14] [1.96,2.17] [2.39,2.88] [1.31,1.35] [2.21,2.23] retração
109 [1.71,3.98] [2.09,3.61] [1.42,1.67] [5.94,8.55] [2.11,3.14] [1.42,1.71] [4.52,5.69] [1.40,1.83] [1.70,1.98] retração
110 [3.56,4.04] [5.07,5.64] [1.69,1.84] [5.12,5.83] [4.81,5.71] [1.61,1.89] [4.19,4.52] [1.80,1.91] [1.95,1.98] retração
111 [0.00,1.71] [4.59,5.57] [1.95,2.27] [3.85,5.31] [4.70,5.33] [2.05,2.14] [2.55,2.88] [1.30,1.36] [2.16,2.22] retração
112 [3.94,4.08] [4.95,5.24] [1.86,1.93] [5.46,6.53] [3.37,4.79] [1.83,1.89] [4.92,4.95] [1.86,1.86] [2.13,2.13] retração
113 [3.32,3.82] [4.14,5.28] [1.43,1.64] [6.68,6.80] [4.26,5.18] [1.45,1.51] [5.46,5.50] [1.41,1.41] [1.69,1.70] retração
114 [4.43,4.59] [4.91,5.13] [2.25,2.57] [4.73,4.90] [4.93,5.15] [2.28,2.72] [4.66,4.72] [4.69,4.71] [2.51,2.72] retração
115 [1.38,1.81] [3.13,3.64] [1.89,2.21] [3.25,3.78] [2.80,3.33] [2.00,2.29] [2.27,2.40] [0.85,0.93] [2.35,2.40] retração
116 [3.93,5.26] [3.06,5.08] [1.35,1.54] [4.63,5.93] [3.31,4.84] [1.40,1.52] [4.99,5.22] [1.60,1.80] [1.69,1.77] retração
117 [4.59,4.74] [4.65,5.13] [1.47,1.55] [5.46,6.67] [1.66,3.30] [1.44,1.61] [4.97,5.13] [1.61,1.68] [1.75,1.77] retração
118 [4.46,4.59] [4.85,5.15] [2.46,2.76] [4.74,4.89] [4.82,5.15] [2.35,2.68] [4.66,4.71] [4.70,4.71] [2.58,2.74] retração
119 [5.87,6.41] [2.96,3.46] [1.40,1.59] [5.55,5.98] [4.53,4.83] [1.53,1.58] [5.14,5.47] [1.52,2.45] [1.56,1.73] retração
120 [3.37,4.50] [3.04,4.31] [1.42,1.54] [5.85,7.25] [2.98,4.13] [1.42,1.54] [5.08,5.57] [1.40,1.76] [1.69,1.76] retração
121 [3.87,4.69] [5.22,5.82] [1.74,1.89] [5.36,5.96] [4.74,6.14] [1.63,1.85] [4.58,5.37] [1.82,2.66] [1.72,1.95] preparação
122 [1.33,1.76] [3.75,4.53] [1.97,2.03] [2.56,3.35] [4.00,4.14] [1.92,1.93] [2.61,2.66] [1.28,1.29] [2.24,2.24] preparação
123 [4.40,5.65] [2.46,3.37] [1.21,1.55] [4.50,5.66] [2.05,5.41] [1.30,1.61] [5.05,5.64] [1.03,2.38] [1.54,1.82] preparação
124 [4.76,6.07] [2.98,4.89] [1.31,1.52] [4.56,6.68] [2.84,4.12] [1.31,1.59] [4.99,5.87] [1.21,1.64] [1.73,1.80] preparação
125 [4.65,4.71] [4.91,4.95] [2.27,2.40] [4.79,4.81] [5.12,5.13] [2.24,2.32] [4.65,4.66] [4.70,4.70] [2.55,2.56] preparação
126 [3.08,3.88] [2.61,4.31] [1.60,2.00] [6.25,6.79] [2.81,3.95] [1.55,1.94] [4.86,5.00] [1.73,1.86] [1.74,2.14] preparação
127 [0.00,2.01] [2.81,4.33] [1.88,2.22] [3.80,5.04] [2.77,4.13] [1.96,2.22] [2.80,3.12] [1.30,1.31] [2.22,2.23] preparação
128 [4.48,4.59] [5.00,5.14] [2.27,2.71] [4.67,4.94] [4.59,5.09] [2.30,2.49] [4.66,4.72] [4.69,4.70] [2.59,2.64] preparação
129 [3.84,5.00] [3.32,4.76] [1.50,1.84] [3.74,6.19] [2.65,4.12] [1.48,1.84] [4.26,4.99] [1.69,1.88] [1.73,2.14] preparação
130 [0.94,1.51] [4.61,5.67] [1.94,2.46] [3.77,5.10] [3.72,5.59] [1.97,2.27] [2.68,3.13] [1.28,1.62] [2.16,2.25] preparação
161
131 [4.53,4.59] [4.88,4.96] [2.13,2.29] [4.80,4.84] [4.77,5.10] [2.47,2.61] [4.71,4.71] [4.69,4.70] [2.59,2.60] preparação
132 [4.51,4.60] [4.89,5.07] [2.25,2.46] [4.74,4.91] [4.84,5.00] [2.35,2.47] [4.66,4.71] [4.69,4.70] [2.59,2.73] preparação
133 [2.78,4.69] [4.00,5.29] [1.61,1.97] [3.62,6.22] [3.50,4.83] [1.59,1.93] [4.74,4.98] [1.83,1.91] [1.86,2.15] preparação
134 [1.15,1.55] [4.67,5.58] [2.03,2.46] [2.35,4.44] [2.80,4.21] [1.93,2.16] [2.29,2.89] [0.88,1.33] [2.23,2.41] preparação
135 [4.49,4.70] [4.87,5.09] [2.13,2.37] [4.61,4.82] [4.86,5.08] [2.08,2.33] [4.61,4.69] [4.69,4.71] [2.55,2.63] preparação
136 [2.28,2.68] [2.46,3.78] [2.09,2.21] [2.36,2.95] [1.94,3.95] [2.08,2.39] [2.25,2.43] [0.81,0.94] [2.30,2.41] preparação
137 [4.58,4.64] [4.95,4.96] [2.22,2.33] [4.78,4.83] [5.06,5.13] [2.33,2.65] [4.66,4.71] [4.69,4.70] [2.56,2.62] preparação
138 [4.55,4.58] [4.84,4.91] [2.25,2.50] [4.68,4.75] [4.83,4.97] [2.24,2.47] [4.66,4.69] [4.70,4.70] [2.61,2.73] preparação
139 [1.20,1.76] [2.82,3.83] [1.93,2.12] [2.15,2.48] [3.97,3.99] [1.91,1.97] [2.50,2.60] [1.29,1.30] [2.24,2.24] preparação
140 [3.61,4.65] [4.67,5.57] [1.71,1.87] [4.42,6.24] [3.66,5.59] [1.56,1.86] [4.22,4.77] [1.77,1.87] [1.92,1.98] preparação
141 [4.50,4.59] [5.10,5.16] [2.33,2.66] [4.61,4.92] [4.88,5.12] [2.04,2.46] [4.60,4.68] [4.69,4.73] [2.47,2.61] preparação
142 [1.87,2.83] [2.75,3.19] [1.61,1.65] [7.22,8.19] [2.99,3.37] [1.54,1.57] [5.00,5.03] [1.74,1.77] [1.73,1.74] preparação
143 [3.77,5.01] [4.10,5.45] [1.47,1.97] [4.87,7.15] [2.46,3.97] [1.48,1.97] [4.34,5.05] [1.56,1.86] [1.77,2.14] preparação
144 [1.47,3.30] [2.96,5.00] [1.72,2.04] [3.31,4.17] [3.49,4.63] [1.82,2.11] [2.66,2.99] [1.28,1.33] [2.22,2.26] preparação
145 [1.47,2.67] [5.01,6.04] [1.87,2.09] [2.36,3.23] [4.08,5.01] [1.76,1.96] [2.11,2.87] [1.32,1.67] [2.10,2.25] preparação
146 [2.91,4.90] [2.27,4.61] [1.38,1.57] [6.87,7.56] [1.84,3.97] [1.35,1.78] [5.52,5.93] [1.42,1.51] [1.75,1.78] preparação
147 [1.40,3.36] [3.44,4.65] [2.02,2.27] [3.24,4.33] [0.84,3.84] [1.99,2.64] [2.33,2.72] [0.82,1.09] [2.29,2.43] preparação
148 [1.82,2.53] [3.26,3.75] [1.92,2.00] [3.51,4.53] [2.25,3.44] [2.01,2.21] [2.44,2.88] [1.30,1.33] [2.22,2.24] preparação
149 [0.54,1.28] [3.08,5.65] [1.87,2.10] [4.23,5.25] [1.37,3.67] [1.99,2.18] [2.66,3.14] [1.30,1.33] [2.20,2.23] preparação
150 [4.05,5.64] [3.89,5.60] [1.35,1.67] [4.98,7.14] [3.17,5.45] [1.33,1.64] [5.00,5.77] [1.42,1.70] [1.72,1.81] preparação
151 [1.08,2.69] [0.98,4.23] [1.98,2.24] [2.65,4.24] [0.90,3.40] [2.10,2.36] [2.24,2.68] [0.80,1.31] [2.22,2.43] preparação
152 [4.48,4.57] [4.80,4.94] [2.30,2.54] [4.70,4.85] [4.83,4.95] [2.27,2.46] [4.66,4.70] [4.69,4.70] [2.61,2.73] preparação
153 [4.42,4.56] [5.04,5.15] [2.40,2.70] [4.78,4.94] [4.89,5.15] [2.41,2.70] [4.63,4.72] [4.69,4.70] [2.60,2.73] preparação
154 [3.64,4.02] [5.12,5.54] [1.77,1.83] [5.08,6.68] [0.88,2.60] [1.56,1.79] [4.41,4.57] [1.79,1.84] [1.96,1.97] preparação
155 [3.99,5.38] [3.36,4.81] [1.37,1.53] [4.45,6.47] [2.28,4.99] [1.35,1.56] [4.86,5.61] [1.42,1.73] [1.72,1.82] preparação
156 [2.35,2.48] [3.70,4.30] [1.97,2.25] [4.05,4.46] [3.58,4.34] [1.94,2.05] [2.44,2.68] [1.04,1.30] [2.22,2.29] preparação
157 [3.67,4.69] [4.64,5.35] [1.75,2.03] [4.52,5.98] [4.35,5.36] [1.80,2.00] [4.52,5.05] [1.80,1.90] [1.93,2.14] preparação
158 [3.87,4.50] [3.70,4.94] [1.63,1.78] [4.92,5.57] [3.87,5.28] [1.64,1.92] [4.25,4.78] [1.78,1.87] [1.88,1.99] preparação
159 [4.54,4.76] [4.89,5.08] [2.15,2.37] [4.61,4.82] [4.61,5.05] [2.22,2.45] [4.66,4.71] [4.69,4.70] [2.58,2.73] preparação
160 [1.58,2.72] [3.44,4.71] [2.09,2.23] [2.36,3.73] [1.84,4.46] [2.10,2.50] [2.32,2.45] [0.82,0.89] [2.39,2.42] preparação
161 [1.84,1.86] [3.20,3.26] [1.89,1.90] [3.69,3.72] [3.13,3.20] [2.01,2.02] [2.41,2.41] [0.86,0.86] [2.39,2.39] no aguardo
162 [4.57,4.57] [5.01,5.02] [2.11,2.15] [4.68,4.70] [5.02,5.02] [2.11,2.13] [4.61,4.62] [4.70,4.70] [2.59,2.59] no aguardo
163 [0.00,0.00] [3.90,4.53] [2.23,2.27] [5.10,5.33] [4.20,4.65] [2.03,2.05] [2.84,2.86] [1.31,1.31] [2.22,2.22] no aguardo
164 [2.00,2.07] [3.83,4.21] [2.08,2.10] [2.99,3.05] [3.83,4.18] [2.12,2.13] [2.26,2.33] [0.84,0.91] [2.41,2.43] no aguardo
165 [3.57,6.40] [2.10,3.05] [1.18,1.58] [4.56,7.00] [2.57,4.97] [1.28,1.55] [4.95,5.70] [1.16,1.98] [1.59,1.78] no aguardo
166 [2.25,2.43] [2.88,3.46] [2.14,2.20] [2.99,3.12] [1.57,2.20] [1.84,1.90] [2.22,2.30] [0.90,1.25] [2.27,2.40] no aguardo
167 [4.66,4.67] [5.07,5.09] [2.21,2.25] [4.66,4.69] [5.05,5.09] [2.22,2.28] [4.66,4.68] [4.69,4.70] [2.54,2.56] no aguardo
168 [3.96,4.07] [4.34,4.41] [1.60,1.61] [5.26,5.67] [4.41,4.73] [1.60,1.66] [4.83,4.97] [1.88,1.99] [1.82,1.87] no aguardo
169 [3.54,4.37] [4.76,5.41] [1.76,2.01] [4.91,6.09] [4.75,5.47] [1.68,2.00] [4.54,4.93] [1.80,1.91] [1.95,2.13] no aguardo
170 [4.58,5.56] [3.92,4.46] [1.59,1.90] [4.96,5.39] [4.27,4.45] [1.53,1.91] [4.84,4.93] [1.68,1.87] [1.75,2.09] no aguardo
171 [1.23,1.47] [2.83,3.15] [2.05,2.12] [2.16,2.18] [3.99,4.00] [1.94,1.96] [2.52,2.56] [1.29,1.30] [2.24,2.24] no aguardo
172 [3.72,3.89] [4.41,4.50] [1.88,1.89] [5.42,5.51] [4.35,4.50] [1.83,1.84] [4.87,4.88] [1.86,1.87] [2.11,2.11] no aguardo
173 [1.58,1.87] [2.99,3.24] [1.96,2.02] [4.22,4.37] [2.46,3.55] [2.05,2.16] [2.68,2.94] [1.29,1.31] [2.21,2.22] no aguardo
174 [3.97,4.22] [4.23,4.58] [1.61,1.76] [5.13,5.47] [4.42,4.70] [1.61,1.75] [4.62,4.83] [1.86,1.89] [1.86,1.95] no aguardo
175 [4.18,4.47] [4.07,4.64] [1.76,1.92] [5.18,5.31] [4.10,4.42] [1.74,1.91] [4.62,4.88] [1.85,1.88] [1.95,2.09] no aguardo
176 [0.99,0.99] [5.66,5.68] [2.08,2.10] [4.76,4.92] [4.27,4.61] [2.07,2.09] [2.70,2.71] [1.32,1.33] [2.23,2.23] no aguardo
177 [1.58,1.81] [3.87,4.09] [2.10,2.13] [3.45,3.51] [3.69,3.98] [2.19,2.24] [2.41,2.49] [0.88,0.98] [2.36,2.41] no aguardo
178 [2.67,3.09] [2.28,2.60] [2.03,2.17] [2.30,2.63] [2.18,2.39] [2.02,2.07] [2.44,2.47] [0.83,0.87] [2.37,2.39] no aguardo
179 [1.91,3.31] [3.29,3.87] [1.94,2.09] [3.51,4.52] [2.81,3.96] [1.95,2.07] [2.44,2.94] [0.89,1.33] [2.22,2.39] no aguardo
180 [4.82,5.21] [4.24,4.55] [1.91,1.94] [6.27,6.40] [4.46,4.58] [1.84,1.85] [4.85,4.92] [1.86,1.90] [2.12,2.13] no aguardo
181 [4.12,4.30] [4.40,4.59] [1.61,1.70] [5.00,5.04] [3.78,3.91] [1.49,1.52] [4.73,4.79] [1.85,1.87] [1.91,1.95] no aguardo
182 [4.74,5.57] [3.60,4.24] [1.52,1.81] [3.67,4.55] [3.49,3.96] [1.47,1.79] [4.34,4.92] [1.68,1.85] [1.74,1.97] no aguardo
183 [1.71,2.90] [4.08,4.89] [1.93,2.00] [3.50,3.68] [4.02,4.12] [1.98,1.99] [2.85,2.94] [1.30,1.30] [2.23,2.24] no aguardo
184 [4.80,4.96] [4.35,4.49] [1.35,1.36] [6.12,6.19] [4.31,4.37] [1.35,1.36] [5.47,5.48] [1.47,1.48] [1.79,1.80] no aguardo
185 [4.60,4.61] [4.99,5.01] [2.10,2.13] [4.69,4.73] [4.99,5.01] [2.12,2.17] [4.63,4.65] [4.70,4.70] [2.59,2.61] no aguardo
186 [1.89,1.93] [3.37,3.62] [1.93,1.99] [3.44,3.62] [3.33,3.51] [2.04,2.09] [2.41,2.41] [0.85,0.86] [2.39,2.39] no aguardo
187 [4.24,4.28] [4.63,4.64] [1.87,1.88] [6.39,6.45] [3.67,3.72] [1.82,1.83] [4.90,4.91] [1.88,1.88] [2.12,2.12] no aguardo
188 [4.41,4.55] [5.09,5.12] [2.42,2.54] [4.82,4.90] [5.06,5.12] [2.37,2.59] [4.64,4.71] [4.69,4.70] [2.61,2.72] no aguardo
189 [1.14,1.77] [5.44,5.61] [2.00,2.15] [2.79,2.90] [4.05,4.12] [1.96,1.96] [2.74,2.80] [1.33,1.34] [2.25,2.26] no aguardo
190 [2.81,3.77] [4.30,4.85] [1.65,1.86] [3.74,3.81] [4.06,4.41] [1.70,1.73] [4.90,4.98] [1.86,1.91] [2.13,2.15] no aguardo
191 [1.87,1.89] [3.28,3.34] [1.90,1.92] [3.64,3.68] [3.21,3.30] [2.02,2.04] [2.41,2.41] [0.86,0.86] [2.39,2.39] no aguardo
192 [4.54,4.74] [4.89,5.14] [2.22,2.52] [4.65,4.87] [4.60,5.13] [2.20,2.67] [4.66,4.71] [4.69,4.70] [2.57,2.65] no aguardo
193 [4.47,4.55] [4.77,4.85] [2.39,2.67] [4.70,4.89] [4.78,4.88] [2.37,2.66] [4.66,4.70] [4.69,4.70] [2.62,2.70] no aguardo
194 [3.27,3.60] [3.14,4.47] [1.64,1.96] [5.96,6.26] [2.95,4.80] [1.68,1.87] [4.53,4.92] [1.82,1.89] [1.98,2.12] no aguardo
195 [1.82,1.84] [3.13,3.19] [1.89,1.89] [3.72,3.72] [3.07,3.12] [2.00,2.01] [2.40,2.41] [0.86,0.86] [2.39,2.39] no aguardo
196 [1.70,1.73] [2.76,3.01] [2.00,2.02] [3.49,3.52] [4.23,4.29] [1.98,2.02] [2.82,2.82] [1.28,1.29] [2.23,2.24] no aguardo
197 [3.58,3.91] [5.00,5.41] [1.77,1.84] [5.17,5.44] [0.61,1.28] [1.77,1.86] [4.28,4.58] [1.66,1.88] [1.92,1.96] no aguardo
198 [1.96,2.25] [3.01,3.37] [1.93,1.94] [3.35,3.69] [3.91,4.34] [1.98,2.02] [2.83,2.84] [1.28,1.28] [2.25,2.26] no aguardo
199 [4.57,4.59] [5.01,5.01] [2.11,2.15] [4.68,4.68] [5.01,5.02] [2.10,2.12] [4.62,4.63] [4.70,4.70] [2.59,2.59] no aguardo
200 [1.84,3.51] [2.16,3.18] [1.62,1.65] [7.07,8.23] [2.09,3.04] [1.56,1.72] [5.03,5.14] [1.59,1.77] [1.73,1.75] no aguardo
162
L
Conjunto de sementes
comprimento da largura da
índice classe
amêndoa amêndoa
1 [5.527,5.709] [3.462,3.562] Kama
2 [4.902,5.262] [2.850,3.201] Kama
3 [5.291,5.388] [3.333,3.412] Kama
4 [5.656,5.789] [3.212,3.328] Kama
5 [5.826,6.053] [3.396,3.683] Kama
6 [5.119,5.205] [3.383,3.466] Kama
7 [5.348,5.376] [3.155,3.158] Kama
8 [5.386,5.420] [3.298,3.312] Kama
9 [5.395,5.395] [3.026,3.070] Kama
10 [5.504,5.630] [3.150,3.333] Kama
11 [5.570,5.757] [3.371,3.434] Kama
12 [5.395,5.454] [2.882,2.975] Kama
13 [5.479,5.516] [3.065,3.156] Kama
14 [5.658,5.741] [3.113,3.186] Kama
15 [5.438,5.439] [3.199,3.201] Kama
16 [5.832,5.920] [3.231,3.286] Rosa
17 [5.363,5.875] [3.387,3.582] Rosa
18 [6.037,6.107] [3.764,3.786] Rosa
19 [5.791,5.980] [3.687,3.771] Rosa
20 [6.006,6.051] [3.857,3.897] Rosa
21 [6.111,6.183] [3.796,3.930] Rosa
22 [6.450,6.573] [3.991,4.033] Rosa
23 [6.219,6.272] [3.684,3.815] Rosa
24 [5.978,6.059] [3.563,3.594] Rosa
25 [6.285,6.315] [3.791,3.962] Rosa
26 [6.493,6.675] [3.670,3.857] Rosa
27 [5.927,6.139] [3.403,3.486] Rosa
28 [6.145,6.285] [3.512,3.674] Rosa
29 [6.445,6.666] [3.485,3.639] Rosa
30 [6.341,6.416] [3.681,3.810] Rosa
31 [5.363,5.444] [2.678,2.716] Canadian
32 [5.350,5.417] [2.745,2.837] Canadian
33 [5.319,5.451] [2.879,2.911] Canadian
34 [5.220,5.325] [2.641,2.701] Canadian
35 [5.145,5.180] [2.630,2.668] Canadian
36 [5.204,5.333] [2.909,2.989] Canadian
37 [5.053,5.175] [2.795,2.850] Canadian
38 [4.984,5.236] [3.091,3.232] Canadian
39 [4.899,5.011] [2.787,2.821] Canadian
40 [5.224,5.320] [3.017,3.128] Canadian
41 [5.389,5.541] [2.994,3.074] Canadian
42 [5.136,5.186] [2.710,2.763] Canadian
43 [5.263,5.314] [2.777,2.847] Canadian
44 [5.105,5.137] [2.941,2.981] Canadian
45 [5.046,5.090] [2.675,2.775] Canadian
163
M
Conjunto vinhos brancos com qualidades 4,
6e8
açúcar
índice densidade pH álcool classe
residual
1 [3.200,4.600] [0.990,0.996] [2.900,3.560] [10.200,12.100] nível qualidade 4
2 [6.700,8.200] [0.993,0.998] [2.990,3.570] [9.600,10.600] nível qualidade 4
3 [8.100,9.400] [0.995,0.999] [2.850,3.520] [8.500,10.200] nível qualidade 4
4 [2.000,3.700] [0.991,0.998] [2.770,3.650] [8.600,10.600] nível qualidade 4
5 [13.100,13.800] [0.997,1.000] [2.900,3.420] [8.500,9.500] nível qualidade 4
6 [9.650,11.300] [0.992,0.999] [2.850,3.750] [10.100,13.600] nível qualidade 4
7 [2.500,3.800] [0.988,0.993] [2.900,3.530] [11.900,14.000] nível qualidade 4
8 [7.400,9.700] [0.990,0.994] [2.930,3.530] [11.700,14.050] nível qualidade 4
9 [3.300,5.500] [0.993,0.997] [2.830,3.720] [8.000,10.200] nível qualidade 4
10 [5.300,7.300] [0.990,0.994] [2.910,3.540] [11.400,12.900] nível qualidade 4
11 [5.300,6.600] [0.992,0.997] [2.790,3.680] [10.000,11.500] nível qualidade 4
12 [7.400,8.300] [0.995,0.998] [2.860,3.560] [8.600,9.700] nível qualidade 4
13 [18.500,65.800] [0.996,1.039] [2.930,3.510] [8.500,12.800] nível qualidade 4
14 [0.800,1.600] [0.987,0.992] [2.800,3.590] [12.000,14.000] nível qualidade 4
15 [4.200,5.550] [0.991,0.996] [2.870,3.820] [9.900,11.800] nível qualidade 4
16 [16.600,18.400] [0.997,1.002] [2.850,3.450] [8.500,10.500] nível qualidade 4
17 [0.600,2.000] [0.990,0.995] [2.740,3.800] [10.100,10.900] nível qualidade 4
18 [10.600,11.800] [0.996,1.000] [2.860,3.440] [8.600,10.200] nível qualidade 4
19 [4.900,6.600] [0.989,0.992] [2.820,3.480] [12.500,13.600] nível qualidade 4
20 [6.500,7.500] [0.994,0.997] [2.940,3.440] [8.800,9.900] nível qualidade 4
21 [0.800,2.300] [0.989,0.993] [2.910,3.650] [11.400,12.333] nível qualidade 4
22 [0.900,2.200] [0.991,0.996] [2.880,3.800] [10.400,11.200] nível qualidade 4
23 [6.200,7.500] [0.992,0.996] [2.800,3.630] [10.200,11.900] nível qualidade 4
24 [0.700,1.800] [0.989,0.994] [2.870,3.760] [10.900,11.800] nível qualidade 4
25 [11.400,12.600] [0.995,0.999] [2.870,3.600] [8.600,10.100] nível qualidade 4
26 [0.700,1.900] [0.991,0.997] [2.830,3.810] [9.600,10.400] nível qualidade 4
27 [1.500,2.400] [0.987,0.992] [2.930,3.590] [12.150,14.200] nível qualidade 4
28 [7.600,8.700] [0.992,0.997] [2.900,3.520] [10.100,11.500] nível qualidade 4
29 [13.900,15.000] [0.997,1.001] [2.890,3.360] [8.600,9.500] nível qualidade 4
30 [3.700,5.300] [0.989,0.993] [2.900,3.570] [11.600,13.800] nível qualidade 4
31 [9.400,10.900] [0.995,0.998] [2.860,3.480] [8.600,10.300] nível qualidade 4
32 [12.700,14.500] [0.995,0.999] [2.720,3.560] [9.300,12.100] nível qualidade 4
33 [14.900,16.500] [0.997,1.001] [2.870,3.490] [8.600,10.100] nível qualidade 4
34 [0.700,2.000] [0.991,0.997] [2.890,3.770] [8.000,9.800] nível qualidade 4
35 [1.900,3.150] [0.990,0.995] [2.880,3.750] [10.600,12.000] nível qualidade 4
36 [8.500,9.900] [0.993,0.999] [2.880,3.660] [9.700,11.500] nível qualidade 4
37 [12.200,13.000] [0.997,1.000] [2.880,3.660] [8.500,9.800] nível qualidade 4
38 [14.000,16.800] [0.994,1.000] [2.960,3.480] [9.600,13.000] nível qualidade 4
39 [11.400,13.300] [0.993,0.997] [2.910,3.410] [10.100,13.000] nível qualidade 4
40 [5.200,6.800] [0.993,0.999] [2.890,3.500] [8.400,10.300] nível qualidade 4
41 [9.000,10.000] [0.994,0.998] [2.870,3.480] [9.600,10.600] nível qualidade 6
42 [7.000,7.850] [0.992,0.997] [2.910,3.520] [10.600,12.000] nível qualidade 6
43 [2.900,3.400] [0.990,0.994] [3.000,3.420] [10.500,11.500] nível qualidade 6
44 [2.100,2.700] [0.989,0.991] [3.030,3.560] [12.200,13.000] nível qualidade 6
45 [1.000,1.800] [0.988,0.991] [2.960,3.560] [12.700,13.400] nível qualidade 6
46 [11.700,12.300] [0.994,0.999] [2.990,3.580] [10.000,11.300] nível qualidade 6
47 [2.500,3.700] [0.992,0.995] [3.000,3.540] [9.200,10.500] nível qualidade 6
48 [1.400,1.900] [0.991,0.996] [2.970,3.720] [10.200,10.600] nível qualidade 6
164
N
Conjunto vinhos brancos com qualidades 6,
7e8
açúcar
índice densidade pH álcool classe
residual
1 [9.000,10.000] [0.994,0.998] [2.870,3.480] [9.600,10.600] nível qualidade 6
2 [7.000,7.850] [0.992,0.997] [2.910,3.520] [10.600,12.000] nível qualidade 6
3 [2.900,3.400] [0.990,0.994] [3.000,3.420] [10.500,11.500] nível qualidade 6
4 [2.100,2.700] [0.989,0.991] [3.030,3.560] [12.200,13.000] nível qualidade 6
5 [1.000,1.800] [0.988,0.991] [2.960,3.560] [12.700,13.400] nível qualidade 6
6 [11.700,12.300] [0.994,0.999] [2.990,3.580] [10.000,11.300] nível qualidade 6
7 [2.500,3.700] [0.992,0.995] [3.000,3.540] [9.200,10.500] nível qualidade 6
8 [1.400,1.900] [0.991,0.996] [2.970,3.720] [10.200,10.600] nível qualidade 6
9 [1.800,2.500] [0.991,0.996] [2.960,3.650] [9.900,10.500] nível qualidade 6
10 [5.600,6.300] [0.994,0.997] [3.200,3.680] [10.400,10.800] nível qualidade 6
11 [16.650,17.750] [0.998,1.002] [2.850,3.450] [8.800,10.200] nível qualidade 6
12 [1.550,2.000] [0.993,0.997] [3.040,3.650] [9.000,9.600] nível qualidade 6
13 [12.550,13.900] [0.995,0.997] [2.910,3.400] [10.500,11.200] nível qualidade 6
14 [8.500,9.200] [0.995,0.999] [2.850,3.470] [8.500,9.900] nível qualidade 6
15 [1.500,1.800] [0.993,0.997] [2.970,3.280] [8.500,9.500] nível qualidade 6
16 [1.800,2.700] [0.992,0.995] [3.070,3.630] [10.300,10.900] nível qualidade 6
17 [11.800,14.500] [0.993,0.996] [2.990,3.410] [11.300,13.000] nível qualidade 6
18 [7.300,8.400] [0.995,0.998] [2.860,3.560] [8.600,9.400] nível qualidade 6
19 [11.300,11.950] [0.996,0.998] [2.870,3.410] [9.300,10.000] nível qualidade 6
20 [12.600,13.300] [0.995,0.999] [3.020,3.470] [9.900,10.400] nível qualidade 6
21 [8.900,10.200] [0.991,0.996] [2.980,3.740] [11.300,13.100] nível qualidade 6
22 [3.900,4.550] [0.991,0.993] [3.000,3.410] [11.000,11.900] nível qualidade 6
23 [1.800,2.400] [0.991,0.995] [3.030,3.430] [10.800,11.300] nível qualidade 6
24 [11.750,12.500] [0.995,0.999] [2.920,3.450] [9.000,9.700] nível qualidade 6
25 [7.100,7.900] [0.994,0.998] [2.990,3.490] [9.600,10.400] nível qualidade 6
26 [2.100,2.850] [0.989,0.992] [2.940,3.410] [11.600,12.150] nível qualidade 6
27 [9.400,10.300] [0.995,0.998] [2.860,3.410] [8.900,9.900] nível qualidade 6
28 [1.900,2.900] [0.992,0.998] [2.770,3.500] [8.800,9.800] nível qualidade 6
29 [6.800,7.600] [0.994,0.998] [3.060,3.530] [8.800,9.800] nível qualidade 6
30 [7.600,8.500] [0.992,0.997] [2.960,3.460] [10.300,11.500] nível qualidade 6
31 [1.900,2.400] [0.990,0.993] [2.890,3.690] [11.100,11.700] nível qualidade 6
32 [8.200,9.300] [0.994,0.999] [2.880,3.470] [9.900,10.700] nível qualidade 6
33 [14.150,14.600] [0.997,1.000] [2.890,3.290] [8.700,9.400] nível qualidade 6
34 [0.600,1.500] [0.990,0.994] [2.740,3.240] [10.300,10.800] nível qualidade 6
35 [17.550,18.600] [0.998,1.002] [2.940,3.440] [8.500,10.200] nível qualidade 6
36 [1.300,2.200] [0.987,0.990] [2.980,3.390] [13.000,14.200] nível qualidade 6
37 [0.800,1.500] [0.992,0.996] [2.890,3.770] [9.200,9.700] nível qualidade 6
38 [14.700,15.550] [0.997,1.001] [2.900,3.340] [8.600,9.500] nível qualidade 6
39 [15.600,16.650] [0.998,1.002] [2.960,3.490] [8.600,9.800] nível qualidade 6
40 [14.100,14.750] [0.999,1.001] [3.210,3.360] [8.600,9.100] nível qualidade 6
41 [1.300,1.600] [0.990,0.994] [2.870,3.430] [10.900,11.300] nível qualidade 6
42 [12.000,12.600] [0.996,0.998] [3.040,3.580] [9.700,10.200] nível qualidade 6
43 [1.300,1.700] [0.989,0.992] [2.940,3.570] [12.000,12.500] nível qualidade 6
44 [1.000,1.600] [0.989,0.992] [3.080,3.590] [12.200,12.700] nível qualidade 6
45 [6.400,7.400] [0.993,0.997] [3.130,3.570] [10.000,10.600] nível qualidade 6
46 [0.800,1.200] [0.991,0.994] [2.790,3.550] [10.000,10.600] nível qualidade 6
47 [3.000,3.700] [0.989,0.991] [2.900,3.420] [12.600,13.600] nível qualidade 6
48 [10.200,11.200] [0.996,0.998] [2.860,3.180] [8.600,9.100] nível qualidade 6
167
O
Conjunto vinhos tintos com qualidades 4 e
7
acidez
índice pH sulfatos álcool classe
fixa
1 [6.700,7.900] [3.120,3.610] [0.440,1.170] [9.700,10.500] nível qualidade 4
2 [7.200,8.700] [2.890,3.490] [0.370,1.010] [11.700,13.600] nível qualidade 4
3 [7.500,8.800] [3.130,3.540] [0.400,1.200] [10.300,11.600] nível qualidade 4
4 [7.300,8.500] [3.020,3.500] [0.330,1.560] [8.700,9.400] nível qualidade 4
5 [4.600,5.800] [3.390,4.010] [0.540,0.940] [12.200,14.000] nível qualidade 4
6 [5.200,6.800] [3.100,3.660] [0.440,0.840] [9.200,10.300] nível qualidade 4
7 [9.600,11.300] [2.980,3.430] [0.460,1.060] [10.500,13.400] nível qualidade 4
8 [6.600,7.800] [3.160,3.600] [0.390,1.030] [10.800,12.100] nível qualidade 4
9 [11.200,15.000] [2.860,3.380] [0.430,1.360] [8.400,10.600] nível qualidade 4
10 [8.500,9.600] [2.740,3.480] [0.420,2.000] [9.000,10.000] nível qualidade 4
11 [5.700,7.200] [3.210,3.620] [0.390,0.930] [11.700,13.300] nível qualidade 4
12 [11.000,15.900] [2.920,3.320] [0.530,1.110] [10.300,14.900] nível qualidade 4
13 [5.000,6.700] [3.120,3.740] [0.450,0.930] [10.700,12.000] nível qualidade 4
14 [7.400,8.100] [3.000,3.520] [0.400,1.590] [9.300,10.000] nível qualidade 4
15 [8.200,9.700] [3.120,3.480] [0.520,1.130] [11.100,14.000] nível qualidade 4
16 [5.000,7.400] [3.250,3.750] [0.370,1.180] [10.000,11.100] nível qualidade 4
17 [6.600,7.400] [2.940,3.690] [0.390,1.620] [9.000,9.900] nível qualidade 4
18 [7.900,8.800] [2.930,3.600] [0.430,1.980] [9.300,10.400] nível qualidade 4
19 [9.400,11.200] [2.880,3.500] [0.420,1.180] [8.400,10.600] nível qualidade 4
20 [8.500,10.200] [2.870,3.540] [0.500,1.360] [9.900,11.200] nível qualidade 4
21 [5.800,6.400] [3.300,3.560] [0.450,0.970] [10.550,11.200] nível qualidade 7
22 [7.500,8.100] [3.000,3.440] [0.450,1.590] [9.300,9.800] nível qualidade 7
23 [5.200,7.000] [3.100,3.690] [0.430,0.910] [9.050,9.800] nível qualidade 7
24 [8.700,9.500] [3.120,3.440] [0.520,1.130] [11.300,14.000] nível qualidade 7
25 [9.100,9.700] [3.120,3.500] [0.420,1.220] [9.200,9.900] nível qualidade 7
26 [6.800,7.400] [3.170,3.670] [0.460,1.100] [9.700,10.200] nível qualidade 7
27 [8.000,8.500] [3.080,3.500] [0.420,1.050] [8.700,9.400] nível qualidade 7
28 [9.900,10.400] [2.940,3.380] [0.420,0.980] [9.800,11.000] nível qualidade 7
29 [8.400,9.200] [3.140,3.540] [0.530,1.360] [10.100,11.300] nível qualidade 7
30 [7.700,8.500] [3.290,3.540] [0.430,0.950] [10.400,11.000] nível qualidade 7
31 [9.700,10.400] [2.880,3.480] [0.430,0.910] [8.400,9.800] nível qualidade 7
32 [11.900,13.800] [3.020,3.300] [0.570,1.000] [10.800,13.000] nível qualidade 7
33 [7.700,8.700] [3.130,3.530] [0.490,0.940] [10.600,11.400] nível qualidade 7
34 [8.500,9.100] [3.080,3.400] [0.440,0.910] [9.500,10.000] nível qualidade 7
35 [12.300,13.000] [2.880,3.200] [0.600,1.360] [9.800,10.900] nível qualidade 7
36 [6.900,7.600] [3.230,3.600] [0.390,0.850] [10.800,11.300] nível qualidade 7
37 [13.200,15.000] [2.860,3.160] [0.490,0.840] [8.400,10.000] nível qualidade 7
38 [9.100,9.800] [2.870,3.470] [0.500,1.360] [10.000,10.600] nível qualidade 7
39 [7.900,8.800] [3.140,3.480] [0.560,0.890] [11.500,12.100] nível qualidade 7
40 [7.400,7.900] [3.080,3.520] [0.450,1.080] [9.700,10.200] nível qualidade 7
41 [14.000,15.600] [2.920,3.010] [0.680,0.810] [10.800,11.200] nível qualidade 7
42 [7.200,8.000] [3.210,3.540] [0.510,1.030] [11.200,12.200] nível qualidade 7
43 [6.200,7.100] [3.300,3.690] [0.370,1.160] [10.400,11.000] nível qualidade 7
44 [5.000,5.800] [3.390,3.750] [0.480,0.730] [10.500,12.200] nível qualidade 7
45 [7.300,7.800] [3.210,3.630] [0.400,0.900] [10.200,10.900] nível qualidade 7
46 [8.900,9.800] [3.140,3.470] [0.510,0.890] [10.600,11.400] nível qualidade 7
47 [9.300,12.000] [3.000,3.360] [0.520,0.990] [11.900,13.400] nível qualidade 7
48 [10.600,11.700] [2.940,3.250] [0.430,0.950] [9.000,9.800] nível qualidade 7
171
P
Conjunto vinhos tintos com qualidades 5 e
6
acidez
índice pH sulfatos álcool classe
fixa
1 [8.800,9.100] [3.120,3.390] [0.470,0.860] [9.300,10.000] nível qualidade 5
2 [7.100,8.100] [2.940,3.260] [0.800,1.620] [9.100,9.700] nível qualidade 5
3 [10.200,11.100] [2.990,3.380] [0.420,1.180] [9.700,10.500] nível qualidade 5
4 [7.600,8.700] [2.890,3.490] [0.370,1.010] [12.000,13.100] nível qualidade 5
5 [4.600,5.800] [3.390,4.010] [0.540,0.940] [12.500,13.500] nível qualidade 5
6 [10.600,11.100] [3.020,3.310] [0.530,1.020] [10.400,11.200] nível qualidade 5
7 [7.400,8.100] [3.150,3.630] [0.400,0.790] [10.400,11.000] nível qualidade 5
8 [8.100,8.800] [3.090,3.600] [0.430,0.990] [9.500,10.200] nível qualidade 5
9 [6.100,6.700] [3.210,3.620] [0.390,0.930] [11.500,12.700] nível qualidade 5
10 [6.300,7.400] [3.270,3.550] [0.400,0.880] [12.400,13.600] nível qualidade 5
11 [8.600,9.300] [2.870,3.540] [0.530,1.360] [10.000,10.600] nível qualidade 5
12 [8.600,9.300] [3.140,3.440] [0.520,0.890] [10.900,11.500] nível qualidade 5
13 [8.500,9.100] [3.080,3.440] [0.480,0.930] [9.100,9.300] nível qualidade 5
14 [6.200,6.700] [3.290,3.590] [0.480,0.840] [9.200,9.800] nível qualidade 5
15 [8.400,9.400] [3.120,3.480] [0.540,1.130] [11.600,14.000] nível qualidade 5
16 [6.900,7.600] [3.170,3.670] [0.460,1.100] [9.600,10.000] nível qualidade 5
17 [7.000,7.400] [3.190,3.530] [0.390,0.730] [9.000,9.600] nível qualidade 5
18 [10.100,10.500] [3.040,3.300] [0.490,0.890] [8.400,9.600] nível qualidade 5
19 [11.200,12.800] [2.920,3.300] [0.580,0.850] [9.900,10.900] nível qualidade 5
20 [10.000,10.600] [3.050,3.380] [0.570,1.060] [10.500,11.100] nível qualidade 5
21 [8.300,9.200] [2.740,3.320] [1.020,2.000] [9.000,9.900] nível qualidade 5
22 [9.300,10.000] [3.070,3.470] [0.500,0.900] [10.200,11.100] nível qualidade 5
23 [9.400,10.100] [2.980,3.410] [0.460,0.930] [11.200,12.000] nível qualidade 5
24 [9.300,10.600] [3.060,3.360] [0.520,0.990] [12.000,13.400] nível qualidade 5
25 [9.300,10.200] [2.940,3.420] [0.480,0.980] [9.800,10.600] nível qualidade 5
26 [9.600,10.100] [2.880,3.500] [0.470,0.940] [9.600,10.000] nível qualidade 5
27 [6.800,7.300] [3.240,3.610] [0.470,1.170] [10.000,10.400] nível qualidade 5
28 [13.200,15.000] [2.860,3.160] [0.490,0.840] [8.400,10.000] nível qualidade 5
29 [6.800,7.500] [3.210,3.580] [0.470,1.180] [10.400,10.800] nível qualidade 5
30 [8.500,8.900] [3.080,3.390] [0.440,0.740] [9.000,9.700] nível qualidade 5
31 [7.200,7.700] [3.120,3.580] [0.440,0.700] [9.800,10.500] nível qualidade 5
32 [6.600,7.400] [3.120,3.590] [0.430,0.840] [11.000,11.700] nível qualidade 5
33 [9.700,10.000] [3.090,3.390] [0.430,0.750] [8.500,9.500] nível qualidade 5
34 [12.400,14.000] [3.010,3.250] [0.570,1.000] [10.600,12.000] nível qualidade 5
35 [8.000,8.600] [3.130,3.530] [0.490,0.940] [10.800,11.500] nível qualidade 5
36 [7.500,8.200] [3.220,3.540] [0.530,0.930] [10.900,11.700] nível qualidade 5
37 [4.900,5.500] [3.490,3.720] [0.660,0.880] [13.567,14.000] nível qualidade 5
38 [7.900,8.400] [3.080,3.500] [0.420,1.050] [8.700,9.500] nível qualidade 5
39 [5.000,6.400] [3.300,3.750] [0.480,0.970] [10.000,10.900] nível qualidade 5
40 [7.000,8.200] [3.210,3.510] [0.460,1.030] [11.400,12.200] nível qualidade 5
41 [11.300,13.500] [3.000,3.300] [0.600,0.990] [12.200,13.400] nível qualidade 5
42 [9.200,9.600] [3.120,3.480] [0.420,1.220] [9.200,9.900] nível qualidade 5
43 [15.500,15.900] [2.920,2.980] [0.680,0.840] [11.100,14.900] nível qualidade 5
44 [10.100,10.900] [3.060,3.430] [0.640,0.870] [11.200,11.500] nível qualidade 5
45 [6.400,6.900] [3.300,3.560] [0.490,1.160] [10.600,11.000] nível qualidade 5
46 [12.200,12.800] [2.880,3.190] [0.440,1.360] [9.200,10.200] nível qualidade 5
47 [5.300,6.500] [3.300,3.660] [0.450,0.870] [10.800,11.700] nível qualidade 5
48 [11.100,11.900] [3.010,3.320] [0.530,1.110] [10.500,11.800] nível qualidade 5
173
Q
Publicação no 5th Workshop on Symbolic Data
Analysis (SDA2015)
Dynamic clustering of interval data based on hybrid
L1, L2 and L∞ distances
?
Leandro C. Souza1,2, , Renata M. C. R. Souza1 , Getúlio J. A. Amaral3
1. Universidade Federal de Pernambuco (UFPE), Cin, Recife - PE, Brazil
2. Universidade Federal Rural do Semi-Árido (UFERSA), DCEN, Mossoró - RN, Brazil
3. Universidade Federal de Pernambuco (UFPE), DE, Recife - PE, Brazil
? Contact author: lcs6@cin.ufpe.br
where φ is a distance function. For the generic interval instance In , the mapping M which pre-
serves location and internal variation generates one point and one vector(both p-dimensional) and
it is given by
([a1n , b1n ], · · · , [apn , bpn ]) → {(a1n , · · · , apn ), (∆1n , · · · , ∆pn )}, (3)
M
with ∆jn = bjn − ajn . As two different kind of information are used, occurs a hybridism on mapping.
The hybrid L1 (HL1 ) distance formulation is given by
p
X
dHL1 (In , Gk ) = |ajn − ajGk | + |∆jn − ∆jGk | . (4)
j=1
where max{·} is the maximum function. To compare the quality of the clustering results, adjusted
rand index (ARI) is used associated with a synthetic dataset. ARI values more close to 1 indicates a
strong agreement between the obtained clusters and a known partition. Bootstrap statistical method
constructs non-parametric confidence intervals for the mean of ARI values for the distances L1 , L2 ,
L∞ , HL1 , HL2 and HL∞ distances, with 95% of confidence. In the synthetic dataset, intervals
are constructed sorting randomly values for centers and ranges, which delivers three clusters, two
ellipsoidal (with 150 elements) and the third one spherical (with 50 elements). The centers, with
coordinates
follow
(cx , cy ), bivariate
normal distributions with parameters µ and Σ, with µ =
µx σx2 0
and Σ = , with the following values : Cluster 1: µx = 30, µy = 10, σx2 =
µy 0 σy2
100 e σy2 = 25; Cluster 2: µx = 50, µy = 30, σx2 = 36 e σy2 = 144; and Cluster 3: µx = 30,
µy = 35, σx2 = 16 e σy2 = 16; The range is generated using uniform distributions over an interval
[v, u], represented by U n(v, u). The rectangle with center coordinates in the point (cxi , cyi ) has
ranges represented by γxi and γyi , for x and y, respectively . Interval data is constructed by
([cxi − γxi /2, cxi + γxi /2], [cyi − γyi /2, cyi + γyi /2]). (7)
A general configuration is used for the ranges, where the uniform distributions are different for
clusters and dimensions. Table 1 shows these distributions. Table 2 presents the non-parametric
confidence intervals for this synthetic configuration. 100 datasets were generated. For each one,
the clustering was applied 100 times. The solution which has the lowest criterion was selected,
resulting in 100 ARI values. The bootstrap method is applied to the ARI values with 2000 repeti-
tions and confidence of 95%. The confidence intervals for the ARI means revel the better adjust of
HL1 , instead its limits are greater than the other distances.
References
[1] Chavent, M., Lechevallier, Y. (2002). Dynamical clustering of interval data: Optimization of an ade-
quacy criterion based on hausdorff distance, Classification, Clustering, and Data Analysis, 53–60.
[2] Souza, R. M. C. R., De Carvalho, F. D. A. T. (2004). Clustering of interval data based on city-block
distances, Pattern Recognition Letters 25, 353–365.
[3] De Carvalho, F. D. A. T., Brito, P., Bock, H.-H. (2006). Dynamic clustering for interval data based on
l2 distance, Computational Statistics 21, 231–250.
Anexo
179
A
Conjunto dos Climas Mistos
130 [85.7, 89] [55.6, 88] [24.9, 37.5] [41.5, 66.5] savana
131 [67.5, 79.6] [64.7, 83.4] [50.5, 71] [66.1, 73.3] savana
132 [81, 93.5] [71.4, 107.7] [36.1, 72.4] [66.8, 85.6] savana
133 [78.7, 88.9] [54.9, 88.1] [26.2, 38.9] [52.1, 71.6] savana
134 [85, 90.6] [79.4, 85.3] [58.9, 81.5] [72.4, 79] savana
135 [101.9, 119.9] [48.8, 123.4] [27.7, 40.1] [63.8, 128] savana
136 [84.3, 101.1] [70.9, 84.1] [53.3, 63.8] [64.8, 92.7] savana
137 [84.3, 103.4] [66.5, 88.4] [51.6, 74.4] [77.7, 89.4] savana
138 [30, 68] [40, 55] [27, 32] [60, 96] savana
139 [33, 78] [25, 49] [16, 23] [33, 87] savana
140 [43, 95] [32, 47] [18, 25] [36, 96] savana
141 [72, 88] [49, 60] [34, 53] [42, 62] savana
142 [56.9, 82.2] [67.2, 74] [32.4, 56.6] [32, 37.9] savana
143 [49.2, 77.7] [69.2, 74.5] [34, 57] [35.1, 35.7] savana
144 [51.9, 78.7] [68.1, 74.4] [39.7, 66.3] [35.2, 43] savana
145 [60, 83] [34, 43] [27, 36] [32, 65] savana
146 [27, 58] [28, 59] [33, 38] [62, 109] savana
147 [33, 53] [21, 30] [15, 20] [15, 33] savana
148 [74, 79] [51, 69] [28, 43] [32, 52] savana
149 [48, 80] [77, 79] [38, 68] [35, 42] savana
150 [63, 85] [57, 75] [27, 46] [28, 44] savana
151 [69, 80] [45, 56] [31, 47] [35, 55] savana
152 [63, 74] [47, 57] [26, 44] [32, 54] savana
153 [60, 77] [53, 60] [24, 44] [32, 47] savana
154 [88.6, 113.5] [66.8, 82] [58.9, 84.8] [94, 101.6] savana
155 [91.2, 140.7] [49, 96.8] [24.1, 36.3] [62.5, 113] savana
156 [82.6, 95.3] [53.3, 72.4] [43.9, 74.4] [67.6, 75.2] savana
157 [47, 77] [74, 77] [38, 66] [37, 42] savana
158 [83.6, 89.4] [64.3, 84.6] [38.4, 69.3] [82.3, 91.9] savana
159 [89.2, 96.8] [82.3, 96.3] [54.6, 81.3] [70.4, 84.6] savana
160 [81.3, 98.8] [32.3, 88.4] [13.7, 22.4] [53.1, 99.1] savana
161 [68.1, 91.4] [58.2, 88.4] [36.8, 55.1] [59.2, 78.5] savana
162 [82.3, 89.7] [61.2, 85.9] [36.8, 59.2] [67.8, 88.9] savana
163 [89.7, 102.9] [39.4, 69.1] [22.4, 27.4] [49.3, 86.1] savana
164 [44.2, 85.6] [16.8, 40.9] [9.1, 11.9] [30.5, 87.1] savana
165 [82.3, 98.3] [37.8, 94.5] [18.8, 25.9] [51.8, 114.8] savana
166 [78.7, 106.7] [67.3, 98.3] [36.1, 62] [73.9, 95.8] savana
167 [81.5, 95.3] [59.9, 75.4] [60.7, 74.2] [80, 91.2] savana
168 [86.1, 102.6] [53.1, 85.6] [27.2, 46.7] [55.1, 79.8] savana
169 [80.8, 92.2] [88.4, 112.5] [91.7, 111.3] [95.5, 104.4] savana
170 [68.8, 86.4] [62, 75.4] [52.8, 69.3] [57.9, 69.1] savana
171 [104.6, 114.8] [65.3, 96.5] [29, 52.1] [62.5, 93] savana
172 [68.8, 91.7] [82, 93.7] [44.2, 73.2] [58.4, 68.8] savana
173 [75.4, 94.2] [27.4, 73.2] [14, 19.8] [49.8, 93.2] savana
174 [68.1, 86.4] [27.7, 76.7] [13, 17.8] [41.7, 77] savana
175 [93.2, 104.4] [78.2, 91.9] [48.3, 83.8] [78.7, 97] savana
176 [72.9, 87.4] [78.5, 131.3] [84.6, 115.6] [91.9, 103.6] savana
177 [17, 32] [18.5, 54.6] [37.8, 61.5] [30, 37.8] savana
178 [293, 397] [223, 428] [178, 239] [212, 227] equatorial
179 [140, 145] [167, 252] [154, 304] [141, 171] equatorial
180 [357.5, 489] [192.6, 352.1] [113.2, 120.8] [153.9, 261.7] equatorial
181 [124.2, 161] [168.8, 220.2] [141.4, 192.2] [167.2, 224.3] equatorial
182 [206.8, 320.8] [239.3, 278.2] [182.8, 216.4] [128.2, 201.4] equatorial
183 [195.6, 268.3] [161.7, 226.8] [84.6, 118.4] [75.4, 153.6] equatorial
184 [168.2, 217.6] [275.6, 294.7] [275.6, 368.3] [227.6, 301.2] equatorial
185 [239.9, 338.2] [281.1, 348.9] [477.9, 516.9] [334.9, 442.4] equatorial
186 [265, 312.6] [253, 325.8] [202, 246.6] [171.6, 213.9] equatorial
187 [195.1, 223.6] [225.1, 334.7] [303.8, 458.6] [114.1, 152.9] equatorial
188 [171.5, 255.3] [216, 374.5] [60.6, 103] [128.9, 227.3] equatorial
189 [128.7, 168.9] [198.1, 330.3] [189.8, 261.2] [243.1, 298.9] equatorial
190 [202.6, 302.1] [169.7, 260.5] [87.1, 165.4] [99.6, 180.2] equatorial
191 [179.4, 210.9] [249.5, 317.2] [160.5, 349.2] [134.4, 193.7] equatorial
192 [292, 382] [329.8, 389.4] [93.8, 186.4] [82.6, 280.2] equatorial
193 [195.8, 311.8] [151.2, 330.4] [100.5, 161.3] [87.2, 153.7] equatorial
194 [292.8, 412.2] [371.4, 436.8] [111.1, 235.3] [212.2, 475.9] equatorial
195 [169.6, 251.7] [224.3, 270.2] [89.1, 158.6] [87.7, 123.2] equatorial
196 [165, 188.6] [194.6, 239] [75.5, 131.7] [141.6, 185.3] equatorial
197 [210.1, 301.2] [292.1, 316.6] [173.8, 189.7] [209.5, 286.9] equatorial
198 [218.6, 337.2] [132, 173.7] [102.2, 233.4] [134, 316.7] equatorial
199 [256, 411] [207.8, 294.6] [84.6, 297.9] [107, 282.4] equatorial
200 [250.6, 378.9] [101, 159.2] [92.7, 192.7] [96, 282.1] equatorial
201 [201.4, 327.7] [97.5, 185.9] [88.5, 261.9] [111, 288.5] equatorial
202 [329.7, 395.8] [376.1, 458.6] [236, 333.6] [246.4, 387] equatorial
203 [201.2, 320.3] [99.8, 126.7] [77, 180.6] [144.8, 236.7] equatorial
204 [216.4, 417.5] [304.4, 436.2] [131.1, 152.1] [111.8, 140.8] equatorial
205 [112.8, 131.9] [155.2, 295.6] [74.2, 195.7] [71.9, 187.7] equatorial
182
206 [163.2, 188.2] [255.8, 322.7] [70.5, 176.9] [111.3, 290.4] equatorial
207 [110.4, 236.3] [159, 232] [151.1, 192.6] [172.7, 273.7] equatorial
208 [165.1, 459.7] [73.5, 153.7] [305.3, 439.1] [393.5, 599.1] equatorial
209 [118, 198] [220, 236] [64, 137] [73, 148] equatorial
210 [110.9, 132] [144.6, 324.8] [135.9, 251.4] [112.2, 122.2] equatorial
211 [287.1, 308] [301.3, 390.9] [115.1, 308.5] [73.3, 306.7] equatorial
212 [169.6, 251.7] [224.3, 270.2] [89.1, 158.6] [87.7, 123.2] equatorial
213 [155.7, 178.1] [207.5, 412.9] [140.3, 598.2] [150, 172.4] equatorial
214 [219, 364] [256, 316] [150, 266] [97, 108] equatorial
215 [239.8, 312.8] [160.2, 482.8] [59.3, 84.2] [194.2, 295.9] equatorial
216 [259, 440.7] [150.5, 311.2] [123.9, 563.6] [83.8, 369.1] equatorial
217 [185.6, 229.6] [262.3, 371.5] [473.3, 684.1] [241.8, 338.6] equatorial
218 [162, 243] [298, 374] [107, 240] [122, 220] equatorial
219 [250.7, 276.3] [251.4, 262.1] [145.5, 287.1] [85.6, 232.6] equatorial
220 [79, 101] [167, 213] [81, 85] [90, 139] equatorial
221 [299.6, 438.6] [146.3, 380] [228.1, 448.7] [196.4, 327.3] equatorial
222 [109, 225] [133, 148] [158, 329] [300, 373] equatorial
223 [755, 840] [638, 719] [517, 580] [524, 719] equatorial
224 [292, 355] [291, 352] [158, 203] [235, 302] equatorial
225 [71.1, 119.4] [160, 231.1] [78.7, 114.3] [137.2, 238.8] equatorial
226 [104, 189] [182, 467] [347, 495] [236, 308] equatorial
227 [99, 136] [180, 256] [138, 168] [202, 256] equatorial
228 [443.7, 509.8] [375.8, 470.9] [238.5, 451.9] [215.4, 430.4] equatorial
229 [357.3, 410.1] [228.3, 478.4] [218.2, 288.6] [121.1, 169.7] equatorial
230 [125, 186] [191, 271] [136, 179] [202, 250] equatorial
231 [71.9, 116.3] [75.7, 164.8] [72, 124.9] [189.6, 274.9] equatorial
232 [262, 379] [124, 177] [63, 97] [121, 215] equatorial
233 [125.3, 155.7] [192.8, 287.8] [165.4, 245.7] [204.4, 259.2] equatorial
234 [258, 290] [304, 351] [60, 251] [74, 228] equatorial
235 [148.1, 185.9] [190.8, 237.6] [139.8, 244.5] [203.4, 232.8] equatorial
236 [151.8, 157.8] [216, 297.2] [132.3, 251.1] [169.9, 259.1] equatorial
237 [173.2, 229.5] [278.4, 373] [95.3, 209.8] [174.4, 273.5] equatorial
238 [180, 212] [295, 400] [215, 302] [254, 292] equatorial
239 [130, 210] [180, 570] [80, 650] [90, 100] equatorial
240 [131, 236] [174, 277] [364, 426] [253, 327] equatorial
241 [239, 270] [214, 278] [216, 243] [195, 209] equatorial
242 [263, 315] [267, 391] [142, 164] [184, 264] equatorial
243 [210.1, 226.6] [264.4, 339.9] [158.9, 339.6] [118.7, 234.9] equatorial
244 [262, 603] [301.9, 662.9] [119.4, 190.6] [83.9, 157.9] equatorial
245 [141, 185] [253, 387] [92, 228] [97, 178] equatorial
246 [92.6, 173.5] [204.7, 257.6] [105.3, 203.5] [77.8, 85.3] equatorial
247 [59, 81] [38, 41] [13, 26] [15, 48] sub-ártico
248 [53, 79] [36, 56] [22, 34] [21, 43] sub-ártico
249 [53, 72] [45, 81] [14, 27] [11, 46] sub-ártico
250 [54, 66] [42, 53] [22, 37] [19, 30] sub-ártico
251 [39, 61] [38, 50] [21, 31] [22, 30] sub-ártico
252 [45, 66] [58, 63] [11, 27] [12, 25] sub-ártico
253 [63, 97] [95, 139] [70, 86] [54, 66] sub-ártico
254 [48, 81] [9, 31] [4, 10] [4, 19] sub-ártico
255 [49, 69] [28, 50] [18, 24] [19, 32] sub-ártico
256 [52, 61] [26, 40] [12, 21] [11, 29] sub-ártico
257 [49, 86] [42, 49] [25, 34] [26, 34] sub-ártico
258 [41, 64] [52, 64] [28, 46] [30, 35] sub-ártico
259 [72.1, 105.8] [7.5, 40.3] [2, 3.6] [5.5, 21] sub-ártico
260 [37, 39] [16, 29] [7, 12] [6, 18] sub-ártico
261 [59, 85] [45, 70] [23, 40] [31, 41] sub-ártico
262 [62, 120] [18, 50] [9, 19] [13, 33] sub-ártico
263 [59, 73] [46, 58] [24, 38] [25, 41] sub-ártico
264 [40, 53] [49, 57] [34, 49] [28, 35] sub-ártico
265 [67, 79] [42, 62] [20, 31] [21, 42] sub-ártico
266 [54.2, 61.7] [26.8, 42.1] [21.9, 33.2] [23.4, 32.4] sub-ártico
267 [95.8, 113.8] [75.6, 95.2] [55.1, 69] [65.4, 69.6] sub-ártico
268 [22.1, 39.9] [17.8, 28] [11.6, 15.7] [10.5, 17] sub-ártico
269 [26.9, 40.9] [23.5, 35] [12.9, 16.3] [10.8, 19.1] sub-ártico
270 [29, 62] [28.2, 68.6] [19.8, 28.4] [17, 18.5] sub-ártico
271 [34.8, 49.8] [20.3, 24.1] [10.2, 21.6] [8.1, 15.5] sub-ártico
272 [30.3, 41.4] [19.2, 34.1] [11.4, 18.5] [7, 15.2] sub-ártico
273 [59.1, 71.7] [48.6, 54.6] [33.6, 42.1] [30.9, 35.9] sub-ártico
274 [58, 75.4] [49.9, 60.6] [25.5, 39.8] [31.2, 35.5] sub-ártico
275 [59, 82] [102, 131] [87, 106] [48, 72] sub-ártico
276 [57, 110] [5, 41] [2, 5] [4, 26] sub-ártico
277 [23, 42] [21, 27] [29, 44] [12, 22] sub-ártico
278 [54, 68] [53, 61] [27, 44] [26, 42] sub-ártico
279 [65.4, 80.2] [51.1, 58.6] [31.1, 45.6] [31.9, 38.8] sub-ártico
280 [59, 104] [5, 37] [2, 4] [3, 24] sub-ártico
183
B
Conjunto dos climas da Europa Ocidental
130 [132, 190] [259, 283] [152, 235] [106, 170] oceânico
131 [50, 70] [65, 70] [50, 76] [51, 55] oceânico
132 [199.8, 229.1] [114.6, 145.2] [111.8, 134.5] [121, 139.9] oceânico
133 [66, 89] [96, 125] [116, 138] [68, 99] oceânico
134 [52.9, 64.9] [50, 54.6] [37.1, 55.7] [42.8, 60.2] oceânico
135 [84, 109] [70.8, 75.9] [53.1, 73.6] [58.3, 102.8] oceânico
136 [73, 76.9] [63.6, 69.4] [42.4, 77.7] [45.6, 62.9] oceânico
137 [58.7, 71.2] [48.8, 54] [36.1, 62.2] [43.6, 52.7] oceânico
138 [56.6, 76] [51.8, 59.3] [40, 67] [44.8, 64.3] oceânico
139 [70.5, 87.8] [56.8, 74.2] [50.3, 76.6] [42.4, 61.6] oceânico
140 [65.3, 87.6] [61.7, 69.3] [46.6, 70.7] [50.5, 72.4] oceânico
141 [55.1, 58.6] [35.8, 44.5] [26.7, 38.9] [36.5, 42.4] oceânico
142 [47.7, 61.4] [31.9, 37.6] [26.8, 42.5] [34.5, 45.4] oceânico
143 [110.5, 131.6] [65.4, 86.3] [45.2, 60.8] [57.7, 93.4] oceânico
144 [60.3, 75.2] [44.5, 51.4] [34.1, 52.1] [41.3, 59.3] oceânico
145 [64, 91] [102, 118] [76, 114] [58, 86] oceânico
146 [43.3, 69.7] [34.1, 56.8] [40.3, 53.6] [45.3, 66.7] oceânico
147 [57.3, 65.8] [44.2, 56.3] [29.7, 50.5] [35.8, 47.9] oceânico
148 [59.7, 78] [66.1, 84.4] [59, 93.3] [56.8, 74.1] oceânico
149 [63.9, 92.5] [49.7, 53.9] [33.5, 48.6] [39.3, 82.4] oceânico
150 [59.6, 72.3] [62.2, 70.7] [52, 76.8] [52, 67] oceânico
151 [51, 63] [33, 52] [31, 40] [29, 55] oceânico
152 [61, 80] [31, 45] [30, 44] [34, 59] oceânico
153 [53, 65] [35, 53] [32, 38] [28, 55] oceânico
154 [61, 84] [37, 56] [32, 44] [38, 63] oceânico
155 [50, 72] [26, 41] [25, 40] [29, 51] oceânico
156 [50, 61.8] [66.5, 85.6] [71.8, 78.7] [43.8, 81.8] oceânico
157 [67, 94] [108, 133] [80, 124] [58, 96] oceânico
158 [64.7, 81.4] [48.5, 52.1] [34.1, 50] [38.6, 57] oceânico
159 [55.3, 82.5] [34.8, 45.9] [34.8, 44.2] [40.7, 56.9] oceânico
160 [117, 133] [69, 92] [67, 73] [69, 103] oceânico
161 [58, 77] [32, 49] [36, 43] [38, 70] oceânico
162 [37, 48.6] [70.3, 107.9] [73.6, 110.5] [52, 70.8] oceânico
163 [37.6, 46.2] [66.8, 97.9] [76.5, 107.3] [49.6, 66.7] oceânico
164 [117.22, 138.76] [10.9, 97.17] [5.6, 10.41] [27.92, 83.06] oceânico
165 [99.55, 142.66] [17.87, 99.71] [7.96, 12.03] [23.14, 49.44] oceânico
166 [173.2, 205.9] [40.1, 121.6] [11.7, 13.5] [16.2, 91.9] oceânico
167 [565.8, 630.9] [39, 453.4] [21.2, 76.7] [124.6, 528.7] oceânico
168 [97.9, 152.3] [188.4, 257.2] [36.2, 140.3] [58.4, 150.2] oceânico
169 [155.4, 301.8] [8.5, 207.2] [22.3, 58.6] [36.5, 59] oceânico
170 [316.8, 468.2] [38.6, 294.1] [9.2, 22.7] [52.8, 273.1] oceânico
171 [161.1, 419] [12, 206.5] [23.2, 65.3] [46.1, 62.8] oceânico
172 [5.4, 19.4] [9.9, 37.1] [21.8, 25.1] [37.4, 45.1] oceânico
173 [130.3, 339.9] [32.5, 146.5] [70.3, 145] [91.9, 176.8] oceânico
174 [161, 171.9] [178.8, 226.8] [77.7, 196] [71.5, 175.9] oceânico
175 [21.7, 32] [29.2, 134] [115.6, 140.7] [24.8, 57.8] oceânico
176 [30.7, 41] [47.8, 54.5] [46.2, 60.7] [34.6, 39.5] oceânico
177 [142.1, 165] [90, 126.6] [74.5, 98.1] [115.4, 134.2] oceânico
178 [90.1, 103.1] [98.9, 234.1] [208.5, 228.7] [111.9, 145.9] oceânico
179 [27.8, 38.9] [29.6, 41.6] [28.2, 30.2] [24.2, 31.7] oceânico
180 [72.6, 96.4] [34.6, 110.3] [6.3, 11.3] [32.8, 81.9] oceânico
181 [122.7, 145.3] [8.7, 107] [1.5, 8.6] [21.8, 71.9] oceânico
182 [66.6, 84.8] [79.3, 91.4] [80.3, 93.9] [85, 93.1] oceânico
183 [119.4, 163.8] [194.5, 283.5] [39.8, 78.8] [62.9, 236.1] oceânico
184 [78.8, 92.8] [75.1, 81.1] [58.1, 93.1] [61, 78.2] oceânico
185 [54.8, 67.7] [80.3, 97.5] [60, 93.8] [50.3, 65.6] oceânico
186 [52, 74] [74, 99] [56, 94] [49, 65] oceânico
187 [63, 84] [116, 138] [85, 128] [61, 105] oceânico
188 [49, 62] [68, 95] [83, 101] [50, 74] oceânico
189 [52, 61] [37, 50] [37, 48] [36, 54] oceânico
190 [53, 59] [39, 51] [27, 39] [28, 57] oceânico
191 [70, 86] [42, 53] [24, 33] [26, 70] oceânico
192 [50, 77] [44, 50] [24, 33] [29, 71] oceânico
193 [83, 96] [49, 71] [34, 54] [40, 79] oceânico
194 [117, 154] [131, 147] [71, 103] [87, 113] oceânico
195 [30, 42] [68, 114] [102, 135] [79, 85] oceânico
196 [62, 82] [74, 141] [97, 126] [90, 124] oceânico
197 [59, 75] [80, 83] [40, 72] [41, 49] oceânico
198 [52, 61] [57, 61] [30, 58] [38, 41] oceânico
199 [45, 72] [50, 55] [27, 46] [26, 30] oceânico
200 [44, 60.3] [42.1, 68.2] [36.1, 55.5] [38.8, 68.2] oceânico
201 [58, 77] [66, 79] [69, 75] [56, 68] oceânico
202 [30, 33.5] [47.9, 90.5] [53.7, 71.3] [55.9, 56.7] oceânico
203 [57, 83] [82, 94] [60, 87] [57, 70] oceânico
204 [47, 67] [53, 59] [48, 66] [48, 55] oceânico
205 [67, 85] [94, 111] [82, 116] [62, 86] oceânico
186
206 [51, 65] [63, 67] [42, 58] [41, 51] oceânico
207 [45, 54] [57, 73] [71, 93] [50, 61] oceânico
208 [51, 65] [55, 57] [45, 61] [48, 54] oceânico
209 [48, 54] [53, 57] [36, 57] [47, 51] oceânico
210 [65, 79] [74, 78] [50, 78] [51, 61] oceânico
211 [52, 71] [54, 65] [42, 63] [47, 53] oceânico
212 [50, 56] [50, 66] [39, 58] [44, 47] oceânico
213 [133, 171] [120, 153] [63, 76] [106, 194] oceânico
214 [52.8, 62.5] [36.8, 40.5] [23.8, 31.5] [35.5, 54.8] oceânico
215 [56, 83] [80, 90] [31, 68] [36, 39] oceânico
216 [61.2, 73.4] [55.4, 60.1] [35.6, 61.6] [40.8, 54.2] oceânico
217 [78.4, 88] [72, 98.5] [52.3, 82.7] [53.1, 69.9] oceânico
218 [32.2, 33.1] [36, 54.8] [56.4, 61] [37.4, 54.2] oceânico
219 [71.8, 88] [77.4, 98.2] [47.3, 84.2] [59.2, 94] oceânico
220 [52.5, 61.5] [47.8, 52.6] [39.6, 47.4] [52.8, 65.3] oceânico
221 [35.1, 45.3] [43.8, 71.2] [75.7, 88.4] [57.6, 77] oceânico
222 [47.7, 60.3] [35.5, 53.3] [29.2, 35.7] [38.4, 54.8] oceânico
223 [40, 52.8] [49.5, 80.3] [80.2, 99.8] [58, 75.3] oceânico
224 [32.2, 43.1] [41.8, 49.4] [46.5, 50.1] [47.2, 54.5] oceânico
225 [54.4, 63.9] [50.9, 57.5] [45.2, 59.2] [51.4, 68.4] oceânico
226 [31.6, 44.8] [43, 68.8] [72.2, 76.6] [51.5, 72.5] oceânico
227 [40.5, 57.4] [45.5, 52.2] [52.6, 54.3] [51.5, 63] oceânico
228 [23, 27.4] [24.1, 47.2] [47.3, 50.2] [33.7, 46.7] oceânico
229 [124, 172.3] [104.2, 168.7] [82.4, 118.5] [73.4, 103.8] oceânico
230 [49.3, 70.8] [60, 87.6] [78.5, 90.4] [81.3, 88.9] oceânico
231 [40.1, 51] [38.8, 62.9] [60.7, 78] [50.9, 63.3] oceânico
232 [43.3, 49.4] [35.1, 55.3] [37.2, 50.7] [48.4, 62] oceânico
233 [73.5, 117.1] [71.3, 97.1] [48.5, 76.2] [61, 80.2] oceânico
234 [47.2, 59.3] [51.3, 58.3] [48, 50.5] [59.1, 67.6] oceânico
235 [76.6, 78.6] [65, 91] [41.2, 69.2] [56.3, 87.6] oceânico
236 [42.8, 54.6] [50.4, 70.4] [68.3, 71.2] [59.5, 72.4] oceânico
237 [42.5, 73.5] [59.5, 102.1] [91.6, 125.2] [85.1, 101.7] oceânico
238 [54.1, 94.7] [80.4, 135.3] [95.6, 120.6] [106.8, 119] oceânico
239 [103.8, 155.2] [118.2, 271.5] [252.5, 339.7] [196.5, 284.7] oceânico
240 [55.3, 69.3] [43.1, 50.7] [43.9, 50.1] [46.4, 58] oceânico
241 [38.7, 51.3] [43.9, 67] [63.9, 75.5] [55.9, 73.4] oceânico
242 [50.2, 67.7] [50.2, 67] [48.9, 58.4] [56.8, 70.2] oceânico
243 [87.1, 104.5] [44.4, 65] [48.4, 56.9] [51.6, 80.4] oceânico
244 [114.3, 155.4] [244, 379.2] [203.9, 302] [139.5, 191.6] oceânico
245 [39.1, 54.8] [53.5, 181] [123.1, 175.7] [67.9, 114.3] oceânico
246 [19.5, 32] [30.4, 147.2] [107.8, 151.2] [36.5, 78] oceânico
247 [43, 54] [72, 107] [29, 53] [66, 101] oceânico
248 [64, 91] [138, 190] [92, 125] [134, 167] oceânico
249 [49, 82] [124, 331] [181, 251] [122, 203] oceânico
250 [16, 31] [55, 84] [42, 58] [54, 85] oceânico
251 [126.3, 202.1] [112.3, 250.9] [19.7, 58.1] [14.8, 186.8] oceânico
252 [180.1, 249.5] [42.6, 235.2] [3.2, 7.4] [6.9, 117.2] oceânico
253 [134.8, 175.1] [12.1, 144.8] [4.3, 11] [10.1, 56] oceânico
254 [138.3, 184.4] [11, 132.2] [5.6, 16.2] [9.1, 42.9] oceânico
255 [73.7, 125.7] [92.5, 130.4] [55.7, 110.9] [68, 113.3] oceânico
256 [155.7, 197] [12.3, 192.1] [4.6, 9.4] [11.5, 87.9] oceânico
257 [13, 36.3] [42.4, 211.3] [143.3, 218.7] [54.9, 140.2] oceânico
258 [80, 135.1] [124.7, 199.1] [95.3, 115.3] [70.4, 86.9] oceânico
259 [14.2, 34] [39.4, 159.5] [114.3, 172.7] [47.8, 105.9] oceânico
260 [123.5, 278] [8.3, 174.1] [10.2, 36] [68.2, 88.8] oceânico
261 [36, 44] [66, 154] [94, 175] [49, 82] oceânico
262 [56.5, 101] [92.8, 219.4] [17.5, 35] [28.3, 154.2] oceânico
263 [256.9, 304.1] [20.1, 183.1] [7.2, 15] [9.5, 170.8] oceânico
264 [227.8, 820.8] [27.3, 137.6] [11.4, 24.6] [18, 124.9] oceânico
265 [179.5, 203.3] [58.8, 224.1] [11.8, 30.1] [10.4, 95.7] oceânico
266 [90, 125] [13, 91] [4, 9] [27, 117] oceânico
267 [149.1, 193.4] [10.1, 90.3] [3, 5.4] [6.8, 113.1] oceânico
268 [128, 144.6] [11.6, 98.8] [7.1, 14.8] [12.7, 64.7] oceânico
269 [70.6, 92] [53.2, 69.8] [64.9, 97.5] [71.8, 89.1] oceânico
270 [67, 76] [74, 88] [31, 44] [40, 94] oceânico
271 [40.2, 56.2] [48.4, 55.8] [41.9, 47.6] [54.2, 62.7] oceânico
272 [59.2, 66.7] [78.1, 83.9] [44.5, 73.2] [45.5, 56.2] oceânico
273 [72.9, 100.4] [88.1, 105.7] [76, 108.8] [76.8, 95.3] oceânico
274 [63.9, 78.1] [78.2, 95.1] [78.9, 118.8] [61.9, 86.7] oceânico
275 [93, 111] [74, 91] [63, 86] [79, 98] oceânico
276 [71, 91] [70, 94] [67, 85] [70, 82] oceânico
277 [84, 111] [56, 71] [55, 72] [61, 92] oceânico
278 [51, 75] [35, 48] [28, 40] [38, 73] oceânico
279 [57.6, 81.8] [54.3, 61.3] [41.8, 54.7] [45.3, 69.2] oceânico
280 [81, 99.3] [71.6, 84.8] [41.9, 63.8] [51.6, 78.8] oceânico
281 [56.3, 72.2] [30.7, 37.6] [23.8, 27.1] [24.4, 61] oceânico
187
282 [91.1, 104.4] [42.3, 58.8] [26.7, 34.3] [34, 91.2] oceânico
283 [62.7, 84.9] [66, 76.2] [57.1, 79.7] [50.5, 73.3] oceânico
284 [66.2, 72.7] [30.5, 40] [22.6, 25.3] [28.1, 77.2] oceânico
285 [61, 83] [127, 155] [95, 142] [70, 132] oceânico
286 [54.5, 63.8] [90.3, 106.8] [82.6, 106.7] [70, 83.8] oceânico
287 [50.9, 60.4] [89.2, 121] [115.8, 141.6] [72.6, 97.5] oceânico
288 [53.6, 67.2] [38.1, 64.3] [26.8, 33.3] [26.4, 85.3] oceânico
289 [52.8, 68.1] [63.6, 71.5] [43.6, 68.1] [50.4, 62.5] oceânico
290 [62, 80.2] [75.1, 94.7] [50.5, 55.5] [54.8, 87.8] oceânico
291 [40.8, 46.6] [68.2, 84.8] [74.9, 92.7] [58, 62.8] oceânico
292 [57.9, 76.7] [49.8, 62.1] [30, 44.5] [36.1, 78.2] oceânico
293 [45.4, 64.4] [50.7, 52.3] [51.3, 52.2] [53.8, 77.2] oceânico
294 [55.5, 68.7] [37.3, 45.1] [33.3, 55.3] [37.1, 53.8] oceânico
295 [57.5, 78.5] [67.9, 74] [59.3, 85.6] [71.8, 78.4] oceânico
296 [45, 57] [47, 53] [24, 47] [34, 40] oceânico
297 [63.7, 77.6] [63, 79.4] [53, 79] [53.8, 72.9] oceânico
298 [43, 63.1] [51.9, 59.7] [43.7, 58.7] [48.5, 65] oceânico
299 [90, 114.4] [109.3, 115.8] [137.6, 143.9] [102.5, 114.6] oceânico
300 [48.4, 74.1] [76.1, 99.3] [106, 113.4] [73.8, 81.6] oceânico
301 [33.8, 38.2] [41.2, 56.9] [61, 66.4] [46, 57.6] oceânico
302 [71.2, 84.6] [86.4, 134.3] [144.1, 162.1] [93.4, 125.2] oceânico
303 [42.2, 61.6] [47.5, 51.4] [44, 58.1] [40.7, 53.7] oceânico
304 [51.5, 67.1] [42.7, 50.5] [50.7, 56.8] [60, 78.6] oceânico
305 [41, 49.2] [38.7, 46.6] [36.1, 40.4] [49.7, 60] oceânico
306 [32.9, 44.4] [47.6, 77.5] [76.9, 88.3] [54.8, 73.7] oceânico
307 [54.2, 66.2] [50.5, 70.9] [50.6, 59.9] [65.3, 72.2] oceânico
308 [95.2, 156.4] [110.8, 176] [62, 114.6] [67.8, 116.6] oceânico
309 [45.3, 60.4] [62.5, 98.4] [96.4, 102.3] [69.9, 89.5] oceânico
310 [48.7, 60.4] [51.7, 70.8] [60.8, 72.7] [68.2, 77.7] oceânico
311 [54.6, 67.1] [62.9, 66.7] [67.3, 76.2] [60, 68.2] oceânico
312 [41.7, 46.4] [53.3, 57.6] [50.5, 68.3] [41, 49.9] oceânico
313 [58.3, 77.9] [74.8, 89.5] [64.8, 81.8] [68.6, 95.3] oceânico
314 [74.3, 91.4] [86.4, 100.4] [111.4, 125.6] [80.2, 92.9] oceânico
315 [56.4, 84.9] [67.2, 85] [70.5, 89.2] [72.2, 84.6] oceânico
316 [89.9, 101.8] [109.1, 134.5] [129, 146.6] [111.9, 131] oceânico
317 [54.2, 75.6] [76.7, 83.6] [83.7, 90.9] [69.8, 93.2] oceânico
318 [43.5, 70] [59.7, 95.5] [67.1, 87.6] [69.5, 80.7] oceânico
319 [73.8, 87.8] [71.4, 89.2] [90.1, 100.1] [70.6, 90.3] oceânico
320 [47.7, 61.7] [62.5, 84.7] [67.4, 91.5] [54.6, 64.5] oceânico
321 [68.5, 82] [44.5, 53.5] [34.9, 56.9] [43.1, 60] oceânico
322 [88.4, 93.9] [76.5, 114.2] [147.9, 166.6] [96, 125.4] oceânico
323 [172, 277.8] [217.4, 248.7] [223.8, 232.5] [240, 285.6] oceânico
324 [62.2, 98.5] [90.8, 105.3] [116.3, 137.3] [95.7, 107.3] oceânico
188
C
Conjunto Colesterol-idade
D
Conjunto Cogumelos
E
Conjunto Carros
F
Conjunto Basquete
índice idade (em anos) pontos por minuto auxílios por minuto tempo jogado
Menor ou
1 [0.2683, 0.5437] [0.0528, 0.2244] [11.81, 36.55]
igual a 23
2 24 [0.2381, 0.5668] [0.1010, 0.2282] [10.08, 33.88]
3 25 [0.3004, 0.5059] [0.0805, 0.2495] [12.63, 35.22]
4 26 [0.2719, 0.5769] [0.0747, 0.2383] [17.41, 38.80]
5 27 [0.2578, 0.5523] [0.0728, 0.2681] [17.46, 39.53]
6 28 [0.2894, 0.5885] [0.0888, 0.2771] [18.49, 38.40]
7 29 [0.4007, 0.6244] [0.1227, 0.2521] [27.87, 38.43]
8 30 [0.3498, 0.8291] [0.0896, 0.2130] [12.24, 40.71]
9 31 [0.2185, 0.5835] [0.0550, 0.3437] [12.12, 34.91]
10 32 [0.1593, 0.6318] [0.0494, 0.2327] [13.37, 36.52]
11 33 [0.2406, 0.4035] [0.1317, 0.1528] [16.36, 17.46]
12 34 [0.3890, 0.6318] [0.0898, 0.1236] [13.37, 28.81]
Maior ou
13 [0.2471, 0.2989] [0.1668, 0.2127] [14.38, 14.57]
igual a 35
192
G
Conjunto Morcegos
H
Conjunto Futebol
I
Conjunto Cardiologia
J
Conjunto Íris