Você está na página 1de 5

Técnicas de data mining para agrupamento de parcelas em clusters de

diferentes diversidade florística


Sandra Aguiar de Oliveira Pires 1, Julyana Cristina Cândido Viana 1, Catherine Cristina Claros
Leite 1, Marcelo Otone Aguiar 1, Thiago Augusto da Cunha 2, Mayra Luiza Marques da Silva 1.
1
UFES – Universidade Federal do Espírito Santo. E-mail: sandrapiires@hotmail.com
2
UFAC – Universidade Federal do Acre.

Resumo
A definição de florestas por meio de índices de diversidade de espécies que as compõem, assim
como sua distribuição espacial, traz importantes informações para o manejo e preservação desses
ecossistemas. Para distinção dessas florestas podem ser utilizadas técnicas de agrupamento. Os
métodos de agrupamento associam um item a uma ou várias classes categóricas, em que as
classes são determinadas pelos dados. Neste estudo foi utilizada a análise de agrupamento, sendo
empregada para separar os registros de um conjunto de dados em grupos, que os distinguem dos
elementos de outros grupos. Realizou-se uma aplicação com dados provenientes de uma Unidade
de Produção Anual (UPA) situada na Reserva Extrativista Chico Mendes, Xapuri, Acre. Para a
análise de agrupamento utilizou-se o algoritmo k-means, baseado na distância euclidiana. Foram
formados três grupos, sendo a maior diversidade florística apresentada no grupo III, seguido dos
grupos I e II, com o predomínio das espécies Tetragastris altissima e Pseudolmedia laevis nos
três grupos.

Palavras-chave: Resex; Clusterização; K-means.

1. Introdução
A fitossociologia é o estudo da composição, desenvolvimento, distribuição geográfica e relações
ambientais das comunidades de plantas (MUELLER-DOMBOIS; ELLENBERG, 1974). Com base no
estudo da fitossociologia de uma floresta é possível entender sobre sua formação, adaptações das
espécies, as inter-relações entre as espécies e o meio em que coabitam, assim como a diversidade, a
dinâmica atual e previsão sobre o futuro desenvolvimento da comunidade (UBIALLI, 2007).
Segundo Santos (2014), a distinção de florestas por meio da avaliação da diversidade de espécies
que as compõem, assim como sua distribuição espacial traz importantes informações para o manejo e
preservação desses ecossistemas. Para distinção dessas florestas podem ser utilizadas técnicas de
classificação não supervisionadas, denominadas agrupamento, em que grupos de indivíduos mais
similares são formados, como árvores, parcelas ou talhões. Esses agrupamentos são formados a partir
de informações contidas na matriz de dados multivalorados (SOUZA et al., 1990).
Os métodos para produzir estruturas de agrupamentos, a partir de um conjunto de dados
complexos, são por meio de medidas de “proximidade” ou “similaridade”. Esses métodos associam um
item a uma ou várias classes categóricas, em que as classes são determinadas pelos dados (JOHNSON;
WICHERN, 1992). Nesse tipo de análise, o procedimento inicia com o cálculo das distâncias entre os
objetos estudados dentro do espaço multiplano constituído pelos eixos de todas as variáveis, sendo, a
seguir, os objetos agrupados conforme a proximidade entre eles (PEREIRA, 1999).
Para um melhor desempenho desses métodos deve se levar em conta a natureza das variáveis
(discreta, contínua e binária), escalas de medição (nominal, ordinal, intervalar e razão) e o conhecimento
do pesquisador (JOHNSON; WICHERN, 1992).
Outro fator que influencia na precisão dos grupos formados são os métodos de agrupamentos
utilizados, estes devem ser compatíveis com o objetivo do agrupamento. Como exemplo de métodos de
agrupamento tem-se: o hierárquico aglomerativo, tocher, DBSCAN, K-means (TAN et al., 2006).
Desses métodos de agrupamento, o K-means é um dos mais antigos e utilizados. Nesse método, o
pesquisador determina o número de grupos, denominado de K.
Com base no exposto, o objetivo do trabalho foi determinar e caracterizar diferentes grupos de
diversidade florística, formados por parcelas permanentes, localizadas na Reserva Extrativista Chico
Mendes, estado do Acre.
2. Material e Métodos
A área de estudo está inserida na Reserva Extrativista Chico Mendes – Resex Chico Mendes,
município de Xapuri, Acre, localizada entre as coordenadas geográficas 10º 06’ a 10º 58’ S e 67º 56’ a
69º 48’ W. A Resex possui uma área de 970.570 ha, abrangendo os municípios de Rio Branco, Capixaba,
Xapuri, Epitaciolândia, Brasiléia, Assis Brasil e Sena Madureira (BRASIL, 2006).
Os dados utilizados neste trabalho foram obtidos em uma Unidade de Produção Anual (UPA)
situada na Resex. A UPA foi dividida em 53 unidades de trabalho (UTs), sendo essas localizadas em
áreas de manejo florestal comunitário da Associação dos Moradores e Produtores da Reserva
Extrativista Chico Mendes em Xapuri – AMOPREX.
Para a análise de agrupamento, foram utilizados dados de 20 parcelas permanentes, distribuídas
aleatoriamente entre as UTs. Os dados utilizados foram: n° de indivíduos, área basal, índices de
diversidade de Shannon-Weaner, Índice de Simpson, Índice de Margalef e Índice de equabilidade de
Pielou (Tabela 1). Foram calculados os parâmetros fitossociológicos da estrutura horizontal de
densidade, frequência, dominância e índice de valor de importância para cada espécie, conforme Muller-
Dombois e Ellemberg (1974).
Tabela 1 – Banco de dados utilizado para análise de agrupamento. (Fonte: os autores).
Parcela N G S H' C J Dmg
1 111 25,84 38 2,78 0,88 0,76 7,86
2 81 13,97 46 3,49 0,96 0,91 10,24
3 29 10,97 21 2,93 0,97 0,96 5,94
4 92 11,81 46 3,47 0,96 0,91 9,95
5 97 20,78 31 2,82 0,9 0,82 6,56
6 97 24,37 46 3,25 0,93 0,85 9,84
7 102 37,59 55 3,72 0,98 0,93 11,68
8 38 9,05 28 3,19 0,98 0,96 7,42
9 60 16,36 46 3,74 0,99 0,98 10,99
10 98 25,11 52 3,7 0,98 0,94 11,12
11 66 14,29 37 3,46 0,98 0,96 8,59
12 116 30,03 56 3,73 0,97 0,93 11,57
13 98 34,99 32 2,93 0,92 0,85 6,76
14 98 18,05 47 3,46 0,96 0,9 10,03
15 69 14,34 37 3,2 0,94 0,89 8,50
16 89 16,20 55 3,78 0,98 0,94 12,03
17 109 24,37 52 3,61 0,97 0,91 10,87
18 84 27,50 45 3,37 0,95 0,89 9,93
19 59 17,36 40 3,57 0,98 0,97 9,56
20 91 17,29 52 3,75 0,98 0,95 11,31
Em que: N= número total de indivíduos; G= área basal (m².ha -1); S= Número total de espécies
amostradas; H’= Índice de Shannon-Weaver; C = Índice de dominância de Simpson; J = Índice de
equabilidade de Pielou; e Dmg = Índice de Margalef.
O agrupamento das parcelas com características semelhantes de diversidade florística baseou-
se em técnicas de data mining, utilizando o software WEKA ® 3.7 (Waikato Environment for
Knowledge Analysis).
A tarefa de agrupamento, também chamada de clusterização ou análise de grupos, é usada para
separar os registros de um conjunto de dados em subconjuntos ou grupos (clusters), de tal forma que
elementos em um cluster compartilhem um conjunto de propriedades comuns que os distinguem dos
elementos de outros clusters. O agrupamento tem por objetivo maximizar a similaridade intracluster e
minimizar a similaridade intercluster (GOLDSCHMIDT; BEZERRA, 2015). Segundo Tan et al. (2009),
quanto maior a semelhança dentro de um grupo e maior a diferença entre grupos, melhor ou mais distinto
será o agrupamento.
Para a análise de agrupamento utilizou-se o algoritmo das k-médias (k-means), baseado em
distância. A distância é um importante critério para identificar a similaridade ou dissimilaridade entre
os elementos, sendo a distância euclidiana uma das métricas mais utilizadas. Selecionou-se a distância
euclidiana como função distância e definiu-se um número de clusters igual a três.
O algoritmo k-means cria aleatoriamente K centróides e os grupos associados a cada centróide.
São calculadas as médias dos vetores de cada grupo. Cada ponto é deslocado para o grupo
correspondente ao vetor médio do qual ele está mais próximo. Com este novo agrupamento dos pontos
em K grupos, novos vetores médios são calculados. O processo continua até que se chegue a uma
situação em que todos os pontos já estejam nos grupos dos seus vetores médios mais próximos (TAN et
al., 2006).

3. Resultados e Discussão
Foram formados três grupos distintos, caracterizados por diferentes níveis de diversidade. Nas
Tabelas 2 3 e 4 são apresentados os resultados da análise fitossociológica das 10 espécies mais
importantes na composição de cada grupo. Apesar de os grupos apresentarem diferentes níveis de
diversidade, observa-se que a composição florística entre os grupos é semelhante, sendo que das 10
espécies, 8 estão presentes em pelo menos dois grupos.
Tabela 2 – Análise fitossociológica das 10 espécies com maior valor de importância pertencentes ao
Grupo I. (Fonte: os autores).
Espécies N AB DA DR FA FR DoA DoR VI
Tetragastris altissima 81 3,27 31,15 11,36 90 2,29 1,26 7,77 7.14
Bertholletia excelsa 7 5,91 2,69 0,98 60 1,53 2,27 14,1 5.52
Pseudolmedia laevis 30 1,46 11,54 4,21 70 1,78 0,56 3,48 3.16
Rinoreocarpus ulei 25 0,37 9,61 3,51 60 1,53 0,14 0,88 1.97
Metrodorea flavida 18 0,44 6,92 2,52 90 2,29 0,17 1,06 1.96
Quararibea guianensis 24 0,43 9,23 3,37 50 1,27 0,16 1,02 1.89
Brosimum guianense 16 0,71 6,15 2,24 60 1,53 0,27 1,69 1.82
Clarisia racemosa 12 0,67 4,61 1,68 60 1,53 0,26 1,59 1.6
Aspidosperma vargasii 10 0,69 3,85 1,40 60 1,53 0,27 1,65 1.53
Neea sp. 10 0,35 3,85 1,40 80 2,04 0,13 0,83 1.42
Total 713 42,04 274,23 100 3930 100 16,17 100 100
N = número de indivíduos; AB = área basal (m 2); DA = Densidade absoluta (n/ha); DR = Densidade
relativa (%); FA = Frequência absoluta (%); FR = Frequência relativa (%); DoA = Dominância absoluta
(m²/ha); DoR = Dominância relativa (%); VI = Valor de importância (0-100%).
Tabela 3 – Análise fitossociológica das 10 espécies com maior Valor de Importância pertencentes ao
Grupo II. (Fonte: os autores).
Espécies N AB DA DR FA FR DoA DoR VI
Tetragastris altissima 66 3,99 84,61 21,57 100 2,97 5,11 18,79 14,44
Pseudolmedia laevis 53 2,97 67,95 17,32 100 2,97 3,81 14,00 11,43
Brosimum guianense 17 1,68 21,79 5,56 100 2,97 2,16 7,94 5,49
Clarisia racemosa 8 1,48 10,26 2,61 66,67 1,98 1,90 6,99 3,86
Rinoreocarpus ulei 13 0,17 16,67 4,25 100 2,97 0.22 0,83 2,68
Quararibea guianensis 14 0,31 17,95 4,58 66,67 1,98 0.40 1,45 2,67
Cupania cinerea 3 1,26 3,85 0,98 33,33 0,99 1,62 5,94 2,64
Licania sp. 7 0,49 8,97 2,29 100 2,97 0.62 2,29 2,52
Hymenaea parvifolia 4 0,78 5,13 1,31 66,67 1,98 0.99 3,67 2,32
Alseis sp. 2 0,73 2,56 0,65 66,67 1,98 0.94 3,45 2,03
Total 306 21,22 392,31 100 3366.67 100 27,20 100 100
N = número de indivíduos; AB = área basal (m²/ha); DA = Densidade absoluta (n/ha); DR = Densidade
relativa (%); FA = Frequência absoluta (%); FR = Frequência relativa (%); DoA = Dominância absoluta
(m²/ha); DoR = Dominância relativa (%); VI = Valor de importância (0-100%).

Tabela 4 – Análise fitossociológica das 10 espécies com maior Valor de Importância pertencentes ao
Grupo III. (Fonte: os autores).
Espécie N AB DA DR FA FR DoA DoR VI
Tetragastris altissima 43 2,27 23,63 6,47 71,43 1,36 1,25 5,22 4,35
Pseudolmedia laevis 31 0,10 17,03 4,66 85,71 1,63 0,55 2,29 2,86
Bertholletia excelsa 3 3,03 1,65 0,45 28,57 0,54 1,66 6,97 2,66
Castilla ulei 11 1,51 6,04 1,65 71,43 1,36 0,83 3,49 2,17
Brosimum guianense 21 0,93 11,54 3,16 57,14 1,09 0,51 2,15 2,13
Hymenaea courbaril 3 2,31 1,65 0,45 28,57 0,54 1,27 5,31 2,10
Metrodorea flavida 17 0.40 9,34 2,56 85,71 1,63 0,22 0,93 1,70
Chorisia speciosa 2 1,70 1,10 0,30 28,57 0,54 0,93 3,91 1,58
Apuleia leiocarpa 4 1,27 2,20 0,60 57,14 1,09 0,70 2,94 1,54
Sorocea sp. 11 0,67 6,04 1,65 71,43 1,36 0,37 1,54 1,52
Total 665 43,41 365,39 100 5257,14 100 23,85 100 100
N = número de indivíduos; AB = área basal (m2/ha); DA = Densidade absoluta (n/ha); DR = Densidade
relativa (%); FA = Frequência absoluta (%); FR = Frequência relativa (%); DoA = Dominância absoluta
(m²/ha); DoR = Dominância relativa (%); VI = Valor de importância (0-100%).
O grupo I é formado por 10 parcelas que, de maneira geral, apresenta a segunda maior diversidade
em relação aos demais grupos, sendo composto por 184 espécies arbóreas, com área basal de 16,17
m².ha-1 e densidade absoluta de 105 indivíduos.ha-1. As três espécies mais importantes totalizam 16,56%
do número de indivíduos.ha-1 e contribuem com 16,55% da densidade total. Portanto, 181 espécies
representam 83,44% do número de indivíduos.ha-1, indicando grande heterogeneidade florística no
grupo.
A menor diversidade é representada pelo grupo II, formado por apenas três parcelas e 70 espécies.
Este apresenta a maior área basal (27,21 m².ha-1) e maior densidade absoluta (503 indivíduos.ha-1) entre
os grupos formados. As três espécies mais importantes representam 40,73% da dominância total do
grupo e totalizam 44,39% do número de indivíduos.ha-1. Dessa forma, constata-se que as parcelas desse
grupo foram caracterizadas por uma grande quantidade de indivíduos representados por poucas espécies.
No grupo III, as três espécies mais importantes representam apenas 11,51% do número de
indivíduos.ha-1. Esse grupo é caracterizado por apresentar a maior diversidade florística, sendo
composto por 196 espécies arbóreas, área basal igual a 23,85 m².ha -1 e densidade de 201 ind.ha-1.

Constata-se que os grupos foram marcados pela presença das espécies Tetragastris altissima e
Pseudolmedia laevis. Uma possível explicação para a grande quantidade de indivíduos de T. altissima
(breu-vermelho) pode estar relacionada principalmente ao fato de ser uma espécie tolerante à sombra, e
que se adapta facilmente a ambientes perturbados como os de uma clareira, em sua fase inicial de
desenvolvimento (JARDIM et al., 2007).

4. Conclusões
A análise de agrupamento realizada definiu três grupos com diferentes índices de diversidade,
com predomínio das espécies Tetragastris altissima e Pseudolmedia laevis nos grupos formados.

Referências
BRASIL. Ministério do Meio Ambiente. Plano de Manejo: Reserva Extrativista Chico Mendes.
Xapuri: MMA, 2006, 91 p. Disponível em: <http://www.icmbio.gov.br/portal/images/stories/imgs-
unidades-coservacao/resex_chico_mendes.pdf>. Acesso em: 06 nov. 2015.

GOLDSCHMIDT, R., PASSOS, E., BEZERRA, E.: Data Mining: conceitos, técnicas, algoritmos,
orientações e aplicações. Rio de Janeiro: Elsevier, 2. ed., 2015.

JARDIM, F. C. da S; SERRÃO, D. R; NEMER, T. C. 2007. Efeito de diferentes tamanhos de


clareiras, sobre o crescimento e a mortalidade de espécies arbóreas, em Moju-PA. Acta Amazonica,
v. 37, n.1, p. 37- 48, 2007.

JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 3 ed. New Jersey:
Prentice Hall, 1992. 642 p.

MUELLER-DUMBOIS, D.; ELLENBERG, H. Aims and methods of vegetation ecology. New


York: John Wiley & Sons, 1974. 547 p.

PEREIRA, J.C.R. Análise de Dados Qualitativos. São Paulo: Edusp/Fapesp, 1999.


SANTOS, A.; A.; P. Avaliação florística e estrutural de uma floresta ombrófila mista montana
urbana. 2014. 130 f. Dissertação (mestrado em ciências florestais) – Universidade Federal do Paraná,
Curitiba, 2014.

SOUZA, A. L.; HOSOKAWA, R. T.; MACHADO, S. A. Análises multivariadas para manejo de


floresta natural na reserva florestal de Linhares, Espírito Santo: análise de agrupamento e
discriminante. Revista Árvore, Viçosa, MG, v.14, n.2, p. 85-101, 1990.

TAN, P.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining: Mineração de Dados. Rio de
Janeiro: Ciência Moderna Ltda.; 2009.

UBIALLI, J. Comparação de métodos e processos de amostragem para estudos fitossociológicos e


estimativas de estoque de uma Floresta Ecotonal na região norte matogrossense. 241 t. Tese
(Doutorado em Ciências Florestais) – Universidade Federal do Paraná, Curitiba, 2007 .

Você também pode gostar