Escolar Documentos
Profissional Documentos
Cultura Documentos
CAMPINAS
2015
i
ii
UNIVERSIDADE ESTADUAL DE CAMPINAS
Faculdade de Engenharia Agrícola
CAMPINAS
2015
iii
iv
v
vi
RESUMO
vii
viii
ABSTRACT
ix
x
SUMÁRIO
1 INTRODUÇÃO .......................................................................................................... 1
4.2 Discussão.......................................................................................................... 62
5 CONCLUSÃO ......................................................................................................... 77
ANEXOS ........................................................................................................................ 91
xii
Aos meus pais, Nilce e Ailton (in memorian),
DEDICO
xiii
xiv
AGRADECIMENTOS
Ao prof. Luiz Henrique A. Rodrigues, com quem tive o privilégio de conviver durante
estes anos, pela confiança em mim depositada, conhecimento e experiência
compartilhados.
Aos colegas que conheci, especialmente à Felipe Bocca, pelo trabalho conjuntamente
desenvolvido.
xv
xvi
LISTA DE FIGURAS
xvii
xviii
LISTA DE TABELAS
xix
xx
1 INTRODUÇÃO1
1
Esta tese é fruto do Projeto de Pesquisa “Técnicas de mineração de dados aplicadas à análise e
previsão da produtividade da cana-de-açúcar” apoiado pelo convênio firmado entre FAPESP e Odebrecht
Agroindustrial (N° processo FAPESP: 2012/50049-3).
1
manejo tem sido foco de estudos, gerando conhecimento para subsidiar o planejamento
em unidades produtoras (LANDELL; BRESSIANI, 2010).
Outra lacuna que pode ser mencionada é a falta de enfoque de trabalhos numa
metodologia para análises descritivas para a identificação de fatores de produção
associados a um desempenho de destaque, seja superior ou inferior (ROEL et al.,
2007; TITTONELL et al., 2008; ZHENG et al., 2009).
3
O estudo de padrões em talhões com alto ou baixo desempenho é rotineira em
algumas unidades de produção comercial, porém se limita a identificar os fatores de
maior importância baseado em conhecimentos prévios de especialistas (DEMATTÊ;
DEMATTÊ, 2009). Assim, padrões inesperados não são focados, tampouco todas as
possibilidades analisadas, visto que hipóteses devem ser formuladas e então testadas
com as bases de dados disponíveis, via de regra não enriquecidas ou submetidas a
uma correção de ruídos.
4
et al., 2008), como realizado em trabalhos relacionados com a análise do sistema
produtivo da cana-de-açúcar (FERRARO et al., 2009; SOUZA et al., 2010).
1.1 HIPÓTESE
1.2 OBJETIVO
5
6
2 REVISÃO BIBLIOGRÁFICA
2.1 Cana-de-açúcar
8
74%. Não foi feita validação com dados diferentes dos utilizados para construção dos
modelos.
Sugawara et al. (2007) e Picoli (2006), com dados obtidos durante duas safras,
estimaram a produtividade de talhões comerciais de 2º a 5º corte para a região de
Catanduva/SP, com uso de atributos obtidos por meio de sensoriamento remoto ou
fornecidos pela unidade de produção. Foi aplicada a técnica regressão linear múltipla e
redes neurais, respectivamente. As variáveis utilizadas foram: produtividade estimada
por modelo agronômico-espectral, produtividade do ano anterior, NDVI, safra,
variedade, número de cortes, capacidade de água disponível no solo, tipo de colheita e
aplicação de vinhaça. Os melhores resultados – que explicaram em torno de 65% da
variabilidade - foram obtidos com o uso dos atributos: produtividade estimada pelo
modelo, produtividade do ano anterior, NDVI, número de cortes e tipo de colheita.
2.1.2.2 Temperatura
25
24
23
22 Graus-dia
Temperatura
21
20
19
18
17
16
15
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Hora do dia
12
2.1.2.3 Disponibilidade hídrica
Idade da cultura
Coeficiente (Kc)
(meses) Período de Estádio de
Cana Cana desenvolvimento desenvolvimento
mínimo Máximo médio
planta soca
Do plantio até 25% de
0–2 0–1 0,40 0,60 0,50
cobertura do solo
De 25% a 50% de
2–3 1–2 Estabelecimento da 0,75 0,85 0,80
cobertura do solo
cultura seguido de
De 50% a 75% de
3–4 2–3 período vegetativo 0,90 1,00 0,95
cobertura do solo
De 75% a cobertura
4–7 3–4 1,00 1,20 1,10
completa do solo
Formação da
7 – 14 4–9 Utilização máxima 1,05 1,30 1,20
produção
Maturação
14
Em função da dificuldade em estimar com precisão a CAD para grandes áreas,
uma medida alternativa para medir a disponibilidade hídrica é o cálculo da diferença
entre precipitação e evapotranspiração potencial ou da cultura (BRUNINI, 2010).
De acordo com Ortolani e Paes de Camargo (1987) citado por Marchiori (2004),
a radiação solar tem influência direta em todos os fenômenos meteorológicos,
determinando parcial ou integralmente na origem ou desenvolvimento de tais
fenômenos. A radiação solar intervém no crescimento e desenvolvimento dos vegetais,
influindo indiretamente na temperatura do ambiente e na demanda hídrica. Por este
motivo, a radiação solar não é considerada diretamente em modelos de análise e
previsão, mas sim os seus efeitos como temperatura e demanda por água.
2.1.3 Variedades
2.1.4 Manejo
16
soqueira (maio a dezembro) e colheita (março a dezembro). A colheita da cana de
plantio de 12 meses se faz quando esta possui de 11 a 14 meses (agosto a dezembro)
e a de plantio de 18 meses quando esta tem de 15 a 20 meses de idade (março a
outubro). A colheita de cana soca é feita aproximadamente 12 meses após o corte
anterior. A cana de 12 meses tem seu máximo desenvolvimento de novembro a abril,
reduzindo em seguida em função das condições climáticas desfavoráveis. A cana de 18
meses, por sua vez, devido ao clima, tem um crescimento restrito de maio a setembro,
retomando o crescimento normal de outubro a abril com o aumento das precipitações,
com pico a partir de dezembro (CASTRO, 1999).
Com relação ao tamanho do tolete por ocasião do plantio, Van Dillewijn (1952)
apontou que a secção dos mesmos aumenta a taxa de brotação, pois toletes menores
têm uma taxa de brotação maior. Tal fenômeno ocorre, pois quando há brotação de
uma gema (normalmente da parte apical do tolete), esta produz o hormônio auxina que
inibe ou retarda a brotação das demais. Segundo o mesmo autor, o tamanho do tolete
deve ser ajustado de acordo com as condições de plantio e qualidade da muda, se
estas forem adversas, toletes de maior tamanho resultarão num melhor estande de
plantas, enquanto sob condições favoráveis, podem ser plantados toletes de até uma
gema. Lee (1984) constatou que sob forte déficit hídrico, toletes menores desidrataram
mais e resultaram em piores estandes. Segundo Rocha (1984), a brotação e
desenvolvimento inicial da cana decresce com o aumento do tempo de armazenamento
das mudas e a influência deste fator decresce com o aumento do tamanho do tolete.
17
No planejamento do plantio, além da correta alocação de variedades, a época é
o fator de maior influência na produtividade segundo Ricaud e Cochran (1980) citado
por Marchiori (2004). De maneira geral, plantios de 12 meses têm um perfilhamento
mais rápido e intenso, porém produzem colmos de menor altura, diâmetro e peso
quando comparado ao plantio de 18 meses (ROCHA, 1984).
18
TERAMOTO, 2003). Prado (2005) criou 10 classes de ambiente de produção, atribuindo
produtividades médias esperadas para os 5 cortes que vão de 100 a 68 t/ha. Por sua
vez, Demattê e Demattê (2009) propõem 8 classes, com produtividade média potencial
dos cinco cortes de 100 a 70 t/ha.
20
O objetivo das tarefas não-supervisionadas é encontrar padrões, correlações,
tendências, grupos homogêneos, anomalias em meio a base de dados. As tarefas
supervisionadas visam à elaboração de modelos para determinar um atributo específico
de interesse (atributo meta) baseado nos valores de outros atributos (variáveis
independentes).
22
árvore, que a tornam mais generalista e menos complexa. Existem duas categorias
principais de poda, a pré-poda e a pós-poda.
23
mais fácil interpretação, principalmente para os casos de árvores de decisão profundas
(APTÉ; WEISS, 1997; HAN et al., 2012).
24
Como algoritmo de indução direta pode ser citado o RIPPER (COHEN, 1995),
especialmente indicado para conjuntos de dados com distribuição de frequência
desequilibradas entre classes e ruídos (TAN et al., 2009).
Y ¬Y
f+1 f+0 N
Onde,
27
f11 = número de exemplos para os quais Y é verdadeiro e X é verdadeiro
𝑓1+
𝑐(𝑋 → 𝑌) = (1)
𝑁
𝑓11
𝑝(𝑋 → 𝑌) = (2)
𝑓1+
𝑓11 𝑓10
𝐿𝑅(𝑋 → 𝑌) = 2 [𝑓11 × ln ( ) + 𝑓10 × ln ( )] (4)
𝑓+1 𝑓+0
29
30
O processo se iniciou com a obtenção de bases de dados (etapa 1).
Primeiramente uma BD que continha informações históricas sobre a produtividade da
cana-de-açúcar (TCH) no nível de talhão, bem como outras características que
poderiam auxiliar na análise, como manejo e solo (etapa 1.1). Tal base foi denominada
BD Produção. Em seguida, na etapa 1.2, foram buscadas bases de dados com
informações que pudessem complementar o BD Produção, sendo estas chamadas de
BD´s Complementares. Cada uma das bases de dados passou pelo processo de
limpeza (etapa 2), onde a qualidade das informações contidas foi avaliada e corrigida
quando necessário.
Na etapa 6,. cada um dos seis atributos metas categóricos foi unida aos atributos
descritores da BD enriquecida, assim gerando seis BD´s Modelagem.
32
Cada uma das BD´s Modelagem foi submetida a dois diferentes algoritmos para
indução de regras de decisão (Etapa 7), RIPPER (COHEN, 1995), disponíveis no
software livre Weka 3.6.10 (HALL et al., 2009) e Classification Tree, disponível no
software JMP versão 11.2 (SAS INSTITUTE INC., 2013). A cobertura mínima de cada
regra foi de 2% do total de registros.
Cada uma das regras encontradas poderia ser selecionada de duas maneiras: (I)
ranking por meio das medidas de interesse Novidade (LAVRAC et al., 1999) e
Likelihood ratio (ZAR, 2010); (II) taxa de acerto e complexidade; correspondendo à
Etapa 8. Aquelas selecionadas para análise individual à luz dos conhecimentos
agronômicos disponíveis na literatura (Etapa 9.1) foram classificas se são, ou não,
inesperadas e passíveis de ação. Os atributos descritores selecionados por todas as
regras induzidas também foram analisados de forma agrupada (Etapa 9.2).
34
Etapa 2. Limpeza dos Dados
A etapa de limpeza de dados para ambas as bases de dados foi composta por
processos de identificação de outliers, remoção de ruído nos dados, padronização,
preenchimento de valores faltantes e correção e eliminação de inconsistências. A forma
como os processos foram realizados em cada uma das bases de dados é descrita a
seguir.
A consistência dos dados foi verificada pela: soma das frações granulométricas
numa mesma camada deveria ser igual a 100%; atributos químicos de solo como SB,
CTC, V% e m% foram recalculados e o resultado deveria ser igual ao presente na base
de dados; as datas de colheita da safra 2010/2011 deveriam ser iguais as datas de
início de ciclo da safra 2011/2012, para um mesmo talhão, exceto quando fosse
renovado na segunda safra em estudo.
Atributos derivados são aqueles incluídos na base de dados, obtidos por meio
do cálculo que faz uso de um ou mais atributos originais. Estes novos atributos podem
incorporar conhecimento que os algoritmos de modelagem reconheçam na forma de
padrões.
36
Etapa 3.1. Divisão em Fases fenológicas
Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14 Plantio de 18 meses
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13
1 2 3 4 5 6 7 8 9 10 11 12 13 Plantio de
1 2 3 4 5 6 7 8 9 10 11 12 13 Inverno
1 2 3 4 5 6 7 8 9 10 11 12 13
1 2 3 4 5 6 7 8 9 10 11 12 13
1 2 3 4 5 6 7 8 9 10 11 12
Plantio de 12 1 2 3 4 5 6 7 8 9 10 11 12
meses 1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12 Soca
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
Brotação 1 2 3 4 5 6 7 8 9 10 11 12
Perfilhamento 1 2 3 4 5 6 7 8 9 10 11 12
Crescimento 1 2 3 4 5 6 7 8 9 10 11 12
Maturação 1 2 3 4 5 6 7 8 9 10 11 12
Figura 3. Fenologia típica para região de estudo em função do tipo de ciclo e meses do ano (BOCCA,
2014).
37
Etapa 3.2. Cálculo de índices meteorológicos
Para cada uma das quatro diferentes fases fenológicas (brotação, perfilhamento,
crescimento e maturação) e ciclo completo, denominadas nas variáveis I, II, III, IV e
ciclo, respectivamente, foram calculados índices meteorológicos padronizados pela
duração do período, uma vez que estes variam em função do ciclo da cultura (número
de cortes) e mês do ano.
Foram inclusos, também para cada uma das fases fenológicas e ciclo completo,
o atributo derivado Graus-Dias médio diário (LIU et al., 1998), considerando uma
temperatura base de 18 ºC.
40
BD CLIMA
ANO MÊS DIA Graus-dia
2011 JAN 1 4,00
2011 JAN 2 5,99
2011 JAN 3 3,97
2011 JAN 4 4,90
2011 JAN 5 5,85
... ... ...
BD ENRIQUECIDA
TALHÃO INÍCIO CICLO Graus-dia_I Graus-dia_II Graus-dia_III Graus-dia_IV Graus-dia_Ciclo
A 02/JAN/2011 1,00 0,99 0,97 0,90 ...
B 22/FEV/2012 0,99 0,97 0,90 0,85 ...
... ... ... ... ... ... ...
3
O método utilizado para determinação do fator de maior influência e resultado obtido estão descritos no
ANEXO I – Método utilizado para determinação do fator de maior influência na produtividade. Entende-se
que o método aplicado é uma possível alternativa ao conhecimento de especialistas.
41
Figura 5. Distribuição dos valores do atributo meta produtividade originais (TCH) e após padronização do
seu potencial (ZTCH).
42
Optou-se pelo k-means, que apesar de ter o número de grupos (k) definido
arbitrariamente, tem, de forma geral, capacidade de se adaptar à distribuição dos dados
do atributo meta.
43
Atributo Meta Atributo Meta
Alto k3 Baixo k3
Alto
Não-Baixo
Não-Alto
Baixo
Desta forma, cada valor de k deu origem a dois atributos meta categóricos, um
com foco em talhões de ALTO desempenho e outro em BAIXO desempenho. Tal
procedimento foi adotado para manter o problema de modelagem como binário, mais
simples.
Tabela 4. Percentil de registros na categoria de desempenho Alto e Baixo com relação ao atributo meta
desempenho produtivo (ZTCH) em função de diferentes valores de k no método de agrupamento K-
means.
Desempenho
Valor de k BAIXO ALTO
3 PO – P24,1 a P75,8 – P100 a
4 PO – P18,2 b P82,9 – P100 b
5 PO – P16,1 c P81,0 – P100 c
Letras diferentes nas colunas indicam médias diferentes pelo teste de Kruskal Wallis a 5% de
significância.
44
Nota-se que, para ambos os desempenhos, as segmentações em função dos
diferentes valores de k puderam ser diferenciadas.
A criação dos seis BD´s Modelagem foi feita com a junção dos atributos
descritores da BD enriquecida com cada um dos seis atributos meta discretos, três para
desempenho Alto e três para Baixo (Figura 8).
45
Etapa 7. Extração de regras
Cada uma das BD´s Modelagem foi submetida a dois diferentes algoritmos para
indução de regras de decisão, RIPPER (COHEN, 1995) disponível no software livre
Weka 3.6.10 (HALL et al., 2009) e Classification Tree4, disponível no software JMP
versão 11.2 (SAS INSTITUTE INC., 2013). Foram utilizados diferentes algoritmos para
aumentar a possibilidade de encontrar regras de interesse visto que cada um possui
uma diferente estratégia para seleção de atributos.
4
Apesar de ser originalmente um algoritmo de indução de árvores de decisão, foi utilizada a
funcionalidade do software de apresentar os resultados no formato de regras de decisão.
46
BD Original (desbalanceado)
% dos 80 20 Validação
registros (80 registros) (20 registros)
Balanceamento
(retirada de registros
de classe majoritária)
Para que uma regra fosse selecionada, bastou que atendesse a um dos dois
diferentes métodos descritos a seguir:
Para o método I, cada uma das regras encontradas foram avaliadas pelas
medidas de interesse Novidade (LAVRAC et al., 1999) e Likelihood ratio (ZAR, 2010).
Um ranking decrescente em qualidade das regras foi feito para cada uma das medidas
de interesse independentemente e então a média destes rankings foi calculada para
elaboração de um ranking final. As 5 regras mais bem colocadas foram selecionadas.
48
se localiza numa região caracterizada como apta sem restrições, tendo um déficit
hídrico anual entre 10 e 40 mm, temperatura anual média anual entre 20°C e 24° e
temperatura do mês mais frio superior a 17°C, apresentando uma boa distribuição de
chuvas durante o ano. A distribuição de chuvas e temperatura média mensal do período
em estudo estão disponíveis na Figura 10.
450 30
400
25
350
300 20
250
mm
15
°C
200
150 10
100
5
50
0 0
mai/10
jun/10
mai/11
jun/11
mai/12
jun/12
dez/10
dez/11
jan/10
fev/10
mar/10
ago/10
set/10
jan/11
fev/11
mar/11
jan/12
fev/12
mar/12
set/12
nov/10
ago/11
set/11
nov/11
ago/12
nov/12
abr/10
jul/10
out/10
abr/11
jul/11
out/11
abr/12
jul/12
out/12
P mm T oC
Figura 10. Precipitação mensal e temperatura média mensal para Usina Alcídia – Teodoro Sampaio – SP,
de Jan/2010 a Nov/2012.
Os solos, de acordo com Santos et al. (2006), são latossolo vermelho (55%),
neossolo quartzarênico (24%), latossolo vermelho-amarelo (11%) e argissolo vermelho
(6%) e argissolo vermelho-amarelo (3%). Seguindo o mesmo critério, com relação a
classe de fertilidade (1 – mais fértil; 7 - menos fértil): 51% em classe 3; 38% em classe
49
4; 6% em classe 2; e, 6% em classe 1. Finalmente, para classes de textura do solo (1 –
mais argiloso; 6 – mais aresono; 7 – siltoso), a área em estudo é classificada como:
55% em classe 4; 23% em classe 5; 11% em classe 2; 9% em classe 3; e, 2% em
classe 6.
50
4 RESULTADOS E DISCUSSÃO
4.1 Resultados
100%
90%
80%
Precisão
70%
60%
50%
2% 4% 6% 8% 10% 12% 14% 16% 18% 20% 22%
Cobertura
Figura 11. Precisão e cobertura das regras induzidas para talhões de alto desempenho de produtividade
padronizada pelo número de corte (ZTCH).
100%
90%
80%
Precisão
70%
60%
50%
2% 4% 6% 8% 10% 12% 14% 16% 18% 20% 22%
Cobertura
Figura 12. Precisão e cobertura das regras induzidas para talhões de baixo desempenho de
produtividade padronizada pelo número de corte (ZTCH).
A análise das regras induzidas por algoritmo mostram que para desempenho alto
(Tabela 5), RIPPER foi responsável por 12 regras e Classification Tree por 9 regras.
Foram selecionadas para análise individual, respectivamente, 6 e 3 regras. Para baixo
desempenho (Tabela 6), RIPPER foi responsável por 20 regras, sendo 7 selecionadas,
a passo que Classification Tree induziu 4 regras no total, com 2 selecionadas.
52
Para alto desempenho, RIPPER teve um desempenho ligeiramente superior,
correspondendo a 57% das regras induzidas e 66% das selecionadas. No caso de
baixo desempenho, RIPPER foi significativamente superior, com 83% das regras
induzidas e 78% das selecionadas.
Tabela 5. Número de regras induzidas e selecionadas por algoritmo para desempenho Alto.
Seleção da regra
Algoritmo K Sim Não Total
3 2 4 6
4 1 0 1
RIPPER
5 3 2 5
Total 6 6 12
3 1 3 4
Classification 4 1 1 2
Tree 5 1 2 3
Total 3 6 9
Outro ponto de destaque é que Classification Tree não teve mais de uma regra
selecionada por valor de K para ambos os desempenhos. Também não teve grande
diferença no número de regras induzidas em função de K dentro de um determinado
desempenho.
Tabela 6. Número de regras induzidas e selecionadas por algoritmo para desempenho Baixo.
Seleção da regra
Algoritmo K Sim Não Total
3 3 4 7
4 3 3 6
RIPPER
5 1 6 7
Total 7 13 20
3 1 1 2
Classification 4 0 1 1
Tree 5 1 0 1
Total 2 2 4
Por sua vez, RIPPER teve significativa interação entre o valor de K dentro de
desempenho alto, induzindo apenas uma regra. Tal fato não foi observado em
desempenho baixo.
53
4.1.1 Regras individuais – Alto desempenho
Tabela 7. Regras induzidas a partir do BD Modelagem K3, selecionadas, associadas a desempenho Alto.
Precisão Cobertura
N. Regra
(%) (%)
R3 SE (Textura ≤ 3) & (Cigarrinha ≥ 2,9) 100,0 2,3
→ ENTÃO Alto (K3 | 24,2% | Classification Tree)
R4 SE (Textura ≤ 3) 50,1 20,6
→ ENTÃO Alto (K3 | 24,2% | RIPPER)
R6 SE (Veranico ciclo ≤ 6) & (Fertilidade ≤ 2) & 86,5 2,3
(Graus-dia Maturação ≤ 4,32)
→ ENTÃO Alto (K3 | 24,2% | RIPPER)
A regra R4 possui acerto de 50,1%. Apesar de possuir uma baixa precisão, tem
significativa cobertura, 20,6% dos registros. Aponta que talhões com classe de textura
do solo igual ou inferior a 3 (mais que 26% de argila no horizonte B) tem Alto
desempenho.
Tabela 8. Regras induzidas a partir do BD Modelagem K4, selecionadas, associadas a desempenho Alto.
Precisão Cobertura
N. Regra
(%) (%)
R10 SE (Textura ≤ 3) & (Cigarrinha ≥ 2,8) 88,9 2,8
→ ENTÃO Alto (K4 | 17,1% | Classification Tree)
R11 SE (Textura ≤ 2) & (Broca ≤ 2.05) & (Mg ≥ 7.0) 80,8 3,5
→ ENTÃO Alto (K4 | 17,1% | RIPPER)
A regra R11 tem precisão de 80,8% e cobertura de 3,5% dos registros. Estes
talhões têm como padrão o cultivo em áreas com textura menor ou igual a 2 (o que
corresponde a solos com teor de argila no horizonte B maior que 36%), danos
causados por broca no momento da colheita (Diatraea saccharalis) inferiores a 2% e
teor de Mg no solo superior a 7,0 mmolc . dm-3.
As regras R14, R15, R17 e R19 foram extraídos do BD Modelagem com K igual
a 5 (Tabela 9).
55
Tabela 9. Regras induzidas a partir do BD Modelagem K5, selecionadas, associadas a desempenho
Alto.
Precisão Cobertura
N. Regra
(%) (%)
R14 SE (Textura ≤ 3) & (Cigarrinha ≥ 2,8) 92,1 2,8
→ ENTÃO Alto (K5 | 19,0% | Classification Tree)
R15 SE (Textura ≤ 3) & (Corte ≥ 3) 53,4 11,6
→ ENTÃO Alto (K5 |19,0% | RIPPER)
R17 SE (Seca Crescimento ≤ 16) & (Nematoide ≤ 0) 87,0 2,0
→ ENTÃO Alto (K5 |19,0% | RIPPER)
R19 SE (P-ETC Crescimento ≥ 1,39) & (Broca < 1,52) 83,6 2,7
→ ENTÃO Alto (K5 |19,0% | RIPPER)
A regra R14 possui exatamente o mesmo antecedente que a regra R10, também
cobrindo 2,8% dos registros, ou seja, solos com classe de textura igual ou inferior a 3 e
infestação por cigarrinha igual ou superior a 2,8 ninfas/m. A sua precisão é de 92,1%.
A regra R15, assim como R4, possui baixa precisão (53,4%), porém alta
cobertura (11,6%). Para talhões com solos com textura inferior ou igual a 3 e número de
cortes maior ou igual a 3°, o desempenho é Alto.
A regra R17 tem cobertura 2,0% dos registros e acerto de 87,0%. Possui 2
variáveis em seu antecedente: número de dias consecutivos sem precipitação na fase
de crescimento máximo menor ou igual a 16, e infestação com nematoides ausente.
A regra R19 tem taxa de acerto de 83,6% e cobertura de 2,7% dos registros. Os
antecedentes são disponibilidade hídrica na fase de crescimento máximo (diferença
entre precipitação e evapotranspiração da cultura) superior ou igual a 1,39 mm.dia -1, e
infestação por broca inferior a 1,52%.
56
4.1.2 Regras individuais – Baixo desempenho
As regras R22, R25, R26 e R28 foram extraídas do BD Modelagem com K igual
a 3 (Tabela 10).
Tabela 10. Regras induzidas a partir do BD Modelagem K3, selecionadas, associadas a desempenho
Baixo.
Precisão Cobertura
N. Regra
(%) (%)
R22 SE (Graus-dia Maturação ≥ 4,51) & (Textura ≥ 4) & 86,2 2,6
(P-ETC Brotação ≥ 5,4) & (KCaMg < 0,11)
→ Baixo (K3 | 24,1% | Classification Tree)
R25 SE (Seca Brotação ≤ 9) & (P-ETC Ciclo ≤ -0,22) & 81,0 4,4
(Ambiente Produção ≥ 6)
→ Baixo (K3 | 24,1% | RIPPER)
R26 SE (Seca Crescimento ≥ 33) & (Seca Brotação <19) & (Ca < 7) & 84,7 2,6
(Corte ≥ 3)
→ Baixo (K3 | 24,1% | RIPPER)
R28 SE (Seca Crescimento ≥ 29) & (Seca Brotação ≤ 19) & (K < 0,51) & 71,9 6,2
(Mês Colheita = (3, 4, 9, 10)
→ ENTÃO Baixo (K3 | 24,1% | RIPPER)
57
A regra R25 cobre 4,4% do total de registros, ou seja, 99 talhões, tendo um taxa
de acerto de 81,0%. A sua leitura é que talhões que tiveram o maior período de dias
consecutivos sem precipitação no período de brotação menor ou igual a 9, diferença
entre precipitação e evapotranspiração da cultura no ciclo menor ou igual a -0,22
mm/dia e estão cultivadas num ambiente de produção igual ou mais restritivo que E
(correspondendo a um potencial baixo até extremamente baixo), têm desempenho
baixo em relação a produtividade.
A regra R28 possui cobertura de 6,2% e taxa de acerto de 71,9%. Traz como
antecedentes o número de dias consecutivos sem precipitação maior ou igual a 29 mm
no período de máximo crescimento da cultura e menor ou igual a 19 mm no período de
brotação. Teores de potássio no solo iguais ou inferiores a 0,51 mmolc dm-3 e mês de
colheita anterior igual a Março, Abril, Setembro ou Outubro.
Tabela 11. Regras induzidas a partir do BD Modelagem K4, selecionadas, associadas a desempenho
Baixo.
Precisão Cobertura
N. Regra
(%) (%)
R32 SE (Graus-dia Maturação ≥ 4,64) & (Mg ≤ 3,8) & (Seca Brotação ≤ 9) & 75,8 4,2
(P-ETC Ciclo ≤ -0,22)
→ ENTÃO Baixo (K4 | 18,2% | RIPPER)
R34 SE (Broca ≥ 2,27) & (Graus-dia Brotação ≥ 5,59) & (KCaMg < 0,15) 83,1 2,6
→ ENTÃO Baixo (K4 | 18,2% | RIPPER)
R35 SE (Graus-dia Maturação ≥ 4,63) & (K < 0.38) & 82,4 2,3
(P-ETC Crescimento < 0,89) & (SiBCS = PV, PVA, RQ)
→ ENTÃO Baixo (K4 | 18,2% | RIPPER)
58
A regra R32 cobre 4,2% dos talhões e têm uma taxa de acerto de 75,8%. Assim
como a regra R25, contempla talhões com o maior período de dias consecutivos sem
precipitação no período de brotação menor ou igual a 9 e diferença entre precipitação e
evapotranspiração da cultura no ciclo menor ou igual a -0,22 mm.dia-1. Além destes
antecedentes, também estão presentes o teor de magnésio no solo e graus-dia no
período de maturação da cana.
Tabela 12. Regras induzidas a partir do BD Modelagem K5, selecionadas, associadas a desempenho
Baixo.
Precisão Cobertura
N. Regra
(%) (%)
R38 SE (Graus-dia Maturação ≥ 4,73) & (Seca Brotação <24) & 60,4 4,9
(MO < 7,9) & (P-ETC Ciclo < -0,20)
→ ENTÃO Baixo (K5 | 16,1% | Classification Tree)
R40 SE (Graus-dia Maturação ≥ 4,73) & (Seca Brotação ≤ 9) & 86,3 2,3
(P-ETC Ciclo < -0,24) & (Textura ≥ 5)
→ ENTÃO Baixo (K5 | 16,1% | RIPPER)
59
precipitação na fase de brotação menor ou igual a 24, teor de matéria orgânica no solo
inferior a 7,9 g.dm-3 e diferença entre precipitação e evapotranspiração da cultura
durante o ciclo inferior a -0,20 mm.dia-1. Sua cobertura é 4,9% dos registros e taxa de
acerto 60,4%.
60
50%
45%
40%
35%
30%
Frequência
25%
20%
15%
10%
5%
0%
PRAGA QUÍMICA SOLO FÍSICA SOLO DISPONIBILIDADE GRAUS-DIA OUTROS
HÍDRICA
Categoria de atributo descritor
BAIXO ALTO
Figura 13. Participação das variáveis descritivas agrupadas nos padrões induzidos para talhões de
desempenho Alto e Baixo
4.2 Discussão5
Com relação ao desempenho dos algoritmos, foi possível notar interação destes
com desempenho e valor de K. De forma geral, RIPPER foi superior a Classification
Tree tanto no número de regras induzidas como selecionadas, fenômeno já descrito
anteriormente por Bay (2000).
5
Todas as regras apresentadas em 4.1 Resultados, também estão disponíveis no ANEXO III para facilitar
a consulta do leitor.
62
O fato do algoritmo Classification Tree ter tido no máximo uma regra selecionada
por cada valor de k pode estar relacionado com o seu método de indução, onde o
primeiro atributo descritor selecionado influencia todas as regras induzidas. No caso de
atributos descritores com ganho de informação semelhante, o algoritmo irá selecionar o
melhor e o utilizará para todas as regras. No caso do RIPPER, a cada regra induzida, é
feita uma nova rodada para identificação do atributo de maior de ganho informação,
assim estes podem variar de regra para regra. Para o caso destas bases de dados
estudadas, esta característica de indução das regras pode ter sido determinante no
desempenho.
Assim, especula-se que essa maior umidade no solo, que favorece o aumento da
população de cigarrinha (abaixo do nível de dano econômico), também favoreça o
desenvolvimento da cultura. Esse maior acúmulo de umidade em determinados talhões
pode ser resultado de maior acúmulo de palha da colheita anterior (DINARDO-
63
MIRANDA, 2002) e/ou posição no relevo (KRAVCHENKI; BULLOCK, 2000;
MONTEZANO et al., 2008; SOUZA et al., 2003, 2004, 2010).
Como mencionado, além da infestação por cigarrinha, as regras R3, R10 e R14
têm a textura do solo argilosa ou muito argilosa presente em seus antecedentes. Este
último atributo também foi selecionado nas regras R4, R11 e R15. Tal padrão
encontrado está em linha com o exposto na literatura. Solos com elevados teores de
argila tendem a ter maior capacidade de retenção de água, contribuindo para o
desenvolvimento da cultura (PRADO et al., 2010).
64
Ao se analisar a distribuição de graus-dia no período de maturação em função do
mês de colheita (Figura 14), nota-se que o limite de corte proposto pela regra separa o
período de colheita em duas partes: outono/primavera e inverno.
6
Graus-dia Maturação
0
2 3 4 5 6 7 8 9 10 11 12
Mês Colheita
Figura 14. Distribuição do parâmetro graus-dia no período de maturação em função do mês de colheita
(•) e ponto de corte determinado pela regra R32 (- -).
65
De forma geral, a interpretação da regra R6 é que condições favoráveis de
fertilidade e disponibilidade hídrica e colheita de inverno levaram a um desempenho
alto.
A regra R11, além de contemplar talhões que têm como padrão o cultivo em
áreas com textura muito argilosa (cuja importância já foi abordado anteriormente),
também possui danos causados por broca no momento da colheita inferiores a 2% e
teor de Mg superior a 7,0 mmolc.dm-3.
A regra R15, assim como R4, possui baixa precisão, porém alta cobertura. Esta
regra mostra uma interação entre textura do solo e número de cortes do canavial
(Figura 15). Para cana-planta e 2° ano, a textura do solo tem menor influência sobre a
produtividade, sendo um fator que diferencia o desempenho dos talhões apenas do 3°
corte em diante. Não foram encontradas pesquisas na literatura que tiveram resultados
semelhantes, sendo este um ponto que pode ser considerado alvo de investigações
mais específicas.
Também se observa que, para talhões com textura argilosa ou muito argilosa
(Prob>F <0,001; b (IC 95%) = -4,36 ± 0,68) é menor a redução na produtividade com o
aumento do número de cortes quando comparado a solos de textura mais arenosa
(Prob>F <0,001; b (IC 95%) = -8,48 ± 0,37), comprovado pela declividade das retas que
diferem estatisticamente entre si. Este fenômeno também foi observado por Inman-
Bamber (2013), porém diferente do observado por Demattê e Demattê (2009).
66
A importância dos danos por broca bem como a relação entre o ponto de dano
econômico apresentado na literatura e ponto de corte proposto pela regra já foram
discutidos anteriormente.
Com relação ao nível de infestação por nematoides, este pode ser um diferencial
para a expressão do potencial produtivo visto que ataques severos debilitam o sistema
radicular reduzindo assim a capacidade de absorção de água e nutrientes pela planta
(DINARDO-MIRANDA et al., 1995, 1996, 1998). Para a regra em questão (R17), há
uma relação entre boa disponibilidade hídrica e ausência de nematoides, mostrando
que mesmo sob adequado fornecimento de água para a planta, ausência de danos
causados pelos nematoides foi um diferencial.
A regra R25, por sua vez, relaciona baixo desempenho a alta disponibilidade
hídrica no período de brotação e baixa disponibilidade na média do ciclo, e cultivo num
ambiente de produção restritivo.
As regras R38 e R40, com atributo meta baixo desempenho, têm como
característica geral colheita em início ou final de safra, boa disponibilidade hídrica na
fase de brotação e restrição hídrica na média do ciclo, associada a solo de textura
arenosa ou baixo teor de matéria orgânica no solo.
O padrão das cinco regras (R22, R25, R26, R38 e R40) pode ser interpretado
como talhões que tiveram boa disponibilidade hídrica durante o período de brotação
têm seu sistema radicular pouco profundo (SMITH et al., 2005), o que os torna menos
68
resistentes a um ciclo da cultura ou período de máximo crescimento com deficiência
hídrica agravado com um ambiente de produção restritivo (caracterizado por sua baixa
capacidade de retenção de água ou presença de fatores físicos ou químicos que
limitam o desenvolvimento radicular (DEMATTÊ; DEMATTÊ, 2009), textura arenosa ou
limitação química.
Por sua vez, a limitação química da regra R26 é o teor de cálcio. De acordo com
Raij et al. (1996), podem ser considerados como médios, teores de cálcio no solo entre
4 e 7 mmolc dm-3, desta forma, o ponto de corte selecionado pela regra distancia-se do
proposto pela literatura. Tal fato pode possivelmente ser atribuído a um limitado
desenvolvimento radicular causado por fatores hídricos, agravado pelo número de
cortes do canavial, que por sua vez dificulta a absorção de cálcio que se dá por fluxo de
massa ou interceptação radicular (ORLANDO FILHO, 1983). Landell et al. (2003)
observou a influência do teor de cálcio na subsuperfície do solo sobre a produtividade a
partir do 3º corte. Teor deste nutriente na camada superficial do solo não foi estudada
para permitir a comparação com o encontrado neste presente trabalho, porém, existem
indícios de que a relação do teor de cálcio em ambas as camadas do solo e
produtividade são as mesmas.
69
(1996), são considerados baixos teores de potássio no solo menor que 1,6 mmolc dm-3
–- e período de início ou final de safra. Tais fatores já foram discutidos anteriormente
nas demais regras.
De acordo com Raij et al. (1996), podem ser considerados como médios, teores
de magnésio no solo entre 5 e 8 mmolc dm-3, e a regra em questão associa valores
inferiores a 3,8 mmolc dm-3 a talhões de baixo desempenho, fato já esperado. Os
demais fatores já foram discutidos anteriormente.
A regra R34 tem como antecedentes: dano por broca acima do nível econômico,
graus-dia na fase de brotação maior ou igual a 5,59 °C.dia -1 e relação cálcio, potássio e
magnésio menor que 0,15. A importância dos atributos dano por broca e relação entre
cátions já foi discutida anteriormente.
70
9
6
Graus-dia brotação
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Mês plantio
Figura 16. Distribuição do parâmetro graus-dia no período de brotação em função do mês de plantio (•)
e ponto de corte determinado pela regra R34 (-).
71
Desta forma, a classe do solo e baixa disponibilidade de potássio fazem com que
os talhões cobertos por esta regra tenham um baixo desempenho, mesmo com uma
boa disponibilidade hídrica na fase crítica em boa parte dos casos.
Com relação à classificação subjetiva das regras com atributo meta alto
desempenho, a regra R4 pode ser classificada como esperada e não-passível de ação,
pois está em linha com o descrito na literatura, o que a torna esperada, e possui fator
relacionado ao ambiente (textura do solo), o que torna alguma ação muito difícil.
As regras R6, R11, R17 e R19 foram classificadas como esperadas e passíveis
de ação. Diferentemente da anterior, são consideradas como passíveis de ação, pois o
controle de pragas pode, em teoria, ser intensificado, assim como correções nos teores
de nutrientes aplicados.
Por fim, as regras R3, R10 e R14, R15, podem ser consideradas como
inesperadas e não-passíveis de ação. Para as três primeiras, uma das possíveis
explicações seria a relação do relevo com alto desempenho, fato já descrito na
literatura, porém não há resultados de pesquisas que mostrem que a população de
cigarrinhas pode ser um indicador indireto de condições mais favoráveis ao
desenvolvimento da cultura propiciado pelo relevo. Para R15, o efeito negativo sobre a
produtividade causado pela perda da eficiência do sistema radicular que ocorre com o
aumento do número de cortes, aparenta ser mitigado com a textura do solo argilosa.
72
autores seria atuar na alocação de variedades que mais se adaptem em cada condição
para mitigar efeitos negativos.
As seis últimas regras foram classificadas como passíveis de ação, pois além de
fatores relacionados ao clima e época de colheita que não podem ser alterados,
também possuem antecedentes relacionados com teores de nutrientes no solo e
controle de praga.
73
pelas regras. Sabidamente, tais elementos têm importância para a produtividade da
cultura (ALMEIDA et al., 2008; ANDERSON et al., 1999; BRUGGEMANN et al., 2001;
DIAS et al., 1999; ORLANDO FILHO et al., 1996; PORTIER; ANDERSON, 1995; REIS
JUNIOR, 2001) e, como também esperado, as relações também são importantes, uma
vez que a cana-de-açúcar tem como principal nutriente exportado o potássio e os solos
em estudo se mostram deficientes neste nutriente, características que contribuem para
a interação entre estes nutrientes (REIS JUNIOR, 2001).
Uma possível razão para que outros atributos químicos do solo não tenham sido
selecionados com grande frequência pelas regras é que os dados disponíveis são
apenas da camada superficial do solo. Resultados de diversos trabalhos mostram que
há uma maior correlação entre produtividade e condições em sub-superfície do solo
(LANDELL et al., 2003).
Uma limitação deste estudo, que não pode deixar de ser mencionada, é que os
padrões encontrados são diretamente dependentes da qualidade e representatividade
dos registros disponíveis nos conjuntos de dados utilizados. Alguns fatores com
conhecida influência na produtividade da cana estavam indisponíveis (compactação do
solo, qualidade do plantio, das mudas, controle de daninhas, doenças, etc). Em quanto
outros, estavam disponíveis com precisão apenas aproximada, característica comum a
bases de dados coletadas em condições normais de operação comercial. Cabe ao
método utilizado mitigar estes efeitos e ser robusto a ruídos, caso das técnicas de
mineração de dados utilizadas.
75
76
5 CONCLUSÃO
Para esta análise específica, fatores que permitem diferenciar talhões com alto
desempenho e baixo desempenho são diferentes.
78
6 REFERÊNCIAS BIBLIOGRÁFICAS
APTÉ, C.; WEISS, S. Data mining with decision trees and decision rules. Future
Generation Computer Systems, v. 13, p. 197–210, 1997.
BAJPAI, P. K.; PRIYA, K.; MALIK, M. Selection of appropriate growth model for
prediction of sugarcane area, production and productivity of India. Sugar Tech, v. 14, n.
2, p. 188–191, 2012.
BAY, S. D.; PAZZANI, M. J. Detecting change in categorical data: Mining contrast sets.
In: INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA
MINING, 5., 1999, San Diego. Proceedings... San Diego: KDD, p.302–306, 1999.
79
1984, Piracicaba. Anais... Piracicaba: Centro de Tecnologia Copersucar, 1984. p.424–
434
CHAPMAN, P.; CLINTON, R.; KERBER, R.; et al. CRISP-DM 1.0 - Step-by-step data
mining guide. . SPSS Inc., 2000.
80
COHEN, W. W. Fast Effective Rule Induction. In: INTERNATIONAL CONFERENCE ON
MACHINE LEARNING. 12., 1995. Proceedings... p.115–123, 1995.
DANIEL, J.; ANDRÉS, P.-U.; HÉCTOR, S.; et al. A Survey of Artificial Neural Network-
Based Modeling in Agroecology. In: B. Prasad (Ed.); Soft Computing Applications in
Industry. v. 226, p.247–269. Berlin, Heidelberg: Springer Berlin Heidelberg. Retrieved
November 5, 2013, from http://www.springerlink.com/index/10.1007/978-3-540-77465-
5_13, 2008.
81
DINARDO-MIRANDA, L. L.; NOVARETTI, W. R. T.; MORELLI, J. L.; NELLI, E. J.
Comportamento de variedades de cana-de-açúcar em relação a Meloidogyne javanica,
em condições de campo. Nematologia Brasileira, v. 19, p. 60–66, 1995.
FRIEDMAN, H. P.; RUBIN, J. On some invariant criteria for grouping data. Jounal of
American Statistical Association, v. 62, p. 1159–1178, 1967.
82
GENG, L.; HAMILTON, H. J. Interestingness measures for data mining: A survey. ACM
Computing Surveys, v. 38, n. 3, p. 9–es. doi: 10.1145/1132960.1132963, 2006.
GILBERT, R. A.; SHINE, J. M.; MILLER, J. D.; RICE, R. W.; RAINBOLT, C. R. The
effect of genotype, environment and time of harvest on sugarcane yields in Florida,
USA. Field Crops Research, v. 95, n. 2-3, p. 156–170. doi: 10.1016/j.fcr.2005.02.006,
2006.
HALL, M.; FRANK, E.; HOLMES, G.; PFAHRINGER, B.; REUTEMANN, P. The WEKA
Data Mining Software: An Update. SIGKDD Explorations, v. 11, n. 1, 2009.
HAN, J.; KAMBER, M.; PEI, J. Data mining : concepts and techniques. Amsterdam;
Boston: Elsevier/Morgan Kaufmann, 2012.
INMAN-BAMBER, N. . Sugarcane water stress criteria for irrigation and drying off. Field
Crops Research, v. 89, n. 1, p. 107–122. doi: 10.1016/j.fcr.2004.01.018, 2004.
LACLAU, P.; LACLAU, J.-P. Growth of the whole root system for a plant crop of
sugarcane under rainfed and irrigated environments in Brazil. Field Crops Research, v.
114, n. 3, p. 351–360. doi: 10.1016/j.fcr.2009.09.004, 2009.
83
LANDELL; BRESSIANI, J. P. Melhoramento genético, caracterização e manejo varietal.
In: L. L. Dinardo-Miranda; A. C. M. Vasconcelos; M. G. A. Landell (Eds.); Cana-de-
açúcar. 1a ed. Campinas: Instituo Agronômico, 2010.
LAVRAC, N.; FLACH, P.; ZUPAN, B. Rule evaluation measures: a unifying view. In:
INTERNATIONAL WORKSHOP ON INDUCTIVE LOGIC PROGRAMMING, 9., 1999.
Proceedings... p. 174-185, 1999.
LIU, B.; HSU, W.; CHEN, S. Using general impressions to analyze discovered
classification rules. In: International Conference on Knowledge Discovery and Data
Mining, 3., 1997. Proceedings... Newport Beach: KDD, p.31–36., 1997.
LIU, B.; HSU, W.; MUN, L.; LEE, H. Finding interesting patterns using user expectations.
Transactions of Knowledge Data Engineering, v. 11, n. 6, p. 817–832, 1999.
LIU, D. L.; KINGSTON, G.; BULL, T. A. A new technique for determining the thermal
parameters of phenological development in sugarcane, including suboptimum and
supra-optimum temperature regimes. Agricultural and Forest Meteorology, v. 90, n.
1-2, p. 119–139. doi: 10.1016/S0168-1923(97)00087-7, 1998.
84
LU, H.; SUNG, S. Y.; LU, Y. On Preprocessing Data for Effective Classification. In:
WORKSHOP ON RESEARCH ISSUES ON DATA MINING AND KNOWLEDGE
DISCOVERY, 1., 1996. Proceedings... Montreal: ACM SIGMOD, 1996.
MARIN, F. R.; JONES, J. W.; ROYCE, F.; et al. Parameterization and evaluation of
predictions of DSSAT/CANEGRO for Brazilian sugarcane. Agronomy Journal, v. 103,
n. 2, p. 304–315, 2011.
PRADO, H.; PÁDUA JÚNIOR, A. L.; GARCIA, J. C.; et al. Solos e ambientes de
produção. In: L. L. Dinardo-Miranda; A. C. M. Vasconcelos; M. G. A. Landell (Eds.);
Cana-de-açúcar. 1a ed. Campinas: Instituo Agronômico, 2010.
PYLE, D. Data preparation for data mining. San Francisco: Morgan Kaufman, 1999.
86
RAIJ, B. VAN; CANTARELLA, H.; QUAGGIO, J. A.; FURLANI, A. M. C.
Recomendações de adubação e calagem para o estado de São Paulo. 2nd ed.
Campinas: Instituo Agronômico, 1996.
ROEL, A.; FIRPO, H.; PLANT, R. E. Why do some farmers get higher yields?
Multivariate analysis of a group of Uruguayan rice farmers. Computers and Electronics
in Agriculture, v. 58, n. 1, p. 78–92. doi: 10.1016/j.compag.2006.10.001, 2007.
SAS INSTITUTE INC. JMP 11 Specialized Models. Cary, NC: SAS Institute Inc., 2013.
87
SCARDUA, R.; ROSENFELD, U. Irrigação da cana-de-açúcar. In: S. B. Paranhos (Ed.);
Cana-de-açúcar: cultivo e utilização. v. 1, p.313–341. Campinas: Fundação Cargill,
1987.
SILVA, M. A.; CARLINI, S. D.; PERECIN, D. Fatores que afetam a brotação inicial da
cana-de-açúcar. Revista Ceres, v. 51, n. 296, p. 457–466, 2004.
SINGELS, A.; SMIT, M. A.; REDSHAW, K. A.; DONALDSON, R. A. The effect of crop
start date, crop class and cultivar on sugarcane canopy development and radiation
interception. Field Crops Research, v. 92, n. 2-3, p. 249–260. doi:
10.1016/j.fcr.2005.01.028, 2005.
88
SMITH, D. M.; INMAN-BAMBER, N. G.; THORBURN, P. J. Growth and function of the
sugarcane root system. Field Crops Research, v. 92, n. 2-3, p. 169–183. doi:
10.1016/j.fcr.2005.01.017, 2005.
SOUZA, Z. M. DE; CERRI, D. G. P.; COLET, M. J.; et al. Análise dos atributos do solo e
da produtividade da cultura de cana-de-açúcar com o uso da geoestatística e árvore de
decisão. Ciência Rural, v. 40, n. 4, p. 840–847, 2010.
TAN, P.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining. Rio de Janeiro:
Ciência Moderna, 2009.
TITTONELL, P.; SHEPHERD, K.; VANLAUWE, B.; GILLER, K. Unravelling the effects of
soil and crop management on maize productivity in smallholder agricultural systems of
western Kenya—An application of classification and regression tree analysis.
Agriculture, Ecosystems & Environment, v. 123, n. 1-3, p. 137–150. doi:
10.1016/j.agee.2007.05.005, 2008.
89
UEHARA, N.; SASAKI, H.; AOKI, N.; OHSUGI, R. Effects of the Temperature Lowered
in the Daytime and Night-time on Sugar Accumulation in Sugarcane. Plant Production
Science, v. 12, n. 4, p. 420–427. doi: 10.1626/pps.12.420, 2009.
WITTEN, I. H.; FRANK, E. Data mining : practical machine learning tools and
techniques. 2nd ed. Amsterdam; Boston, MA: Morgan Kaufman, 2005.
XU, Y.; SHEN, S.; CHEN, Z. Comparative study of sugarcane average unit yield
prediction with genetic BP neural network algorithm. In: INTERNATIONAL
CONFERENCE ON ADVANCED COMPUTER CONTROL, 2., 2010. Proceedings...
p.340–343, 2010.
ZHANG, B.; VALENTINE, I.; KEMP, P. Modelling the productivity of naturalised pasture
in the North Island, New Zealand: a decision tree approach. Ecological Modelling, v.
186, n. 3, p. 299–311. doi: 10.1016/j.ecolmodel.2004.12.016, 2005.
ZHENG, H.; CHEN, L.; HAN, X.; ZHAO, X.; MA, Y. Classification and regression tree
(CART) for analysis of soybean yield variability among fields in Northeast China: The
importance of phosphorus application rates under drought conditions. Agriculture,
Ecosystems & Environment, v. 132, n. 1-2, p. 98–105. doi:
10.1016/j.agee.2009.03.004, 2009.
90
ANEXOS
91
92
ANEXO I – Método utilizado para determinação do fator de maior influência na
produtividade
O software utilizado para indução de árvore de decisão foi o JMP versão 11.2
(SAS INSTITUTE, 2013). Foi estabelecido para parada de crescimento o número
mínimo de registros por folha igual a 45.
Tabela 13. Participação na variabilidade explicada pelo modelo para os atributos descritores induzidos
por árvore de decisão com atributo meta TCH
Participação na
Categoria do Atributo Número de nós Variabilidade
Número Corte 7 72
Textura 3 6
Seca Crescimento 1 4
P-ETC maturação 2 3
Outros 22 15
A árvore de decisão gerada para o atributo meta contínuo TCH possui 35 nós,
sendo que o atributo número de cortes representa um quinto destes. Com relação à
participação na variabilidade explicada pelo modelo, número de cortes tem 72%, sendo
o principal fator de influência sobre TCH.
93
94
ANEXO II – Descrição dos atributos utilizados para indução de regras
Tabela 14. Descrição dos atributos contínuos ou ordinais utilizados para indução de regras
95
Tabela 14.1. Descrição dos atributos contínuos ou ordinais utilizados para indução de regras
(continuação)
Descrição Variável P25 P50 P75
Classe de infestação por
migdólus
Migdolus 2 2 3
(0 – Ausente; 1- Baixa; 2 –
Média; 3 - Alta)
Número de cortes
(0,5 – plantio 18 meses; 0,75 –
Estagio_num 2 3 4
plantio 15 meses; 1,0 – plantio
12 meses; 2 a 5 – 2° a 5° corte)
Ambiente de produção
recomendado para a variedade Vari_Amb 2 3 3
(1 – A até 5 – E)
Mês de plantio para a variedade
Vari_Ciclo 7 8 8
(4 – Abril até 11 – Novembro)
Quantidade de N na adução
insumoN 0 36 72
(kg/ha)
Quantidade de P2O5 na adução
insumoP 0 0 0
(kg/ha)
Quantidade de K2O na adução
insumoK 0 54 81
(kg/ha)
Ambiente de Produção
AmbDmt 4 6 7
(DEMATTÊ; DEMATTÊ, 2009)
Classe de fertilidade do solo
(DEMATTÊ; DEMATTÊ, 2009)
Fertilidade 3 3 4
(1 – mais fértil até 7 - menos
fértil)
96
Tabela 14.2. Descrição dos atributos contínuos ou ordinais utilizados para indução de regras
(continuação)
Descrição Variável P25 P50 P75
Classe de textura do solo
(DEMATTÊ; DEMATTÊ, 2009)
Textura 4 4 4
(1 - muito argilosa até 6 - muito
arenosa; 7 - siltosa)
Mês de início da brotação Mes brotacao 6 8 10
Mês de início do perfilhamento Mes perfilhamento 7 9 11
Mês de início do máximo
Mes Crescimento 2 8 11
crescimento
Mês do início da maturação Mes maturacao 3 7 8
Graus-dia médio na fase de
brotação Graus-dia brotação 3,1 4,4 5,4
(°C.dia-1)
Graus-dia médio na fase de
Graus-dia
perfilhamento 4,0 5,2 6,6
perfilhamento
(°C.dia-1)
Graus-dia médio na fase de
Graus-dia
máximo crescimento 4,7 5,2 6,2
-1
crescimento
(°C.dia )
Graus-dia médio na fase de
Graus-dia
maturação 4,0 4,8 5,5
maturação
(°C.dia-1)
Graus-dia médio no ciclo
Graus-dia ciclo 5,0 5,1 5,3
(°C.dia-1)
Número de veranicos na fase de
Veranico brotação 0 1 1
brotação
Número de veranicos na fase de Veranico
0 1 2
perfilhamento perfilhamento
97
Tabela 14.3. Descrição dos atributos contínuos ou ordinais utilizados para indução de regras
(continuação)
Descrição Variável P25 P50 P75
Número de veranicos na fase de Veranico
3 4 5
máximo crescimento crescimento
Número de veranicos na fase de
Veranico maturação 1 1 2
maturação
Número de veranicos no ciclo Veranico ciclo 6 8 9
Número máximo de dias
consecutivos com ausência de Seca brotação 9 15 19
precipitação na fase de brotação
Número máximo de dias
consecutivos com ausência de
Seca perfilhamento 9 17 19
precipitação na fase de
perfilhamento
Número máximo de dias
consecutivos com ausência de
Seca crescimento 18 36 36
precipitação na fase de máximo
crescimento
Número máximo de dias
consecutivos com ausência de
Seca maturação 11 15 23
precipitação na fase de
maturação
Relação Ca/Mg no solo CaMg 2,20 2,67 3,00
Relação Ca/K no solo CaK 9,72 14,68 24,00
Relação Mg/K no solo MgK 3,64 5,63 10,00
Relação K/(Ca + Mg)½ no solo KCaMg 0,13 0,19 0,28
Relação K/CTC no solo KCTC 0,01 0,02 0,03
98
Tabela 14.4. Descrição dos atributos contínuos ou ordinais utilizados para indução de regras
(continuação)
Descrição Variável P25 P50 P75
Gradiente textural
(%Argila Camada B/%Argila GradText 1,1 1,2 1,4
Camada A)
Mês de colheita MesC 6 8 9
Mês de colheita do ciclo anterior MesC_ant 6 8 10
Diferença entre precipitação e
evapotranspiração da cultura na P-ETC brotação -1,05 0,76 3,55
-1
fase de brotação (mm.dia )
Diferença entre precipitação e
P-ETC
evapotranspiração da cultura na -2,05 -0,23 2,47
perfilhamento
fase de perfilhamento (mm.dia-1)
Diferença entre precipitação e
evapotranspiração da cultura na
P-ETC crescimento -1,63 -0,67 0,54
fase de máximo crescimento
(mm.dia-1)
Diferença entre precipitação e
evapotranspiração da cultura na P-ETC maturação -2,59 0,18 1,77
fase de maturação (mm.dia-1)
Diferença entre precipitação e
evapotranspiração da cultura no P-ETC ciclo -0,42 0,00 0,48
ciclo da cultura (mm.dia-1)
99
Tabela 15. Descrição dos atributos categóricos utilizados para indução de regras
Classes
Descrição Variável (participação no total de
registros)
Aplicação de vinhaça Vinh_nom Não (80%) / Sim (20%)
Aplicação de torta de filtro Torta_nom Não (96%) / Sim (4%)
Aplicação de maturador Maturador_bin Não (82%) / Sim (18%)
Incidência de geada Geada Não (98%) / Sim (2%)
Tipo de Plantio TipoPlantio Mecanizado (89%) / Manual (11%)
Queima pré-colheita Queima Não (81%) / Sim (19%)
Tipo de colheita MecColh Mecanizado (99%) / Manual (1%)
RB 86-7515 (47%)
SP 81-3250 (13%)
SP 80-1842 (9%)
Variedade Variedade
RB 96-6928 (8%)
SP 91-1049 (6%)
Outras (17%)
latossolo vermelho (55%)
neossolo quartzarênico (24%)
Classe de solo SiBCS latossolo vermelho-amarelo (11%)
argissolo vermelho (6%)
argissolo vermelho-amarelo (3%)
Outono (25%)
Época de colheita EpocaC Inverno (44%)
Primavera (31%)
100
ANEXO III – Reapresentação das regras selecionadas
Precisão Cobertura
N. Regra
(%) (%)
R3 SE (Textura ≤ 3) & (Cigarrinha ≥ 2,9) 100,0 2,3
→ ENTÃO Alto (K3 | 24,2% | Classification Tree)
R4 SE (Textura ≤ 3) 50,1 20,6
→ ENTÃO Alto (K3 | 24,2% | RIPPER)
R6 SE (Veranico ciclo ≤ 6) & (Fertilidade ≤ 2) & 86,5 2,3
(Graus-dia Maturação ≤ 4,32)
→ ENTÃO Alto (K3 | 24,2% | RIPPER)
R10 SE (Textura ≤ 3) & (Cigarrinha ≥ 2,8) 88,9 2,8
→ ENTÃO Alto (K4 | 17,1% | Classification Tree)
R11 SE (Textura ≤ 2) & (Broca ≤ 2.05) & (Mg ≥ 7.0) 80,8 3,5
→ ENTÃO Alto (K4 | 17,1% | RIPPER)
R14 SE (Textura ≤ 3) & (Cigarrinha ≥ 2,8) 92,1 2,8
→ ENTÃO Alto (K5 | 19,0% | Classification Tree)
R15 SE (Textura ≤ 3) & (Corte ≥ 3) 53,4 11,6
→ ENTÃO Alto (K5 |19,0% | RIPPER)
R17 SE (Seca Crescimento ≤ 16) & (Nematoide ≤ 0) 87,0 2,0
→ ENTÃO Alto (K5 |19,0% | RIPPER)
R19 SE (P-ETC Crescimento ≥ 1,39) & (Broca < 1,52) 83,6 2,7
→ ENTÃO Alto (K5 |19,0% | RIPPER)
R22 SE (Graus-dia Maturação ≥ 4,51) & (Textura ≥ 4) & 86,2 2,6
(P-ETC Brotação ≥ 5,4) & (KCaMg < 0,11)
→ Baixo (K3 | 24,1% | Classification Tree)
R25 SE (Seca Brotação ≤ 9) & (P-ETC Ciclo ≤ -0,22) & 81,0 4,4
(Ambiente Produção ≥ 6)
→ Baixo (K3 | 24,1% | RIPPER)
R26 SE (Seca Crescimento ≥ 33) & (Seca Brotação <19) & (Ca < 7) & 84,7 2,6
(Corte ≥ 3)
→ Baixo (K3 | 24,1% | RIPPER)
R28 SE (Seca Crescimento ≥ 29) & (Seca Brotação ≤ 19) & (K < 0,51) & 71,9 6,2
(Mês Colheita = (3, 4, 9, 10)
→ ENTÃO Baixo (K3 | 24,1% | RIPPER)
101
Tabela 16.1. Regras selecionadas em ordem numérica (continuação)
Precisão Cobertura
N. Regra
(%) (%)
R32 SE (Graus-dia Maturação ≥ 4,64) & (Mg ≤ 3,8) & (Seca Brotação ≤ 9) & 75,8 4,2
(P-ETC Ciclo ≤ -0,22) → ENTÃO Baixo (K4 | 18,2%)
R34 SE (Broca ≥ 2,27) & (Graus-dia Brotação ≥ 5,59) & (KCaMg < 0,15) 83,1 2,6
→ ENTÃO Baixo (K4 | 18,2% | RIPPER)
R35 SE (Graus-dia Maturação ≥ 4,63) & (K < 0.38) & 82,4 2,3
(P-ETC Crescimento < 0,89) & (SiBCS = PV, PVA, RQ)
→ ENTÃO Baixo (K4 | 18,2% | RIPPER)
R38 SE (Graus-dia Maturação ≥ 4,73) & (Seca Brotação <24) & (MO < 7,9) 60,4 4,9
& (P-ETC Ciclo < -0,20)
→ ENTÃO Baixo (K5 | 16,1% | Classification Tree)
R40 SE (Graus-dia Maturação ≥ 4,73) & (Seca Brotação ≤ 9) & 86,3 2,3
(P-ETC Ciclo < -0,24) & (Textura ≥ 5)
→ ENTÃO Baixo (K5 | 16,1% | RIPPER)
102