Escolar Documentos
Profissional Documentos
Cultura Documentos
3) Suponha que você esteja realizando uma análise de soja por Infravermelho
próximo, médio, massas ou cromatografias líquida ou gasosa. Suponha que você
tenha um grupo de amostras de soja transgênica e um grupo de soja convencional,
cultivadas de maneira similar. Após diversas tentativas utilizando PCA dos
espectros/cromatogramas, você não conseguiu ver separação entre as amostras dos
dois grupos por nenhuma técnica. Baseado nessas suposições, cite possíveis razões
para não se verificar tal separação no PCA. (até 1 página).
Para as possíveis razões do problema acima citado para a não
identificação/verificação de separação de amostras através do método não supervisionado
PCA para amostras de soja transgênica e convencionais, podemos ter:
1° A similaridade e conexões da composição do material, podem ter uma baixa
variação genética modificada entre ambos materiais na composição da estrutura da soja,
causando uma alta similaridade que pode não ser detectada por formação de grupos
especificamente por este método, onde as diferenças podem estar próximas ao ruído da
técnica. Isso em termos geométricos faz com que a função das componentes principais
não consiga descrever a variação ou espalhamento entre os pontos por meio de menores
números possíveis de eixos, não conseguindo ser detectados pelos “loadings” e “scores”
das combinações lineares das variáveis originais.
2° Podemos também ter estruturalmente nas amostras de soja, uma composição
binárias simples que muitas vezes obtêm bons resultados para amostras utilizadas para
calibração das técnicas analíticas mencionadas acima (por exemplo convencionais), no
entanto, quando se passa para análises com amostras reais “transgênicas” (sem ser
amostras utilizadas para desenvolver a curva de calibração do método para soja), podem
ocorrer problemas proveniente de interferências espectrais e desconhecimento da real
identidade do composto de interesse. Para esses casos, a curva de calibração analisada já
não possui uma alta resolução simultânea que forneça resultados precisos e por isso é
recomendado a utilização de outros métodos para resolver este tipo de problema ou
modifica-la para modelos mais robustos. Muito provável que a detecção de “outliers”
junto as componentes principais empregadas no modelo são baixas e isso podemos
observar bem junto as grandezas complementares como “leverage” e “resíduos de
student”, que são medidas de influências de uma amostra no modelo de regressão
utilizada para os cálculos.
Porém é necessário ter muito cuidado e critérios bem estabelecidos para saber
quando usar as derivadas, pois em alguns casos ela não é recomendada principalmente
em algoritmos que quando aplicados podem introduzir mais ruídos nos resultados.
Portanto a escolha adequada do pré-tratamento é essencial para o sucesso de
qualquer análise, nas derivadas por exemplo, é crucial que o analista decida se o offset e
bias podem ou não ser eliminados através da verificação das contribuições indesejáveis
que possam diminuir ou não o ruído introduzido.
b) Um auto escalonamento se trata nada mais que uma normalização, onde damos
a cada variável a mesma chance de contribuir para o modelo desenvolvido, em outras
palavras, é dar o mesmo “peso” para todas as variáveis quantificadas dividindo os dados
centrados na média pelo desvio padrão. Na maioria das vezes nossos modelos que
desenvolvemos, nós estamos interessados nas diferenças dos objetos e não nos seus
valores absolutos, sendo assim, centralizamos os dados na média e auto escalamos os
dados pelo seu desvio padrão. Ou seja, através de um auto escalonamento podemos definir
quantos componentes principais podemos utilizar em nosso modelo, pois com poucos CP
podemos obter alguma variação sistemática que deixa de ser descrita pelo modelo fazendo
com que ele não consiga descrever os dados completamente. Já com muitas CP, muito
provável que os últimos CP descrevam apenas ruído da sua técnica, fazendo com que este
modelo não seja tão robusto quando aplicado a novos dados.
Devemos usá-lo ou não quando a faixa de variação dos dados é grande. Assim,
conseguimos minimizar o efeito (influência) de uma variável dominante sobre as demais
em cálculos posteriores. Em outras palavras, realizamos gráficos de autovalores, onde
selecionamos os CP que explicam bastante porcentagem do modelo e estão acima do nível
de ruído, que normalmente são oriundos de amostras anômalas “outliers” que se diferem
bastante do resto dos dados. Caso eles não sejam removidos, eles podem ter um efeito
grande no modelo e na CP. Portanto, o propósito dessa transformação é permitir que todas
as variáveis possam exercer influências equitativas nos resultados além de torná-las
adimensionais.
c) Centralizamos os dados sempre na média para prever que os pontos mais
distantes do centro dos dados possam ter uma influência maior que os dados mais
próximos. Em outras palavras, quando realizamos este procedimento, a direção da
primeira componente principal que explica boa parte do modelo é coincidente com a
direção da maior variância intrínseca do conjunto de dados. Isto é, conseguimos descrever
com uma CP a menos a maior variabilidade dos dados, calculando a média das
intensidades para cada comprimento de onda e subtraindo-o para cada uma das
intensidades do valor médio. Assim podemos mover as coordenadas para o centro dos
dados (passará a ter média zero) e sendo mais fácil visualização como mostra a foto
abaixo
5) Seja abaixo o resultado de um PCA onde foram analisadas diferentes amostras
de vinhos, e as variáveis: Teor de Álcool, Intensidade de Cor, Matiz da cor (Hue),
Teor de flavonoides, de não flavonoides, de ácido málico, de prolina e de cinzas. (até
3 páginas)