Você está na página 1de 7

Acta Oeconomica Kaposvriensis (2007) Vol 1 No 1-2, 113-119 Kaposvri Egyetem, Gazdasgtudomnyi Kar, Kaposvr Kaposvr University, Faculty

of Economic Science, Kaposvr

A PLS (Partial Least Squares) regresszi s alkalmazsa


Kvr1 Gyrgy, Bzr2 Gyrgy
1 2

Kaposvri Egyetem, Gazdasgtudomnyi Kar, Matematika s Fizika Tanszk, 7400 Kaposvr, Guba Sndor u. 40. Kaposvri Egyetem, llattudomnyi Kar, Serts- s Kisllattenysztsi Tanszk,7400 Kaposvr, Guba Sndor u. 40.

SSZEFOGLALS A 29 mangalica hsmintbl szrmaz NIR spektrumok valamint a szrazanyag-, zsrs fehrjetartalmat szolgltat kmiai analzis eredmnyeit feldolgozva egy- s tbbvltozs kalibrcis modelleket ksztettnk PLS s PCR regresszi segtsgvel, hogy a hsmintk kmiai sszettelt megbecslhessk. Megllaptottuk, hogy a vgs modell igen magas arnyban (93.5099.04%) magyarzza a fgg vltozk variancijt. A keresztvalidcis eredmnyek vizsglata azt mutatja, hogy a 29 minta alapjn ngy komponensre alapozva robusztus kalibrcis egyenletek kszthetk. A statisztikai elemzshez felhasznlt R programcsomag megfelel grafikus s numerikus outputot szolgltatott a kvetkeztetsek levonshoz. (Kulcsszavak: PLS regresszi, PCR, mangalica, R) A PLS (Partial Least Squares) regression and an application Gyrgy Kvr1, Gyrgy Bzr2

Kaposvr University, Faculty of Economic Science, Department of Mathematics and Physics, H-7400 Kaposvr Guba S. u. 40 Kaposvr University, Faculty of Economic Science, Department of Pig and Small Animal Breeding, H-7400 Kaposvr Guba S. u. 40
2

ABSTRACT The aim of this study was to develop calibration equations to predict the chemical compositon of 29 mangalitza meat samples by means of near infrared spectroscoy (NIRS). Several different uni- and multivariate PLS and PCR were created. It was found that the variance of dry matter, ether extract and protein concentration was determined by the final prediction equations in 93.5% 99.04%. After the crossvalidation process, a 4 component robust prediction equation was concluded. The pls package of CRAN R is designed such that it provides the necessary procedures and plots to create sufficient prediction models for NIR spectroscopy. (Keywords: PLS regression, PCR, mangalicza, R) BEVEZETS Jelen kzlemnyben a liofilizlt mintk szrazanyag-, zsr- s fehrjetartalmnak becslst lehetv tev kalibrcis egyenletek ltrehozsra szolgl mdszerek kzl a PLS regresszi (rszleges legkisebb ngyzetek) alkalmazsra helyezzk a hangslyt. Annak ellenre, hogy a PLS regresszi viszonylag j kelet eszkz a ksrleti adatok feldolgozsban, az elmleti megalapozsnak mris bsges szakirodalma tallhat, az egyes vltozatok, alkalmazsok szma egyre gyarapszik (Siesler s mtsai., 2002). A mdszer kedveltsgre, hasznlhatsgra utal az is, hogy Wald (2001) mr azt javasolja a

113

Kvr s Bzr: A PLS (Partial Least Squares) regresszi s alkalmazsa szakmai kznsgnek, hogy a PLS rvidtst Projection to Latent Structures (Vetts ltens struktrkra) jelentssel tltsk meg, ami jobban utal a mdszer lnyegre. Sajt vizsglataink clkitzse, hogy a szabadon hozzfrhet R programcsomag szolgltatsait felhasznlva egy- s tbbvltozs PLS regresszira alapozott kalibrcis egyenleteket dolgozzunk ki. Az eredmnyeinket ssze kvnjuk hasonltani a PLS regresszival nagyfok rokonsgot mutat PCR (fkomponens) regresszi ltal szolgltatott modellekkel is. ANYAG S MDSZER Vizsglataink alapjt 29 mangalica sertsbl szrmaz hsminta reflexis spektruma s kmiai elemzs eredmnyeknt kapott beltartalmi rtkek (szrazanyag-, zsr- s fehrjetartalom) kpezik. Az llatokat hagyomnyos takarmnyozsi s tartsi krlmnyek kztt hizlaltk, a vgskori tlagos testtmeg 157 kg volt. 24 rs htst kveten a bal oldali hossz htizom (m. longissimus dorsi) utols bordatjkrl szrmaz szelete (kb. 100 g) kerlt vizsglatra. Minden mintt gondosan megtiszttottunk a ktszvettl, hogy csak az intramuszkulris zsrtartalommal kelljen szmolni. Az egyes mintkat IKA A11 basic berendezssel homogenizltuk majd Christ Alpha fagyasztva szrtval liofilizltuk. A fagyasztva szrtott (liofilizlt) mangalica hsmintk kzeli infravrs vizsglatt NIRSystem 6500 (Foss NIRSystem, Silver Spring, MD, USA) spektromterrel vgeztk el. A reflexis spektrumokat az 1100-2500 nm-es tartomnyban rgztettk (log 1/R), 2 nm-es lpskzzel. Small ring cup mintatart kvettt (IH0307) s Sample transport egysget hasznltunk a vizsglat sorn. A mszer zemeltetshez s az elsdleges adatkezelshez a WinISI II version 1.5 szoftvert alkalmaztuk (InfraSoft International, Port Matilda, PA, USA). A kvettkat minden minta utn elmostuk, majd szrazra trltk. A kmiai analzis sorn a liofilizlt mintk szrazanyag-tartalmt az MSZ ISO 1442 szabvny, a zsrtartalmat Folch s mtsai (1957) szerint hatroztuk meg. Ssavas emsztst s Kjel-Foss Fast Nitrogen Analyzer kszlket alkalmazva a nitrogn tartalom meghatrozsra; a nitrogn tartalmat 6,25-dal szorozva fejeztk ki a fehrjetartalmat. A beltartalmi rtkeket (zsr- s fehrjetartalom) 100% szrazanyagra vonatkoztatva adtuk meg. A PLS regresszi matematikai-statisztikai modelljt Siesler s mtsai (2002) s Mevik s Wehrens (2007) nyomn foglaljuk ssze. A statisztikai modell a 29 elem minta hrom fgg vltozja (Y(293)) s a spektrumonknt 700 reflexis rtket jelent fggetlen vltozk (X(29700)) kztt teremt kapcsolatot a kvetkez formban:

Y = XB + , ahol a vletlen hibk mtrixa.

(1)

A legkisebb ngyzetek elvn alapul lineris regresszi mdszervel az ismeretlen B ltalban meghatrozhat:

B = ( X T X ) 1 X T Y
T

(2)

Sajnos (2)-ben szerepl X X a NIR spektroszkpia esetben rendszerint nem invertlhat a szinte mindig fellp multikollinearitsi problmk miatt. A PCR s PLS regresszi gy kerli meg ezt a problmt, hogy mtrixok szorzatv bontja fel X-et (3). T ortogonlis oszlopvektorokbl ll, gynevezett ltens komponensek mtrixa, P pedig az n loading mtrix. Mskppen felrva (4) a komponensek oszlopait megkaphatjuk az X s a W slymtrix szorzataknt.

114

Acta Oecon. Kapos. Vol 1 No 1-2

X = TP T = XW
Y = TQ + , ahol E a vletlen hibk mtrixa.

(3) (4)

A mennyiben T meghatrozsra kerl, az els nhny oszlopa alkalmas arra, hogy Y fgg vltozra regresszis egyenletet hatrozzunk meg (4). (5) T meghatrozshoz a PCR s PLS regresszi egymstl eltr tovbbi kvetelmnyt tmaszt. A fkomponens regresszi (PCR) a T variancijt maximalizlja (6).

1 var(T ) = W T X T XW n

(6)

Ugyanakkor a PLS regresszi olyan T komponenseket llt el, melyek a Y TT kovariancija maximlis (7), vagyis a PLS regresszi a komponensek meghatrozsakor figyelembe veszi a regresszis egyenlettel kzeltend fgg vltoz tulajdonsgait is.

1 cov(Y T T ) = W T X T YY T XW n

(7)

A PLS regresszi ltalban kedvezbb tulajdonsgokat mutat, mint a PCR. Szlssges esetben elkpzelhet, hogy fkomponens regresszi vgzse kzben a T els nhny komponensnek megtartsa mellett olyanokat is elhagyunk, melyek elsdlegesek Y meghatrozsban. Az R nylt forrskd statisztikai szoftvercsomagot alkalmaztuk a szmtsok elvgzsre. Az R modulris felpts, fggetlen szerzk jrulnak hozz a fejlesztshez. A PSL, PCR regresszit tartalmaz csomag Ron Wehrens s Bjrn-Helge Mevik munkja (Mevik s Wehrens, 2007). A pls csomag egyarnt alkalmas a tma szakirodalmban gyakran PLS1 s PLS2 elnevezssel illetett modellek paramtereinek meghatrozsra. A PLS1 s PLS2 modell kztt az alapvet klnbsg az, hogy a T komponenseinek meghatrozst csak egy fgg vltoz, vagy egy idben az sszes fgg vltoz figyelembe vtelvel vgezzk. EREDMNY S RTKELS A multi-kollinearits mrtknek szemlltetsre a 29 spektrum (1. bra) esetre meghatroztuk a ktvltozs lineris korrelcis egytthat rtkt X(29700) oszlopszomszdai kztt. A 2. brn feltntettk a kiszmtott egytthatkat. A rendkvl magas rtkek (r > 0.9990) igazoljk szmunkra, hogy jogosan vetettk el a legkisebb ngyzetek mdszert hasznl tbbvltozs lineris regresszis modellt. Mivel a kmiai analzisbl szrmaz fgg vltozk kztt szoros a korrelcis kapcsolat (1. tblzat), elsknt a hrom tulajdonsg egyidej becslsre alkalmas PLS2 modellt lltjuk el. A PLS2 modell ltal magyarzott variancia mrtke egyre nagyobb attl fggen, hogy NIR spektrumokbl kivont komponensek (T els nhny oszlopvektora) kzl hny kerl a kalibrcis egyenletbe (2. tblzat). A 3. tblzatban PCR modellel magyarzott variancia mrtkeket tntettnk fel. rdemes sszevetni a PLS2 s a PCR modell ltal szolgltatott adatokat. Az elzetes vrakozsnak megfelelen a NIR spektrumokat tartalmaz X variancijt a PCR minden esetben jobban becslte, mint a PLS2. A fgg vltozk variancijt viszont a 3. tblzatban kiemelt hrom esettl eltekintve mindenhol a PLS2 magyarzta magasabb mrtkben. 115

Kvr s Bzr: A PLS (Partial Least Squares) regresszi s alkalmazsa 1. bra 29 mangalica sertsbl vett hsminta NIR spektruma

(1)

Figure 1: NIR spectra of 29 mangalitza pig meat sample. Wavelength(1) 2. bra Korrelci az egyes NIR spektrumok szomszdos rtkei kztt
(2)

(1)

Figure 2: Correlation coefficients between the neighbouring values of NIR spectra Wavelength(1), Correlation coefficients(2) 1. tblzat Korrelci a szrazanyag-, zsr- s fehrjetartalom kztt zsrtartalom(2) fehrjetartalom(3) szrazanyag-tartalom(1) 0,839 -0,850 zsrtartalom(2) -0,999

Table 1: Correlation coefficients between the dry matter, fat and protein content of the meat samples Dry matter(1), Fat content(2), Protein content(3)

116

Acta Oecon. Kapos. Vol 1 No 1-2 2. tblzat PLS2 modell ltal magyarzott variancia mrtke. A kalibrcis egyenlet egytl hatig nvekv szmban tartalmazza a NIR spektrumokbl szrmaz komponenseket X NIR Y1 sz.a. (1) Y2 zs. (2) Y3 f. (3) 1 komp. (4) 2 komp. 76.88 92.86 77.26 90.13 97.01 97.86 97.31 97.95 3 komp. 99.23 91.64 98.48 98.54 4 komp. 99.67 93.58 99.04 99.00 5 komp. 99.84 93.64 99.31 99.37 6 komp. 99.88 93.68 99.52 99.58

Table 2: Variance explained by fitted PLS2 model with 1 to 6 components Dry matter(1), Fat content(2), Protein content(3), Number of component(4) 3. tblzat PCR modell ltal magyarzott variancia mrtke. A kalibrcis egyenlet egytl hatig nvekv szmban tartalmazza a NIR spektrumokbl szrmaz komponenseket X NIR Y1 sz.a. (1) Y2 zs. (2) Y3 f. (3) 1 komp. (4) 2 komp. 76.89 95.18 85.23 78.22 96.71 97.17 97.05 97.37 3 komp. 99.26 92.09 98.35 98.44 4 komp. 99.71 93.17 98.70 98.67 5 komp. 99.85 93.60 99.12 99.16 6 komp. 99.90 93.70 99.17 99.24

Table 3: Variance explained by fitted PCR model with 1 to 6 components Dry matter(1), Fat content(2), Protein content(3), Number of component(4) Az egyvltozs PLS1 modell a szrazanyag variancijnak becslsben szembetnen kedvezbb eredmnyeket szolgltat, mint a hromvltozs PLS2 (2. s 4. tblzat). A zsr- s fehrjetartalom esetben ezt nem jelenthetjk ki. A komponensek optimlis szmnak megllaptsra keresztvalidcit vgeztnk. A hromvltozs PLS2 modell esetben meghatrozott keresztvalidcis hibkat a 3. brn tallhatjuk. A keresztvalidcis hiba (CV) nem ms, mint a becslsi hibk ngyzetsszegeinek tlagbl vont ngyzetgyk (RMSEP). Torztatlan formban is (adjCV) megtallhat az brn. Mivel a keresztvalidcit jelen modellnl egy-egy minta figyelmen kvl hagysa jelenti a CV s adjCV megegyezik. Az brn megfigyelhetjk, hogy a keresztvalidcis hiba minimumt szrazanyagtartalom esetben a 4 komponenst tartalmaz modell szolgltatja. A szrazanyagtartalom variancijnak magyarzata (2. tblzat) az 5 s 6 komponenst tartalmaz modellben mr nem nvekszik jelentsen, viszont a CV igen. A zsr- s fehrjetartalom esetben a feltntetett hat komponens is cskken keresztvalidcis hibt tallhatunk (3. bra). A hrom fgg vltozt egy logikai egysgknt kezelve kijelenthetjk, hogy a 4 komponenst tartalmaz modell megfelel, klns tekintettel arra, hogy a zsr- s fehrjetartalom esetben a variancia magyarzat a 99.0% elri illetve meghaladja. 117

Kvr s Bzr: A PLS (Partial Least Squares) regresszi s alkalmazsa 4. tblzat A hrom fggetlen vltozra egyenknt ltrehozott PLS1 modell ltal magyarzott variancia mrtke. A kalibrcis egyenlet egytl hatig nvekv szmban tartalmazza a NIR spektrumokbl szrmaz komponenseket X NIR Y1 sz.a. (1) X NIR Y2 zs. (2) X NIR Y3 f. (3) 1 komp. (4) 2 komp. 76.58 94.18 81.92 88.73 76.87 92.85 97.03 97.86 76.88 92.29 97.30 98.02 3 komp. 99.24 92.44 99.23 98.49 99.23 98.55 4 komp. 99.70 93.67 99.68 99.01 99.65 99.05 5 komp. 99.83 94.80 99.84 99.32 99.84 99.37 6 komp. 99.87 97.08 99.88 99.54 99.89 99.57

Table 4: Variance explained by the three fitted univariate PLS1 model with 1 to 6 components Dry matter(1), Fat content(2), Protein content(3), Number of component(4) 3. bra A hromvltozs PLS2 modell keresztvalidcis eredmnyei. Y1=szrazanyag-tartalom, Y2=zsrtartalom, Y3=fehrjetartalom

Komponensek szma (1)

The cross validation results of the three-variable PLS2 model. Y1=dry matter, Y2=fat content, Y3=protein content the NIR spectra neighbouring values Number of component(1)

118

Acta Oecon. Kapos. Vol 1 No 1-2 KVETKEZTETSEK A 29 mangalica hsmintbl szrmaz NIR spektrumok s a kmiai analzis eredmnyeit feldolgozva egy- s tbbvltozs kalibrcis modelleket ksztettnk PLS s PCR regresszi segtsgvel. Megllapthatjuk, hogy minden modell igen magas arnyban (93.50 99.04%) magyarzza a fgg vltozk variancijt. A keresztvalidcis eredmnyek vizsglata azt mutatja, hogy a 29 minta alapjn, PLS2 modellel ngy komponensre alapozva robusztus kalibrcis egyenletek kszthetk. A statisztikai elemzshez felhasznlt R programcsomag megfelel grafikus s numerikus outputot szolgltatott a kvetkeztetsek levonshoz. IRODALOMJEGYZK Folch, J.M., Leeas, M., Sloane-Stanley, G.H. (1957): A simple method for the isolation and purification of total lipids from animal tissues. In: J. Biol. Chem. 226. 495-509. p. Mevik, B.H., Wehrens, R. (2007): The pls Package: Principal Component and Partial Least Squares Regression In: R. Journal of Statistical Software, 18. 2. R (2007): A Language and Environment for Statistical Computing. [online] <http://www.R-project.org> [2007 dec. 10.] Siesler, H.W., Ozaki, Y., Kawata, S., Heise, H.M. (2002): Near-Infrared Spectroscopy. Weinheim : Wiley-VCH GmbH, 132-136. p. Wald. S., Sjstrm, M., Eriksson, L. (2001): PLS-regression: a basic tool of chemometrics. In: Chemometrics and Intelligent Laboratory Systems 58. 109-130. p.

Levelezsi cm (Corresponding author): Kvr Gyrgy Kaposvri Egyetem, Gazdasgtudomnyi Kar Matematika s Fizika Tanszk 7401, Kaposvr, Pf. 16. Kaposvr University, Faculty of Economic Science Department of Mathematics and Physics H-7401, Kaposvr, POB 16. Tel.: 36-82-505-956 e-mail: kovergy@ke.hu

119

Você também pode gostar