Paano ko maipapaliwanag ang pagkakaiba sa pagitan ng RPCA at PCA?


sagot 1:

I-edit: Doh, napagtanto ko na maaari kang magtanong tungkol sa Robust-PCA at hindi Principal Component Regression (aka regression-PCA). Para sa kung ano ang halaga, narito ang isang sagot sa huli.

Minsan sa panahon ng pagreresulta, ang mga pangkat ng mga variable na input (covariates) ay magiging collinear (tingnan ang isa pang tanong sa multicollinearity). Nangangahulugan ito ng mga pag-input na lubos na nahuhulaan sa isa't isa na nagpapahiwatig ng isang uri ng kalabisan mula sa punto ng paglabas ng output: kung maaari mong hulaan

yy

mabuti sa

xx

, hindi mo na kailangan ng isa pang malapit na kopya ng

xx

.

Sa kasamaang palad, nakikita ng regulasyon ng OLS na ito at sinisikap na mabayaran sa pamamagitan ng pagtatalaga ng magkatulad na responsibilidad sa mga input ng collinear. Sa halimbawa sa itaas, isipin ang tungkol sa kung gaano karaming iba't ibang mga eroplano ang umiiral na malapit sa pinakamainam (sa hindi bababa sa parisukat na kahulugan) ...

Walang hanggan, di ba? Anumang eroplano na dumadaan sa mga puntos, anuman ang pag-ikot tungkol sa mga berdeng puntos: Isipin ang isang uri ng axis na naka-angkla sa kalagitnaan ng hangin na dumaan sa mga berdeng puntos at pagkatapos ay ang pulang eroplano ay nai-pivoted sa ito.

Upang mapalala ang mga bagay, sa pamamagitan ng pag-uugnay ng data ng isang maliit na maliit, ang pangwakas na timbang ng regression, mahalagang pagkontrol sa gradient ng eroplano, ay maaaring ibang-iba. Ito ay nagpapahiwatig na ang modelo ay hindi matatag.

Kaya ano ang isang punong-punong paraan upang pagsamahin ang mga variable ng pag-input na magpapabago? Kaya, narito ang gagawin ng Regression-PCA:

Una, gagawin nito ang PCA sa mga input (ang mga asul na puntos), ibig sabihin, makahanap ng isang asul na linya sa eroplano ng XZ upang i-proyekto ang mga asul na puntos sa (tulad na ang kabuuang distansya ng projection ay nabawasan). Ang linya na ito ay kumikilos bilang isang bagong axis - tawagan ito

bb

,

at ang orihinal na problema sa pagbabalik ay nalutas na ngayon sa balangkas ng sanggunian

byb-y

, isang solong-variable na linear regression.

Kaya sa paraan, hahanapin namin sa PCA ang mga pagkakapareho ng mga katulad na variable, sa halip na iwanan ito hanggang sa OLS na may likas na panganib ng kawalang-tatag na isinalarawan sa itaas.

Sa wakas, upang muling mabalewala ang regression sa orihinal

xzyx-z-y

puwang, anupat na koepisyent ng regresyon na nagmula sa variable na b ay ibinigay (narito 0.5), ay ibabahagi nang pantay-pantay ayon sa mga bigat ng aksis na PCA na nagmula (kaya ang pangwakas na mga timbang ng RPCA ay magiging

(0.25,0.25)(0.25, 0.25)

).