Úvod do viacrozmernej štatistickej analýzy - Kalinina. Viacrozmerná štatistická analýza Viacrozmerná štatistická analýza Analýza hlavných komponentov

Zavedenie PC do riadenia národného hospodárstva zahŕňa prechod od tradičných metód analýzy činnosti podnikov k pokročilejším modelom ekonomického riadenia, ktoré umožňujú odhaliť jeho hlboké procesy.

Široké využitie metód matematickej štatistiky v ekonomickom výskume umožňuje prehĺbiť ekonomickú analýzu, zlepšiť kvalitu informácií pri plánovaní a prognózovaní produkčných ukazovateľov a analyzovať jej efektívnosť.

Zložitosť a rôznorodosť vzťahov medzi ekonomickými ukazovateľmi určuje mnohorozmernosť znakov, a preto si vyžaduje použitie najkomplexnejšieho matematického aparátu – metód viacrozmernej štatistickej analýzy.

Pojem „viacrozmerná štatistická analýza“ zahŕňa kombináciu viacerých metód určených na skúmanie kombinácie vzájomne súvisiacich vlastností. Hovoríme o delení (partitioning) uvažovaného súboru, ktorý je reprezentovaný multidimenzionálnymi znakmi na relatívne malý počet z nich.

Zároveň je cieľom prechodu od veľkého počtu funkcií k menšiemu zmenšiť ich rozmer a zvýšiť výpovednú kapacitu. Tento cieľ sa dosahuje identifikáciou informácií, ktoré sa opakujú, generované vzájomne súvisiacimi znakmi, vytváraním možnosti agregácie (kombinovania, sčítania) podľa niektorých znakov. Ten zahŕňa transformáciu skutočného modelu na model s menším počtom faktorových prvkov.

Metóda viacrozmernej štatistickej analýzy umožňuje identifikovať objektívne existujúce, ale nie explicitne vyjadrené vzorce, ktoré sa prejavujú v určitých sociálno-ekonomických javoch. S tým sa človek musí stretnúť pri riešení množstva praktických problémov v oblasti ekonomiky. Vyššie uvedené sa uskutočňuje najmä vtedy, ak je potrebné akumulovať (fixovať) súčasne hodnoty niekoľkých kvantitatívnych charakteristík (znakov) pre sledovaný objekt, keď je každá charakteristika náchylná na nekontrolované zmeny (v kontexte objektov ), napriek homogénnosti objektov pozorovania.

Napríklad pri skúmaní homogénnych (z hľadiska prírodných a ekonomických podmienok a typu špecializácie) podnikov z hľadiska množstva ukazovateľov efektívnosti výroby sme presvedčení, že pri prechode z jedného objektu do druhého takmer každá z vybraných charakteristík ( identický) má inú číselnú hodnotu, teda nájde takpovediac nekontrolovateľný (náhodný) rozptyl. Takáto „náhodná“ variácia vlastností má tendenciu sledovať niektoré (pravidelné) tendencie, a to tak z hľadiska dobre definovaných rozmerov vlastností, okolo ktorých sa variácia vyskytuje, ako aj z hľadiska miery a vzájomnej závislosti samotnej variácie.

Vyššie uvedené vedie k definícii viacrozmernej náhodnej premennej ako súboru kvantitatívnych znakov, z ktorých hodnota každého podlieha nekontrolovanému rozptylu počas opakovania tohto procesu, štatistického pozorovania, skúseností, experimentu atď.

Predtým bolo povedané, že multivariačná analýza kombinuje množstvo metód; nazvime ich: faktorová analýza, analýza hlavných komponentov, zhluková analýza, rozpoznávanie vzorov, diskriminačná analýza atď. Prvé tri z týchto metód sú uvedené v nasledujúcich odsekoch.

Rovnako ako iné matematické a štatistické metódy, aj multivariačná analýza môže byť efektívna pri jej aplikácii za predpokladu, že počiatočné informácie sú vysokej kvality a pozorované údaje sú rozsiahle a sú spracované pomocou PC.

Základné pojmy metódy faktorovej analýzy, podstata úloh, ktoré rieši

Pri analýze (a rovnako skúmaných) sociálno-ekonomických javov sa často stretávame s prípadmi, keď je z rôznorodosti (bohatej parametricity) objektov pozorovania potrebné časť parametrov vylúčiť alebo ich nahradiť menším počtom určitých funkcií. bez poškodenia celistvosti (úplnosti) informácie . Riešenie takéhoto problému má zmysel v rámci určitého modelu a je určené jeho štruktúrou. Príkladom takého modelu, ktorý je najvhodnejší pre mnohé reálne situácie, je model faktorovej analýzy, ktorého metódy umožňujú koncentrovať vlastnosti (informácie o nich) „kondenzáciou“ veľkého počtu do menšieho, informačnejšieho. . V tomto prípade by mal byť získaný „kondenzát“ informácií reprezentovaný najvýznamnejšími a definujúcimi kvantitatívnymi charakteristikami.

Pojem „faktoriálna analýza“ by sa nemal zamieňať so širokým konceptom analýzy vzťahov príčin a následkov, keď sa skúma vplyv rôznych faktorov (ich kombinácií, kombinácií) na produktívny atribút.

Podstatou metódy faktorovej analýzy je vylúčiť popis viacerých charakteristík skúmaných a nahradiť ho menším počtom informačne priestrannejších premenných, ktoré sa nazývajú faktory a odrážajú najvýznamnejšie vlastnosti javov. Takéto premenné sú niektorými funkciami pôvodných funkcií.

Analýza, slovami Ya.Okuna', 9 umožňuje získať prvé približné charakteristiky zákonitostí, ktoré sú základom tohto javu, sformulovať prvé, všeobecné závery o smeroch, v ktorých by sa mal vykonávať ďalší výskum. Ďalej poukazuje na základný predpoklad faktorovej analýzy, ktorým je, že jav, napriek svojej heterogenite a variabilite, možno opísať malým počtom funkčných jednotiek, parametrov alebo faktorov. Tieto pojmy sa nazývajú rôzne: vplyv, príčiny, parametre, funkčné jednotky, schopnosti, základné alebo nezávislé ukazovatele. Použitie jedného alebo druhého výrazu podlieha

Okun Ya. Faktorová analýza: Per. s poschodie. M.: Štatistika, 1974.- S.16.

kontextu o faktore a poznaní podstaty skúmaného javu.

Etapy faktorovej analýzy sú postupným porovnávaním rôznych súborov faktorov a možností so skupinami s ich zahrnutím, vylúčením a hodnotením významnosti rozdielov medzi skupinami.

V.M. Zhukovska a I.B. Muchnik 10, keď hovoria o podstate problémov faktorovej analýzy, tvrdia, že faktorová analýza nevyžaduje a priori rozdelenie premenných na závislé a nezávislé, pretože všetky premenné v nej sa považujú za rovnaké.

Úloha faktorovej analýzy sa redukuje na určitý pojem, počet a charakter najvýznamnejších a relatívne nezávislých funkčných charakteristík javu, jeho meračov alebo základných parametrov – faktorov. Dôležitým rozlišovacím znakom faktorovej analýzy je podľa autorov to, že umožňuje súčasne skúmať veľké množstvo vzájomne súvisiacich premenných bez predpokladu „nemennosti všetkých ostatných podmienok“, čo je tak nevyhnutné pri použití množstva iných metód. analýzy. To je veľká výhoda faktorovej analýzy ako cenného nástroja na štúdium fenoménu kvôli komplexnej rôznorodosti a prelínaniu vzťahov.

Analýza sa opiera najmä o pozorovania prirodzených variácií premenných.

1. Pri použití faktorovej analýzy sa množina premenných, ktoré sa skúmajú z hľadiska vzťahov medzi nimi, nevyberá svojvoľne: táto metóda umožňuje identifikovať hlavné faktory, ktoré majú významný vplyv na túto oblasť.

2. Analýza nevyžaduje predbežné hypotézy, naopak, môže sama o sebe slúžiť ako metóda na predkladanie hypotéz a môže slúžiť aj ako kritérium pre hypotézy založené na údajoch získaných inými metódami.

3. Analýza nevyžaduje apriórne dohady o tom, ktoré premenné sú nezávislé a závislé, nezveličuje kauzálne vzťahy a rieši otázku ich rozsahu v procese ďalšieho výskumu.

Zoznam konkrétnych úloh, ktoré sa majú vyriešiť pomocou metód faktorovej analýzy, bude nasledujúci (podľa V.M. Žukovského). Spomeňme tie hlavné v oblasti socioekonomického výskumu:

Zhukovskaya V.M., Muchnik I.B. Faktorová analýza v socioekonomickom výskume. - Štatistika, 1976. S.4.

1. Určenie hlavných aspektov rozdielov medzi objektmi pozorovania (minimalizácia popisu).

2. Formulovanie hypotéz o povahe rozdielov medzi objektmi.

3. Identifikácia štruktúry vzťahov medzi znakmi.

4. Testovanie hypotéz o vzťahu a zameniteľnosti znakov.

5. Porovnanie štruktúr množín znakov.

6. Rozčlenenie objektov pozorovania pre typické znaky.

Uvedené naznačuje veľké možnosti faktorovej analýzy

štúdium sociálnych javov, kde spravidla nie je možné (experimentálne) kontrolovať vplyv jednotlivých faktorov.

Celkom efektívne je využitie výsledkov faktorovej analýzy vo viacnásobných regresných modeloch.

S vopred vytvoreným korelačno-regresným modelom skúmaného javu vo forme korelovaných znakov možno pomocou faktorovej analýzy takýto súbor znakov agregáciou zmeniť na výrazne menší počet. Zároveň je potrebné poznamenať, že takáto transformácia nijako nezhoršuje kvalitu a úplnosť informácií o skúmanom fenoméne. Vygenerované agregované znaky sú nekorelované a predstavujú lineárnu kombináciu primárnych znakov. Z formálnej matematickej stránky môže mať úloha v tomto prípade nekonečnú množinu riešení. Musíme si však uvedomiť, že pri štúdiu sociálno-ekonomických javov musia mať získané agregované znaky ekonomicky opodstatnenú interpretáciu. Inými slovami, v každom prípade použitia matematického aparátu v prvom rade vychádzajú z poznania ekonomickej podstaty skúmaných javov.

Vyššie uvedené nám teda umožňuje zhrnúť, že faktorová analýza je špecifickou výskumnou metódou, ktorá sa vykonáva na základe arzenálu metód matematickej štatistiky.

Faktorová analýza našla svoje praktické uplatnenie najskôr v oblasti psychológie. Schopnosť zredukovať veľké množstvo psychologických testov na malý počet faktorov umožnila vysvetliť schopnosti ľudskej inteligencie.

Pri štúdiu socioekonomických javov, kde je ťažké izolovať vplyv jednotlivých premenných, možno úspešne použiť faktorovú analýzu. Aplikácia jeho techník umožňuje pomocou určitých výpočtov „filtrovať“ nepodstatné znaky a pokračovať vo výskume v smere jeho prehlbovania.

Efektívnosť tejto metódy je zrejmá pri štúdiu takých problémov (problémov): v ekonomike - špecializácia a koncentrácia výroby, intenzita starostlivosti o domácnosť, rozpočet rodín robotníkov, konštrukcia rôznych zovšeobecňujúcich ukazovateľov. atď

Ekonometria

Viacrozmerná štatistická analýza


Vo viacrozmernej štatistickej analýze vzorka pozostáva z prvkov viacrozmerného priestoru. Odtiaľ pochádza názov tejto časti ekonometrických metód. Z mnohých problémov viacrozmernej štatistickej analýzy uvažujme o dvoch – obnove závislosti a klasifikácii.

Odhad lineárnej prediktívnej funkcie

Začnime problémom bodového a dôveryhodného odhadu lineárnej prediktívnej funkcie jednej premennej.

Počiatočné údaje sú množinou n párov čísel (tk, x k), k = 1,2,…,n, kde tk je nezávislá premenná (napríklad čas) a x k je závislá premenná (napríklad, index inflácie, výmenný kurz amerického dolára, mesačná produkcia alebo veľkosť dennej tržby predajne). Predpokladá sa, že premenné spolu súvisia

x k = a (t k - t cf) + b + ek, k = 1,2,…,n,

kde a a b sú parametre neznáme pre štatistiku a podliehajúce odhadu a ek sú chyby, ktoré skresľujú závislosť. Aritmetický priemer časových bodov

t cf \u003d (t 1 + t 2 + ... + t n) / n

zavedené do modelu na uľahčenie ďalších výpočtov.

Zvyčajne sa parametre aab lineárnej závislosti odhadujú pomocou metódy najmenších štvorcov. Rekonštruovaný vzťah sa potom použije na bodovú a intervalovú predikciu.

Ako viete, metódu najmenších štvorcov vyvinul veľký nemecký matematik K. Gauss v roku 1794. Podľa tejto metódy, na výpočet najlepšej funkcie, ktorá lineárne aproximuje závislosť x na t, je potrebné zvážiť funkciu dvoch premenných


Odhady najmenších štvorcov sú hodnoty a* a b*, pre ktoré funkcia f(a,b) dosahuje minimum nad všetkými hodnotami argumentov.

Na nájdenie týchto odhadov je potrebné vypočítať parciálne derivácie funkcie f(a,b) vzhľadom na argumenty a a b, dať ich rovnítkom 0 a potom nájsť odhady z výsledných rovníc: Máme:

Transformujme správne časti získaných vzťahov. Vyberme spoločné faktory 2 a (-1) zo znamienka súčtu. Potom sa pozrime na podmienky. Otvorme zátvorky v prvom výraze, dostaneme, že každý výraz je rozdelený na tri. V druhom výraze je každý člen súčtom troch. Takže každá zo súm je rozdelená na tri sumy. Máme:


Parciálne derivácie prirovnáme k 0. Potom je možné vo výsledných rovniciach redukovať faktor (-2). Pokiaľ ide o

(1)

rovnice nadobúdajú tvar

Preto majú odhady metódy najmenších štvorcov tvar

(2)

Vďaka vzťahu (1) možno odhad a* zapísať v symetrickejšej forme:

Previesť tento odhad do formy nie je ťažké

Preto má rekonštruovaná funkcia, ktorú možno použiť na predpovedanie a interpoláciu, tvar

x*(t) = a*(t - t cf) + b*.

Venujme pozornosť tomu, že použitie t cf v poslednom vzorci nijako neobmedzuje jeho všeobecnosť. Porovnajte s modelom zobrazenia

x k = c, k + d + ek, k = 1,2,…,n.

To je jasné

Podobne súvisia aj odhady parametrov:

Na získanie odhadov parametrov a prediktívneho vzorca nie je potrebné odvolávať sa na žiadny pravdepodobnostný model. Aby však bolo možné študovať chyby v odhadoch parametrov a obnovenej funkcii, t.j. vytvoriť intervaly spoľahlivosti pre a*, b* a x*(t), takýto model je potrebný.

Neparametrický pravdepodobnostný model. Nech sú určené hodnoty nezávislej premennej t a chyby e k , k = 1,2,…,n, sú nezávislé identicky rozdelené náhodné premenné s nulovým matematickým očakávaním a rozptylom

neznáma štatistika.

V budúcnosti budeme opakovane používať Centrálnu limitnú vetu (CLT) teórie pravdepodobnosti pre hodnoty e k , k = 1,2,…,n (s váhami), preto je pre splnenie jej podmienok potrebné predpokladajme napríklad, že chyby e k , k = 1,2 ,…,n, sú konečné alebo majú konečný tretí absolútny moment. Netreba sa však sústrediť na tieto intramatematické „podmienky pravidelnosti“.

Asymptotické distribúcie odhadov parametrov. Zo vzorca (2) vyplýva, že

(5)

Podľa CLT má odhad b* asymptoticky normálne rozdelenie s očakávaním b a rozptylom

ktorý je vyhodnotený nižšie.

Zo vzorcov (2) a (5) vyplýva, že

Posledný člen v druhom vzťahu zaniká pri súčte nad i, takže zo vzorcov (2-4) vyplýva, že

(6)

Vzorec (6) ukazuje, že odhad

je asymptoticky normálny s priemerom a rozptylom

Všimnite si, že multidimenzionálna normalita existuje, keď je každý člen vo vzorci (6) malý v porovnaní s celým súčtom, t.j.


Zo vzorcov (5) a (6) a počiatočných predpokladov o chybách vyplýva aj nezaujatosť odhadov parametrov.

Nezaujatosť a asymptotická normalita odhadov najmenších štvorcov umožňuje jednoducho špecifikovať pre ne asymptotické medze spoľahlivosti (podobné limitom v predchádzajúcej kapitole) a testovať štatistické hypotézy, napríklad o rovnosti s určitými hodnotami, predovšetkým 0. Ponecháme čitateľ možnosť vypísať vzorce na výpočet medze spoľahlivosti a sformulovať pravidlá na testovanie spomínaných hypotéz.

Asymptotická distribúcia prognostickej funkcie. Zo vzorcov (5) a (6) vyplýva, že

tie. odhad uvažovanej prognostickej funkcie je nezaujatý. Takže

Zároveň, keďže chyby sú v súhrne nezávislé a

, potom

teda

Sociálne a ekonomické objekty sa spravidla vyznačujú pomerne veľkým počtom parametrov, ktoré tvoria viacrozmerné vektory, a problémy so štúdiom vzťahov medzi zložkami týchto vektorov sú obzvlášť dôležité v ekonomických a sociálnych štúdiách a tieto vzťahy musia byť identifikované na základe obmedzeného počtu viacrozmerných pozorovaní.

Viacrozmerná štatistická analýza je oblasťou matematickej štatistiky, ktorá študuje metódy zberu a spracovania viacrozmerných štatistických údajov, ich systematizáciu a spracovanie s cieľom identifikovať povahu a štruktúru vzťahov medzi komponentmi skúmaného viacrozmerného atribútu a vyvodiť praktické závery.

Upozorňujeme, že metódy zberu údajov sa môžu líšiť. Ak sa teda študuje svetová ekonomika, potom je prirodzené brať krajiny ako objekty, na ktorých sa pozorujú hodnoty vektora X, ale ak sa študuje národný ekonomický systém, potom je prirodzené sledovať hodnoty. ​​vektora X v rovnakej (pre výskumníka zaujímavú) krajine v rôznych časových bodoch.

Štatistické metódy ako viacnásobná korelácia a regresná analýza sa tradične študujú v kurzoch teórie pravdepodobnosti a matematickej štatistiky, disciplína "Ekonometria" je venovaná zvažovaniu aplikovaných aspektov regresnej analýzy.

Táto príručka je venovaná iným metódam štúdia mnohorozmerných všeobecných populácií na základe štatistických údajov.

Metódy zmenšovania rozmeru viacrozmerného priestoru umožňujú bez výraznejšej straty informácií prejsť z pôvodného systému veľkého počtu pozorovaných vzájomne súvisiacich faktorov k systému výrazne menšieho počtu skrytých (nepozorovateľných) faktorov, ktoré určujú variáciu počiatočné vlastnosti. Prvá kapitola popisuje metódy komponentovej a faktorovej analýzy, ktoré možno použiť na identifikáciu objektívne existujúcich, ale nie priamo pozorovateľných vzorcov pomocou hlavných komponentov alebo faktorov.

Metódy viacrozmernej klasifikácie sú navrhnuté tak, aby rozdelili zbierky objektov (charakterizované veľkým počtom znakov) do tried, z ktorých každá by mala zahŕňať objekty, ktoré sú v určitom zmysle homogénne alebo podobné. Takúto klasifikáciu založenú na štatistických údajoch o hodnotách prvkov na objektoch je možné vykonať pomocou metód zhlukovej a diskriminačnej analýzy, o ktorých sa hovorí v druhej kapitole (Multivariačná štatistická analýza pomocou „STATISTICA“).

Rozvoj výpočtovej techniky a softvéru prispieva k širokému zavádzaniu metód viacrozmernej štatistickej analýzy do praxe. Aplikačné balíky s pohodlným užívateľským rozhraním, ako sú SPSS, Statistica, SAS atď., odstraňujú ťažkosti pri aplikácii týchto metód, ktorými sú zložitosť matematického aparátu založeného na lineárnej algebre, teórii pravdepodobnosti a matematickej štatistike a ťažkopádne výpočty. .

Používanie programov bez pochopenia matematickej podstaty použitých algoritmov však prispieva k rozvoju ilúzie výskumníka o jednoduchosti použitia viacrozmerných štatistických metód, čo môže viesť k nesprávnym alebo nerozumným výsledkom. Významnejšie praktické výsledky je možné získať len na základe odborných vedomostí v predmetnej oblasti, podporených znalosťou matematických metód a aplikačných balíkov, v ktorých sú tieto metódy implementované.

Preto sú pre každú z metód, o ktorých sa uvažuje v tejto knihe, uvedené základné teoretické informácie vrátane algoritmov; diskutuje sa o implementácii týchto metód a algoritmov v balíkoch aplikácií. Uvažované metódy sú ilustrované príkladmi ich praktického využitia v ekonómii pomocou balíka SPSS.

Manuál je napísaný na základe skúseností z čítania kurzu „Multivariačné štatistické metódy“ študentom Štátnej vysokej školy manažmentu. Pre podrobnejšie štúdium metód aplikovanej viacrozmernej štatistickej analýzy sa odporúčajú knihy.

Predpokladá sa, že čitateľ dobre pozná kurzy lineárnej algebry (napr. v zväzku učebnice a v prílohe učebnice), teóriu pravdepodobnosti a matematickú štatistiku (napr. v zväzku učebnice).

Sú načrtnuté základné pojmy a metódy štatistickej analýzy. viacrozmerný výsledky technické experimenty. <...>Teoretické informácie o vlastnosti viacrozmerný Gaussovský distribúcie. <...>Výsledkom experimentu uvažovaného v príručke je náhodný vektor distribuované podľa bežného zákona.<...>Viacrozmerný normálne hustota Často je výsledkom experimentu totalityčísla charakterizujúce nejaký skúmaný objekt.<...>4 f x  Napíšte ako ξ  ~ ( ND,)μ  má p-rozmerný normálne distribúcia. znamená to vektorξ , ξ) nadobúda rôzne hodnoty, preto môžeme oprávnene hovoriť o náhodný vektor 12 komponent vektor,ξ  komponent,ξ  teda EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp kde E je znak očakávania.<...>Nech η je p pp   pri riešeniach μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matrix D z (1.2) je symetrické, pozitívne definitné, preto je jeho znázornenie D CC′=Λ, kde C je ortogonálne matice, zložený z vlastné vektory matice;D Λ – uhlopriečka matice s vlastné číslaλ>i 0 matice D pozdĺž hlavnej uhlopriečky.<...> kĺb hustota jeho zložka,1,η=i ip, určená zo všeobecného pravidlá(pozri prílohu) sa rovná 5 (1.4) ; lineárne transformácia,η  kde B je štvorcová matica rozmerov  je náhodný vektor, variácií,.<...>Odhad parametrov normálneho rozdelenia ND . <...>Hlavnou úlohou primárnej μ=i n  matice kovariancia . <...>A ln ∂ = (1,5) predpisov diferenciácia funkcionály vzhľadom na vektorové alebo maticové argumenty (pozri<...>Potom σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Tu kiξ je i-té komponent vektor priemerný iμ i-tý Komponenty vektor . <...> hodnotenia maximálne dôveryhodnosť koeficienty j / ρ=σ σ σ majú tvar ij ,. ij ii jj ri j σ σσ  ≠ ii jj Dôkaz.<...>Odhad závislosti medzi komponentmi normálne vektor Podrobná analýza odkazov<...>

MU_to_performing_course_work_"Multivariačná_štatistická_analýza".pdf

UDC 519.2 LBC 22.172 K27 Recenzent V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Viacrozmerná štatistická analýza: Pokyny na implementáciu práce v kurze. - M .: Vydavateľstvo MSTU im. N.E. Bauman, 2007. - 48 s.: chor. Načrtnuté sú základné pojmy a metódy štatistickej analýzy viacrozmerných výsledkov technických experimentov. Uvádzajú sa teoretické informácie o vlastnostiach viacrozmerných Gaussových rozdelení. Pre študentov vyšších ročníkov Fakulty základných vied. Il. 2. Bibliografia. 5 mien MDT 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007

Strana 2

OBSAH Úvod ................................................................ ...................................................................... ................... ..... 3 1. Viacrozmerné normálne rozdelenie .................... ........................... 4 2. Štatistické závery o vektore priemerov ................... ...................... 17 3. Diskriminačná analýza .. ...................... ............................ .............. 23 4. Metóda hlavnej zložky .. ............................................................. ............ 27 5. Kanonické korelácie .................. ............... ................................... 30 6. Viacrozmerná regresná analýza .......... ................................... .. 35 7. Faktorová analýza ....... ...................................................................... ....................... 40 Dodatok ...................... ...................................................... ...................................... 44 Referencie ....... ...................................................................... ...................................... 46 47

Disperzná analýza.

Účelom analýzy rozptylu je testovať štatistickú významnosť rozdielu medzi priemermi (pre skupiny alebo premenné). Táto kontrola sa vykonáva rozdelením súčtu štvorcov na zložky, t.j. rozdelením celkového rozptylu (variácie) na časti, z ktorých jedna je spôsobená náhodnou chybou (t. j. vnútroskupinová variabilita) a druhá je spojená s rozdielom stredných hodnôt. Posledná zložka rozptylu sa potom použije na analýzu štatistickej významnosti rozdielu medzi priemermi. Ak tento rozdiel významný, nulová hypotéza odmietol a akceptuje sa alternatívna hypotéza, že medzi prostriedkami existuje rozdiel.

Rozdelenie súčtu štvorcov. Pre veľkosť vzorky n sa rozptyl vzorky vypočíta ako súčet štvorcových odchýlok od priemeru vzorky vydelený n-1 (veľkosť vzorky mínus jedna). Pre pevnú veľkosť vzorky n je teda rozptyl funkciou súčtu druhých mocnín (odchýlok). Analýza rozptylu je založená na rozdelení rozptylu na časti alebo zložky, t.j. Vzorka sa rozdelí na dve časti, v ktorých sa vypočíta priemer a súčet štvorcových odchýlok. Výpočet rovnakých ukazovateľov pre vzorku ako celok dáva väčšiu hodnotu rozptylu, čo vysvetľuje nesúlad medzi priemermi skupiny. Analýza rozptylu teda umožňuje vysvetliť vnútroskupinovú variabilitu, ktorú nemožno zmeniť pri štúdiu celej skupiny ako celku.

Testovanie významnosti v ANOVA je založené na porovnaní zložky rozptylu v dôsledku medziskupiny a zložky rozptylu v dôsledku rozloženia v rámci skupiny (nazývanej priemerná štvorcová chyba). Ak platí nulová hypotéza (rovnosť priemerov v dvoch populáciách), potom môžeme očakávať relatívne malý rozdiel v priemeroch vzorky kvôli čisto náhodnej variabilite. Preto podľa nulovej hypotézy sa vnútroskupinový rozptyl bude takmer zhodovať s celkovým rozptylom vypočítaným bez zohľadnenia členstva v skupine. Získané odchýlky v rámci skupiny možno porovnať pomocou F-testu, ktorý testuje, či je pomer rozptylov skutočne výrazne väčší ako 1.

Výhody: 1) analýza rozptylu je oveľa efektívnejšia a pre malé vzorky, pretože viac informatívne; 2) analýza rozptylu vám umožňuje zistiť účinky interakcie medzi faktormi, a preto umožňuje testovanie zložitejších hypotéz

Metóda hlavných komponentov spočíva v lineárnej redukcii rozmerov, pri ktorej sa určia párové ortogonálne smery maximálnej variácie vstupných dát, po čom sa dáta premietnu do priestoru nižšieho rozmeru generovaného komponentmi s najväčšou variáciou.

Analýza hlavných komponentov je súčasťou faktorovej analýzy, ktorá spočíva v spojení dvoch korelovaných premenných do jedného faktora. Ak sa príklad dvoch premenných rozšíri o viac premenných, výpočty sa stanú zložitejšími, ale základný princíp reprezentácie dvoch alebo viacerých závislých premenných jedným faktorom zostáva platný.

Pri znižovaní počtu premenných závisí rozhodnutie o tom, kedy zastaviť postup extrakcie faktorov, najmä od hľadiska toho, čo sa považuje za malú „náhodnú“ variabilitu. Pri opakovaných iteráciách sa rozlišujú faktory s menším a menším rozptylom.

Centroidná metóda určovania faktorov.

Pri zhlukovej analýze sa používa metóda ťažiska. V tejto metóde je vzdialenosť medzi dvoma klastrami definovaná ako vzdialenosť medzi ich ťažiskami v metóde neváženého ťažiska.

Metóda váženého ťažiska (medián) je identická s neváženou metódou, s tým rozdielom, že pri výpočtoch sa váhy používajú na zohľadnenie rozdielu medzi veľkosťami zhlukov (t. j. počtom objektov v nich). Preto, ak existujú (alebo existuje podozrenie) na významné rozdiely vo veľkostiach klastrov, táto metóda je vhodnejšia ako predchádzajúca.

zhluková analýza.

Pojem klastrová analýza v skutočnosti zahŕňa súbor rôznych klasifikačných algoritmov. Častou otázkou, ktorú si výskumníci v mnohých oblastiach kladú, je, ako usporiadať pozorované dáta do vizuálnych štruktúr, t.j. identifikovať zhluky podobných objektov. V skutočnosti zhluková analýza nie je ani tak obyčajná štatistická metóda, ako skôr „súbor“ rôznych algoritmov na „distribúciu objektov do zhlukov“. Existuje názor, že na rozdiel od mnohých iných štatistických postupov sa metódy zhlukovej analýzy používajú vo väčšine prípadov, keď nemáte žiadne apriórne hypotézy o triedach, ale stále ste v popisnej fáze štúdie. Malo by sa chápať, že klastrová analýza určuje „najzmysluplnejšie rozhodnutie“.

Algoritmus zhlukovania stromov. Účelom tohto algoritmu je spojiť objekty do dostatočne veľkých zhlukov pomocou určitej miery podobnosti alebo vzdialenosti medzi objektmi. Typickým výsledkom takéhoto zhlukovania je hierarchický strom, ktorým je diagram. Diagram začína každým objektom v triede (na ľavej strane diagramu). Teraz si predstavte, že postupne (veľmi malými krokmi) „oslabujete“ svoje kritérium pre to, aké predmety sú jedinečné a ktoré nie. Inými slovami, znížite prah súvisiaci s rozhodnutím spojiť dva alebo viac objektov do jedného klastra. Výsledkom je, že spájate stále viac objektov a agregujete (kombinujete) stále viac a viac zhlukov čoraz odlišných prvkov. Nakoniec sa v poslednom kroku všetky objekty zlúčia. V týchto grafoch predstavujú horizontálne osi združovaciu vzdialenosť (vo vertikálnych dendrogramoch zvislé osi predstavujú združovaciu vzdialenosť). Takže pre každý uzol v grafe (kde sa vytvorí nový zhluk) môžete vidieť veľkosť vzdialenosti, na ktorú sú zodpovedajúce prvky spojené do nového samostatného zhluku. Keď majú údaje jasnú „štruktúru“ v zmysle zhlukov objektov, ktoré sú si navzájom podobné, potom sa táto štruktúra pravdepodobne prejaví v hierarchickom strome rôznymi vetvami. Výsledkom úspešnej analýzy metódou join je možnosť detegovať zhluky (vetvy) a interpretovať ich.

Diskriminačná analýza sa používa na rozhodnutie, ktoré premenné rozlišujú (diskriminujú) medzi dvoma alebo viacerými vznikajúcimi populáciami (skupinami). Najbežnejšou aplikáciou diskriminačnej analýzy je zahrnutie mnohých premenných do štúdie s cieľom určiť tie, ktoré najlepšie oddeľujú populácie od seba navzájom. Inými slovami, chcete vytvoriť „model“, ktorý najlepšie predpovedá, do ktorej populácie bude konkrétna vzorka patriť. V nasledujúcej diskusii sa výraz "v modeli" bude používať na označenie premenných používaných pri predpovedaní členstva populácie; o premenných, ktoré sa na to nepoužívajú, povieme, že sú „mimo model“.

Pri postupnej analýze diskriminačných funkcií sa model diskriminácie vytvára krok za krokom. Presnejšie povedané, v každom kroku sa preskúmajú všetky premenné a nájde sa tá, ktorá najviac prispieva k rozdielu medzi súbormi. Táto premenná musí byť v tomto kroku zahrnutá do modelu a dôjde k prechodu na ďalší krok.

Je tiež možné ísť opačným smerom, v takom prípade budú do modelu zahrnuté najskôr všetky premenné a potom budú v každom kroku eliminované premenné, ktoré málo prispievajú k predpovediam. Potom, ako výsledok úspešnej analýzy, môžu byť uložené iba „dôležité“ premenné v modeli, teda tie premenné, ktorých príspevok k diskriminácii je väčší ako ostatné.

Tento postup krok za krokom sa „riadi“ zodpovedajúcou hodnotou F pre zahrnutie a zodpovedajúcou hodnotou F pre vylúčenie. Hodnota F štatistiky pre premennú udáva jej štatistickú významnosť pri rozlišovaní medzi populáciami, to znamená, že je to miera príspevku premennej k predpovedaniu členstva v populácii.

Pre dve skupiny možno diskriminačnú analýzu považovať aj za postup viacnásobnej regresie. Ak zakódujete dve skupiny ako 1 a 2 a potom použijete tieto premenné ako závislé premenné vo viacnásobnej regresii, dostanete výsledky podobné tým, ktoré by ste získali pri diskriminačnej analýze. Vo všeobecnosti v prípade dvoch populácií zostavíte lineárnu rovnicu nasledujúceho typu:

Skupina = a + b1*x1 + b2*x2 + ... + bm*xm

kde a je konštanta a b1...bm sú regresné koeficienty. Interpretácia výsledkov problému s dvoma populáciami presne sleduje logiku aplikácie viacnásobnej regresie: premenné s najväčšími regresnými koeficientmi prispievajú k diskriminácii najviac.

Ak existujú viac ako dve skupiny, potom je možné vyhodnotiť viac ako jednu diskriminačnú funkciu, podobne ako predtým. Napríklad, ak existujú tri populácie, môžete vyhodnotiť: (1) funkciu na rozlíšenie medzi populáciou 1 a populáciou 2 a 3 spolu a (2) inú funkciu na rozlíšenie medzi populáciou 2 a populáciou 3. Napríklad môže mať jednu funkciu na rozlišovanie medzi tými absolventmi stredných škôl, ktorí idú na vysokú školu, a tými, ktorí nechodia na vysokú školu (ale chcú sa zamestnať alebo ísť do školy), a druhú funkciu na diskrimináciu medzi tými absolventmi, ktorí chcú získať prácu, a tými, ktorí chcú tí, ktorí nie.kto chce ísť do školy. Koeficienty b v týchto rozlišovacích funkciách možno interpretovať rovnakým spôsobom ako predtým.

Kanonická korelácia.

Kanonická analýza je navrhnutá tak, aby analyzovala závislosti medzi zoznamami premenných. Presnejšie povedané, umožňuje vám preskúmať vzťah medzi dvoma skupinami premenných. Pri výpočte kanonických koreňov sa vypočítajú vlastné hodnoty korelačnej matice. Tieto hodnoty sa rovnajú podielu rozptylu vysvetleného koreláciou medzi príslušnými kanonickými premennými. V tomto prípade sa výsledný podiel vypočíta relatívne k rozptylu kanonických premenných, t.j. vážené sumy za dva súbory premenných; teda vlastné hodnoty neukazujú absolútny význam vysvetlený v príslušných kanonických premenných.

Ak zo získaných vlastných hodnôt vezmeme druhú odmocninu, dostaneme množinu čísel, ktoré možno interpretovať ako korelačné koeficienty. Keďže ide o kanonické premenné, nazývajú sa aj kanonické korelácie. Rovnako ako vlastné hodnoty, korelácie medzi kanonickými premennými postupne extrahovanými v každom kroku klesajú. Avšak aj iné kanonické premenné môžu byť významne korelované a tieto korelácie často umožňujú pomerne zmysluplnú interpretáciu.

Kritérium významnosti kanonických korelácií je pomerne jednoduché. Najprv sa vyhodnocujú kanonické korelácie jedna po druhej v zostupnom poradí. Len tie korene, ktoré sa ukázali ako štatisticky významné, sú ponechané na ďalšiu analýzu. Aj keď v skutočnosti sú výpočty trochu iné. Program najskôr vyhodnotí významnosť celej množiny koreňov, potom význam množiny zostávajúcej po odstránení prvého koreňa, druhého koreňa atď.

Štúdie ukázali, že použitý test zisťuje veľké kanonické korelácie aj pri malej veľkosti vzorky (napríklad n = 50). Slabé kanonické korelácie (napr. R = 0,3) vyžadujú, aby boli v 50 % prípadov detekované veľké vzorky (n > 200). Všimnite si, že kanonické korelácie malej veľkosti zvyčajne nemajú praktickú hodnotu, pretože zodpovedajú malej skutočnej variabilite pôvodných údajov.

Kanonické závažia. Po určení počtu významných kanonických koreňov vzniká otázka interpretácie každého (významného) koreňa. Pripomeňme si, že každý koreň v skutočnosti predstavuje dva vážené súčty, jeden pre každú množinu premenných. Jedným zo spôsobov, ako interpretovať „význam“ každého kanonického koreňa, je zvážiť váhy spojené s každým súborom premenných. Tieto závažia sa tiež nazývajú kanonické závažia.

V analýze sa zvyčajne používa, že čím väčšia je priradená váha (tj absolútna hodnota váhy), tým väčší je príspevok zodpovedajúcej premennej k hodnote kanonickej premennej.

Ak ste oboznámení s viacnásobnou regresiou, môžete použiť rovnakú interpretáciu ako pre váhy beta vo viacnásobnej regresnej rovnici pre kanonické váhy. Kanonické váhy sú v istom zmysle analogické s parciálnymi koreláciami premenných zodpovedajúcich kanonickému koreňu. Zohľadnenie kanonických váh teda umožňuje pochopiť „zmysel“ každého kanonického koreňa, t.j. pozrite sa, ako špecifické premenné v každom súbore ovplyvňujú vážený súčet (t. j. kanonickú premennú).

Parametrické a neparametrické metódy hodnotenia výsledkov.

Parametrické metódy založené na distribúcii vzoriek určitých štatistík. Skrátka, ak poznáte rozdelenie sledovanej premennej, viete predpovedať, ako sa bude použitá štatistika „správať“ v opakovaných vzorkách rovnakej veľkosti – t.j. ako to bude distribuované.

V praxi je použitie parametrických metód obmedzené kvôli objemu alebo veľkosti vzorky dostupnej na analýzu; problémy s presným meraním vlastností pozorovaného objektu

Existuje teda potreba postupov na spracovanie údajov s „nízkou kvalitou“ z malých vzoriek s premennými, ktorých distribúcia je málo alebo vôbec známa. Neparametrické metódy sú určené práve pre tie situácie, ktoré sa v praxi často vyskytujú, keď výskumník nevie nič o parametroch skúmanej populácie (odtiaľ názov metód - neparametrické). Technickejšie povedané, neparametrické metódy sa nespoliehajú na odhad parametrov (ako je stredná alebo štandardná odchýlka) pri opise rozdelenia vzorky sledovaného množstva. Preto sa tieto metódy niekedy nazývajú aj bezparametrové alebo voľne distribuované.

V podstate pre každý parametrický test existuje aspoň jeden neparametrický náprotivok. Tieto kritériá možno rozdeliť do jednej z nasledujúcich skupín:

kritériá pre rozdiely medzi skupinami (nezávislé vzorky);

kritériá pre rozdiely medzi skupinami (závislé vzorky);

kritériá závislosti medzi premennými.

Rozdiely medzi nezávislými skupinami. Typicky, keď existujú dve vzorky (napríklad muži a ženy), ktoré chcete porovnať s ohľadom na priemer nejakej premennej, ktorá vás zaujíma, použijete t-test pre nezávislé osoby. Neparametrické alternatívy k tomuto testu sú: Wald-Wolfowitzov test série, Mann-Whitney U test a dvojvzorkový Kolmogorov-Smirnov test. Ak máte viacero skupín, môžete použiť ANOVA. Jeho neparametrické náprotivky sú: Kruskal-Wallisova poradová analýza rozptylu a test mediánu.

Rozdiely medzi závislými skupinami. Ak chcete porovnať dve premenné, ktoré patria do tej istej vzorky (napríklad výkon študentov v matematike na začiatku a na konci semestra), potom sa zvyčajne používa t-test pre závislé vzorky. Alternatívne neparametrické testy sú: znakový test a Wilcoxonov test párových porovnaní. Ak sú príslušné premenné svojou povahou kategorické alebo sú kategorizované (t. j. reprezentované ako frekvencie, ktoré spadajú do určitých kategórií), potom bude vhodný McNemarov chí-kvadrát test. Ak sa berú do úvahy viac ako dve premenné z tej istej vzorky, zvyčajne sa používa analýza rozptylu opakovaných meraní (ANOVA). Alternatívnou neparametrickou metódou je Friedmanova poradová analýza rozptylu alebo Cochranov Q test (posledný sa používa napríklad, ak sa premenná meria na nominálnej škále). Cochranov Q test sa používa aj na posúdenie zmien vo frekvenciách (podieloch).

Závislosti medzi premennými. Na vyhodnotenie závislosti (vzťahu) medzi dvoma premennými sa zvyčajne vypočítava korelačný koeficient. Neparametrickými analógmi štandardného Pearsonovho korelačného koeficientu sú Spearmanova R štatistika, Kendallov tau a Gamma koeficient. Okrem toho je k dispozícii kritérium závislosti medzi viacerými premennými, takzvaný Kendallov koeficient zhody. Tento test sa často používa na posúdenie konzistentnosti názorov nezávislých odborníkov (sudcov), najmä skóre pridelených tomu istému predmetu.

Ak údaje nie sú normálne rozdelené a merania obsahujú prinajlepšom zoradené informácie, potom výpočet bežnej popisnej štatistiky (napr. priemer, štandardná odchýlka) nie je veľmi informatívny. Napríklad v psychometrii je dobre známe, že vnímaná intenzita podnetov (napríklad vnímaný jas svetla) je logaritmickou funkciou skutočnej intenzity (jas meraný v objektívnych jednotkách - luxoch). V tomto príklade zvyčajný odhad priemeru (súčet hodnôt vydelený počtom stimulov) nedáva správnu predstavu o strednej hodnote skutočnej intenzity stimulu. (V diskutovanom príklade by sa mal skôr vypočítať geometrický priemer.) Neparametrická štatistika počíta rôznorodý súbor mier polohy (priemer, medián, režim atď.) a rozptylu (variancia, harmonický priemer, kvartilový rozsah atď.) predstavujú skôr „veľký obraz“ údajov.