Uvod u multivarijantnu statističku analizu - Kalinina. Multivarijatna statistička analiza Multivarijatna statistička analiza Analiza glavne komponente

Uvođenje osobnog računala u upravljanje nacionalnim gospodarstvom podrazumijeva prijelaz s tradicionalnih metoda analize djelatnosti poduzeća na naprednije modele gospodarskog upravljanja koji omogućuju otkrivanje njegovih dubokih procesa.

Široka primjena metoda matematičke statistike u ekonomskim istraživanjima omogućuje produbljivanje ekonomske analize, poboljšanje kvalitete informacija u planiranju i predviđanju proizvodnih pokazatelja te analiziranju njezine učinkovitosti.

Složenost i raznolikost odnosa između ekonomskih pokazatelja određuju višedimenzionalnost obilježja i stoga zahtijevaju korištenje najsloženijeg matematičkog aparata - metoda multivarijantne statističke analize.

Koncept "multivarijantne statističke analize" podrazumijeva kombinaciju brojnih metoda dizajniranih za istraživanje kombinacije međusobno povezanih značajki. Riječ je o rasparčavanju (particioniranju) razmatranog skupa, koji je predstavljen višedimenzionalnim značajkama na relativno mali broj njih.

Istodobno, prijelaz s većeg broja značajki na manji ima za cilj smanjenje njihove dimenzije i povećanje informativnog kapaciteta. Taj se cilj postiže identificiranjem informacija koje se ponavljaju, generirane međusobno povezanim obilježjima, uspostavljanjem mogućnosti agregiranja (kombiniranja, zbrajanja) prema nekim obilježjima. Potonje uključuje transformaciju stvarnog modela u model s manje faktorskih značajki.

Metoda višedimenzionalne statističke analize omogućuje identificiranje objektivno postojećih, ali ne eksplicitno izraženih obrazaca koji se očituju u određenim društveno-ekonomskim pojavama. S tim se treba suočiti prilikom rješavanja niza praktičnih problema iz područja ekonomije. Konkretno, navedeno se događa ako je potrebno istovremeno akumulirati (fiksirati) vrijednosti nekoliko kvantitativnih karakteristika (obilježja) za predmet promatranja, kada je svaka karakteristika sklona nekontroliranoj varijaciji (u kontekstu objekata). ), unatoč homogenosti objekata promatranja.

Primjerice, kada se ispituju homogena (u smislu prirodnih i ekonomskih uvjeta i vrste specijalizacije) poduzeća u smislu niza pokazatelja učinkovitosti proizvodnje, uvjeravamo se da pri prelasku s jednog objekta na drugi gotovo svaka od odabranih karakteristika ( identičan) ima drugačiju brojčanu vrijednost, odnosno pronalazi, da tako kažemo, nekontrolirano (slučajno) raspršivanje. Takva "slučajna" varijacija osobina nastoji slijediti neke (regularne) tendencije, kako u smislu dobro definiranih dimenzija osobina oko kojih se varijacija događa, tako i u smislu stupnja i međuovisnosti same varijacije.

Prethodno navedeno dovodi do definicije višedimenzionalne slučajne varijable kao skupa kvantitativnih obilježja, čija je vrijednost podložna nekontroliranom raspršenju tijekom ponavljanja ovog procesa, statističkog promatranja, iskustva, eksperimenta itd.

Prethodno je rečeno da multivarijantna analiza kombinira brojne metode; nazovimo ih: faktorska analiza, analiza glavnih komponenti, analiza klastera, prepoznavanje uzoraka, diskriminantna analiza itd. Prve tri od ovih metoda razmatraju se u sljedećim odlomcima.

Kao i druge matematičke i statističke metode, multivarijantna analiza može biti učinkovita u svojoj primjeni, pod uvjetom da su početne informacije visoke kvalitete, a podaci promatranja masivni i obrađeni pomoću osobnog računala.

Osnovni pojmovi metode faktorske analize, bit zadataka koje rješava

Prilikom analize (i podjednako proučavanih) društveno-ekonomskih pojava često se susreću slučajevi kada je među raznolikošću (bogatom parametarnošću) objekata promatranja potrebno isključiti udio parametara, ili ih zamijeniti manjim brojem određenih funkcija. bez narušavanja integriteta (potpunosti) informacija . Rješenje takvog problema ima smisla u okviru određenog modela i određeno je njegovom strukturom. Primjer takvog modela, koji je najprikladniji za mnoge stvarne situacije, je model faktorske analize, čije metode vam omogućuju da koncentrirate značajke (informacije o njima) "sažimanjem" velikog broja u manji, informativniji. . U tom slučaju, dobiveni "kondenzat" informacija trebao bi biti predstavljen najznačajnijim i definirajućim kvantitativnim karakteristikama.

Pojam "faktorske analize" ne treba miješati sa širokim konceptom analize uzročno-posljedičnih veza, kada se proučava utjecaj različitih čimbenika (njihove kombinacije, kombinacije) na produktivni atribut.

Bit metode faktorske analize je isključiti opis višestrukih karakteristika proučavanog i zamijeniti ga manjim brojem informacijski opsežnijih varijabli, koje se nazivaju faktorima i odražavaju najznačajnija svojstva fenomena. Takve varijable su neke funkcije izvornih značajki.

Analiza, prema riječima Ya. Okun'a, 9 omogućuje da se dobiju prve približne karakteristike zakonitosti koje stoje u pozadini fenomena, da se formuliraju prvi, opći zaključci o smjerovima u kojima bi se trebala provoditi daljnja istraživanja. Nadalje, on ukazuje na osnovnu pretpostavku faktorske analize, a to je da se fenomen, unatoč svojoj heterogenosti i varijabilnosti, može opisati malim brojem funkcionalnih jedinica, parametara ili čimbenika. Ti se pojmovi nazivaju različito: utjecaj, uzroci, parametri, funkcionalne jedinice, sposobnosti, glavni ili nezavisni pokazatelji. Upotreba jednog ili drugog izraza podliježe

Okun Ya. Faktorska analiza: Per. s. kat. M.: Statistika, 1974.- P.16.

kontekst o čimbeniku i spoznaji o biti proučavane pojave.

Faze faktorske analize su uzastopne usporedbe različitih skupova čimbenika i opcija sa skupinama uz njihovo uključivanje, isključivanje i procjenu značajnosti razlika među skupinama.

V.M. Zhukovska i I.B. Muchnik 10, govoreći o biti problema faktorske analize, tvrde da ova potonja ne zahtijeva apriornu podjelu varijabli na zavisne i nezavisne, budući da se sve varijable u njoj smatraju jednakima.

Zadatak faktorske analize svodi se na određeni pojam, broj i prirodu najznačajnijih i relativno neovisnih funkcionalnih karakteristika pojave, njezinih mjerača ili osnovnih parametara - čimbenika. Prema autorima, važna razlikovna značajka faktorske analize je to što vam omogućuje istovremeno istraživanje velikog broja međusobno povezanih varijabli bez pretpostavke o "nepromjenjivosti svih ostalih uvjeta", što je tako neophodno kada se koristi niz drugih metoda. analize. To je velika prednost faktorske analize kao vrijednog alata za proučavanje fenomena, zbog složene raznolikosti i isprepletenosti odnosa.

Analiza se uglavnom oslanja na opažanja prirodnih varijacija varijabli.

1. Kada se koristi faktorska analiza, skup varijabli koje se proučavaju u smislu odnosa između njih nije odabran proizvoljno: ova metoda vam omogućuje da identificirate glavne čimbenike koji imaju značajan utjecaj u ovom području.

2. Analiza ne zahtijeva preliminarne hipoteze, naprotiv, sama može poslužiti kao metoda za postavljanje hipoteza, ali i kao kriterij za hipoteze na temelju podataka dobivenih drugim metodama.

3. Analiza ne zahtijeva a priori nagađanja o tome koje su varijable neovisne i ovisne, ne preuveličava uzročne veze i rješava pitanje njihovog opsega u procesu daljnjeg istraživanja.

Popis specifičnih zadataka koje treba riješiti pomoću metoda faktorske analize bit će sljedeći (prema V.M. Žukovskom). Navedimo glavne u području socio-ekonomskih istraživanja:

Žukovskaja V.M., Mučnik I.B. Faktorska analiza u socio-ekonomskim istraživanjima. - Statistika, 1976. P.4.

1. Određivanje glavnih aspekata razlika između objekata promatranja (minimiziranje opisa).

2. Formuliranje hipoteza o prirodi razlika između objekata.

3. Identifikacija strukture odnosa između značajki.

4. Testiranje hipoteza o odnosu i zamjenjivosti obilježja.

5. Usporedba struktura skupova značajki.

6. Rastavljanje objekata promatranja za tipične značajke.

Navedeno ukazuje na velike mogućnosti faktorske analize u

proučavanje društvenih pojava, gdje je u pravilu nemoguće (eksperimentalno) kontrolirati utjecaj pojedinih čimbenika.

Prilično je učinkovito koristiti rezultate faktorske analize u višestrukim regresijskim modelima.

Imajući unaprijed formiran korelacijsko-regresijski model proučavane pojave u obliku koreliranih obilježja, uz pomoć faktorske analize takav skup obilježja može se agregacijom pretvoriti u značajno manji broj njih. Istodobno, treba napomenuti da takva transformacija ni na koji način ne narušava kvalitetu i cjelovitost informacija o fenomenu koji se proučava. Generirane agregirane značajke nisu u korelaciji i predstavljaju linearnu kombinaciju primarnih obilježja. S formalne matematičke strane, iskaz problema u ovom slučaju može imati beskonačan skup rješenja. Ali moramo imati na umu da pri proučavanju društveno-ekonomskih pojava dobiveni agregirani znakovi moraju imati ekonomski opravdano tumačenje. Drugim riječima, u svakom slučaju korištenja matematičkog aparata, prije svega, proizlaze iz spoznaje ekonomske suštine fenomena koji se proučava.

Dakle, navedeno nam omogućuje da sumiramo da je faktorska analiza specifična istraživačka metoda koja se provodi na temelju arsenala metoda matematičke statistike.

Faktorska analiza prvi je put našla svoju praktičnu primjenu u području psihologije. Sposobnost da se veliki broj psiholoških testova svede na mali broj čimbenika omogućila je objašnjenje sposobnosti ljudske inteligencije.

U proučavanju socio-ekonomskih pojava, gdje postoje poteškoće u izolaciji utjecaja pojedinih varijabli, može se uspješno koristiti faktorska analiza. Korištenje njegovih metoda omogućuje određenim proračunima "filtriranje" nebitnih značajki i nastavak istraživanja u smjeru njegovog produbljivanja.

Učinkovitost ove metode očita je u proučavanju takvih pitanja (problema): u gospodarstvu - specijalizacija i koncentracija proizvodnje, intenzitet održavanja kućanstva, proračun obitelji radnika, konstrukcija raznih generalizirajućih pokazatelja. itd

Ekonometrija

Multivarijantna statistička analiza


U multivarijantnoj statističkoj analizi uzorak se sastoji od elemenata multivarijatnog prostora. Otuda i naziv ovog dijela ekonometrijskih metoda. Od mnogih problema multivarijantne statističke analize, razmotrimo dva - oporavak ovisnosti i klasifikaciju.

Procjena linearne prediktivne funkcije

Počnimo s problemom točke i procjene pouzdanosti linearne prediktivne funkcije jedne varijable.

Početni podaci su skup od n parova brojeva (t k, x k), k = 1,2,…,n, gdje je t k nezavisna varijabla (na primjer, vrijeme), a x k je zavisna varijabla (npr. indeks inflacije, tečaj američkog dolara, mjesečna proizvodnja ili veličina dnevnog prihoda prodajnog mjesta). Pretpostavlja se da su varijable povezane

x k = a (t k - t cf)+ b + e k , k = 1,2,…,n,

gdje su a i b parametri nepoznati statistici i podložni procjeni, a e k pogreške koje iskrivljuju ovisnost. Aritmetička sredina vremenskih točaka

t cf \u003d (t 1 + t 2 + ... + t n) / n

uveden u model kako bi se olakšali daljnji izračuni.

Obično se parametri a i b linearne ovisnosti procjenjuju metodom najmanjih kvadrata. Rekonstruirani odnos se zatim koristi za predviđanje točaka i intervala.

Kao što znate, metodu najmanjih kvadrata razvio je veliki njemački matematičar K. Gauss 1794. Prema ovoj metodi, da bi se izračunala najbolja funkcija koja linearno aproksimira ovisnost x o t, treba uzeti u obzir funkciju dviju varijabli


Procjene najmanjih kvadrata su one vrijednosti a* i b* za koje funkcija f(a,b) doseže minimum nad svim vrijednostima argumenata.

Da bismo pronašli ove procjene, potrebno je izračunati parcijalne derivacije funkcije f(a,b) s obzirom na argumente a i b, izjednačiti ih s 0, a zatim pronaći procjene iz rezultirajućih jednadžbi: Imamo:

Transformirajmo prave dijelove dobivenih relacija. Uzmimo zajedničke faktore 2 i (-1) iz predznaka zbroja. Zatim pogledajmo uvjete. Otvorimo zagrade u prvom izrazu, dobivamo da je svaki pojam podijeljen na tri. U drugom izrazu svaki je član također zbroj tri. Dakle, svaki od zbroja je podijeljen na tri zbroja. Imamo:


Parcijalne derivacije izjednačavamo s 0. Tada se faktor (-2) može smanjiti u rezultirajućim jednadžbama. Ukoliko

(1)

jednadžbe poprimaju oblik

Stoga procjene metode najmanjih kvadrata imaju oblik

(2)

Zbog relacije (1), procjena a* može se napisati u simetričnijem obliku:

Ovu procjenu nije teško pretočiti u obrazac

Stoga, rekonstruirana funkcija, koja se može koristiti za predviđanje i interpolaciju, ima oblik

x*(t) = a*(t - t cf) + b*.

Obratimo pozornost na činjenicu da uporaba t cf u posljednjoj formuli ni na koji način ne ograničava njezinu općenitost. Usporedi s modelom prikaza

x k = c t k + d + e k , k = 1,2,…,n.

To je jasno

Procjene parametara su na sličan način povezane:

Za dobivanje procjena parametara i formule za predviđanje nema potrebe pozivati ​​se na bilo koji vjerojatnosni model. Međutim, radi proučavanja pogrešaka u procjenama parametara i obnovljene funkcije, t.j. izgraditi intervale povjerenja za a*, b* i x*(t), potreban je takav model.

Neparametarski vjerojatnosni model. Neka su vrijednosti nezavisne varijable t određene, a pogreške e k , k = 1,2,…,n, neovisne identično raspoređene slučajne varijable s nula matematičkih očekivanja i varijance

nepoznata statistika.

U budućnosti ćemo više puta koristiti središnji granični teorem (CLT) teorije vjerojatnosti za vrijednosti e k , k = 1,2,…,n (s ponderima), stoga je za ispunjenje njegovih uvjeta potrebno pretpostavimo, na primjer, da su pogreške e k , k = 1,2 ,…,n, konačne ili imaju konačan treći apsolutni moment. Međutim, nema potrebe usredotočiti se na ove intramatematičke "uvjete pravilnosti".

Asimptotske distribucije procjena parametara. Iz formule (2) proizlazi da

(5)

Prema CLT-u, procjena b* ima asimptotski normalnu distribuciju s očekivanjem b i varijansom

što se ocjenjuje u nastavku.

Iz formula (2) i (5) slijedi da

Posljednji član u drugoj relaciji nestaje kada se zbroji preko i, pa iz formula (2-4) slijedi da

(6)

Formula (6) pokazuje da je procjena

je asimptotski normalna sa srednjom sredinom i varijansom

Imajte na umu da višedimenzionalna normalnost postoji kada je svaki član u formuli (6) mali u usporedbi s cijelim zbrojem, tj.


Iz formula (5) i (6) i početnih pretpostavki o greškama također slijedi nepristranost procjena parametara.

Nepristranost i asimptotička normalnost procjena najmanjih kvadrata olakšavaju određivanje asimptotičkih granica pouzdanosti za njih (slično granicama u prethodnom poglavlju) i testiranje statističkih hipoteza, na primjer, o jednakosti određenih vrijednosti, prvenstveno 0. Ostavljamo mogućnost čitatelja da ispiše formule za izračun granica povjerenja i formulira pravila za provjeru navedenih hipoteza.

Asimptotska raspodjela prognostičke funkcije. Iz formula (5) i (6) slijedi da

oni. procjena prognostičke funkcije koja se razmatra je nepristrana. Tako

Istovremeno, budući da su pogreške neovisne u zbroju i

, onda

Tako,

Društvene i ekonomske objekte, u pravilu, karakterizira prilično velik broj parametara koji tvore višedimenzionalne vektore, a problemi proučavanja odnosa između komponenti tih vektora od posebne su važnosti u ekonomskim i društvenim studijama, a ti odnosi moraju identificirati na temelju ograničenog broja višedimenzionalnih opažanja.

Multivarijantna statistička analiza je grana matematičke statistike koja proučava metode prikupljanja i obrade multivarijatnih statističkih podataka, njihovu sistematizaciju i obradu kako bi se utvrdila priroda i struktura odnosa između komponenti proučavanog multivarijatnog atributa, te izveli praktični zaključci.

Imajte na umu da se metode prikupljanja podataka mogu razlikovati. Dakle, ako se proučava svjetska ekonomija, onda je prirodno uzeti zemlje kao objekte na kojima se promatraju vrijednosti vektora X, ali ako se proučava nacionalni ekonomski sustav, onda je prirodno promatrati vrijednosti vektora X u istoj (zainteresovanoj za istraživača) zemlji u različitim vremenskim trenucima.

Statističke metode poput višestruke korelacijske i regresijske analize tradicionalno se izučavaju u kolegijima teorije vjerojatnosti i matematičke statistike, disciplina "Ekonometrija" posvećena je razmatranju primijenjenih aspekata regresijske analize.

Ovaj priručnik posvećen je drugim metodama proučavanja multivarijatnih općih populacija na temelju statističkih podataka.

Metode smanjenja dimenzije višedimenzionalnog prostora omogućuju, bez značajnog gubitka informacija, prelazak s izvornog sustava velikog broja promatranih međusobno povezanih čimbenika na sustav značajno manjeg broja skrivenih (neuočljivih) čimbenika koji određuju varijaciju početne značajke. Prvo poglavlje opisuje metode komponentne i faktorske analize, koje se mogu koristiti za identifikaciju objektivno postojećih, ali ne i izravno vidljivih obrazaca koristeći glavne komponente ili čimbenike.

Metode višedimenzionalne klasifikacije osmišljene su za podjelu zbirki objekata (obilježenih velikim brojem značajki) u klase, od kojih svaka treba uključivati ​​objekte koji su u određenom smislu homogeni ili slični. Takva klasifikacija na temelju statističkih podataka o vrijednostima obilježja na objektima može se provesti metodama klasterske i diskriminantne analize, o kojima se govori u drugom poglavlju (Multivarijantna statistička analiza pomoću “STATISTICA”).

Razvoj računalne tehnologije i softvera pridonosi raširenom uvođenju metoda multivarijatne statističke analize u praksu. Aplikacijski paketi s praktičnim korisničkim sučeljem, kao što su SPSS, Statistica, SAS, itd., otklanjaju poteškoće u primjeni ovih metoda, a to su složenost matematičkog aparata koji se temelji na linearnoj algebri, teoriji vjerojatnosti i matematičkoj statistici, te glomaznim izračunima. .

Međutim, korištenje programa bez razumijevanja matematičke suštine korištenih algoritama doprinosi razvoju istraživačeve iluzije o jednostavnosti korištenja multivarijatnih statističkih metoda, što može dovesti do netočnih ili nerazumnih rezultata. Značajni praktični rezultati mogu se postići samo na temelju stručnog znanja iz predmetnog područja, potkrijepljenog poznavanjem matematičkih metoda i aplikacijskih paketa u kojima se te metode implementiraju.

Stoga su za svaku od metoda razmatranih u ovoj knjizi dane osnovne teorijske informacije, uključujući algoritme; raspravlja se o implementaciji ovih metoda i algoritama u aplikacijskim paketima. Razmatrane metode ilustrirane su primjerima njihove praktične primjene u ekonomiji korištenjem SPSS paketa.

Priručnik je napisan na temelju iskustva čitanja kolegija "Multivarijantne statističke metode" studentima Državnog sveučilišta za menadžment. Za detaljnije proučavanje metoda primijenjene multivarijantne statističke analize preporučuju se knjige.

Pretpostavlja se da je čitatelj dobro upoznat s kolegijima linearne algebre (na primjer, u svesku udžbenika i dodatku udžbeniku), teoriji vjerojatnosti i matematičkoj statistici (na primjer, u svesku udžbenika).

Prikazani su osnovni pojmovi i metode statističke analize. višedimenzionalni rezultate tehnički eksperimente. <...>Teoretski podaci o Svojstva višedimenzionalni Gaussov distribucije. <...>Rezultat eksperimenta koji se razmatra u priručniku je nasumično vektor raspoređeni prema uobičajenom zakonu.<...>Višedimenzionalni normalan gustoća Često je rezultat eksperimenta totalitet brojevi koji karakteriziraju neki predmet koji se proučava.<...>4 f x  Zapiši kao ξ  ~ ( ND,)μ  ima p-dimenzionalni normalan distribucija. znači da vektorξ , ξ) poprima različite vrijednosti, pa se opravdano može govoriti nasumično vektor 12 komponenta vektor,ξ  komponenta,ξ  tj. EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp gdje je E znak očekivanja.<...>Neka je η p pp   rješenjima μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matrica D iz (1.2) je simetričan, pozitivno određen, stoga je njegov prikaz D CC′=Λ gdje je C ortogonalni matrica, sastavljeno od vlastiti vektora matrice;D Λ – dijagonala matrica s vlastiti brojevimaλ>i 0 matrice D duž glavne dijagonale.<...> zgloba gustoća njegova komponenta,1,η=i ip, određena iz općeg pravila(vidi dodatak) jednako je 5 (1.4) ; linearni transformacija,η  gdje je B kvadratna matrica dimenzija  je slučajni vektor varijacija,.<...>Procjena parametara normalne distribucije ND . <...>Glavni zadatak primarne μ=i n  matrice kovarijanca . <...>A ln ∂ = (1.5) propisi diferencijacija funkcionalnosti s obzirom na vektorske ili matrične argumente (vidi<...>Tada je σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Ovdje je kiξ i-ti komponenta vektor prosjek iμ i-th Komponente vektor . <...> Ocjene maksimum vjerodostojnost koeficijenti j / ρ=σ σ σ imaju oblik ij ,. ij ii jj ri j σ σσ  ≠ ii jj Dokaz.<...>Procjena ovisnosti između komponenti normalan vektor Detaljna analiza poveznica<...>

MU_to_performing_course_work_"Multivarijatna_statistička_analiza".pdf

UDK 519.2 LBC 22.172 K27 Recenzent V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Multivarijantna statistička analiza: Upute za izvođenje nastavnog rada. - M .: Izdavačka kuća MSTU im. N.E. Bauman, 2007. - 48 str.: ilustr. Prikazani su osnovni koncepti i metode statističke analize višedimenzionalnih rezultata tehničkih eksperimenata. Dane su teoretske informacije o svojstvima višedimenzionalnih Gaussovih distribucija. Za studente viših godina Fakulteta temeljnih znanosti. Il. 2. Bibliografija. 5 imena UDK 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007. (monografija).

stranica 2

SADRŽAJ Uvod .............................................................. ................................................................... ................... ..... 3 1. Viševarijatna normalna distribucija .................... .......................... 4 2. Statistički zaključci o vektoru srednjih vrijednosti .............. ...................... 17 3. Diskriminantna analiza .. ................................ ................................................ 23 4. Metoda glavne komponente .. ............................................................ ............ 27 5. Kanonske korelacije .................................................. .................................... 30 6. Multivarijatna regresijska analiza ......... ................................... .. 35 7. Faktorska analiza ...... ...................................................................... ......................... 40 Dodatak ......................... ........................................................ ..................................... 44 Literatura ..... ...................................................................... ........................................ 46 47

Analiza disperzije.

Svrha analize varijance je provjeriti statističku značajnost razlike između srednjih vrijednosti (za skupine ili varijable). Ova se provjera provodi dijeljenjem zbroja kvadrata na komponente, t.j. dijeljenjem ukupne varijance (varijacije) na dijelove, od kojih je jedan posljedica slučajne pogreške (odnosno unutargrupne varijabilnosti), a drugi je povezan s razlikom u prosječnim vrijednostima. Posljednja komponenta varijance se tada koristi za analizu statističke značajnosti razlike između srednjih vrijednosti. Ako ova razlika značajan, Nulta hipoteza odbijeno a prihvaća se alternativna hipoteza da postoji razlika između sredstava.

Dijeljenje zbroja kvadrata. Za veličinu uzorka od n, varijanca uzorka izračunava se kao zbroj kvadrata odstupanja od srednje vrijednosti uzorka podijeljen s n-1 (veličina uzorka minus jedan). Dakle, za fiksnu veličinu uzorka n, varijanca je funkcija zbroja kvadrata (odstupanja). Analiza varijance temelji se na podjeli varijance na dijelove ili komponente, t.j. Uzorak je podijeljen na dva dijela u kojima se izračunava srednja vrijednost i zbroj kvadrata odstupanja. Izračun istih pokazatelja za uzorak u cjelini daje veću vrijednost disperzije, što objašnjava nesklad između srednjih vrijednosti skupine. Dakle, analiza varijance omogućuje objašnjenje unutargrupne varijabilnosti, koja se ne može promijeniti proučavanjem cijele grupe kao cjeline.

Testiranje značajnosti u ANOVA-i temelji se na usporedbi komponente varijance zbog međuskupine i komponente varijance zbog širenja unutar grupe (koja se naziva srednja kvadratna pogreška). Ako je nulta hipoteza točna (jednakost srednjih vrijednosti u dvije populacije), onda možemo očekivati ​​relativno malu razliku u srednjim vrijednostima uzorka zbog čisto slučajne varijabilnosti. Prema tome, pod nultom hipotezom, varijanca unutar grupe gotovo će se podudarati s ukupnom varijansom izračunatom bez uzimanja u obzir pripadnosti skupini. Dobivene unutargrupne varijance mogu se usporediti pomoću F-testa, koji provjerava je li omjer varijansi doista značajno veći od 1.

Prednosti: 1) analiza varijance je mnogo učinkovitija i, za male uzorke, jer informativniji; 2) analiza varijance omogućuje otkrivanje učinaka interakcije između čimbenika i stoga omogućuje testiranje složenijih hipoteza

Metoda glavne komponente sastoji se od linearne redukcije dimenzionalnosti, u kojoj se određuju parno ortogonalni smjerovi maksimalne varijacije ulaznih podataka, nakon čega se podaci projiciraju na prostor niže dimenzije generiran komponentama s najvećom varijacijom.

Analiza glavnih komponenti dio je faktorske analize koja se sastoji od kombiniranja dvije korelirane varijable u jedan faktor. Ako se primjer s dvije varijable proširi na više varijabli, izračuni postaju složeniji, ali osnovni princip predstavljanja dvije ili više ovisnih varijabli jednim faktorom ostaje na snazi.

Prilikom smanjenja broja varijabli, odluka o tome kada zaustaviti postupak izdvajanja faktora uglavnom ovisi o stajalištu onoga što se računa kao mala "slučajna" varijabilnost. Uz ponovljene iteracije razlikuju se čimbenici sa sve manje i manje varijance.

Centroidna metoda za određivanje faktora.

Centroid metoda se koristi u analizi klastera. U ovoj metodi, udaljenost između dva klastera definirana je kao udaljenost između njihovih težišta u metodi neponderiranog centra.

Metoda ponderiranog centroida (medijan) identična je metodi bez ponderiranja, osim što se u izračunima koriste ponderi kako bi se uzela u obzir razlika između veličina klastera (tj. broj objekata u njima). Stoga, ako postoje (ili se sumnja) značajne razlike u veličinama klastera, ova metoda je poželjnija od prethodne.

klaster analiza.

Pojam klaster analize zapravo uključuje skup različitih klasifikacijskih algoritama. Uobičajeno pitanje koje postavljaju istraživači u mnogim područjima je kako organizirati promatrane podatke u vizualne strukture, t.j. identificirati skupove sličnih objekata. Zapravo, analiza klastera nije toliko obična statistička metoda koliko "skup" raznih algoritama za "distribuciju objekata u klastere". Postoji stajalište da se, za razliku od mnogih drugih statističkih postupaka, metode klaster analize koriste u većini slučajeva kada nemate nikakve apriorne hipoteze o klasama, ali ste još u deskriptivnoj fazi istraživanja. Treba razumjeti da klaster analiza određuje "najvažniju odluku".

Algoritam grupiranja stabala. Svrha ovog algoritma je kombinirati objekte u dovoljno velike skupine koristeći neku mjeru sličnosti ili udaljenosti između objekata. Tipičan rezultat takvog grupiranja je hijerarhijsko stablo, koje je dijagram. Dijagram počinje sa svakim objektom u klasi (na lijevoj strani dijagrama). Sada zamislite da postupno (u vrlo malim koracima) "slabite" svoj kriterij za to koji su objekti jedinstveni, a koji nisu. Drugim riječima, snižavate prag povezan s odlukom da se dva ili više objekata kombiniraju u jedan klaster. Kao rezultat, povezujete sve više i više objekata zajedno i agregirate (kombinirate) sve više i više skupina sve različitih elemenata. Konačno, u posljednjem koraku, svi objekti se spajaju. U ovim grafikonima, vodoravne osi predstavljaju udaljenost spajanja (u vertikalnim dendrogramima, okomite osi predstavljaju udaljenost spajanja). Dakle, za svaki čvor u grafu (gdje se formira novi klaster), možete vidjeti količinu udaljenosti za koju su odgovarajući elementi povezani u novi pojedinačni klaster. Kada podaci imaju jasnu "strukturu" u smislu klastera objekata koji su međusobno slični, tada će se ta struktura vjerojatno odražavati u hijerarhijskom stablu raznim granama. Kao rezultat uspješne analize metodom spajanja, postaje moguće detektirati klastere (grane) i interpretirati ih.

Diskriminantna analiza koristi se za odlučivanje koje varijable razlikuju (diskriminiraju) između dvije ili više populacija (skupina) u nastajanju. Najčešća primjena diskriminantne analize je uključivanje mnogih varijabli u studiju kako bi se odredile one koje najbolje odvajaju populacije jedna od druge. Drugim riječima, želite izgraditi "model" koji najbolje predviđa kojoj će populaciji pripadati dati uzorak. U sljedećoj raspravi, izraz "u modelu" koristit će se za upućivanje na varijable koje se koriste u predviđanju pripadnosti stanovništva; o varijablama koje se za to ne koriste reći ćemo da su "izvan modela".

U postupnoj analizi diskriminantnih funkcija model diskriminacije se gradi korak po korak. Točnije, na svakom koraku se pregledavaju sve varijable i pronalazi ona koja daje najveći doprinos razlici između skupova. Ova varijabla mora biti uključena u model u ovom koraku i dolazi do prijelaza na sljedeći korak.

Također je moguće ići u suprotnom smjeru, u kojem će slučaju sve varijable prvo biti uključene u model, a zatim će varijable koje malo doprinose predviđanjima biti eliminirane u svakom koraku. Tada se, kao rezultat uspješne analize, mogu pohraniti samo "važne" varijable u modelu, odnosno one varijable čiji je doprinos diskriminaciji veći od ostalih.

Ovaj postupak korak po korak je "vođen" odgovarajućom F vrijednošću za uključivanje i odgovarajućom F vrijednošću za isključenje. F vrijednost statistike za varijablu pokazuje njezinu statističku značajnost u razlikovanju populacija, odnosno mjera je doprinosa varijable predviđanju pripadnosti populacije.

Za dvije skupine diskriminantna analiza se također može smatrati postupkom višestruke regresije. Ako kodirate dvije grupe kao 1 i 2, a zatim koristite ove varijable kao zavisne varijable u višestrukoj regresiji, dobit ćete rezultate slične onima koje biste dobili diskriminantnom analizom. Općenito, u slučaju dvije populacije, odgovarate linearnoj jednadžbi sljedećeg tipa:

Grupa = a + b1*x1 + b2*x2 + ... + bm*xm

gdje je a konstanta, a b1...bm su koeficijenti regresije. Interpretacija rezultata problema s dvije populacije usko slijedi logiku primjene višestruke regresije: varijable s najvećim regresijskim koeficijentima najviše pridonose diskriminaciji.

Ako postoji više od dvije skupine, tada se može vrednovati više od jedne diskriminantne funkcije, slično kao što je učinjeno ranije. Na primjer, kada postoje tri populacije, možete procijeniti: (1) funkciju za diskriminaciju između populacije 1 i populacije 2 i 3 zajedno, i (2) drugu funkciju za diskriminaciju između populacije 2 i populacije 3. Na primjer, vi može imati jednu funkciju diskriminacije između onih maturanata koji idu na fakultet i onih koji ne idu na fakultet (ali žele dobiti posao ili ići u školu), a drugu funkciju diskriminacije između onih maturanata koji žele dobiti posao u odnosu na oni koji ne žele.koji želi ići u školu. Koeficijenti b u ovim diskriminirajućim funkcijama mogu se tumačiti na isti način kao i prije.

Kanonska korelacija.

Kanonička analiza osmišljena je za analizu ovisnosti između popisa varijabli. Točnije, omogućuje vam da istražite odnos između dva skupa varijabli. Prilikom izračunavanja kanonskih korijena izračunavaju se vlastite vrijednosti korelacijske matrice. Ove vrijednosti jednake su udjelu varijance objašnjenom korelacijom između odgovarajućih kanonskih varijabli. U ovom slučaju, rezultirajući udio izračunava se u odnosu na disperziju kanonskih varijabli, tj. ponderirani zbroji za dva skupa varijabli; dakle, vlastite vrijednosti ne pokazuju apsolutno značenje objašnjeno u odgovarajućim kanonskim varijablama.

Ako uzmemo kvadratni korijen dobivenih vlastitih vrijednosti, dobivamo skup brojeva koji se mogu interpretirati kao koeficijenti korelacije. Budući da su kanonske varijable, nazivaju se i kanonskim korelacijama. Poput vlastitih vrijednosti, korelacije između kanonskih varijabli koje se sekvencijalno izdvajaju u svakom koraku smanjuju se. Međutim, druge kanonske varijable također mogu biti značajno povezane, a te korelacije često omogućuju prilično smisleno tumačenje.

Kriterij za značajnost kanonskih korelacija relativno je jednostavan. Prvo, kanonske korelacije se vrednuju jedna za drugom u silaznom redoslijedu. Za daljnju analizu ostavljeni su samo oni korijeni koji su se pokazali statistički značajnim. Iako su u stvarnosti izračuni malo drugačiji. Program najprije procjenjuje značaj cijelog skupa korijena, zatim značajnost skupa preostalog nakon uklanjanja prvog korijena, drugog korijena i tako dalje.

Studije su pokazale da korišteni test otkriva velike kanonske korelacije čak i uz malu veličinu uzorka (na primjer, n = 50). Slabe kanoničke korelacije (npr. R = .3) zahtijevaju otkrivanje velikih veličina uzorka (n > 200) 50% vremena. Imajte na umu da kanonske korelacije male veličine obično nemaju praktičnu vrijednost, budući da odgovaraju maloj stvarnoj varijabilnosti izvornih podataka.

Kanonske težine. Nakon određivanja broja značajnih kanonskih korijena, postavlja se pitanje tumačenja svakog (značajnog) korijena. Podsjetimo da svaki korijen zapravo predstavlja dva ponderirana zbroja, jedan za svaki skup varijabli. Jedan od načina tumačenja "značenja" svakog kanonskog korijena je razmatranje težine povezanih sa svakim skupom varijabli. Ove težine se također nazivaju kanonskim utezima.

U analizi se obično koristi da što je veća dodijeljena težina (tj. apsolutna vrijednost težine), veći je doprinos odgovarajuće varijable vrijednosti kanonske varijable.

Ako ste upoznati s višestrukom regresijom, možete primijeniti istu interpretaciju koja se koristi za beta pondere u jednadžbi višestruke regresije za kanonske težine. Kanonske težine su, u određenom smislu, analogne parcijalnim korelacijama varijabli koje odgovaraju kanonskom korijenu. Dakle, razmatranje kanonskih težina omogućuje razumijevanje "značenja" svakog kanonskog korijena, t.j. vidjeti kako specifične varijable u svakom skupu utječu na ponderirani zbroj (tj. kanonsku varijablu).

Parametarske i neparametarske metode za ocjenjivanje rezultata.

Parametarske metode temeljene na distribuciji uzorkovanja određenih statistika. Ukratko, ako znate distribuciju promatrane varijable, možete predvidjeti kako će se korištena statistika „ponašati“ u ponovljenim uzorcima jednake veličine – t.j. kako će se distribuirati.

U praksi je uporaba parametarskih metoda ograničena zbog volumena ili veličine uzorka koji su dostupni za analizu; problemi s točnim mjerenjem značajki promatranog objekta

Dakle, postoji potreba za postupcima za obradu podataka "niske kvalitete" iz malih uzoraka s varijablama čija je distribucija malo ili nimalo poznata. Neparametarske metode samo su dizajnirane za one situacije koje se često javljaju u praksi, kada istraživač ne zna ništa o parametrima populacije koja se proučava (otuda naziv metoda - neparametrijski). Više tehnički rečeno, neparametarske metode se ne oslanjaju na procjenu parametara (kao što je srednja vrijednost ili standardna devijacija) u opisivanju distribucije uzorkovanja količine od interesa. Stoga se ove metode ponekad nazivaju i bez parametara ili slobodno distribuirane.

U osnovi, za svaki parametarski test postoji barem jedan neparametarski pandan. Ovi kriteriji se mogu svrstati u jednu od sljedećih skupina:

kriteriji za razlike među skupinama (nezavisni uzorci);

kriteriji za razlike među skupinama (ovisni uzorci);

kriteriji ovisnosti između varijabli.

Razlike između nezavisnih grupa. Obično, kada postoje dva uzorka (na primjer, muškarci i žene) koje želite usporediti s obzirom na srednju vrijednost neke varijable od interesa, koristite t-test za neovisne osobe. Neparametarske alternative ovom testu su: test serije Wald-Wolfowitz, Mann-Whitney U test i Kolmogorov-Smirnov test s dva uzorka. Ako imate više grupa, možete koristiti ANOVA. Njegovi neparametrijski parnjaci su: Kruskal-Wallisova analiza ranga varijance i test medijana.

Razlike između ovisnih skupina. Ako želite usporediti dvije varijable koje pripadaju istom uzorku (primjerice, matematički uspjeh učenika na početku i na kraju semestra), obično se koristi t-test za zavisne uzorke. Alternativni neparametarski testovi su: test znakova i Wilcoxonov test uparenih usporedbi. Ako su dotične varijable kategoričke prirode ili su kategorizirane (tj. predstavljene kao frekvencije koje spadaju u određene kategorije), tada će McNemarov hi-kvadrat test biti prikladan. Ako se uzme u obzir više od dvije varijable iz istog uzorka, obično se koristi analiza varijance ponovljenih mjera (ANOVA). Alternativna neparametrijska metoda je Friedmanova analiza ranga varijance ili Cochranov Q test (potonji se koristi, na primjer, ako se varijabla mjeri na nominalnoj skali). Cochranov Q test također se koristi za procjenu promjena u frekvencijama (udjelima).

Ovisnosti između varijabli. Kako bi se procijenila ovisnost (odnos) između dviju varijabli obično se izračunava koeficijent korelacije. Neparametarski analozi standardnog Pearsonovog koeficijenta korelacije su Spearmanova R statistika, Kendallov tau i Gamma koeficijent. Dodatno, dostupan je i kriterij ovisnosti između nekoliko varijabli, tzv. Kendallov koeficijent podudarnosti. Ovaj se test često koristi za procjenu dosljednosti mišljenja neovisnih stručnjaka (sudaca), posebice ocjena danih istom predmetu.

Ako podaci nisu normalno raspoređeni i mjerenja u najboljem slučaju sadrže rangirane informacije, tada izračunavanje uobičajene deskriptivne statistike (npr. srednja vrijednost, standardna devijacija) nije baš informativno. Na primjer, u psihometriji je dobro poznato da je percipirani intenzitet podražaja (na primjer, percipirana svjetlina svjetlosti) logaritamska funkcija stvarnog intenziteta (svjetlina mjerena u objektivnim jedinicama - luxima). U ovom primjeru, uobičajena procjena srednje vrijednosti (zbroj vrijednosti podijeljenih s brojem podražaja) ne daje ispravnu predstavu o srednjoj vrijednosti stvarnog intenziteta podražaja. (U razmatranom primjeru radije bi se trebala izračunati geometrijska sredina.) Neparametrijska statistika izračunava raznolik skup mjera položaja (srednja vrijednost, medijan, mod, itd.) i disperzije (varijanca, harmonijska sredina, kvartilni raspon, itd.) za predstavljaju više "širu sliku" podataka.