Math statistics je moderna grana matematike koja se bavi statistički opis rezultate eksperimenata i zapažanja, kao i zgrada matematički modeli koji sadrže koncepte vjerovatnoće. Teorijska osnova matematičke statistike je teorija vjerovatnoće.

U strukturi matematičke statistike tradicionalno se razlikuju dva glavna odjeljka: deskriptivna statistika i statističko zaključivanje (Slika 1.1).

Rice. 1.1. Glavni dijelovi matematičke statistike

Deskriptivna statistika koristi se za:

o generalizacija indikatora jedne varijable (statistika slučajnog uzorka);

o identificiranje odnosa između dvije ili više varijabli (korelacijsko-regresiona analiza).

Deskriptivna statistika omogućava dobijanje novih informacija, brzo razumevanje i sveobuhvatnu procenu, odnosno obavlja naučnu funkciju opisivanja predmeta proučavanja, što opravdava svoj naziv. Metode deskriptivne statistike su dizajnirane da pretvore skup pojedinačnih empirijskih podataka u sistem oblika i brojeva koji su vizuelni za percepciju: distribucije frekvencija; indikatori trendova, varijabilnosti, komunikacija. Ove metode izračunavaju statistiku slučajnog uzorka, koja služi kao osnova za implementaciju statističkih zaključaka.

Statistical Inference dati priliku:

o procijeniti tačnost, pouzdanost i efektivnost statistike uzorka, pronaći greške koje se javljaju u procesu statističkog istraživanja (statistička evaluacija)

o sumirati parametre opšte populacije dobijene na osnovu statistike uzorka (provjera statističke hipoteze).

glavni cilj naučno istraživanje- ovo je sticanje novih znanja o velikoj klasi pojava, osoba ili događaja, koji se obično nazivaju opšta populacija.

Populacija je ukupnost objekata proučavanja, uzorak- njegov dio koji je formiran na određeni naučno utemeljen način 2.

Termin "opšta populacija" se koristi kada mi pričamo o velikom, ali konačnom skupu objekata koji se proučavaju. Na primjer, o ukupnom broju podnositelja zahtjeva u Ukrajini 2009. godine ili ukupnoj djeci predškolskog uzrasta grad Rivne. Opšte populacije mogu doseći značajne količine, biti konačne i beskonačne. U praksi se po pravilu radi sa konačnim skupovima. A ako je omjer veličine opće populacije i veličine uzorka veći od 100, tada, prema Glassu i Stanleyju, metode procjene za konačne i beskonačne populacije daju u suštini iste rezultate. Opšti skup se takođe može nazvati kompletnim skupom vrednosti nekog atributa. Činjenica da uzorak pripada opštoj populaciji je osnovna osnova za procenu karakteristika opšte populacije prema karakteristikama uzorka.

Main ideja matematička statistika zasniva se na uvjerenju da je kompletno proučavanje svih objekata opšte populacije u većini naučnih problema ili praktično nemoguće ili ekonomski nepraktično, jer zahtijeva puno vremena i značajne materijalne troškove. Stoga se u matematičkoj statistici koristi selektivni pristup,čiji je princip prikazan na dijagramu na sl. 1.2.

Na primjer, prema tehnologiji formiranja, uzorci su randomizirani (jednostavni i sistematski), stratificirani, grupirani (vidi Odjeljak 4).

Rice. 1.2. Šema primjene metoda matematičke statistike Prema selektivni pristup upotreba matematičkih statističke metode može se izvesti u sljedećem redoslijedu (vidi sliku 1.2):

o sa opšta populacija, svojstva koja su predmet istraživanja, određene metode formiraju uzorak- tipičan, ali ograničen broj objekata na koje se primjenjuju metode istraživanja;

o kao rezultat opservacijskih metoda, eksperimentalnih radnji i mjerenja na objektima uzorka, dobijaju se empirijski podaci;

o obrada empirijskih podataka metodama deskriptivne statistike daje uzorke indikatora, koji se nazivaju statističari – kao i naziv discipline, inače;

o primjena metoda statističkog zaključivanja na statističar, prima parametre koji karakteriziraju svojstva opšta populacija.

Primjer 1.1. Da bi se procijenila stabilnost nivoa znanja (varijabilnog x) testiranje randomiziranog uzorka od 3 studenta sa obimom od n. Testovi su sadržavali m zadataka, od kojih je svaki vrednovan po sistemu bodovanja: "rešeno" "- 1", "neispunjeno" - 0. prosječna trenutna postignuća učenika ostala X

3 randomizirani uzorak(od engleskog. Random - slučajan) je reprezentativan uzorak, koji se formira prema strategiji slučajnih testova.

na nivou prethodnih godina/h? Redoslijed rješenja:

o saznati smislenu hipotezu tipa: „ako se trenutni rezultati testa ne razlikuju od prošlih, onda možemo smatrati da je nivo znanja učenika nepromijenjen, i proces učenja- stabilan";

o formulirati adekvatnu statističku hipotezu, kao što je nulta hipoteza H 0 da je „trenutni GPA X se statistički ne razlikuje od prosjeka prethodnih godina/h“, tj. H 0: X = ⁄ r, protiv odgovarajuće alternativne hipoteze X F ^ ;

o izgraditi empirijske distribucije ispitivane varijable X;

o definisati(ako je potrebno) korelacije, na primjer, između varijable X i drugi pokazatelji, građ regresijske linije;

o provjerite usklađenost empirijska distribucija normalno pravo;

o procijeniti vrijednost bodovnih indikatora i interval pouzdanosti parametara, na primjer, prosjek;

o definisati kriterijume za statističko testiranje hipoteze;

o testirati statističke hipoteze na osnovu odabranih kriterijuma;

o formulisati odluku o statističkoj nul hipotezi o određenom nivo značajnosti;

o odmaknuti se od odluke da se prihvati ili odbije statistička nulta hipoteza interpretacije zaključaka u vezi sa smislenom hipotezom;

o formulisati smislene zaključke.

Dakle, ako sumiramo gore navedene postupke, primjena statističkih metoda sastoji se od tri glavna bloka:

Prelazak sa objekta stvarnosti na apstraktnu matematičku i statističku shemu, odnosno konstrukciju vjerovatnog modela pojave, procesa, svojstva;

Izvođenje računskih radnji odgovarajućim matematičkim sredstvima u okviru probabilističkog modela zasnovanog na rezultatima mjerenja, posmatranja, eksperimenata i formulaciji statističkih zaključaka;

Interpretacija statističkih zaključaka o stvarnom stanju i donošenje odgovarajuće odluke.

Statističke metode za obradu i interpretaciju podataka zasnovane su na teoriji vjerovatnoće. Teorija vjerovatnoće je osnova metoda matematičke statistike. Bez upotrebe osnovnih pojmova i zakona teorije vjerovatnoće, nemoguće je generalizirati zaključke matematičke statistike, a time i njihovu razumnu upotrebu u naučne i praktične svrhe.

Dakle, zadatak deskriptivne statistike je da transformiše skup podataka uzorka u sistem indikatora – statistike – distribucije frekvencija, mere centralne tendencije i varijabilnosti, koeficijenti sprege i sl. Međutim, statistika je zapravo karakteristika određenog uzorka. Naravno, moguće je izračunati distribuciju uzoraka, srednje vrijednosti uzorka, varijanse itd., ali takva "analiza podataka" je ograničene naučne i obrazovne vrijednosti. „Mehaničko“ prenošenje bilo kakvih zaključaka izvedenih na osnovu takvih pokazatelja na druge populacije nije ispravno.

Da bi se mogli prenijeti indikatori uzorka ili drugi, ili na uobičajenije populacije, potrebno je imati matematički opravdane odredbe o usklađenosti i sposobnosti karakteristika uzorka sa karakteristikama ovih uobičajenih takozvanih opštih populacija. Takve odredbe se zasnivaju na teorijskim pristupima i shemama povezanim sa probabilističkim modelima stvarnosti, na primjer, na aksiomatskom pristupu, u zakonu veliki brojevi itd. Samo uz njihovu pomoć moguće je prenijeti svojstva koja su utvrđena rezultatima analize ograničenih empirijskih informacija, bilo na druge ili na rasprostranjene skupove. Dakle, konstrukcija, zakoni funkcionisanja, upotreba probabilističkih modela, predmet je matematičkog polja zvanog „teorija verovatnoće“, postaje suština statističkih metoda.

Tako se u matematičkoj statistici koriste dvije paralelne linije indikatora: prva koja je relevantna za praksu (ovo su indikatori uzorka) i druga, zasnovana na teoriji (to su indikatori vjerovatnog modela). Na primjer, empirijske frekvencije koje su određene na uzorku odgovaraju konceptima teorijske vjerovatnoće; srednja vrijednost uzorka (praksa) odgovara očekivanu vrijednost(teorija) itd. Štaviše, u studijama su selektivne karakteristike, po pravilu, primarne. Izračunavaju se na osnovu zapažanja, merenja, eksperimenata, nakon čega se podvrgavaju statističkoj proceni sposobnosti i efikasnosti, testiranju statističkih hipoteza u skladu sa ciljevima istraživanja, i na kraju se prihvataju sa određenom verovatnoćom kao indikatori svojstava proučavanih populacija.

Pitanje. Zadatak.

1. Opišite glavne dijelove matematičke statistike.

2. Koja je glavna ideja matematičke statistike?

3. Opišite omjer opšte populacije i populacije uzorka.

4. Objasniti šemu za primjenu metoda matematičke statistike.

5. Navedite listu glavnih zadataka matematičke statistike.

6. Koji su glavni blokovi primjene statističkih metoda? Opišite ih.

7. Proširiti vezu između matematičke statistike i teorije vjerovatnoće.

Uvod

2. Osnovni pojmovi matematičke statistike

2.1 Osnovni koncepti uzorkovanja

2.2 Uzorkovanje

2.3 Empirijska funkcija distribucije, histogram

Zaključak

Bibliografija

Uvod

Matematička statistika je nauka o matematičke metode sistematizacija i korištenje statističkih podataka za naučne i praktične zaključke. U mnogim svojim granama, matematička statistika se zasniva na teoriji vjerovatnoće, što omogućava procjenu pouzdanosti i tačnosti zaključaka izvedenih iz ograničenog statističkog materijala (na primjer, procjenu potrebne veličine uzorka da bi se dobili rezultati potrebne tačnosti u anketi uzorka).

U teoriji vjerovatnoće, slučajne varijable sa datom distribucijom ili slučajnim eksperimentima, čija su svojstva u potpunosti poznata. Predmet teorije vjerovatnoće su svojstva i odnosi ovih veličina (distribucija).

Ali često je eksperiment crna kutija, koja daje samo neke rezultate, prema kojima je potrebno izvući zaključak o svojstvima samog eksperimenta. Posmatrač ima skup numeričkih (ili oni mogu biti numerički) rezultata dobijenih ponavljanjem istog slučajnog eksperimenta pod istim uslovima.

U ovom slučaju, na primjer, postavljaju se sljedeća pitanja: Ako promatramo jednu slučajnu varijablu, kako možemo izvući najtačniji zaključak o njenoj distribuciji iz skupa njenih vrijednosti u nekoliko eksperimenata?

Primjer takve serije eksperimenata je sociološko istraživanje, skup ekonomskih pokazatelja ili, konačno, niz grbova i repova tokom hiljadustrukog bacanja novčića.

Svi gore navedeni faktori dovode do relevantnost i važnosti teme rada u sadašnjoj fazi, usmjerene na duboko i sveobuhvatno proučavanje osnovnih pojmova matematičke statistike.

S tim u vezi, svrha ovog rada je sistematizacija, akumulacija i konsolidacija znanja o pojmovima matematičke statistike.

1. Predmet i metode matematičke statistike

Matematička statistika je nauka o matematičkim metodama za analizu podataka dobijenih tokom masovnih posmatranja (merenja, eksperimenata). U zavisnosti od matematičke prirode konkretnih rezultata posmatranja, matematička statistika se deli na statistiku brojeva, višedimenzionalnu Statistička analiza, analiza funkcija (procesa) i vremenskih serija, statistika objekata nenumeričke prirode. Značajan dio matematičke statistike zasniva se na vjerojatnosnim modelima. Dodijeli opšti zadaci opisi podataka, evaluacija i testiranje hipoteza. Oni također razmatraju konkretnije zadatke koji se odnose na provođenje anketa uzoraka, vraćanje ovisnosti, izgradnju i korištenje klasifikacija (tipologija) itd.

Da bi se opisali podaci, prave se tabele, grafikoni i drugi vizuelni prikazi, na primer, korelaciona polja. Vjerovatni modeli se obično ne koriste. Neke metode opisa podataka oslanjaju se na naprednu teoriju i mogućnosti modernih računara. To uključuje, posebno, klastersku analizu, usmjerenu na identifikaciju grupa objekata koji su međusobno slični, i višedimenzionalno skaliranje, što omogućava vizualizaciju objekata na ravnini, u najmanjoj mjeri izobličujući udaljenosti između njih.

Metode procjene i testiranja hipoteza oslanjaju se na modele za generiranje vjerovatnoća podataka. Ovi modeli se dijele na parametarske i neparametarske. U parametarskim modelima pretpostavlja se da su objekti koji se proučavaju opisani funkcijama raspodjele koje zavise od malog broja (1-4) numeričkih parametara. U neparametarskim modelima, pretpostavlja se da su funkcije distribucije proizvoljno kontinuirane. U matematičkoj statistici, parametri i karakteristike distribucije (matematičko očekivanje, medijan, varijansa, kvantili, itd.), gustoće i funkcije distribucije, zavisnosti između varijabli (na osnovu linearnih i neparametarskih koeficijenata korelacije, kao i parametarskih ili neparametarskih koeficijenata korelacije, itd.) procjenjuju se parametarske procjene funkcija koje izražavaju zavisnosti) itd. Koristite procjene tačke i intervala (dajući granice za prave vrijednosti).

U matematičkoj statistici postoji opšta teorija testiranja hipoteza i veliki broj metode posvećene testiranju specifičnih hipoteza. Razmatraju se hipoteze o vrijednostima parametara i karakteristika, o provjeri homogenosti (tj. o podudarnosti karakteristika ili funkcija distribucije u dva uzorka), o slaganju empirijske funkcije distribucije sa datom funkcijom distribucije ili s parametarskom porodice takvih funkcija, o simetriji distribucije, itd.

Od velikog značaja je deo matematičke statistike koji je povezan sa sprovođenjem uzorkovanih istraživanja, sa svojstvima različitih šema uzorkovanja i izgradnjom adekvatnih metoda za procenu i proveru hipoteza.

Problemi oporavka zavisnosti se aktivno proučavaju više od 200 godina, od razvoja metode najmanjih kvadrata od strane K. Gausa 1794. godine. Trenutno su najrelevantnije metode traženja informativnog podskupa varijabli i neparametarske metode.

Razvoj metoda za aproksimaciju podataka i smanjenje dimenzije opisa započeo je prije više od 100 godina, kada je K. Pearson stvorio metodu glavne komponente. Kasnije je razvijena faktorska analiza i brojne nelinearne generalizacije.

Različite metode konstruisanja (klaster analiza), analize i upotrebe (diskriminantna analiza) klasifikacija (tipologija) nazivaju se i metodama prepoznavanja obrazaca (sa i bez nastavnika), automatske klasifikacije itd.

Matematičke metode u statistici se zasnivaju ili na korišćenju suma (na osnovu Centralne granične teoreme teorije verovatnoće) ili indikatora razlike (udaljenosti, metrike), kao u statistici nenumeričkih objekata. Obično su samo asimptotski rezultati rigorozno potkrijepljeni. Danas kompjuteri igraju veliku ulogu u matematičkoj statistici. Koriste se i za proračune i za simulacijsko modeliranje (posebno u metodama uzorkovanja i proučavanju podobnosti asimptotičkih rezultata).

Osnovni pojmovi matematičke statistike

2.1 Osnovni koncepti metode uzorkovanja

Neka je slučajna varijabla promatrana u slučajnom eksperimentu. Pretpostavlja se da je prostor vjerovatnoće dat (i da nas neće zanimati).

Pretpostavit ćemo da smo, izvodeći ovaj eksperiment jednom pod istim uvjetima, dobili brojeve , , , - vrijednosti ove slučajne varijable u prvoj, drugoj itd. eksperimenti. Slučajna varijabla ima neku distribuciju, koja nam je djelomično ili potpuno nepoznata.

Pogledajmo pobliže skup koji se zove uzorak.

U nizu eksperimenata koji su već izvedeni, uzorak je skup brojeva. Ali ako se ova serija eksperimenata ponovi, tada ćemo umjesto ovog skupa dobiti novi skup brojeva. Umjesto broja pojavit će se drugi broj - jedna od vrijednosti slučajne varijable. To jest, (i , i , itd.) je varijabla koja može uzeti iste vrijednosti kao slučajna varijabla, i jednako često (sa istim vjerovatnoćama). Dakle, prije eksperimenta - slučajna varijabla jednako raspoređena sa , a nakon eksperimenta - broj koji opažamo u ovom prvom eksperimentu, tj. jedna od mogućih vrijednosti slučajne varijable.

Uzorak volumena je skup nezavisnih i identično raspoređenih slučajnih varijabli („kopije“) koje, poput i , imaju distribuciju.

Šta znači „izvući zaključak o distribuciji iz uzorka”? Distribuciju karakterizira funkcija raspodjele, gustina ili tabela, skup numeričkih karakteristika - , , itd. Na osnovu uzorka, mora se moći izgraditi aproksimacije za sve ove karakteristike.

.2 Uzorkovanje

Razmotrimo implementaciju uzorka na jednom elementarnom ishodu - skupu brojeva , , . Na pogodnom prostoru vjerovatnoće uvodimo slučajnu varijablu koja uzima vrijednosti, , sa vjerovatnoćama u (ako se neke od vrijednosti poklapaju, dodajemo vjerovatnoće odgovarajući broj puta). Tablica distribucije vjerovatnoće i funkcija raspodjele slučajne varijable izgledaju ovako:

Distribucija veličine naziva se empirijska ili distribucija uzorka. Izračunajmo matematičko očekivanje i varijansu veličine i uvedemo notaciju za ove veličine:

Na isti način izračunavamo trenutak narudžbe

U opštem slučaju, označavamo sa količinom

Ako, prilikom konstruisanja svih karakteristika koje smo uveli, uzmemo u obzir uzorak , , kao skup slučajnih varijabli, tada će te karakteristike - , , , , - postati slučajne varijable. Ove karakteristike distribucije uzorka se koriste za procjenu (aproksimaciju) odgovarajućih nepoznatih karakteristika prave raspodjele.

Razlog za korištenje karakteristika distribucije za procjenu karakteristika prave distribucije (ili ) je u bliskosti ovih distribucija za velike .

Zamislite, na primjer, bacanje obične kockice. Neka - broj poena koji su pali na -tom bacanju, . Pretpostavimo da će se jedan u uzorku pojaviti jednom, dva - jednom i tako dalje. Tada će slučajna varijabla uzeti vrijednosti 1 , , 6 sa vjerovatnoćama , , respektivno. Ali te se proporcije približavaju rastu prema zakonu velikih brojeva. Odnosno, distribucija veličine se u nekom smislu približava pravoj raspodjeli broja bodova koji ispadnu kada se baci ispravna kocka.

Nećemo precizirati šta se podrazumijeva pod bliskošću uzorka i pravim distribucijama. U sljedećim paragrafima ćemo pobliže pogledati svaku od gore navedenih karakteristika i ispitati njene osobine, uključujući i ponašanje s povećanjem veličine uzorka.

.3 Empirijska funkcija distribucije, histogram

Budući da se nepoznata distribucija može opisati, na primjer, njenom funkcijom distribucije, konstruisaćemo „procjenu“ za ovu funkciju iz uzorka.

Definicija 1.

Poziva se empirijska funkcija raspodjele izgrađena na uzorku volumena slučajna funkcija, za svaki jednak

podsjetnik: slučajna funkcija

naziva se indikatorom događaja. Za svaku, ovo je slučajna varijabla koja ima Bernoullijevu distribuciju s parametrom . zašto?

Drugim riječima, za bilo koju vrijednost , jednaku pravoj vjerovatnoći da je slučajna varijabla manja od , procjenjuje se udio elemenata uzorka manji od.

Ako su elementi uzorka , , sortirani uzlaznim redoslijedom (na svakom elementarnom ishodu), dobiće se novi skup slučajnih varijabli, nazvan varijacijski niz:

Element , , naziva se th član varijacione serije ili statistika th reda .

Primjer 1

uzorak:

Varijacijska serija:

Rice. jedan. Primjer 1

Empirijska funkcija distribucije ima skokove u tačkama uzorka, vrijednost skoka u točki je , gdje je broj elemenata uzorka koji se poklapaju sa .

Može se izgraditi empirijska funkcija distribucija prema nizu varijacija:

Još jedna karakteristika distribucije je tabela (za diskretne distribucije) ili gustina (za apsolutno kontinuirano). Empirijski ili selektivni analog tabele ili gustine je takozvani histogram.

Histogram je zasnovan na grupisanim podacima. Procijenjeni raspon vrijednosti slučajne varijable (ili raspon podataka uzorka) podijeljen je, bez obzira na uzorak, na određeni broj intervala (ne nužno isti). Neka , , biti intervali na liniji, koji se nazivaju intervali grupisanja . Označimo za brojem uzoraka elemenata koji spadaju u interval:

(1)

Na svakom od intervala izgrađen je pravougaonik, čija je površina proporcionalna. Ukupna površina svih pravougaonika mora biti jednaka jedan. Neka je dužina intervala. Visina pravougaonika iznad je

Dobivena figura naziva se histogram.

Primjer 2

Dostupan varijantne serije(vidi primjer 1):

Evo decimalnog logaritma, dakle, tj. kada se uzorak udvostruči, broj intervala grupisanja se povećava za 1. Imajte na umu da što je više intervala grupisanja, to bolje. Ali, ako uzmemo broj intervala, recimo, reda , tada se s rastom histogram neće približiti gustoći.

Tačna je sljedeća izjava:

Ako je gustina uzorka kontinuirana funkcija, onda za tako da , tačkasta konvergencija u vjerovatnoći histograma na gustinu.

Dakle, izbor logaritma je razuman, ali ne i jedini mogući.

Zaključak

Matematička (ili teorijska) statistika zasniva se na metodama i konceptima teorije vjerovatnoće, ali u određenom smislu rješava inverzne probleme.

Ako posmatramo istovremenu manifestaciju dva (ili više) znaka, tj. imamo skup vrijednosti nekoliko slučajnih varijabli - što se može reći o njihovoj ovisnosti? Je li ona tu ili ne? I ako jeste, kakva je to zavisnost?

Često je moguće napraviti neke pretpostavke o distribuciji skrivenoj u "crnoj kutiji" ili o njenim svojstvima. U ovom slučaju, prema eksperimentalnim podacima, potrebno je potvrditi ili opovrgnuti ove pretpostavke („hipoteze“). Istovremeno, moramo imati na umu da se odgovor "da" ili "ne" može dati samo sa određenim stepenom sigurnosti, i što duže možemo nastaviti eksperiment, zaključci mogu biti tačniji. Najpovoljnija situacija za istraživanje je kada se može pouzdano tvrditi o nekim svojstvima posmatranog eksperimenta - na primjer, o postojanju funkcionalne zavisnosti između posmatranih veličina, o normalnosti distribucije, o njenoj simetriji, o prisustvu gustina u distribuciji ili o njenoj diskretnoj prirodi, itd.

Dakle, ima smisla prisjetiti se (matematičke) statistike ako

postoji slučajni eksperiment čija su svojstva djelomično ili potpuno nepoznata,

U mogućnosti smo da reproduciramo ovaj eksperiment pod istim uslovima nekoliko (ili bolje, bilo koji) broj puta.

Bibliografija

1. Baumol U. Ekonomska teorija i operativno istraživanje. – M.; Nauka, 1999.

2. Bolshev L.N., Smirnov N.V. Tabele matematičke statistike. Moskva: Nauka, 1995.

3. Borovkov A.A. Math statistics. Moskva: Nauka, 1994.

4. Korn G., Korn T. Priručnik iz matematike za naučnike i inženjere. - Sankt Peterburg: Izdavačka kuća Lan, 2003.

5. Korshunov D.A., Chernova N.I. Zbirka zadataka i vježbi iz matematičke statistike. Novosibirsk: Izdavačka kuća Instituta za matematiku. S.L. Sobolev SB RAS, 2001.

6. Peheletsky I.D. Matematika: udžbenik za studente. - M.: Akademija, 2003.

7. Sukhodolsky V.G. Predavanja iz više matematike za humanističke nauke. - Izdavačka kuća Sankt Peterburga iz Sankt Peterburga državni univerzitet. 2003

8. Feller V. Uvod u teoriju vjerovatnoće i njene primjene. - M.: Mir, T.2, 1984.

9. Harman G., Moderna faktorska analiza. - M.: Statistika, 1972.


Harman G., Moderna faktorska analiza. - M.: Statistika, 1972.

Matematička statistika je jedna od glavnih sekcija takve nauke kao što je matematika, i grana je koja proučava metode i pravila za obradu određenih podataka. Drugim riječima, istražuje načine otkrivanja obrazaca koji su svojstveni velikim zbirkama identičnih objekata, na osnovu istraživanja uzorka.

Zadatak ovaj odeljak sastoji se u konstruisanju metoda za procenu verovatnoće ili donošenja određene odluke o prirodi događaja u razvoju, na osnovu dobijenih rezultata. Za opisivanje podataka koriste se tabele, grafikoni i polja korelacije. rijetko se primjenjuje.

Matematička statistika se koristi u različitim oblastima nauke. Na primjer, za privredu je važno da obrađuje informacije o homogenim skupovima pojava i objekata. To mogu biti proizvodi koje proizvodi industrija, kadrovi, podaci o dobiti itd. U zavisnosti od matematičke prirode rezultata posmatranja, izdvaja se statistika brojeva, analiza funkcija i objekata nenumeričke prirode i višedimenzionalne prirode. analiza. Osim toga, oni razmatraju opšte i posebne (vezane za obnavljanje zavisnosti, korištenje klasifikacija, selektivne studije) zadatke.

Autori nekih udžbenika smatraju da je teorija matematičke statistike samo dio teorije vjerovatnoće, dok drugi smatraju da je to samostalna nauka sa svojim ciljevima, ciljevima i metodama. Međutim, u svakom slučaju, njegova upotreba je vrlo široka.

Dakle, matematička statistika je najjasnije primjenjiva u psihologiji. Njegova upotreba će omogućiti stručnjaku da ispravno potkrijepi, pronađe odnos između podataka, generalizira ih, izbjegne mnoge logičke greške i još mnogo toga. Treba napomenuti da je često jednostavno nemoguće izmjeriti ovaj ili onaj psihološki fenomen ili crtu ličnosti bez računskih postupaka. To sugerira da su osnove ove nauke neophodne. Drugim riječima, može se nazvati izvorom i osnovom teorije vjerovatnoće.

Metoda istraživanja, koja se oslanja na razmatranje statističkih podataka, koristi se iu drugim oblastima. Međutim, odmah treba napomenuti da su njegove karakteristike, kada se primjenjuju na objekte koji imaju različitu prirodu porijekla, uvijek jedinstvene. Stoga, nema smisla kombinovati fizičku nauku u jednu nauku. Zajedničke karakteristike ovu metodu svode se na prebrojavanje određenog broja objekata koji su uključeni u određenu grupu, kao i na proučavanje distribucije kvantitativne osobine i primjena teorije vjerovatnoće za dobijanje određenih zaključaka.

Elementi matematičke statistike se koriste u oblastima kao što su fizika, astronomija itd. Ovdje se mogu naći vrijednosti karakteristika i parametara, hipoteze o podudarnosti bilo koje karakteristike u dva uzorka, o simetriji distribucije i još mnogo toga razmatrano.

Važnu ulogu u njihovoj implementaciji ima matematička statistika čiji je cilj najčešće izgradnja adekvatnih metoda za procjenu i testiranje hipoteza. Trenutno su kompjuterske tehnologije od velikog značaja u ovoj nauci. Oni omogućavaju ne samo značajno pojednostavljenje procesa proračuna, već i stvaranje uzoraka za replikaciju ili prilikom proučavanja prikladnosti rezultata dobivenih u praksi.

U opštem slučaju, metode matematičke statistike pomažu da se izvuku dva zaključka: ili da se donese željeni sud o prirodi ili svojstvima podataka koji se proučavaju i njihovim odnosima, ili da se dokaže da dobijeni rezultati nisu dovoljni za donošenje zaključaka.


Sadržaj.

1. Uvod:
- Kako se koriste vjerovatnoća i matematička statistika? - strana 2
- Šta je "matematička statistika"? - strana 3
2) Primjeri primjene teorije vjerovatnoće i matematičke statistike:
- Odabir. - strana 4
- Zadaci ocjenjivanja. – strana 6
- Probabilističko-statističke metode i optimizacija. – strana 7
3) Zaključak.

Uvod.

Kako se koriste vjerovatnoća i matematička statistika? Ove discipline su osnova vjerovatno-statističkih metoda odlučivanja. Da ih iskoristim matematički aparat, potrebno je probleme odlučivanja izraziti u terminima vjerovatno-statističkih modela. Primjena specifične probabilističko-statističke metode odlučivanja sastoji se od tri faze:
- prelazak sa ekonomske, menadžerske, tehnološke stvarnosti na apstraktnu matematičku i statističku shemu, tj. izgradnja probabilističkog modela sistema upravljanja, tehnološkog procesa, postupka donošenja odluka, posebno na osnovu rezultata statističke kontrole, itd.
- izvođenje proračuna i dobijanje zaključaka čisto matematičkim sredstvima u okviru vjerovatnog modela;
- tumačenje matematičkih i statističkih zaključaka u odnosu na realnu situaciju i donošenje odgovarajuće odluke (npr. o usklađenosti ili neusklađenosti kvaliteta proizvoda sa utvrđenim zahtjevima, potrebi prilagođavanja tehnološkog procesa i sl.), a posebno , zaključci (o udjelu neispravnih jedinica proizvoda u seriji, o specifičnom obliku zakona distribucije kontroliranih parametara tehnološkog procesa i dr.).

Matematička statistika koristi koncepte, metode i rezultate teorije vjerovatnoće. Razmotrimo glavna pitanja izgradnje probabilističkih modela odlučivanja u ekonomskim, menadžerskim, tehnološkim i drugim situacijama. Za aktivnu i pravilnu upotrebu normativno-tehničkih i instruktivno-metodičkih dokumenata o probabilističko-statističkim metodama odlučivanja potrebna su preliminarna znanja. Dakle, potrebno je znati pod kojim uslovima treba primijeniti jedan ili drugi dokument, koje početne informacije je potrebno imati za njegov odabir i primjenu, koje odluke treba donijeti na osnovu rezultata obrade podataka itd.

Šta je "matematička statistika"? Pod matematičkom statistikom se podrazumijeva „odjeljak matematike posvećen matematičkim metodama za prikupljanje, sistematizaciju, obradu i tumačenje statističkih podataka, kao i njihovo korištenje za naučne ili praktične zaključke. Pravila i procedure matematičke statistike zasnivaju se na teoriji vjerovatnoće, što omogućava procjenu tačnosti i pouzdanosti zaključaka dobijenih u svakom problemu na osnovu dostupnog statističkog materijala. Istovremeno, statistički podaci se odnose na podatak o broju objekata u bilo kojoj manje ili više obimnoj zbirci koji imaju određene karakteristike.

Prema vrsti problema koji se rješava, matematička statistika se obično dijeli u tri dijela: opis podataka, procjena i testiranje hipoteza.

Prema vrsti statističkih podataka koji se obrađuju, matematička statistika je podijeljena u četiri oblasti:

Jednodimenzionalna statistika (statistika slučajnih varijabli), u kojoj je rezultat posmatranja opisan realnim brojem;

Multivarijantna statistička analiza, gde se rezultat posmatranja objekta opisuje sa više brojeva (vektora);

Statistika slučajnih procesa i vremenskih serija, gde je rezultat posmatranja funkcija;

Statistika objekata nenumeričke prirode, u kojoj je rezultat posmatranja nenumeričke prirode, na primjer, to je skup (geometrijska figura), poredak ili dobiven kao rezultat mjerenja pomoću kvalitativni atribut.

Primjeri primjene teorije vjerovatnoće i matematičke statistike.
Razmotrimo nekoliko primjera gdje su vjerovatno-statistički modeli dobar alat za rješavanje menadžerskih, industrijskih, ekonomskih i nacionalnih ekonomskih problema. Tako, na primjer, novčić koji se koristi kao lot mora biti "simetričan", tj. kada se baci, u prosjeku bi u polovini slučajeva trebao ispasti grb, a u polovini slučajeva - rešetka (repovi, broj). Ali šta znači "prosjek"? Ako potrošite mnogo serija od 10 bacanja u svakoj seriji, onda će često biti serija u kojima novčić ispadne 4 puta s grbom. Za simetrični novčić, to će se dogoditi u 20,5% serije. A ako postoji 40.000 grbova za 100.000 bacanja, može li se novčić smatrati simetričnim? Procedura donošenja odluka zasniva se na teoriji vjerovatnoće i matematičkoj statistici.

Primjer koji se razmatra možda ne izgleda dovoljno ozbiljan. Međutim, nije. Žreb se široko koristi u organizovanju eksperimenata industrijske izvodljivosti, na primer, pri obradi rezultata merenja indeksa kvaliteta (momenta trenja) ležajeva u zavisnosti od različitih tehnoloških faktora (uticaj okoline za očuvanje, metode pripreme ležajeva pre merenja, uticaj opterećenja ležaja u procesu merenja itd.). P.). Pretpostavimo da je potrebno usporediti kvalitetu ležajeva ovisno o rezultatima njihovog skladištenja u različitim konzervacijskim uljima, tj. u uljima sastava A i B. Prilikom planiranja ovakvog eksperimenta postavlja se pitanje koje ležajeve treba postaviti u uljnu kompoziciju A, a koje - u uljnu kompoziciju B, ali na način da se izbjegne subjektivnost i osigura objektivnost odluka.

Uzorak
Odgovor na ovo pitanje može se dobiti žrijebom. Sličan primjer može se dati s kontrolom kvalitete bilo kojeg proizvoda. Da bi se odlučilo da li pregledana serija proizvoda ispunjava utvrđene zahtjeve, uzima se uzorak iz nje. Na osnovu rezultata kontrole uzorka donosi se zaključak o cijeloj seriji. U ovom slučaju je vrlo važno izbjeći subjektivnost u formiranju uzorka, odnosno potrebno je da svaka jedinica proizvoda u kontrolisanoj seriji ima istu vjerovatnoću da bude odabrana u uzorku. U proizvodnim uvjetima, odabir proizvodnih jedinica u uzorku obično se ne vrši putem lota, već pomoću posebnih tablica slučajnih brojeva ili uz pomoć kompjuterskih generatora slučajnih brojeva.
Slični problemi obezbeđivanja objektivnosti poređenja javljaju se prilikom poređenja različitih šema organizovanja proizvodnje, nagrađivanja, pri održavanju tendera i konkursa, odabiru kandidata za upražnjena radna mesta itd. Svugdje vam je potrebna lutrija ili slične procedure. Objasnimo na primjeru identifikacije najjače i druge najjače ekipe u organizaciji turnira po olimpijskom sistemu (poraženi je eliminisan). Neka jača ekipa uvijek pobjeđuje slabiju. Jasno je da će najjača ekipa sigurno postati šampion. Druga po snazi ​​ekipa će u finale samo ako nema utakmica sa budućim šampionom prije finala. Ako je takva utakmica planirana, onda druga po snazi ​​ekipa neće doći do finala. Onaj ko planira turnir može ili "nokautirati" drugu najjaču ekipu sa turnira prije roka, srušivši je u prvom susretu sa liderom, ili joj osigurati drugo mjesto, osiguravajući susrete sa slabijim ekipama do finala. Da biste izbjegli subjektivnost, izvucite žrijeb. Za turnir sa 8 ekipa, vjerovatnoća da će se dva najjača tima sastati u finalu je 4/7. Shodno tome, sa vjerovatnoćom od 3/7, druga po snazi ​​ekipa će napustiti turnir prije roka.
U svakom mjerenju jedinica proizvoda (pomoću čeljusti, mikrometra, ampermetra, itd.), postoje greške. Da bi se utvrdilo da li postoje sistematske greške, potrebno je izvršiti ponovljena mjerenja jedinice proizvodnje čije su karakteristike poznate (na primjer, standardni uzorak). Treba imati na umu da pored sistematske greške postoji i slučajna greška.

Stoga se postavlja pitanje kako iz rezultata mjerenja saznati da li postoji sistematska greška. Ako zapazimo samo da li je greška dobijena prilikom sljedećeg mjerenja pozitivna ili negativna, onda se ovaj problem može svesti na prethodni. Zaista, usporedimo mjerenje s bacanjem novčića, pozitivnu grešku - s gubitkom grba, negativnu - s rešetkom (nulta greška s dovoljnim brojem podjela ljestvice gotovo se nikada ne pojavljuje). Tada je provjera odsustva sistematske greške ekvivalentna provjeri simetrije novčića.

Svrha ovih razmatranja je da se problem provjere odsustva sistematske greške svede na problem provjere simetrije novčića. Gornje rezonovanje dovodi do takozvanog "kriterijuma predznaka" u matematičkoj statistici.
"Sign test" - statistički test koji vam omogućava da testirate nultu hipotezu da uzorak poštuje binomnu distribuciju sa parametrom p=1/2. Test predznaka se može koristiti kao neparametarski statistički test za testiranje hipoteze da je medijana jednaka datoj vrijednosti (posebno nuli), kao i odsustvo pomaka (bez efekta obrade) u dva povezana uzorka. Također vam omogućava da testirate hipotezu simetrije distribucije, međutim, za to postoje moćniji kriteriji - Wilcoxonov test jednog uzorka i njegove modifikacije.

U statističkoj regulaciji tehnoloških procesa zasnovanih na metodama matematičke statistike izrađuju se pravila i planovi za statističku kontrolu procesa u cilju pravovremenog otkrivanja poremećaja tehnoloških procesa i preduzimanja mera za njihovo prilagođavanje i sprečavanje puštanja proizvoda koji rade. ne ispunjavaju utvrđene uslove. Ove mjere imaju za cilj smanjenje troškova proizvodnje i gubitaka od nabavke nekvalitetnih proizvoda. Uz statističku kontrolu prihvata, na osnovu metoda matematičke statistike, izrađuju se planovi kontrole kvaliteta analizom uzoraka iz serija proizvoda. Poteškoća je u tome da se pravilno grade vjerovatno-statistički modeli odlučivanja, na osnovu kojih je moguće odgovoriti na postavljena pitanja. Za to su u matematičkoj statistici razvijeni vjerojatnosni modeli i metode za testiranje hipoteza, a posebno hipoteza da je udio neispravnih jedinica proizvodnje jednak određenom broju p0, na primjer, p0 = 0,23.

Zadaci ocjenjivanja.
U nizu upravljačkih, industrijskih, ekonomskih, nacionalno-ekonomskih situacija javljaju se problemi drugačijeg tipa – problemi procjene karakteristika i parametara distribucije vjerovatnoće.

Razmotrimo primjer. Neka serija od N električnih lampi dođe u kontrolu. Iz ove serije nasumično je odabran uzorak od n električnih lampi. Postavlja se niz prirodnih pitanja. Kako se iz rezultata ispitivanja elemenata uzorka može odrediti prosječni vijek trajanja električnih svjetiljki i s kojom se tačnošću može procijeniti ova karakteristika? Kako se mijenja tačnost ako se uzme veći uzorak? Za koji broj sati T se može garantovati da će najmanje 90% električnih lampi trajati T ili više sati?

Pretpostavimo da se prilikom testiranja uzorka od n električnih lampi pokazalo da je X električnih lampi neispravan. Tada se postavljaju sljedeća pitanja. Koje granice se mogu odrediti za broj D neispravnih električnih lampi u seriji, za nivo neispravnosti D/N itd.?

Ili, u statističkoj analizi tačnosti i stabilnosti tehnoloških procesa, potrebno je vrednovati takve pokazatelje kvaliteta kao što su prosečna vrednost kontrolisanog parametra i stepen njegove rasprostranjenosti u procesu koji se razmatra. Prema teoriji vjerovatnoće, preporučljivo je koristiti njeno matematičko očekivanje kao srednju vrijednost slučajne varijable, a varijansu, standardnu ​​devijaciju ili koeficijent varijacije kao statističku karakteristiku širenja. Ovo postavlja pitanje: kako procijeniti ove statističke karakteristike iz podataka uzorka i s kojom tačnošću se to može učiniti? Ima mnogo sličnih primjera. Ovdje je bilo važno pokazati kako se teorija vjerovatnoće i matematička statistika mogu koristiti u upravljanju proizvodnjom pri donošenju odluka u oblasti statističkog upravljanja kvalitetom proizvoda.

Probabilističko-statističke metode i optimizacija. Ideja optimizacije prožima modernu primijenjenu matematičku statistiku i druge statističke metode. Naime, metode planiranja eksperimenata, statistička kontrola prihvatljivosti, statistička kontrola tehnoloških procesa itd. S druge strane, formulacije optimizacije u teoriji odlučivanja, na primjer, primijenjena teorija optimizacije kvaliteta proizvoda i zahtjevi standarda, omogućavaju široku upotrebu probabilističko-statističke metode, prvenstveno primijenjene matematičke statistike.

U upravljanju proizvodnjom, posebno kod optimizacije kvaliteta proizvoda i zahtjeva standarda, posebno je važna primjena statističkih metoda u početnoj fazi. životni ciklus proizvodi, tj. u fazi istraživačke pripreme razvoja eksperimentalnog dizajna (izrada obećavajućih zahtjeva za proizvode, idejni projekt, projektni zadatak za izradu eksperimentalnog dizajna). To je zbog ograničenih informacija dostupnih u početnoj fazi životnog ciklusa proizvoda i potrebe za predviđanjem tehničkih mogućnosti i ekonomske situacije za budućnost. Statističke metode treba primjenjivati ​​u svim fazama rješavanja problema optimizacije – pri skaliranju varijabli, razvoju matematičkih modela funkcionisanja proizvoda i sistema, izvođenju tehničkih i ekonomskih eksperimenata itd.

U problemima optimizacije, uključujući optimizaciju kvaliteta proizvoda i standardne zahtjeve, koriste se sva područja statistike. Naime, statistika slučajnih varijabli, multivarijantna statistička analiza, statistika slučajnih procesa i vremenskih serija, statistika objekata nenumeričke prirode. Izbor statističke metode za analizu konkretnih podataka treba izvršiti u skladu sa preporukama.

Zaključak.
AT
itd...................

Svako istraživanje u oblasti slučajnih pojava uvijek je ukorijenjeno u eksperimentu, u eksperimentalnim podacima. Numerički podaci koji se prikupljaju prilikom proučavanja bilo koje karakteristike nekog objekta nazivaju se statistički. Statistički podaci su početni materijal studije. Da bi imali naučnu ili praktičnu vrijednost, moraju se obraditi metodama matematičke statistike.

Math statistics je naučna disciplina čiji je predmet razvoj metoda za snimanje, opisivanje i analizu statističkih eksperimentalnih podataka dobijenih kao rezultat posmatranja masivnih slučajnih pojava.

Glavni zadaci matematičke statistike su:

    utvrđivanje zakona distribucije slučajne varijable ili sistema slučajnih varijabli;

    testiranje vjerodostojnosti hipoteza;

    određivanje nepoznatih parametara distribucije.

Sve metode matematičke statistike zasnovane su na teoriji vjerovatnoće. Međutim, zbog specifičnosti problema koji se rješavaju, matematička statistika je izdvojena iz teorije vjerovatnoće u samostalnu oblast. Ako se u teoriji vjerovatnoće smatra da je model fenomena dat i izračuna se mogući stvarni tok ove pojave (slika 1), onda se u matematičkoj statistici na osnovu statističkih podataka bira odgovarajući vjerovatnostni model (slika 2). ).

Fig.1. Opšti problem teorije verovatnoće

Fig.2. Opšti problem matematičke statistike

Kao naučna disciplina, matematička statistika se razvijala zajedno sa teorijom vjerovatnoće. Matematički aparat ove nauke izgrađen je u drugoj polovini 19. veka.

2. Opća populacija i uzorak.

Za proučavanje statističkih metoda uvode se koncepti opće populacije i populacije uzorka. Općenito, pod opšta populacija se shvata kao slučajna varijabla X sa funkcijom distribucije
. Skup uzoraka ili uzorak volumena n za datu slučajnu varijablu X je skup
nezavisna posmatranja ove veličine, gde naziva se vrijednost uzorka ili implementacija slučajne varijable X. Na ovaj način, mogu se posmatrati kao brojevi (ako je eksperiment izveden i uzet uzorak) i kao slučajne varijable (prije eksperimenta), budući da variraju od uzorka do uzorka.

Primjer 1. Za utvrđivanje zavisnosti debljine stabla od njegove visine odabrano je 200 stabala. U ovom slučaju, veličina uzorka je n=200.

Primjer 2 Kao rezultat piljenja iverice na kružnoj pili, dobijeno je 15 vrijednosti specifičnog rada rezanja. U ovom slučaju, n=15.

D
Da bismo pouzdano sudili o osobini opće populacije koja nas zanima prema podacima uzorka, objekti uzorka moraju to ispravno reprezentirati, odnosno uzorak mora biti predstavnik(predstavnik). Reprezentativnost uzorka obično se postiže slučajnim odabirom objekata: svakom objektu opće populacije obezbjeđena je jednaka vjerovatnoća da bude uključen u uzorak sa svim ostalima.

Fig.3. Demonstracija reprezentativnosti uzorka