Statystyka_notatki_cz1.doc

(83 KB) Pobierz
Statystyka-

Statystyka- .zajmuje się grupami nieznacznie różniącymi się od siebie; zajmuje się zbieraniem, klasyfikacją, opisem oraz interpretacja danych uzyskiwanych w badaniach sondażowych. Jej zasadniczym celem jest opis i wyciąganie wniosków dotyczących właściwości ilościowych populacji.

Populacja- zbiór o którym chcemy coś powiedzieć (różne jednostki mogą być obiektem analizy), obejmuje określone grupy, zespoły ludzi, zespoły zwierząt, przedmiotów, materiałów, pomiarów, (rzeczy lub zdarzenia)

Próba- grupa, która ma reprezentować określoną populację (np. na podstawie sondażu badamy próbę by powiedzieć cos o populacji). Badanie próby daje wynik prawdopodobny, ale nigdy nie pewny w 100%.

Zmienna- właściwość pod względem której elementy grupy lub zbioru różnią się między sobą.

Poziom nominalny- najniższy poziom pomiaru zmiennej – o 2 dowolnych jednostkach statystycznych możemy powiedzieć że albo są takie same, albo się między sobą różnią (A=B, A≠B). Zmienną nominalną są np.: płeć, decyzja o udziale w wyborach, preferencje partyjne etc.

Poziom porządkowy- zachowuje te same własności co nominalny poziom pomiaru zmiennej, ale dodatkowo pozwala na uszeregowanie wartości od najmniejszej do największej (A=B, A≠B, A>B, B<A)

np.: częste pytanie w kwestionariuszu: „w jakim stopniu zgadza się Pan/Pani z następującymi stwierdzeniami:?”, co pozwala uszeregować wyniki

Poziom ilościowy-  możemy powiedzieć, że zmienne się różnią, ocenić i podać o ile.

  Poziom przedziałowy/interwałowy – zachowuje wszystkie własności poziomu nominalnego czy porządkowego a dodatkowo pozwala na wnioskowanie o odległościach czy różnicach pomiędzy badanymi zmiennymi (A=B, A≠B, A>B, B<A, A-B)

np. wiek (czy dochód, bo na te pytania respondenci najczęściej odmawiają dokładnej odpowiedzi) podawany w przedziałach najczęściej: do 20, 21-30, 31-40, 41-50, 51-60, pow. 60.

Jako zmienną przedziałową traktujemy wyniki wszelkiego rodzaju testów, ocen, umownych skal pomiarowych (np. temp. powietrza).

Poziom ilorazowy – najbardziej dokładny poziom pomiaru zmiennej, poziom ten zachowuje właściwości wszystkich pozostałych, dodatkowo jednak pozwala na obliczanie proporcji (A=B, A≠B, A>B, B<A, A-B, A/B).

Cechą charakterystyczną skali ilorazowej jest posiadanie bezwzględnego punktu 0 (np. badanie dochodów, gdzie 0 jest w tym samym miejscu niezależnie od waluty :-).

Rozkładem liczebności(częstości), (szeregiem rozdzielczym) zmiennej nazywamy przyporządkowanie wszystkim wartościom zmiennej lub wszystkim przedziałom klasowym zawierających wartości zmiennej odpowiednich liczebności i procentów.

 

Płeć

Liczebność

Procenty

Kobiety

520

52%

Mężczyźni

480

48%

&

1000

100%

 

 

 

 

 

 

 

Rozkład liczebności skumulowanych-pozwala nam stwierdzić w jakiej liczbie przypadków wyniki są niższe od pewnej określonej wartości.

Przedział klasowy

Liczebność

Liczebność skumulowana

Skumulowany procent liczebności

130-134

125-129

120-124

115-119

110-114

105-109

100-104

95-99

90-94

85-89

80-84

1

3

4

10

8

15

20

14

11

8

6

106

105

102

98

88

80

65

45

31

20

12

100

99

96

92

83

75

61

42

29

18

11

Razem

106

 

 

     Tabela. Liczebności skumulowane i procenty skumulowane dla rozkładu liczebności ilorazów inteligencji (IQ)

W tabeli widzimy, ze w 98 przypadkach wynik wynosi  119 lub mniej, a w 88 przypadkach wynosi 114 itd.

Grupowanie statystyczne- polega na podziale całej zbiorowości statystycznej na mniejsze jej części, czyli jednolite grupy jednostek. Wyodrębnienie tych grup dokonywane jest na podstawie jednoznacznych kryteriów. Tymi kryteriami są warianty cechy statystycznej. Jeżeli cecha statystyczna ma charakter naturalny (np. płeć), wówczas grupowanie statystyczne ma również naturalny charakter (np. podział mieszkańców Warszawy na mężczyzn i kobiety). Niekiedy jednak kryteria podziału zbiorowości grup nie mają charakteru naturalnego, wtedy podmiot prowadzący badanie musi zdecydować, jakie mniejsze zostaną wyodrębnione w ramach badanej zbiorowości. Grupowanie statystyczne pozwala na uporządkowanie materiału statystycznego i zapewnia jego porównywalność. Celem grupowania statystycznego jest wskazanie podobieństwa i różnic występujących w badanej zbiorowości statystycznej oraz sformułowanie obiektywnych wniosków ogólnych. Decydujące znaczenie, przy dokonywaniu grupowania statystycznego, ma cel badania statystycznego.

Średnia arytmetyczna -jest jedną z najbardziej intuicyjnych miar oceny populacji, stosowanych często w codziennym życiu – przykładem może być średnia ocen z matematyki ucznia szkoły podstawowej, który otrzymał następujące noty: 2, 4, 4, 5, 6

[2+4+4+5+6] : 5 = 4,2

Jest to miara klasyczna rozkładu, czyli każda zmiana dowolnego elementu badanego zbioru pociąga za sobą zmianę wartości średniej.

Średnia geometryczna- stosuje się w badaniach średniego tempa zmian zjawisk, a więc gdy zjawiska są ujmowane dynamicznie.



Średnia harmoniczna- stosuje się wtedy, gdy wartości cechy są podane w przeliczeniu na stałą jednostkę  innej zmiennej, czyli w postaci wskaźników natężenia, wagi natomiast w jednostkach liczników tych cech, np. prędkość pojazdu w km/h.

Mediana(wartość środkowa) – wartość cechy mierzalnej, odpowiadająca środkowej jednostce zbiorowości szeregu uporządkowanego wg. kolejnych wartości mierzalnej szeregu.(dzieli ona szereg na 2 równe czesci)

 

Dominanta -(wartość modalna, moda, wartość najczęstsza) to jedna z miar tendencji centralnej, statystyka dla zmiennych o rozkładzie dyskretnym, wskazująca na wartość o największym prawdopodobieństwie wystąpienia, lub wartość najczęściej występująca w próbie. Dla zmiennej losowej o rozkładzie ciągłym jest to wartość, dla której funkcja gęstości prawdopodobieństwa ma wartość największą.

np.Dana jest zmienna losowa, która przyjmuje pięć wartości z pewnymi prawdopodobieństwami:







wartość              prawdopodobieństwo

1                           0,2

2                           0,3

3                           0,1

4                           0,11



5                           0,29

Moda dla tego rozkładu wynosi 2, ponieważ jest tam największe prawdopodobieństwo.

Kwantyle - definiuje się jako wartości cechy badanej zbiorowości, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek, części te pozostają do siebie w określonych proporcjach.

Kwartyl pierwszy Q1-dzieli zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q1, a 75% równe bądź wyższe od tego kwartyla

Kwartyl drugi (mediana Me) dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me; stąd nazwa wartość środkowa

Kwartyl trzeci Q3-dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q3, a 25% równe bądź wyższe od tego kwartyla

Decyle              np. decyl pierwszy oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe od decyla pierwszego, a 90% jednostek wartości cechy równe lub większe od decyla pierwszego

Średnia arytmetyczna (ważona) – otrzymuje się dodając do siebie wszystkie N pomiarów w zbiorze i dzieląc otrzymana sumę  przez N.

Rozstęp- jest najprostszą miarą zmienności. W każdym zbiorze pomiarów w próbie rozstęp jest rozumiany jako różnica między największym i najmniejszym pomiarem.

np. mamy dwie próby

Próba A   10   12   15   18   20

Próba B    2     8    15    22   28

W zbiorze pomiarów 10, 12, 15, 18 i 20 rozstęp wynosi 20-10=10 a w zbiorze pomiarów 2, 8, 15, 22, 28 rozstep wynosi 28-2=26. Pomiary w drugim zbiorze wyraźnie wykazują większa zmienność niż pomiary w pierwszym, co wyraża się znacznie większym rozstepem. Rozstęp ma dwie wady: w przypadku dużych prób jest on niestabilną miarą opisową, rozstepy obliczane dla prób złożonych z różnej liczby przypadków nie są bezpośrednio porównywalne. Rozstępem można się posługiwać przy stosowaniu testów istotności w przypadku małych prób.

Wartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o zróżnicowaniu pozostałych wartości cechy wszystkich jednostek należących do zbiorowości, tym bardziej, że w wielu sytuacjach wartości krańcowe mogą być przypadkowe. Jest to niewątpliwie słabością tej miary dyspersji. Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest rozstęp międzykwartylowy (kwartylny, ćwiartkowy) lub inaczej obszar zmienności 50% środkowych wartości szeregu.

Rozkład normalny- zwany tez rozkładem Gaussa, przykładowe zmienne losowe o rozkładzie normalnym to: wzrost, waga osobników jednorodnych populacji ludzkich lub zwierzęcych, wydajność pracy robotników wykonujacych te same czynności, losowe błędy pomiarów. Rozkład ten występuje gdy na dane zjawisko oddziałuje duża liczba niezależnych czynników, których wpływ, traktowany oddzielnie jest niewielki. Znaczenie rozkładu normalnego wynika również z tego że jest granicznym rozkładem prawdopodobieństwa, tzn. Wiele innych rozkładów, w miarę jak liczebność próby wzrasta, zmierza do rozkładu normalnego. Do rozkładów takich należą rozkład dwumianowy, rozkład t i rozkład chi-kwadrat.



 

                             Rozkład normalny standaryzowany(w którym wartośc przeciętna wynosi

                                 0, a odchylenie standardowe 1) – funkcja gęstości

                                prawdopodobieństwa w rozkładzie normalnym standaryzowanym

Wykres funkcji gęstosci f (x) ma charakterystyczny kształt dzwonu i nazywa sie krzywą normalną.

Miary asymetrii (skośności)- asymetrie rozkładu można ocenić rozpatrując relacje miedzy podstawowymi miarami przeciętnymi- dominantą, mediana i srednią arytmetyczną. Relacje te sa następujące:

-        dla rozkładu symetrycznego(normalnego) :średnia arytmetyczna= Me=D



-        dla rozkładu prawostronnie asymetrycznego: śr. arytmetyczna>Me>D



 

 

-dla rozkładu lewostronnie asymetrycznego: śr. arytmetyczna<Me<D

Wariancja

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Zgłoś jeśli naruszono regulamin