Statystyka- .zajmuje się grupami nieznacznie różniącymi się od siebie; zajmuje się zbieraniem, klasyfikacją, opisem oraz interpretacja danych uzyskiwanych w badaniach sondażowych. Jej zasadniczym celem jest opis i wyciąganie wniosków dotyczących właściwości ilościowych populacji.
Populacja- zbiór o którym chcemy coś powiedzieć (różne jednostki mogą być obiektem analizy), obejmuje określone grupy, zespoły ludzi, zespoły zwierząt, przedmiotów, materiałów, pomiarów, (rzeczy lub zdarzenia)
Próba- grupa, która ma reprezentować określoną populację (np. na podstawie sondażu badamy próbę by powiedzieć cos o populacji). Badanie próby daje wynik prawdopodobny, ale nigdy nie pewny w 100%.
Zmienna- właściwość pod względem której elementy grupy lub zbioru różnią się między sobą.
Poziom nominalny- najniższy poziom pomiaru zmiennej – o 2 dowolnych jednostkach statystycznych możemy powiedzieć że albo są takie same, albo się między sobą różnią (A=B, A≠B). Zmienną nominalną są np.: płeć, decyzja o udziale w wyborach, preferencje partyjne etc.
Poziom porządkowy- zachowuje te same własności co nominalny poziom pomiaru zmiennej, ale dodatkowo pozwala na uszeregowanie wartości od najmniejszej do największej (A=B, A≠B, A>B, B<A)
np.: częste pytanie w kwestionariuszu: „w jakim stopniu zgadza się Pan/Pani z następującymi stwierdzeniami:?”, co pozwala uszeregować wyniki
Poziom ilościowy- możemy powiedzieć, że zmienne się różnią, ocenić i podać o ile.
Poziom przedziałowy/interwałowy – zachowuje wszystkie własności poziomu nominalnego czy porządkowego a dodatkowo pozwala na wnioskowanie o odległościach czy różnicach pomiędzy badanymi zmiennymi (A=B, A≠B, A>B, B<A, A-B)
np. wiek (czy dochód, bo na te pytania respondenci najczęściej odmawiają dokładnej odpowiedzi) podawany w przedziałach najczęściej: do 20, 21-30, 31-40, 41-50, 51-60, pow. 60.
Jako zmienną przedziałową traktujemy wyniki wszelkiego rodzaju testów, ocen, umownych skal pomiarowych (np. temp. powietrza).
Poziom ilorazowy – najbardziej dokładny poziom pomiaru zmiennej, poziom ten zachowuje właściwości wszystkich pozostałych, dodatkowo jednak pozwala na obliczanie proporcji (A=B, A≠B, A>B, B<A, A-B, A/B).
Cechą charakterystyczną skali ilorazowej jest posiadanie bezwzględnego punktu 0 (np. badanie dochodów, gdzie 0 jest w tym samym miejscu niezależnie od waluty :-).
Rozkładem liczebności(częstości), (szeregiem rozdzielczym) zmiennej nazywamy przyporządkowanie wszystkim wartościom zmiennej lub wszystkim przedziałom klasowym zawierających wartości zmiennej odpowiednich liczebności i procentów.
Płeć
Liczebność
Procenty
Kobiety
520
52%
Mężczyźni
480
48%
&
1000
100%
Rozkład liczebności skumulowanych-pozwala nam stwierdzić w jakiej liczbie przypadków wyniki są niższe od pewnej określonej wartości.
Przedział klasowy
Liczebność skumulowana
Skumulowany procent liczebności
130-134
125-129
120-124
115-119
110-114
105-109
100-104
95-99
90-94
85-89
80-84
1
3
4
10
8
15
20
14
11
6
106
105
102
98
88
80
65
45
31
12
100
99
96
92
83
75
61
42
29
18
Razem
Tabela. Liczebności skumulowane i procenty skumulowane dla rozkładu liczebności ilorazów inteligencji (IQ)
W tabeli widzimy, ze w 98 przypadkach wynik wynosi 119 lub mniej, a w 88 przypadkach wynosi 114 itd.
Grupowanie statystyczne- polega na podziale całej zbiorowości statystycznej na mniejsze jej części, czyli jednolite grupy jednostek. Wyodrębnienie tych grup dokonywane jest na podstawie jednoznacznych kryteriów. Tymi kryteriami są warianty cechy statystycznej. Jeżeli cecha statystyczna ma charakter naturalny (np. płeć), wówczas grupowanie statystyczne ma również naturalny charakter (np. podział mieszkańców Warszawy na mężczyzn i kobiety). Niekiedy jednak kryteria podziału zbiorowości grup nie mają charakteru naturalnego, wtedy podmiot prowadzący badanie musi zdecydować, jakie mniejsze zostaną wyodrębnione w ramach badanej zbiorowości. Grupowanie statystyczne pozwala na uporządkowanie materiału statystycznego i zapewnia jego porównywalność. Celem grupowania statystycznego jest wskazanie podobieństwa i różnic występujących w badanej zbiorowości statystycznej oraz sformułowanie obiektywnych wniosków ogólnych. Decydujące znaczenie, przy dokonywaniu grupowania statystycznego, ma cel badania statystycznego.
Średnia arytmetyczna -jest jedną z najbardziej intuicyjnych miar oceny populacji, stosowanych często w codziennym życiu – przykładem może być średnia ocen z matematyki ucznia szkoły podstawowej, który otrzymał następujące noty: 2, 4, 4, 5, 6
[2+4+4+5+6] : 5 = 4,2
Jest to miara klasyczna rozkładu, czyli każda zmiana dowolnego elementu badanego zbioru pociąga za sobą zmianę wartości średniej.
Średnia geometryczna- stosuje się w badaniach średniego tempa zmian zjawisk, a więc gdy zjawiska są ujmowane dynamicznie.
Średnia harmoniczna- stosuje się wtedy, gdy wartości cechy są podane w przeliczeniu na stałą jednostkę innej zmiennej, czyli w postaci wskaźników natężenia, wagi natomiast w jednostkach liczników tych cech, np. prędkość pojazdu w km/h.
Mediana(wartość środkowa) – wartość cechy mierzalnej, odpowiadająca środkowej jednostce zbiorowości szeregu uporządkowanego wg. kolejnych wartości mierzalnej szeregu.(dzieli ona szereg na 2 równe czesci)
Dominanta -(wartość modalna, moda, wartość najczęstsza) to jedna z miar tendencji centralnej, statystyka dla zmiennych o rozkładzie dyskretnym, wskazująca na wartość o największym prawdopodobieństwie wystąpienia, lub wartość najczęściej występująca w próbie. Dla zmiennej losowej o rozkładzie ciągłym jest to wartość, dla której funkcja gęstości prawdopodobieństwa ma wartość największą.
np.Dana jest zmienna losowa, która przyjmuje pięć wartości z pewnymi prawdopodobieństwami:
wartość prawdopodobieństwo
1 0,2
2 0,3
3 0,1
4 0,11
5 0,29
Moda dla tego rozkładu wynosi 2, ponieważ jest tam największe prawdopodobieństwo.
Kwantyle - definiuje się jako wartości cechy badanej zbiorowości, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek, części te pozostają do siebie w określonych proporcjach.
Kwartyl pierwszy Q1-dzieli zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q1, a 75% równe bądź wyższe od tego kwartyla
Kwartyl drugi (mediana Me) dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me; stąd nazwa wartość środkowa
Kwartyl trzeci Q3-dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q3, a 25% równe bądź wyższe od tego kwartyla
Decyle np. decyl pierwszy oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe od decyla pierwszego, a 90% jednostek wartości cechy równe lub większe od decyla pierwszego
Średnia arytmetyczna (ważona) – otrzymuje się dodając do siebie wszystkie N pomiarów w zbiorze i dzieląc otrzymana sumę przez N.
Rozstęp- jest najprostszą miarą zmienności. W każdym zbiorze pomiarów w próbie rozstęp jest rozumiany jako różnica między największym i najmniejszym pomiarem.
np. mamy dwie próby
Próba A 10 12 15 18 20
Próba B 2 8 15 22 28
W zbiorze pomiarów 10, 12, 15, 18 i 20 rozstęp wynosi 20-10=10 a w zbiorze pomiarów 2, 8, 15, 22, 28 rozstep wynosi 28-2=26. Pomiary w drugim zbiorze wyraźnie wykazują większa zmienność niż pomiary w pierwszym, co wyraża się znacznie większym rozstepem. Rozstęp ma dwie wady: w przypadku dużych prób jest on niestabilną miarą opisową, rozstepy obliczane dla prób złożonych z różnej liczby przypadków nie są bezpośrednio porównywalne. Rozstępem można się posługiwać przy stosowaniu testów istotności w przypadku małych prób.
Wartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o zróżnicowaniu pozostałych wartości cechy wszystkich jednostek należących do zbiorowości, tym bardziej, że w wielu sytuacjach wartości krańcowe mogą być przypadkowe. Jest to niewątpliwie słabością tej miary dyspersji. Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest rozstęp międzykwartylowy (kwartylny, ćwiartkowy) lub inaczej obszar zmienności 50% środkowych wartości szeregu.
Rozkład normalny- zwany tez rozkładem Gaussa, przykładowe zmienne losowe o rozkładzie normalnym to: wzrost, waga osobników jednorodnych populacji ludzkich lub zwierzęcych, wydajność pracy robotników wykonujacych te same czynności, losowe błędy pomiarów. Rozkład ten występuje gdy na dane zjawisko oddziałuje duża liczba niezależnych czynników, których wpływ, traktowany oddzielnie jest niewielki. Znaczenie rozkładu normalnego wynika również z tego że jest granicznym rozkładem prawdopodobieństwa, tzn. Wiele innych rozkładów, w miarę jak liczebność próby wzrasta, zmierza do rozkładu normalnego. Do rozkładów takich należą rozkład dwumianowy, rozkład t i rozkład chi-kwadrat.
Rozkład normalny standaryzowany(w którym wartośc przeciętna wynosi
0, a odchylenie standardowe 1) – funkcja gęstości
prawdopodobieństwa w rozkładzie normalnym standaryzowanym
Wykres funkcji gęstosci f (x) ma charakterystyczny kształt dzwonu i nazywa sie krzywą normalną.
Miary asymetrii (skośności)- asymetrie rozkładu można ocenić rozpatrując relacje miedzy podstawowymi miarami przeciętnymi- dominantą, mediana i srednią arytmetyczną. Relacje te sa następujące:
- dla rozkładu symetrycznego(normalnego) :średnia arytmetyczna= Me=D
- dla rozkładu prawostronnie asymetrycznego: śr. arytmetyczna>Me>D
-dla rozkładu lewostronnie asymetrycznego: śr. arytmetyczna<Me<D
Wariancja
LordManganus