Podstawowe pojęcia i metody statystyki.
Statystyka - jest to nauka zajmująca się metodami badania przedmiotów i zjawisk w ich
masowych przejawach oraz analizą ilościową lub jakościową z punktu widzenia tej nauki, do którego zakresu te przedmioty i zjawiska należą.
Statystyka to metoda wydobywania informacji z danych i logika podejmowania decyzji w warunkach niepewności.
Pierwsza część tej definicji wskazuje na przedmiot statystyki opisowej, zaś druga część wskazuje na przedmiot statystyki matematycznej ( empirycznej ).
Pomiar, skale pomiarowe i rodzaje zmiennych.
Pomiar to przyporządkowanie obiektom badanym ( rzeczy, zdarzenia ) symboli ( słowa, cyfry, znaki ) w taki sposób, by relacjom między obiektami odpowiadały relacje między symbolami. Sposób przyporządkowania musi podlegać empirycznej weryfikacji.
System symboli zastosowanych w pomiarze nazywamy skalą pomiarową. Wyodrębnimy cztery hierarchicznie ułożone skale od najsłabszej do najmocniejszej pod względem dopuszczalnych działań.
Skala
Właściwość
Możliwe działania
Nominalna
Identyfikacja badanej jednostki ze względu na posiadanie lub nie posiadanie określonych wariantów ( typów ) cech
Porządkowa
Jak wyżej + porządkowanie, przypisywanie badanej jednostce określonego wariantu cechy zgodnie z intensywnością posiadania danej cechy; intensywność nie jest dokładnie zmierzona
Randowanie ( zamiana wyników ze skal wyższych na wyniki porządkowe )
Przedziałowa
(interwałowa)
Jak wyżej + jednostka miary do ustalania różnic między poszczególnymi wariantami cechy, odstępy na skali takie same; początek skali stanowi tzw. zero względne
Dodawanie, odejmowanie
Ilorazowa
(stosunkowa)
Jak wyżej + naturalna jednostka miary z zerem absolutnym, do ustalania stosunku pomiaru dwóch jednostek
Wszystkie
Własności
Przykład1
Przykład2
Klasy jakościowe
Deklaracja zainteresowań
Podział na kobiety i nie kobiety
j.w.+ hierarchia klas
Skala stopni szkolnych
Przemysłowe klasy jakości
j.w. + jednostka pomiaru
Skale znormalizowane
Lata kalendarzowe
j.w. + zero bezwzględne
Wyniki testów szybkości
Długość odcinka
Na podstawie skal możemy zdefiniować trzy rodzaje zmiennych, których wartości ustalamy na drodze pomiaru:
1) jakościowe
2) porządkowe
3) ilościowe
Mając zmienną jakościową pomiaru dokonujemy na skali nominalnej, bądź dokonujemy normalizacji danych z wyższych skal, np.: zamiast liczby punktów na kolokwium wprowadzamy kategorie: zaliczył, nie zaliczył.
Mając zmienną porządkową pomiaru dokonujemy na skali porządkowej, bądź gdy dane pochodzą z wyższych skal poddajemy randowaniu, np.: zamiana liczby punktów w teście na oceny.
Mając zmienną ilościową pomiaru dokonujemy na skali interwałowej lub stosunkowej. Zmienne ilościowe możemy podzielić na dyskretne ( np.: dzietność rodziny studenta – bez ułamków ), bądź ciągłe ( np.: wzrost studentów ).
W statystyce opisowej poddajemy analizie strukturę zbiorowości, analizujemy współzależność zjawisk oraz ich dynamikę. Aby przejść od danych do informacji stosujemy miary statystyczne. Ich definicje zależą od rodzaju zmiennych, których dotyczą.
Ograniczając się do analizy struktury zjawisk, a w niej do miar:
1) tendencji centralnej
2) dyspersji
3) asymetrii
możemy wyodrębnić kilkanaście wskaźników zależnie od typu skali pomiarowej:
Miara tendencji centralnej
Miara dyspersji
Miara asymetrii
Dominanta ( modalna )
Dyspersja względna klasyfikacji
j.w. + mediana, kwartyle
j.w. + rozstęp, MAD, odchylenie kwartylowe,
Współczynnik YULE’A
( interwałowa )
j.w. + średnie: arytmety-czna, harmoniczna, chronologiczna
j.w. + wariancja, odchylenie: standardowe, medialne, przeciętne, ćwiartkowe
j.w. + współczynniki asymetrii klasyczne i pozycyjne
( stosunkowa )
j.w. + średnia geometryczna
j.w. + współczynniki zmienności klasyczne i pozycyjne
j.w.
MAD – dyspersja absolutna na medianie
Pytania kontrolne:
1. Uniwersalną miarą tendencji centralnej jest:
2. Jeśli wprowadzą do skali porządkowej zero względne to uzyskam skalę interwałową? Odp. NIE
Analiza pozycyjna struktur zbiorowości.
Analiza zmiennych ilościowych w dużych zbiorowościach ( n > 30 ) dotyczy tzw. szeregów przedziałowych, które powstały w wyniku grupowania wariancyjnego.
Dane przedstawione są tu w postaci klas zwykle o tej samej długości. Miary pozycyjne w tych szeregach to dominanta ( modalna ) oraz mediana, które określają tendencje centralną, czyli taki punkt na skali pomiarowej względem którego skupiają się wartości zmiennych.
Jeśli stosujemy zapis taki, iż górna granica danego przedziału pokrywa się z dolną następnego, to przyjmujemy, iż klasa jest lewostronnie domknięta, a prawostronnie otwarta poza ostatnią klasą, która jest obustronnie domknięta.
Długość klasy ( c ) to różnica między górną i dolną granicą przedziału.
Klasą modalną nazwiemy taką klasę, której odpowiada największa liczebność ( odsetek ).
Oszacowanie modalnej graficznie polega na wyznaczeniu przecięcia się dwóch odcinków łączących wierzchołki trzech kolejnych klas.
liczba oszczędzających
Dx
oszczędności
x0 Mo
Szacowanie modalnej jest tylko możliwe dla histogramów jednowypiętrzonych i posiadających dwie niepuste klasy wokół modalnej. Modalną można określić wzorem:
gdzie nd – liczebność w klasie dominanty
nd-1 – liczebność w klasie poprzedzającej modalną
nd+1 – liczebność w klasie następnej po modalnej
1
Analiza kwartylowa.
Dane ilościowe możemy podzielić na cztery grupy równoliczne, wprowadzając na skali pomiarowe trzy punkty zwane kwartylami: dolnym (Q1), środkowym (Q2 – mediana ) i górnym ( Q3 ) i obliczane według wzorów:
gdzie: x0 – dolna granica przedziału
nC –1 – liczebność skumulowana klas poprzedzających kwartyl
ci – szerokość przedziału
ni – liczba jednostek statystycznych, będących w danym przedziale
...
sienioszpenio