Metodami gromadzenia, analizy i interpretacji danych statystycznych uzyskanych podczas badania statystycznego zajmuje się to dział statystyki zwany statystyką opisową. Celem stosowania metod statystyki opisowej jest wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru danych bez posługiwania się rachunkiem prawdopodobieństwa.
Zbiorowość statystyczna to zbiór dowolnych elementów objętych badaniem statystycznym. Wyodrębniona część zbiorowości poddana obserwacjom nosi nazwę próby statystycznej. Funkcję, która każdej obserwacji przyporządkowuje wartość badanej cechy nazywamy zmienną statystyczną, w skrócie zmienną.
Zmienne statystyczne można podzielić na:
ilościowe czyli mierzalne (przedstawiane liczbowo) w tym:
- skokowe inaczej dyskretne (przyjmują skończoną lub co najwyżej
przeliczalną liczbę wartości, najczęściej są liczbami całkowitymi),
- ciągłe (przyjmują wartości rzeczywiste),
jakościowe czyli niemierzalne (przedstawiane za pomocą opisu).
Wartości zmiennych statystycznych można mierzyć na różnych skalach pomiarowych.
Skale pomiarowe klasyfikuje się według sposobu w jaki można zestawiać wyniki dwóch pomiarów:
- skala nominalna – wartości na tej skali nie mają oczywistego uporządkowania
(np. płeć). Jedyną dozwoloną relacją porównującą dwie wartości na skali nominalnej
jest równość.
- skala porządkowa - wartości mają jasno określony porządek (np. wykształcenie).
Oprócz równości możliwe są relacje porządku.
- skala interwałowa (przedziałowa) – różnice pomiędzy wartościami mają sensowną
interpretację, ale ich iloraz nie.
- skala ilorazowa (stosunkowa) – nie tylko różnice, ale także ilorazy wielkości mają
interpretację. Przykładem jest masa (coś może być dwa razy cięższe). Wielkości na
skali ilorazowej można dodawać odejmować i dzielić przez siebie.
Statystykę opisową stosuje się zazwyczaj jako pierwszy i podstawowy krok w analizie zebranych danych.
Przed przystąpieniem do analiz statystycznych należy w odpowiedni sposób uporządkować zgromadzone dane. Dwa podstawowe sposoby uporządkowania lub pogrupowania danych to utworzenie szeregu statystycznego (stosowanego przy analizie jednej zmiennej) lub tablicy kontyngencyjnej (krzyżowej, korelacyjnej, wielodzielczej) wykorzystywana przy analizie dwóch zmiennych.
Szereg statystyczny jest to ciąg danych statystycznych uporządkowany według pewnych zasad. Wyróżniamy trzy podstawowe rodzaje szeregów statystycznych:
- szereg szczegółowy (wyliczający),
- szereg rozdzielczy punktowy,
- szereg rozdzielczy przedziałowy.
Szeregi statystyczne szczegółowe dzielimy na :
- szeregi statyczne, w których zbiór wartości (obserwacji) x1, x2, …, xn badanej
zmiennej X odnosi się do tego samego momentu czasu ( np. zestawienie
pensji pracowników w konkretnym miesiącu),
- szeregi dynamiczne zwane także szeregami czasowymi, w których wartości
badanej zmiennej przypisane są do następujących po sobie kolejnych jednostek lub momentów czasu (np. zestawienie pensji wybranego pracownika w kolejnych miesiącach).
W celu stwierdzenia istnienia lub braku związku pomiędzy dwoma zmiennymi X i Y konstruujemy tablicę kontyngencyjną. Na skrzyżowaniu kolumn z wierszami wpisywane są liczebności jednostek zbiorowości statystycznej, u których zaobserwowano jednoczesne występowanie określonej wartości xi i yj poszczególnych zmiennych X i Y.
1.1. Wprowadzanie danych do arkusza Excel
Często zebrane dane kopiujemy z różnych innych plików (np. ze stron WWW) i po wklejeniu do arkusza kalkulacyjnego musimy poradzić sobie z problemem ich rozdzielenia do poszczególnych komórek, poza tym wygodniej jest, kiedy dane ułożone są w kolumnach a nie w wierszach.
Poniższy przykład pokazuje, jak radzić sobie z podobnymi problemami.
W przypadku wersji Excel 2007 zapisywany będzie numer (Excel 2007), dla wersji Excel 2003 i niższych zapisywana będzie jedynie nazwa Excel.
3 7 5 5 4 3 3 2 6 5 6 7 5 4 5 6 4 5 7 6 6 4 3 6 7
Uzyskany efekt powinien przypominać poniższy rysunek.
Rys.1. Wartości zmiennej zapisane w jednej komórce arkusza Excel
Rozdzielenie danych do poszczególnych komórek
Dane wpisane do pojedynczej komórki arkusza kalkulacyjnego, ale rozdzielone za pomocą identycznych znaków, można w szybki sposób rozdzielić do osobnych komórek wybierając opcję Tekst jako kolumny w menu Dane.
Rys 2. Postać paska po wybraniu opcji Dane (Excel 2007)
Rys.3. Postać paska po wybraniu opcji Dane (Excel )
Pokaże się wtedy tabela kreatora konwersji w postaci:
Rys. 4. Okno kreatora konwersji tekstu - krok 1
W oknie kreatora tekstu należy upewnić się, że zaznaczona została opcja najlepiej opisująca dane źródłowe (tzn. czy tekst ma być rozdzielony według szerokości danych czy też zgodnie ze znakiem je rozdzielającym), oraz wybrać odpowiedni separator danych (w przypadku jego braku w domyślnych separatorach, można go wpisać zaznaczając opcję inne).
Po wybraniu Dalej > otrzymujemy :
Rys. 5. Okno kreatora konwersji tekstu - krok 2
W oknie kreatora tekstu należy (krok 2) wybrać odpowiedni separator danych (w przypadku jego braku w domyślnych separatorach, można go wpisać zaznaczając opcję inne).
Rys. 6. Okno kreatora konwersji tekstu - krok 3
Wynik konwersji otrzymujemy w postaci:
Rys. 7. Postać końcowa rozdzielenia zmiennych
Kopiowanie wartości z wiersza do kolumny
Zmianę rozmieszczenia danych z wiersza do kolumny lub odwrotnie (czyli transpozycję), można wykonać korzystając z opcji Transpozycja (Excel 2007). Wcześniej należy skopiować odpowiednie dane, a następnie zaznaczyć kursorem w pierwszą komórkę zakresu, w którym znajdą się dane po transpozycji i wybrać opcję Wklej Transpozycja.
Rys. 8. Okno wklej specjalnie w arkuszu Excel 2007
W wersji Excel należy skopiować odpowiednie dane, a następnie zaznaczyć kursorem w pierwszą komórkę zakresu, w którym znajdą się dane po transpozycji i wybrać opcję Edycja Wklej specjalnie Transponuj.
Rys. 9. Okno polecenia Wklej specjalnie w arkuszu Excel
Kodowanie
W przypadku analizy zmiennych jakościowych często stosujemy kodowanie. Sposób kodowania przedstawiono w poniższym przykładzie.
Przykład 2. Dane zmiennej X- płeć badanej osoby zamieszczono w arkuszu
Rys. 10. Dane do przykładu 2
Ustalamy kody:
0 - mężczyzna ,
1 - kobieta.
W drugim wierszu umieścimy kody poszczególnych wartości zmiennej X - płeć w przypadku nieznalezionej wartości zapisany zostanie komentarz błąd. W tym celu wybieramy funkcję logiczną JEŻELI.
Rys. 11. Okienko Wstawianie funkcji
Następnie wpisujemy argumenty funkcji
=JEŻELI(A1="kobieta";1;JEŻELI(A1="mężczyzna";0;"błąd"))
Wynik działania funkcji przedstawiono poniżej
Rys. 12. Wynik kodowania
1.2. Tworzenie szeregów statystycznych
Szereg szczegółowy to uporządkowany ciąg wartości badanej zmiennej X. Jeśli zmienna X przyjmuje wartości: x1,x2,…,xn to w szeregu statycznym wartości cechy porządkujemy rosnąco lub malejąco, w szeregu dynamicznym wartości x1,x2,…,xn porządkujemy w kolejności następujących po sobie momentów czasu.
Sortowanie danych
Sortowanie wartości w pojedynczej kolumnie arkusza kalkulacyjnego najszybciej wykonuje się zaznaczając zakres komórek, w którym znajdują się dane oraz wybierając odpowiedni przycisk na pasku narzędzi.
Excel Excel 2007
Rys.13. Pasek polecenia Sortuj w arkuszach Excel i Excel 2007
Szereg rozdzielczy - stanowi zbiorowość statystyczną, podzieloną na części (klasy) według określonej zmiennej jakościowej lub ilościowej z podaniem liczebności lub częstości każdej z wyodrębnionych klas.
Szereg rozdzielczy punktowy konstruujemy dla cech typu skokowego (dyskretnego).
Kolejne kroki podczas tworzenia szeregu rozdzielczego punktowego:
- porządkujemy (jeśli to możliwe rosnąco) wartości zmiennej,
- zliczamy liczbę wystąpień takich samych wartości zmiennej,
- prezentujemy wynik w formie tabeli.
Tworzenie szeregu rozdzielczego punktowego zaprezentujemy na poniższym przykładzie.
Rys. 14. Dane do przykładu 3 zapisane w arkuszu
Dla powyższych danych utworzymy szereg rozdzielczy punktowy używając funkcji statystycznej LICZ.JEŻELI. W przykładzie w komórce F3 wywołujemy funkcję statystyczną LICZ.JEŻELI i wprowadzamy argumenty
jako pierwszy - wszystkie wartości szeregu $B$3 : $B$12,
jako drugi - wartość dla której ma być wykonane zliczanie - E3).
Po akceptacji klawiszem Enter, formułę LICZ.JEŻELI przekopiowujemy do pozostałych komórek (w przykładzie od F3 do F7).
Rys.15. Szereg rozdzielczy punktowy
W szeregu rozdzielczym punktowym, można także zamieścić, jeśli ma to sens, dodatkowo liczebności skumulowane oraz częstości skumulowane. Liczebność skumulowaną nicum wyznacza się ze wzoru:
(1.1)
Wartość nicum informuje ile jednostek badanej cechy ma wartość nie większą niż xi.
Wartość częstości skumulowanej wicum wyznacza się ze wzoru:
(1.2)
...
Asfoora