1. Co to jest baza danych?
Baza danych jest zbiorem logicznie uporządkowanych danych oraz ich opisów. Stałym elementem baz danych jest katalog systemu w którym znajdują się opisy struktur danych. W poprawnie zaprojektowanym systemie baz danych możliwe jest modyfikowanie struktury danych bez naruszenia zawartości danych.
2. Omów poznane metody wprowadzania danych do baz.
1. skanowanie – proces konwersji danych do formatu stosowanego w tworzonej bazie danych [np. z nośnika papierowego do postaci elektronicznej]. Należy wyróżnić 2 przypadki:
· seryjne skanowanie dokumentów o zunifikowanej strukturze [np. dane z biletów lotniczych]
· skanowanie dokumentów o niejednorodnym formacie.
2. wprowadzanie danych do formularzy
3. konwersie danych elektronicznych
4. dane generowane przez aplikacje
3. Omów pułapki: luka, wachlarz.
pułapka typu wachlarz - sytuacja, w której model odzwierciedla związek pomiędzy pewnymi typami encji, ale droga pomiędzy niektórymi elementami obu typów encji jest nieokreślona.
pułapka typu luka - sytuacja, w której brakuje powiązań pomiędzy niektórymi elementami obu typów encji.
4. Co to są postacie normalne relacji?
Postać relacji w bazie danych, w której nie występuje redundancja. Doprowadzeniu relacji do takiej postaci służy normalizacja bazy danych.
5. Omów zasady poprawnego organizowania obiegu informacji.
6. Omów tok postępowania przy wprowadzaniu danych z dokumentów skanowanych.
proces OCR jest zawsze obciążony błędem w związku z tym trzeba się liczyć, z błędnie odczytanymi znakami ok. 3% OCR korzystają ze słowników dla podniesienia poprawności odczytu.
indeksowanie jest procesem opatrzenia dokumentu lub dodania do jego zawartości unikalnego znaku, jest to klucz do relacji zawierających dane dokumenty
* - mapy bitowe np. TIFF
- - SQL indices – przez udostępnianie klucza do dokumentu
przygotowanie
1. przygotowanie dokumentu – określanie typu dokumentów oraz pola indeksowania
2. przygotowanie dokumentów – przygotowanie fizyczne
3. określanie stref które będą poddawane analizie OCR
skanowanie
1. wczytywanie danych
2. powtórne skanowanie
3. analiza zawartości odczytanych danych
przetwarzanie obrazów – image processing
1. korekta kątowego usytuowania skanowanego obrazu
2. rozpoznawanie kodów paskowych – kody paskowe są standardowym sposobem oznaczania typów dokumentów przewidzianych do masowego (seryjnego) skanowania. Rozpoznanie kodu paskowego decyduje o sposobie przetwarzania skanowanego dokumentu. [ Dokumenty mogą składać się z wielu obrazów skanowanych. Analiza zawartości dokumentu może więc wymagać połączenia wielu obrazów składowych w dokument wynikowy. Przykładem może być skanowanie dokumentów wielostronicowych ]
3. rozpoznawanie znaków OCR – odczyt zawartości dokumentu.
7. Omów poznane typy zależności funkcjonalnych.
8. Porównaj systemy baz danych z dedykowanymi systemami gromadzenia danych.
kryterium
Dedykowana struktura plików
Baza danych
dostęp do danych
izolowany
współdzielony
redundancja
występuje
jest eliminowana
struktura danych
zdefiniowana w aplikacji
niezależna od aplikacji, możliwość jej zmiany bez naruszenia danych
zbiór zapytań
zamknięty i zdefiniowany dla danej aplikacji
zewnętrzny, ogólny zbiór (język) zapytań
przechowywanie danych
w strukturach aplikacji
niezależnie od aplikacji
złożoność sytemu
niska
duża
powiązania miedzy danymi
brak
występują
inne cechy
+ możliwość optymalizacji szybkości działania i objętości
+ możliwość budowy systemów działających w czasie rzeczywistym
+ spójność danych+ integralność danych + wbudowany system odzyskiwania danych- koszt konwersji danych
9. Struktura systemu zarządzania bazą danych.
Podstawowe elementy systemu zarządzania bazą danych:
- procesor zapytań
- program zarządzający bazą danych
- program zarządzający plikami
- program procesor języka DML
- kompilator języka DDL
- program zarządzający katalogiem systemu
Elementy programu zarządzającego bazą danych:
- system kontroli dostępu
- system kontroli poprawności poleceń
- optymalizator zapytań
- program zarządzający transakcjami
- system do harmonogramowania zadań
- system usprawniający odtwarzanie systemu z przed awarii
10. Pojęcia: relacja, encja, atrybut, krotka, tabela, wiersz, kolumna, rekord, pole.
relacja – zbiór krotek, który może być reprezentowany w postaci tabeli.
encja – obiekt – to obiekt dający się zidentyfikować na podstawie swoich atrybutów. [np. studenci, pracownicy].
atrybut – kolumna(element tabeli) – cechy encji które dają się wyrażać przez przydanie im pewnych wartości [np. imię, nazwisko].
krotka – rekord – wiersz(element tabeli) – to ciąg (skończony), którego kolejnymi elementami są dane o określonych typach [np. 345, „Jan”, „Kowalski”, 19790702].
tabela - jest wydzielonym logicznie zbiorem danych, zorganizowanych w formie tabeli. Pojedyncza tabela jest reprezentacją encji, relacji między encjami, lub stanowi zawartość całej bazy danych.
pole – wartość atrybutu, którego dziedzina jest zbiór dopuszczalnych wartości.
11. Logiczny i fizyczny model bazy danych.
Model logiczny określa sposób rozmieszczenia danych, charakter powiązań między nimi, ogólnie sposób zachowywania sie systemu.
Model fizyczny to propozycja konkretnej realizacji (implementacji) modelu logicznego.
12. Omów rodzaje użytkowników baz danych.
administrator bazy danych - projektuje strukturę baz danych, przydziela uprawnienia użytkownikom, określa perspektywy użytkownika, tworzy kopie bezpieczeństwa danych, w niektórych systemach wyróżnia się administratora danych oraz administratora bazy danych.
programiści aplikacji - użytkownicy budujący procedury (w języku DML) pozwalające na pozyskiwanie informacji z danych.
użytkownicy naiwni - wszyscy użytkownicy którzy dostęp do danych i informacji uzyskują za pośrednictwem mechanizmu perspektyw.
13. Związki encji.
W modelach logicznych wyróżnia się encje mocne i słabe. Istnienie encji mocnej nie zależy od występowania elementów innych typów encji (encje słabe - odwrotnie).
Związek określa fakt istnienia pewnego rodzaju połączenia pomiędzy elementami różnych typów encji. Związek określany jest przez jego stopień. Stopniem związku nazywamy powiązania różnych typów encji, których elementy można w danym związku jednocześnie wystąpić.
Rodzaje związków: jeden-do-jednego, jeden-do-wielu, wiele-do-wielu.
W powiązaniach pomiędzy encjami mogą występować powiązania rekursyjne których powinno sie unikać.
14. Redundancja danych.
Redundancja jest to występowanie wielu zapisów tych samych danych. Kontrola redundancji zaczyna się już na etapie projektowania baz danych. W przypadku relacyjnych baz danych proces który zapewnia uporządkowanie danych w poszczególnych zbiorach zwany jest normalizacją.
anomalie modyfikacji – podczas modyfikacji wartość nie zostanie poprawiona we wszystkich krotkach .
anomalie usunięć – usunięcie wartości atrybutu może spowodować utratę części danych (całej krotki).
15. Omów wady i zalety systemów baz danych.
Zalety:
· Eliminacja redundancji danych (nadmiarowości)
· Spójność danych
· Możliwość uzyskania większej ilości informacji z tych samych danych
...
renia993