DNAStat wersja 2.1 – program do obsługi bazy danych profili genetycznych oraz do obliczeń biostatystycznych.pdf

(219 KB) Pobierz
721197790 UNPDF
ARCH. MED. SĄD. KRYMINOL., 2010, LX, 118-126 PRACE ORYGINALNE
Jarosław Berent
DNAStat wersja 2.1 – program do obsługi bazy danych profili
genetycznych oraz do obliczeń biostatystycznych
DNAStat, version 2.1 – a computer program for processing genetic
profile databases and biostatistical calculations
Z Katedry i Zakładu Medycyny Sądowej Uniwersytetu Medycznego w Łodzi
Kierownik: prof. dr hab. n. med. J. Berent
W pracy przedstawiono nową wersję programu
DNAStat wersja 2.1 do obsługi bazy danych profili
genetycznych oraz do obliczeń biostatystycznych.
Rozpowszechnienie się badań DNA, wykorzystywa-
nych dla potrzeb wymiaru sprawiedliwości, spowo-
dowało konieczność opracowania odpowiednich
programów komputerowych ułatwiających pracę
biegłego genetyka. Programy takie muszą przede
wszystkim rozwiązywać dwa problemy, tj. problem
szeroko pojętej obsługi i archiwizacji danych oraz
problem obliczeń biostatystycznych. Ponadto,
z uwagi na coraz częstsze występowanie we współ-
czesnym świecie zagrożeń terrorystycznych i klęsk
żywiołowych, ważna jest możliwość analizy zgro-
madzonych danych pod kątem odnajdywania osób
spokrewnionych. Takim programem jest właśnie
DNAStat wersja 2.1. Program został opracowany
w roku 2005 – wersja 1.0. W roku 2006 powstały
wersja 1.1 i następnie 1.2. Wersje 1.1 i 1.2 usuwały
jedynie kilka drobnych niedogodności z wersji 1.0,
natomiast co do istoty nie różniły się wiele od pierw-
szej wersji. Wersja 2.0 powstała w roku 2007 – pod-
stawowym udoskonaleniem programu w tej wersji
było wprowadzenie możliwości obliczeń grupowych,
których potencjalnym zastosowaniem jest identyfika-
cja osobnicza ofiar zamachów terrorystycznych lub
katastrof masowych. W obecnej wersji 2.1 dodano
możliwość obsługi programu – poza językiem pol-
skim – także w języku angielskim.
This paper presents the new DNAStat version 2.1 for
processing genetic profile databases and biostatistical
calculations. The popularization of DNA studies
employed in the judicial system has led to the necessity
of developing appropriate computer programs. Such
programs must, above all, address two critical problems,
i.e. the broadly understood data processing and data
storage, and biostatistical calculations. Moreover, in
case of terrorist attacks and mass natural disasters, the
ability to identify victims by searching related individuals
is very important. DNAStat version 2.1 is an adequate
program for such purposes. The DNAStat version
1.0 was launched in 2005. In 2006, the program was
updated to 1.1 and 1.2 versions. There were, however,
slight differences between those versions and the
original one. The DNAStat version 2.0 was launched
in 2007 and the major program improvement was an
introduction of the group calculation options with the
potential application to personal identification of mass
disasters and terrorism victims. The last 2.1 version has
the option of language selection – Polish or English,
which will enhance the usage and application of the
program also in other countries.
Key words: biostatistics, personal identifica-
tion, terrorism, mass disasters, paternity test-
ing, forensic cases, databases
Słowa kluczowe: biostatystyka, identyfikacja
osobnicza, zamachy terrorystyczne, kata-
strofy masowe, badania ojcostwa, badania
dowodów rzeczowych, bazy danych
Nr 2-3 119
DNASTAT WERSJA 2.1
WPROWADZENIE
INTRODUCTION
Rozpowszechnienie się badań DNA, wyko-
rzystywanych dla potrzeb wymiaru sprawiedli-
wości, spowodowało konieczność opracowa-
nia odpowiednich programów komputerowych
ułatwiających pracę biegłego genetyka.
Programy takie muszą przede wszystkim roz-
wiązywać dwa problemy, tj. problem szeroko
pojętej obsługi i archiwizacji danych oraz
problem obliczeń biostatystycznych. Ponad-
to z uwagi na coraz częstsze występowanie
we współczesnym świecie zagrożeń terrory-
stycznych i klęsk żywiołowych, ważna jest
możliwość analizy zgromadzonych danych
pod kątem odnajdywania osób spokrewnio-
nych. Takim programem jest właśnie DNAStat
wersja 2.1. Program został opracowany przez
prof. dr. hab. n. med. Jarosława Berenta, kie-
rownika Katedry i Zakładu Medycyny Sądo-
wej Uniwersytetu Medycznego w Łodzi przy
wykorzystaniu obsługi informatycznej firmy
Laser Systemy Informatyczne S.A. w Łodzi.
Program powstał w ramach grantu na prace
własne Uniwersytetu Medycznego w Łodzi nr
502-11-785(35).
The popularization of DNA studies employed
in the judicial system has led to the necessity
of developing appropriate computer programs.
Such programs must, above all, address two
critical problems, i.e. the broadly understood
data processing and data storage, and biosta-
tistical calculations. Moreover, in case of ter-
rorist attacks and mass natural disasters, the
ability to identify victims by searching related
individuals is very important. DNAStat version
2.1 is an adequate program for such purposes.
The program has been elaborated by Professor
Jaroslaw Berent, the Head of the Department
of Forensic Medicine, Medical University of
Lodz, with the cooperation of Laser Systemy
Informatyczne S.A. in Lodz. The project was
supported by Medical University of Lodz, grant
no. 502-11-785(35).
WCZEśNIEJSZE WERSJE PROGRAMU
PREVIOUS PROGRAM VERSIONS
Program został opracowany w roku 2005 –
wersja 1.0 [4, 5]. W roku 2006 powstały wersja
1.1 i następnie 1.2 [6]. Wersje 1.1 i 1.2 usuwały
jedynie kilka drobnych niedogodności z wersji
1.0, natomiast co do istoty nie różniły się wiele
od pierwszej wersji. Wersja 2.0 powstała w roku
2007 – podstawowym udoskonaleniem progra-
mu w tej wersji było wprowadzenie możliwości
obliczeń grupowych, których potencjalnym
zastosowaniem jest identyfikacja osobnicza
ofiar zamachów terrorystycznych lub katastrof
masowych. W obecnej wersji 2.1 dodano możli-
wość obsługi programu – poza językiem polskim
– także w języku angielskim.
The DNAStat version 1.0 was launched in
2005 [4,5]. In 2006, the program was updated
to 1.1 and 1.2 versions [6]. There were, how-
ever, slight differences between those versions
and the original one. The DNAStat version 2.0
was launched in 2007 and the major program
improvement was an introduction of the group
calculation options with the potential application
to personal identification of mass disasters and
terrorism victims. The last 2.1 version has the
option of language selection – Polish or English,
which will enhance the usage and application of
the program also in other countries.
INSTALACJA PROGRAMU
PROGRAM INSTALLATION
Plik instalacyjny programu DNAStat o nazwie
DNAStat_setup.exe można uzyskać nieodpłat-
nie po zgłoszeniu e-mailowym do autora progra-
mu (J.Berent@eranet.pl). Po jego uruchomieniu
cała instalacja następuje automatycznie i trwa
około jednej minuty. Program zostaje zainstalo-
wany do katalogu: C:\Program Files\DNAStat\,
a na pulpicie umieszczona zostaje ikona o na-
zwie DNAStat 2.1.
The DNAStat installation file named DNAS-
tat_seyup.exe is freely available from its author
(J.Berent@eranet.pl). After it is run, the installa-
tion starts automatically and lasts for about one
minute. The program is installed to the directory:
C:\Program Files\DNAStat\, and the “DNAStat
2.1“ icon is placed on a desktop.
120 Nr 2-3
Program można odinstalować przez aplet
„Dodaj lub usuń programy” w panelu sterowa-
nia.
W katalogu C:\Program Files\DNAStat\
Databases\PL\ zostają automatycznie umiesz-
czone dwa pliki baz danych: Baza.gdb i Pusta.
gdb. Ta pierwsza zawiera już wprowadzone
dane populacyjne dla 15 loci STR z zestawu
multipleksowego Identifiler ® dla n=250 alleli.
Dane te pochodzą z publikacji: Jacewicz R.,
Berent J., Prośniak A., Gałecki P., Florkowski
A., Szram S.: Population genetics of the Iden-
tifiler system in Poland. International Congress
Series 2004, 1261, 229-232 [10]. Wprowadzo-
ne tam współczynniki mutacji pochodzą zaś
z raportu: 2001 Paternity Testing Workshop of
the English Speaking Working Group of the
International Society for Forensic Genetics
[13], przy czym współczynniki mutacji obliczo-
no jako iloraz sumy niezgodności w układzie
matka-dziecko i ojciec-dziecko przez całkowitą
liczbę mejoz.
Natomiast baza o nazwie Pusta.gdb nie za-
wiera żadnych danych i stanowi miejsce, gdzie
użytkownik może umieszczać swoje własne
dane. Bazy te mogą być dowolnie kopiowane
i mogą mieć dowolnie zmieniane nazwy. Rów-
nież ich lokalizacja w komputerze może być
dowolna, niekoniecznie w domyślnym miejscu,
czyli katalogu C:\Program Files \DNAStat\Da-
tabases\PL\.
Podczas instalacji w katalogu C:\Program
Files\DNAStat\ Examples\ PL\ zostaje umiesz-
czonych siedem plików z przykładowymi
danymi. Są to dwa pliki programu Microsoft ®
Office Excel: Import_1.xls i Import_2.xls. Pliki
programu Excel zawierające genotypy, które
użytkownik chciałby zaimportować do progra-
mu muszą mieć identyczną konstrukcję, tzn.
w pierwszym wierszu muszą się znajdować
opisy kolumn, a w kolejnych wierszach muszą
się znajdować dane. Pierwsza kolumna o na-
zwie Numer zawiera numer sprawy (musi to być
liczba), następne kolumny o nazwach układów
zawierają genotypy (pierwsza kolumna nosi
nazwę układu, np. D8S1179, a druga nazwę
układu z rozszerzeniem „_2”, np. D8S1179_2).
W ostatniej kolumnie o nazwie uwagi może
znajdować się dowolny tekst. Kolejne cztery
pliki z tego folderu to pliki tekstowe Dane_1.txt,
Dane_2.txt, Dane_3.txt i Dane_4.txt generowane
przez sekwenator (zapis w standardzie CODIS).
Zawierają one przykładowe dane, które mogą
być automatycznie importowane przez program.
Pliki te mają postać:
The program can be easily uninstalled by
means of the “add/remove programs” applet in
the control panel.
The C:\Program Files\DNAStat\Databases\
EN\ directory contains 2 database files named
“Default_base.gdb” and “Empty_base.gdb”. The
first one already includes the population data of
250 alleles in a range of 15 STR loci contained
in an Identifiler ® kit. The source of the popula-
tion data is the article: Jacewicz R., Berent J.,
Prosniak A., Galecki P., Florkowski A., Szram
S.: Population genetics of the Identifiler marker
in Poland. International Congress Series 2004,
1261, 229-232 [10]. Mutation ratios described
in the article were taken from the Paternity Test-
ing Workshop Report of the English Speaking
Working Group of the International Society
for Forensic Genetics launched in 2001 [13],
and they were counted by dividing the sum of
mother–child and father–child inconsistencies
by the total meioses number.
The “Empty_base.gdb” file does not contain
any data and thus can be used for inserting
user data. Those databases can be optionally
processed by changing name or location.
During the installation process, in the C:\
Program Files\DNAStat\ Examples\EN\ direc-
tory seven exampling files are placed. They are
two Microsoft Excel files: “Import_1.xls” and
“Import_2.xls”. Those files, containing geno-
types that the user wants to import to DNAStat
program, have to be constructed identically,
i.e. with a description in the first line and ge-
netic data in the following lines. The first column
named “Number” contains case number, the
next columns contain genotypes (two columns
per one marker, i.e. D8S1179 and D8S1179_2).
The last column named Remarks may include
any text. The other four files in this folder are se-
quencer generated CODIS files named “Data_1.
txt”, “Data_2.txt”, “Data_3.txt” and “Data_4.txt”.
They contain data that may be automatically
imported by the program. The files are in the
following form:
Jarosław Berent
Nr 2-3 121
DNASTAT WERSJA 2.1
Sample Info Category Peak 1 Peak 2
_207pI_ID D8S1179 12
13
_207pI_ID D21S11 31
32.2
_207pI_ID D7S820 8
12
itd.
Siódmy plik o nazwie Populacja.txt stanowi
przykładowy plik z danymi populacyjnymi pię-
ciu układów SNP, pochodzących z publikacji:
Bąbol-Pokora K., Prośniak A., Jacewicz R.,
Berent J.: Pentapleks SNP – rozkład częstości
alleli w populacji centralnej Polski. Arch. Med.
Sąd. i Krym. 2006, 56(4), 228-231 [3]. Plik ten
ma postać:
The seventh file named “Population.txt” is
an example of population data for five SNP loci,
which originates from the article: Babol-Pokora
K., Prosniak A., Jacewicz R., Berent J.: [SNP
pentaplex – the allele frequency database of
central Poland population]. Arch. Med. Sadowej
Kryminol. 2006, 56(4), 228-231 [3]. The file is in
the following form:
*rs2294067/0,00000/160
C/0,48800
G/0,51200
*rs2070764/0,00000/160
T/0,62500
A/0,37500
*rs1063739/0,00000/160
A/0,48800
C/0,51200
*rs2282160/0,00000/160
G/0,51300
A/0,48700
*rs2277216/0,00000/160
C/0,79400
T/0,20600
Podczas instalacji w katalogu C:\Program
Files\DNAStat\Help\PL\ zostaje umieszczony
plik DNAStat_2.1_PL.pdf, który zawiera opis
programu.
During the installation process, in the C:\
Program Files\DNAStat\Help\ EN\, a directory
“DNAStat_2.1_EN.pdf” file with program de-
scription is placed.
ROZPOCZęCIE PRACY
Z PROGRAMEM
GETTING STARTED
Po zainstalowaniu programu DNAStat należy
wprowadzić własną bazę populacyjną albo – na
początek – skorzystać z bazy instalowanej z pro-
gramem Baza.gdb. Następnie należy wprowa-
dzić genotypy i inne dane o badanych osobach
albo – na początek – zaimportować jeden lub
oba pliki zawierające genotypy badanych osób
lub śladów Import 1.xls lub Import 2.xls. W tym
momencie program jest gotowy do użycia, tzn.
do przeszukiwania bazy danych lub do obliczeń
biostatystycznych.
After the DNAStat program is installed, new
population database has to be inserted or “De-
fault_base.gdb” can be used. Next, genotypes and
other information have to be inserted or “Import_1.
xls” or “Import_2.xls” iles have to be imported. The
program is then ready for genetic data processing
and performing biostatistical calculations.
122 Nr 2-3
Jarosław Berent
FUNKCJE PROGRAMU
PROGRAM FUNCTIONS
Program DNAStat umożliwia tworzenie wła-
snej bazy danych zawierającej: dane populacyj-
ne o wykorzystywanych układach (nazwy alleli
i ich częstości, współczynniki mutacji i wielkość
populacji), dane o badanych osobach lub
śladach (genotypy i różne informacje admini-
stracyjne) oraz dane o zleceniodawcach opinii
(nazwa i adres). Wszystkie składniki tej bazy
mogą być w dowolny sposób modyfikowane
lub usuwane, jak również mogą być w każ-
dym momencie dodawane nowe elementy.
Tak utworzona baza danych jest zapisywana
w postaci pojedynczego pliku *.gdb. Program
DNAStat umożliwia korzystanie z wielu plików
*.gdb zawierających różne bazy danych. Prze-
łączanie pomiędzy poszczególnymi bazami
następuje z poziomu programu.
Dane populacyjne, dotyczące wykorzystywa-
nych układów, mogą być wprowadzane allel po
allelu z klawiatury lub mogą być importowane
automatycznie z pliku tekstowego *.txt przygo-
towanego np. w programie Microsoft ® Notatnik
lub EditPad. Plik taki ma postać: w pierwszej
linii gwiazdka, nazwa układu łamane przez
częstość mutacji, łamane przez wielkość bazy
i w kolejnych liniach nazwa allela łamane przez
jego częstość. Po liniach zawierających dane
o pierwszym układzie następuje jedna linia
wolna i w następnych liniach podane są dane
o kolejnych układach. Dane wprowadzone do
programu mogą też być eksportowane w formie
takiego samego pliku. Zaimportowanie pliku
z danymi usuwa wcześniej wprowadzone infor-
macje o układach, nie naruszając bazy popula-
cyjnej genotypów (osób). Taka opcja umożliwia
szybkie i łatwe modyfikowanie posiadanej bazy
np. o nowe układy lub allele oraz prowadzenie
obliczeń dla różnych baz.
Genotypy badanych osób lub śladów
mogą być również wprowadzane allel po al-
lelu z klawiatury lub mogą być importowane
automatycznie z plików. Program jest w stanie
zaimportować pliki tekstowe *.txt generowane
przez sekwenator lub pliki programu Microsoft ®
Office Excel *.xls.
Baza danych może być dowolnie przeszu-
kiwana według takich pól, jak: numer sprawy,
imię i nazwisko, data pobrania, itp. Możliwe jest
również wyszukiwanie według genotypów, tzn.
po wpisaniu (lub zaimportowaniu) interesują-
cego nas genotypu program automatycznie
wyszuka wszystkie osoby lub ślady z bazy,
które posiadają identyczny genotyp. Ta ostatnia
The DNAStat program enables the user to
create a personal database that includes: popu-
lation data concerning markers (allele names
and frequencies, mutation ratios and population
size), data concerning investigated individuals
and samples (genotypes and administrative
information) and information about ordering
institutions (name and address). All the compo-
nents of this database can be optionally modified
or deleted, just as new elements can be added
any time. The elaborated database is saved as
a single *.gdb file. DNAStat allows for the use of
many *.gdb files containing different databases,
which can be optionally selected while running
the program.
Population data of the investigated markers
can be inserted manually (allele by allele) or im-
ported automatically from sequencer generated
files in the *.txt format for Microsoft® Notepad or
EditPad. The form of such file is: asterisk in the
first line, marker’s name / mutation frequency
/ database size, and, in the following lines, al-
lele name slash allele frequency. There is one
blank line between the data concerning different
markers. The inserted data can be exported in
the same form. After the data file is imported,
previous information concerning the markers is
deleted without changing the population data-
base. This allows for a quick and easy modifi-
cation of the current base, e.g. by adding new
alleles and markers, or making calculations for
different bases.
Genotypes of investigated individuals and
samples can be also inserted manually (allele by
allele) or imported automatically from sequencer
generated files in the *.txt format or in .xls format
for Microsoft® Office Excel.
The database can be searched optionally ac-
cording to: case number, name and surname,
date of material collection, etc. It is possible to
search the base via genotypes, i.e. after the
genotype of interest is imported or inserted
manually, the program will search automati-
cally all individuals and samples sharing the
same genotype. This works both for full profiles
and for deficient ones, e.g. when only a partial
genotype is imported, all samples sharing the
same genotype in a range of investigated loci are
indicated, while the remaining loci are omitted.
The same is true for searching only one allele
(per locus). The program will search all samples
having the compatible allele in the investigated
locus, while the other allele will not be taken into
Zgłoś jeśli naruszono regulamin