DNAStat wersja 2.1 – program do obsługi bazy danych profili genetycznych oraz do obliczeń biostatystycznych.pdf - Genetyka - xarxar

ARCH. MED. SĄD. KRYMINOL., 2010, LX, 118-126 PRACE ORYGINALNE

Jarosław Berent

DNAStat wersja 2.1 – program do obsługi bazy danych profili

genetycznych oraz do obliczeń biostatystycznych

DNAStat, version 2.1 – a computer program for processing genetic

profile databases and biostatistical calculations

Z Katedry i Zakładu Medycyny Sądowej Uniwersytetu Medycznego w Łodzi

Kierownik: prof. dr hab. n. med. J. Berent

W pracy przedstawiono nową wersję programu

DNAStat wersja 2.1 do obsługi bazy danych profili

genetycznych oraz do obliczeń biostatystycznych.

Rozpowszechnienie się badań DNA, wykorzystywa-

nych dla potrzeb wymiaru sprawiedliwości, spowo-

dowało konieczność opracowania odpowiednich

programów komputerowych ułatwiających pracę

biegłego genetyka. Programy takie muszą przede

wszystkim rozwiązywać dwa problemy, tj. problem

szeroko pojętej obsługi i archiwizacji danych oraz

problem obliczeń biostatystycznych. Ponadto,

z uwagi na coraz częstsze występowanie we współ-

czesnym świecie zagrożeń terrorystycznych i klęsk

żywiołowych, ważna jest możliwość analizy zgro-

madzonych danych pod kątem odnajdywania osób

spokrewnionych. Takim programem jest właśnie

DNAStat wersja 2.1. Program został opracowany

w roku 2005 – wersja 1.0. W roku 2006 powstały

wersja 1.1 i następnie 1.2. Wersje 1.1 i 1.2 usuwały

jedynie kilka drobnych niedogodności z wersji 1.0,

natomiast co do istoty nie różniły się wiele od pierw-

szej wersji. Wersja 2.0 powstała w roku 2007 – pod-

stawowym udoskonaleniem programu w tej wersji

było wprowadzenie możliwości obliczeń grupowych,

których potencjalnym zastosowaniem jest identyfika-

cja osobnicza ofiar zamachów terrorystycznych lub

katastrof masowych. W obecnej wersji 2.1 dodano

możliwość obsługi programu – poza językiem pol-

skim – także w języku angielskim.

This paper presents the new DNAStat version 2.1 for

processing genetic profile databases and biostatistical

calculations. The popularization of DNA studies

employed in the judicial system has led to the necessity

of developing appropriate computer programs. Such

programs must, above all, address two critical problems,

i.e. the broadly understood data processing and data

storage, and biostatistical calculations. Moreover, in

case of terrorist attacks and mass natural disasters, the

ability to identify victims by searching related individuals

is very important. DNAStat version 2.1 is an adequate

program for such purposes. The DNAStat version

1.0 was launched in 2005. In 2006, the program was

updated to 1.1 and 1.2 versions. There were, however,

slight differences between those versions and the

original one. The DNAStat version 2.0 was launched

in 2007 and the major program improvement was an

introduction of the group calculation options with the

potential application to personal identification of mass

disasters and terrorism victims. The last 2.1 version has

the option of language selection – Polish or English,

which will enhance the usage and application of the

program also in other countries.

Key words: biostatistics, personal identifica-

tion, terrorism, mass disasters, paternity test-

ing, forensic cases, databases

Słowa kluczowe: biostatystyka, identyfikacja

osobnicza, zamachy terrorystyczne, kata-

strofy masowe, badania ojcostwa, badania

dowodów rzeczowych, bazy danych

Nr 2-3 119

DNASTAT WERSJA 2.1

WPROWADZENIE

INTRODUCTION

Rozpowszechnienie się badań DNA, wyko-

rzystywanych dla potrzeb wymiaru sprawiedli-

wości, spowodowało konieczność opracowa-

nia odpowiednich programów komputerowych

ułatwiających pracę biegłego genetyka.

Programy takie muszą przede wszystkim roz-

wiązywać dwa problemy, tj. problem szeroko

pojętej obsługi i archiwizacji danych oraz

problem obliczeń biostatystycznych. Ponad-

to z uwagi na coraz częstsze występowanie

we współczesnym świecie zagrożeń terrory-

stycznych i klęsk żywiołowych, ważna jest

możliwość analizy zgromadzonych danych

pod kątem odnajdywania osób spokrewnio-

nych. Takim programem jest właśnie DNAStat

wersja 2.1. Program został opracowany przez

prof. dr. hab. n. med. Jarosława Berenta, kie-

rownika Katedry i Zakładu Medycyny Sądo-

wej Uniwersytetu Medycznego w Łodzi przy

wykorzystaniu obsługi informatycznej firmy

Laser Systemy Informatyczne S.A. w Łodzi.

Program powstał w ramach grantu na prace

własne Uniwersytetu Medycznego w Łodzi nr

502-11-785(35).

The popularization of DNA studies employed

in the judicial system has led to the necessity

of developing appropriate computer programs.

Such programs must, above all, address two

critical problems, i.e. the broadly understood

data processing and data storage, and biosta-

tistical calculations. Moreover, in case of ter-

rorist attacks and mass natural disasters, the

ability to identify victims by searching related

individuals is very important. DNAStat version

2.1 is an adequate program for such purposes.

The program has been elaborated by Professor

Jaroslaw Berent, the Head of the Department

of Forensic Medicine, Medical University of

Lodz, with the cooperation of Laser Systemy

Informatyczne S.A. in Lodz. The project was

supported by Medical University of Lodz, grant

no. 502-11-785(35).

WCZEśNIEJSZE WERSJE PROGRAMU

PREVIOUS PROGRAM VERSIONS

Program został opracowany w roku 2005 –

wersja 1.0 [4, 5]. W roku 2006 powstały wersja

1.1 i następnie 1.2 [6]. Wersje 1.1 i 1.2 usuwały

jedynie kilka drobnych niedogodności z wersji

1.0, natomiast co do istoty nie różniły się wiele

od pierwszej wersji. Wersja 2.0 powstała w roku

2007 – podstawowym udoskonaleniem progra-

mu w tej wersji było wprowadzenie możliwości

obliczeń grupowych, których potencjalnym

zastosowaniem jest identyfikacja osobnicza

ofiar zamachów terrorystycznych lub katastrof

masowych. W obecnej wersji 2.1 dodano możli-

wość obsługi programu – poza językiem polskim

– także w języku angielskim.

The DNAStat version 1.0 was launched in

2005 [4,5]. In 2006, the program was updated

to 1.1 and 1.2 versions [6]. There were, how-

ever, slight differences between those versions

and the original one. The DNAStat version 2.0

was launched in 2007 and the major program

improvement was an introduction of the group

calculation options with the potential application

to personal identification of mass disasters and

terrorism victims. The last 2.1 version has the

option of language selection – Polish or English,

which will enhance the usage and application of

the program also in other countries.

INSTALACJA PROGRAMU

PROGRAM INSTALLATION

Plik instalacyjny programu DNAStat o nazwie

DNAStat_setup.exe można uzyskać nieodpłat-

nie po zgłoszeniu e-mailowym do autora progra-

mu (J.Berent@eranet.pl). Po jego uruchomieniu

cała instalacja następuje automatycznie i trwa

około jednej minuty. Program zostaje zainstalo-

wany do katalogu: C:\Program Files\DNAStat\,

a na pulpicie umieszczona zostaje ikona o na-

zwie DNAStat 2.1.

The DNAStat installation file named DNAS-

tat_seyup.exe is freely available from its author

(J.Berent@eranet.pl). After it is run, the installa-

tion starts automatically and lasts for about one

minute. The program is installed to the directory:

C:\Program Files\DNAStat\, and the “DNAStat

2.1“ icon is placed on a desktop.

120 Nr 2-3

Program można odinstalować przez aplet

„Dodaj lub usuń programy” w panelu sterowa-

nia.

W katalogu C:\Program Files\DNAStat\

Databases\PL\ zostają automatycznie umiesz-

czone dwa pliki baz danych: Baza.gdb i Pusta.

gdb. Ta pierwsza zawiera już wprowadzone

dane populacyjne dla 15 loci STR z zestawu

multipleksowego Identifiler ® dla n=250 alleli.

Dane te pochodzą z publikacji: Jacewicz R.,

Berent J., Prośniak A., Gałecki P., Florkowski

A., Szram S.: Population genetics of the Iden-

tifiler system in Poland. International Congress

Series 2004, 1261, 229-232 [10]. Wprowadzo-

ne tam współczynniki mutacji pochodzą zaś

z raportu: 2001 Paternity Testing Workshop of

the English Speaking Working Group of the

International Society for Forensic Genetics

[13], przy czym współczynniki mutacji obliczo-

no jako iloraz sumy niezgodności w układzie

matka-dziecko i ojciec-dziecko przez całkowitą

liczbę mejoz.

Natomiast baza o nazwie Pusta.gdb nie za-

wiera żadnych danych i stanowi miejsce, gdzie

użytkownik może umieszczać swoje własne

dane. Bazy te mogą być dowolnie kopiowane

i mogą mieć dowolnie zmieniane nazwy. Rów-

nież ich lokalizacja w komputerze może być

dowolna, niekoniecznie w domyślnym miejscu,

czyli katalogu C:\Program Files \DNAStat\Da-

tabases\PL\.

Podczas instalacji w katalogu C:\Program

Files\DNAStat\ Examples\ PL\ zostaje umiesz-

czonych siedem plików z przykładowymi

danymi. Są to dwa pliki programu Microsoft ®

Office Excel: Import_1.xls i Import_2.xls. Pliki

programu Excel zawierające genotypy, które

użytkownik chciałby zaimportować do progra-

mu muszą mieć identyczną konstrukcję, tzn.

w pierwszym wierszu muszą się znajdować

opisy kolumn, a w kolejnych wierszach muszą

się znajdować dane. Pierwsza kolumna o na-

zwie Numer zawiera numer sprawy (musi to być

liczba), następne kolumny o nazwach układów

zawierają genotypy (pierwsza kolumna nosi

nazwę układu, np. D8S1179, a druga nazwę

układu z rozszerzeniem „_2”, np. D8S1179_2).

W ostatniej kolumnie o nazwie uwagi może

znajdować się dowolny tekst. Kolejne cztery

pliki z tego folderu to pliki tekstowe Dane_1.txt,

Dane_2.txt, Dane_3.txt i Dane_4.txt generowane

przez sekwenator (zapis w standardzie CODIS).

Zawierają one przykładowe dane, które mogą

być automatycznie importowane przez program.

Pliki te mają postać:

The program can be easily uninstalled by

means of the “add/remove programs” applet in

the control panel.

The C:\Program Files\DNAStat\Databases\

EN\ directory contains 2 database files named

“Default_base.gdb” and “Empty_base.gdb”. The

first one already includes the population data of

250 alleles in a range of 15 STR loci contained

in an Identifiler ® kit. The source of the popula-

tion data is the article: Jacewicz R., Berent J.,

Prosniak A., Galecki P., Florkowski A., Szram

S.: Population genetics of the Identifiler marker

in Poland. International Congress Series 2004,

1261, 229-232 [10]. Mutation ratios described

in the article were taken from the Paternity Test-

ing Workshop Report of the English Speaking

Working Group of the International Society

for Forensic Genetics launched in 2001 [13],

and they were counted by dividing the sum of

mother–child and father–child inconsistencies

by the total meioses number.

The “Empty_base.gdb” file does not contain

any data and thus can be used for inserting

user data. Those databases can be optionally

processed by changing name or location.

During the installation process, in the C:\

Program Files\DNAStat\ Examples\EN\ direc-

tory seven exampling files are placed. They are

two Microsoft Excel files: “Import_1.xls” and

“Import_2.xls”. Those files, containing geno-

types that the user wants to import to DNAStat

program, have to be constructed identically,

i.e. with a description in the first line and ge-

netic data in the following lines. The first column

named “Number” contains case number, the

next columns contain genotypes (two columns

per one marker, i.e. D8S1179 and D8S1179_2).

The last column named Remarks may include

any text. The other four files in this folder are se-

quencer generated CODIS files named “Data_1.

txt”, “Data_2.txt”, “Data_3.txt” and “Data_4.txt”.

They contain data that may be automatically

imported by the program. The files are in the

following form:

Jarosław Berent

Nr 2-3 121

DNASTAT WERSJA 2.1

Sample Info Category Peak 1 Peak 2

_207pI_ID D8S1179 12

_207pI_ID D21S11 31

32.2

_207pI_ID D7S820 8

itd.

Siódmy plik o nazwie Populacja.txt stanowi

przykładowy plik z danymi populacyjnymi pię-

ciu układów SNP, pochodzących z publikacji:

Bąbol-Pokora K., Prośniak A., Jacewicz R.,

Berent J.: Pentapleks SNP – rozkład częstości

alleli w populacji centralnej Polski. Arch. Med.

Sąd. i Krym. 2006, 56(4), 228-231 [3]. Plik ten

ma postać:

The seventh file named “Population.txt” is

an example of population data for five SNP loci,

which originates from the article: Babol-Pokora

K., Prosniak A., Jacewicz R., Berent J.: [SNP

pentaplex – the allele frequency database of

central Poland population]. Arch. Med. Sadowej

Kryminol. 2006, 56(4), 228-231 [3]. The file is in

the following form:

*rs2294067/0,00000/160

C/0,48800

G/0,51200

*rs2070764/0,00000/160

T/0,62500

A/0,37500

*rs1063739/0,00000/160

A/0,48800

C/0,51200

*rs2282160/0,00000/160

G/0,51300

A/0,48700

*rs2277216/0,00000/160

C/0,79400

T/0,20600

Podczas instalacji w katalogu C:\Program

Files\DNAStat\Help\PL\ zostaje umieszczony

plik DNAStat_2.1_PL.pdf, który zawiera opis

programu.

During the installation process, in the C:\

Program Files\DNAStat\Help\ EN\, a directory

“DNAStat_2.1_EN.pdf” file with program de-

scription is placed.

ROZPOCZęCIE PRACY

Z PROGRAMEM

GETTING STARTED

Po zainstalowaniu programu DNAStat należy

wprowadzić własną bazę populacyjną albo – na

początek – skorzystać z bazy instalowanej z pro-

gramem Baza.gdb. Następnie należy wprowa-

dzić genotypy i inne dane o badanych osobach

albo – na początek – zaimportować jeden lub

oba pliki zawierające genotypy badanych osób

lub śladów Import 1.xls lub Import 2.xls. W tym

momencie program jest gotowy do użycia, tzn.

do przeszukiwania bazy danych lub do obliczeń

biostatystycznych.

After the DNAStat program is installed, new

population database has to be inserted or “De-

fault_base.gdb” can be used. Next, genotypes and

other information have to be inserted or “Import_1.

xls” or “Import_2.xls” iles have to be imported. The

program is then ready for genetic data processing

and performing biostatistical calculations.

122 Nr 2-3

Jarosław Berent

FUNKCJE PROGRAMU

PROGRAM FUNCTIONS

Program DNAStat umożliwia tworzenie wła-

snej bazy danych zawierającej: dane populacyj-

ne o wykorzystywanych układach (nazwy alleli

i ich częstości, współczynniki mutacji i wielkość

populacji), dane o badanych osobach lub

śladach (genotypy i różne informacje admini-

stracyjne) oraz dane o zleceniodawcach opinii

(nazwa i adres). Wszystkie składniki tej bazy

mogą być w dowolny sposób modyfikowane

lub usuwane, jak również mogą być w każ-

dym momencie dodawane nowe elementy.

Tak utworzona baza danych jest zapisywana

w postaci pojedynczego pliku *.gdb. Program

DNAStat umożliwia korzystanie z wielu plików

*.gdb zawierających różne bazy danych. Prze-

łączanie pomiędzy poszczególnymi bazami

następuje z poziomu programu.

Dane populacyjne, dotyczące wykorzystywa-

nych układów, mogą być wprowadzane allel po

allelu z klawiatury lub mogą być importowane

automatycznie z pliku tekstowego *.txt przygo-

towanego np. w programie Microsoft ® Notatnik

lub EditPad. Plik taki ma postać: w pierwszej

linii gwiazdka, nazwa układu łamane przez

częstość mutacji, łamane przez wielkość bazy

i w kolejnych liniach nazwa allela łamane przez

jego częstość. Po liniach zawierających dane

o pierwszym układzie następuje jedna linia

wolna i w następnych liniach podane są dane

o kolejnych układach. Dane wprowadzone do

programu mogą też być eksportowane w formie

takiego samego pliku. Zaimportowanie pliku

z danymi usuwa wcześniej wprowadzone infor-

macje o układach, nie naruszając bazy popula-

cyjnej genotypów (osób). Taka opcja umożliwia

szybkie i łatwe modyfikowanie posiadanej bazy

np. o nowe układy lub allele oraz prowadzenie

obliczeń dla różnych baz.

Genotypy badanych osób lub śladów

mogą być również wprowadzane allel po al-

lelu z klawiatury lub mogą być importowane

automatycznie z plików. Program jest w stanie

zaimportować pliki tekstowe *.txt generowane

przez sekwenator lub pliki programu Microsoft ®

Office Excel *.xls.

Baza danych może być dowolnie przeszu-

kiwana według takich pól, jak: numer sprawy,

imię i nazwisko, data pobrania, itp. Możliwe jest

również wyszukiwanie według genotypów, tzn.

po wpisaniu (lub zaimportowaniu) interesują-

cego nas genotypu program automatycznie

wyszuka wszystkie osoby lub ślady z bazy,

które posiadają identyczny genotyp. Ta ostatnia

The DNAStat program enables the user to

create a personal database that includes: popu-

lation data concerning markers (allele names

and frequencies, mutation ratios and population

size), data concerning investigated individuals

and samples (genotypes and administrative

information) and information about ordering

institutions (name and address). All the compo-

nents of this database can be optionally modified

or deleted, just as new elements can be added

any time. The elaborated database is saved as

a single *.gdb file. DNAStat allows for the use of

many *.gdb files containing different databases,

which can be optionally selected while running

the program.

Population data of the investigated markers

can be inserted manually (allele by allele) or im-

ported automatically from sequencer generated

files in the *.txt format for Microsoft® Notepad or

EditPad. The form of such file is: asterisk in the

first line, marker’s name / mutation frequency

/ database size, and, in the following lines, al-

lele name slash allele frequency. There is one

blank line between the data concerning different

markers. The inserted data can be exported in

the same form. After the data file is imported,

previous information concerning the markers is

deleted without changing the population data-

base. This allows for a quick and easy modifi-

cation of the current base, e.g. by adding new

alleles and markers, or making calculations for

different bases.

Genotypes of investigated individuals and

samples can be also inserted manually (allele by

allele) or imported automatically from sequencer

generated files in the *.txt format or in .xls format

for Microsoft® Office Excel.

The database can be searched optionally ac-

cording to: case number, name and surname,

date of material collection, etc. It is possible to

search the base via genotypes, i.e. after the

genotype of interest is imported or inserted

manually, the program will search automati-

cally all individuals and samples sharing the

same genotype. This works both for full profiles

and for deficient ones, e.g. when only a partial

genotype is imported, all samples sharing the

same genotype in a range of investigated loci are

indicated, while the remaining loci are omitted.

The same is true for searching only one allele

(per locus). The program will search all samples

having the compatible allele in the investigated

locus, while the other allele will not be taken into

DNAStat wersja 2.1 – program do obsługi bazy danych profili genetycznych oraz do obliczeń biostatystycznych.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: