Przeszukując internet.pdf

(196 KB) Pobierz
PRZESZUKUJ¥C INTERNET
RAPORT SPECJALNY
PRZESZUKUJC INTERNET
Czy po¸czenie umiej«tnoæci bibliotekarza i komputerowego guru
pomoýe w opanowaniu anarchii w Internecie?
Clifford Lynch
æwiatow bibliotek epoki cy-
frowej. To okreælenie nie wy-
trzymuje jednak nawet pobieýnej ana-
lizy. Internet Ð a szczeglnie jego
zbir multimedialnych zasobw zna-
ny jako World Wide Web Ð nie zosta¸
stworzony z myæl o uporzdkowa-
niu publikacji dajcym moýliwoæ
wyszukiwania ich tak jak w bibliotece.
Jego rozwj doprowadzi¸ do czegoæ, co
da si« porwna do bez¸adnego zbioru
efektw pracy cyfrowych ãmaszyn dru-
karskichÓ na ca¸ym æwiecie. Ten maga-
zyn informacji zawiera nie tylko ksiý-
ki i dokumenty, ale rwnieý dane
naukowe, przepisy, reklamy, notatki ze
spotkaÄ, nagrania audio i wideo, zapi-
sy interaktywnych konwersacji. Rzeczy
efemeryczne przemieszane s z pracami
o wartoæci nieprzemijajcej.
Mwic krtko, Internet nie jest cy-
frow bibliotek. Ale jeæli jego rozwj
umiej«tnoæciami informatyka Ð auto-
matycznego indeksowania i przecho-
wywania informacji. Tylko synteza
obu profesji pozwoli nowemu me-
dium zachowa ýywotnoæ.
Dziæ prawie ca¸a odpowiedzialnoæ
za uporzdkowanie informacji w In-
ternecie spoczywa na technice kom-
puterowej. W teorii oprogramowa-
nie, ktre klasyfikuje i indeksuje zbiory
danych cyfrowych, powinno poradzi
sobie z zalewem informacji zgromadzo-
nej w Sieci, co przekracza moýliwoæci
bibliotekarzy i archiwistw. Do auto-
matycznego przetwarzania informacji
b«d s¸uýy coraz szybsze i coraz taÄ-
sze komputery; pozwoli to unikn wy-
sokich kosztw i opnieÄ zwizanych
z indeksowaniem wykonywanym przez
cz¸owieka.
Ale jak wie kaýdy, kto kiedykolwiek
przeszukiwa¸ Sie, automaty kategory-
zuj informacje inaczej niý ludzie. W
nie straci na tempie i doprowadzi do
uczynienia zeÄ nowego ærodka komu-
nikacji, zajdzie potrzeba zorganizowania
czegoæ bardzo podobnego do tradycyj-
nych us¸ug bibliotecznych. B«dzie si« to
wiza¸o z koniecznoæci uporzdkowa-
nia, udost«pniania i archiwizowania in-
formacji zgromadzonych w Sieci. Na-
wet wtedy Internet nie musi jednak
przypomina tradycyjnej biblioteki, po-
niewaý jego zawartoæ jest znacznie bar-
dziej rozproszona. Umiej«tnoæci klasy-
fikacji i selekcji, ktrymi dysponuj
bibliotekarze, trzeba b«dzie uzupe¸ni
PRZESZUKIWARKA odwiedza (ãprzeczesujeÓ) rýne miejsca w World Wide Web, po-
kazane tu jako niebieskie kule. û¸te i niebieskie linie oznaczaj dane wejæciowe i wyjæcio-
we serwera przeszukiwarki (czerwona wieýa) , gdzie strony WWW s wgrywane. Opro-
gramowanie serwera tworzy indeks (beýowa kartka) , do ktrego ma dost«p uýytkownik.
C z«sto nazywa si« Internet
13857315.012.png 13857315.013.png 13857315.014.png
RAPORT SPECJALNY
pewnym sensie praca wykonywana
przez rozmaite narz«dzia indeksujce
i katalogujce znane jako przeszukiwar-
ki jest wysoce demokratyczna. Maszyna
ujednolica podejæcie do kaýdej informa-
cji. W praktyce ten elektroniczny egali-
taryzm ma rwnieý z¸e strony. Internau-
ci, ktrzy formu¸uj zapytanie, otrzy-
muj cz«sto w odpowiedzi listy zawie-
rajce tysice pozycji. Na listach tych
znajduj cz«sto odnoæniki do nie zwi-
zanych z tematem miejsc, brak na nich
natomiast innych, ktre kieruj do
materia¸w istotnych.
matyczne indeksowa-
nie. Dokumenty w
Sieci nie maj struktu-
ry pozwalajcej pro-
gramom wy¸uska w
sposb niezawodny
najprostszych infor-
macji, ktre cz¸owiek
uzyskuje, przeglda-
jc dokument na ekra-
nie Ð nazwisko autora,
dat« publikacji, d¸u-
goæ tekstu, jego te-
matyk« (informacje ta-
kie nazywaj si« me-
tadanymi). Interneto-
wy robot moýe zna-
le poszukiwany ar-
tyku¸ Jana Kowalskie-
go, ale rwnieý tysi-
ce innych dokumen-
tw, w ktrych to po-
pularne imi« i na-
zwisko pada w tekæcie lub w przypisach
bibliograficznych.
Czasami ta nieselektywnoæ automa-
tycznego indeksowania jest wykorzy-
stywana. Ktoæ moýe spowodowa, by
dany dokument by¸ wybierany cz«æciej,
powtarzajc w nim kilkakrotnie s¸owo
wyst«pujce w wielu zapytaniach, na
przyk¸ad ãseksÓ. Przeszukiwarka poka-
zuje bowiem na pocztku te dokumen-
ty, w ktrych szukane s¸owo pojawia
si« najcz«æciej. Wykonujcy t« sam pra-
c« ludzie nie daliby si« nabra na takie
naiwne sztuczki.
Dla profesjonalisty sporzdzajcego
indeks fakt, ýe cz«æci sk¸adowe doku-
mentu s rýnego rodzaju (od tekstu po
film wideo) nie przedstawia trudnoæci Ð
potrafi je przypisa do okreælonych ka-
tegorii tematycznych. Fotografie z woj-
ny secesyjnej mog na przyk¸ad stano-
wi cz«æ zbioru, ktry zawiera rwnieý
muzyk« z tamtego okresu czy wspo-
mnienia ýo¸nierzy. Archiwista cz¸owiek
potrafi opisa, jak zbir zosta¸ zorgani-
zowany w miejscu, w ktrym magazy-
nuje si« na przyk¸ad programy dla
komputerw Mackintosh. Historia da-
nego miejsca internetowego, cel jego po-
wstania oraz charakter jest natomiast
poza zasi«giem programu przeszuku-
jcego Sie.
Inn wad automatycznego indekso-
wania jest to, ýe wi«kszoæ przeszukiwa-
rek rozpoznaje tylko tekst. Wielkie zain-
teresowanie åwiatow Paj«czyn wzi«¸o
si« jednak std, ýe pozwala ona rwnieý
na wyæwietlanie zdj«, rysunkw czy wi-
deo. Badania nad rozpoznawaniem kolo-
rw i wzorw na ilustracjach przynios¸y
PRZYPUSZCZALNA
LICZBA
SERWERîW WWW
SERWERY .com
(PROCENT WSZYSTKICH SERWERîW)
0
10 20
30
40
50 60
70
CZERWIEC 1993
GRUDZIEÁ 1993
CZERWIEC 1994
GRUDZIEÁ 1994
CZERWIEC 1995
STYCZEÁ 1996
CZERWIEC 1996
STYCZEÁ 1997
130
620
2740
10 000
23 500
100 000
230 000
650 000
2
5
14
18
31
50
68
63
LICZBA KOMPUTERîW BAZOWYCH
(MILIONY)
0
2
4
6
8
10
12
STYCZEÁ 1993
STYCZEÁ 1994
STYCZEÁ 1995
STYCZEÁ 1996
LIPIEC 1996
1.3
Roboty sieci
2.2
4.9
Mechanizm elektronicznego indekso-
wania zrozumiemy, analizujc, jak sie-
ciowe przeszukiwarki, takie jak Lycos
czy AltaVista, tworz za pomoc progra-
mw indeksy i znajduj informacje,
o ktre pyta uýytkownik. Co pewien czas
uruchamiaj one programy (b«dziemy
je nazywa robotami indeksujcymi Ð
crawlers, spiders, indexing robots) od-
wiedzajce kaýde miejsce w Sieci, ktre
potrafi znale. Miejsce zawiera zbir
dokumentw zwanych stronami inter-
netowymi. Robot indeksujcy przegl-
da strony i stara si« uzyska informacje,
ktre mog pos¸uýy do ich opisu. Proces
ten Ð nieco inny w szczeg¸ach w rý-
nych przeszukiwarkach Ð polega na zlo-
kalizowaniu wi«kszoæci s¸w pojawiaj-
cych si« na stronach internetowych lub
przeprowadzeniu zaawansowanej anali-
zy w celu identyfikacji kluczowych s¸w
czy fraz. Nast«pnie zostaj one umiesz-
czone w bazie danych przeszukiwarki
wraz z adresem dokumentu, z ktrego
pochodz, zwanym URL (uniform re-
source locator). Uýytkownik, korzysta-
jc z przegldarki takiej jak popularny
Netscape, wysy¸a pytania do bazy prze-
szukiwarki. W odpowiedzi otrzymuje li-
st« zasobw internetowych wraz z ich
adresami; klika na nie, gdy chce po¸-
czy si« z danym miejscem.
Internetowe przeszukiwarki odpo-
wiadaj na miliony pytaÄ dziennie. Sta-
je si« jasne, ýe nie s one idealnym na-
rz«dziem do przeszukiwania coraz
wi«kszych zasobw informacyjnych
zgromadzonych w Sieci. Inaczej niý lu-
dzie trudnicy si« archiwizacj automa-
tyczne programy miewaj trudnoæci
z identyfikacj charakteru dokumentu,
jego oglnej tematyki lub rodzaju Ð na
przyk¸ad nie odrýniaj powieæci lub
poematu od reklamy.
Co wi«cej, w Internecie cigle braku-
je standardw, ktre by u¸atwia¸y auto-
9.5
12.9
ROZWîJ I ZMIANY w Internecie oddaje zwi«kszajca si« licz-
ba serwerw World Wide Web, komputerw bazowych i komer-
cyjnych serwerw, czyli tych, ktre znajduj si« w domenie .com
juý pewne rezultaty. ûaden program nie
potrafi jednak wydedukowa ukrytych
znaczeÄ i konotacji kulturowych (nie od-
gadnie na przyk¸ad, ýe obraz, na ktrym
grupa m«ýczyzn si« posila, przedstawia
Ostatni Wieczerz«).
Jednoczeænie cigle zmienia si« struk-
tura sieciowej informacji i cz«sto indek-
sujcy robot nie umie tej informacji od-
czyta. Wiele stron internetowych to juý
nie statyczne pliki, ktre daj si« anali-
zowa i indeksowa za pomoc obecnie
stosowanych programw. Coraz cz«æciej
informacja wyæwietlana w dokumencie
jest tworzona w czasie jej wyszukiwania
Ð modyfikowana zgodnie z ýdaniem
uýytkownika. Serwer potrafi przygoto-
wa map«, tabel« czy tekst, wykorzystu-
jc informacje z rýnych obszarw swo-
jej bazy danych. Wydawca gazety w
Internecie moýe pozwoli czytelnikowi
na okreælenie osobistych preferencji; taka
wersja pisma b«dzie wyæwietla¸a wy¸cz-
nie artyku¸y o interesujcej go tematyce,
na przyk¸ad dotyczce przemys¸u nafto-
wego. Baza danych, z ktrej pochodz
te artyku¸y, nie jest dost«pna dla robota
indeksujcego odwiedzajcego t« zindy-
widualizowan gazet«.
Coraz cz«æciej prowadzi si« badania
zmierzajce do eliminacji niektrych
problemw zwizanych z automatycz-
nymi metodami klasyfikacji. Jedno z
proponowanych podejæ polega na do-
dawaniu metadanych do dokumentw,
tak aby systemy indeksujce mog¸y te
informacje gromadzi. Najlepsze wyni-
ki w tej dziedzinie maj projekty specy-
fikacji Dublin Core Metadata i zwiza-
ny z nim Warwick Framework Ð nazwa
å WIAT N AUKI Maj 1997 31
13857315.015.png 13857315.001.png 13857315.002.png
RAPORT SPECJALNY
IN DEKSO WANI E
PRZE Z CZü OWIEK A
AUTOMATYCZNE INDEKSOWANIE Sie-
ci przez robota analizuje stron« (z lewej)
przez oznaczenie wi«kszoæci s¸w jako ter-
minw indeksujcych (poærodku u gry) lub
grupowanie s¸w w proste wyraýenia (po-
ærodku na dole) . Indeksowanie wykonane
przez cz¸owieka (z prawej) dzi«ki dodatko-
wym informacjom pozwala pozna kontekst
uýytych wyrazw.
pierwszego pochodzi od Dublina w sta-
nie Ohio, drugiego natomiast od War-
wick w Wielkiej Brytanii. Zatrudnione
przy nich zespo¸y zdefiniowa¸y zestaw
metadanych, ktre s prostsze niý w tra-
dycyjnych katalogach bibliotecznych,
oraz opracowa¸y sposoby ich w¸czania
do stron internetowych.
Klasyfikacja metadanych mia¸aby obej-
mowa rýne kategorie: od tytu¸u i auto-
ra do typu dokumentu (np. tekst czy wi-
deo). Ich wyszukiwaniem mogliby si«
zajmowa zarwno ludzie, jak i progra-
my indeksujce. Tak zdobyte metadane
Jak znale obraz w Sieci
Gary Stix
Wide Web z szerok palet fotografii, animacji, rysunkw, dwi«-
ku i wideo, zawierajcych wszystko Ð od wybitnych dzie¸ sztuki
po czyst pornografi«. Pomimo ogromnej liczby materia¸w mul-
timedialnych znalezienie tych, ktre interesuj uýytkownika na
setkach tysi«cy serwerw internetowych, cigle jeszcze wyma-
ga wyszukiwania w indeksach s¸w lub liczb.
Ktoæ, kto wpisze s¸owa ãpolska flagaÓ do popularnej przeszuki-
warki AltaVista, ma szans« dotrze do obrazu polskiej flagi tylko
wtedy, gdy jest ona tymi s¸owami opisana. Ale co ma zrobi ktoæ,
kto pami«ta kolory flagi, ale nie wie, z jakiego kraju ona pochodzi?
Najlepiej by¸oby, gdyby przeszukiwarka pozwoli¸a uýytkowniko-
wi narysowa lub zeskanowa prostokt, ktrego grna po¸owa by-
¸aby bia¸a, a dolna czerwona, i nast«pnie odnalaz¸a podobne ob-
razy wærd milionw ilustracji umieszczonych na serwerach
internetowych. W ostatnich latach techniki ¸czce indeksowanie
s¸w i analiz« obrazu zaczynaj przeciera szlak pierwszym ma-
szynom wyszukujcym grafik«.
Dzi«ki tym prototypowym rozwizaniom moýna juý dziæ doceni
moýliwoæci indeksowania informacji wizualnej, przy okazji wida
jednak rwnieý, ýe obecne narz«dzia s jeszcze prymitywne i ýe
szukajc obrazw, cigle musimy polega na tekæcie. Jeden z pro-
jektw Ð WebSEEk stworzony w Columbia University Ð pozwala
przeæledzi, jak pracuje przeszukiwarka grafiki. WebSEEk zaczy-
na od æcigni«cia plikw znalezionych w Sieci. Nast«pnie wyszu-
kuje wærd nich te, ktre w nazwach maj rozszerzenia, takie jak
GIF czy MPEG, oznaczajce, ýe zawieraj grafik« lub filmy wi-
deo. Ponadto szuka w nazwach plikw s¸w identyfikujcych ich
treæ. Gdy program znajdzie obraz, bada, jakie przewaýaj w nim
kolory i jakie jest ich roz¸oýenie. Dzi«ki tym informacjom moýe
rozrýni fotografie, grafik«, ilustracje bia¸o-czarne lub w rýnych
odcieniach szaroæci. Program rwnieý kompresuje kaýdy obra-
zek i wyæwietla go w postaci ikony, a w przypadku wideo Ð wybie-
ra kilka charakterystycznych klatek z rýnych scen.
Uýytkownik zaczyna wyszukiwanie od wy-
brania z menu kategorii Ð na przyk¸ad ãkotyÓ.
WebSEEk pokazuje wybrane ikony naleýce
do tej kategorii. By ograniczy zakres wyszu-
kiwania, uýytkownik klika na dowoln ikon«
pokazujc czarnego kota. Wykorzystujc prze-
prowadzon uprzednio analiz« kolorw, prze-
szukiwarka dobiera obrazki o podobnej cha-
rakterystyce kolorystycznej. Nast«pna grupa
ikon moýe pokazywa czarne koty, ale rw-
nieý na przyk¸ad koty rude leýce na czarnych
poduszkach. Goæ WebSEEka jeszcze bar-
dziej uæciæla wyszukiwanie, okreælajc, jakie
kolory musi lub jakich nie powinien zawiera
szukany obraz. Wy¸czajc na przyk¸ad kolor
czerwony i ý¸ty, pozb«dzie si« kotw rudych.
Moýe to uczyni jeszcze proæciej, wskazujc te ikony, na ktrych
nie ma czarnych kotw. Do tej pory WebSEEk skopiowa¸ i zain-
deksowa¸ juý ponad 650 tys. obrazkw z dziesitkw tysi«cy ser-
werw internetowych.
Nad projektami wyszukiwania grafiki prowadzone s rwnieý
prace w University of Chicago, University of California w San Die-
go, Carnegie Mellon University, w Media Lab MIT i w University
of California w Berkeley. Liczne firmy komercyjne, w tym IBM i Vi-
rage, stworzy¸y oprogramowanie, ktre moýe by uýywane do
przeszukiwania zbiorczych sieci czy baz danych. Dwie inne fir-
my Ð Excalibur Technologies i Interpix Software Ð po¸czy¸y swo-
je wysi¸ki, by stworzy oprogramowanie dla Yahoo i Infoseeka.
Jeden z najstarszych programw, Query by Image Content (QBIC)
powsta¸y w IBM, dysponuje bardziej wyszukanymi metodami dopa-
sowywania cech obrazu niý, powiedzmy, WebSEEk. Potrafi nie tyl-
ko odrýnia kolory, ale rwnieý kontrast (bia¸e i czarne paski zebry),
p¸ynnoæ linii (od¸amki skalne i otoczaki) oraz ich kierunkowoæ (s¸up-
ki ogrodzenia i roz¸oýone na wszystkie strony p¸atki kwiatw). Zada-
32 å WIAT N AUKI Maj 1997
I nternet wyszed¸ na swoje kilka lat temu, gdy pojawi¸a si« World
13857315.003.png 13857315.004.png 13857315.005.png
RAPORT SPECJALNY
do¸czane s do strony internetowej, aby
automat przeszukujcy potrafi¸ je odczy-
ta. Precyzyjne komentarze napisane
przez cz¸owieka pozwol w przysz¸oæci
na stworzenie bardziej szczeg¸owej cha-
rakterystyki strony niý sporzdzona
przez program indeksujcy.
Jeæli wysokie koszty s uzasadnione,
do tworzenia bibliografii niektrych
miejsc w Sieci angaýuje si« ludzi. Jest to
bardzo pracoch¸onne zaj«cie. Baza da-
nych Yahoo, przedsi«wzi«cie komercyj-
ne, grupuje internetowe miejsca w doæ
rozleg¸e bloki tematyczne. Projekt ba-
dawczy prowadzony w University of
Michigan natomiast stanowi jedn z kil-
ku prb stworzenia bardziej formal-
nych opisw tych stron, ktre zawiera-
j materia¸y interesujce pod wzgl«dem
naukowym.
W jakim stopniu ludzkie umiej«tnoæci
klasyfikacji czy strategie automatyczne-
go indeksowania i wyszukiwania stan
si« potrzebne, b«dzie zaleýa¸o od uýyt-
kownikw Internetu i oceny op¸acalno-
æci przedsi«wzi«cia przez wydawcw.
Dla wielu spo¸ecznoæci naukowych mo-
del zorganizowanego zbioru danych Ð
cyfrowa biblioteka Ð cigle wydaje si«
odpowiedni. Dla innych pozbawione
kontroli, ãdemokratyczneÓ medium mo-
ýe by najlepszym mechanizmem roz-
prowadzania informacji. Niektrym
uýytkownikom, od analitykw finanso-
wych do szpiegw, potrzebny jest do-
st«p do baz zawierajcych dane suro-
we, nie kontrolowane oraz nie reda-
gowane. Dla nich standardowe prze-
szukiwarki s najlepszym narz«dziem
w¸aænie dlatego, ýe nie selekcjonuj
informacji.
bliotece, w ktrej nie klasyfikuje si« zaso-
bw pod wzgl«dem wartoæci. Poniewaý
iloæ informacji zgromadzonych w Sieci
jest ogromna, jej uýytkownicy potrzebu-
j wskazwek, na co poæwi«ci ten ogra-
niczony czas, ktry przeznaczaj na okre-
ælon dziedzin«. Zainteresowani s
poznaniem trzech ãnajlepszychÓ doku-
mentw dotyczcych tematu i otrzyma-
niem tej informacji darmo, bez ponosze-
nia kosztw zatrudnienia ludzi do
analizy i oceny tysi«cy internetowych
miejsc. Jednym z rozwizaÄ, ktre jed-
nak znw wymaga udzia¸u cz¸owieka,
jest dzielenie si« opiniami o tym, co jest
warte zachodu, a co nie. Systemy ocen
zaczynaj juý opisywa uýytkownikom
wartoæ tych miejsc internetowych, kt-
re odwiedzaj [patrz: Paul Resnick, ãFil-
trowanie informacjiÓ, strona 40].
Narz«dzia programistyczne przeszu-
kuj Internet oraz oddzielaj dobre ma-
teria¸y od z¸ych. Mog by jednak po-
To nie tylko biblioteka
Rýnorodnoæ materia¸u w Sieci jest
znacznie wi«ksza niý w tradycyjnej bi-
nie: rýowa kropka na zielonym tle, powoduje znalezienie przez
program fotografii kwiatw i innych przedmiotw o podobnych kszta¸-
tach i kolorach [ ilustracja powyýej ]. Programy te umoýliwi zarwno
wybr wzoru tapety, jak i znalezienie przez policj« cz¸onkw gangu
na podstawie sposobu ubierania si« przez nich.
Wszystkie te programy po prostu porwnuj tylko poszczegl-
ne cechy obrazu. W dalszym cigu potwierdzenie, czy znalezio-
ny obiekt jest kotem, czy poduszk, wymaga oceny cz¸owieka
(lub do¸czenia do ilustracji tekstu). Od ponad 10 lat badacze za-
jmujcy si« sztuczn inteligencj prbuj, z rýnym skutkiem,
zmusi komputery do bezpoæredniej identyfikacji przedstawio-
nych na ilustracji obiektw, niezaleýnie od tego, czy s to koty, czy
flagi. Metoda wprowadza korelacj« mi«dzy kszta¸tami na ilustra-
cjach a geometrycznymi modelami obiektw realnego æwiata.
Dzi«ki temu program moýe wydedukowa, czy rýowy lub br-
zowy walec to, powiedzmy, ludzkie rami«.
Przyk¸adem jest program szukajcy nagich ludzi autorstwa Da-
vida A. Forsytha z Berkeley i Margaret M. Fleck z University of
Iowa. Program ten analizuje najpierw kolory i faktur« fotografii.
Kiedy znajduje kolory odpowiadajce kolorom cia¸a, w¸cza algo-
rytm, ktry poszukuje fragmentw w kszta¸cie walca, mogcych
oznacza rami« czy nog«. Po ich znalezieniu szuka innych wal-
cw w kolorze cia¸a, u¸oýonych pod odpowiednim ktem, ktre
mog by potwierdzeniem obecnoæci na obrazie koÄczyn. W ostat-
nio przeprowadzonym teæcie pogram wybra¸ 43% zdj« ukazuj-
cych 565 nagich ludzi spoærd 4854, co jest dobrym wynikiem jak
na ten rodzaj z¸oýonej analizy obrazu. Ponadto w wypadku zbio-
ru zdj« nie pokazujcych nagich cia¸ da¸ tylko 4% fa¸szywie po-
zytywnych odpowiedzi. Zdj«cia nagich ludzi pochodzi¸y z WWW,
inne fotografie natomiast g¸wnie z komercyjnych baz danych.
Prby stworzenia komputerowego wzroku najprawdopodobniej
b«d trwa¸y jeszcze ca¸e dziesi«ciolecie albo d¸uýej. Przeszuki-
warki potrafice jednoznacznie rozrýni nagich ludzi, koty i fla-
gi narodowe s cigle nie zrealizowanym marzeniem. Jednak
w miar« up¸ywu czasu badacze na pewno zdo¸aj wyposaýy pro-
gramy wyszukujce w umiej«tnoæ rozumienia tego, co widz.
å WIAT N AUKI Maj 1997 33
13857315.006.png 13857315.007.png 13857315.008.png
RAPORT SPECJALNY
HARVEST, w ktrym zastosowano now architektur« przeszukiwarki, moýe utwo-
rzy indeks za pomoc programw ãzbieraczyÓ (gatherers). Umieszczane s one
w oærodkach Sieci (ciemne wieýyczki obok niebieskich kul) lub w centralnym kom-
puterze (wi«ksza szeæcioktna wieýa) . Dzi«ki temu przeszukiwarka nie musi prze-
grywa wszystkich dokumentw z danego miejsca WWW, co znacznie odciýa
Sie. Serwer przeszukiwarki (czerwony obiekt w centrum) moýe po prostu popro-
si roboty zbierajce (fioletowe strza¸ki) o plik ze s¸owami kluczowymi (czerwo-
ne strza¸ki) i przetworzy go w indeks (kartka) , z ktrego skorzysta uýytkownik.
trzebne nowe programy, ktre zmniej-
sz obciýenia powodowane przez ro-
boty internetowe, skanujce co pewien
czas kaýde miejsce w Sieci. Niektrzy
administratorzy serwerw stwierdzaj,
ýe ich komputery trac mnstwo czasu,
dostarczajc robotom informacji po-
trzebnej do indeksowania, zamiast po-
æwi«ci go na obs¸ug« uýytkownikw
¸czcych si« z ich serwerem.
Prbujc rozwiza ten problem, Mi-
ke Schwartz i jego koledzy z University
of Colorado w Boulder stworzyli opro-
gramowanie o nazwie Harvest, ktre
pozwala serwerom WWW stworzy in-
deks danych dla stron na nich umiesz-
czonych i wys¸a go na ýdanie rýnym
przeszukiwarkom. Dzi«ki temu auto-
matycznie indeksujcy robot Harvesta,
czyli robot zbierajcy, zwalnia przeszu-
kiwarki z wysy¸ania sieci ca¸ej zawar-
toæci serwera.
Roboty, tworzc indeks, przenosz na
swj serwer kopi« kaýdej strony, co
zmniejsza przepustowoæ sieci (band-
width). Robot zbierajcy informacje wy-
sy¸a natomiast tylko plik zawierajcy da-
ne do indeksu. Co wi«cej, s to informacje
tylko o tych stronach, ktre zosta¸y zmie-
nione po ostatniej ãwizycieÓ, co rwnieý
znacznie zmniejsza obciýenie sieci
i komputerw do niej pod¸czonych.
Roboty takie jak robot zbierajcy Har-
vesta mog rwnieý pe¸ni inne funkcje.
Dzi«ki nim wydawcy zyskaj coæ w ro-
dzaju ogranicznika zasobu informacji eks-
portowanych z serwerw. Kontrola taka
jest konieczna, poniewaý WWW staje si«
juý czymæ wi«cej niý medium swobod-
nego przekazywania darmowych infor-
macji. Niejednokrotnie u¸atwia dost«p do
danych p¸atnych. Programy przeszuku-
jce nie powinny penetrowa takich ma-
teria¸w. Roboty zbierajce mog¸yby dys-
trybuowa tylko te informacje, ktre chce
udost«pni wydawca, na przyk¸ad odno-
æniki do streszczeÄ lub przyk¸ady za-
mieszczonych materia¸w.
Gdy Internet okrzepnie, decyzja co do
odpowiedniej metody zbierania informa-
cji b«dzie zaleýa¸a g¸wnie od uýytkowni-
kw. Dla kogo wi«c Internet stanie si« ro-
dzajem biblioteki z jej formalnymi za-
sadami tworzenia zbiorw? Dla kogo na-
tomiast pozostanie anarchiczny, z auto-
matycznymi systemami dost«pu?
Uýytkownicy, ktrzy zgodz si« op¸a-
ca autorw, wydawcw, archiwistw
i recenzentw, mog podtrzyma trady-
cj« biblioteki. Tam, gdzie informacja jest
udost«pniana bezp¸atnie lub finansowa-
na przez reklamodawcw, dominowa
b«dzie najprawdopodobniej tanie indek-
sowanie komputerowe Ð w rezultacie
otrzymamy to samo pozbawione upo-
rzdkowanej struktury ærodowisko, z kt-
rym mamy do czynienia obecnie. Wyni-
ka z tego, ýe na metody uzyskiwania
informacji wp¸ynie nie technika, lecz ra-
czej czynniki spo¸eczne i ekonomiczne.
T¸umaczy¸
Jaros¸aw ZieliÄski
Informacje o autorze
CLIFFORD LYNCH jest dyrektorem dzia¸u automatyzacji bi-
bliotecznej rektoratu University of California i tam nadzoruje
MELVYL, jeden z najwi«kszych systemw publicznego udo-
st«pniania informacji. Lynch uzyska¸ doktorat z informatyki
w University of California w Berkeley. Obecnie wyk¸ada w tam-
tejszej School of Information Management and Systems. Jest
by¸ym prezesem American Society for Information Science
i cz¸onkiem American Association for the Advancement of
Science. Kieruje Architectures and Standards Working Group
z ramienia Coalition for Network Information.
Literatura uzupe¸niajca
THE HARVEST INFORMATION DISCOVERY AND ACCESS SYSTEM . C. M. Bowman i in.,
Computer Networks and ISDN Systems , vol. 28, nry 1-2, ss. 119-125, XII/1995.
ãThe Harvest Information Discovery and Access SystemÓ jest dost«pny
w World Wide Web: http://harvest.transarc.com/
THE WARWICK METADATA WORKSHOP: A FRAMEWORK FOR THE DEPLOYMENT OF RE-
SOURCE DESCRIPTION . Lorcan Dempsey i Stuart L. Weibel, D-lib Magazine , VII-
VIII/1996. Dost«pny w World Wide Web: http://www.dlib.org/dlib/ju-
ly96/07contents.html
THE WARWICK FRAMEWORK: A CONTAINER ARCHITECTURE FOR DIVERSE SETS OF META-
DATA . Carl Lagoze, ibid .
34 å WIAT N AUKI Maj 1997
13857315.009.png 13857315.010.png 13857315.011.png
Zgłoś jeśli naruszono regulamin