Przeszukując internet.pdf

RAPORT SPECJALNY

PRZESZUKUJC INTERNET

Czy po¸czenie umiej«tnoæci bibliotekarza i komputerowego guru

pomoýe w opanowaniu anarchii w Internecie?

Clifford Lynch

æwiatow bibliotek epoki cy-

frowej. To okreælenie nie wy-

trzymuje jednak nawet pobieýnej ana-

lizy. Internet Ð a szczeglnie jego

zbir multimedialnych zasobw zna-

ny jako World Wide Web Ð nie zosta¸

stworzony z myæl o uporzdkowa-

niu publikacji dajcym moýliwoæ

wyszukiwania ich tak jak w bibliotece.

Jego rozwj doprowadzi¸ do czegoæ, co

da si« porwna do bez¸adnego zbioru

efektw pracy cyfrowych ãmaszyn dru-

karskichÓ na ca¸ym æwiecie. Ten maga-

zyn informacji zawiera nie tylko ksiý-

ki i dokumenty, ale rwnieý dane

naukowe, przepisy, reklamy, notatki ze

spotkaÄ, nagrania audio i wideo, zapi-

sy interaktywnych konwersacji. Rzeczy

efemeryczne przemieszane s z pracami

o wartoæci nieprzemijajcej.

Mwic krtko, Internet nie jest cy-

frow bibliotek. Ale jeæli jego rozwj

umiej«tnoæciami informatyka Ð auto-

matycznego indeksowania i przecho-

wywania informacji. Tylko synteza

obu profesji pozwoli nowemu me-

dium zachowa ýywotnoæ.

Dziæ prawie ca¸a odpowiedzialnoæ

za uporzdkowanie informacji w In-

ternecie spoczywa na technice kom-

puterowej. W teorii oprogramowa-

nie, ktre klasyfikuje i indeksuje zbiory

danych cyfrowych, powinno poradzi

sobie z zalewem informacji zgromadzo-

nej w Sieci, co przekracza moýliwoæci

bibliotekarzy i archiwistw. Do auto-

matycznego przetwarzania informacji

b«d s¸uýy coraz szybsze i coraz taÄ-

sze komputery; pozwoli to unikn wy-

sokich kosztw i opnieÄ zwizanych

z indeksowaniem wykonywanym przez

cz¸owieka.

Ale jak wie kaýdy, kto kiedykolwiek

przeszukiwa¸ Sie, automaty kategory-

zuj informacje inaczej niý ludzie. W

nie straci na tempie i doprowadzi do

uczynienia zeÄ nowego ærodka komu-

nikacji, zajdzie potrzeba zorganizowania

czegoæ bardzo podobnego do tradycyj-

nych us¸ug bibliotecznych. B«dzie si« to

wiza¸o z koniecznoæci uporzdkowa-

nia, udost«pniania i archiwizowania in-

formacji zgromadzonych w Sieci. Na-

wet wtedy Internet nie musi jednak

przypomina tradycyjnej biblioteki, po-

niewaý jego zawartoæ jest znacznie bar-

dziej rozproszona. Umiej«tnoæci klasy-

fikacji i selekcji, ktrymi dysponuj

bibliotekarze, trzeba b«dzie uzupe¸ni

PRZESZUKIWARKA odwiedza (ãprzeczesujeÓ) rýne miejsca w World Wide Web, po-

kazane tu jako niebieskie kule. û¸te i niebieskie linie oznaczaj dane wejæciowe i wyjæcio-

we serwera przeszukiwarki (czerwona wieýa) , gdzie strony WWW s wgrywane. Opro-

gramowanie serwera tworzy indeks (beýowa kartka) , do ktrego ma dost«p uýytkownik.

C z«sto nazywa si« Internet

RAPORT SPECJALNY

pewnym sensie praca wykonywana

przez rozmaite narz«dzia indeksujce

i katalogujce znane jako przeszukiwar-

ki jest wysoce demokratyczna. Maszyna

ujednolica podejæcie do kaýdej informa-

cji. W praktyce ten elektroniczny egali-

taryzm ma rwnieý z¸e strony. Internau-

ci, ktrzy formu¸uj zapytanie, otrzy-

muj cz«sto w odpowiedzi listy zawie-

rajce tysice pozycji. Na listach tych

znajduj cz«sto odnoæniki do nie zwi-

zanych z tematem miejsc, brak na nich

natomiast innych, ktre kieruj do

materia¸w istotnych.

matyczne indeksowa-

nie. Dokumenty w

Sieci nie maj struktu-

ry pozwalajcej pro-

gramom wy¸uska w

sposb niezawodny

najprostszych infor-

macji, ktre cz¸owiek

uzyskuje, przeglda-

jc dokument na ekra-

nie Ð nazwisko autora,

dat« publikacji, d¸u-

goæ tekstu, jego te-

matyk« (informacje ta-

kie nazywaj si« me-

tadanymi). Interneto-

wy robot moýe zna-

le poszukiwany ar-

tyku¸ Jana Kowalskie-

go, ale rwnieý tysi-

ce innych dokumen-

tw, w ktrych to po-

pularne imi« i na-

zwisko pada w tekæcie lub w przypisach

bibliograficznych.

Czasami ta nieselektywnoæ automa-

tycznego indeksowania jest wykorzy-

stywana. Ktoæ moýe spowodowa, by

dany dokument by¸ wybierany cz«æciej,

powtarzajc w nim kilkakrotnie s¸owo

wyst«pujce w wielu zapytaniach, na

przyk¸ad ãseksÓ. Przeszukiwarka poka-

zuje bowiem na pocztku te dokumen-

ty, w ktrych szukane s¸owo pojawia

si« najcz«æciej. Wykonujcy t« sam pra-

c« ludzie nie daliby si« nabra na takie

naiwne sztuczki.

Dla profesjonalisty sporzdzajcego

indeks fakt, ýe cz«æci sk¸adowe doku-

mentu s rýnego rodzaju (od tekstu po

film wideo) nie przedstawia trudnoæci Ð

potrafi je przypisa do okreælonych ka-

tegorii tematycznych. Fotografie z woj-

ny secesyjnej mog na przyk¸ad stano-

wi cz«æ zbioru, ktry zawiera rwnieý

muzyk« z tamtego okresu czy wspo-

mnienia ýo¸nierzy. Archiwista cz¸owiek

potrafi opisa, jak zbir zosta¸ zorgani-

zowany w miejscu, w ktrym magazy-

nuje si« na przyk¸ad programy dla

komputerw Mackintosh. Historia da-

nego miejsca internetowego, cel jego po-

wstania oraz charakter jest natomiast

poza zasi«giem programu przeszuku-

jcego Sie.

Inn wad automatycznego indekso-

wania jest to, ýe wi«kszoæ przeszukiwa-

rek rozpoznaje tylko tekst. Wielkie zain-

teresowanie åwiatow Paj«czyn wzi«¸o

si« jednak std, ýe pozwala ona rwnieý

na wyæwietlanie zdj«, rysunkw czy wi-

deo. Badania nad rozpoznawaniem kolo-

rw i wzorw na ilustracjach przynios¸y

PRZYPUSZCZALNA

LICZBA

SERWERîW WWW

SERWERY .com

(PROCENT WSZYSTKICH SERWERîW)

10 20

50 60

CZERWIEC 1993

GRUDZIEÁ 1993

CZERWIEC 1994

GRUDZIEÁ 1994

CZERWIEC 1995

STYCZEÁ 1996

CZERWIEC 1996

STYCZEÁ 1997

130

620

2740

10 000

23 500

100 000

230 000

650 000

LICZBA KOMPUTERîW BAZOWYCH

(MILIONY)

STYCZEÁ 1993

STYCZEÁ 1994

STYCZEÁ 1995

STYCZEÁ 1996

LIPIEC 1996

1.3

Roboty sieci

2.2

4.9

Mechanizm elektronicznego indekso-

wania zrozumiemy, analizujc, jak sie-

ciowe przeszukiwarki, takie jak Lycos

czy AltaVista, tworz za pomoc progra-

mw indeksy i znajduj informacje,

o ktre pyta uýytkownik. Co pewien czas

uruchamiaj one programy (b«dziemy

je nazywa robotami indeksujcymi Ð

crawlers, spiders, indexing robots) od-

wiedzajce kaýde miejsce w Sieci, ktre

potrafi znale. Miejsce zawiera zbir

dokumentw zwanych stronami inter-

netowymi. Robot indeksujcy przegl-

da strony i stara si« uzyska informacje,

ktre mog pos¸uýy do ich opisu. Proces

ten Ð nieco inny w szczeg¸ach w rý-

nych przeszukiwarkach Ð polega na zlo-

kalizowaniu wi«kszoæci s¸w pojawiaj-

cych si« na stronach internetowych lub

przeprowadzeniu zaawansowanej anali-

zy w celu identyfikacji kluczowych s¸w

czy fraz. Nast«pnie zostaj one umiesz-

czone w bazie danych przeszukiwarki

wraz z adresem dokumentu, z ktrego

pochodz, zwanym URL (uniform re-

source locator). Uýytkownik, korzysta-

jc z przegldarki takiej jak popularny

Netscape, wysy¸a pytania do bazy prze-

szukiwarki. W odpowiedzi otrzymuje li-

st« zasobw internetowych wraz z ich

adresami; klika na nie, gdy chce po¸-

czy si« z danym miejscem.

Internetowe przeszukiwarki odpo-

wiadaj na miliony pytaÄ dziennie. Sta-

je si« jasne, ýe nie s one idealnym na-

rz«dziem do przeszukiwania coraz

wi«kszych zasobw informacyjnych

zgromadzonych w Sieci. Inaczej niý lu-

dzie trudnicy si« archiwizacj automa-

tyczne programy miewaj trudnoæci

z identyfikacj charakteru dokumentu,

jego oglnej tematyki lub rodzaju Ð na

przyk¸ad nie odrýniaj powieæci lub

poematu od reklamy.

Co wi«cej, w Internecie cigle braku-

je standardw, ktre by u¸atwia¸y auto-

9.5

12.9

ROZWîJ I ZMIANY w Internecie oddaje zwi«kszajca si« licz-

ba serwerw World Wide Web, komputerw bazowych i komer-

cyjnych serwerw, czyli tych, ktre znajduj si« w domenie .com

juý pewne rezultaty. ûaden program nie

potrafi jednak wydedukowa ukrytych

znaczeÄ i konotacji kulturowych (nie od-

gadnie na przyk¸ad, ýe obraz, na ktrym

grupa m«ýczyzn si« posila, przedstawia

Ostatni Wieczerz«).

Jednoczeænie cigle zmienia si« struk-

tura sieciowej informacji i cz«sto indek-

sujcy robot nie umie tej informacji od-

czyta. Wiele stron internetowych to juý

nie statyczne pliki, ktre daj si« anali-

zowa i indeksowa za pomoc obecnie

stosowanych programw. Coraz cz«æciej

informacja wyæwietlana w dokumencie

jest tworzona w czasie jej wyszukiwania

Ð modyfikowana zgodnie z ýdaniem

uýytkownika. Serwer potrafi przygoto-

wa map«, tabel« czy tekst, wykorzystu-

jc informacje z rýnych obszarw swo-

jej bazy danych. Wydawca gazety w

Internecie moýe pozwoli czytelnikowi

na okreælenie osobistych preferencji; taka

wersja pisma b«dzie wyæwietla¸a wy¸cz-

nie artyku¸y o interesujcej go tematyce,

na przyk¸ad dotyczce przemys¸u nafto-

wego. Baza danych, z ktrej pochodz

te artyku¸y, nie jest dost«pna dla robota

indeksujcego odwiedzajcego t« zindy-

widualizowan gazet«.

Coraz cz«æciej prowadzi si« badania

zmierzajce do eliminacji niektrych

problemw zwizanych z automatycz-

nymi metodami klasyfikacji. Jedno z

proponowanych podejæ polega na do-

dawaniu metadanych do dokumentw,

tak aby systemy indeksujce mog¸y te

informacje gromadzi. Najlepsze wyni-

ki w tej dziedzinie maj projekty specy-

fikacji Dublin Core Metadata i zwiza-

ny z nim Warwick Framework Ð nazwa

å WIAT N AUKI Maj 1997 31

RAPORT SPECJALNY

IN DEKSO WANI E

PRZE Z CZü OWIEK A

AUTOMATYCZNE INDEKSOWANIE Sie-

ci przez robota analizuje stron« (z lewej)

przez oznaczenie wi«kszoæci s¸w jako ter-

minw indeksujcych (poærodku u gry) lub

grupowanie s¸w w proste wyraýenia (po-

ærodku na dole) . Indeksowanie wykonane

przez cz¸owieka (z prawej) dzi«ki dodatko-

wym informacjom pozwala pozna kontekst

uýytych wyrazw.

pierwszego pochodzi od Dublina w sta-

nie Ohio, drugiego natomiast od War-

wick w Wielkiej Brytanii. Zatrudnione

przy nich zespo¸y zdefiniowa¸y zestaw

metadanych, ktre s prostsze niý w tra-

dycyjnych katalogach bibliotecznych,

oraz opracowa¸y sposoby ich w¸czania

do stron internetowych.

Klasyfikacja metadanych mia¸aby obej-

mowa rýne kategorie: od tytu¸u i auto-

ra do typu dokumentu (np. tekst czy wi-

deo). Ich wyszukiwaniem mogliby si«

zajmowa zarwno ludzie, jak i progra-

my indeksujce. Tak zdobyte metadane

Jak znale obraz w Sieci

Gary Stix

Wide Web z szerok palet fotografii, animacji, rysunkw, dwi«-

ku i wideo, zawierajcych wszystko Ð od wybitnych dzie¸ sztuki

po czyst pornografi«. Pomimo ogromnej liczby materia¸w mul-

timedialnych znalezienie tych, ktre interesuj uýytkownika na

setkach tysi«cy serwerw internetowych, cigle jeszcze wyma-

ga wyszukiwania w indeksach s¸w lub liczb.

Ktoæ, kto wpisze s¸owa ãpolska flagaÓ do popularnej przeszuki-

warki AltaVista, ma szans« dotrze do obrazu polskiej flagi tylko

wtedy, gdy jest ona tymi s¸owami opisana. Ale co ma zrobi ktoæ,

kto pami«ta kolory flagi, ale nie wie, z jakiego kraju ona pochodzi?

Najlepiej by¸oby, gdyby przeszukiwarka pozwoli¸a uýytkowniko-

wi narysowa lub zeskanowa prostokt, ktrego grna po¸owa by-

¸aby bia¸a, a dolna czerwona, i nast«pnie odnalaz¸a podobne ob-

razy wærd milionw ilustracji umieszczonych na serwerach

internetowych. W ostatnich latach techniki ¸czce indeksowanie

s¸w i analiz« obrazu zaczynaj przeciera szlak pierwszym ma-

szynom wyszukujcym grafik«.

Dzi«ki tym prototypowym rozwizaniom moýna juý dziæ doceni

moýliwoæci indeksowania informacji wizualnej, przy okazji wida

jednak rwnieý, ýe obecne narz«dzia s jeszcze prymitywne i ýe

szukajc obrazw, cigle musimy polega na tekæcie. Jeden z pro-

jektw Ð WebSEEk stworzony w Columbia University Ð pozwala

przeæledzi, jak pracuje przeszukiwarka grafiki. WebSEEk zaczy-

na od æcigni«cia plikw znalezionych w Sieci. Nast«pnie wyszu-

kuje wærd nich te, ktre w nazwach maj rozszerzenia, takie jak

GIF czy MPEG, oznaczajce, ýe zawieraj grafik« lub filmy wi-

deo. Ponadto szuka w nazwach plikw s¸w identyfikujcych ich

treæ. Gdy program znajdzie obraz, bada, jakie przewaýaj w nim

kolory i jakie jest ich roz¸oýenie. Dzi«ki tym informacjom moýe

rozrýni fotografie, grafik«, ilustracje bia¸o-czarne lub w rýnych

odcieniach szaroæci. Program rwnieý kompresuje kaýdy obra-

zek i wyæwietla go w postaci ikony, a w przypadku wideo Ð wybie-

ra kilka charakterystycznych klatek z rýnych scen.

Uýytkownik zaczyna wyszukiwanie od wy-

brania z menu kategorii Ð na przyk¸ad ãkotyÓ.

WebSEEk pokazuje wybrane ikony naleýce

do tej kategorii. By ograniczy zakres wyszu-

kiwania, uýytkownik klika na dowoln ikon«

pokazujc czarnego kota. Wykorzystujc prze-

prowadzon uprzednio analiz« kolorw, prze-

szukiwarka dobiera obrazki o podobnej cha-

rakterystyce kolorystycznej. Nast«pna grupa

ikon moýe pokazywa czarne koty, ale rw-

nieý na przyk¸ad koty rude leýce na czarnych

poduszkach. Goæ WebSEEka jeszcze bar-

dziej uæciæla wyszukiwanie, okreælajc, jakie

kolory musi lub jakich nie powinien zawiera

szukany obraz. Wy¸czajc na przyk¸ad kolor

czerwony i ý¸ty, pozb«dzie si« kotw rudych.

Moýe to uczyni jeszcze proæciej, wskazujc te ikony, na ktrych

nie ma czarnych kotw. Do tej pory WebSEEk skopiowa¸ i zain-

deksowa¸ juý ponad 650 tys. obrazkw z dziesitkw tysi«cy ser-

werw internetowych.

Nad projektami wyszukiwania grafiki prowadzone s rwnieý

prace w University of Chicago, University of California w San Die-

go, Carnegie Mellon University, w Media Lab MIT i w University

of California w Berkeley. Liczne firmy komercyjne, w tym IBM i Vi-

rage, stworzy¸y oprogramowanie, ktre moýe by uýywane do

przeszukiwania zbiorczych sieci czy baz danych. Dwie inne fir-

my Ð Excalibur Technologies i Interpix Software Ð po¸czy¸y swo-

je wysi¸ki, by stworzy oprogramowanie dla Yahoo i Infoseeka.

Jeden z najstarszych programw, Query by Image Content (QBIC)

powsta¸y w IBM, dysponuje bardziej wyszukanymi metodami dopa-

sowywania cech obrazu niý, powiedzmy, WebSEEk. Potrafi nie tyl-

ko odrýnia kolory, ale rwnieý kontrast (bia¸e i czarne paski zebry),

p¸ynnoæ linii (od¸amki skalne i otoczaki) oraz ich kierunkowoæ (s¸up-

ki ogrodzenia i roz¸oýone na wszystkie strony p¸atki kwiatw). Zada-

32 å WIAT N AUKI Maj 1997

I nternet wyszed¸ na swoje kilka lat temu, gdy pojawi¸a si« World

RAPORT SPECJALNY

do¸czane s do strony internetowej, aby

automat przeszukujcy potrafi¸ je odczy-

ta. Precyzyjne komentarze napisane

przez cz¸owieka pozwol w przysz¸oæci

na stworzenie bardziej szczeg¸owej cha-

rakterystyki strony niý sporzdzona

przez program indeksujcy.

Jeæli wysokie koszty s uzasadnione,

do tworzenia bibliografii niektrych

miejsc w Sieci angaýuje si« ludzi. Jest to

bardzo pracoch¸onne zaj«cie. Baza da-

nych Yahoo, przedsi«wzi«cie komercyj-

ne, grupuje internetowe miejsca w doæ

rozleg¸e bloki tematyczne. Projekt ba-

dawczy prowadzony w University of

Michigan natomiast stanowi jedn z kil-

ku prb stworzenia bardziej formal-

nych opisw tych stron, ktre zawiera-

j materia¸y interesujce pod wzgl«dem

naukowym.

W jakim stopniu ludzkie umiej«tnoæci

klasyfikacji czy strategie automatyczne-

go indeksowania i wyszukiwania stan

si« potrzebne, b«dzie zaleýa¸o od uýyt-

kownikw Internetu i oceny op¸acalno-

æci przedsi«wzi«cia przez wydawcw.

Dla wielu spo¸ecznoæci naukowych mo-

del zorganizowanego zbioru danych Ð

cyfrowa biblioteka Ð cigle wydaje si«

odpowiedni. Dla innych pozbawione

kontroli, ãdemokratyczneÓ medium mo-

ýe by najlepszym mechanizmem roz-

prowadzania informacji. Niektrym

uýytkownikom, od analitykw finanso-

wych do szpiegw, potrzebny jest do-

st«p do baz zawierajcych dane suro-

we, nie kontrolowane oraz nie reda-

gowane. Dla nich standardowe prze-

szukiwarki s najlepszym narz«dziem

w¸aænie dlatego, ýe nie selekcjonuj

informacji.

bliotece, w ktrej nie klasyfikuje si« zaso-

bw pod wzgl«dem wartoæci. Poniewaý

iloæ informacji zgromadzonych w Sieci

jest ogromna, jej uýytkownicy potrzebu-

j wskazwek, na co poæwi«ci ten ogra-

niczony czas, ktry przeznaczaj na okre-

ælon dziedzin«. Zainteresowani s

poznaniem trzech ãnajlepszychÓ doku-

mentw dotyczcych tematu i otrzyma-

niem tej informacji darmo, bez ponosze-

nia kosztw zatrudnienia ludzi do

analizy i oceny tysi«cy internetowych

miejsc. Jednym z rozwizaÄ, ktre jed-

nak znw wymaga udzia¸u cz¸owieka,

jest dzielenie si« opiniami o tym, co jest

warte zachodu, a co nie. Systemy ocen

zaczynaj juý opisywa uýytkownikom

wartoæ tych miejsc internetowych, kt-

re odwiedzaj [patrz: Paul Resnick, ãFil-

trowanie informacjiÓ, strona 40].

Narz«dzia programistyczne przeszu-

kuj Internet oraz oddzielaj dobre ma-

teria¸y od z¸ych. Mog by jednak po-

To nie tylko biblioteka

Rýnorodnoæ materia¸u w Sieci jest

znacznie wi«ksza niý w tradycyjnej bi-

nie: rýowa kropka na zielonym tle, powoduje znalezienie przez

program fotografii kwiatw i innych przedmiotw o podobnych kszta¸-

tach i kolorach [ ilustracja powyýej ]. Programy te umoýliwi zarwno

wybr wzoru tapety, jak i znalezienie przez policj« cz¸onkw gangu

na podstawie sposobu ubierania si« przez nich.

Wszystkie te programy po prostu porwnuj tylko poszczegl-

ne cechy obrazu. W dalszym cigu potwierdzenie, czy znalezio-

ny obiekt jest kotem, czy poduszk, wymaga oceny cz¸owieka

(lub do¸czenia do ilustracji tekstu). Od ponad 10 lat badacze za-

jmujcy si« sztuczn inteligencj prbuj, z rýnym skutkiem,

zmusi komputery do bezpoæredniej identyfikacji przedstawio-

nych na ilustracji obiektw, niezaleýnie od tego, czy s to koty, czy

flagi. Metoda wprowadza korelacj« mi«dzy kszta¸tami na ilustra-

cjach a geometrycznymi modelami obiektw realnego æwiata.

Dzi«ki temu program moýe wydedukowa, czy rýowy lub br-

zowy walec to, powiedzmy, ludzkie rami«.

Przyk¸adem jest program szukajcy nagich ludzi autorstwa Da-

vida A. Forsytha z Berkeley i Margaret M. Fleck z University of

Iowa. Program ten analizuje najpierw kolory i faktur« fotografii.

Kiedy znajduje kolory odpowiadajce kolorom cia¸a, w¸cza algo-

rytm, ktry poszukuje fragmentw w kszta¸cie walca, mogcych

oznacza rami« czy nog«. Po ich znalezieniu szuka innych wal-

cw w kolorze cia¸a, u¸oýonych pod odpowiednim ktem, ktre

mog by potwierdzeniem obecnoæci na obrazie koÄczyn. W ostat-

nio przeprowadzonym teæcie pogram wybra¸ 43% zdj« ukazuj-

cych 565 nagich ludzi spoærd 4854, co jest dobrym wynikiem jak

na ten rodzaj z¸oýonej analizy obrazu. Ponadto w wypadku zbio-

ru zdj« nie pokazujcych nagich cia¸ da¸ tylko 4% fa¸szywie po-

zytywnych odpowiedzi. Zdj«cia nagich ludzi pochodzi¸y z WWW,

inne fotografie natomiast g¸wnie z komercyjnych baz danych.

Prby stworzenia komputerowego wzroku najprawdopodobniej

b«d trwa¸y jeszcze ca¸e dziesi«ciolecie albo d¸uýej. Przeszuki-

warki potrafice jednoznacznie rozrýni nagich ludzi, koty i fla-

gi narodowe s cigle nie zrealizowanym marzeniem. Jednak

w miar« up¸ywu czasu badacze na pewno zdo¸aj wyposaýy pro-

gramy wyszukujce w umiej«tnoæ rozumienia tego, co widz.

å WIAT N AUKI Maj 1997 33

RAPORT SPECJALNY

HARVEST, w ktrym zastosowano now architektur« przeszukiwarki, moýe utwo-

rzy indeks za pomoc programw ãzbieraczyÓ (gatherers). Umieszczane s one

w oærodkach Sieci (ciemne wieýyczki obok niebieskich kul) lub w centralnym kom-

puterze (wi«ksza szeæcioktna wieýa) . Dzi«ki temu przeszukiwarka nie musi prze-

grywa wszystkich dokumentw z danego miejsca WWW, co znacznie odciýa

Sie. Serwer przeszukiwarki (czerwony obiekt w centrum) moýe po prostu popro-

si roboty zbierajce (fioletowe strza¸ki) o plik ze s¸owami kluczowymi (czerwo-

ne strza¸ki) i przetworzy go w indeks (kartka) , z ktrego skorzysta uýytkownik.

trzebne nowe programy, ktre zmniej-

sz obciýenia powodowane przez ro-

boty internetowe, skanujce co pewien

czas kaýde miejsce w Sieci. Niektrzy

administratorzy serwerw stwierdzaj,

ýe ich komputery trac mnstwo czasu,

dostarczajc robotom informacji po-

trzebnej do indeksowania, zamiast po-

æwi«ci go na obs¸ug« uýytkownikw

¸czcych si« z ich serwerem.

Prbujc rozwiza ten problem, Mi-

ke Schwartz i jego koledzy z University

of Colorado w Boulder stworzyli opro-

gramowanie o nazwie Harvest, ktre

pozwala serwerom WWW stworzy in-

deks danych dla stron na nich umiesz-

czonych i wys¸a go na ýdanie rýnym

przeszukiwarkom. Dzi«ki temu auto-

matycznie indeksujcy robot Harvesta,

czyli robot zbierajcy, zwalnia przeszu-

kiwarki z wysy¸ania sieci ca¸ej zawar-

toæci serwera.

Roboty, tworzc indeks, przenosz na

swj serwer kopi« kaýdej strony, co

zmniejsza przepustowoæ sieci (band-

width). Robot zbierajcy informacje wy-

sy¸a natomiast tylko plik zawierajcy da-

ne do indeksu. Co wi«cej, s to informacje

tylko o tych stronach, ktre zosta¸y zmie-

nione po ostatniej ãwizycieÓ, co rwnieý

znacznie zmniejsza obciýenie sieci

i komputerw do niej pod¸czonych.

Roboty takie jak robot zbierajcy Har-

vesta mog rwnieý pe¸ni inne funkcje.

Dzi«ki nim wydawcy zyskaj coæ w ro-

dzaju ogranicznika zasobu informacji eks-

portowanych z serwerw. Kontrola taka

jest konieczna, poniewaý WWW staje si«

juý czymæ wi«cej niý medium swobod-

nego przekazywania darmowych infor-

macji. Niejednokrotnie u¸atwia dost«p do

danych p¸atnych. Programy przeszuku-

jce nie powinny penetrowa takich ma-

teria¸w. Roboty zbierajce mog¸yby dys-

trybuowa tylko te informacje, ktre chce

udost«pni wydawca, na przyk¸ad odno-

æniki do streszczeÄ lub przyk¸ady za-

mieszczonych materia¸w.

Gdy Internet okrzepnie, decyzja co do

odpowiedniej metody zbierania informa-

cji b«dzie zaleýa¸a g¸wnie od uýytkowni-

kw. Dla kogo wi«c Internet stanie si« ro-

dzajem biblioteki z jej formalnymi za-

sadami tworzenia zbiorw? Dla kogo na-

tomiast pozostanie anarchiczny, z auto-

matycznymi systemami dost«pu?

Uýytkownicy, ktrzy zgodz si« op¸a-

ca autorw, wydawcw, archiwistw

i recenzentw, mog podtrzyma trady-

cj« biblioteki. Tam, gdzie informacja jest

udost«pniana bezp¸atnie lub finansowa-

na przez reklamodawcw, dominowa

b«dzie najprawdopodobniej tanie indek-

sowanie komputerowe Ð w rezultacie

otrzymamy to samo pozbawione upo-

rzdkowanej struktury ærodowisko, z kt-

rym mamy do czynienia obecnie. Wyni-

ka z tego, ýe na metody uzyskiwania

informacji wp¸ynie nie technika, lecz ra-

czej czynniki spo¸eczne i ekonomiczne.

T¸umaczy¸

Jaros¸aw ZieliÄski

Informacje o autorze

CLIFFORD LYNCH jest dyrektorem dzia¸u automatyzacji bi-

bliotecznej rektoratu University of California i tam nadzoruje

MELVYL, jeden z najwi«kszych systemw publicznego udo-

st«pniania informacji. Lynch uzyska¸ doktorat z informatyki

w University of California w Berkeley. Obecnie wyk¸ada w tam-

tejszej School of Information Management and Systems. Jest

by¸ym prezesem American Society for Information Science

i cz¸onkiem American Association for the Advancement of

Science. Kieruje Architectures and Standards Working Group

z ramienia Coalition for Network Information.

Literatura uzupe¸niajca

THE HARVEST INFORMATION DISCOVERY AND ACCESS SYSTEM . C. M. Bowman i in.,

Computer Networks and ISDN Systems , vol. 28, nry 1-2, ss. 119-125, XII/1995.

ãThe Harvest Information Discovery and Access SystemÓ jest dost«pny

w World Wide Web: http://harvest.transarc.com/

THE WARWICK METADATA WORKSHOP: A FRAMEWORK FOR THE DEPLOYMENT OF RE-

SOURCE DESCRIPTION . Lorcan Dempsey i Stuart L. Weibel, D-lib Magazine , VII-

VIII/1996. Dost«pny w World Wide Web: http://www.dlib.org/dlib/ju-

ly96/07contents.html

THE WARWICK FRAMEWORK: A CONTAINER ARCHITECTURE FOR DIVERSE SETS OF META-

DATA . Carl Lagoze, ibid .

34 å WIAT N AUKI Maj 1997

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: