The Past and Futures of Scholarly Internet

by
Dr T. Matthew Ciolek,
Research School of Pacific and Asian Studies,
Australian National University, Canberra ACT 0200, Australia
tmciolek@coombs.anu.edu.au

and

Dr Susan Whitfield,
International Dunhuang Project (IDP),
British Library, London, UK
susan.whitfield@popmail.bl.uk

Document created: 19 Sep 2000. Last revised: 23 Oct 2000

[NOTE: The following two articles, totalling approx. 21,000 characters, were commissioned by the Science & Technology section of a daily "Rzeczpospolita" ("The Republic") (www.rzeczpospolita.pl), Warsaw, Poland. Both articles, appeared in print, in Polish, on page 4 of the newspaper on 19 Oct 2000.]

ENGLISH TEXT

"Futures and Non-futures for Scholarly Internet" by
T.Matthew Ciolek

Dr T.Matthew Ciolek, social scientist and knowledge architect, is the editor of the Asian Studies WWW Monitor (coombs.anu.edu.au/asia-www-monitor.html), Research School of Pacific and Asian Studies, The Australian National University, Canberra, Australia.

"Futures and Non-futures for Scholarly Internet"

Since its beginnings in 1969, the Internet's history has shown that it is a continuously evolving system of three layers. Firstly, there is digital information itself in the shape of data, theoretical models and interpretations. Secondly, there are protocols for storage, finding, acquisition, transmission, processing, and display of such digital information. Thirdly, there is a densely knitted infrastructure (communications, hardware, software) for such protocols. The Internet's ongoing change is a structural feature. The endless evolution of the system is fuelled by ever new opportunities and ever new technological and commercial vistas. These prospects are created by millions of piecemeal improvements made to the Net every day by its navigators and designers. The process of ceaseless transformation of the Net is both 'substantive' and 'procedural' in its character. It means that the process of incremental evolution operates both at the level of the already mentioned layers of the Net, and the level of rules controlling the deployment and interaction of the information, protocols and infrastructure. In short, the Internet is a complex and restless system. As such it continuously revises, mimics, cannibalises and metamorphoses not only its digital 'vocabulary' and 'expressions', but its 'grammar' as well.

The Internet is a contemporary of the Jumbo-jet (Boeing 747) and of the first landing on the Moon (Apollo 11). The 31 years of its existence have been marked by a long series of brilliant software and methodological innovations that have defined, each time afresh, the scope and content of online socialising, entertainment, electronic commerce, business-to-business transactions, directory services, as well as electronic publications and scholarly interaction.

Together these programming developments form six major thematic clusters, each representing a distinct stage in the Internet's evolution:

(i) The age of Telnet-mediated databases. They ruled the Net between 1980 and 1991. Some of the relevant names here are: AVERY INDEX (architecture and planning), DIALOG (science, technology, business), FRANCIS (social sciences & humanities), MEDLINE (medicine), MELVYL (holdings of the U. of California libraries), and the WORLD LAW INDEX;
(ii) The age of FTP archives and the Archie clearinghouse of FTP-based materials (1986-1991). Such a central catalog, to start with, was compiled manually. Later it was built automatically, by software which checked on the addresses and file-names of documents within the range of known online resources;
(iii) The age of WAIS databases and the WAIS clearinghouse (1991-1995);
(iv) The age of Gopher (1991-1995) and of the Veronica/Jughead search engines. From this period onwards search engine directories were automatically created by software which crawled along the network and recorded addresses, file names and details about the content of documents from an unlimited range of online resources;
(v) The age of the incipient WWW (1991-1996). This stage, which we will call WWW1, was characterised by the use of text- as well as graphics-enabled browsers. It was also marked by the existence of static and essentially dumb web pages. That period also saw the creation of Altavista-style search engines;
(vi) The age of advanced WWW technology (WWW2) (1997-present). This stage is characterised by the presence of multimedia-enabled browsers. The content and location of online resources is mapped by intelligent, Google-style search engines. Moreover, the WWW2 world increasingly often depends on pages created on-the-fly in reply to a query posed to an information server. The WWW2 also makes heavy use of Java applets. These mini-programs can be invoked from various online repositories to aid additional local manipulation of information. Finally, the WWW2 witnesses the first experiments with the XML meta-language and XML-compatible data tags for the generation of consistently structured, well shaped and thus interoperable and machine-readable documents.

Taken together, these six stages in the Internet's history can be seen to form a matrix of basic issues and of particular manners of addressing them:

Table 1 
Aspects of main past and future phases of the Internet
-------------------------------------------------------------------
Functionality/Tools	     TEL  FTP  WAIS GOPH WWW1  WWW2  WWW3
===================================================================
TECHNOLOGY 
Richness of functions        no   no   no   no   yes   yes   yes 
Add-on local processing      no   no   no   no   no    yes   yes
Access to the source code    no   no   no   yes  yes   yes   ?
Hypertext (external) 	     no   no   yes  yes  yes   yes   yes
Hypertext (embedded)	     no   no   no   no   yes   yes   yes
Bi-directional hypertext     no   no   no   no   no    no    yes
Dynamic (on-the-fly) pages   yes  no   yes  no   no    yes   yes
Interactivity		     yes  no   yes  no   no    yes   yes
Backward compatability       -    no   no   yes  yes   yes   no
-------------------------------------------------------------------
INTERFACE 
User controlled display      no   no   no    no   yes   yes  yes 
Integration of many inputs   no   no   yes   no   no    ?    yes
Metaphor for the interface*  QB   LI   QB    LI   SW    SW   MA
-------------------------------------------------------------------
CONTENT 
Ease of e-publication        no   no   no   no   yes   no    no 
Use of multimedia 	     no   no   no   no   yes   yes   yes
Content inputed by readers   no   no   no   no   yes   yes   yes
Structured content	     yes  no   no   no   no    no    yes 
Main usage**	     	     Dat  Int  Dat  Int  Int   Int  Dat/Mod/Int
-------------------------------------------------------------------
FINDABILITY 
Directory services***        CL   CL   CL    SE  CL/SE SE    SE 
Meta-data support            yes  no   yes   no  no    yes   yes
-------------------------------------------------------------------


Abbreviations: 
*   Main Metaphors:   	      Query Box, List of Options, Switchboard, Map 
**  Main uses:                Data, Models,Interpretations, 
*** Main directory services:  Clearinghouse, Search Engine

Clearly, the changes in the Internet are not a matter of a simple progress. For instance, online databases accessible in the early 1990s were findable chiefly via slow to produce, manually compiled catalogues and registers (i.e. clearinghouses) of resources. However, they made good use of metadata descriptors and served information in the shape of well organised data. The Gopher-era information was findable via automatically compiled search engines. Yet, it was placed online without any thought for metadata annotations. Also, it consisted chiefly of documents concerned with extensive, if not garrulous, interpretations and discussions.

Table 1 also shows that whereas a query-box approach was employed in the context of Telnet-based databases and the WAIS archipelago; information retrieval during the FTP and Gopher stages of the Internet relied on lists enumerating the range of possible choices. By contrast, the browser software available during the stages WWW1 and WWW2 tended to mimic a switchboard, that is a space filled with series of hypertext links in various parts of an online document. These links were augmented by clickable buttons, each in turn leading to another place on the Web. Finally, Table 1 points out that while the hypertext linkages was already known to the Internauts of the WAIS period, such links were external to the documents they led to. The WWW resources, on the other hand, were able to establish both external and internal links. This means that in the two WWW eras, the hypertext links could not only point to a body of networked information but also point out of it and take the reader to tens and hundreds of other online locations.

The matrix offered by Table 1 is also interesting because it contains hints and intimations with regard to the nature of software and methods of use which we might find on the Internet in the near future.

It is already more than nine years since the incipient WWW technology was launched. That technology, announced in May 1991, combined a generalised data access protocol (thus bringing under a single WWW umbrella all earlier Telnet, FTP and Gopher technologies). It married that protocol with a simple HTML language for document formatting and for creation of mono-directional hypertext connections to the planetary archipelago of resources. Also, it is already seven years since the release of Mosaic, the first browser which provided ready access not only to text- and image-based information, but also, very importantly, to the HTML source-code for all retrieved documents. Due to that feature, all worthwhile (and not so worthwhile) WWW solutions could easily be studied, copied, and creatively modified. From now on information could be placed online by people with no programming skills. However, nine, or even seven years on the Net is a very long time indeed. A new generation of networked technology for the publishing of digital information and for its retrieval and manipulation is bound to be announced any moment now.

So, what would be the most likely features of such brand-new technology? Of course, we are assuming the continuing global spread of inexpensive and reliable infrastructure, as well as the continuing availability of high transmission speeds. Table 1 suggests some of the answers. The new technology is certain to re-use many of the solutions already provided by the WWW1 and WWW2 eras of the Net. Hence, it can be dubbed 'WWW3.'

For instance, the WWW3 will continue to rely on the client-server principle of the division of labour. There will be, however, some major differences too. Firstly, all information served by the WWW3 technology will be most likely precisely controlled, organised and annotated. It will use specialised and carefully crafted XML-conformant tagging schemes in terms of the documents' detailed and intricate semantic content; relationships to multiple geographical, chronological and conceptual contexts; overall logical architecture; and formatting. The latter will be both intelligent and flexible, and will allow an easy use of a variety of printers and display systems. Secondly, the WWW3 will be likely to involve an interface reminiscent of a colourful map or three-dimensional data-space. Such futuristic interfaces will identify, interrelate, annotate and, finally, display large volumes of heterogeneous and often multimedia materials. These will be represented either as existing real-world simulations (e.g. maps of countries and cities, geological strata, structures of organisms and so forth) or a purely conceptual constructs (e.g. history timelines, genealogical trees of ideas, or imaginary landscapes with mountains and valleys fashioned from information assembled in response to a particular query). Finally, the WWW3 technology will be able to access, but not process, the content of earlier online documents. In other words, the new technology will be, essentially, incompatible with the products of previous technologies.

This will be an ominous development. It would suggest that the original division between highly trained publishers and cataloguers of scholarly information and the untrained masses of information consumers, a division made in the worlds of Telnet, FTP, WAIS and Gopher, and one which temporarily disappeared with the advent of simple but ultimately messy WWW1, will be re-established. This also means an advent of the newest digital divide, as far as the networked world goes. The emergent archipelago of reliable and immensely useful networked edifices of clarity, logic, thought and ingenuity, will operate side-by-side with an ever-expanding network of digital slums, that is, systems which will continue to observe the WWW1 tradition of inexpensive, easy to construct but dumb, chaotic and 'anything-goes' technology.

This scenario harbours strife. For the last 3000 years researchers have not had to worry whether their writings have been essentially compatible with the format and logic of other scholarly materials. They all shared the same assumption that the real information processing would occur in the mind of a reader. Thus, during the last few years, the scholarly world has embraced the Internet as a simple extension of that easy going, reassuring philosophy. Many thousands of FTP, Gopher, WAIS, WWW1 and WWW2 information repositories and servers have been constructed in the wholehearted belief that researchers and teachers will be able to continue their activities as before, only this time more easily, more quickly and less expensively.

Now, the impending advent of WWW3 technologies is about to explode this cosy assumption. The Internet, driven by the needs of e-commerce and business, is about to create the means for automatic recognition and analyses of vast arrays of nuggets of individually addressable, networked data and commentaries. Researcher's well trained and disciplined mind is no longer the sole tool for processing of factual and contextual information. It is no longer indispensable for discovery of formally correct relationships and inferences between chunks of online data. The uses of such mind will be now increasingly often replaced by tireless and speedy operations of devilishly clever, and WWW3-centered automatons.

Can the scholarly world, hitherto a temple of reason and an inimitable font of expertise in processing complex sets of information, afford to be overtaken by the world of mere business? Will science agree to such demotion? Will the scholarly world manage to raise the money to undertake yet another costly, lengthy and painstaking re-organisation of its electronic resources so that they can too join the brave new world of the WWW3 populated by online banks, insurance companies, and airlines? Or will they resign themselves to operate as a part of an aging info-slum?

The prognosis is, at the moment, not clear.

"Enjoy It While it Lasts: A Brief Golden Age of Freedom of Scholarly Information?"
by Susan Whitfield

Dr Susan Whitfield, sinologist and historian, is the head of the International Dunhuang Project (idp.bl.uk), British Library, London, UK.

"Enjoy It While it Lasts: A Brief Golden Age of Freedom of Scholarly Information?"

New technologies have always divided communities: the Internet is no exception. In the mid-1990s as it finally entered most scholarly institutions and became genuinely accessible to all, some scholars immediately mounted home pages, published electronic articles and sought funds for online projects. Others, in contrast, refused to have anything to do with it, speaking in tones of doom and gloom of the instability of digital data and other unsurmountable problems. This was always capped with a heart-rending story of some poor researcher who had attempted - unsuccessfully - to access the fruits of his youthful research.

Is this a simple parallel with the contrasting reactions to early industrial-revolution technology - the power loom - of capitalist manufacturers and working-class Luddities? Of course, it is not a straightforward economic matter, but scholars today are speaking in terms of the opportunities or threats that the Internet poses to their work in language reminiscent of our early 19th century forbears.

The Internet Luddites' primary argument is the instability of digital data. Yet no-one in the field claims that digitisation is a archival process and, dependent on rapidly changing technologies, it certainly requires intensive management. But Luddities who cite this as a fundamental flaw fail to understand that, first, it is not intrinsic to the technology and, secondly a solution will no doubt be found, driven, as Ciolek points out, by the needs of e-commerce and big business. In fact, it seems increasingly likely that institutions will take on the responsibility for managing and preserving digital data banks, just as copyright libraries currently manage and preserve printed material.

Whether the solution will be found in time or be inclusive enough for the vast banks of scholarly data already created is a matter of concern, but new technology inevitably results in some casualities. The Luddites were not mistaken in believing that the invention of mechanised looms would marginalise their own skills. Similarly, those scholars who have memorised classical canons - millions of words - now find their once unique and hard-acquired skills - for example, to identify the source from a few words of fragmentary manuscript text - more or less redundant as the source texts are digitised. Anyone, using freely available and powerful search engines, can type in a few words and obtain a list of possible solutions. This is unfortunate for scholars who have spent years in the memorisation, but liberating for other scholars and scholarship in general.

Nor need it be the concern of individual scholars to address other, vital issues relating to digital research - such as how to evaluate digital research; how to adapt to the new working practices that digitisation projects entail; and how to cite digital data - these must be addressed by the scholarly community.

Solutions will be found because of demand for them. Technicians can provide tools, but they cannot, for example, to design a useful relational database for presenting scholarly information on ancient manuscripts. The design has to be a collaborative venture between those with technical expertise and those with expert knowledge of the material. At present, those in a university environment receive no credit for digital research, in contrast to dictionary, concordance or encyclopedia editing. Pascal's recognition of the nature of such work - 'Let no-one say that I have said nothing new; the arrangement of the subject is new' - also holds true for database design. As demand for such tools intensifies and occupies a greater number of scholars, an evaluation system will inevitably be constructed. The first signs of a dialogue are already appearing, in a number of disciplines, and especially in Buddhist Studies.

The collaborative nature of the work is less problematic: it is a model already commonplace in science. Database designers, programmers and inputters will receive joint credit just as do senior scientists - who conceive an experiment - and the post-docs and laboratory assistants who implement it.

Citing digital texts, open to constant revision or disappearance, will become routine as researchers compile metadata - hidden headers which provide information on the date of creation, date of each revision and authors - and as libraries and other bodies recognize their role as preservers of digital data as well as print and paper media.

The Internet has provided a genuine revolutionary leap in terms of access to information. It has confounded the censor and has enabled lone, unfashionable and eccentric voices to be heard. These are qualities which should be welcomed by the scholarly community. Yet this community is no different from others in tending towards a comfortable and exclusive conservativism, concerned, above all, to protect its members rights and to exclude those who threaten the community, either from within or without.

The history of academic censorship has not only seen restrictions imposed from outside. The community is, dismayingly, all too often complicit, with self-censorship not uncommon. Members who threaten the status quo are maginalised: there have been several high-profile cases in science in recents years, such as the controversy over the source of AIDS and the efficacy of homeopathy. It may be that the scientists involved are mistaken in their beliefs and that their methodology is indeed seriously flawed. But all too often the attack on them seems to be motivated by more than the search for scientific truth and has the feel of a mediaeval witch-hunt rather than rational criticism.

It is probably not conincidental that just as the Internet was offering scholars a revolution in the free expression and dissemination of ideas a new mood of scholarly possessiveness, and creeping commercialization - expressed through the concept of 'intellectual property rights'- also started to gain momentum. And this way danger lies. The past few years have already seen an increase in litigation by those claiming that others have stolen their ideas - whether these be songs, scientific theories or film treatments. This has been accompanied by an increasing drive to register exclusive ownership. And it is not only the ownership of ideas which has come under increasingly legal scrutiny in the last decade. Human genes, images of ordinary building and of major collections of artworks are all becoming subject to property laws. These developments are direct threats to the new scholarly freedoms offered by the Internet.

The jury is still out about which side will prevail. Will the Internet revolution continue to threaten those who wish, for whatever purpose, to control information? The scholarly community - for its own well-being if nothing else - ought to side with the revolutionaries, but its past history and inherent conservativism suggests that it may end up in a devil's alliance with business to ensure that ownership is restricted. If this alliance wins then the WWW1 and WWW2's aging info-slum may be the only remnant of a brief age of genuine freedom of information.

We should therefore enjoy it while it lasts.

POLISH TEXT

(Translation by T.M. Ciolek)

Dr T. Maciej Ciolek, antropolog i informatyk, redaktor Asian Studies WWW Monitor (coombs.anu.edu.au/asia-www-monitor.html), Research School of Pacific and Asian Studies, The Australian National University, Canberra, Australia.

[A drastically abridged version of the text below was printed on 19 Oct 2000, p. 4, "Rzeczpospolita", Warsaw, Poland.]

"W obliczu info-ruder i balaganu"

Od samego poczatku w 1969 roku, historia Internetu wskazuje ze jest on trzywarstwowym, nieustannie ewoluujacym systemem. Pierwsza warstwe tworzy numeryczna informacja w postaci danych, teoretycznych modeli i interpretacji. Dalej ida protokoly dla magazynowania, znajdywania, pozyskania, transmisji, i wreszcie przetwarzania i prezentacji takowej informacji. Warstwa trzecia to gesto tkana infrastruktura (tj. telekomunikacja, sprzet i oprogramowanie) wprowadzajaca w zycie powyzsze protokoly. Strukturalna cecha Internetu jest jego ciagla przemiana . Nieustajaca ewolucja systemu jest napedzana coraz to wiekszymi jego mozliwosciami i coraz to nowszymi technicznymi i komercjalnymi perspektywami. Tworza sie one dzieki milionom fragmentarycznych poprawek ktore to nawigatorzy jak i budowniczy Internetu codziennie nanosza na Siec. Proces niekonczacych sie transformacji jest, w swej istocie zarowno merytorycznym, jak tez i proceduralnym. Oznacza to ze dotyczy on wszystkich trzech wymienionych warstw Internetu. Dziala on na poziomie regul co do sposobow ich uzywania, a takze co do form ich wzajemnego wspoldzialania. Innymi slowy, Internet jest zlozonym i niespokojnym systemem: Siec nieustannie rewiduje, nasladuje, kanibalizuje i przemienia nie tylko swoje numeryczne 'slownictwo' i 'sposoby wyrazen', ale takze i swoja 'gramatyke.'

Internet jest rowiesnikiem odrzutowca Boeing 747 (Jumbo-jet) i pierwszego ladowania na ksiezycu (Apollo 11). 31 lat jego zycia charakteryzuje sie dluga seria blyskotliwych innowacji w zakresie oprogramowania i metodologii. Kazdy z tych wynalazkow przedefiniowal - za kazdym razem na nowo - zasieg i tresc kontaktow miedzy jego uzytkownikami, formy internetowych rozrywek, e-handlu, tranzakcji z cyklu 'business-to-business', dostepu do elektronicznych adresow, jak rowniez e-publikacje i naukowe zastosowania Sieci.

Wszystkie te osiagniecia lacza sie w szesc grup tematycznych, kazda reprezentujaca odrebna faze w historii rozwoju Internetu.

(i) Era baz danych dostepnych via Telnet. Bazy takie jak AVERY INDEX (architektura i planowanie), DIALOG (nauka, technologia, handel), FRANCIS (nauki spoleczne i humanistyczne), MEDLINE (medycyna), MELVYL (zasoby bibliotek U. Kalifornia), albo the WORLD LAW INDEX (prawo), dominowaly Siec w latach 1980-1991;
(ii) Era archiw typu FTP i katalogu Archie (1986-1991). Poczatkowo ow centralny katalog budowany byl recznie. Pozniej byl konstruowany automatycznie, za pomoca programu do sprawdzania adresow i nazw plikow na podstawie listy uprzednio znanych zasobow informacyjnych;
(iii) Era baz danych typu WAIS i centralnego katalogu WAIS (1991-1995);
(iv) Era systemu Gopher [ 'Swistak'] i wyszukiwarek typu Veronica/Jughead (1991-1995). Od tej pory rejestry zasobow informacyjnych tworzone byly automatycznie za pomoca wyszukiwarek ktore non-stop szperaly po sieci i kolekcjonowaly adresy, nazwy plikow a takze dane na temat szczegolow ich zawartosci. Wyszukiwarki katalogowaly zasoby z zalozenia nieograniczone;
(v) Era wstepnej technologii WWW (1991-1996). W tej fazie historii Internetu, ktora mozna nazwac 'WWW1', uzyte byly przegladarki dajace dostep zarowno do tekstu jak i grafiki. Etap ten cechowalo powstanie ogromnego archipelagu elektronicznych stronic zbudowanych w sposob statyczny. Rownoczesnie, byly one proste do konstrukcji i 'nieinteligentne.' Faza ta byla rowniez swiadkiem wprowadzenia wyszukiwarek WWW typu Altavista;
(vi) Era technologii WWW2 (1997-chwila obecna). W tej faze Internetu pojawily sie multimedialne przegladarki. Zawartosc oraz adresy zasobow informacyjnych sa takze regularnie katalogowane i odnajdywane na sieci za pomoca inteligentnych wyszukiwarek typu Google. Rownoczesnie, swiat WWW2 coraz czesciej uzywa elektroniczne dokumenty twarzone w sposob dynamiczy, w mgnieniu oka, w reakcji na pytanie nadeslane danemu serwerowi. Technologia WWW2 zaczyna uzywa rowniez uniwersalnego jezyka kompureowego Java i pisanych w nim specjalistycznych mikro-programow, tzw. 'applets.' Takie mini-programy sciagane sa z Sieci by 'ad hoc' dopomoc czytelnikowi w lokalnej a zatem dodatkowej przerobce zebranej informacji. Swiat WWW2 jest rowniez swiadkiem pierwszych eksperymentow w zastosowaniu meta-jezyka XML ('Extensible Markup Language') i zwiazanych z nim strukturalnych i semantycznych identifikatorow ('XML data tags'). Anotacje te umozliwiaja budowanie elektronicznych dokumentow ktore sa spojne, ksztaltne i poprawnie zorganizowane - a zatem dokumentow ktore beda powszechnie poddawalne dalszym automatycznym analizom i transformacjom.

Powyzsze szesc etapow historii Internetu stanowi razem matryce podstawowych problemow i konkretnych rozwiazan.

Tabela 1 
Aspekty glownych etapow Internetu
---------------------------------------------------------------------
Uzytkowosc/Etap	     	    	TEL  FTP  WAIS GOPH WWW1  WWW2  WWW3
=====================================================================
TECHNOLOGIA 
Bogactwo funkcji       	     	nie  nie  nie  nie  tak   tak   tak 
Dodatk.lokalne przetw. danych 	nie  nie  nie  nie  nie   tak   tak
Dostep do surowego kodu    	nie  nie  nie  tak  tak   tak   ?
Hipertekst (zewnetrzny)      	nie  nie  tak  tak  tak   tak   tak
Hipertekst (wbudowany)	     	nie  nie  nie  nie  tak   tak   tak
Dwukierunkowy hipertekst    	nie  nie  nie  nie  nie   nie   tak
Dynamicznie tworzone stronice  	tak  nie  tak  nie  nie   tak   tak
Interakcja z informacja	     	tak  nie  tak  nie  nie   tak   tak
Zgranie z dawna technologia      -   nie  nie  tak  tak   tak   nie
---------------------------------------------------------------------
DOSTEP ('INTERFACE') 
Zmienialny ksztalt informacji   nie  nie  nie  nie  tak   tak   tak 
Integracja wielu zrodel inf. 	nie  nie  tak  nie  nie   ?     tak
Metafora dla dostepu do inf.*   P-O  MEN  P-O  MEN  PRZ   PRZ   MAP
---------------------------------------------------------------------
TRESC 
Latwosc e-publikowania       	nie  nie  nie  nie  tak   nie   nie
Uzycie multimediow 	     	nie  nie  nie  nie  tak   tak   tak
Czytelnik moze dodac tresc   	nie  nie  nie  nie  tak   tak   tak
Ustrukturyzowana tresc	     	tak  nie  nie  nie  nie   nie   tak 
Glowne zastosowania**	     	DAN  INT  DAN  INT  INT   INT   DAN/M/INT
---------------------------------------------------------------------
ZNAJDYWANIE INFORMACJI
Sposoby znajdywania***        	KA   KA   KA    WY  KA/WY WY    WY 
Wykorzystanie meta-danych       tak  nie  tak   nie  nie  tak   tak
---------------------------------------------------------------------

Skroty: 
*   Glowne metafory:   	        Pytanie-Odpowiedz, MENu, PRZelacznik, MAPa 
**  Glowne zastosowania:        DANe, Modele, INTerpretacje
*** Glowne metody:  		KAtalogi, WYszukiwarki

Nie ulega wiec watpliwosci, ze ewolucja Internetu nie jest sprawa prostego postepu. Na przyklad, bazy danych dostepne na sieci we wczesnych latach 1990-tych znajdywane byly przez czytelnikow za pomoca mozolnie bo recznie prowadzonych katalogow. Jednoczesnie, zasoby te zgrabnie stosowaly meta-dane, a takze dostarczaly czytelnikom logicznie zorganizowane zestawy faktow. Z drugiej strony, informacja z epoki Gopher byla lokalizowana za pomoca automatycznie dzialajacych wyszukiwarek. A jednak, takowe informacje magazynowano na Sieci bez uwzglednienia odpowiednich meta-danych. Co wiecej, taka informacja skladala sie glownie z dokumentow pelnych obszernych, a nawet rozgadanych interpretacji i komentarzy.

Tabela 1 ukazuje rowniez, ze technika typu Pytanie/Odpowiedz byla uzywana glownie w kontekscie baz danych typu Telnet i WAIS. Pokazuje ona takze ze zdobywanie informacji w Internetowych epokach FTP i Gopher polegalo na uzyciu roznego rodzaju menu z zakresami mozliwych selekcji. Droga kontrastu, przegladarki budowane w fazach WWW1 i WWW2, bazowaly na analogii do centrali telefonicznej, do przelacznika, to jest ekranu wypelnionego seria hipertekstowych linkow. Polaczenia te, wiodace do roznych obszarow Internetu, mogly lezec niemalze we wszystkich mozliwych czesciach ogladanego elektronicznego dokumentu. Tabela 1 wskazuje wreszcie ze aczkolwiek hipertekstowe linki znane juz byly Internautom z epoki WAIS, to podlaczenia te odbywaly sie zawsze na zewnatrz danego dokumentu. Takie rozwiazanie kontrastuje z technologia WWW1 i WWW2, gdzie linki moga byc tworzone zarowno wewnatrz jak i na zewnatrz elektronicznej stronicy. Tym sposobem w obydwu epokach WWW, hipertekstowe podlaczenia nie tylko zmierzaly do danego zasobu informacyjnego, ale rowniez wiodly z jego srodka do innych jego czesci, jak rowniez do dziesiatkow i setek zupelnie odrebnych miejsc na Internecie.

Matryca zebrana w postaci Tabeli 1 jest interesujaca rowniez i dlatego ze zawiera w sobie sugestie na temat oprogramowania i Internetowych rozwiazan z ktorymi mozemy sie spotkac juz w calkiem niedalekiej przyszlosci.

Od czasu wprowadzenie w zycie technologii WWW minelo wiecej nizli 9 lat. Technologia ta, opublikowana w maju 1991, reprezentowala uogolniony protokol dostepu do sieciowych materialow. Tym samym wlaczala pod wspolna egide WWW inne, wczesniejsze technologie takie jak Telnet, FTP i Gopher, aczkolwiek nie WAIS. Co wiecej, WWW wiazal ten protokol z prostym jezykiem HTML. Za jego pomoca mozna wiec bylo konstruowac elektroniczne dokumenty i tworzyc jednokierunkowe hipertekstowe polaczenia z wiekszoscia istniejacego globalnego archipelagu e-informacji. Takze, od czasu stworzenia Mozaiki minelo nie mniej niz 7 lat. Byla to pierwsza przegladarka czytajaca nie tylko materialy w postaci tekstu, i grafiki, ale rowniez - co jest niewzwykle istotne - dajaca dostep do samych bebechow jezyka HTML definiujacego kazda ze stron WWW. Dzieki temu niezwykle pozytecznemu pomyslowi mozna bylo do woli studiowac, kopiowc i tworczo modyfikowc wszystkie wartosciowe (a takze i niewartosciowe) hipertekstowe rozwiazania. Dlatego tez od tamtej pory informacja mogla byc publikowana na sieci nawet przez osoby, ktore nie mialy zadnego poprzedniego doswiadczenia w zakresie informatyki. Nie ulega jednak watpliwosci, ze na Internecie 9, a nawet 7 lat jest dlugim, ogromnie dlugim okresem czasu. Jest absolutnie oczywistym, ze nowa generacja Internetowej technologii moze byc ogloszona 'orbi et urbi' praktycznie kazdego teraz dnia.

Tak wiec, jakie sa prawdopodobne rysy takiej nieodwolalnie nadchodzacej technologii? Oczywiscie, zakladam tutaj ze niekosztowna i rzetelna infastruktura bedzie sie dalej rozpowszechniac na calym swiecie i ze blyskawicznie szybka komunikacja w dalszym ciagu bedzie osiagalna. Tabela 1 sugeruje niektore z mozliwych odpowiedzi. Zblizajaca sie technologia z pewnoscia wykorzysta szereg z rozwiazan znanych juz Internetowi z epoki WWW1 i WWW2, dlatego tez nazwiemy ja 'WWW3'. Na przyklad, WWW3 bedzie kontynuowac podzial pracy oparty na wykorzystaniu programow typu 'klient-serwer.' Bedzie zawierala w sobie, jednakze, podstawowe roznice. Po pierwsze, jest pewnym, ze informacja tworzona za pomoca technologii WWW3 bedzie precyzyjnie zorganizowana, oznakowana i kontrolowana. Wykorzysta ona specjalistyczne i starannie zaprojektowane systemy anotacji oparte na metodologii XML. Anotacje te wezma pod uwage szczegoly i semantyczne niuanse tresci danego dokumentu, jak takze jego zwiazki wzgledem mnogich geograficznych, czasowych i intelektualnych kontekstow. Wreszcie anotacje te zdefiniuja ogolna logiczna architekture dokumentu i jego konkretny fizyczny ksztalt. Ksztalt ten bedzie zarowno inteligentny jak tez i poddatny narozniejszym zmianom, umozliwiajac tym samym latwe uzycie takiego dokumentu w kontekscie najrozmaitych drukarek i przegladarek. Po drugie, WWW3 najprawdobniej uzyje przegladarki o ekranach przypominajacych kolorowa mape badz tez trojwymiarowa info-przestrzen. Takie futurologiczne ekrany beda mogly zidentyfikowac, skorelowac, opisac i wreszcie przeanalizowac i uksztaltowac wielkie ilosci wielorakich i czestokroc multimedialnych dokumentow. Takowe materialy beda pokazane albo jako reprezentacje i symulacje istniejacego swiata (n.p. mapy krajow i miast, warstwy geologiczne, anatomie organizmow, itd.), albo tez jako logiczne konstrukcje (n.p. diagramy wydarzen historycznych, drzewa genealogiczne pojec, czy tez fantastyczne krajobrazy wypelnione gorami i dolinami zbudowanymi z odpowiedzi pasujacych do danego zbioru pytan). Wreszcie technologia WWW3 bedzie w stanie przeczytac i wyswietlic na ekranie, aczkolwiek nie zanalizowac, zawartosc wczesniejszych internetowych publikacji. Innymi slowy, nowa technologia bedzie fundamentalnie niespojna i niekompatybilna z materialami stworzonymi w ramach poprzednich faz Internetu.

Jest to sytuacja niepokojaca. Sugeruje ona ze podstawowe rozroznienie miedzy solidnie wyszkolonymi redaktorami i wydawcami elektronicznej naukowej informacji a nieszkolonymi masami jej uzytkownikow - rozroznienie uksztaltowane w czasach Telnetu, FTP, WAIS i Gophera, i rozroznienie ktore chwilowo zaniklo w momencie nadejscia prostej lecz w istocie rzeczy balaganiarskiej technologii WWW1 - pojawi sie na nowo. Oznacza ono wprowadzenie do Internetu jeszcze jednej 'zelaznej kurtyny' czy tez 'digital divide.' Nadchodzacy archipelag rzetelnych i uzytecznych informatycznych konstrukcji bedzie bazowac na klarownosci, logice, i oryginalnej mysli. Jednakze bedzie on operowac obok wciaz rosnacego swiata numerycznych ruder, to jest systemow kontynuujacych tradycje WWW1 i WWW2, a wiec tradycje technologii taniej i latwej do zbudowania lecz jednoczesnie bucowatej i rozmamlanej.

Taki scenariusz wrozy naukowemu swiatu klopoty. Przez ostatnie 3000 lat naukowcy nie musieli sie martwic czy ich pisma sa podstawowo spojne z formatem i logika innych naukowych materialow. Zywili oni te same glebokie przeswiadczenie ze prawdziwe przetwarzanie informacji odbywa sie nie gdzie indziej jak w swiadomosci czytelnika. Dlatego tez w ciagu ostatnich kilku lat spolecznosc naukowa potraktowala Internet po prostu jako zbior narzedzi i zasobow bedacych w pelnej zgodzie z taka prosta i uspokajajaca wizja swiata. I z tego tez powodu wiele tysiecy elektronicznych zasobow zostalo energicznie skonstruowanych w oparciu o rozwiazania typu FTP, Gopher, WAIS, WWW1 oraz WWW2. Zbudowano je w szczerym przeswiadczeniu ze badacze i wykladowcy beda mogli kontynuowac swoja oboawiazki tak jak do tej pory, z ta jedynie roznica, ze beda mogli to czynic latwiej, szybciej i mniej kosztownie.

Niestety, przybycie technologii typu WWW3 nieublagalnie zniweczy taki sielski swiat. Internet napedzany wymogami e-handlu i biznesu, szykuje sie do stworzenia techniki i metodologii dla automatycznego rozpoznawania i analizy ogromnych ilosci informacji w ksztalcie individualnie adresowanych fragmentow surowych danych i zwiazanych z nimi notatek i komentarzy. Tym samym precyzyjnie ksztalcony i zdyscyplinowany umysl badacza przestaje byc jedynym mozliwym narzedziem do przetwarzania i interpretacji faktow. Nie bedzie on juz wiecej nieodzownym skladnikiem odkryc formalnie poprawnych zwiazkow (i implikacji) miedzy roznymi fragmentami elektronicznej informacji. Intelektualna expertyza coraz powszechniej bedzie zastepowana niezmordowanymi, szybkimi i diablo zdolnymi machinami nadchodzacego swiata WWW3.

Czy swiat nauki, odwieczna swiatynia mysli i niepowtarzalne zrodlo sposobow operowania skomplikowanymi zbiorami danych, pozwoli sobie na bycie przescignietym przez swiat zwyklego biznesu? Czy naukowcy zgodza sie na taka degradacje? Czy swiat nauki potrafi zdobyc sobie niezbedne fundusze na jeszcze jedna kosztowna, dlugotrwala i drobiazgowa regorganizacje wlasnych internetowych materialow po to by dolaczyc do nowego wspanialego swiata WWW3 pelnego bankow, firm ubezpieczeniowych i linii lotniczych? Czy tez naukowcy podadza sie tym razem i zgodza na internetowa dzialalnosc obejmujaca jedynie siec starzejacych sie info-ruder?

Prognoza, w chwili obecnej, nie jest jasna.

Dr Susan Whitfield, sinolog i historyk, dyrektor International Dunhuang Project (idp.bl.uk), British Library, London, UK.

[An abridged version of the text below was printed on 19 Oct 2000, p. 4, "Rzeczpospolita", Warsaw, Poland.]

"Informacja prawdziwie wolna"

Nowe technologie zawsze dzielily spolecznosci: Internet nie jest tu wyjatkiem. Poczawszy od polowy lat 1990-tych, kiedy to Internet wkroczyl w wiekszosc naukowych instytucji i stal sie naprawde powszechnie dostepnym, wielu z naukowcow natychmiast poczelo budowac wlasne stronice WWW, publikowac elektroniczne materialy i poszukiwac fundusze na elektroniczne projekty badawcze. Inni, dla odmiany, odmowili jakichkolwiek kontaktow z elektronicznym swiatem, utyskujac glosem pelnym grozy i zaloby na temat niestabilnosci numerycznych danych i wielu innych niepokonywalnych problemow. Narzekania te zawsze konczyly sie cisnaca lze z oka historia naukowca-nieboraka ktory probowal - na prozno, rzecz jasna - odnalezc na Sieci owoce swych mlodzienczych badan.

Czy sa tu paralele z kontrastujacymi reakcjami kapitalistow wlascicieli fabryk i robotnikow-Luddystow wobec wynalazku automatycznego krosna w latach wczesno-przemyslowej rewolucji technicznej? Oczywiscie nie jest to kwestia zwyczajnej ekonomii, aczkolwiek dzisiaj naukowcy czesto wypowiadaja sie na temat szans i zagrozen jakie Internet niesie ich pracy, i uzywaja przy tym jezyka calkiem podobnego do tego ktory byl uzywany przez naszych antenatow z poczatku XIX wieku.

Podstawowym argumentem internetowych Luddystow jest niestabilnosc elektronicznej informacji. Jest tak, mimo ze nie twierdzi ze elektronizacja danych jest procesem archiwalnym, zwlaszcza ze jest uzalezniona od szybko zmieniajacej sie technologii, i ze zdecydowanie wymaga intensywnego nadzoru i kierowania. Ale Luddysci ktorzy traktuja niestabilnosc jako podstawe niedomaganie Internetu nie potrafia dostrzec, ze blad ten nie jest nieodzownym rysem nowej technologii, ani tez ze - jak to Ciolek zauwazyl - z pewnoscia problem ten zostanie rozwiazany ze wzgledu chocby na zywotne potrzeby e-handlu i wielkiego biznesu. Szczerze mowiac, wydaje sie coraz bardziej prawdopodobnym ze w pewnym momencie rozmaite instytucje przejma na siebie odpowiedzialnosc za zabezpieczenie i zarzadzania numerycznymi bankami danych, w podobny sposob jak biblioteki czynia to wspolczesnie z materialami drukowanymi.

Czy wlasciwe rozwiazania znajda sie na czas i czy obejma calosc istniejacych i ogromnych juz elektronicznych materialow naukowych jest kwestia wazka. Jednakowoz, nowa technologia niewatpliwie przyniesie ze soba straty. Luddysci nie mylili sie wierzac ze wynalazek mechanicznych warsztatow tkackich zniweczy ich specjalistyczne umiejetnosci. Podobnie, ci z naukowcow ktorzy nauczyli sie na pamiec calych kanonow klasyki - miliony slow - widza teraz ze unikalne i ciezko zdobyte umiejetnosci takie jak, na przyklad, zdolnosc do identyfikacji zrodla na podstawie kilku slow zawartych w strzepie znalezionego rekopisu, staja sie mniej lub bardziej nieistotne w miare jak zrodlowe materialy sa poddawane komputeryzacji. Kazdy - uzywajac powszechnie dostepne i mocarne wyszukiwarki - moze teraz wpisac kilka slow i otrzymac liste mozliwych rozwiazan. Jest to niefortunne dla naukowcow ktorzy strawili cale lata wkuwajac teksty na pamiec, ale jest to wyzwalajace dla innych badczy i dla badan naukowych jako takich.

Rowniez nie jest obowiazkiem indywidualnych naukowcow by znalezc odpowiedzi dla innych kluczowych aspektow internetowych badan, na przyklad - jak oceniac elektroniczne prace, jak adoptowac sie do nowych metodologii narzucanych przez elektroniczne projekty badawcze, i jak cytowac sieciowa informacje. Problemy te musza byc podjete i rozpatrzone przez naukowa spolecznosc jako calosc.

Wlasciwe rozwiazania zostana z pewnoscia znalezione poniewaz jest na to zapotrzebowanie. Technicy moga dostarczyc narzedzi, ale nie moga, na przyklad zaprojektowac uzytecznych baz danych dla prezentacji wiedzy dotyczacej starozytnych rekopisow. Projekt taki jest zawsze przedsiewzieciem w ktorym ludzie z techniczna ekspertyza scisle wspolpracuja z tymi co posiadaja specjalistyczna znajomosc materialu. W chwili obecnej, pracownicy uniwersytetcy nie sa cenieni za badania elektroniczne, w przeciwienstwie do pracy nad drukowanymi slownikami, skorowidzami, czy tez redakcja encyklopedii. Obserwacja Pascala rozpoznajacego prawdziwa istote takiej pracy - 'Niechaj nikt nie twierdzi zem niczego nowego nie powiedzial - jako ze nowa jest aranzacja tematu' - odnosi sie takze do architektury baz danych. W miare jak zapotrzebowanie na elektroniczne narzedzia badawcze rosnie, i zajmuje uwage coraz to wiekszej liczby naukowcow, systemy gwoli oceny takich narzedzi niewatpliwie zostana stworzone. Pierwsze dyskusje na ten temat juz sie pojawily, w wielu dziedzinach wiedzy, a w szczegolnosci w studiach nad Buddyzmem.

Wspolpraca jako charakterystyczny rys internetowej dzialalnosci jest mniej klopotliwa: w naukach scislych jest to model juz od dawna obowiazujacy. Projektanci baz danych, programisci i ci ktorzy wpisuja dane w pamiec maszyny otrzymaja uznanie ich wspolnego przyczynku, w podobny sposob jak dzieje sie to ze doswiadczonymi naukowcami, co wymyslaja eksperyment, i mlodszymi pracownikami i technikami laboratoryjnymi ktorzy taki eksperyment wprowadzaja w zycie.

Sposob cytowania elektronicznych dokumentow poddatnych nieustannym zmianom lub tez skasowaniu, stanie sie sprawa rutynowa z chwila gdy badacze zaczna uzywac metadane, tj. ukryte naglowki z informacja na tremat autorow, daty powstania i kolejnych modyfikacji danego dokumentu; i gdy biblioteki i inne instytucje rozpoznaja swoja prawdziwe role jako piastunow materialow tak elektronicznych jak i drukowanych.

Internet dal nam szanse na prawdziwie rewolucyjny postep w zakresie powszechnego dostepu do informacji. Pomieszal on szyki cenzorowi i sprawil ze samotne, niemodne i ekcentryczne glosy moga byc uslyszane. Jest to unikalna szansa ktore winna byc witana przez naukowa spolecznosc. A mimo to spolecznosc ta nie rozni sie wcale od innych w swej tendencji ku wygodnemu i elitarnemu konserwatyzmowi. Naukowa spolecznosc jest zainteresowana przede wszystkim ochrona swych praw i wykluczeniem tych ktorzy tej spolecznosci zagrazaja, od srodka lub z zewnatrz.

Historia cenzury naukowego swiata zna restrykcje przeciez nie tylko zewnetrzne. Sama akademicka spolecznosc jest tu - niestety - jakzesz czesto winna, a auto-cenzura nie jest rzecza bynajmniej nieznana. Ci z naukowcow ktorzy podwazaja status quo spychani sa na margines. W naukach scislych, w ostatnich latach, wiele bylo glosnych przypadkow tego typu, takich jak, na przyklad, kontrowersje na temat pochodzenia virusa AIDS czy tez skutecznosci homeopatii. Calkiem mozliwe, ze niektorzy z badaczy mylii sie w swych pogladach, rowniez byc moze, ze ich metodologie zawieraly istotne bledy. Wszysko to mozliwe, aczkolwiek nader czesto atak na tych ludzi zdawal sie byc motywowany czyms wiecej nizli tylko poszukiwaniem naukowej prawdy. Mial on bardziej posmak sredniowiecznego polowania na czrownice, nizli racjonalnej krytyki.

Prawdopodobnie nie przypadkowo nowa atmosfera pazernosci i postepujacej komercjalizacji - zwiazana z pojeciem 'intellectual property rights', tj. prawa wlasnosci intelektualnej, pojawila sie wlasnie w momencie gdy Internet zaofiarowal naukowcom rewolucje w swobodnej ekspresje mysli i cyrkulacje idei. I tu mieszka niebezpieczenstwo. Wystarczy ze ostatnie kilka lat bylo swiadkiem wzrostu liczby spraw sadowych inicjowanych przez tych ktorzy twierdzili ze inni skradli ich pomysly - czy to piosenki, lub naukowych teorii czy tez sposobu ujecia danej tematyki w filmie fabularnym. Trendowi temu towarzyszy jeszcze jeden, ten co polega na coraz to czestszym rejestrowaniu wylacznych praw do wlasnosci. I nie jest to bynajmniej tylko wlasnosc idei ktora w ostatnich 10 latach stala sie obiektem zainteresowan prawnikow. Ludzkie geny, prawo do fotografowania najzwyczajnych budynkow jak tez czolowych zbiorow dziel sztuki - wszystko to stopniowo zostaje objete prawami wlasnosci intelektualnej. Wszystkie te przemiany w sposob bezposredni zagrazaja nowym swobodom akademickim niesionym przez Internet.

I nie jest wcale pewnym, ktora strona w koncu zwyciezy. Czy Internet nadal bedzie zagrozeniem dla tych co pragna, z jakiegokolwiek powodu, kontrolowac przeplyw informacji? Spolecznosc naukowa winna stanac po stronie 'rewolucjonistow', jest to w jej zywotnym interesie, nawet jesli inne sprawy nie wchodza w rachube. Jednakowoz sama jej przeszlosc i wbudowany konserwatyzm sugeruja ze naukowcy moga niestety wejsc w pakt iscie diablski z biznesem, po to tylko by sobie tez zarezerwowac prawa do wlasnosci. Jesli takowy alians wygra to wowczas rozsypujace sie info-rudery zbudowane w czasach WWW1 i WWW2 beda jedynym sladem po krotkiej epoce informacji prawdziwie wolnej.

Cieszmy sie Nia zatem, poki jeszcze nie zginela.

visitors to www.ciolek.com since 08 May 1997.

Maintainer: Dr T.Matthew Ciolek (tmciolek@ciolek.com)

URL http://www.ciolek.com/PAPERS/e-scholarship2000.html

[ Asian Studies WWW VL ] [ www.ciolek.com ] [ Buddhist Studies WWW VL ]