PADICAT, la memòria d'Internet

11-09-2006

Coincidint amb la celebració de la Diada Nacional de Catalunya s'ha posat en operació pública el servidor Patrimoni Digital de Catalunya (PADICAT), un nou dipòsit destinat a recollir i preservar tota la producció cultural, científica i de caràcter general catalana produïda en format digital.

La història de la humanitat és la història del seu llegat. Antigament, les tradicions, el saber i la cultura d'un poble es transmetia de forma oral. En el segle XV, amb l'arribada de la impremta i amb ella l'accés al coneixement escrit, la preservació del patrimoni va restar millor garantida gràcies a un nou format, el paper, que permetia la seva recopilació i preservació a les biblioteques. Avui dia, la Societat de la Informació ha posat al nostre abast una altra forma de transmissió del coneixement, l'entorn digital.

PADICAT va iniciar-se com a projecte l'any 2005 i es preveu que estigui plenament consolidat el 2009, any en què tindrà una capacitat de 30 TB i contindrà fins a 100.000 webs i 50 milions d'arxius i donarà accés en línia a bona part de la seva col·lecció. Aquest dipòsit està impulsat per la Biblioteca de Catalunya i compta amb la col·laboració del CESCA com a soci tecnològic i amb el suport de la Secretaria de Telecomunicacions i Societat de la Informació.

El passat 21 de juliol es van començar a recopilar de manera automatitzada els webs susceptibles de formar part del Patrimoni Digital de Catalunya, essent els primers els de l'Ajuntament de Berga i de Palafrugell, i els dels col·legis professionals d'Aparelladors i Arquitectes Tècnics de Tarragona i de diplomats en Treball Social i Assistents Socials de Catalunya.

També s'han iniciat els primers acords per dipòsit voluntari amb aproximadament 100 institucions que han volgut participar al dipòsit. Els organismes susceptibles de formar-hi part són els anomenats agents de la producció digital (autors, editorials, universitats, col·legis professionals, administració, etc.). La cessió voluntària dels seus webs permet solucionar el problema del seu tractament i difusió, i alhora, contribueix a la creació de la memòria històrica digital de Catalunya.

El Patrimoni digital


Les tecnologies de la informació i la comunicació han facilitat que la documentació cultural i científica, a més de la resta d'informació, es presenti en format digital. Aquest fet ha suposat nombrosos avantatges: agilitat i rapidesa en la producció, facilitat d'accés, difusió arreu del món... però també inconvenients, com ara un difícil control, preservació i garantia d'accés permanent. Des de la dècada del noranta, administracions de diversos països han promogut estratègies per solucionar aquests problemes i assegurar la compilació, el tractament, la preservació i la difusió de la producció bibliogràfica publicada a internet. Dipòsits com PADICAT permeten assegurar aquest accés, alhora que preserven el patrimoni digital del país.

Diversos països, a través de les seves biblioteques nacionals, han iniciat accions per assegurar la pervivència de la seva producció digital, ja que un document que no existeixi en un altre format que no sigui l'electrònic original té difícil la seva preservació. Aquest fet és conseqüència de la dificultat de localització, el gran volum i la baixa permanència dels materials publicats a internet (l'UK Web Archiving Consortium fixa en 44 dies la mitjana de vida d'una pàgina web). A més, l'obsolescència del text legal espanyol en matèria de producció digital i la inexistència, en la llei de propietat intel·lectual del producte digital, d'un dret basat en el principi de còpia per a preservació dificulten encara més aquest objectiu.

Per aquest motiu, avui dia ja existeixen diversos dipòsits digitals nacionals com a garantia d'accés a llarg termini als recursos digitals generats en diferents països. Els primers dipòsits dedicats a arxivar el web nacional han estat el suec Kulturarw3 i l'australià Pandora, mentre que una iniciativa de caràcter més ampli és el dipòsit d'abast internacional Internet Archive.

D'aquestes experiències prèvies s'extreuen tres models de dipòsits digitals nacionals: l'integral o exhaustiu, que persegueix la integració automàtica del web a partir de criteris infraestructurals (lingüístics, domini web, ubicació servidor...); el selectiu, dedicat a compilar el web seguint una política selectiva (una temàtica concreta, un espai geogràfic determinat...), i per últim, i fruit d'una combinació dels dos anteriors existeix el model híbrid, en el que es basa PADICAT, que complementa la captura periòdica del web nacional, en aquest cas el web català, amb accions selectives (acords segons interessos temàtics), ampliant l'abast en alguns casos a determinats esdeveniments d'interès social com ara les eleccions autonòmiques del proper mes de novembre.

De manera més concreta, l'abast temàtic de PADICAT se centra en els webs sota el domini .cat, sota altres dominis (.es, .com, .net, etc.) en llengua catalana, ubicats a servidors de Catalunya o altres webs que no compleixen els requisits anteriors però que estan relacionats temàticament amb Catalunya.


El programari

El procés de funcionament de PADICAT consta de tres parts claus: la captura dels recursos, la seva organització i el seu accés permanent. Per a la captura de recursos es fa servir el capturador Heritrix, que explora la xarxa i emmagatzema els webs d'acord amb uns criteris configurats prèviament. Per realitzar la indexació i com a motor de cerca s'utilitza l'eina Nutchwax, inspirada en el cercador Google. Per últim, la consulta es mostra mitjançant Wera, una interfície per a la visualització dels resultats de les cerques.

El dipòsit està desenvolupat amb programari lliure. Concretament, el capturador Heritrix és el mateix programari que fa servir, des de 1996, l'Internet Archive, cosa que garanteix la seva eficiència per a aquest tipus de dipòsits. A més, la resta d'aplicacions que formen part del dipòsit estan gestionades per la mateixa institució, qui també porta a terme el seu desenvolupament.

D'altra banda, PADICAT s'allotja al clúster d'e-informació d'alta disponibilitat del CESCA, on també es troben els altres dipòsits, TDX, RACO i RECERCAT, en els que el Centre també hi participa.

Per tot això, PADICAT confecciona la bibliografia nacional més enllà dels formats tradicionals i esdevé el protagonista de la futura recerca i de la preservació i transmissió del patrimoni digital de Catalunya, entès com un sistema útil per a la societat i les institucions que la formen.