Software

Posteriormente a la fase de análisis y test de software se determinó que se utilizaría el programa informático Heritrix, empleado en la mayor parte de proyectos de captura de recursos digitales. Este es el programa encargado de compilar las páginas web tal y como las ve el usuario que navega por Internet y almacenarlas en archivos comprimidos en formato ARC. A continuación, el programa Heritrix se complementa con NutchWax, o bien la combinación de Hadoop y Wayback, que llevan a cabo unos procesos de indexación de la información compilada que permiten, ulteriormente, utilizar estos índices para localizar los recursos dentro de la colección mediante sus respectivas interfaces de consulta: Wera, que permite la búsqueda por palabras clave a través de los índices generados por NutchWax; y Wayback, que permite la consulta directa por URL en los índices generados por Hadoop y el mismo Wayback.


Se ha aprovechado el programa Web Curator Tool, desarrollado por la National Library of New Zealand y la British Library, como sistema de gestión documental que permite la asignación de metadatos a una parte significativa de la colección, con la intención de poder integrar, en el futuro, el fondo del depósito a la búsqueda en otros catálogos, tanto de la Biblioteca de Cataluña, como de otras instituciones.

PADICAT también ha hecho aportaciones al desarrollo en red de estos programarios:

Ciro Llueca, Daniel Cócera, Natalia Torres, Gerard Suades, Ricard de la Vega (2010). "CAT (Curator Archiving Tool): improving access to web archives = CAT (Curator Archiving Tool): millorant l'accés als arxius web = CAT (Curator Archiving Tool): mejorando el acceso a los archivos web". International Internet Preservation Consortium meeting (Vienna).
http://www.recercat.net/bitstream/2072/85525/6/Padicat_iipc_2010_ESP.pdf