El HTML predomina en la Web catalana

20-12-2007

El proyecto PADICAT (Patrimonio Digital de Cataluña), que lidera la Biblioteca de Catalunya con la colaboración del Centre de Supercomputació de Catalunya, ha realizado un exhaustivo análisis de los formatos y tecnología utilitzada en la Web catalana, en base a una muestra de 1.000 páginas web de toda índole.

La radiografía de estas 1.000 páginas web incluidas en el repositorio digital del proyecto permite afirmar que como media, cada página web de Cataluña ocupa 1,33 GB de volumen y contiene una media de 33.942 archivos informáticos. Nunca antes se había analizado la composiciónde la Web catalana con este significativo muestreo.

 

Webs incluidas en el PADICAT/muestra del estudio 1.004
Capturas de diversas ediciones de cada web 2.720
Número total de archivos informáticos 34.077.807
Media de archivos de cada página web 33.942
Volumen total del repositorio PADICAT 1.339,24 GB
Media de volumen de cada página web 1,33 GB

 

Por otra parte, se confirma en el estudio que los formatos más habituales en la Internet catalana son el html (71,69%), jpeg (7,09%), gif (2,45%), y pdf (1,32%), seguidos de otros tipos menos habituales. Para los responsables del proyecto, la presencia mayoritaria de formatos tan populares como estos, que suman el 82,5% del total de formatos existentes en la Web catalana, permite dibujar un futuro positivo por lo que a la preservación de recursos digitales en Internet.
 

Formato Archivos Volumen (GB) % Archivos % Volumen
text/html 24.429.679 592,45 71,69% 55,83%
image/jpg 2.416.055 123,81 7,09% 11,67%
image/gif 834.019 6,79 2,45% 0,64%
application/pdf 449.983 167,34 1,32% 15,77%
no-type 75.070 0,16 0,22% 0,02%
image/png 72.905 1,51 0,21% 0,14%
application/x-shockwave- flash 68.379 5,62 0,20% 0,53%
application/msword 42.150 5,31 0,12% 0,50%
text/plain 39.962 15,77 0,12% 1,49%
text/css 35.668 0,17 0,10% 0,02%
text/xml 35.583 0,46 0,10% 0,04%
application/x-javascript 23.882 0,18 0,07% 0,02%
image/pjpeg 14.514 0,38 0,04% 0,04%
audio/mpeg 10.319 41,1 0,03% 3,87%
application/atom+xml 10.264 0,05 0,03% 0,00%
image/bmp 10.202 2,23 0,03% 0,21%
audio/x-ms-wma 8.869 25,78 0,03% 2,43%
application/download 8.122 0,3 0,02% 0,03%
application/zip 5.730 11,49 0,02% 1,08%
application/xml 5.396 0,05 0,02% 0,00%
application/vnd.ms-excel 5.222 0,55 0,02% 0,05%

 

La Biblioteca de Catalunya, que forma parte del International Internet Preservation Consortium junto a instituciones, tiene con el proyecto PADICAT el objetivo de preservar las páginas web de Cataluña, para garantizar su acceso permanente. el proyecto cuenta con la adhesión de 287 instituciones de todo tipo.