Aunque esto sea un cut&paste en toda regla creo que Microsiervos (como suele pasar) ha hecho un post muy divulgativo sobre un tema que aquí nos interesa bastante.
Archive.org por dentro, explicado por su jefe de tecnología
O’Reilly publica una extensa entrevista con el responsable de tecnología de Archive.org, uno de los proyectos más apasionantes de todo la Internet y su «repositorio histórico» de facto. Se titula Gordon Mohr Takes Us Inside the Internet Archives e incluye datos como estos:
- El archivo cubre los últimos 11 años, a partir de finales de 1996
- Contiene unos 100.000 millones de URLs «fotografiadas» en distintas fechas
- El archivo completo, comprimido, ocupa aproximadamente un petabyte (un millón de gigabytes)
- Literalmente tiene miles de servidores, tantos que ni siquiera el «jefe» sabe el número exacto. La parte principal unos 11 racks de 19″ con 40 máquinas 1U en cada uno de ellos, cada una de las cuales cuenta con cuatro discos duros – eso son casi 2.000 discos duros. Son tantos chismes que ellos piensan en «bloques de 40 en 40 máquinas»
- Mediante un acuerdo con la Biblioteca de Alejandría, un par de veces han enviado allí una copia completa de la Web a modo de copia de seguridad…
- … y esa copia eran de hecho las máquinas físicas de Archive.org que se reemplazaron por otras nuevas
- Prácticamente todo Archivo.org corre sobre software libre: históricamente han usado Red Hat, Debian y ahora utilizan prácticamente en exclusiva Ubuntu
El detalle de que la Biblioteca de Alejandría en Egipto sea actualmente un repositorio a modo de copia de seguridad de la mayor red de conocimiento de la actualidad no deja de tener un toque romántico – por aquello de su misterioso a la par que trágico final de una época, que supuso la inestimable pérdida de una gran parte de la cultura de las civilizaciones más antiguas.
(Vía Slashdot – cuya primera versión podía verse así en 1998)
2 Comments