互联网档案馆
互联网档案馆(网址web.archive.org),是一个公益项目,专门收集互联网上的各种信息,例如视频、音频、网页等等并存储在他家的服务器中。 互联网档案馆(英语:Internet Archive)是美国的一个由Alexa创始人布鲁斯特·卡利创办于1996年的非营利性的、提供互联网多媒体资料文件阅览服务的数字图书馆,总部位于加利福尼亚州旧金山的列治文区,其使命是“普及所有知识”(英语:universal access to all knowledge.)注 1。该“档案馆”提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 迄至2012年10月,其信息储量达到10PB(即10,240TB)5。除此之外,该档案馆也是网络开放与自由化的倡议者之一。 ——摘自维基百科 其中值得关注的就是他们的网页备份项目。这个项目已经做到了对于非常多的网页,对于每一个版本都留下了历史记录。即通过这个项目可以访问大多数网页的任意时间节点的版本,即使这个网站本身已经关停. 为了将这个由字符组成的文明尽可能地保存下来,美国的一家名为互联网档案馆(Internet Archive)的非营利性数字图书馆,收集了大量的网页、视频、音频、软件和电子书。 互联网档案馆从 1996 年起利用网络爬虫抓取了大量网页并存档,至今已经超过 3510 亿个网页,其称为「时光机」(Wayback Machine)项目。 「时光机」的页面非常简洁,只有一个输入栏和搜索按钮,有点像 Google 等搜索引擎。在输入栏输入你想「回到过去」的网站,选择想要穿越日期,就能查看当天被保存下来的网页截图。