网站归档格式 WARC(Web Archive)

.WARC 文件是一个存档文件,其中包含有关网站的信息,这些信息是从Internet机器人执行的用于存档的“爬网”中收集的。它存储.WARC 条记录,其中可能包括有关网站使用的HTML、CSS、图像、视频和脚本的信息。.WARC 文件还包含有关如何以及在何处检索web信息的元数据。
说明:
Web ARChive(.WARC (格式)是对Internet ARChive.ARC 格式的改进,用于在Web上归档信息。.WARC 格式的改进之一是支持捕获有关归档过程的元数据。
.WARC 格式被广泛认为是图书馆系统在网上归档和记录信息的标准。也可供web开发人员在归档设计趋势时参考。
注意:用gzip压缩压缩的.WARC 个文件显示为.WARC gz文件。

ZIM 格式

ZIM格式是一种自由档案格式,用于存储Wiki内容,以便离线浏览。
它重要关注的是维基百科和其它维基百科项目。这种格式允许压缩文章,支持全文搜索索引以及本地分类和图像管理,类似MediaWiki。和原始的WikipediaXML维基百科:数据库下载不同,整个文件可以容易的索引,并且可以被类似Kiwix的程序读取。维基百科在2012年一月分的镜像大概有三百八十万篇不含图片的文章,有7.5GiB,对应的ZIM文件有9.7GiB(大约30%的额外开销)。除了自由文件格式,openZIM项目还提供一个开源的ZIM阅读器。
ZIM文件格式替代了早期的Zeno文件格式。ZIM意为“ZenoImproved”(改进的Zeno)。openZIM项目由WikimediaCH赞助,同时由维基媒体基金会支持。

zimit

Zimit is a scraper allowing to create ZIM file from any Web site.
Zimit Github

ZIM Reader

kiwix-desktop github
kiwix sourceforge
Kiwix是一款用于离线阅读网站内容的软件。现在桌面有安卓、Linux、谷歌和火狐浏览器插件版本。移动端有iOS和安卓版本。用户只需要用本地的服务器,就可以快速下载离线包。

参考