安装使用离线版本的维基百科(Wikipedia)

平常大家在上网查询一些基本概念的时候常常会参考维基百科上面的资料,但是由于方校长研制的GFW(长城防火墙系统)强大的屏蔽功能,好多链接打开以后,不出意外会出现著名的"404NOT FOUND",下载离线版的维基百科就可以轻松解决这个问题喽,而且维基百科中文版和英文版查询时都是十分的方便(下载维基数据库源文件可能稍微费时)。

离线版维基数据文件的下载地址

一、文章下载

数据库转储文件,也可特指名为 *-pages-articles.xml.bz2 的文件,大约每周更新一次。此文件包含了当前版本的条目、模板、图片描述及基本的元页面(不包括讨论页和用户页)。这已经可以满足绝大多数需求了,如有特殊需求,请根据压缩文件的描述下载。

从维基媒体基金会提供的页面下载:http://download.wikipedia.com/

(※)注意,不同语言的条目内容不一定相同,欢迎您协助翻译不完善的条目或提出翻译请求。

中文版的下载处:http://download.wikipedia.com/zhwiki/

文言文版的下载处:http://download.wikipedia.com/zh_classicalwiki/

粤语版的下载处:http://download.wikipedia.com/zh_yuewiki/

吴语版的下载处:http://download.wikipedia.com/wuuwiki/

赣语版的下载处:http://download.wikipedia.com/ganwiki/

客家话版的下载处:http://download.wikipedia.com/hakwiki/

闽南语版的下载处:http://download.wikipedia.com/zh_min_nanwiki/

闽东语版的下载处:http://download.wikipedia.com/cdowiki/

英文版的下载处:http://download.wikipedia.com/enwiki/

更多语言的下载处见于ftpmirror.your.org/pub/wikimedia/dumps/,其中多数语种均以ISO 639-1代码区分。

如下图所示


点击中文版下载处的链接,在一串以日期命名的列表中,选择最近的日期的链接,例如我选择的是20130712,点击进入,点击名称为:zhwiki-20130712-pages-articles.xml.bz2的文件进行下载。如图所示:

文件过大的问题

由于维基百科的数据量庞大,在下载时可能会遇到一些问题:

下载软件的限制

下载软件可能会有单一文件最大2GB或4GB的限制,如果遇到问题,可以试着用:

Wget 1.10之后的版本或cURL 7.11.1-1之后的版本下载,axel

最新版的Lynx

最新版的Mozilla Firefox

文件系统对单一文件大小的限制

对于维基百科的文件大小而言,一般比较容易遇到问题的是FAT:

FAT16:单一文件大小的限制是2GB。(在Windows ME及Windows NT可以支持到4GB)

FAT32/VFAT:4GB。

除此之外,建议您使用MD5检查下载的文件是否有损毁。另外下载维基数据库时请尽量不要使用多线程下载工具以减轻维基服务器的负担。

压缩文文件的解压缩

电子文件使用了bzip2或gz或7-zip压缩。解压方式如下:

Microsoft Windows用户可以使用带有GUI的7-Zip解压缩上述两种文件格式。如果需要命令行工具,可以安装cygwin,或者使用google搜索"windows cli bzip2"找解决方案。

Mac OS X的用户可以通过系统内的bzip2包解压缩。或安装p7-zip。

GNU/Linux用户可直接在命令行下使用bzip2或gzip命令进行解压缩。或安装p7-zip。

要注意旧版的bzip2包可能没有办法处理超过2GB的文件。

二、图片及其他文件

参见:Wikipedia:版权信息、Wikipedia:图像版权标志及Wikipedia:图像使用守则

图片(以及其他的文件)的许可证不一定是以知识共享 署名-相同方式共享 3.0协议发布,将维基百科上属于合理使用的图片或文件使用在别的用途上可能是违法的。维基百科要求用户在上传图片时必须标明版权信息,这些信息也可以在下载页面取得。

总而言之,你如果要使用这些图片及文件,你必须自行判断,并负起相关责任。

自2007年5月17日之后,维基百科不再开放这些图片及文件的BitTorrent(BT)下载。

网站使用:处理转储文件

维基百科提供所有完整内容的电子文件(称为"数据库转储文件")给有兴趣的用户。这些数据可以被重复使用,当作镜像站点,或是个人使用,或是数据备份,或是分析。所有维基百科文章都在知识共享 署名-相同方式共享 3.0协议下发布,图片以及其他文件则可能以其他的许可证发布,详情参见Wikipedia:版权信息

数据库转储文件有xml格式的和sql格式的,sql可直接导入数据库。 xml格式需要解析后导入数据库。部分节点需要原样保留空格,请选择支持保留空格的xml解析器进行处理,以免丢失信息。

外部链接提供了一些已有的解析器实现以及wiki标记语言的格式说明,可以作为自制解析器的参考。 当然,中文帮助也是必不可少的。

关于创建维基镜像的操作,可以参考外部链接,或使用Google搜索了解详细步骤。

如果要取得运行维基百科的软件,请参见Wikipedia:MediaWiki。

您可以取得Mediawiki数据库的schema。数据库的布局请参考外部链接。

本地使用:

需要下载WikiTaxi阅读检索工具

WikiTaxi是一个小巧的绿色免安装版的软件,下载以后解压缩就可以直接使用。

首先把wikiTaxi的压缩包(解压缩以后可以直接使用,无需安装)和离线版维基的数据库文件(此文件不需要解压缩)放到同一个文件加下,便于操作。如下图所示(图中的WikiTaxi已经解压缩):

然后打开WikiTaxi_1.3.0文件夹,如下图所示

这时,我们就可以开始导入离线维基百科数据库的工作了,

先新建一个文本文档"CH_Wiki.txt"(新建文本文档的名字可以随意命名为别的名称),把此文本文档的后缀名称改为".taxi"(如上图所示,是改好后的效果)

打开WikiTaxi_Importer.exe文件,①选择离线文件路径;②选择新建好的CH_Wiki.txt文件的路径,如下图所示:

路径选择好以后,直接点击Import Now! 按钮就可以了。

整个导入过程大概要十几分钟左右。

写入完成以后关掉这个小窗口,我们找到WikiTaxi,exe ,双击运行就可以查询。

程序运行效果图一:

效果图二:

注意:

1、英文版的wiki,安装使用方法是类似的,但是数据库文件较大在9G左右,请大家合理分配硬盘空间。

2、下载数据库源文件的时候一定要下载名称为"zhwiki-XXXXXXXX-pages-articles.xml.bz2"(其中XXXXXX为具体的时间),例如我下载的是"zhwiki-20130712-pages-articles.xml.bz2",如果下载错误的数据库文件,会在用"WikiTaxi_Importer"写入的时候出现错误。

3、参考文章,一并表示感谢

 ①:离线使用维基百科:WikiTaxi(单机版的维基百科)

 ②:教你安装离线版维基百科-哲人王与理想国

  ③:WikiTaxi网站(官方网站)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据