技术与工具 | Wordless:破除语料库研究的门槛与壁垒

Wordless 是一款可用于语言学、文学研究、翻译研究及其他语言文字相关领域研究的多语种集成语料库处理与分析软件。由上海外国语大学语料库研究院21级博士生叶磊开发。

Wordless比付费版wordsmith界面简单,比免费版AntConc功能全面,平行语料检索工具中ParaConc的乱码让人抓狂。Wordless免费、免安装、解压即可运行。详细介绍见 Github**GitHub - BLKSerene/Wordless: An Integrated Corpus Tool With Multilingual Support for the Study of Language, Literature, and Translation

concordancer功能
UTF-8单语语料库试验了一下,运行顺畅。偶尔会崩溃,重新打开就可以了。

下载地址 :
绿色免安装下载解压缩后,双击 Wordless/Wordless.exe即可运行
Windows最新版

  • Github:https://github.com/BLKSerene/Wordless/releases/download/2.2.0/wordless_2.2.0_windows.zip

MacOS最新版

  • Github:https://github.com/BLKSerene/Wordless/releases/download/2.2.0/wordless_2.2.0_macos.zip

Linux最新版
1.Github:https://github.com/BLKSerene/Wordless/releases/download/2.2.0/wordless_2.2.0_linux.tar.gz
历史版本(全系统)
1.百度网盘:https://pan.baidu.com/s/1--ZzABrDQBZlZagWlVQMbg 提取码: wdls

 

Wordless 是一款可用于语言学、文学研究、翻译研究及其他语言文字相关领域研究的多语种集成语料库处理与分析软件。由上海外国语大学语料库研究院21级博士生叶磊开发。

叶磊,上海外国语大学语料库研究院2021级博士生,2017届上海理工大学英语专业学士,2020届上海外国语大学英语语言文学专业硕士,研究兴趣为口笔译研究、语料库翻译研究、语料库工具开发,有陪同口译、会展口译、电话口译等经验,熟悉Python开发,硕士在读期间自主设计并开发了多语语料库集成工具Wordless,获软件著作权两项。

 

工欲善其事,必先利其器。两座大山长期横亘在所有语料库研究人员的面前。其一,建库;其二,检索。前者技术门槛不高,但一眼望不到头的机械重复性劳动足以劝退众多尝试者。后者工作量不大,但较高的技术门槛又让余下的技术小白们望而生畏。使用语料库是为了解决问题,但为了使用语料库又发现了更多问题。克服前者需要体力,克服后者需要智力,而人类智慧的一大体现就是制作和使用工具的能力。

当前,国际上应用最广的语料库检索工具非WordSmith和AntConc莫属。前者功能相对完善,但“界面复杂,不易操作”(Xu & Jia, 2013)。后者界面布局相对合理,操作易于上手,但功能细节又不尽完善。平行语料检索工具中ParaConc一枝独秀,但乱码问题时常令人抓狂,多模态语料检索软件除了ELAN则别无他选。Mac用户被迫掌握了虚拟机的用法只因软件缺少跨平台支持,Windows用户常为软件授权费用而苦恼或选择沦为盗版软件的受害者并日夜遭受良心的谴责。一边是基于简单规则的原始分词法被大量使用,一边是工业级强度的NLP分词算法用户寥寥。“点互信息”(PMI)自被引入(Church & Hanks, 1990)起就被错误地冠以“互信息”(MI)的名字[i](cf. Bouma, 2009)并体现在了部分语料库工具中,WordSmith在Juilland’s D的实现中将总体标准差误解为样本标准差(cf. Scott, 2021)[ii]。Carroll(1970)、Lyne(1985)等众多研究者对Juilland’s D算法进行了多次优化或提出了全新的词频分布算法,但WordSmith截至8.0版本仍仅支持最经典的Juilland’s D算法。统计学、自然语言处理、人工智能等领域的发展突飞猛进,语料库工具的迭代更新却停滞不前。过高的入行门槛限制了语料库研究群体的长期发展,技术壁垒的存在让语料库技术变为一小撮领域精英的专属资源。然而,鱼和熊掌却未必不可兼得,笔者开发Wordless的主要目的之一就是尝试解决上述问题。

Wordless内置了语种及编码检测功能,用户无需手动指定每个文件的语种,也无需担心语料文件编码不明或不同导致的兼容问题。Wordless中的所有功能都会根据各文件的语种设置对每个文件分别进行必要的处理并显示计算结果。

Overview模块提供了各语料文件的整体统计信息,包括可读性统计量、段落/句子/形符/类符/音节/字符数、(标准化)类符形符比、段落/句子/形符/类符/音节长度的均值及标准差、各长度的句子/形符数。可读性统计量中,Wordless支持计算Automated Readability Index、Coleman-Liau Index、Dale-Chall Readability Score、Devereaux Readability Index、Flesch Reading Ease、Flesch Reading Ease (Simplified)、Flesch-Kincaid Grade Level、FORCAST Grade Level、Gunning Fog Index、SMOG Grade、Spache Grade Level、Write Score。

Concordancer模块提供了关键字检索(KWIC)的功能,支持单语/平行检索、以字符/词/句/段落为单位指定上下文展示范围、指定上下文限定条件(如必须/不可包含某词)、结果抽样/搜索/排序、遮蔽搜索词(zapping)以制作填空练习、绘制索引行分布图等。搜索功能支持忽略大小写、(多语)屈折形式匹配(搜索take自动匹配takes、took等)、全字匹配、正则表达式、标签匹配。

 

Wordlist模块提供了词频统计的相关功能,支持统计各语料文件中所有形符的(百分比)频数/分布(dispersion)/调整频数(adjusted frequency)、筛选全小写词/全大写词/首字母大写词/数字/标点、词形归并、(自定义)停用词过滤、绘制折线/词云图等。分布算法中,Wordless目前支持Carroll's D₂、Gries's DP、Gries's DPnorm、Juilland's D、Lyne's D₃、Rosengren's S、Zhang's Distributional Consistency,调整频数算法中,Wordless目前支持Carroll's Um、Engwall's FM、Juilland's U、Kromer's UR、Rosengren's KF。

 

N-gram模块提供了n元组(n-gram)和非连续n元组(skip-gram)的相关功能,功能细节和Wordlist模块类似,不再赘述。

Collocation模块提供了搭配提取的相关功能,支持统计各文件中节点词和其搭配词在各距位上的共现频数/总共现频数/显著性检验统计量/p值/贝叶斯因子/效应量、限定搭配词检索范围(同一句/段)、绘制折线/词云/网络图等。显著性检验中,Wordless支持计算Berry-Rogghe z值、费希尔精确检验、对数似然比、皮尔森卡方检验、单样本学生t检验、z值,贝叶斯因子中,Wordless支持计算对数似然比的贝叶斯因子,效应量中,Wordless支持计算Cubic Association Ratio(MI3)、Dice系数、Jaccard系数、Log-Frequency Biased MD、logDice、MI.log-f、Minimum Sensitivity、Mutual Dependency、Mutual Expectation、互信息(MI)、点互信息(PMI)、Poisson Collocation Measure、Phi系数的平方值。

 

Colligation模块提供了类联接提取的相关功能,支持对未经词性赋码的文件进行自动标注,其余功能细节和Collocation模块类似。

Keyword模块提供了关键词提取的相关功能,支持统计各文件中所有形符在参照语料库及观察语料库中的频数/显著性检验统计量/p值/贝叶斯因子/效应量、限定搭配词检索范围(同一句\段内)、绘制折线/词云/网络图等。显著性检验中,Wordless支持计算费希尔精确检验、对数似然比、曼-惠特尼U检验、皮尔森卡方检验、双样本学生t检验,贝叶斯因子中,Wordless支持计算双样本学生t检验和对数似然比的贝叶斯因子,效应量中,Wordless支持计算%DIFF、Difference Coefficient、Kilgarriff比、Log Ratio、比值比。

Wordless目前支持98种语言和102种编码的检测、至少108个语种的分句/分词/分词还原、42个语种的分音、27个语种的词性标注、45个语种的词形还原、99个语种的停用词表。用户可通过设置界面中的预览功能来对语料进行NLP相关的处理操作。

Wordless提供了多平台支持,包括64位Windows 7/8/8.1/10、macOS 10.11+/11.0+、Ubuntu 16.04+。Wordless完全免费,用户不再因囊中羞涩而苦恼,也无需为繁琐的支付流程而操心。Wordless的所有源代码已在Github开源,未来有志于从事语料库工具研发的研究者不必再经历我曾经历的那一段无前人经验可供参考的痛苦开发时光。

Wordless是我在上外研一末开始的项目,初版经过八个月昼夜不停地学习与开发才得以成功发布,目前已完成多次版本迭代,后续将继续着重优化平行语料的相关功能,并添加依存分析、命名实体识别、多模态语料对齐与检索、NLP模型训练等模块。在一所外语类院校中独自开展这一项目对纯语言专业背景的我来说,其艰辛程度难以言表。因此,我希望能有更多的人参与到语料库工具研发这一困难重重但潜力无限的工作中来,也希望用户能在看到下图所示的启动界面后感受到学习门槛的降低与技术壁垒的破除所带来的研究效率上的提升,专注于对数据结果的分析与解读,而无需再去关注那些本不应被过度关注的技术问题。

 

主页

https://github.com/BLKSerene/Wordless

Github下载

https://github.com/BLKSerene/Wordless#download

云盘下载
(提取码:wdls)

https://pan.baidu.com/s/1--ZzABrDQBZlZagWlVQMbg

使用文档

https://github.com/BLKSerene/Wordless#documentation

引用信息

https://github.com/BLKSerene/Wordless#citing

捐助开发

https://github.com/BLKSerene/Wordless#donating

微信公众号

Wordless

如您身边的人有相关研究需求,向其推荐 Wordless 或转发本文章就是对 Wordless 最大的支持。如您在公开发表的论文及其他成果中使用了 Wordless,请引用以提高其知名度,您可通过上方链接或在 Wordless 的帮助菜单中查看引用信息。如您已注册 Github 账号,可 Watch/Star/Fork Wordless 的仓库以表支持。如您希望为 Wordless 的后续开发提供资金支持,可通过上方链接或在 Wordless 的帮助菜单中向我提供捐助。

 

参考文献

[1]   Bouma, G. (2009). Normalized (pointwise) mutual information in collocation extraction. In C. Chiarcos (Ed.), From form to meaning: Processing texts automatically, proceedings of the biennial GSCL conference (pp. 31–40). National Bureau of Standards. Gunter Narr Verlag.

[2]   Carroll, J. B. (1970). An alternative to Juilland’s usage coefficient for lexical frequencies and a proposal for a standard frequency index. Computer Studies in the Humanities and Verbal Behaviour, 3(2), 61–65. https://doi.org/10.1002/j.2333-8504.1970.tb00778.x

[3]   Church, K. W., & Hanks, P. (1990). Word association norms, mutual information, and lexicography. Computational Linguistics, 16(1), 22–29. https://doi.org/10.3115/981623.981633

[4]   Juilland, A., & Chang-Rodriguez, E. (1964). Frequency dictionary of spanish words. Mouton.

[5]   Lyne, A. A. (1985). Dispersion. In The vocabulary of French business correspondence: Word frequencies, collocations, and problems of lexicometric method (pp. 101–124). Slatkine/Champion.

[6]   Scott, M. (2021). WordSmith Tools Help. https://lexically.net/downloads/version8/HTML/formulae.html

[7]   Xu, J., & Jia Y. (2013). Ji yu R-gram de yu liao ku fen xi ruan jian PowerConc de she ji yu kai fa [The design and development of the R-gram based corpus analysis tool ‘PowerConc’]. Technology Enhanced Foreign Languages, 149, 57–62.

[i] 互信息(MI)在信息论中指点互信息(PMI)的期望值,两者概念不同。

[ii] Juilland’s D的原始文献(Juilland, 1964)虽已不可考,但根据Carroll(1970)表1中转引的计算示例可反推出原公式中使用的是总体标准差,而非样本标准差。在WordSmith的在线文档中,作者认为最后一步计算中分母由n-1改为n效果更好,但经笔者测试后发现其最终的计算结果并未改变,因此推断WordSmith在Juilland’s D的实现中使用的其实是样本标准差,原公式经两次修改后分母中的(n-1)*n的变为了n*(n-1),因此最终结果不变,但“原公式效果不好”的表述有误,实际是作者对原始文献的考据不细致。

 

获取更多信息关注原公众号推送,本文转载自:语言学通讯

作者:上海外国语大学叶磊博士

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据