翻译必备:国内外23个语料库推荐

微信关注:田间小站

语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。下面推荐一些优质的语料库资源。

一、国内语料库资源

1. 国家语委现代汉语语料库

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2. 国家语委古代汉语语料库

网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

3. 北京大学“《人民日报》标注语料库”

4. 北大语料库——北京大学中国语言学研究中心

北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。(汉英双语语料库目前仅对北大校内用户开放)

5. 北京语言大学高翻学院的“高翻记忆库”

6. 清华大学汉语均衡语料库TH-ACorpus

7. 中央研究院“现代汉语平衡语料库”

专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

8. 中央研究院“近代汉语标记语料库”

9. 中央研究院汉籍电子文献(瀚典全文检索系统)

包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

10. 红楼梦网络教学研究资料中心

元智大学中国文学网络系统研究室所开发的“网络展书读—中国文学网络系统”,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

11. 《红楼梦》汉英平行语料库

12. 搜文解字

包含“搜词寻字”、“文学之美”、“游戏解惑”、“古文字的世界”四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

13. 中国传媒大学“传媒语言语料库在线分词标注系统”

14. 中国传媒大学“媒体语言语料库(MLC)”

15. 哈工大信息检索研究室对外共享语料库资源

该语料库为汉英双语语料库,10万对齐双语句对,同义词词林扩展版。77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库。40个主题,同一主题下是同一事件的不同报道。汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看。问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到。单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

16. 香港教育学院“LIVAC汉语共时语料库”

自1995年开始,以“共时”方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC(Linguistic Variation in Chinese Speech Communities)共时语料库。本语料库最大特点是采用“共时性”视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了“历时性”,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

17. 中文语言资源联盟

Chinese Linguistic Data Consortium(简称ChineseLDC)是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC将建设和收集中文信息处理所需要的各种语言资源,包括词典、语料库、数据、工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源。)

二、国外语料库资源

1. 杨百翰大学语料库

杨百翰大学的Mark Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库美国历史英语语料库美国时代杂志语料库英国英语国家语料库西班牙语料库葡萄牙语料库等15个语料库的资源。该网站每月有13万研究院、教师和学生使用,是目前世界上最广泛使用的网络语料库。

2. 联合国文件数据库

本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。

3. 兰开斯特汉语语料库(LCMC)

应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。LCMC语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过上述网址可以免费索取LCMC预料用于研究之用。

4. 语言开放典藏社群(OLAC)

Open Language Archives Community(OLAC),语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。理论上,用户希望透过单一接口便可以取得任何需要的资源,其中资源种类涵盖:①资料(Data):任何描述语言的相关信息;②工具(Tool):有助于创造、浏览、查询或使用语言数据的计算器资源;③建议(Advice):譬如,告知使用者什么资源具有高可靠度?在此情境中哪一种工具适合采用?当新的数据衍生出时该如何创造?但实际上,却有着语言资源散布在不同的网站、使用者无法得到想要的资源、语言资源在不同网站拥有不同名字(Name)造成召回率(recall rate)低,在其他领域有相同意义,造成正确率低(precision rate)、许多语言资源并非以文字为基础、不确定是否有建议适当软件,以及所提出的建议是否中肯……等问题。OLAC由此诞生。

5. SKETCHENGINE多语言语料库

每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。

6. 美国当代英语语料库(COCA)

Corpus of Contemporary American English(COCA),由美国Brigham Young University的Mark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。