93

语料库语言学

2016年

第3卷

第1期

大数据背景下

BCC

语料库的

研制

北京语言大学

荀恩东

饶高琦

热心的黑米

臧娇娇

提要:

“北京语言大学语料库中心(

BLCU Corpus Center

,简称

BCC

)

”是以汉语为主、

兼有其他语种的在线语料库。

BCC

总规模达数百亿字,是服务语言本体研究和语言应用研

究的在线大数据系统。

BCC

检索式由字、词和语法标记等单元组成,并且支持通配符和离

合查询。本文将概述

BCC

的总体情况,包括语料库建设情况和检索引擎开发等,重点介绍

BCC

形式化检索语言和在线系统的使用方法。

关键词:

BCC

语料库、大数据、语言检索、检索式

一、引言

在大数据背景下,语言本体研究、语言教学和语言应用研究都离不开语料库

的支持。在语言本体研究中,利用大规模语料,对语言现象进行穷尽式考察,可

以归纳、完善、验证语言理论或观点,又可以通过实证方法,为语言理论的研究

提供数据支撑和量化分析;在语言教学中,语料库可以提供真实的语言素材,用

于教学内容制定和讲解,使语言教学内容选取和教学实施过程更加科学,并可以

支撑辞书和教材的编纂;同时,语料库作为模型训练知识库,在语言信息处理各

种应用中起着不可或缺的作用。

采用语料库进行实证研究历史悠久,国内外一系列语料库系统推动了语言研究

的进步和发展。中文语料库方面,有“国家语委语料库”

“北京大学现代(古代)

汉语语料库”

“中国台湾中央研究院语料库”

“兰卡斯特汉语语料库”等;在英

语语料库方面,有“英国国家语料库(

BNC

)

“美国当代英语语料库(

COCA

)

等。语料库发展到今天,出现了新的特点和需求:

1

)语料库规模越来越大,逐渐进入大数据时代。随着信息社会的发展,个人

微机的迅猛发展和存储数据的硬盘造价持续下降,使得能够记录语言生活的终端

设备越来越普及,数据存储能力越来越强,网络传输速度越来越快,每天产生的

语料数量大大超过以往。这些发展都为大规模语料库的采集提供了技术支持。

2

)语料库成为语言技术进步的知识库。在语言大数据基础上,语言应用技术

快速发展,人工智能在多个应用领域取得突破性进展。这些新技术进步,正在改