一个面向传统语言学研究的语料库一体化系统
[摘 要]:在语言研究中,语料的收集和检索是一个很重要的问题.本文介绍了一个集成语料下载,网页内容解析,语料库信息抽取建库,语料信息检索等功能的语料库一体化系统,并详细阐明了其原理,功能和使用方法.该系统界面友好,功能强大,简单易操作,适合语言学研究者使用.
[关键词]:语料库系统,语料下载,网页内容解析,语料库信息抽取建库,语料信息检索
[中图分类号] [文献标识码] [文章编号]
语言学研究在很大程度上是依赖于材料的,材料的收集和检索是一个很重要的问题.以前基于"法不十不立"思想的材料个案枚举式方法显然已经不适合网络时代的语言学研究;由于语言学研究者大多是文科出身的,对计算机处理大规模数据的方法不是很熟悉,而且,单纯依靠计算机工作者的协作,又很难满足语言学研究者的个性化要求.因此,如何让语言学研究者能简单方便地构建自己的语料库,从而快速汇集大规模真实文本进行检索研究已经成为语言学研究中一个关键性的问题.
在近两年实践经验的基础上,我们完成了一个集成以上功能的语料库软件系统,系统界面友好,简单易操作,只需用户选择或输入一些参数即可构建自己的语料库及检索系统.
本文将在如下几个方面进行介绍:语料下载,网页内容解析,语料库信息抽取建库,语料信息检索.
1.语料下载
随着英特网的发展,网络资源日益丰富,建设超大规模平衡语料库已经变得非常简单易行.但网络的膨胀也带来了语料库建设的其他问题,那就是巨量数据的自动处理.如此丰富的网络资源显然不太可能靠人工来操作,因此网页自动下载,网页内容解析,语料库信息抽取建库及语料信息检索成为了一个高度自动化的语料库软件系统必须考虑的几个问题.
语料下载模块主要利用已有的下载软件完成语料的大规模自动下载.
鉴于网上已经存在性能优异的下载软件,我们没有自主开发网页下载软件模块.现行比较好的网络资源下载软件有Spidersoft公司出品的Webzip,它能够完整下载网站的内容,也可以选择自行设置下载的层数,文件类型,网页与媒体文件的定位以及网址过滤器,以便按己所需地获取网站内容,而且下载到本地硬盘中的网站内容将保持原本的 HTML 格式,其文件名与目录结构都不会变化,Webzip并支持断点续传与使用代理服务器,其他类似软件还有Teleport Pro.
我们要做的只不过是确定和生成下载目标网站的批量网页网址,比如某网站零四年六月二日的回顾网页网址为"http://news.tim.com.cn /news1000_20040602.shtml",那么依此类推,只要将"20040602"置换成任意年月日,就以批量生成每一年每一月每一天的网页网址(Webzip有此批量添加功能),然后设定下载的层数(如当前页面和一层),文件类型(html)及网址过滤器(以"news.tim"起始).让电脑下载一个晚上,第二天早上我们就可以轻而易举获得巨量网页了(十万级网页个数).
2.网页内容解析
自动获得大量网页数据后,由于网络上采集的网页是半结构化的,往往结构复杂,含有繁复的Html标记,语料信息湮没在芜杂的网页标记之中,而且网页缺乏相应的语义标记,无法直接提取文本结构内容.因此必须对已下载的网页进行内容解析,才能得到干净有效,分门别类的语料信息,去除冗余标记,格式化语料.
通常的做法是采取"剩余法",即简单地去除所有Html标记,余下所有非标记字符.而一个网页往往承载了很多内容,如导航条,下载提示,搜索入口,热点推荐,广告,图片文字等等,太多的冗余文字占了很大比例;而且更重要的是这些剩下的文字不分内容类别,如标题,时间,正文等,眉毛胡子一把全堆在一起,无法进行过信息的定位抽取.这样既丢失了很多有用信息,影响后续处理质量,如词频统计.因此探求一种既最大限度保留有用信息又有效去除冗余标记文字的网页清洗和内容解析方法显得非常重要.
我们根据以往经验采用抽取法,不是过滤,而是提取有效信息.
Html有一套完整的语法命名规则,理论上应该可以根据Html标记语法来确定语料信息内容起止标志,如:
标题
时间
但由于网页模板各具风格,或者追求网页效果的原因,设计者并不遵循统一的标记体系命名原则,没有统一的网页标记代码,因此无法全自动确定文本提取内容锚点.
幸运的是,一个网站往往具有一个统一的网页模板,不会轻易更换,因而我们还是可以根据网页标记来确定语料信息抽取的前后起止标记.
如某网站语料信息抽取起止标记如下:
正文始 正文终
下一页