• arma2中文补丁 > 一种开放式中文命名实体识别的新方法
  • 一种开放式中文命名实体识别的新方法

    免费下载 下载该文档 文档格式:PDF   更新时间:2009-12-01   下载次数:0   点击次数:1
    文档基本属性
    文档语言:English
    文档格式:pdf
    文档作者:Rendy Abraham
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    一种开放式中文命名实体识别的新方法
    齐振宇,赵军,杨帆
    中国科学院自动化研究所模式识别国家重点试验室,北京,100190 E-mail: zyqi@nlpr.ia.ac.cn jzhao@nlpr.ia.ac.cn fyang@nlpr.ia.ac.cn 摘 要:本文研究开放式中文命名实体识别问题.针对传统命名实体识别方法具有训练语料标注困难,自 适应能力不强等缺点,研究人员提出了开放式的命名实体识别.但由于汉语的特殊性,使得开放式中文命 名实体识别的相关研究很少,效果也不理想.本文提出了一种开放式中文命名实体识别方法,模拟语言习 得的过程,从句子结构出发,通过分类器得到含有命名实体的碎片序列,进而从中抽取出命名实体.实验 结果表明,该方法可以较好地从不限领域的中文文本中抽取不限类别的命名实体. 关键词:开放式;命名实体识别.
    A New Method for Open Named Entity Recognition of Chinese
    Zhenyu Qi, Jun Zhao, Fan Yang
    National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences Beijing 100190 E-mail: zyqi@nlpr.ia.ac.cn jzhao@nlpr.ia.ac.cn fyang@nlpr.ia.ac.cn Abstract: This paper focused on the task of open named entity recognition of Chinese. The traditional methods have the following two main problems. Firstly, to label the corpse is very boring work. Secondly, these methods come to big problem when facing domain transfer. Aiming at these two problems, this paper proposed a new Chinese Named Entity Recognition method based on the simulation of language learning. This system first got a set of word sequences of NE or with NE in it. Then it extracted NEs from the set. The experiments show this method can perform well in NE recognition in open Chinese texts. Keywords: Open, Named Entity Recognition
    1
    引言
    命名实体(以下简称"实体" )是文本中承载信息的重要语言单位,其在信息抽取,机 器翻译,自动文摘等多个领域有重要作用.一般来讲,实体在文本中的出现可以有三种形 式:命名性指称,名词性指称和代词性指称.例如在句子"[[美国]总统][奥巴马]出席了会 议,[他]在会上发表了演讲. "中,实体概念"奥巴马"的指称项有三个,其中"美国总统" 是名词性指称, "奥巴马"是命名性指称, "他"是代词性指称.本文主要关注命名性指称 的命名实体. 一般来说,命名实体识别(以下简称"实体识别" )是指识别出文本中实体概念的命名 性指称项.具体的讲,就是识别出待处理文本中三大类(实体类,时间类和数字类) ,七小 类(人名,机构名,地名,时间,日期,货币和百分比)命名实体.由于时间,日期,货 币和百分比的构成有比较明显的规律,识别起来相对容易,因此命名实体识别通常指的1是
    本文受到国家高技术发展计划(863 计划)项目(2006AA01Z014)和国家自然科学基金项目(60673042, 60875041)资助.
    1
    人名,地名和机构名的识别. 命名实体识别的相关研究已经有超过 15 年的历史, 目前的主流方法是统计机器学习方 法,使用标注好的训练集训练模型,然后用训练好的模型来进行实体识别.这类方法实验 效果比较好,但是缺点也明显:一是语料标注很不方便,导致可以利用的语料,特别是针 对大规模实体识别的语料极其难得,给研究工作带来了很大不便;二是自适应能力较差, 对实体类型以及语料的领域性依赖度较高. 由于传统命名实体识别方法存在以上弊端,近年来,对开放式命名实体识别(Open Named- Entity Recognition, ONER)的研究日益增多,正在成为新的研究热点.ONER 主要 有两个特点:一是研究使用的语料更贴近现实,从特殊领域的小规模文本扩展到不限领域 的大规模文本;二是对待识别的命名实体类别进行扩展,从三类到十几,乃至几十类,甚 至不限类别数.可以说,开放式命名实体识别代表了命名实体识别未来的研究方向. 现有的开放式命名实体识别研究基本都集中于英语文本, 利用英语特有的语言特点 (比 如专有名词首字母大写,特定的语言结构等)来设计方法;对于开放式中文命名实体识别, 还很少有相关的研究.本文针对中文语言的特点,提出了一种模拟语言习得过程的开放式 中文命名实体识别方法. 该方法不仅能够识别传统三大类命名实体 (人名, 地名, 机构名) , 也能识别其他类别的命名实体(例如产品名,作品名等) . 在实现过程中,本文首先从大规模语料中通过分词和简单规则得到碎片序列;接下来 利用分类算法对碎片序列进行过滤,保留本身是实体的候选串及含有实体的候选串;最后 从候选实体串中识别出命名实体.实验结果表明,该方法可以较好地从大规模不限领域文 本中不限类别地识别中文命名实体,为开放式中文命名实体识别问题的解决提出了一种可 行的新方法.

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • arma2  arma  2k12中文补丁  2k9中文补丁  英雄萨姆2中文补丁  丧尸围城2中文补丁  变形金刚2中文补丁  巫师2中文补丁  孤岛危机2中文补丁