博 究生学位论文
题目:Web实体提取与实体踪迹发现研究
姓 学 院 专
名 : 号 : 系 : 业 :
姚 从 磊 10448871 信息科学技术学院 机系统结构 搜索引擎与网络信息挖掘 李 晓 明 教授
研究方向 : 导师姓名 :
二○○八年十一月
Research on the extraction of Web entities and discovery of entity activities
By Conglei Yao
Dissertation Supervisor: Professor Xiaoming Li
A Dissertation Presented to the FACULTY OF THE GRADUATE SCHOOL PEKING UNIVERSITY
In Partial Ful??llment of the Requirement for the Degree of DOCTORAL OF PHILOSOPHY (Computer Science)
November, 2008
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不 得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否 则,引起有碍作者著作权之问题,将可能承担法律责任。
中文摘要
摘
要
对于一种 类型的Web实体,例如人物、电影等,从Web上海量网页中 高效提取出此类型实体的相关属性和活动信息,并以实体实例和实体踪迹的形 式组织起来,用以构建以实体为基本单元的Web信息查询服务,具有重要的价 值;这也是本文研究工作的出发点。 北京大学网络实验室于2005年启动天网荟萃(WebDigest)研究项目,旨在 研究海量网页中实体、实体关系、事件等重要信息的提取问题,开发一整套高 效的信息提取和分析技术。以该研究项目为背景,本文对海量网页中Web实体 和实体关系的提取方法进行了系统研究:(1)给定一个 的实体类型,高 效、准确地从海量网页中提取出目标实体类型对应实体的实例,并确保提取的 实例中包含目标实体类型实体的重要属性信息;(2)对于一个 的实体,从 海量网页中准确提取出它的一类特殊属性-实体活动信息,并以恰当的方式组织 起来。此外,考虑到本文提出的模型和方法均基于搜索引擎,因此对基于搜索 引擎的相关研究工作进行了全面的综述和分析。本文的主要研究成果有: (一)新型海量网页中Web实体实例提取框架 考虑到当前Web实体实例提取研究中实体属性类型人为指定、并不能反映 实体在海量网页中出现时的重要属性类型这一问题,本文提出一种新型海量网 页中Web实体示例提取的框架。利用该框架,基于一个 的实体类型和用户 对于该实体类型的初步知识,首先自动产生该实体类型对应的全局Web实体属 性类型集合(实体属性Schema),该集合刻画了确定实体类型对应的实体在海 量网页中出现时,它的重要属性的类型以及属性类型的特征;接着,以此集合 作为输入,高效提取海量网页中的Web实体实例。相应地,Web实体实例提取 问题被划分为两个子问题:Web实体属性类型集合提取问题和基于属性类型集 的Web实体实例提取问题。 (二)Web实体属性类型集合提取方法 本文首先定义了Web实体属性类型集合提取这一研究问题,其输入是一确 定的实体类型和用户对于该实体类型的初步知识,输出是 实体类型对应的 全局Web实体属性类型集合。本文提出了一个具有普适性的Web实体属性类型 集合提取框架,将目标问题分解为属性标签获取和实体属性类型集合生成两个 子问题。前者的目标是获取足够多的反映重要属性类型的属性标签,后者的目
–I–
中文摘要
标是利用属性标签来自动生成实体属性类型集合。对于第一个子问题,本文提 出了一个迭 属性标签获取算法,基于搜索引擎从Web上提取出高质量的实 体实例和属性标签。对于第二个子问题,本文分别从分类和聚类的角度出发, 提出了一种基于最大熵模型和一种基于半监督聚类的实体属性类型集合生成 方法;并且,本文还提出了一种综合的方法,利用SVM来综合各种语义相似 度相关的因素,以衡量不同属性标签间的相似度。在Web人物实体和电影实体 上大规模实验的结果验证了方法的有效性,并表明基于半监督聚类的实体属 性Schema生成方法的效果要好于基于最大熵模型的方法。 (三)海量网页中Web实体实例提取方法 利用自动发现的全局实体属性类型集合,本文提出了一种新的Web实体实 例提取方法。该方法首先利用一种基于聚类的贪婪的重要属性类型组合发现算 法,基于全局实体属性类型集和产生该集合的实体实例数据,自动发现目标实 体类型的重要属性类型组合,使得每一种重要属性类型组合对应目标实体类型 的一个子类型,该子类实体的实例在网页中出现时,它们的属性值的类型对应 于重要属性类型组合中的属性类型;接下来提出一种基于模板的Web实体实例 迭代提取算法,利用少量的种子实体实例作为输入,通过迭代地发现提取实体 实例的模板,来实现Web实体实例的高效提取。在Web人物实体实例上大规模提 取实验的结果验证了方法的有效性。 (四)海量网页中Web实体踪迹发现方法 实体被网页报道的现实社会中的活动信息,称作实体踪迹,是一种特殊 的Web属性信息。本文通过对Web网页中的实体踪迹信息的分析,将一条实体 踪迹信息定义为一个包含实体名称、时间、地点、活动、可信度等相关元素的 七元组。本文首先将实体踪迹发现问题分解为两个相互独立的问题:判断包含 目标实体的候选句子是否是实体踪迹句子,以及该句子是否以目标实体为核心 实体。接下来,提出基于概率模型的提取方法,来 候选句子包含 实体 的Web实体踪迹的概率。此外,本文提出一种启发式的实体踪迹发现方法,利 用五种启发式规则,来发现Web实体踪迹。在Web人物实体踪迹上大规模实验的 结果验证了方法的有效性,并且表明基于概率模型的Web实体踪迹发现方法的 性能优于基于启发式规则的方法。 (五)基于搜索引擎的相关研究分析和比较 考虑到本文中的研究工作大量使用搜索引擎的强大 能力,并且越来越
- 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
- PDF格式下载
- 更多文档...
-
上一篇:博士学位论文
下一篇:中国科学院研究生院博士学位论文
点击查看更多关于机器学习博士论文的相关文档
- 您可能感兴趣的
- 机器学习 机器学习实战 机器学习pdf 机器学习导论 机器学习实战pdf 神经网络与机器学习 机器学习算法 机器学习与数据挖掘 机器学习公开课 python机器学习
- 大家在找
-
- · QAY50起重机
- · 成都展宏扫地机器人
- · 整套qq群大全2011超拽
- · dnf虚空魔石
- · 恒温恒湿测试机
- · 运五活塞发动机的论文
- · 广汽丰田suv2010款
- · 技嘉945gcms2l
- · caiyilin
- · 全民创业五大体系建设
- · 高一数学必修1教案
- · 标准韩国语第一册视频
- · 细胞荧光染色
- · 吉林省建设厅网站
- · vmware7.1.3注册机
- · 建筑职称论文
- · 光纤通信技术下载
- · 农村社会养老保险政策
- · 大地之环军需官
- · 2008年高考成绩查询
- · 潜行狙击22集优酷播放
- · 热电厂新员工实习报告
- · 深圳市溢鸿塑胶模具厂
- · 报废汽车回收
- · s7200sim2.0
- · 胡梓欢佛山
- · 安委会18号文
- · dnf狂战士70大招视频
- · 公司面试题
- · 建设银行个人网上登入
- 赞助商链接