中国科学院研究生院

分类号 TP3 TP1 Q5 O65 UDC
密级编号
中国科学院研究生院博士学位论文
基于机器学习技术的生物信息检索研究
付岩
指导教师
高
文
研究员
中国科学院计算技术研究所申请学位级别论文提交日期培养单位学位授予单位工学博士学科专业名称计算机应用技术 2007 年 2 月
2007 年 1 月
论文答辩日期
中国科学院计算技术研究所中国科学院研究生院
答辩委员会主席
陈润生
声
明
我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果.尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含其他人已经发表或撰写过的研究成果.与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意.
作者签名:
日期:
论文版权使用授权书
本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印,缩印或扫描等复制手段保存,汇编本论文. (保密论文在解密后适用本授权书. )
作者签名:
导师签名:
日期:
摘要
在知识和数据爆炸的今天,信息检索系统在各个领域都扮演着越来越重要的角色. 检索函数(有时也被称为打分函数或排位函数)是所有检索系统的关键组成部分,其任务是对数据库中保存的数据对象与用户查询之间的相关性进行度量. 检索函数的设计可以从两个层次上进行,一个是依赖于应用领域的基本相关性度量指标的构造,另一个是与应用领域相对独立的将多种基本相关性度量指标综合起来的检索函数的构造. 本文利用机器学习技术,从检索函数设计的以上两个层次,深入研究了生物信息学中蛋白质序列鉴定和蛋白质同源性预测两个重要的检索问题. 在生物信息学领域, 串联质谱技术与数据库搜索相结合的肽和蛋白质鉴定是一个重要的生物序列检索问题. 肽和蛋白质鉴定软件的核心是对数据库中的候选肽生成实验质谱的可能性进行度量的肽打分函数(即检索函数).在肽打分函数中,最基本的操作是把实验质谱中的谱峰与从候选肽预测出的理论离子按照质量值进行匹配. 由于质量测量的不准确性,随机错误匹配经常发生.为了提高匹配的准确性,本文首先提出了一种更准确的质量匹配误差分布模型,即条件正态分布模型.在该模型中,质量匹配误差分布的均值和标准差不再是恒定不变的,而是分别为离子质量和谱峰强度的函数.其中,质量误差标准差与谱峰强度之间的对数线性关系就作者所知是以前相关文献中没有报道过的.本文并给出了一个迭代学习算法,从训练数据中准确地估计误差模型的参数,刻画串联质谱的质量误差分布.本文接着提出了一种非线性肽打分函数,即核谱向量点积. 它是对一大类传统肽打分方法即谱向量点积的非线性扩展.在串联质谱中,碎片离子间的相关性信息对于降低随机匹配是很有帮助的. 核谱向量点积利用局部化核函数来强调相关离子的同时匹配.实验表明,核谱向量点积能够显著地提高肽鉴定的精度.基于核谱向量点积肽打分函数的肽和蛋白质鉴定软件 pFind 在多个数据集上的鉴定精度,明显超越了基于谱向量点积的流行商业软件 SEQUEST.在 1%假阳性率下,pFind 比 SEQUEST 多鉴定出了 10%到 30%的肽段数. 由于实际检索问题的复杂性, 度量数据对象与查询之间相关性的基本指标往往有多种,构成多维特征向量.如何把多维基本相关性度量指标合并成一个相关性指标,就是检索函数构造问题.从训练数据中学习检索函数是一种常用且有效的检索函数构造方法.一般来讲,检索函数的学习是独立于具体应用的一般性机器学习问题.在这类学习问题中,特征向量是相对于查询计算出来的,因而随所关联的查询不同而分成不同的组 (本文称为"块").数据的块结构形式是检索函数学习问题独有的特点.本文结合蛋白质同源性预测问题,通过深入挖掘这种块结构包含的丰富信息,提出了一系列旨在提高检索函数学习准确性的方法. 这些方法包括用于解决块间数据非独立同分布问题的块内
I
基于机器学习技术的生物信息检索研究
数据归一化和块特征向量扩充方法,用于数据去冗余的块选择和支持向量下采样方法, 以及用于构造查询适应的检索函数的 K 近块集成排位算法等. 使用支持向量机作为基准学习器的实验表明, 本文提出的所有这些基于块的方法都明显地比直接应用标准的支持向量机效果要好. 其中, 块内数据归一化和数据去冗余方法在 2004 年的 ACM KDDCUP 数据挖掘竞赛的蛋白质同源性预测问题上获得了全球并列第一名的总体预测准确度.K 近块集成排位算法在预测精度和训练速度上甚至更胜一筹, 在上述蛋白质同源性预测问题上是目前表现最好的算法. 关键词:生物信息学;信息检索;机器学习;质谱;肽鉴定;蛋白质同源性预测

下一页

文档基本属性
文档语言：	Simplified Chinese
文档格式：	pdf
文档作者：	zjs
关键词：
主题：
备注：
点击这里显示更多文档属性
经理：
单位：	MC SYSTEM
分类：
创建时间：
上次保存者：
修订次数：
编辑时间：
文档创建者：
修订：
加密标识：
幻灯片：
段落数：
字节数：
备注：
演示格式：
上次保存时间：