• 保定金融高等专科学校 > 理工大学学报
  • 理工大学学报

    免费下载 下载该文档 文档格式:PDF   更新时间:2010-05-01   下载次数:0   点击次数:1
    文档基本属性
    文档语言:Simplified Chinese
    文档格式:pdf
    文档作者:dzzp01
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    第3 2卷 增 刊 20 04年 I l月
    华南 理 工 大 学 学 报 (自 然 科 学 版 ) Ju ao Su C i U i rt o Tcnlg or l ot h a v sy eho y n f h n n e i f o
    ( trl ine io ) t n Naua S ec E i c d
    Vo 3 up. l 2 Spl .
    Noe v mb r 2 0 e 4 0
    文章编号:50 -6 20 )-090 0055t 04 S09-4 (
    基于 k 近邻方法的渐进式中文文本分类技术 ' 一
    袁 方 杨 柳 张红妓 ' 2 3
    ( I东北大学信息科学与工程学 院, 辽宁 沈 阳 100 ; 104 2河北 大学 数学与计算 机学 院, 河北 保定 0 10 ; 702 3保定金融高等专科学校 计算机系 , 10 ) . 河北 保定 0 00 7
    摘 要: 针对 k 近邻方法分类准确率较 高, 一 但分类效率较低的特性, 出了一种基 于k- 提 近部方法的渐进式中文文本分类技术, 利用文本的标题 , 摘要, 关健词, 重点段落进行渐进 式 的分类处理. 这样 , 不用分析 全文就能将 部分待 分类 文本成功分类 , 而提 高了文本分类 的 从 效率. 实验结果表明 , 该方法在保证分类准确率的基础上能够有效地提 高分类效率. 关健词 : 一 k 近邻方 法; 渐进式方法 ; 中文文本 分类 中图介举号 : P 9 T 31 文献标识码 : A
    互联网的出现 为人 们搜索 信息 提供 了一种新的 手段 , 但随着互 联 网的快 速发展 和 网上信息 ( 包括 中文信息) 的急剧增 加 , 与用 户要求 不大相关 的信 息大量涌现 , 至掩盖 了有用信 息的搜索. 甚 解决这个 问题的 一种 有效方 法就是 提供 个性化 信 息搜 索服 务, 而文本分类 是个性 化服务的基础 , 所以文本分类 对 于提 高信息搜索的效率和质量意义重大. 文本分类是指 根据预先定 义好的主题类 别, 把 每一个未知类别 的文本确定 一个类别 , 文本 自动分 类就是利用计算机 系统对文本集按照一定 的分类体 系或标准进行 自动类别标 记 , 类工具 根据 文本 的 分 信息将其分配到已经存在的某个类别中,
    法和支持向量机方法 等. 在这 些方法 中, 近邻 方 k一 法具有较高 的分类准确率 , 实现起来也 比较简单 但 分类效率有待提高 . 本文提 出的渐进式 思想就是 用 于提 高 k 近邻方法 k N的分类效率. 一 - N
    1 系统 结构 框架
    文本分类 是一 种典型 的有 教师 的机器学 习问 题, 由训练模块和分类 模块构 成, 在训练模块 中 , 首 先对训练文本进行分词处理 , 后对其 进行特征项 然 抽取 , 到特征项 集合. 得 在分 类模 块中 , 用渐进式 的 方法 , 逐步 将文本 的不同 区域 ( 标题 , 如 摘要 , 点 重 段落等 ) 用特 征子集表示 出来, 再经过 kN -N分类器 分类 , 从而能够快 速地找到测 试文本所属 的类 别. 本
    文本分类方法可分为基于知识的方 法和 基于距
    离 的方法 基 于知识的方法 是指根据 分类专家 的经 验知识 , 构建分类专家系统作为分类 器进行分类 由 于分类专家系统建造 费时费力 , 而且可扩展性差 , 难 以适用于大规模 的文本分类 问题 , 目前普遍 采用的 是基于距离 的方法 , 即基于文本相似度的分类方法 . 常用 的基于距离的分类 方法有朴 素贝叶斯方法 , 决 策树方法, 一近邻方 法, k 回归模型方法, 神经 网络方
    收稿 日期 : 04 0 一 9 20 一 8 2 ,墓金项目: 河北 省自然科 学基金资助项 目(0402) 200 19 作者简介: 衰方(%5 , , ] 一)男 河北大学副教搜 , 博士生 , 主要
    文在参考已 有分类模型川的基础上, 如图 ] 提出 所
    示 的分类模型 .
    训练模块
    分类 模块
    图 1 文本分类模型
    Fi 1 d l tx casiain g. Mo e o e t sic t f l f o
    从事 挖细, 教据 信息搜索研究. mi yea @ iM . - l u n a. F a, fg m l r n
    e . du c r
    增刊

    方 等: 于无 基 一近邻 方法的渐进式中文文本分类技术

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • 保定金融专科学校  保定金融专科  保定金融专科学生处  保定金融专科学院  长春金融高等专科学校  广州金融高等专科学校  上海金融高等专科学校  武汉金融高等专科学校  河北金融高等专科学校