• 对文档建立倒排索引 > 收稿日期:2004-12-24
  • 收稿日期:2004-12-24

    免费下载 下载该文档 文档格式:PDF   更新时间:2009-12-02   下载次数:0   点击次数:7
    文档基本属性
    文档语言:
    文档格式:pdf
    文档作者:
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    第 25 卷第 7 期 2005 年 7 月
    文章编号: 1001 - 9081 2005) - 1713 - 03 ( 07
    计算机应用 Computer Applications
    Vol. 25 No. 7 July 2005
    网页查重技术在企业数据仓库中的应用
    2 白广慧1, , 连 浩2 , 刘 悦3 , 程学旗3 (1. 中国网通集团 研究院, 北京 100036; 中国科学院 研究生院, 2. 北京 100039; 3. 中国科学院 计算技术研究所, 北京 100080) ( baiguanghui@ rd-bta. com. cn) 摘 要: 介绍了处理网页排重的三类通用方法, 并介绍了在企业数据仓库系统中, 通过利用相似 性检索技术实现情报资料自动排重的应用.通过对测试结果的评估表明, 这种基于相似性检索技术 的自动排重的方法能够达到较好的效果, 实现了企业情报资料智能化预处理的应用. 数据仓库; 网页查重; 支持向量机; 向量空间模型 关键词: 文献标识码: A 中图分类号:TP391. 3
    Automatic detection of online duplication documents and its application in enterprise data warehouse
    BAI Guang-hui1, 2 , LIAN Hao2 , LIU Yue3 , CHENG Xue-qi3
    ( 1. China Netcom Group Labs, Beijing 100036, China; 2. Graduate School, Chinese Academy of Sciences, Beijing 100039, China; 3. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China) Abstract: Three general methods to detect duplicate Web pages were introduced. The similarity search technique was used to detect duplicate information automatically in enterprise data warehouse. The results indicate that the similarity search method is fit for intelligent pretreatment of enterprise intelligence data. Key words: data warehouse; online duplicate documents detection; Support Vector Machine ( SVM) ; Vector Space Model ( VSM) 在互联网中, 一篇文献可能以 pdf, word 等多种格式存 ps, 在于多个网站上.在企业数据仓库系统中, 由于实时采集互 联网信息, 因此也不可避免地需要应用排重技术, 排除重复信 息.这既节省网络资源, 也节约工作人员的时间和精力. 1. 1 网页查重技术相关的问题 问题 1 处理重复的文档必然会影响到精确度和效率. 1)文档排重就会减少提供给用户的可靠信息量, 即降低 了结果的精确度. 2)处理重复文档需要额外的计算量, 对用户而言是不可 见的, 若时间耗用太多, 用户会认为系统的效率太低. 问题 2 对于重复的定义并不精确. 很 多 站 点 有 多 个 名 字:如 www. fox4. com, onsale. channel9. com 和 www. realtv. com 都是指向同一个站点的; 标 题相同也可能内容并不完全相同.因此普遍认为: 若某文档 包含了和另一文档相同的语义内容, 则就是重复的. 重复的四种模式如下: 1)若 2 篇文档内容和排版上毫无 差别, 则是 full-layout 重复; 2)若 2 篇文档内容相同, 但排版 不同, 则是 full-content 重复; 3)若 2 篇文档有部分重要内容 相同, 且排版相同, 则称为 partial-layout 重复; 4)若 2 篇文档 有部分重要内容相同, 但排版不同, 则称为 partial-content 重 复. 排重的处理步骤如下: 第一步: 从输入的文档中提取出适当的特征; 第二步: 和以前输入的文档的特征进行比较和判断.

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • 倒排索引  倒排索引代码  搜索引擎倒排索引  倒排索引缓存  倒排表  倒排工期计划表  倒排工期  建筑工程倒排工期表  施工倒排计划