第 25 卷第 7 期 2005 年 7 月
文章编号: 1001 - 9081 2005) - 1713 - 03 ( 07
计算机应用 Computer Applications
Vol. 25 No. 7 July 2005
网页查重技术在企业数据仓库中的应用
2 白广慧1, , 连 浩2 , 刘 悦3 , 程学旗3 (1. 中国网通集团 研究院, 北京 100036; 中国科学院 研究生院, 2. 北京 100039; 3. 中国科学院 计算技术研究所, 北京 100080) ( baiguanghui@ rd-bta. com. cn) 摘 要: 介绍了处理网页排重的三类通用方法, 并介绍了在企业数据仓库系统中, 通过利用相似 性检索技术实现情报资料自动排重的应用.通过对测试结果的评估表明, 这种基于相似性检索技术 的自动排重的方法能够达到较好的效果, 实现了企业情报资料智能化预处理的应用. 数据仓库; 网页查重; 支持向量机; 向量空间模型 关键词: 文献标识码: A 中图分类号:TP391. 3
Automatic detection of online duplication documents and its application in enterprise data warehouse
BAI Guang-hui1, 2 , LIAN Hao2 , LIU Yue3 , CHENG Xue-qi3
( 1. China Netcom Group Labs, Beijing 100036, China; 2. Graduate School, Chinese Academy of Sciences, Beijing 100039, China; 3. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China) Abstract: Three general methods to detect duplicate Web pages were introduced. The similarity search technique was used to detect duplicate information automatically in enterprise data warehouse. The results indicate that the similarity search method is fit for intelligent pretreatment of enterprise intelligence data. Key words: data warehouse; online duplicate documents detection; Support Vector Machine ( SVM) ; Vector Space Model ( VSM) 在互联网中, 一篇文献可能以 pdf, word 等多种格式存 ps, 在于多个网站上.在企业数据仓库系统中, 由于实时采集互 联网信息, 因此也不可避免地需要应用排重技术, 排除重复信 息.这既节省网络资源, 也节约工作人员的时间和精力. 1. 1 网页查重技术相关的问题 问题 1 处理重复的文档必然会影响到精确度和效率. 1)文档排重就会减少提供给用户的可靠信息量, 即降低 了结果的精确度. 2)处理重复文档需要额外的计算量, 对用户而言是不可 见的, 若时间耗用太多, 用户会认为系统的效率太低. 问题 2 对于重复的定义并不精确. 很 多 站 点 有 多 个 名 字:如 www. fox4. com, onsale. channel9. com 和 www. realtv. com 都是指向同一个站点的; 标 题相同也可能内容并不完全相同.因此普遍认为: 若某文档 包含了和另一文档相同的语义内容, 则就是重复的. 重复的四种模式如下: 1)若 2 篇文档内容和排版上毫无 差别, 则是 full-layout 重复; 2)若 2 篇文档内容相同, 但排版 不同, 则是 full-content 重复; 3)若 2 篇文档有部分重要内容 相同, 且排版相同, 则称为 partial-layout 重复; 4)若 2 篇文档 有部分重要内容相同, 但排版不同, 则称为 partial-content 重 复. 排重的处理步骤如下: 第一步: 从输入的文档中提取出适当的特征; 第二步: 和以前输入的文档的特征进行比较和判断.
- 对文档建立倒排索引 > 收稿日期:2004-12-24
-
收稿日期:2004-12-24
下载该文档 文档格式:PDF 更新时间:2009-12-02 下载次数:0 点击次数:7文档基本属性 文档语言: 文档格式: pdf 文档作者: 关键词: 主题: 备注: 点击这里显示更多文档属性 经理: 单位: 分类: 创建时间: 2008-05-22 17:02:14 上次保存者: 修订次数: 编辑时间: 文档创建者: 修订: 加密标识: 幻灯片: 段落数: 字节数: 备注: 演示格式: 上次保存时间:
- 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
- PDF格式下载
- 更多文档...
-
上一篇:SuQi词性标注对信息检索性能的影响
下一篇:参考文献 - 中山大学信息科学与技术学院本科教育网站
点击查看更多关于对文档建立倒排索引的相关文档
- 您可能感兴趣的
- 倒排索引 倒排索引代码 搜索引擎倒排索引 倒排索引缓存 倒排表 倒排工期计划表 倒排工期 建筑工程倒排工期表 施工倒排计划
- 大家在找
-
- · 桑塔纳3000仪表盘
- · 镂空雕花cad
- · 加强干部作风建设讲话
- · 江苏高压钠灯厂家
- · 賠賠蘫達娜
- · 暗黑破坏神2战网地图
- · js正则表达式小数
- · unit13视频
- · 深圳大学研究生院
- · 链家在北京商铺网
- · 中南大学土木工程6个
- · cad激活码下载
- · 广义相对论视频
- · 浩辰cad下载
- · 潍坊发电机生产厂家
- · 《密码学基础》
- · 学风建设主题班会策划书
- · 仙剑奇侠传3全集下载
- · 30kw三相稳压器多少钱
- · 房地产论文题目
- · 幼儿卫生学绪论ppt
- · 令kids表示一名妇女生育孩子的数目,educ表示该妇女接受过
- · vc6.0win7兼容版下载
- · www.315.com
- · qq游戏果蔬连连看
- · 戮漏露芦脡脤鲁脟
- · 2010gmp评定标准
- · 济南山东实验中学现代技能培训中心
- · 一级msoffice
- · 参展企业展位
- 赞助商链接