Abstract : A solutio n for web text categorizatio n informatio n ret rieval based o n machine learning is p ut forward. We adopt level co nst raint to realize text2crawled f unctio n , and apply t he feat ure selectio ns f ro m t he co mbinatio n of document f requency and term f requency to f ulfill t he feat ure ext ractio n. The feat ures are weighted to imp rove t he performance of text categorizatio n. The algo rit hm can realize decrease t he amo unt of wo rk for brow sing and filtering. It can al so be used for t he auto matic Key words : network spider ; feat ure selectio n ; text categorizatio n ; feat ure weight ; Naive Bayes. categorizatio n of E2government and E2co mmerce informatio n.
auto matic Chinese text catego rizatio n , imp rove t he p recisio n of web informatio n ret rieval and greatly
0 引 言
随着因特网的快速发展 ,网上信息浩如烟海 , 互联网上的中文网页信息数以亿计 , 如何利用计 算机技术快速有效地获取有价值的信息已是中文
第 30 卷 第 3 期 春 工 业 大 学 学 报 ( 自然科学版) 1 30 No . 3 长 Vol 2009 年 06 月 urnal of Changchun U niversity of Techo nology (Nat ural Science Edition) J un1 2009 Jo
基于机器学习的 Web 文本分类技术及算法
( 淮阴工学院 机工程系 , 江苏 淮安 223003)
摘 : 提出了一种基于机器学习的 Web 文本自动分类的信息检索解决方案 。采用层 要 束法完成文本自动抓取功能 ,文本频度与词条频度相结合的文本特征选择算法实现特征提取 , 并采用特征加权技术进一步提高文本分类性能 。该算法不仅实现中文文本的自动分类 ,有效 地提高 Web 信息检索的精度 ,而且能大大降低人工二次浏览筛选的工作量 , 还可用于电子政 务和电子商务信息的自动分类 。 关键词 : 网络蜘蛛 ; 特征选择 ; 文本分类 ; 特征加权 ; 朴素贝叶斯 中图分类号 : TP391. 1 文献标识码 : A 文章编号 : 167421374 ( 2009) 0320347205
Study on We b text categorization and algorithm ba sed on machine learning
J IN Chun2xia , ZHOU Hai2yan 3
(Depart ment of Computer Engineering , Huaiyin Instit ute of Technology , Huai’ 223003 , China) an
金春霞 , 周海岩 3
信息检索领域急需 的关键问题 。而搜索引擎 是实现网络信息检索的有效工具 ,因此 ,提高搜索
引擎的智能化程度和搜索效率 , 降低人工二次搜 索的工作量 , 就成为当前智能检索的研究热点 。 中文文本分类技术为此类问题提供了一个切实可
收稿日期 : 2009202210 基金项目 : 江苏省科技攻关项目 (B E2006357) 作者简介 : 金春霞 (1973 - ) , 女 , 汉族 , 陕西兴平人 , 淮阴工学院讲师 , 硕 , 主要从事 机应用 、 信息处理 、 数据挖掘方向研究 , E2 mail :jcxbzn @163. co m. 3 联系人 : 周海岩 (1957 - ) ,男 ,汉族 ,河南虞城人 ,淮阴工学院教授 ,主要从事信息安全 、 数据挖 掘、 人工智能 、 智能决策等方向研究 , E2mail :zhy_5703 @163. co m.
- 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
- PDF格式下载
- 您可能感兴趣的
- 机器学习 机器学习实战 机器学习pdf 机器学习导论 机器学习实战pdf 神经网络与机器学习 机器学习算法 机器学习与数据挖掘 机器学习公开课 python机器学习
- 大家在找
-
- · 离心泵型号
- · s5830三星手机
- · 不锈钢磁力自吸泵
- · 程序员考试历年试题
- · 瓦斯乏风氧化炉
- · 机械测量论文
- · asp.net入门经典下载
- · 陈安之2011最新讲座
- · 鼓式制动器工作原理
- · 精华学校英语讲义下载
- · www.boc.cn.cn
- · 深圳不锈钢跑槽招聘
- · 真三蓝宝石ai
- · video.baidu.com
- · 台电c430ve怎么样
- · 2012河北公务员职位
- · 宇达电通官网
- · 美女pk精子2无敌版
- · 影印版的书怎么样
- · 北大民族社会学
- · fedex国际快递官网
- · 电工仪表的测量方法
- · 脕煤虏芦戮铆脦氓
- · 中学师德师风心得体会
- · 在试卷上思考题算分吗
- · 化工热力学例题与习题答案
- · 环境卫生学习题
- · 金属热处理炉
- · 临沂市河东区邮电局
- · 机械制造基础精品课程
- 赞助商链接