• 主成分分析 > 入侵检测中利用主成份分析进行特征提取
  • 入侵检测中利用主成份分析进行特征提取

    免费下载 下载该文档 文档格式:PDF   更新时间:2006-11-01   下载次数:0   点击次数:1
    文档基本属性
    文档语言:Simplified Chinese
    文档格式:pdf
    文档作者:ygl
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    入侵检测中利用主成份分析进行特征提取
    王争社
    (综合业务网国家重点实验室
    方敏
    西安 710071)
    西安电子科技大学计算机学院
    摘 要:本文分析了 KDD99 中缩减维数的相关问题,比较了特征选择和特征提取.提出了在主成份 分析基础上的特征提取,该方法能够在对数据的每一维所代表的信息量及其权值不知道的情况下, 快速进行特征提取,为下一步进行数据分析做好准备. 关键词:主成分分析;网络入侵检测;数据缩减;相关特征选择
    Feature Selection Used PCA Based on the Intrusion Detection System
    WANG Zheng She, FANG Min
    ( Institute of Computer Science, Xidian University, Xi'an, China, 710071)
    Abstract: This thesis analyzes data reduction and Compare data reduction with relevant feature selection. Feature selection based on PCA is put forward, this method can do good work when know nothing about how any dimension important in dataset, process dataset quickly, and be used as dataset pretreatment for next work. Key Word : PCA ; NIDS; data reduction ;relevant feature selection 实际上大量的工作集中在数据挖掘的准备阶段, 即:数据综1合与清洗,数据选择与转换.数据挖掘 准备阶段的工作决定了数据挖掘算法输入数据的 质量和数量,对数据挖掘算法的输出结果会产生极 大的影响. 网络上的数据流量每秒以百万千万计.对如此 大规模数据进行复杂的数据分析通常需要耗费大 量的时间,这就常常使得这样的分析变得不现实和 不可行.数据消减技术正是用于从原有庞大数据集 中获得一个精简的数据集合,并使这一精简数据集 保持原有数据集的完整性,这样在精简数据集上进 行数据处理显然效率更高,并且精简出来的结果与 使用原有数据集所获得结果基本相同. 数据消减的主要策略有以下几种: 数据立方合 计;级数消减;数据压缩;数据块消减等. 在网络入侵检测中,对 KDD99(使用的是 MIT Lincoln Labs98 的数据)数据进行分析时,KDD99 数据具有 41 维数据,每一维都有一定的含义,这 就使上面的一些方法如数据立方合计,数据块消 减,利用编码 压缩等方法不方便适用.所以在
    1.
    入侵检测与数据挖掘简介
    随着计算机网络的普及,网络安全逐渐成为人 们关注的焦点.如何保护重要信息,成为一个当前 的热门课题.由于防火墙很难识别新的攻击和网内 攻击,作为防火墙的补充,入侵检测被提出.入侵 检测提供了对内部攻击,外部攻击和误操作的实时 保护.它需要对网络数据进行分析,由于网络上的 数据量非常大,如何有效的减少数据维数,减少检 测时间,最大限度的识别攻击,成为一个迫切需要 解决的问题. 入侵检测的数据处理 可以借鉴数据挖掘 (KDD)中的很多方法.KDD 过程由多个阶段组 成,不同的研究者也给出了不同的模型,Usama M.Fayyad 等人提出的模型将 KDD 分为九个, Geroge H.John 给 出 的 模 型 主 要 内 容 和 Usama M.Fayyad 的模型基本相似, 它更强调数据挖掘人员 和领域专家共同参与. 文献[1]中认为数据挖掘的过 程分为数据综合与清洗,数据选择与转换,数据挖 掘,模式表示等阶段,其中数据挖掘是核心. 然而,虽然数据挖掘阶段在整个 KDD 过程中 占据核心的地位,但从工作量的角度来说,数据挖 掘阶段往往只在整个 KDD 过程中占较小的比例,
    获综合业务网国家重点实验室开放基金项 目 ISN6-7 资助
    PDF created with pdfFactory Pro trial version www.pdffactory.com
    KDD99 中用的主要是级数消减,即减少或者消除 无义数据的维数,常用的是特征提取与特征选择.
    全集一样的分类功能,这实际上是一个组合优化的 问题,已被证明是 NP 完全问题,没有多项式算法. 所以最优特征子集的选择很重要,直接影响到 模式识别或者分类学习问题中学习器的性能.特征 子集选择算法根据其目标函数是否与学习算法有 关可以分为两类:filter 模式和 wrapper 模式.实际 上两种模式并没有本质的差别,它们的差别仅仅在 于前者采用一些度量指标来评判特征子集的优劣, 而后者直接用学习算法的准确率作为评判的指标. 可以说, wrapper 模式其实是 filter 模式的一个特例. 从现有的特征选择算法来看,一个特征选择算 法由三个重要的方面决定:评判特征子集优劣的指 标,搜索策略和搜索方向.这三个方面也构成了研 究特征选择的框架.评价特征子集优劣的指标对于 特征选择算法来说是关键的核心问题.由于分类的 最主要目标是使错误率最小,分类错误率看起来是 特征选择中评判特征子集优劣的理想指标,但是由 于实际应用中所需的概率分布都不可知,而且用分 类错误率作为指标没有一个特征是"坏"的,因为 去掉任何一个特征都不可能降低分类错误率.所以 必须用其它一些指标,这些指标必须能够反映特征 的分类功能, 常用的指标有: 信息指标, 距离指标, 独立性指标,一致性指标,准确率指标. 搜索策略有:穷举搜索,启发式搜索和不确定 搜索.穷举搜索是搜索所有可能的特征子集,这种 搜索策略一定可以发现最优的特征子集,但搜索空 间大,当特征数较多时是无法实现的;启发式搜索 按照一定的启发式规则搜索特征子集,这种搜索策 略,搜索空间比较小,可能丢失最优子集. 搜索方向分为:顺序前进产生(SFG) ,顺序后 退产生 (SBG) 双向产生 , (BG) 和随机产生 (RG) . SFG 从一个空集开始, 逐步添加特征, 直到发现最 优解或满足算法停止条件; SBG 从特征全集开始逐 步减少特征, 发现最优解或满足算法停止条件. RG 随机地产生特征子集,主要用于不确定搜索. 上面所说的三个方面决定了一个特征选择算 法,由于搜索策略和搜索方向的类型和变化相对比 较少,而且对特征选择的结果影响不是特别大,所 以对一个特征选择算法关键的是评价指标的定义, 目前对于特征选择的研究也主要集中在这方面,现 有的指标从算法的运行结果看对特征空间都有不 同程度的约简,对分类器的效率和实用效果都有一 定的提高,但是效果并不是非常明显,而且对于不 同的训练数据集合,特征选择算法的效果相差很

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • 主成分分析反比  spss主成分分析插件  spss主成分分析步骤  主成分分析spss  主成分分析的原理  主成分分析因子分析  spss主成分分析数据  spss主成分分析实例  主成分分析应用举例