一、THE FEATURE SUBSET SELECTION ALGORITHM(论文文献综述)
王达[1](2021)在《基于集成学习的电力CPS网络攻击识别方法》文中认为随着电力系统智能化水平不断提高,智能电网已经呈现出信息物理高度融合的特征。信息流和物理流的深度融合提升了信息侧对物理电网的稳定控制。然而,信息空间存在的漏洞为网络攻击提供了可乘之机,信息侧网络攻击入侵后物理侧电力设备运行失去稳定控制,发生故障甚至损坏,严重时引发大范围停电事故。为了提升电力信息物理融合系统(Cyber-Physical-System,CPS)防范网络攻击的能力,本文提出一种基于集成学习的电力CPS网络攻击识别方法,从数据的平衡化处理、网络攻击识别最优特征子集的选择及网络攻击识别模型构建三个方面展开研究,主要研究内容如下:(1)信息侧网络攻击发生时量测系统难以获取足量数据表征电网状态,网络攻击样本数量过低引起了数据严重不平衡问题,使网络攻击识别模型的误报率过高。针对上述问题,本文提出一种网络攻击数据平衡化处理方法,在Kmeans-Smote过采样算法中引入中心插值和分段采样策略,生成和真实攻击样本高度相似的伪样本加入到原始样本集,使各种攻击事件以及非攻击事件之间样本数量趋于平衡,从而实现网络攻击数据平衡化处理。实验算例表明,数据平衡化处理后,样本数量偏低的攻击类别误报率明显下降。(2)电力CPS的物理层量测数据中存在的冗余属性使网络攻击识别模型的精度降低且更加耗时,针对上述问题,本文提出一种网络攻击识别最优特征子集选择方法,基于最大化联合互信息算法迭代筛选出和数据标注高度相关的若干特征,组成网络攻击识别最优特征子集,对网络攻击发生后的电网状态进行最优表征,解决冗余特征的存在引起的网络攻击识别模型精度下降及耗时的问题。仿真实验表明,该方法降低了数据维度,网络攻击识别精度得到提升,网络攻击的识别时间明显缩短。(3)电力CPS在网络攻击发生后物理电网发生故障甚至瘫痪,物理侧量测数据特性和常规条件下故障发生时具有较高的相似性,简单的数据统计分析和不良数据检测算法存在误检、漏检率过高的弊端。针对上述问题,本文构建基于Lightgbm集成学习算法的网络攻击识别模型,并引入焦点损失函数对Lightgbm算法进行改进,提升错分样本在下一次迭代中的训练精度,从而提升模型对网络攻击的识别性能。以网络攻击识别模型为核心,结合网络攻击数据平衡化处理以及网络攻击识别最优特征子集选择,给出一套完整的网络攻击识别方法。仿真实验表明,该网络攻击识别方法有效提升了网络攻击识别精度。综上,本文提出一种基于集成学习的电力CPS网络攻击识别方法。在Python3.7平台上进行实验分析,该方法的平均网络攻击识别精度达到97.35%,误报率低至2.71%,抗噪声性能良好,有较强的适用性。
姜伟[2](2021)在《云计算环境下可信服务动态保障模型及方法研究》文中指出云计算的出现深刻改变了业务计算模式,人们无需再购买大量昂贵的专门设备,即可获得按需算力,目前已被广泛应用于国防军事、交通运输、工业制造和社会服务等领域。同时,随着云计算基础设施的广泛普及和下一代通信技术的推广应用,“一切皆服务”理念正在成为现实,人们已经可以随时随地获得来自云端的服务。然而,技术发展也带来攻击方式的快速涌现,不可靠的链路、众多恶意节点和充满漏洞的共享云服务都对用户获得可以信赖的云服务提出了巨大挑战,因此迫切需要对云计算环境下的服务保障进行研究。但是,由于无论资源提供、服务选择、服务组合都来源于远程的云计算环境,虚拟化映射方法使得这些环节都具有高度的动态性,静态保障方法已难以获得良好效果。据此,本文提出一种云计算环境下的服务动态保障方法,在不可信的网络条件下,综合利用各种手段,通过筛选云计算资源、选择服务属性、执行服务组合和计算能力再优化,形成反馈过程,最终动态保障用户可以获得按需的可信服务。首先,针对云计算环境下可信服务需要动态保障的需求,提出一种云计算环境下可信服务动态保障模型,融合多层反馈控制机制对云计算资源筛选、服务属性选择、服务组合执行和计算能力再优化等进行综合设计,从而在多个层次上对服务可信性进行动态保障。由于资源虚拟化在云计算系统中的基础性地位,如果计算资源不可靠,那么后续保障措施将无从实现。在此基础上,针对虚拟资源映射的不可信问题,提出一种基于改进模拟退火粒子群的映射算法SAPSP-VNE。以较低的虚拟网络映射的底层网络资源开销为目标,将虚拟网络可信性的虚拟网络资源分配问题归结为一个整数线性规划模型,确保若底层物理网络出现失效节点时,其余虚拟网络部分仍然能具有连通性,最大程度保证虚拟网络的可信性。实验结果表明SAPSP-VNE算法能够有效提升资源平均利用率,提高了映射的成功率和虚拟网络的恢复成功率。其次,针对云环境下服务特征维度过高导致服务特征选择复杂的问题,提出一种基于熵和SVM模型的服务特征评估与子集选择方法ISVM-FSM。算法采用模糊集中熵的计算方式,使用特征的缩放因子和特定类别之间的熵值来计算每个类别中矢量间距离,来解决特征空间庞大而导致的复杂度过高问题。在服务特征子集求解时,借助于前向分布算法的思想,通过不断拟合上一步模型在训练数据上的残差,得到比传统SVM模型更高的准确率。实验结果表明,对冗余特征较多的服务数据集能够有效选择重要特征,同时特征子集的规模比传统算法有明显的压缩,较大提升了准确率。再次,针对传统服务组合方法无法摆脱第三方平台限制、可信服务组合差异性需求难以得到满足问题,提出一种基于区块链智能合约的服务组合方法,构建出安全可信的云服务交易环境。在基于区块链的服务智能合约基础上,以服务动态优化调度为目的,提出一种基于混合灰狼的优化算法HGWO作为服务组合的核心算法,克服传统元启发式方法求解精度不够,算法后期收敛速度慢,容易陷入局部最优等问题。实验结果表明HGWO算法具有较好的收敛性、提升了解的精度、增加了解的多样性,为云环境下服务组合提升了可信性和提供了有效的解决方案。最后,为了在提供可信服务的同时优化计算能力,提出了一种基于服务迁移的云计算服务优化方案。在该方法中通过对云节点和中心云的资源状态的建模,将可信服务的优化问题转化为系统开销最小化问题;在此基础上,通过改进遗传算法获得了资源优化策略。实验结果表明,所提出的方案能够降低系统开销,有效的提升系统性能。
冉亚鑫[3](2020)在《基于Wi-Fi信号的人体行为感知及跌倒检测研究》文中提出随着无线网络覆盖我们生活的每一个角落,各领域基于无线信号的研究也得到广泛的关注,同时我国国家发展已经从经济高速增长阶段向高质量发展阶段转变,人们对于高质量生活的追求日益高涨,因此智慧生活已经成为越来越多人追求的目标。智慧医疗、安防检测等作为智慧生活的一部分,不仅受到广大老百姓的热切期待,同时也成为研究人员的目标。而基于Wi-Fi信号的无线感知技术因部署复杂度小和成本低,覆盖范围广,赢得了各领域研究人员的重视。因此基于Wi-Fi信号的人体行为识别及跌倒检测的研究就显得十分有应用价值和应用前景。本文提出的行为识别及跌倒检测方案分为数据采集、数据预处理、特征提取和识别分类四部分。使用更具鲁棒性,包含更丰富的多径信息的CSI作为原始数据。在CSI数据预处理阶段,采用Hampel算法和巴特沃斯低通滤波分别对原始数据进行异常值去除和滤波以达到去噪的目的;将每条收发链路上高度相关的30个子载波采用加权平均的方法聚合以减少冗余;采用移动方差分割法去除动作中所包含的静止状态以降低计算开销。在特征提取阶段,分别提取时域和频域特征,同时针对跌倒动作发生时的功率急剧下降模式提出功率谱熵作为新特征用于分类;对杂乱无章的原始相位信号进行校准,获得可用的相位信息,并比较线性变换和相位差两种相位校准方法;提出最优特征子集的选择方法对高维特征筛选,减少噪声引入和冗余现象,寻找最能表征动作的特征。在识别分类阶段,通过实验对比核函数的选择对分类算法的影响,选择径向基函数为最佳核函数;根据CSI信号的特点,提出使用人工鱼群算法对支持向量机参数寻优,获得更高的检测正确率;分别对使用较广泛的粒子群寻优算法和传统支持向量机算法与本文寻优算法进行对比实验,验证算法的有效性。
顾翔元[4](2020)在《基于信息度量的特征选择算法研究及应用》文中研究表明数据集特征维数的急剧增加,不仅增加了运算量,还会产生“维数灾难”等问题。所以,有必要进行维数约简。特征选择是一种常用的维数约简方法,度量标准有信息和距离等,本文对基于信息度量的特征选择方法进行了研究,并将部分特征选择方法在隐写分析中进行了应用验证。所做的主要工作如下:(1)针对基于相关和冗余算法不能保证选取最大相关最小冗余特征的问题,提出了一种基于等区间均分和最大相关最小冗余的特征排序选择算法。首先利用特征与类标签的互信息度量相关性,选取具有最大相关性的特征;然后利用特征与类标签的互信息度量相关性,利用特征间的互信息度量冗余性,并与等区间均分和排序的方法相结合来选取特征。该算法可以优先选取最大相关最小冗余的特征,因此能够取得较好的特征选择效果。(2)针对一些基于三维互信息特征排序选择算法没有考虑特征间三维互信息的问题,提出了一种基于等区间均分和条件互信息的特征排序选择算法。首先计算特征与类标签的互信息,选取具有最大值的特征;然后计算特征与类标签的条件互信息,选取最大值所对应的特征;接着计算特征与类标签的条件互信息和特征间的条件互信息,并与等区间均分和排序的方法相结合来选取特征。该算法考虑了特征间的条件互信息,所选特征具有更高的分类正确率。(3)针对一些特征子集选择算法将相关特征当作冗余特征而消除的问题,提出了基于等区间均分和三路交互信息的特征子集选择算法。首先利用特征与类标签的对称不确定性度量相关性,消除不相关特征;然后利用对称不确定性和三路交互信息两种度量标准,并结合等区间均分和排序方法来度量冗余性,消除冗余特征。该算法减少了相关特征误消除的情况,提高了特征选择性能。(4)针对一些隐写检测特征选择算法运算量大的问题,提出了基于特征模块的特征选择算法。将多个特征构成特征模块,分别利用互信息和SVM分类器的分类正确率对模块进行选择。所提算法被应用到隐写分析中对空域隐写检测特征进行选择,其不仅能优先选取具有互补作用的特征,还可以降低运算量,从而在用时减少的情况下取得了较好的特征选择效果。
徐洲[5](2019)在《不同场景的软件缺陷预测方法研究》文中认为软件产品已经融入到我们日常生活的方方面面,但是在软件设计、开发、配置等过程中的种种因素导致软件中不可避免存在缺陷。软件模块中隐藏的缺陷威胁着软件产品的安全性,降低了软件产品的可靠性。因此,在交付产品之前,检测并修复有缺陷的软件模块是一项极为重要的软件质量保障活动。然而由于软件规模和复杂性的持续增长,提高软件质量对软件开发和测试人员来说是一项越来越具有挑战性的任务。由于有限的测试资源通常无法支持对所有的代码进行全面的检查,这需要一个优先级次序来更好地分析软件产品。换句话说,软件开发人员和测试人员应该合理地分配宝贵的资源来测试那些高概率包含缺陷的软件模块。为了寻求这种优先级,研究人员提出了软件缺陷预测来识别出这种高风险模块,进而推荐给开发或者测试人员进行优先检查。目前研究地最广泛的缺陷预测方法是基于有监督模型的技术,它首先在有标签的软件模块上训练一个分类模型,然后使用它来识别没有标签的模块是否包含缺陷。基于有监督的缺陷预测模型需要当前项目或外部项目的历史有标签数据作为训练集。根据训练集的来源不同,有监督的缺陷预测可以分为版本内缺陷预测场景、跨版本缺陷预测场景和跨项目缺陷预测场景。这三种场景下训练集分别来自于同一个项目相同版本的数据、同一个项目先前版本的数据和外部其他项目的数据。本论文主要研究基于机器学习的新技术来解决这三种缺陷预测场景所面临的不同问题,目的是进一步提升缺陷预测的性能。具体的研究内容如下:(1)为了学习更具有判别性的特征表示和解决缺陷数据固有的类不平衡问题,本文提出了一个基于核主成分分析和加权极限学习机相结合的版本内缺陷预测框架。该框架首先利用核主成分分析方法分别将训练集和测试集映射到一个高维的特征空间,这种特征映射使得在原始特征空间中线性不可分的模块变得易于区分。然后该框架用映射后的训练集构建一个加权的极限学习机分类模型来预测被映射以后的测试集的标签。该分类模型通过赋予有缺陷和没有缺陷的软件模块不同的权重来解决类不平衡问题。我们在NASA数据集的10个项目和AEEEM数据集的5个项目上进行实验,并用6个指标来评价所提出框架的性能。实验结果表明,我们提出的版本内缺陷预测框架的性能整体上优于其变体方法、对比的特征选择方法和类不平衡学习方法。(2)为了从先前版本数据中选择一个对当前版本的数据来说最优的软件模块子集作为训练集,本文提出了一个基于两步训练子集选择方法的跨版本缺陷预测框架。该框架首先使用稀疏建模表示选择方法过滤掉一些无用的软件模块,保留使重构原始数据误差最小的软件模块。该过程不依靠来自于当前版本的软件模块的辅助,是一个自我约简过程。然后该框架在当前版本数据的参与下,使用基于不相似性的稀疏子集选择方法从上一步选择的模块中再选出一个能够有效表示当前版本数据的模块子集,最后选择的模块子集构建的分类模型对当前版本的数据更有针对性。该过程需要来自于当前版本的软件模块的辅助,是一个辅助精炼过程。我们在PROMISE数据集的17个项目的67个版本数据上进行实验,也用6个指标来评价所提出框架的性能。实验结果表明,我们提出的跨版本缺陷预测框架在50组跨版本点对上的整体性能优于对比的训练子集选择方法以及其基于一步训练子集选择的变体方法。(3)为了进一步缩小两个跨项目数据之间的分布差异,本文通过引入一个先进的平衡分布适应模型,提出了一个新的基于迁移学习的跨项目缺陷预测框架。不同于之前的迁移跨项目缺陷预测模型只考虑跨项目数据间的边缘分布差异,该模型综合考虑跨项目数据间的边缘和条件分布差异。另外,考虑到跨项目数据间相似性程度对这两个分布差异相对重要性的影响,该模型还分配这两个分布差异不同的权重以适应不同的跨项目点对。除此之外,我们也研究了6种不同的数据归一化策略对该跨项目缺陷预测框架性能的影响。我们在NASA数据集的5个项目和AEEEM数据集的5个项目上进行实验,也用6个指标来评价所提框架的性能。实验结果表明,我们提出的跨项目缺陷预测框架在40组跨项目点对上的整体性能优于其他的基于迁移学习和基于训练数据过滤的跨项目模型。综上所述,本论文旨在针对不同的软件缺陷预测场景所要解决的难点问题,结合新的机器学习技术,提出新的框架模型以提高缺陷预测的性能。本论文扩展了机器学习技术在软件工程领域方向的应用,并给软件缺陷预测提供新的解决方案,对软件质量保障活动具有重要意义。
李涛[6](2019)在《基于演化计算的特征选择方法研究》文中指出特征选择技术是大数据分析与数据挖掘研究的热点之一,数据维度的激增为特征选择理论和方法带来了新的困境。特征选择能有效地处理高维数据,改善学习模型的泛化能力,但是数据规模的日益膨胀以及数据类型结构的多样化严重影响学习算法对数据的分析性能。依据特征蕴含信息的重要性,原始特征可以划分为无关特征、相关特征和冗余特征,而相关特征与冗余特征相互转化的特点使得搜索最优特征子集的任务更具挑战性。本文将特征子集选择任务刻画为特征组合优化问题,采用具有良好全局搜索和并行计算特性的演化计算方法进行特征空间寻优。主要研究适用于特征组合优化的个体编码策略、演化搜索机制、优化目标构建方法以及算法性能度量指标。分别从监督式演化计算与无监督式演化计算两方面对特征选择问题进行研究分析。前者主要研究基于单目标演化和包含分类边界信息的多目标演化的特征选择算法,以及基于个体熵的二元差分演化特征选择算法。后者主要针对样本缺少标签信息指导的问题,研究基于演化计算理论的无监督特征选择及其演化聚类优化算法。本文的主要创新点和具体研究内容为:(1)提出基于粒信息遗传优化的特征选择算法。构建基于粒信息的特征选择框架,通过粒化分析特征所包含的分类信息量以评价特征子集的优劣,从信息粒化的角度分别设计基于新型二进制遗传算法的特征粒化算子和基于粒度?邻域粗糙模型的样本粒化算子。特征粒化方面,设计基于粒化的机制评估候选特征子集,使得特征粒化算法选择出重要的特征;样本粒化方面,根据邻域半径先验知识划分不同的粒度层,并计算特定粒度层下的决策属性对条件属性的依赖度,从而获得良好的特征子集。为进一步研究分析粒度参数对候选特征子集选择的影响,又给出基于遗传算法的粒度优化算法,其主要目的是以自适应的方式选择合理的粒度值,使得获得的特征子集达到最优。通过实验结果以及应用实例表明,所提方法能显着改善特征子集的分类准确度。(2)提出基于改进多目标优化的混合特征选择算法。针对单目标特征选择算法选择出特征子集的综合性能较差的问题,本文分析多个优化目标的冲突关系,继续研究邻域模型中分类边界信息对特征重要度量的影响,引入新的邻域模型来计算正域值,该方法将边界区域蕴含的分类信息融入正区域中,使得选择的特征子集尽量包含相关特征。在此基础上,将特征子集规模与分类错误率作为两个优化目标综合评估候选特征子集的质量,同时设计相应的二进制编码策略,并将优化目标嵌入个体编码中以实时监控个体质量,利用个体非支配算子来获得Pareto解集。与此同时,计算候选个体之间的拥挤距离以增强演化进程中种群的多样性。给出特征核集的概念,研究Pareto前沿中不同候选特征子集的交叉信息,并基于此来计算最优的Pareto解。由实验结果分析表明,该方法能有效平衡相关特征数目和分类准确度的性能,获得良好的折中解。(3)提出基于个体熵的二元差分演化特征选择优化算法。为研究分析演化过程中多样性与收敛性对特征子集寻优的影响,提出一种高效的二元差分演化算法。首先定义个体熵,分析和量化个体熵与种群多样性的关系,并将个体熵融入优化目标函数,监督特征空间搜索过程中种群多样性的变化,然后给出一种基于局部反向学习的初始化策略,以避免因种群随机性造成的不收敛或早熟问题;设计能满足闭合条件的离散变异算子,根据不同的演化阶段采用相应的子操作,保证演化算法种群的多样性与收敛性。同时设计基于个体熵的自适应二元交叉算子,使得交叉因子依据个体适应度反馈自行调节,减少主观因素对演化过程的负作用。通过实验结果分析显示,所提方法在保证良好的分类性能和特征子集规模情况下,明显压缩了演化算法的时间成本。(4)提出基于差分演化的无监督特征选择及其聚类优化算法。针对缺乏标签信息指导特征子集搜索的问题,引入流形学习模型,构建新型的拉普拉斯计算方法来刻画数据集的内部结构,保留原始样本之间近邻或远离的关系,依据拉普拉斯值度量所选特征具有的局部保留能力,提出基于离散型差分演化的无监督特征选择优化算法,并给出新的个体变异算子和个体交叉算子,以获得优化的特征子集;为了验证选择的特征子集的质量,继而提出基于连续型差分演化的聚类优化算法,设计基于模式的编码策略来表征种群中的个体,并将样本间的紧密度与稀疏度作为聚类的优化目标,采用聚类精度、标准互信息和调整兰德指数三个指标来分析聚类结果。与现有基于稀疏学习的无监督特征算法对比可知,该方法可以有效地选择出能保留数据内部流形结构的关键特征,改善聚类效果。
于晓辉[7](2019)在《森林生物量遥感估测模型构建中的特征选择方法对比研究》文中指出在森林生物量定量遥感领域,一个越来越突出的现象是解释变量越来越多,如何有效地选择解释变量成了一个重要的问题。线性回归模型是常用的遥感模型之一,在线性回归模型建立过程中一个非常重要的步骤是选择解释变量。本文针对亚热带森林生物量遥感估测模型构建中的变量选择、模型稳定性等问题,对SR(Stepwise Regression Method)、BIC准则(Criterions Based on The Bayes Method)、AIC准则(Criterions Based on Information Theory)、Cp准则(Criterions Based on Prediction Error)、LASSO(Least Absolute Shrinkage and Selection Operator)、ADALASSO(Adaptive Lasso)、SCAD(Smoothly Clipped Absolute Deviation)、NNG(Non-negative garrote)等8种具有变量选择能力的方法重点进行了对比研究,出于比较的目的,将OLS、RR这2个一般认为不具有变量选择能力的方法也进行了对比讨论。对比考虑了下列因素:(1)决定系数等常用指标、预测误差、模型误差等精度指标;(2)决定系数差异显着性;(3)模型参数稳定性;(4)变量选择稳定性;(5)变量选择能力。试验的方法是十折交叉检验,且重复了5次。有些评价指标分别考虑自由度和不考虑自由度进行了计算。研究结果表明:综合评价,BIC表现最好,NNG、Cp、AIC整体较差。其他方法则在各指标上的表现差异较大。SR在变量选择方面的能力较强,虽在常用指标上较差。短波红外波段及由其派生的纹理特征被各方法选中的次数最大,表明这些变量在森林生物量估测中具有重要作用。本次研究通过对比各种具有变量选择能力的方法在遥感森林生物量特征变量选择方面的表现,为亚热带森林生物量遥感特征变量的选择和估测提供了新的方法和参考。本文所用的研究方法很可能会随着研究对象的改变而改变,因此针对具体问题需要具体分析。
涂吉屏[8](2019)在《一种基于EBIC的软件故障特征选择方法》文中认为软件故障预测运用软件度量指标及历史故障数据建立预测模型,以确定待测软件模块是否有故障倾向性。故障预测研究中,特征选择是一个重要步骤,该步骤选取一定维度的部分故障数据建立预测模型来提高模型性能,以达到压缩特征维度,提高模型预测精度,降低预测模型复杂度,节约计算资源的目的。软件故障预测中若采用大量度量指标建立预测模型可能因其中含有无关特征使预测模型性能受到不良影响,因此故障预测中的特征选择具有重要的研究价值。现有特征选择方法或所选特征子集建立的预测模型有效性较低;或耗费计算资源、所选特征维数较高,在特征维度较大时易导致维度灾难。针对以上问题,本文提出了一种基于拓展贝叶斯信息准则的特征选择方法EBIC-FS,该方法对数据做线性回归并计算出残差平方和较小且数据维数较少的特征模型,具体为:在第一轮进行特征排序,计算每个特征的EBIC值,得到特征排名列表;第二轮以最优特征——最优特征+次优特征的次序依次增加特征维数,每一维度的特征集合为一个特征子集,计算每一维度下各个特征子集的EBIC值,从中选出最佳特征子集。确定最佳特征子集后,用逻辑回归、朴素贝叶斯、决策树、k近邻、随机森林5个分类器分别建立故障预测模型。通过在M&R和Promise两个公开数据集的3个开源软件上进行实验,结果表明该方法能有效压缩特征维度,且预测模型性能与原数据集建立的预测模型、3种特征排序方法、1种特征子集选择方法相比,模型性能有较大提升,验证了本文EBIC-FS方法的有效性。
张敏[9](2019)在《基于半监督学习的WMS元数据文本多标签分类方法》文中提出随着地理信息网络共享和志愿者地理信息技术(VGI)的发展,主题内容多样的开放式网络地图服务(Web Map Service,WMS)资源大量涌现,为地学研究与应用提供了丰富的数据资源。但现有元数据标准缺乏显式、细粒度和面向领域的内容描述机制,导致领域专家和服务用户无法快速定位目标专题内的资源数据。目标领域的服务检索需求对服务数据的主题多标签分类提出了迫切的要求。但WMS元数据文本内容纷繁复杂、长短各异、语言不一,地学术语和通识词汇混杂,且缺乏标注应用领域的元数据集,导致WMS元数据文本的精准多标签分类面临着巨大的挑战。本文提出了一种基于半监督学习的WMS元数据文本多标签分类方法,在仅依赖少量标记样本数据的前提下,实现了WMS元数据双层多标签主题匹配。该方法包含特征选择、多标签分类和二次主题提取三部分:1)特征选择:选取社会受益领域(Societal Benefit Areas,SBAs)作为粗粒度领域主题,引入语料库抽取与SBAs语义密切相关的典型词,基于Word2vec算法计算典型词与文本特征的空间距离,实现最优领域特征子集的选择。2)多标签分类:提出多标签分类基模型ML-CSW,该模型以语料库计算得到的文本特征与主题的语义相似度作为文本特征权重,训练主题预测模型。在此基础上,提出基于半监督学习的多标签分类算法SML-SWKNN,将ML-CSW与经典的多标签分类算法ML-KNN(Multi-label K Nearest Neighbor)结合进行协同训练,实现WMS元数据的多标签分类。3)二次主题提取:基于粗粒度领域主题分类结果,利用LDA算法进行二次主题提取,构建双层领域主题目录,获得WMS元数据与双层领域主题的匹配映射关系。为了验证本文多标签分类方法的可行性,本文分别以WMS和图层元数据作为研究对象,开展了特征选择准确性、协同训练基模型准确性和SML-SWKNN算法的分类准确性、语义合理性、适用场景等验证实验。实验结果表明本文提出的特征选择算法能够有效提升分类性能,协同训练基模型单独在数据视图中分类性能也较好。SML-SWKNN算法相比经典的多标签分类算法有较大的提升,且算法在富含主题信息的长英文文本中性能最优。多标签分类和双层主题匹配具备语义合理性,能够推广应用于地理信息门户或目录服务中辅助WMS资源的检索发现。
侍竞成[10](2018)在《子集选择之帕累托优化方法的拓展研究》文中提出子集选择问题旨在从全集中挑选一个子集,使预先给定的评价指标达到最优。其在机器学习等领域有广泛应用,例如模型选择、特征选择、样本选择等任务都可归结为子集选择问题。子集选择是经典的NP难问题,因此研究者不断地在寻找适合该类问题的高效近似算法,例如贪心算法被证明在子模函数子集选择问题上具有常数近似率,也成为最为常用的子集选择近似算法。最近,研究者提出一种基于双目标优化的帕累托优化算法,并用于子集选择问题,形成子集选择算法POSS。POSS被证明具有优于贪心算法的逼近能力,受到了关注。然而,POSS算法存在求解效率不高、求解约束单一、求解环境无噪的限制。为了更好的求解实际问题中面临的子集选择问题,本文基于POSS逼近能力的优势,从求解效率、约束类型、环境噪音三方面进行拓展研究,取得了如下结果:1.在求解效率方面,针对双目标优化过程不区分阶段性导致优化过程缺乏着重点,提出了贯序分解方法,将其优化过程分解为多个阶段,在不同的时间着重优化其中一个阶段,并在多个问题上进行了时间复杂度分析,发现该方法可获得O(n)的加速;针对POSS算法顺序执行而难以利用现有多核计算设备加速的不足,提出了异步并行化方法PPOSS,通过将其解生成步骤异步并行执行来利用多核处理器,并证明了其良好的并行性能,即在核数为o(n)时PPOSS较POSS有线性加速比,在核数充分多时PPOSS优化时间趋于O(1)。2.在约束类型方面,针对以往对该类问题研究少、双目标帕累托优化算法无法处理一般性约束的现状,提出了适应范围更广的POMC方法,并且在更弱的假设下,扩展了以往对于贪心算法的理论结果。3.在环境噪声方面,针对以往噪声研究少假设强,且双目标帕累托优化算法没有处理噪声的能力的情况,通过引入θ-支配关系,提出了处理噪声能力更强的PONSS算法,并且对贪心算法、POSS、和PONSS在更弱的假设下进行了理论分析。
二、THE FEATURE SUBSET SELECTION ALGORITHM(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、THE FEATURE SUBSET SELECTION ALGORITHM(论文提纲范文)
(1)基于集成学习的电力CPS网络攻击识别方法(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 国内外研究现状 |
1.3 课题研究内容 |
1.4 论文结构安排 |
第2章 相关理论与技术 |
2.1 电力CPS网络攻击机理分析 |
2.2 Kmeans-Smote过采样技术 |
2.3 数据降维技术 |
2.4 集成学习技术 |
2.5 本章小结 |
第3章 网络攻击数据平衡化处理 |
3.1 引言 |
3.2 基于Kmeans-Smote的网络攻击数据平衡化处理 |
3.2.1 Kmeans-Smote过采样算法适用性分析 |
3.2.2 Kmeans-Smote算法及改进策略 |
3.2.3 网络攻击数据平衡化处理 |
3.3 仿真实验及结果分析 |
3.3.1 数据集 |
3.3.2 实验结果分析 |
3.4 本章小结 |
第4章 网络攻击识别最优特征子集选择 |
4.1 引言 |
4.2 基于JMIM算法的网络攻击识别最优特征子集选择 |
4.2.1 JMIM算法适用性分析 |
4.2.2 JMIM算法基本原理 |
4.3 电力CPS网络攻击识别最优特征子集选择 |
4.4 仿真实验及结果分析 |
4.4.1 JMIM算法参数设定 |
4.4.2 实验结果分析 |
4.5 本章小结 |
第5章 基于集成学习的网络攻击识别方法 |
5.1 引言 |
5.2 基于Lightgbm的网络攻击识别模型 |
5.2.1 Lightgbm算法适用性分析 |
5.2.2 Lightgbm集成策略 |
5.2.3 Lightgbm算法的改进策略 |
5.2.4 网络攻击识别模型构建 |
5.3 电力CPS网络攻击识别方法 |
5.4 仿真实验及结果分析 |
5.4.1 网络攻击识别方法指标评价 |
5.4.2 实验结果分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
(2)云计算环境下可信服务动态保障模型及方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 云计算系统及可信服务研究现状 |
1.2.1 IaaS与可信服务 |
1.2.2 PaaS与可信服务 |
1.2.3 SaaS与可信服务 |
1.3 可信服务保障关键技术研究现状 |
1.3.1 云计算的可信性模型 |
1.3.2 云计算的服务选择 |
1.3.3 云计算的服务组合 |
1.3.4 云计算的卸载与服务优化 |
1.4 研究目标 |
1.5 本文研究内容与组织结构 |
第2章 云计算环境下可信服务动态保障模型构建 |
2.1 引言 |
2.2 云计算环境下可信性动态保障模型 |
2.3 基于动态可信标签的虚拟化可信映射方法 |
2.3.1 模型问题描述 |
2.3.2 虚拟化资源可信映射方法 |
2.3.3 实验分析与验证 |
2.3.4 模型的有效性对比 |
2.4 本章小结 |
第3章 基于熵和SVM的服务特征子集选择方法 |
3.1 引言 |
3.2 服务分析方法 |
3.2.1 特征评估方法分类 |
3.2.2 特征选取方法分析 |
3.3 基于熵的改进特征评估方法 |
3.3.1 基于熵的特征评估方法概述 |
3.3.2 基于模糊集理论的服务熵计算方法 |
3.3.3 基于熵的特征评估方法(FIAME) |
3.4 基于SVM的改进特征子集选择方法 |
3.4.1 前向分布算法 |
3.4.2 支持向量机模型 |
3.4.3 基于迭代SVM的特征子集选择方法 |
3.5 实验验证与分析 |
3.5.1 实验目的 |
3.5.2 数据集选择 |
3.5.3 基于熵的特征评估方法实验 |
3.5.4 基于迭代支持向量机的特征子集选择方法实验 |
3.6 本章小结 |
第4章 基于区块链和混合灰狼算法的可信服务组合方法 |
4.1 引言 |
4.2 基于区块链的可信服务组合框架设计 |
4.3 基于智能合约可信服务组合的实现方法 |
4.3.1 基于标识的服务注册 |
4.3.2 可信服务组合协议 |
4.3.3 智能合约的实现过程 |
4.4 混合灰狼优化算法 |
4.4.1 标准灰狼优化 |
4.4.2 混合灰狼优化算法 |
4.5 实验验证与分析 |
4.5.1 实验场景设置 |
4.5.2 HGWO 算法实验 |
4.6 本章小结 |
第5章 云计算环境下的可信服务资源优化 |
5.1 引言 |
5.2 系统模型 |
5.2.1 本地计算 |
5.2.2 中心云端计算 |
5.3 基于遗传算法的模型求解 |
5.3.1 遗传算法 |
5.3.2 基于禁忌搜索的遗传算法优化 |
5.3.3 算法流程与实现 |
5.4 实验结果及分析 |
5.5 本章小结 |
结论 |
参考文献 |
读博士学位期间发表的论文和取得的科研成果 |
致谢 |
个人简历 |
(3)基于Wi-Fi信号的人体行为感知及跌倒检测研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 主要研究内容 |
1.4 论文章节安排 |
第2章 基本原理及算法 |
2.1 基于Wi-Fi信号的检测方法 |
2.1.1 无线信号传播特性 |
2.1.2 接收信号强度指示 |
2.1.3 信道状态信息 |
2.2 特征选择方法 |
2.2.1 Relief算法 |
2.2.2 SVM-RFE算法 |
2.2.3 主成分分析法 |
2.3 基于CSI的跌倒检测方法 |
2.3.1 人体行为识别体系框架 |
2.3.2 支持向量机基本原理 |
2.3.3 人工鱼群算法基本原理 |
2.4 本章小结 |
第3章 CSI数据预处理及特征提取 |
3.1 CSI数据预处理 |
3.1.1 Hampel异常值去除 |
3.1.2 巴特沃斯低通滤波 |
3.1.3 CSI子载波聚合 |
3.1.4 基于移动方差的动作数据分割 |
3.2 CSI特征提取 |
3.2.1 时域特征 |
3.2.2 频域特征 |
3.2.3 CSI相位校准 |
3.3 最优特征子集选择 |
3.4 本章小结 |
第4章 融合优化分类算法及实验结果分析 |
4.1 人工鱼群算法优化支持向量机实验 |
4.1.1 人工鱼群算法优化支持向量机寻优模型 |
4.1.2 参数寻优以及核函数选择的影响 |
4.1.3 粒子群寻优模型 |
4.2 实验环境与数据采集 |
4.2.1 实验平台 |
4.2.2 数据采集与实验环境 |
4.3 实验结果分析 |
4.3.1 不同分类算法性能分析 |
4.3.2 CSI与 RSSI的对比 |
4.3.3 特征选择方法对分类效果的影响 |
4.3.4 本文与其他跌倒检测方案的对比 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
硕士学位期间完成的科研成果 |
致谢 |
(4)基于信息度量的特征选择算法研究及应用(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 特征选择算法的分类 |
1.3 国内外研究现状 |
1.3.1 基于信息度量特征排序选择算法的研究现状 |
1.3.2 基于信息度量特征子集选择算法的研究现状 |
1.3.3 隐写检测特征选择的研究现状 |
1.4 研究内容 |
1.5 章节安排 |
第2章 特征选择和信息度量的相关知识 |
2.1 特征选择 |
2.1.1 定义 |
2.1.2 特征选择过程 |
2.1.3 搜索策略 |
2.1.4 度量标准 |
2.2 信息度量 |
2.2.1 信息熵 |
2.2.2 互信息 |
2.2.3 三维互信息 |
2.2.4 对称不确定性 |
2.3 基于信息度量的特征排序选择算法 |
2.3.1 基于互信息的特征排序选择算法 |
2.3.2 基于三维互信息的特征排序选择算法 |
2.4 本章小结 |
第3章 基于等区间均分和最大相关最小冗余的特征排序选择 |
3.1 约束条件 |
3.2 等区间均分和排序 |
3.3 算法实现 |
3.4 实例说明 |
3.5 实验分析 |
3.5.1 数据集和实验设置 |
3.5.2 P值对所提算法的影响 |
3.5.3 实验结果与分析 |
3.6 本章小结 |
第4章 基于等区间均分和条件互信息的特征排序选择 |
4.1 约束条件 |
4.2 等区间均分和排序 |
4.3 算法实现 |
4.4 实验分析 |
4.4.1 数据集和实验设置 |
4.4.2 P值对所提算法的影响 |
4.4.3 实验结果与分析 |
4.5 本章小结 |
第5章 基于等区间均分和三路交互信息的特征子集选择 |
5.1 等区间均分和排序 |
5.2 近似马尔科夫毯 |
5.3 相关特征和冗余特征评价 |
5.3.1 相关特征评价 |
5.3.2 冗余特征评价 |
5.4 算法实现 |
5.5 实验分析 |
5.5.1 数据集和实验设置 |
5.5.2 实验结果与分析 |
5.6 本章小结 |
第6章 基于特征模块的特征选择 |
6.1 特征模块 |
6.2 基于特征模块和SVM分类器的特征选择算法 |
6.3 基于特征模块和互信息的特征选择算法 |
6.4 隐写和隐写分析的相关知识 |
6.4.1 隐写和隐写分析 |
6.4.2 空域隐写检测特征的相关性 |
6.5 SPAM特征 |
6.5.1 隐写算法对相邻像素差分值的影响 |
6.5.2 特征构造 |
6.5.3 特征模块的构造 |
6.6 实验结果与分析 |
6.7 本章小结 |
第7章 总结与展望 |
7.1 工作总结 |
7.2 研究展望 |
参考文献 |
发表论文和参加科研情况 |
致谢 |
(5)不同场景的软件缺陷预测方法研究(论文提纲范文)
论文的主要创新点 |
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景 |
1.1.1 软件缺陷的危害 |
1.1.2 软件测试基本概念 |
1.1.3 软件缺陷预测简介 |
1.2 研究场景简介 |
1.3 研究难点 |
1.4 研究方法 |
1.5 论文的组织结构 |
第2章 研究基础和现状 |
2.1 软件缺陷预测相关基础 |
2.1.1 软件缺陷数据集和度量 |
2.1.2 经典的分类器 |
2.1.3 经典的特征工程方法 |
2.1.4 经典的不平衡学习方法 |
2.1.5 实例选择方法 |
2.1.6 迁移学习方法 |
2.2 软件缺陷预测研究现状 |
2.2.1 不同的缺陷预测场景研究 |
2.2.2 不同的缺陷预测技术研究 |
第3章 基于核主成分分析和加权极限学习机的版本内软件缺陷预测框架 |
3.1 研究动机 |
3.2 方法和框架介绍 |
3.2.1 基于核主成分分析的特征抽取技术 |
3.2.2 极限学习机 |
3.2.3 加权的极限学习机 |
3.2.4 提出的版本内缺陷预测模型 |
3.3 实验设置 |
3.3.1 研究问题 |
3.3.2 实验数据集 |
3.3.3 性能指标 |
3.3.4 参数设置 |
3.3.5 版本内预测场景设置 |
3.3.6 显着性检验 |
3.4 实验结果分析 |
3.5 本章小结 |
第4章 基于两步训练子集选择的跨版本软件缺陷预测框架 |
4.1 研究动机 |
4.2 方法和框架介绍 |
4.2.1 稀疏建模代表选择方法 |
4.2.2 基于不相似性的稀疏子集选择方法 |
4.2.3 提出的跨版本缺陷预测模型 |
4.3 实验设置 |
4.3.1 研究问题 |
4.3.2 实验数据集 |
4.3.3 性能指标 |
4.3.4 参数设置 |
4.3.5 跨版本预测场景设置 |
4.3.6 显着性检验 |
4.4 实验结果分析 |
4.5 本章小结 |
第5章 基于平衡分布适应模型的跨项目软件缺陷预测框架 |
5.1 研究动机 |
5.2 方法和框架介绍 |
5.2.1 符号定义 |
5.2.2 平衡分布适应模型 |
5.2.3 提出的跨项目缺陷预测模型 |
5.3 实验设置 |
5.3.1 研究问题 |
5.3.2 实验数据集 |
5.3.3 性能指标 |
5.3.4 参数设置 |
5.3.5 跨项目预测场景设置 |
5.3.6 显着性检验 |
5.4 实验结果分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 本文的主要工作 |
6.2 下一步工作的展望 |
参考文献 |
攻读博士期间的研究成果 |
致谢 |
(6)基于演化计算的特征选择方法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 论文的选题背景及意义 |
1.2 特征选择 |
1.2.1 特征关系概述 |
1.2.2 特征选择的基本框架 |
1.2.3 特征选择方法的类型 |
1.3 智能优化 |
1.3.1 演化计算思想 |
1.3.2 经典的演化算法 |
1.4 国内外研究现状 |
1.4.1 基于确定性搜索策略的特征选择 |
1.4.2 基于随机性搜索策略的特征选择 |
1.4.3 特征子集的度量方法 |
1.5 研究中存在的若干问题 |
1.6 本文主要研究内容及组织结构 |
1.6.1 本文主要内容 |
1.6.2 本文组织结构 |
第2章 粒信息遗传优化的特征选择算法 |
2.1 引言 |
2.2 相关研究基础 |
2.2.1 遗传算法原理 |
2.2.2 知识粒度概念 |
2.3 特征粒化算子 |
2.3.1 融合特征粒的编码机制 |
2.3.2 染色体度量函数设计 |
2.4 样本粒化及粒度优化算子 |
2.4.1 构建邻域样本粒度空间 |
2.4.2 粒度参数的优化 |
2.5 实验设计及结果分析 |
2.5.1 实验数据集及参数设置 |
2.5.2 IBGAFG算法与INRSG算法的表现 |
2.5.3 ROGA算法的表现 |
2.5.4 ROGA应用于企业财务预测 |
2.6 本章小结 |
第3章 改进多目标优化的混合特征选择算法 |
3.1 引言 |
3.2 相关研究基础 |
3.2.1 邻域决策模型 |
3.2.2 多目标优化理论 |
3.3 改进邻域正域的特征重要性度量 |
3.3.1 特征粒层构造 |
3.3.2 新的邻域正域 |
3.4 基于Pareto关系的多目标特征选择 |
3.4.1 个体编码策略 |
3.4.2 优化目标设计 |
3.4.3 非支配排序算子 |
3.4.4 个体拥挤算子 |
3.4.5 MONPR算法描述 |
3.5 MONPR的实验设计及结果分析 |
3.5.1 数据集及参数设置 |
3.5.2 Pareto前沿的比较与分析 |
3.5.3 MONPR收敛性与分析 |
3.5.4 MONPR的特征核集 |
3.5.5 MONPR的性能表现 |
3.6 本章小结 |
第4章 基于个体熵的二元差分演化特征选择算法 |
4.1 引言 |
4.2 相关研究基础 |
4.2.1 最小化优化模型 |
4.2.2 DE的改进策略分析 |
4.3 基于个体熵的二元差分演化算法 |
4.3.1 个体熵概念 |
4.3.2 种群初始化策略 |
4.3.3 个体评价函数设计 |
4.3.4 二元变异算子 |
4.3.5 自适应交叉算子 |
4.3.6 个体选择策略 |
4.3.7 BDIE算法描述 |
4.4 BDIE的实验设计及结果分析 |
4.4.1 数据集及参数设置 |
4.4.2 BDIE的适应度曲线 |
4.4.3 BDIE的分类表现 |
4.4.4 BDIE的维度约简 |
4.4.5 BDIE的运行时间 |
4.5 本章小结 |
第5章 面向无监督特征选择的差分演化及聚类优化算法 |
5.1 引言 |
5.2 无监督特征选择的挑战 |
5.3 相关研究基础 |
5.3.1 DE形式化表述 |
5.3.2 聚类分析 |
5.4 离散型差分演化的无监督特征选择 |
5.4.1 特征子空间的个体表示 |
5.4.2 改进的个体度量函数 |
5.4.3 差分演化的改进策略 |
5.4.4 提出的UFDDE算法 |
5.5 连续型差分演化的聚类优化 |
5.5.1 采用基于模式的个体编码 |
5.5.2 设计聚类的评估函数 |
5.6 UFSCDE的实验设计及分析 |
5.6.1 数据集及参数设置 |
5.6.2 聚类评价指标 |
5.6.3 实验对比算法概述 |
5.6.4 UFSCDE的性能表现 |
5.7 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文和取得的科研成果 |
致谢 |
(7)森林生物量遥感估测模型构建中的特征选择方法对比研究(论文提纲范文)
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 特征选择研究现状 |
1.2.2 特征提取研究现状 |
1.2.3 线性回归模型 |
1.2.4 基于线性回归模型的变量选择方法 |
1.2.5 森林生物量遥感变量特征选择现状 |
1.2.6 森林遥感生物量模型研究现状 |
1.3 研究内容及技术路线 |
1.3.1 研究内容 |
1.3.2 研究技术路线 |
2 研究区概况与数据 |
2.1 研究区概况 |
2.2 数据资料 |
2.2.1 样地设置及生物量计算 |
2.2.2 Landsat TM遥感数据处理 |
2.2.3 特征选择 |
3 基础方法及假设检验条件方法 |
3.1 普通最小二乘法(Original Least Square Method,OLS) |
3.2 岭回归(Ridge Regression,RR) |
3.3 线性回归模型等方差及正态假定的检验 |
3.4 自变量共线性检验 |
4 变量选择方法 |
4.1 子集选择法 |
4.1.1 逐步回归法 |
4.1.2 基于信息论的准则 |
4.1.3 基于Bayes方法的准则 |
4.1.4 基于预测误差的准则 |
4.2 系数压缩法 |
4.2.1 NNG |
4.2.2 Lasso |
4.2.3 AdaLasso |
4.2.4 SCAD |
5 生物量模型建模方法评价 |
5.1 常用评价指标 |
5.2 预测误差与模型误差评价 |
5.3 指标间的差异显着性检验 |
5.4 模型参数稳定性评价 |
5.5 变量选择稳定性评价 |
5.6 变量选择能力评价 |
6 结果与分析 |
6.1 常用评价指标及预测误差结果 |
6.2 决定系数差异显着性检验 |
6.3 模型系数稳定性分析 |
6.4 变量选择稳定性评价 |
6.5 变量选择能力评价 |
7 结论与讨论 |
7.1 结论 |
7.2 讨论 |
7.3 创新点 |
参考文献 |
个人简介 |
导师简介 |
致谢 |
(8)一种基于EBIC的软件故障特征选择方法(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状及其分类 |
1.3 本文主要工作及贡献 |
1.4 本文篇章结构 |
第二章 相关工作 |
2.1 软件故障预测过程 |
2.2 软件度量指标介绍 |
2.2.1 代码指标 |
2.2.2 过程指标 |
2.3 软件故障预测中的特征选择 |
2.3.1 特征排序方法 |
2.3.2 特征子集选择方法 |
2.4 本章小结 |
第三章 基于EBIC的特征选择方法及其故障预测 |
3.1 软件故障预测数据 |
3.2 EBIC-FS特征选择方法 |
3.2.1 拓展贝叶斯信息准则及其特征选择应用 |
3.2.2 EBIC- FS方法流程 |
3.2.3 特征排序阶段 |
3.2.4 特征子集评估阶段 |
3.2.5 时间复杂度分析 |
3.3 软件故障预测模型 |
3.4 本章小结 |
第四章 实证研究 |
4.1 实验数据 |
4.2 评价方法 |
4.3 实验设计 |
4.4 实验结果与分析 |
4.4.1 特征选择结果 |
4.4.2 预测模型性能结果 |
4.4.3 实验结果分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 本文局限性及不足 |
5.2 工作总结及未来工作方向 |
参考文献 |
附录 攻读硕士学位期间完成的科研成果 |
致谢 |
(9)基于半监督学习的WMS元数据文本多标签分类方法(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 地理信息资源发现与主题分类研究现状 |
1.2.2 特征选择研究现状 |
1.2.3 半监督学习研究现状 |
1.2.4 多标签分类研究现状 |
1.3 研究目标与内容 |
1.3.1 研究目标 |
1.3.2 研究内容 |
1.3.3 创新点 |
1.3.4 技术路线 |
1.4 论文的组织结构 |
2 基于语料库与WORD2VEC的领域特征子集选择 |
2.1 地学本体库与英语词汇网 |
2.1.1 地球与环境术语语义网络 |
2.1.2 WordNet |
2.2 文本表示 |
2.2.1 文本表示的基本概念 |
2.2.2 Word2vec |
2.3 领域特征子集选择 |
2.3.1 典型词词表生成 |
2.3.2 特征过滤 |
2.4 本章小结 |
3 基于半监督学习的多标签文本分类 |
3.1 协同训练基本原理 |
3.2 ML-KNN算法基本原理 |
3.3 ML-CSW算法设计 |
3.3.1 特征词与主题的距离计算 |
3.3.2 ML-CSW多标签分类流程 |
3.4 SML-SWKNN算法设计 |
3.5 本章小结 |
4 基于LDA的细粒度领域主题提取 |
4.1 隐狄利克雷分布基本概念 |
4.2 LDA计算过程 |
4.2.1 Gibbs采样 |
4.2.2 LDA建模过程 |
4.3 细粒度领域主题提取 |
4.4 本章小结 |
5 WMS元数据文本分类实验 |
5.1 实验数据与实验环境 |
5.1.1 实验数据 |
5.1.2 实验环境 |
5.1.3 评价指标 |
5.2 SML-SWKNN算法与基模型准确性验证 |
5.3 特征选择方法准确性验证 |
5.4 分类算法适用性验证 |
5.5 典型文本验证 |
5.6 本章小结 |
6 原型系统设计与实现 |
6.1 WMS元数据扩展 |
6.2 原型系统架构 |
6.3 原型系统展示 |
6.4 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读硕士学位期间学术成果 |
致谢 |
(10)子集选择之帕累托优化方法的拓展研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 研究背景 |
1.3 本文工作 |
第二章 求解效率拓展: 基于序贯分解的多目标优化方法 |
2.1 引言 |
2.2 相关工作 |
2.3 序贯分解方法 |
2.4 理论分析 |
2.5 小结 |
第三章 求解效率拓展: 并行化帕累托子集选择方法 |
3.1 引言 |
3.2 相关工作 |
3.3 PPOSS方法 |
3.4 理论分析 |
3.5 实验分析 |
3.6 小结 |
第四章 约束类型拓展: 一般约束的帕累托子集选择方法 |
4.1 引言 |
4.2 相关工作 |
4.3 POMC方法 |
4.4 理论分析 |
4.5 实验分析 |
4.6 小结 |
第五章 环境噪音拓展: 随机噪音下的帕累托子集选择方法 |
5.1 引言 |
5.2 相关工作 |
5.3 PONSS方法 |
5.4 理论分析 |
5.5 实验分析 |
5.6 小结 |
第六章 总结 |
致谢 |
参考文献 |
简历与科研成果 |
四、THE FEATURE SUBSET SELECTION ALGORITHM(论文参考文献)
- [1]基于集成学习的电力CPS网络攻击识别方法[D]. 王达. 东北电力大学, 2021(09)
- [2]云计算环境下可信服务动态保障模型及方法研究[D]. 姜伟. 哈尔滨工程大学, 2021
- [3]基于Wi-Fi信号的人体行为感知及跌倒检测研究[D]. 冉亚鑫. 云南大学, 2020(08)
- [4]基于信息度量的特征选择算法研究及应用[D]. 顾翔元. 天津大学, 2020(01)
- [5]不同场景的软件缺陷预测方法研究[D]. 徐洲. 武汉大学, 2019(01)
- [6]基于演化计算的特征选择方法研究[D]. 李涛. 哈尔滨工程大学, 2019(04)
- [7]森林生物量遥感估测模型构建中的特征选择方法对比研究[D]. 于晓辉. 浙江农林大学, 2019(01)
- [8]一种基于EBIC的软件故障特征选择方法[D]. 涂吉屏. 云南大学, 2019(03)
- [9]基于半监督学习的WMS元数据文本多标签分类方法[D]. 张敏. 武汉大学, 2019(09)
- [10]子集选择之帕累托优化方法的拓展研究[D]. 侍竞成. 南京大学, 2018(01)