门昌骞 作品数:15 被引量:73 H指数:5 供职机构: 山西大学计算机与信息技术学院 更多>> 发文基金: 国家自然科学基金 山西省自然科学基金 山西省回国留学人员科研经费资助项目 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
一种核的上下文多臂赌博机推荐算法 被引量:2 2022年 个性化推荐服务在当今互联网时代越来越重要,但是传统推荐算法不适应一些高度变化场景。将线性上下文多臂赌博机算法(linear upper confidence bound,LinUCB)应用于个性化推荐可以有效改善传统推荐算法存在的问题,但遗憾的是准确率并不是很高。本文针对LinUCB算法推荐准确率不高这一问题,提出了一种改进算法K-UCB(kernel upper confidence bound)。该算法突破了LinUCB算法中不合理的线性假设前提,利用核方法拟合预测收益与上下文间的非线性关系,得到了一种新的在非线性数据下计算预测收益置信区间上界的方法,以解决推荐过程中的探索–利用困境。实验表明,本文提出的K-UCB算法相比其他基于多臂赌博机推荐算法有更高的点击率(click-through rate,CTR),能更好地适应变化场景下个性化推荐的需求。 王鼎 门昌骞 王文剑关键词:个性化推荐 核方法 点击率 一种模型决策森林算法 被引量:15 2020年 随机森林(RF)具有抗噪能力强,预测准确率高,能够处理高维数据等优点,因此在机器学习领域得到了广泛的应用。模型决策树(MDT)是一种加速的决策树算法,虽然能够提高决策树算法的训练效率,但是随着非纯伪叶结点规模的增大,模型决策树的精度也在下降。针对上述问题,提出了一种模型决策森林算法(MDF)以提高模型决策树的分类精度。MDF算法将MDT作为基分类器,利用随机森林的思想,生成多棵模型决策树。算法首先通过旋转矩阵得到不同的样本子集,然后在这些样本子集上训练出多棵不同的模型决策树,再将这些树通过投票的方式进行集成,最后根据得到的模型决策森林给出分类结果。在标准数据集上的实验结果表明,提出的模型决策森林在分类精度上明显优于模型决策树算法,并且MDF在树的数量较少时也能取到不错的精度,避免了因树的数量增加时间复杂度增高的问题。 尹儒 门昌骞 王文剑关键词:基尼指数 基于随机傅里叶特征空间的高斯核近似模型选择算法 被引量:2 2023年 核方法是一种把低维空间的线性不可分问题转化为高维空间中线性可分问题的方法,其广泛应用于多种学习模型。然而现有的核模型选择方法在大规模数据中计算效率较低,时间成本很大。针对这一问题,本文引入随机傅里叶特征变换,将原始核特征空间转换为另一个相对低维的显式随机特征空间,并给出核近似误差上界理论分析以及在核近似的随机特征空间中训练学习模型的误差上界,得到核近似的收敛一致性和误差上界与核近似参数之间的关系。基于随机傅里叶特征空间选择出最优模型参数,避免了对最优原始高斯核模型参数的大规模搜索,从而大幅降低原始高斯核模型选择所需的时间成本。实验表明,本文给出的误差上界确由核近似参数控制,核近似选择的最优模型相较于原始高斯核模型有较高的准确率,并且模型选择时间相对网格搜索法大幅减小。 张凯 门昌骞 王文剑关键词:核方法 高斯核 傅里叶变换 一种特征值区间划分的模型决策树加速算法 被引量:4 2021年 目前对决策树(Decision Tree,DT)分类问题的相关研究已取得了很多成果,但仍存在一些问题,如决策树在寻找最优切分点时需要遍历特征的所有取值,当数据集规模较大时,递归构建决策树所需时间将会很长,因此在保证分类精度的前提下加速决策树的构建具有重要意义.本文首先根据数据的不同分布,给出两种特征值区间的分割方法,即等精度特征值区间划分和变精度特征值区间划分,然后计算各选定区间的基尼指数,寻找最优特征及最优切分点,最后递归生成模型决策树.实验表明,算法在构造决策树时可有效减小计算代价,在保证分类精度的同时加速决策树的构造,且在一定程度上能够避免过拟合现象的发生. 高虹雷 门昌骞 王文剑关键词:决策树 基尼指数 基于凸包估计的SVM核参数选择方法研究 支撑向量机/(Support Vector Machine,SVM/)是近年来受到广泛关注的一类学习机器,它以统计学习理论/(Statistical Learning Theory,SLT/)为基础,具有简洁的数学形式、... 门昌骞关键词:统计学习理论 支撑向量机 文献传递 模型决策树:一种决策树加速算法 被引量:14 2018年 决策树算法采用递归方法构建,训练效率较低,过度分类的决策树可能产生过拟合现象.因此,文中提出模型决策树算法.首先在训练数据集上采用基尼指数递归生成一棵不完全决策树,然后使用一个简单分类模型对其中的非纯伪叶结点(非叶结点且结点包含的样本不属于同一类)进行分类,生成最终的决策树.相比原始的决策树算法,这样产生的模型决策树能在算法精度不损失或损失很小的情况下,提高决策树的训练效率.在标准数据集上的实验表明,文中提出的模型决策树在速度上明显优于决策树算法,具备一定的抗过拟合能力. 尹儒 门昌骞 王文剑 刘澍泽关键词:基尼指数 一种基于多学习器标记的半监督SVM学习方法 被引量:9 2008年 传统的支撑向量机是一种有监督学习方法,为了提高其泛化能力,提出了一种新的基于多学习器标记的半监督SVM学习方法。该方法将训练集分为有标记样本和无标记样本两个集合,通过对无标记样本进行分别标记,不断修正有标记样本集规模,从而提高SVM的泛化性能。在中文电子邮件过滤数据集上的实验结果证明了该方法的可行性和有效性。 门昌骞 王文剑关键词:半监督学习 支持向量机 邮件过滤 基于模型决策树的AdaBoost算法 被引量:5 2023年 AdaBoost算法是一种将多个基学习器通过合理策略结合生成强学习器的集成算法,其性能取决于基学习器的准确率和多样性。但弱学习器分类精度不高往往也导致了最终强分类器性能较差,因此进一步为了提高算法的分类精确率,本文提出一种MDTAda模型,首先利用基尼指数迭代构造一棵不完全决策树,然后在决策树的非纯伪叶结点上添加简单分类器,生成MDT(模型决策树),将MDT作为AdaBoost算法的基分类器,加权平均生成强分类器。在标准数据集上的实验表明,相比传统的AdaBoost算法,本文提出的算法拥有更好的泛化性能和更优的间隔分布,且在与AdaBoost算法达到相同精度时所需迭代次数更少。 梁云 门昌骞 王文剑关键词:基尼指数 决策树 ADABOOST算法 一种利用SPXY采样的标签噪声主动清洗方法 被引量:4 2021年 基于主动学习的标签噪声清洗方法(Active label noise cleaning,ALNC)是一种通过主动学习筛选疑似噪声样本,进而交给人工专家进行再标记的标签噪声清洗方法.虽然该方法既有很好的噪声识别效果又能保持原有数据的完整性,但仍存在人工额外标记代价较高的问题,即筛选出的疑似噪声样本中存在一定比例的正常样本.为了解决这一问题,降低标签噪声清洗过程中的人工额外检验代价,本文提出了一种基于SPXY(Sample Set Partitioning based on Joint X-Y Distance Sampling)采样的标签噪声主动清洗方法(Active label noise cleaning based on SPXY,SPXYALNC),该方法在主动学习筛选疑似噪声样本的过程中结合了SPXY采样方法,这样既考虑了样本的不确定性,又考虑了样本的代表性,并且在原有标准数据集上针对分类问题进行了实验,实验结果表明该方法在保持原有噪声识别效果的同时可以明显降低人工额外检验代价. 门昌骞 孟晓超 姜高霞 王文剑多核贝叶斯优化的模型决策树算法 被引量:10 2022年 构造模型决策树时超参数较多,参数组合复杂,利用网格搜索等调参方法将会消耗大量的时间,影响模型性能的提升。提出了一种多核贝叶斯优化的模型决策树算法,该算法为应对不同分类数据特性,采用三种高斯过程建模寻优,利用贝叶斯优化技术,选出最优的参数组合。实验结果表明,所提算法在参数寻优上要优于传统的模型决策树寻优方法,并且能够在迭代次数不多的情况下找到全局最优参数值,在一定程度上提升了算法的分类性能,节省了大量的调参时间。 高虹雷 门昌骞 王文剑关键词:高斯过程