沙朝锋
- 作品数:22 被引量:330H指数:6
- 供职机构:复旦大学计算机科学技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学生物学文化科学更多>>
- 基于次模函数最大化的测试用例集约简被引量:1
- 2021年
- 随着软件回归测试规模的不断增大和成本的不断增加,测试用例集约简对于提高软件的回归测试效率显得愈发重要。在选取测试用例子集时,需考虑该子集的代表性和多样性,并采用一个有效的算法来求解。针对该测试用例集约简问题,文中提出了一种基于次模函数最大化的算法SubTSR。尽管引入的离散优化问题是NP-hard问题,但文中利用其目标函数的次模性,采用启发式贪心搜索,求得有近似度保证的次优解。在15个数据集上对SubTSR算法与其他测试用例集约简算法展开实验,针对平均错误检出率、错误检测损失率、首次错误检出位等指标,尝试改变LDA处理中的主题个数以及衡量测试用例相似度的距离,以验证SubTSR算法的有效性。实验结果表明,SubTSR算法在错误检出性能上较其他算法有着较大提升,且在多个数据集上的表现保持相对稳定。在主题个数变化引起文本表示变化时,采用曼哈顿距离的SubTSR算法的性能相较其他算法仍能保持相对稳定。
- 文进张星宇沙朝锋刘艳君
- 关键词:软件测试测试用例集约简主题模型
- 电子商务商品归一化方法研究被引量:10
- 2014年
- 电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中,特别是在C2C(Customer-to-Customer)模式下,商品信息的数据质量很低且缺乏统一的模式定义规范,导致已有的商品归一化方法难以适用.针对这一问题,文中设计了一种将数据集成、数据清理和商品归一化相结合的混合框架.该框架首先基于图的方法进行模式集成,然后利用商品的描述信息进行数据清理,从而得到数据质量更高且模式统一的商品信息数据;在数据集成和数据清理之后,利用逻辑斯蒂回归(Logistic regression)模型训练分类器,从而得到商品之间的相似度矩阵,最后对相似度矩阵聚类实现商品归一化.通过与已有的方法在真实数据上进行对比实验,验证了文中提出的方法的有效性.
- 王立张蓉沙朝锋王晓玲周傲英
- 关键词:数据清理聚类
- 一种基于学习的高维数据c-近似最近邻查询算法被引量:18
- 2012年
- 针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用来预测查询的类标号.在此基础上计算查询与数据集中数据对象的海明距离.最后,在过滤后的候选数据集上计算查询的最近邻.与现有方法相比,该方法对空间需求更小,编码长度更短,效率更高.模拟数据集和真实数据集上的实验结果表明,该方法不仅能够提高查询效率,而且方便调控在查询质量和查询处理时间方面的平衡问题.
- 袁培森沙朝锋王晓玲周傲英
- 关键词:支持向量机分类器高维数据
- TBPRS:基于信任关系的社交用户推荐系统
- 为了提升用户体验度,社交网络都提供了用户推荐。新浪微博的用户推荐方式基于社交网络的结构,并没考虑微博内容信息。而微博作为一个用户创建与分享信息的社交网络应用,具有很强的互动性,用户的兴趣、用户间的关系紧密度等信息都体现在...
- 王朝勇马海欣沙朝锋王晓玲
- 关键词:社交网络信任度量
- 文献传递网络资源链接
- 电子商务网站搜索引擎检索串分析被引量:1
- 2013年
- 在电子商务网站中,关键字搜索是用户查询商品的一种重要手段,其中计算检索串中的切词权重则是搜索引擎查询处理时的一个重要步骤.本文总结了现有计算切词权重方法的不足,提出了一种新方法.该方法结合切词重要性和相关性确定切词权重,有效地提高了切词权重确定的准确性,是一种切实可行的计算切词权重的方法.
- 冯亮沙朝锋
- 关键词:信息检索搜索引擎
- 基于长短期记忆网络的电力时间序列数据的异常检测方法
- 本发明公开了一种基于长短期记忆网络的电力时间序列数据的异常检测方法。该方法包括如下步骤:(1)电力时序数据预处理;(2)神经网络模型预训练,采用编码器‑解码器结构,计算分层动态注意力;(3)异常数据检测,在神经网络模型<...
- 沙朝锋耿同欣郑伟杰
- 文献传递
- 基于密度的聚类和异常检测
- [EKSX96]中提出了基于密度的聚类方法,基于密度的聚类的基本思想是:对于给定的半径,簇中每个数据点的邻居点数大于一个用户设置的参数(MinPts),即邻居点的基数必须超过一个阈值.这个方法可以用于发现任意形状的簇和作...
- 沙朝锋
- 关键词:数据聚类聚类算法数据挖掘异常检测OPTICS
- 文献传递
- 基于随机投影和主成分分析的网络嵌入后处理算法被引量:2
- 2021年
- 网络嵌入作为网络表示学习,近年来受到了研究人员的广泛关注。目前,已有许多基于网络结构学习网络中结点的低维向量表示的模型,如DeepWalk等,并且这些模型在结点分类和链接预测等任务中取得了良好的效果。然而,随着网络规模的增大,多个网络嵌入算法存在计算瓶颈问题。为缓解该问题,可采用诸如随机投影这类无需学习的方法,但这样可能会丢失网络结构的关键信息,致使算法性能下降。为此,文中提出了一种网络嵌入的后处理算法PPNE(Post-Processing Network Embedding),该算法结合了随机投影以及主成分分析,有效地保留了网络结构的关键信息,保持了网络结构的高阶近似性。将所提算法与其他网络嵌入算法在3个公共数据集上针对结点分类和链接预测任务进行实验对比,以验证其有效性。实验结果表明,PPNE算法在运行速度和预测性能方面相比其他算法有较大的提升,尤其是该算法在保证良好任务效果的同时,运行速度比其他基于学习的算法提升了至少两个数量级。
- 胡昕彤沙朝锋刘艳君
- 关键词:主成分分析网络嵌入链接预测
- 基于KL距离的非平衡数据半监督学习算法被引量:13
- 2010年
- 在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时.因此,提出了一种基于KL距离的半监督分类算法——LiKL:依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来分类.与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性.
- 许震沙朝锋王晓玲周傲英
- 关键词:半监督学习KL距离朴素贝叶斯LOGISTIC回归
- 基于内存计算的大规模图数据管理研究被引量:2
- 2014年
- 图是一种重要的数据模型,能够描述结构化的信息,在诸如交通网络、社交网络、Web页面链接关系等领域应用广泛,因而获得了广泛的研究.海量的图数据管理对传统的图分析处理技术提出了挑战,分布式集群计算为大规模图数据分析提供了基础平台.随着计算机硬件性价比的大幅提升以及高性能应用需求,基于内存计算的海量数据处理技术获得了业界青睐.图数据高效存储和计算与内存计算密切相关,在此背景下,文章综述了大规模图数据处理相关技术进展,研究了典型的基于内存计算的大规模图数据管理系统,最后总结了基于内存计算的图数据管理的关键点.
- 袁培森舒欣沙朝锋徐焕良
- 关键词:分布式计算