胡文蕙
- 作品数:36 被引量:362H指数:4
- 供职机构:北京大学更多>>
- 发文基金:国家高技术研究发展计划国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学经济管理更多>>
- 基于构件技术的应用框架元模型的研究被引量:114
- 2004年
- 从应用框架构造和组成的角度,使用UML(unified modeling language,统一建模语言)符号体系,提出了框架元模型,给出了框架内部组成元素的语义,特别是对扩展点的表示和实现机制进行了详细的讨论.最后以电信综合营业系统框架为例,给出了框架元模型的一个实例,并给出了应用框架的复用方法.
- 胡文蕙赵文张世琨王立福
- 关键词:扩展点
- 商业领域软件框架的研究与实现
- 该文的第一章介绍了框架技术以及相关概念;第二章概述了对商业领域进行领域分析的过程;第三章给出了基于DSSA的商业领域软件框架的总体设计、遇到的问题以及解决方案;第四章介绍了字典构件的设计和实现,并给出一个应用实例;第五章...
- 胡文蕙
- 关键词:软件框架
- 基于小样本的医疗数值抽取和理解方法及装置
- 本发明提供一种基于小样本的医疗数值抽取和理解方法及装置,该方法包括:基于正则化表达式,对目标医疗文本进行数值抽取;基于prompt函数,获取每一数值对应的问句;将每一数值对应的问句和所述目标医疗文本输入问答模型中,得到每...
- 胡文蕙刘学洋曾晓东
- 一种基于模型融合的岗位推荐方法及装置
- 本发明提供一种基于模型融合的岗位推荐方法及装置,包括:将目标个体的目标任职序列输入至少一个基础预测模型,获取由各基础预测模型生成的目标评分矩阵;将所有的目标评分矩阵和目标个体的目标特征表进行拼接融合,确定目标融合特征并输...
- 刘学洋胡文蕙邵文宇
- 细粒度情感分析模型训练方法及装置
- 本发明实施例提供一种细粒度情感分析模型训练方法及装置,所述方法包括:获取带有情感标记以及方面词的文本信息;对文本信息中的每条语句进行分词处理,获取每条语句中每个词的上下文词向量,根据每个词的上下文词向量以及方面词的词向量...
- 张世琨马路遥叶蔚刘学洋胡文蕙
- 区块链系统与测试样例匹配方法、装置及电子设备
- 本发明提供一种区块链系统与测试样例匹配方法、装置及电子设备,所述方法包括:获取待测试区块链系统;构建知识图谱,其中,所述知识图谱包括多个三元组,所述三元组包括区块链系统实体、测试样例实体,以及所述区块链系统实体与所述测试...
- 刘学洋胡文蕙李书屹
- 基于小样本的医疗数值抽取和理解方法及装置
- 本发明提供一种基于小样本的医疗数值抽取和理解方法及装置,该方法包括:基于正则化表达式,对目标医疗文本进行数值抽取;基于prompt函数,获取每一数值对应的问句;将每一数值对应的问句和所述目标医疗文本输入问答模型中,得到每...
- 胡文蕙刘学洋曾晓东
- 文献传递
- 一种基于模型融合的岗位推荐方法及装置
- 本发明提供一种基于模型融合的岗位推荐方法及装置,包括:将目标个体的目标任职序列输入至少一个基础预测模型,获取由各基础预测模型生成的目标评分矩阵;将所有的目标评分矩阵和目标个体的目标特征表进行拼接融合,确定目标融合特征并输...
- 刘学洋胡文蕙邵文宇
- 文献传递
- 面向代码相似性检测的相似哈希改进方法被引量:9
- 2021年
- 代码相似性检测(code similarity detection)是软件工程领域的基本任务之一,其在剽窃检测、许可证违反检测、软件复用分析以及漏洞发现等方向均起着重要作用.随着软件开源化的普及以及开源代码量的高速增长,开源代码在各个领域的应用日益频繁,给传统的代码相似性检测方法带来了新的挑战.现有的一些基于词法、语法、语义的检测方法存在算法较为复杂、对解析工具有依赖性、消耗资源高、可移植性差、候选对比项数量较多等问题,在大规模代码库上有一定的局限性.基于相似哈希(simhash)指纹的代码相似性检测算法将代码降维至1个指纹,能够在数据集规模较大的情况下实现快速相似文件检索,并通过海明距离阈值控制匹配结果的相似度范围.通过实验对现有的基于代码行粒度的相似哈希算法进行验证,发现其在大规模数据集下存在行覆盖问题,即高频行特征对低频行特征的覆盖现象,导致结果精确度较低.受TF-IDF算法思想启发,针对上述问题创新性地提出了分语言行筛选优化方法,通过各种语言的行筛选器对代码文件行序列进行筛选,从而消除高频出现但语义信息包含较少的行对结果的影响.对改进前后方法进行一系列对比实验,结果表明,改进后的方法在海明距离阈值为0~8的情况下都能够实现高精确度的相似文件对检索,当阈值为8时在两个数据集下的精确度较改进前的方法分别提升了98.6%和52.2%.在所建立的130万个开源项目、386486112个项目文件的大规模代码库上进行了实验,结果表明所提方法能够快速检测出待测文件的相似文件结果,平均单个文件检测时间为0.43s,并取得了97%以上的检测精度.
- 李玫高庆马森马森张世琨张兴明
- 关键词:大数据
- 基于文档上下文的机器翻译方法及装置
- 本发明实施例提供一种基于文档上下文的机器翻译方法及装置,方法包括:基于句子级Encoder获取当前句子的源端上下文表征、目标端上下文草稿表征和当前句子的草稿译文表征;基于文档级Encoder获取当前句子的源端句子表征,在...
- 叶蔚张龙张世琨刘学洋胡文蕙
- 文献传递