左劼 作品数:56 被引量:301 H指数:10 供职机构: 四川大学 更多>> 发文基金: 国家自然科学基金 国家教育部博士点基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 理学 核科学技术 一般工业技术 更多>>
FOLAPE:基于位向量索引的快速OLAP引擎研究 2010年 提高联机分析处理OLAP效率是学术界和工业界共同关注的课题.传统OLAP在处理复杂应用时,运算代价随维度增大而增大,为解决这一问题,做了如下工作:(1)分析现有OLAP模型的不足,设计了一种采用位向量索引技术的快速OLAP模型,FOLAPE;(2)FOLAPE支持索引的增量式更新,提高了数据更新效率;(3)针对FOLAPE特点,设计了新的聚集函数算法;(4)在真实数据上进行了实验验证.实验表明,FOLAPE相对于最新OLAP模型,其平均查询时间最低减少90%,最高减少95%,同时存储空间需求也显著降低. 牟昕 唐常杰 左劼 段磊 巩杰 姜页希 朱军关键词:联机分析处理 LRU 一种材料基因工程数据转换及检索方法 本发明涉及材料基因工程数据存储领域,提供了一种材料基因工程数据转换及检索方法。本发明的目的在于解决现有材料基因工程数据库存在不能精确检索数据结果的技术问题。主要方案包括根据json文件新建一张主表,读取json文件的te... 左劼 张骏杰 陈子豪 郭正山 张袁昊 黄梦林基于前后文词形特征的生物医学文献句子边界识别 被引量:1 2006年 针对生物医学文献的特点及信息抽取的特殊要求,提出了基于前后文词形特征和有教师学习的句子边界识别算法.与针对一般英语书面语设计的句子边界识别算法不同,本文提出的算法不使用特殊的辅助词表和语法层面的特征信息,只使用前后文单词的词形信息作为句子边界识别和消歧的依据.利用这些特征设计了最大信息熵识别器和支持向量机识别器,并在Medline摘要上进行了实验,达到了超过99%的正确率.实验结果表明,最大信息熵法和支持向量机法在句子边界消歧问题上具有相近的性能,同时还表明,对生物医学文献句子边界识别,只使用词法层面的特征,不使用辅助词表和词性等语法层面的信息,仍可达到其它算法在一般英语书面语上利用辅助词表和词性信息所达到的性能. 于中华 张容 唐常杰 左劼 张天庆关键词:自然语言处理 句子边界识别 掺杂羟基磷灰石生物材料的骨诱导性高通量筛选的方法 本发明涉及生物材料与计算机软件信息技术领域,提供了一种掺杂羟基磷灰石生物材料的骨诱导性高通量筛选的方法。目的在于提供一种可以快速筛选出一类具有优良特性的骨诱导性材料的通用方法。主要方案包括对掺杂后羟基磷灰石筛选出结构最为... 薛志宇 左劼 徐定国文献传递 基于多实例学习的医疗图像识别研究进展 2021年 近年来,利用有监督学习进行医疗图像的自动识别应用越来越广泛,但是在该领域中无法忽视的问题是专业医疗图像的精细标注的获取成本非常巨大。因此,多实例学习由于其将单个图像的多个实例视为一个包,在学习过程中只需要包的标签,而不需要精确地针对每个实例的标签的特性,为解决医疗图像识别缺乏精准标注的问题提供了解决方案。特别是随着近十年来深度学习的飞速发展,大量基于神经网络的多实例学习方法被提出,使得多实例学习领域焕发了新的生机。 黄琪 左劼 孙频捷关键词:神经网络 医疗图像 基于区域的CBIR图像检索方法研究进展 被引量:2 2019年 随着电子相机的发展和普及,互联网上传输的图像数据规模呈现快速的增长趋势。对于能够方便快捷地检索图像数据的需求日益增长,基于内容的图像检索(CBIR)因此成为一个热门的研究领域。近年来,在深度学习的基础上,基于区域的CBIR图像检索方法的检索效果引起学者们的广泛跟进。通过将图像目标区域提取方法应用到CBIR图像检索上的方式进行归纳整理,为基于区域的CBIR图像检索方法的研究提供理论依据。 钟奇林 左劼 孙频捷关键词:图像数据 Web实时环境两级过滤中文文本内容自学习算法 被引量:3 2011年 用户在互联网发布信息的自由性对Web信息内容过滤提出新的挑战。为此,给出一种自学习的两级内容过滤算法SAFE(self-study algorithm of filtering Chinese text content)。SAFE以数据流的方式处理文本,并根据Apriori性质,在不依赖词典的情况下,通过挖掘关键字和关键词实现对文档的两级内容过滤。利用真实世界Web文档验证了SAFE的有效性,实验表明对给定的主题进行文本内容过滤,SAFE的查全率达到93.75%以上,查准率达到100%,执行时间能够满足Web应用的实时性要求。 段磊 唐常杰 左劼 彭京 刘婷婷 苟驰关键词:数据挖掘 RT-Rank:基于RSS标签排名相关性的文档聚类 被引量:2 2007年 RSS文档聚合是Web 2.0的特色技术,目前RSS相关性阅读还仅限于简单的相同标签聚合.为解决此问题,提出了基于RSS标签聚类的新方法,主要工作包括:1)分析传统RSS聚合方法的不足之处;2)提出了RSS标签排名的概念和计算方法,将标签计数转化为了标签排名,消除了部分噪音;3)提出标签比重积累的RSS标签排名的Hash聚类方法;4)做了详实的实验.实验表明,新的RSS相关性文档聚类方法准确度提高了7%. 王波 唐常杰 段磊 尹佳 左劼 李川关键词:数据挖掘 聚类 RSS 基因表达式编程初始种群的多样化策略 被引量:49 2007年 基因表达式编程(GeneExpressionProgramming,GEP)算法是遗传家族的新成员,被广泛用于知识发现,其初始种群的质量对进化效率和进化结果至关重要.为了产生优势初始种群,提出了基因空间均匀分布策略(GeneSpaceBalanceStrategy,GSBS),证明了描述编码空间量化性质的GEP编码空间定理.实验表明,GSBS提高进化效率超过20%.GSBS算法的思想还可以应用于其它进化计算中. 胡建军 唐常杰 段磊 左劼 彭京 元昌安关键词:遗传编程 遗传算法 基因表达式编程 函数挖掘 基于Hash函数取样的线性时间聚类方法LCHS 被引量:2 2005年 作为数据挖掘中的经典算法,k-中心点算法存在效率低、对大数据集适应性差等严重不足.该文针对这一不足,提出并实现Hash分层模型LCHS(LinearClusteringBasedHashSampling),主要贡献包括:(1)将m维超立方体按等概率空间进行分桶,使得每层(即Hash桶)的数据个数相近,以较小的计算代价获得分层抽样的效果;(2)新算法保证了样本具有对总体数据的充分的统计代表性;(3)从理论上证明了新算法复杂度为O(N);(4)对比实验表明新算法在数据集的个数接近10000时,效率比传统算法提高2个数量级,数据集的个数接近8000时,聚类质量比CLARA算法提高55%. 元昌安 唐常杰 张天庆 陈安龙 左劼 谢方军关键词:K-中心点 聚类分析 HASH函数