广东省科技攻关计划(2007B010200044)
- 作品数:26 被引量:138H指数:6
- 相关作者:彭宏马千里郑启伦陈建超胡建军更多>>
- 相关机构:华南理工大学广东商学院惠州学院更多>>
- 发文基金:广东省自然科学基金广东省科技攻关计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术交通运输工程理学农业科学更多>>
- 中药方剂数据挖掘系统中数据存储的设计被引量:1
- 2008年
- 开发了从中药药方中挖掘方剂药理信息的软件系统。讲述了中药数据的特点,中药方剂数据挖掘系统的体系结构,最后重点讲述了数据存储子系统的设计问题。
- 胡建军
- 关键词:数据挖掘中药方剂数据库
- 混合式的元数据管理系统研究被引量:1
- 2009年
- 提出了一种基于混合式技术的元数据管理系统。探讨了两种常用的元数据管理方式:集中式元数据管理和分布式元数据管理。详细分析了基于这两种元数据管理方式的混合模型的结构,并对系统中对象存储的作用以及对元数据服务器的结构和功能进行了详细描述。最后,对元数据管理中重要的元数据标准进行了分析,运用该系统使得元数据的管理,数据处理、分析和过程的综合再现更加高效,方便和安全。
- 杜楠彭宏
- 关键词:混合式元数据管理系统元数据服务器对象存储设备元数据标准
- 边信息传播修正的半监督维数约减方法被引量:1
- 2011年
- 现有基于边信息的半监督维数约减算法大都是直接将保留边信息和数据拓扑结构的目标函数相加,因此数据拓扑结构中的错误连接不会因已知的边信息而得到修正.提出通过边信息传播及修正机制将边信息融入到数据拓扑结构图中的方法,从而在保留边信息的同时保留更为真实的数据拓扑结构信息.实验结果表明本文所提出的算法较之其它算法,对数据降维后用于分类时可取得较高的准确率,且算法对创建的KNN图中的参数K最具鲁棒性.
- 刘利韦佳马千里
- 关键词:半监督学习维数约减
- 受限领域中文问答系统问句分析研究被引量:2
- 2010年
- 问句分析是问答系统中一个极其重要的部分,它对后续的搜索模块和答案抽取模块有着至关重要的影响。为了提高问句分析模块的性能,对中文问答系统问句分析模块进行研究和分析,在构建领域词典的基础上实现了对问句中命名实体的识别。对问句类型的识别则采用问题类别对照表的方式来实现。在对问句进行分词、词性标注之后,提取出其中的名词、动词、形容词等实词,形成初始查询向量,最后对初始查询向量进行同义词扩展和问句类型关联词扩展。实验结果表明,通过查询向量进行查询比用问句直接查询有着更高的准确率。
- 蒋昌金彭宏马千里林正春王成
- 关键词:中文问答系统查询扩展信息检索
- 面向数据质量的ETL框架的设计与实现被引量:21
- 2010年
- 针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构。根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等。该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理。基于该设计思想开发一个ETL工具-DQETL。DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理。最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤。
- 李庆阳彭宏
- 关键词:数据仓库数据质量数据清洗
- 基于增量词集频率的文本主题词提取算法研究被引量:4
- 2010年
- 提出了一种基于增量词集频率的文本主题词提取算法,其核心思想是计算主题词集频率增量,算法从候选主题词集提取主题词时,计算单个候选主题词对主题词集频率的增量,若增量小于给定阈值,则主题词提取算法结束,否则将该候选主题词加入主题词集,继续考察下一个候选主题词。实验结果表明,该算法取得了较好的效果,所获得的主题词能更贴切地反映文章的主要内容。
- 刘兴林彭宏马千里
- 关键词:自然语言处理
- 基因表达式编程中的优势种群产生策略被引量:5
- 2009年
- 初始种群是影响基因表达式编程算法(GEP)的重要因素之一.提出可以产生具有较高个体适应度和基因多样性种群的优势种群产生策略.优势种群产生策略继承了基因空间均匀分布策略和精英个体产生策略的优点,产生的初始种群最高适应度个体的适应度较高,而且种群具有基因多样性特征.实验表明,优势种群产生策略可以显著提高进化的成功率,从而提高系统的进化效率.
- 胡建军吴晓云
- 关键词:遗传算法基因表达式编程初始种群优势种群函数挖掘
- 基于词性及词性依存的句子结构相似度计算被引量:6
- 2011年
- 为提高句子相似度的准确率,从结构相似度出发,提出基于词性及词性依存关系的句子结构相似度计算方法。该方法从正向和逆向比较句子的词性序列,获得2个句子词性及词性依存关系的最优匹配,从而计算句子结构相似度。实验结果表明,该方法能使句子结构相似度计算更合理。
- 蓝雁玲陈建超
- 关键词:句子结构结构相似度自然语言处理
- 基于主题的文档检索模型被引量:4
- 2008年
- 现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.
- 贾西平彭宏郑启伦石时需江焯林
- 关键词:主题文档检索信息检索数据挖掘
- 黎曼法坐标流形学习扩展算法
- 2008年
- LOGMAP是最近提出的一种黎曼流形学习算法,它能够有效地学习出高维数据的低维嵌入坐标。然而该算法只能处理单类数据的流形学习问题,当存在多类数据时往往不能得到理想的嵌入结果。为解决这个问题,提出了一种扩展的LOGMAP算法(Extended LOGMA PAlgorithm,简称ELOGMAP)。该算法通过计算全局基准点所在类到其他类的最短距离找出各类的局部基准点,然后逐个计算各类数据相对于局部基准点的局部黎曼法坐标,最后通过扩展的全局基准点与局部基准点之间测地距离关系得到多类数据的整体嵌入坐标。实验结果验证了该算法在处理多类数据流形学习上的有效性。
- 韦佳彭宏林毅申
- 关键词:流形学习