于中华
- 作品数:78 被引量:366H指数:11
- 供职机构:四川大学计算机学院更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金四川省科技支撑计划更多>>
- 相关领域:自动化与计算机技术医药卫生核科学技术自然科学总论更多>>
- 有效时间自然联结在HBase中的实现算法
- 时态自然联结是时态数据库中非常重要的运算之一,本文讨论了基于有效时间的自然联结分类算法,以及其在HBase中的实现方案。
- 张天庆魏志毅周韬唐常杰于中华
- 文献传递
- 综合证素分析和“方名-药名”相似度的方剂主药发现算法被引量:4
- 2011年
- 组方规律的研究对于挖掘中医诊治的基本原理,实现中医现代化具有重要意义.本文针对现有算法在发现方剂主药方面存在的不足,提出了将证素与"方名-药名"相似性分析相结合的主药发现算法JPEA(Joint Primary medicine Extraction Algorithm),该算法通过对名医医案临床数据中证素与药物之间的关联分析,并结合方名与药名相似度的计算,来发现方剂中起主要作用的药物.对于证素-药物关联分析,分别设计了基于点互信息的算法、基于贝叶斯的算法和基于MF-ISF(Medicine Frequency-Inverse Syndrome factor Frequency)的算法.实验结果表明,基于点互信息的方法可以达到76.5%的准确率,明显优于文献中已有算法达到的35.8%.同时,实验结果还表明,方名与药名的相似性对于判断方剂的主药具有重要作用.
- 秦湘清熊军王亚强于中华张学虹邹圣容蒋永光
- 关键词:贝叶斯方法
- 基于聚类和模糊关联规则的中医药对量效分析被引量:16
- 2009年
- 以数据挖掘为技术手段,对方剂中药对的量效关联进行分析,主要工作包括:根据中药方剂中药物剂量分布的一般规律,用聚类方法自动划分药物剂量的模糊区间;基于模糊关联规则的概念,提出药对量效关联规则的挖掘算法;对所提出的算法进行了实现和验证。结果表明,基于聚类和模糊关联规则挖掘的中医药对量效关联分析符合中医药的基本特点,挖掘出的知识具有较高的正确率。
- 袁楠金晖田玲蒋永光于中华
- 关键词:模糊关联规则聚类中药配伍
- 基于多分类器的金融领域多元关系信息抽取算法被引量:6
- 2011年
- 为深入分析金融领域文本信息给投资决策提供支持,研究了从中文文本中识别收购类事件描述句及抽取事件角色(即识别关系及关系的元)相关问题。在事件句的识别上,提出了基于SVM的有监督算法。对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角色,而多分类器算法使用不同的分类器来识别具有不同语义约束的角色。实验结果表明,多分类器的算法明显优于单分类的算法,角色识别的F-Measure可以提高1.9%。
- 赵小明朱洪波陈黎王亚强秦湘清于中华
- 关键词:事件抽取有监督学习
- 时态数据的变粒度分段存储策略及其效益分析被引量:36
- 1999年
- 根据时态数据库用户对数据厚今薄古的需求特点,该文提出变粒度分段存储技术,将一个对象的历史分为3个时期,分介质、变粒度存储.文章讨论了分段存储的特殊数据结构、时代转移算法和压缩采样算法.基于微机实用参数的定量分析表明,这一技术将时态存储密度和时态查询速度提高了一个数量级.
- 唐常杰于中华游志胜张天庆相利民
- 关键词:时态数据库数据结构
- 基于登录词邻接关系的双条件概率的领域术语抽取算法被引量:2
- 2011年
- 领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果.
- 陈黎于中华王亚强秦湘清
- 关键词:术语抽取领域词典
- Nave Bayes分类器制导的专业网页爬取算法被引量:3
- 2010年
- 从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。
- 韩国辉陈黎梁时木唐小棚王亚强于中华
- 关键词:中文信息处理BAYESIANCLASSIFIER
- 基于时态数据库的Web数据周期规律的采掘被引量:31
- 2000年
- 拟周期性能描述对象在生命周期中重复性的趋势和走向 ,并能忽略时间轴上不规则的伸缩和幅度上的干扰 .该文以基于 Hbase分史制的 Web数据拟周期采掘任务为背景 ,提出了属性趋势、趋势惯量和峰谷链、抗干扰的惯性趋势算法和峰谷算法 ,对拟周期采掘给出一种解决方法 ,通过在一组地震数据上的采掘测试表明 。
- 唐常杰于中华游志胜张天庆杨璐
- 关键词:拟周期时态数据库数据采掘
- 基于贝叶斯方法的中医“症-证”分析被引量:11
- 2008年
- 中医"症-证"分析在中医诊断学和中医证候分析中非常重要。该文以数据挖掘技术为手段对选取的古方进行"症-证"研究,对古方的主治症状进行规范,挖掘"症-证"之间的关系,从而判定方剂的主治证、兼治证。为了挖掘中医"症-证"之间的关系,提出了基于KNN的挖掘算法和基于贝叶斯的挖掘算法。对比实验证明,基于贝叶斯方法正确率达到65.76%,高于KNN的62.50%。
- 李仕进陈蓉田玲陈云惠张昱蒋永光于中华
- 关键词:数据挖掘贝叶斯方法KNN算法传统中医药
- 信息高速公路的引桥——信译Internet机译系统
- 1997年
- 本文介绍了信译Internet机译系统的界面,使用方法。
- 唐常杰何贤江于中华张天庆沙芦华李志蜀
- 关键词:机器翻译HBASEINTERNET网