国家自然科学基金(61202298)
- 作品数:3 被引量:6H指数:2
- 相关作者:陈锻生王华珍彭淑娟缑锦陈叶旺更多>>
- 相关机构:华侨大学更多>>
- 发文基金:国家自然科学基金福建省自然科学基金厦门市科技计划项目更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于随机森林的中医数据可视化研究被引量:4
- 2014年
- 中医诊疗研究引入机器学习方法存在交互性差和特征值离散性两大缺陷。引入基于随机森林(Random Forest,RF)的可视化技术,对原始数据进行基于RF的特征变换,使样本在新特征空间的类可分性增强;采用主坐标分析法对变换后的数据进行降维,将高维数据的关系信息变换到适合人类视觉认知的低维空间里;在低维空间里采用散点图和平行坐标图对数据进行可视化。在中医慢性胃炎数据集上的实验结果表明,通过RF处理后,各类数据聚集在不同的区域空间中,呈现良好的可分性。这些图形图像视觉信息能帮助用户准确理解数据集的分布规律以及隐含的发展趋势,进而深入探讨这些信息蕴含的中医学意义。
- 王华珍彭淑娟缑锦陈锻生
- 关键词:可视化中医慢性胃炎
- 一种基于百度百科的中文网络文本关键词抽取方法
- 2014年
- 网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Nave Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现.
- 陈叶旺
- 关键词:网络文本百度百科