赵宇海
- 作品数:33 被引量:34H指数:3
- 供职机构:东北大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术生物学自然科学总论更多>>
- 一种用于基因表达数据的无参数聚类算法被引量:2
- 2005年
- 提出了一种用于基因表达数据的无参数聚类算法。该算法把多维数据的模糊聚类方法与CTWC相结合,并引入基于范数的方法进一步对该方法加以改进和论证。将该算法应用于真实的结肠癌基因表达数据集,确定了含8个基因的特征基因组合,该特征基因组合不仅达到了90%左右的结肠癌样本识别率,还能鉴别结肠癌样本的亚型。实验结果充分验证了这种算法的可行性。
- 赵宇海王国仁印莹
- 关键词:基因表达数据模糊聚类范数
- 一种考虑基因间相互关系的投影聚类算法
- 2009年
- 针对现有基因表达数据投影聚类算法假定基因相互独立,根据每个基因的独立区分度选择相关投影空间的不足,提出了根据基因间相互关系进行投影聚类的算法MOLION.通过将基因表达数据转换为序列数据,基于设定的用户偏好函数,采用分界判定法对样本穷举树进行快速地深度优先遍历,同时应用了高效的削减和优化策略.几个真实微阵列数据集上的实验证实了提出的算法具有较高的效率和预测准确性,为考察疾病表型的形成原因提供了一个新视角.
- 赵宇海王国仁于长永毛克明
- 关键词:基因表达数据投影聚类基因序列数据挖掘
- 时序微阵列数据中的同步和异步共调控基因聚类被引量:5
- 2007年
- 基因的共调控可分为同步和异步两种.文中提出了一种新的聚类模型Reg-Cluster,将具有相同编码的同步和异步共调控基因聚集到同一个共调控基因类中.在此基础上,提出了一种有效的聚类算法FBLD,采用先宽度优先、后深度优先的搜索策略,并结合高效的削减规则,挖掘得到所有符合条件的最大Reg-Cluster.聚类结果中包含了详细而完备的共调控信息,有助于基因调控网的研究.算法可扩展用于三维基因-样本-时间微阵列数据集的分析.FBLD算法已经应用到真实和人造微阵列数据集中,其结果被提交到Gene Ontology,实验结果证明了算法的高效性和有效性.
- 印莹赵宇海张斌王国仁
- 关键词:聚类时间序列基因本体
- 关系数据库中OLAP系统的分析与设计被引量:12
- 2005年
- 提出一种基于关系数据库的OLAP系统.介绍在该系统中各种模块的功能,包括OLAP建模、视图实例化、OLAP结果展示等几个模块.该设计能通过对数据仓库中的数据进行抽取得到用户感兴趣的数据,建立Cube模型,生成实例化的视图,在用户端可以发出对Cube的查询,并且通过友好多维报表和图形界面展示出来;可方便地交互式地进行钻取、旋转,通过在维之间进行切换实现切片和切块操作.本文着重讨论该系统各个部件的功能、设计和实现.
- 赵宇海李秋菊
- 关键词:OLAP数据仓库
- 最大子空间共调控基因聚类
- 2006年
- 提出了一种编码方案,同时聚类正共调控基因和负共调控基因.基于这种编码方式,两个正共调控或负共调控的基因都具有相同的编码,因此被聚集到同一个共调控基因类中.进一步提出了一个基于这种编码方案进行最大子空间共调控基因聚类的新算法及一些新的相关削减策略.一个最大子空间共调控基因聚类聚集了某个条件序列上的一组共调控基因,而且不被其他的子空间共调控基因聚类包含.从多方面分析了该算法的性能,并将其用于白血病和酵母细胞的真实表达数据集及人造数据集聚类.理论分析和实验结果都表明,相对于已有的基于模式/趋势的聚类算法,该算法能发现更多具有生物意义的共调控基因聚类,并且性能优于目前的共调控基因聚类算法.
- 赵宇海印莹王国仁许光宇王之琼
- 关键词:微阵列数据聚类
- 挖掘微阵列数据集中的最大局部保守基因聚类
- 2006年
- 提出了一种新的基因聚类模型LC-cluster(局部保守基因聚类).其思想来源于当前的bicluster模型和emerging模式,但有着本质的不同.一个基因的表达水平被称为局部保守,如果它只在所有给定条件中的一部分(而非全部)上保持相似的"丰度".一个LC-cluster中的样本可能对应着某种显型,其中的基因是与这种显型密切相关的候选基因.设计了两种有效的基于树的聚类算法FALCONER和E-FALCONER,来挖掘提出的LC-cluster.从多方面分析了该算法的性能,并将其用于真实表达数据集及人造数据集聚类.理论分析和实验结果表明:①算法能有效且高效地发现大量具有生物意义的局部保守基因聚类;②算法性能优于同类的基于穷举树的聚类算法.
- 赵宇海印莹王国仁许光宇
- 关键词:微阵列数据聚类
- 基于使用信息和聚类方法的多模式集成
- 数据集成是解决多数据源整合问题的有效手段。如何准确高效地集成多数据源模式具有重要研究意义。本文在用户使用信息的基础上提出一种新颖的基于聚类技术的多模式数据集成方法。首先从数据库的查询日志中为模式属性提取特征向量,并对其进...
- 丁国辉王国仁赵宇海
- 关键词:数据集成特征向量聚类
- 文献传递
- 一种基于CUBE的语义OLAP的I/O优化算法
- 2010年
- 数据仓库中多维数据立方计算对联机分析有着极为重要的作用,完全实例化的数据立方体上进行查询是非常简单的,只要返回所需数据即可,但是,实际中完全实体化一个数据立方体开销是非常大的,所以,既能缩减存储空间又能将数据立方体进行完全实体化针对查询来说是一个非常重要的研究问题。而完全实体化的数据cube是非常庞大的,那么在生成过程中I/O问题一直是影响性能的一个很重要的指标。有效的提高I/O操作,是我们解决问题的主要切入点。本文提出基于语义OLAP的Dwarf算法的频繁访问I/O问题提出了一个优化算法。实验表明,新的算法提高效率在10%以上。
- 王晓明印莹赵宇海张明泽
- 关键词:数据仓库OLAP
- 多显型疾病中致病模式和保护模式的挖掘
- 在多显型疾病中发现致病模式和保护模式具有很大的挑战性.以前的研究都是针对两类数据,即通过发病人群和正常人群对照得到疾病的发病模式,在多显型疾病(多种疾病或多亚型疾病)中同时发现致病模式和保护模式没有得到进一步研究.而关联...
- 印莹张斌赵宇海张明卫张晓红
- 关键词:兴趣度
- 文献传递
- 基于使用信息和聚类方法的多模式集成被引量:3
- 2010年
- 数据集成是解决多数据源整合问题的有效手段.如何准确高效地集成多数据源模式具有重要研究意义.关于模式集成已有大量的研究工作,但均忽略了用户使用信息.在用户使用信息的基础上提出一种新颖的基于聚类技术的多模式数据集成方法.首先从数据库的查询日志中为模式属性提取特征向量,并对其进行聚类.然后根据结果聚类间的最小差异性,为每个结果聚类引入最大相似性阈值,利用该阈值发现结果聚类中与该类语义不相似的异常属性.最后针对结果聚类中的3类异常属性,设计3种异常属性去除规则,进一步提出异常属性去除算法EPKO.实验结果表明,该方法具有较高的准确度,可以有效地解决多个模式的集成问题.
- 丁国辉王国仁赵宇海
- 关键词:数据集成特征向量聚类