蔡斯博
- 作品数:7 被引量:31H指数:2
- 供职机构:教育部更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金创新研究群体项目国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于数据表相似度计算的数据血缘构建方法
- 2024年
- 大数据时代下,各业务部门基于已有业务数据积累激发数据价值已成为一种共识。由于各业务系统数据标准不统一,导致元数据杂乱无章、数据孤岛、低质数据等问题层出不穷,阻碍数据的有效利用,需进行必要的治理。这其中,数据血缘分析是元数据管理的关键任务之一,对于数据溯源和数据治理具有重要意义。然而,传统的数据血缘构建方法往往面临着计算复杂度高、准确性差、执行成本高等问题。为克服这些问题,提出一种基于数据表相似度计算的数据血缘构建方法:通过对数据表的命名、表结构和数据字段三要素进行文本特征表示,利用TFIDF计算数据表的相似度,并进一步通过改进的Jaro-WinklerDistances算法验证字段重合度、表名相似度的方法构建数据表血缘关系。结果表明,该算法在数据表血缘关系构建方面效果显著,促进了数据治理工作的顺利开展。
- 潘奇蔡斯博蔡斯博
- 关键词:元数据
- 一种支持软件资源可信评估的框架被引量:27
- 2010年
- 提出了一种支持软件资源可信评估的框架,并分析了该框架涉及到的技术,如证据收集、证据信任管理和可信评估等.阐述了该框架在北京大学软件资源库中的设计决策和实现方案,并给出一个详尽的实例分析.
- 蔡斯博邹艳珍邵凌霜谢冰邵维忠
- 一种支持软件资源可信评估的框架
- 软件资源库是有效管理可复用软件资源的基础设施,软件资源库中丰富的软件资源是软件复用成功的一个前提.目前,软件资源库获取资源的方式主要有两种,用户提交和Internet收集.尤其是后者,极大地丰富了软件资源库中的资源.然而...
- 蔡斯博邹艳珍邵凌霜谢冰邵维忠
- 关键词:软件复用
- 文献传递
- 用户反馈可靠性保障方法
- 本发明公开了一种用户反馈可靠性保障方法,包括分析构件库系统的用户反馈评价中的不公平反馈信息,建立所述构件库系统的不公平反馈信息类别;根据所述不公平反馈信息类别,对所述不公平反馈信息进行筛选或修正。本发明通过对构件库系统中...
- 邹艳珍谢冰蔡斯博张顺延梅宏
- 文献传递
- 基于网络信息搜索的Web Service文本描述信息扩充方法被引量:4
- 2012年
- 随着Web服务技术的不断成熟和发展,互联网上出现了大量的公共Web服务.在使用Web服务开发软件系统的过程中,其文本描述信息(例如简介和使用说明等)可以帮助服务消费者直观有效地识别和理解Web服务并加以利用.已有的研究工作大多关注于从Web服务的WSDL文件中获取此类信息进行Web服务的发现或检索,调研发现,互联网上大部分Web服务的WSDL文件中普遍缺少甚至没有此类信息.为此,提出一种基于网络信息搜索的从WSDL文件之外的信息源为Web服务扩充文本描述信息的方法.从互联网上收集包含目标Web服务特征标识的相关网页,基于从网页中抽取出的信息片段,利用信息检索技术计算信息片段与目标Web服务的相关度,并选取相关度较高的文本片段为Web服务扩充文本描述信息.基于互联网上的真实数据进行的实验,其结果表明,可为约51%的互联网上的Web服务获取到相关网页,并为这些Web服务中约88%扩充文本描述信息.收集到的Web服务及其文本描述信息数据均已公开发布.
- 王立杰李萌蔡斯博李戈谢冰杨芙清
- 关键词:WEB服务
- 用户反馈可靠性保障方法
- 本发明公开了一种用户反馈可靠性保障方法,包括分析构件库系统的用户反馈评价中的不公平反馈信息,建立所述构件库系统的不公平反馈信息类别;根据所述不公平反馈信息类别,对所述不公平反馈信息进行筛选或修正。本发明通过对构件库系统中...
- 邹艳珍谢冰蔡斯博张顺廷梅宏
- 文献传递
- 面向开源软件资源的可信评估证据获取技术研究
- 随着Internet技术和软件复用技术的发展,开源软件资源成为具有复用价值的重要软件制品。开源软件资源的可信评估有助于软件开发者快速、有效地复用开源软件资源。而在评估中,相关证据的获取是基础。本文面向开源软件资源的可信评...
- 蔡斯博