国家242信息安全计划(2010A029)
- 作品数:1 被引量:2H指数:1
- 相关作者:樊冬进张宇杜翠兰王晓岩刘萍更多>>
- 相关机构:国家互联网应急中心中国科学院大学中国科学院更多>>
- 发文基金:国家242信息安全计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于事件处理的分布式系统故障定位技术被引量:2
- 2013年
- 近年来,分布式计算系统的规模越来越大、行为越来越复杂难控,系统中出现的各种故障也呈指数级增长,造成了非常严重的危害和损失,并且出现问题时对故障的排查、定位难度进一步加大。传统的通过跟踪程序运行轨迹来判断程序运行正确与否的方法,在分布式监控信息的交互上因消耗过大而且对目标程序侵入性高,已经难以满足软件行为分析的需求。通过复杂事件的处理及时发现和定位系统故障在事件大量、快速、不间断发生的分布式监控环境中显得尤为迫切。它可以利用有意义的信息状态变化事件分析系统行为,进而判断系统的运行状况,及时发现系统故障并定位,保证系统的健康运行。当前已有的复杂事件描述语言大多数是基于SQL的方法来描述复杂事件。这种数据流查询语言对于普通用户而言比较复杂,难以掌握。通过构建一种基于集合的事件流模型,对事件进行形式化定义,使用集合来表示事件,并定义相应的操作,使得用户只需掌握几个简单的集合操作,便可以定义复杂的故障规则。
- 杜翠兰谭建龙王晓岩张宇刘萍樊冬进
- 关键词:分布式网络实时监控系统故障定位