基础监控(Basic Cloud Monitor,简称BCM)实时监控您的专有云产品资源,是所有云产品的监控管理总入口。您可以在这里看到最全、最详细的监控数据。基础监控实时监控云服务器、云数据库、负载均衡等云产品监控, 提取云产品关键监控信息,或用户自定义监控指标,聚合处理以可视化图表形式展示。您可以通过使用专有云基础监控全面地了解您的产品资源使用率、云产品运行状况和应用程序性能。并且基于监控数据支持自定义设置告警策略并绑定对应资源与接收组,为您提供立体化云产品数据监控、智能化数据分析、实时化故障告警和个性化数据报表配置,让您及时、准确掌控业务和各个云产品健康状况。
基础监控服务主要用图表化信息帮助您了解云产品运行状况和性能,告警触达帮助您第一时间了解组员及业务异常,让您无需额外开发,就能全面掌控云产品资源使用、运行情况。用户可以使用基础监控控制台、基础监控 API 或 专有云 CLI 获取相关监控数据。
了解基础监控时,通常会涉及到以下概念:
-
指标:指标是基础监控的核心概念,表示一个向基础监控发送的按时间排序的数据点集合,您可以按时间序列来检索关于这些数据点的统计数据。指标作为监控的变量,指标数据代表该变量随时间变化的值。例如,云服务器的 CPU 利用率是一个指标,云数据库的空间占用率则是另一个指标。 指标数据可以来自任何产品、应用程序或业务。例如,指标可以是云服务器的CPU利用率或是用户业务的进程延时。指标通过名称、命名空间以及一个或多个维度进行唯一定义。每个数据点都有一个时间戳和一个度量单位(可选)。对基础监控存储的指标数据发起请求时,返回的数据流通过命名空间、指标名称和维度进行识别。
-
命名空间: 命名空间是指标的容器。不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到一起。
-
维度:维度是对监控对象进行唯一标识的 Key/Value 对,监控数据在确定维度值后才有意义。维度有助于设计统计数据聚合结构。例:机器IP、进程名proc_name,两个维度值确定后,即可确定一个监控对象:监控对象A(IP=1.1.1.1&proc_name=test)。您需要在将云产品指标数据放入基础监控时指定相应维度(系统预设的指标均已预设了相应的维度),在检索时使用没有定义的维度会出现错误。
-
时间戳:在基础监控中每个指标数据点必须有一个时间标记,表示此原始数据采集的时间。在请求中使用的时间戳必须为dateTime 对象,并包含完整的日期及小时、分钟和秒,例如:2000-01-31 23:59:59。基础监控控制台和告警默认以东八区时间进行数据展示和告警判断。
-
事件:事件是监控信息的一种承载媒介,描述特定对象某一瞬间的非持续性变化,与唯一时刻和唯一对象关联。例如:某台计算机从运行状态变更为关机,程序运行开始和结束,数据库实例主备分离,网络带宽超限开始丢包等。事件作为监控信息记录对象在两个不同状态中的变更瞬间。事件发生可能会对资源及实例造成异常影响,事件由名称,归属对象的维度与时间唯一定义。
基础监控是云上产品与资源监控信息的中枢,是监控数据上报存储与消费的起点。基础监控产品由数据上报采集,数据计算存储与数据展示消费三个主要模块组成。数据上报采集模块处理监控数据接入,支持多种数据获取方式;数据计算与存储模块负责获取数据的实时计算与存储,以交付后续展示消费;数据展示与消费模块基于处理后的监控数据,实现可视化报表分析展示与告警管理能力。
基础监控服务由平台支撑系统BARAD(巴拉多)提供,BARAD系统主要包括监控服务端基础监控与配置管理模块barad.isd.com两部分。基础监控产品能力由barad api产品化封装支持。 BARAD系统主要模块由strom, hadoop, kafka, zookeeper, hbase, NWS等组件为核心进行搭建。
基础监控在专有云环境下已支持以下服务。一旦您开始使用对应服务,将自动采集获取监控数据,开箱即用无需额外操作。当前默认配置提供1分钟、5分钟、1小时、1天多种统计粒度监控数据。
- 云服务器CVM
- 云硬盘 CBS
- 分布式服务框架 TSF
- 弹性缓存Redis
- 云容器GaiaStack
- 云数据库MongoDB
- 云数据库 MySQL
- 负载均衡 CLB
基础监控服务提供以下主要功能模块让您及时、准确掌控业务和各云产品健康状况。
- 全方位数据监控
基础监控为您提供云服务器、云数据库、云硬盘、负载均衡、消息队列等云产品及底层基础设施的负载和性能监控数据,云服务器基础指标需安装监控agent进行数据采集,其他基础指标将自助获取,无需您做任何操作。您可登录基础监控控制台和各产品控制台或通过API接口方式获取监控数据。
- 异常告警通知
基础监控支持对各云产品监控项配置告警策略,覆盖阈值告警与事件告警两类监控信息源,全面感知云上资源与业务异常状况。告警策略支持自定义配置规则及触发逻辑,并以多种告警渠道发送异常信息,帮助您及时获取关键告警信息。
- 可视化图表分析
基于全面的监控数据,基础监控提供丰富的图表和数整合分析选项来辅助您挖掘利用监控数据的价值,助力主动发现与定位异常,驱动高效运维。
- 自动化触发联动操作
基础监控基于监控项告警可进一步配置自动化触发规则,在对应告警发生时自动化触发执行联动的操作,提高监控运维效率与减少响应时间。如弹性伸缩即在监控指标项触发告警时根据所配置的扩缩容条件自动实现弹性伸缩,无需人工干预,从而保证业务的稳定运行,为业务保驾护航。
基础监控无需特意购买和开通,拥有账户便自动开通了基础监控服务。开箱即用,无需额外开发,在您购买和使用产品后即可获取资源监控信息与并配置告警。
基础监控提供了丰富的云产品指标、事件和状态监控信息与展示消费渠道,帮助您及时准确地掌握产品资源的运行状态,为运维与资源规划提供参考。此外基础监控支持业务上报自定义指标数据监控,拓展监控信息源和覆盖范围。
支持对指标与事件监控信息配置告警策略,自定义告警规则及触发逻辑,并以多种告警渠道发送异常信息,灵活满足各类告警场景。
基础监控开放平台告警通道能力,为您提供了自定义的告警通道服务,可以自己通过监控agent脚本或API将业务告警内容上报基础监控,平台会及时推送给您。内网调用降低延迟与避免开放外网访问降低安全风险。
访问监控概览、Dashboard、云产品监控和各产品控制台,即可轻松掌控产品资源实例运行负载和性能状态。
通过对产品资源配置告警策略,引入阈值与事件告警规则,告警触发后及时获取异常通知,发现服务与资源问题。
查看与回溯产品资源相关的全量监控指标与事件信息,辅助定位异常原因与跟踪异常过程。
根据监控项告警策略设置自动化触发规则,告警发生时联动触发系统及资源操作,实现自愈、自动化调度等操作,提高监控运维效率。