夜莺-Nightingale
夜莺V8
前言必读
安装
采集器
快速体验
监控实践
功能详解
说明文档
夜莺V7
项目介绍 功能概览 API FAQ
部署升级
数据接入
告警管理
数据查看
功能介绍
告警管理
通知管理
通知规则介绍 阿里云短信 Relabel 事件处理 Event Drop 事件处理 Event Update 事件处理 Callback 事件处理 Script 事件处理 Label Enrich 事件处理 AI Summary 事件处理 模板函数
仪表盘
数据源
时序指标
日志分析
告警自愈
基础设施
集成中心
人员组织
系统配置
夜莺V6
项目介绍 架构介绍
快速开始
黄埔营 安装部署
升级 采集器
使用手册
API
数据库表结构
users notify_tpl board users target target user_group user_group_member task_tpl task_tpl_host task_record sso_config role role_operation recording_rule notify_tpl metric_view datasource configs chart_share busi_group busi_group_member builtin_cate builtin_cate builtin_cate builtin_cate board board_payload alerting_engines alert_subscribe alert_rule alert_mute alert_his_event alert_cur_event alert_aggr_view
FAQ
转发数据给多个时序库 机器列表数据异常 数据流图 监控数据时有时无 查询原始监控数据 快捷视图详解 告警自愈模块使用 仪表盘里只展示我的机器 仪表盘里图表数据缺失 设置自定义告警通知方式 target_up指标的问题 夜莺可以监控 x 么 夜莺告警常见问题排查思路 告警和恢复的判断逻辑 容量规划问题 connection refused 登录与认证 数据采集器Categraf 日志写到`/var/log/messages` 告警规则&告警模板如何引用变量 采集到的数据是字符串怎么处理 管理员密码忘记了 制作大盘如何添加图片 添加loki数据源报错 v6小版本升级有什么 sql 要执行吗 机器列表有展示,但采集数据查询不到 n9e 启动异常报错 n9e集群部署配置修改 推送 Promethus 报错 OOO 机器列表怎么忽略云资源 告警规则仅在本业务组生效失败 categraf 启动 oracle 插件报错 告警自愈不生效 n9e查询时序库EOF报错 手动编译项目报错 promQL 使用函数标签信息丢失 内存使用率+可用率不等于100 夜莺仪表盘有哪些内置变量 categraf配置文件支持热加载吗 导入 Grafana 仪表盘无效数据源 如何查看报错消息
采集器-Categraf
插件配置
插件综述 基础指标采集插件 netstat采集插件 netstat_filter采集插件 procstat采集插件 http_response mysql插件 redis插件 snmp_zabbix插件 snmp插件 ipmi采集插件 dns_query插件 dcgm插件 nvidia_smi插件 cadvisor采集插件 sshd采集插件 systemd采集插件 smart采集插件 postgresql插件 mongodb插件 elasticsearch采集插件 exec采集插件 emqx采集插件 阿里云指标采集插件 Zabbix 指标转换插件 cloudwatch指标采集插件 google cloud指标采集插件 mtail插件 prometheus采集插件 页面配置采集插件
Flashcat 企业版
开源生态
Telegraf
Prometheus
版权声明
第1章:天降奇兵
第2章:探索PromQL
开篇 理解时间序列 Metrics类型 初识PromQL PromQL操作符 PromQL聚合操作 PromQL内置函数 在HTTP API中使用PromQL 最佳实践:4个黄金指标和USE方法 小结
第3章:Prometheus告警处理
开篇 Prometheus告警简介 自定义Prometheus告警规则 部署Alertmanager Alertmanager配置概述 基于标签的告警处理路由
使用Receiver接收告警信息
告警模板详解 屏蔽告警通知 使用Recoding Rules优化性能 小结 第4章:Exporter详解
第5章:数据与可视化
第6章:集群与高可用
第7章:Prometheus服务发现
第8章:监控Kubernetes
开篇 初识Kubernetes 在Kubernetes下部署Prometheus Kubernetes下的服务发现 使用Prometheus监控Kubernetes集群 基于Prometheus的弹性伸缩 小结
第9章:Prometheus Operator
参考资料 基础指标采集插件
cpu 插件
功能: 采集cpu指标,包括cpu用户态/系统态使用量、中断、软中断等指标
注
- 如果不需要采集单个核心指标,推荐保持默认配置。
- 如果想修改插件的采集周期,在这里修改
interval的值
# # collect interval # interval = 15 # # whether collect per cpu # collect_per_cpu = false mem 插件
功能: 采集内存指标,包括内存使用量、总量、cache、buffer、 available等指标
- 如果想修改插件的采集周期,在这里修改
interval的值 - 其中配置项
collect_platform_fields表示是否采集平台独有的指标
# # collect interval # interval = 15 # # whether collect platform specified metrics collect_platform_fields = true disk 插件
功能:采集各个磁盘分区的空间/inode的使用量情况
注: 每个指标都有一个mode=rw 类似的label , 表示分区的挂载模式。
- 分区变为只读监控: 可以通过指标携带的label
mode=xx来实现, 比如disk_use_total{mode="ro"} > 0 - 磁盘故障监控: 可以通过
disk_device_error == 1判断 - 如果想修改插件的采集周期,在这里修改
interval的值
# # collect interval # interval = 15 # # By default stats will be gathered for all mount points. # # Set mount_points will restrict the stats to only the specified mount points. # mount_points = ["/"] # Ignore mount points by filesystem type. ignore_fs = ["tmpfs", "devtmpfs", "devfs", "iso9660", "overlay", "aufs", "squashfs", "nsfs"] ignore_mount_points = ["/boot", "/var/lib/kubelet/pods"] diskio 插件
功能: 采集磁盘io指标,包括读写速率,读写次数,读写延迟等
- 如果想修改插件的采集周期,在这里修改
interval的值 - 可以通过devices参数限定只采集哪几块盘的指标
# # collect interval # interval = 15 # # By default, categraf will gather stats for all devices including disk partitions. # # Setting devices will restrict the stats to the specified devices. # devices = ["sda", "sdb", "vd*"] net插件
功能: 采集网络指标,包括网卡流量,包数,错误数等
注意:
- 如果想修改插件的采集周期,在这里修改
interval的值 collect_protocol_stats这个选项只在Linux下生效,如果不需要采集协议层指标,可以关闭该选项, 推荐保持默认。interfaces指定采集的网卡,如果不配置,默认为全部网卡。 支持通配符配置。
# # collect interval # interval = 15 # # whether collect protocol stats on Linux # # to be supported # collect_protocol_stats = false # # setting interfaces will tell categraf to gather these explicit interfaces # interfaces = ["eth0"]