跳到主要内容

9. 监控与可观测

9.1 业务指标

核心业务指标

智能农业解决方案的核心业务指标包括:

1. 病虫害识别指标

识别数量

  • 定义:每日/每周/每月识别的病虫害数量
  • 计算方法count(pest_disease_identification_requests)
  • 目标值:日均500次,月均15000次
  • 监控频率:实时监控

识别准确率

  • 定义:识别结果准确的病虫害占比
  • 计算方法accurate_identifications / total_identifications
  • 目标值:≥90%
  • 监控频率:每日统计

识别效率

  • 定义:平均每次识别耗时
  • 计算方法avg(identification_duration)
  • 目标值:≤5秒/次
  • 监控频率:实时监控

2. 作物监测指标

监测数量

  • 定义:每日/每周/每月监测的农田数量
  • 计算方法count(crop_monitoring_requests)
  • 目标值:日均1000次,月均30000次
  • 监控频率:实时监控

监测覆盖率

  • 定义:已监测农田占总农田的比例
  • 计算方法monitored_farmlands / total_farmlands
  • 目标值:≥95%
  • 监控频率:每日统计

异常检测率

  • 定义:检测出异常的监测占比
  • 计算方法monitorings_with_anomalies / total_monitorings
  • 目标值:根据实际情况,5-15%
  • 监控频率:每日统计

3. 产量预测指标

预测数量

  • 定义:每日/每周/每月预测产量的次数
  • 计算方法count(yield_prediction_requests)
  • 目标值:日均200次,月均6000次
  • 监控频率:实时监控

预测准确率

  • 定义:预测结果准确的占比
  • 计算方法accurate_predictions / total_predictions
  • 目标值:≥85%
  • 监控频率:每月统计(需要实际产量数据)

预测误差

  • 定义:预测值与实际值的平均误差
  • 计算方法avg(abs(predicted_yield - actual_yield))
  • 目标值:≤50公斤/亩
  • 监控频率:每月统计

4. 用户指标

活跃用户数

  • 定义:每日/每周/每月活跃用户数
  • 计算方法count(distinct user_id)
  • 目标值:日均300,月均5000
  • 监控频率:每日统计

用户满意度

  • 定义:用户对服务的平均评分
  • 计算方法avg(user_rating)
  • 目标值:≥4.5/5.0
  • 监控频率:每日统计

用户留存率

  • 定义:用户继续使用服务的比例
  • 计算方法retained_users / total_users
  • 目标值:月留存率≥60%
  • 监控频率:每月统计

9.2 技术指标

系统性能指标

1. 响应时间

平均响应时间

  • 定义:API请求的平均响应时间
  • 计算方法avg(response_time)
  • 目标值:≤5秒
  • 监控频率:实时监控

P95响应时间

  • 定义:95%的请求响应时间
  • 计算方法percentile(response_time, 95)
  • 目标值:≤10秒
  • 监控频率:实时监控

P99响应时间

  • 定义:99%的请求响应时间
  • 计算方法percentile(response_time, 99)
  • 目标值:≤20秒
  • 监控频率:实时监控

2. 吞吐量

QPS(每秒查询数)

  • 定义:每秒处理的请求数
  • 计算方法count(requests) / time_interval
  • 目标值:≥100 QPS
  • 监控频率:实时监控

TPS(每秒事务数)

  • 定义:每秒完成的事务数
  • 计算方法count(transactions) / time_interval
  • 目标值:≥50 TPS
  • 监控频率:实时监控

3. 错误率

错误率

  • 定义:错误请求占总请求的比例
  • 计算方法error_requests / total_requests
  • 目标值:≤1%
  • 监控频率:实时监控

4xx错误率

  • 定义:4xx错误占总请求的比例
  • 计算方法4xx_requests / total_requests
  • 目标值:≤0.5%
  • 监控频率:实时监控

5xx错误率

  • 定义:5xx错误占总请求的比例
  • 计算方法5xx_requests / total_requests
  • 目标值:≤0.1%
  • 监控频率:实时监控

资源使用指标

1. CPU使用率

平均CPU使用率

  • 定义:平均CPU使用率
  • 计算方法avg(cpu_usage)
  • 目标值:≤70%
  • 监控频率:实时监控

峰值CPU使用率

  • 定义:峰值CPU使用率
  • 计算方法max(cpu_usage)
  • 目标值:≤90%
  • 监控频率:实时监控

2. 内存使用率

平均内存使用率

  • 定义:平均内存使用率
  • 计算方法avg(memory_usage)
  • 目标值:≤80%
  • 监控频率:实时监控

峰值内存使用率

  • 定义:峰值内存使用率
  • 计算方法max(memory_usage)
  • 目标值:≤90%
  • 监控频率:实时监控

3. 存储使用率

存储使用率

  • 定义:存储使用率
  • 计算方法used_storage / total_storage
  • 目标值:≤80%
  • 监控频率:每日监控

9.3 告警机制

告警规则

业务告警

1. 识别准确率下降

  • 告警条件:识别准确率 < 85%,持续30分钟
  • 告警级别:高
  • 告警方式:邮件、短信、电话

2. 预测误差过大

  • 告警条件:预测误差 > 100公斤/亩,持续1小时
  • 告警级别:中
  • 告警方式:邮件、短信

3. 用户满意度下降

  • 告警条件:用户满意度 < 4.0/5.0,持续24小时
  • 告警级别:高
  • 告警方式:邮件、短信

技术告警

1. 响应时间过长

  • 告警条件:平均响应时间 > 10秒,持续10分钟
  • 告警级别:高
  • 告警方式:邮件、短信

2. 错误率过高

  • 告警条件:错误率 > 5%,持续5分钟
  • 告警级别:高
  • 告警方式:邮件、短信、电话

3. 资源使用率过高

  • 告警条件:CPU使用率 > 90% 或 内存使用率 > 90%,持续10分钟
  • 告警级别:高
  • 告警方式:邮件、短信

告警处理流程

1. 告警触发

  • 监控系统检测到异常
  • 触发告警规则
  • 发送告警通知

2. 告警确认

  • 接收告警通知
  • 确认告警真实性
  • 评估告警严重程度

3. 问题处理

  • 分析问题原因
  • 制定处理方案
  • 执行处理措施

4. 问题跟踪

  • 跟踪处理进度
  • 验证处理效果
  • 记录处理结果