本页由机器翻译。英文原文为权威版本。 阅读英文版
跳转到主要内容

监控与告警

做市商需要监控和告警的内容。

健康检查

API 健康状态

端点GET /health

响应{ "status": "ok" }

监控:每 30-60 秒检查一次

告警:如果健康检查失败,API 服务器可能已宕机

WebSocket 连接

监控:跟踪 WebSocket 连接状态

告警:如果连接断开,立即重连

最佳实践:在重连时实施指数退避策略

订单监控

拒单率

指标:订单被拒绝的百分比

告警:如果拒单率 > 5%,请排查:

  • 保证金问题
  • 层级限制
  • 已到期的合约品种
  • 系统过载

成交率

指标:订单成交的百分比

告警:如果成交率显著下降,请排查:

  • 市场状况
  • 报价竞争力
  • 订单簿深度

订单延迟

指标:从下单到成交/确认的时间

告警:如果延迟 > 1s,请排查:

  • 系统过载
  • 网络问题
  • 引擎处理延迟

投资组合监控

保证金使用率

指标total_margin_used / balance

告警:如果保证金使用率 > 80%,请考虑:

  • 减少仓位规模
  • 追加抵押品
  • 平仓

现金余额

指标:账户现金余额

告警:如果现金余额低于阈值,请存入资金(该功能实现后)

MMP 监控

MMP 触发

指标:每小时 MMP 触发次数

告警:如果 MMP 频繁触发,请考虑:

  • 提高 MMP 限额
  • 降低报价频率
  • 审查成交模式

MMP 撤单率

指标:被 MMP 撤销的订单百分比

告警:如果 MMP 撤单率 > 10%,请审查 MMP 配置

系统监控

API 响应时间

指标:P50、P95、P99 响应时间

告警:如果 P95 > 500ms,请排查系统负载

WebSocket 消息速率

指标:WebSocket 每秒消息数

告警:如果消息速率激增,请排查:

  • 市场波动
  • 系统过载
  • 消息处理延迟

推荐告警项

  1. 健康检查失败:API 服务器宕机
  2. 高拒单率:> 5% 订单被拒绝
  3. 低成交率:< 50% 订单成交(视具体情况而定)
  4. 高保证金使用率:> 80% 保证金已使用
  5. MMP 触发:每小时 > 5 次触发
  6. WebSocket 断连:连接丢失
  7. 高延迟:P95 > 500ms

监控工具

推荐

  • 用于正常运行时间监控的健康检查端点
  • WebSocket 连接状态跟踪
  • 用于确保准确性的订单/成交对账
  • 投资组合保证金跟踪

当前状态:暂无内置监控面板。请使用外部工具(例如 Prometheus、Grafana)。

参考资料