监控与告警
做市商需要监控和告警的内容。
健康检查
API 健康状态
端点:GET /health
响应:{ "status": "ok" }
监控:每 30-60 秒检查一次
告警:如果健康检查失败,API 服务器可能已宕机
WebSocket 连接
监控:跟踪 WebSocket 连接状态
告警:如果连接断开,立即重连
最佳实践:在重连时实施指数退避策略
订单监控
拒单率
指标:订单被拒绝的百分比
告警:如果拒单率 > 5%,请排查:
- 保证金问题
- 层级限制
- 已到期的合约品种
- 系统过载
成交率
指标:订单成交的百分比
告警:如果成交率显著下降,请排查:
- 市场状况
- 报价竞争力
- 订单簿深度
订单延迟
指标:从下单到成交/确认的时间
告警:如果延迟 > 1s,请排查:
- 系统过载
- 网络问题
- 引擎处理延迟
投资组合监控
保证金使用率
指标:total_margin_used / balance
告警:如果保证金使用率 > 80%,请考虑:
- 减少仓位规模
- 追加抵押品
- 平仓
现金余额
指标:账户现金余额
告警:如果现金余额低于阈值,请存入资金(该功能实现后)
MMP 监控
MMP 触发
指标:每小时 MMP 触发次数
告警:如果 MMP 频繁触发,请考虑:
- 提高 MMP 限额
- 降低报价频率
- 审查成交模式
MMP 撤单率
指标:被 MMP 撤销的订单百分比
告警:如果 MMP 撤单率 > 10%,请审查 MMP 配置
系统监控
API 响应时间
指标:P50、P95、P99 响应时间
告警:如果 P95 > 500ms,请排查系统负载
WebSocket 消息速率
指标:WebSocket 每秒消息数
告警:如果消息速率激增,请排查:
- 市场波动
- 系统过载
- 消息处理延迟
推荐告警项
- 健康检查失败:API 服务器宕机
- 高拒单率:> 5% 订单被拒绝
- 低成交率:< 50% 订单成交(视具体情况而定)
- 高保证金使用率:> 80% 保证金已使用
- MMP 触发:每小时 > 5 次触发
- WebSocket 断连:连接丢失
- 高延迟:P95 > 500ms
监控工具
推荐:
- 用于正常运行时间监控的健康检查端点
- WebSocket 连接状态跟踪
- 用于确保准确性的订单/成交对账
- 投资组合保证金跟踪
当前状态:暂无内置监控面板。请使用外部工具(例如 Prometheus、Grafana)。