Google Kubernetes Engine (GKE)
LoadBalancer DNS 解析问题
- OTel collector 日志中出现带有集群 IP 地址的“connection refused”错误
- OpAMP 连接失败,例如:
dial tcp 34.118.227.30:4320: connect: connection refused
GKE 示例配置值
Amazon EKS
Azure AKS
生产环境云部署检查清单
- 使用外部域名/IP 正确配置
hyperdx.frontendUrl - 配置启用 TLS 的入口,以提供 HTTPS 访问
- 如果遇到连接问题,请使用 FQDN 覆盖 OpAMP 服务器 URL (尤其是在 GKE 上)
- 为 ClickHouse 和 Keeper 的卷声明配置存储类
- 设置适当的资源请求和限制
- 启用监控和告警
- 配置备份和灾难恢复
- 通过
hyperdx.secrets或外部 Secret 做好敏感信息管理
生产环境最佳实践
资源管理
高可用性
持久化存储
- GKE:
pd-ssd或pd-balanced - EKS:
gp3或io2 - AKS:
managed-premium或managed-csi