在当今复杂的技术环境中,随着软件架构从单体向微服务和云原生的演进,企业对可观测性的需求变得愈发重要。作为全球领先的在线旅游服务平台,携程面临海量监控数据与日志处理的挑战,这对平台的高效治理和持续稳定提出了更高要求。即将到来的QCon上海站,云原生研发总监周昕毅将分享《AI驱动下的可观测平台架构升级实践》。在会前采访中,周昕毅分享了携程应对挑战的创新解决方案,特别是在数据采样、分层存储和统一监控Agent等技术的应用方面。他深入探讨了如何在保证系统性能与成本效益的平衡下,实现对海量数据的有效治理。此外,他还分享了携程在AIOps领域的领先实践,为行业提供了宝贵的技术见解。
行业变革与现状洞察
InfoQ: 携程的可观测性平台现状中,最突出的问题是什么?这些问题如何影响平台的运维和决策?
周昕毅: 随着携程软件系统和应用的复杂性持续增加,可观测平台的数据量也在急剧增长。当下有超过1w个应用,实例数量(包括物理机、虚拟机、容器)超过100万个,它们产生的Metrics数据量每分钟超过10亿,所有应用和系统产生的日志量日增长超过1PB。有效收集、存储、处理和分析这些数据成为巨大挑战,也是目前最突出的问题。这些问题导致信息过载、可观测平台性能瓶颈和成本增加,严重影响运维和决策。
InfoQ: 随着系统越来越复杂,携程的监控和日志数据是如何快速增长的?在管理这些数据方面遇到了哪些挑战?
周昕毅: 监控和日志数据增长的原因包括微服务架构下应用和服务的数量快速增加、弹性扩缩容导致容器变更频繁、用户数量增加以及系统交互和依赖关系复杂化等。管理挑战包括时间序列数据库的基数膨胀问题、1-5-10目标需要实现秒级告警、业务复杂性持续增加对可观测性工具的依赖度提高以及高并发写入场景下的实时查询技术挑战等。
InfoQ: 在处理不断增加的监控指标和日志数据时,携程如何平衡系统性能和资源消耗的矛盾?
周昕毅: 通过数据采样和聚合、冷热数据分层存储和定期归档等手段,结合技术手段和定期Review机制,确保有限的资源优先保障核心指标的采集、存储和展示。同时,对可观测性平台中的核心组件进行容量规划和定期压测,避免平台容量不足的问题。
AI驱动的创新实践
技术与策略的升级
InfoQ: 携程如何通过统一监控Agent提升可观测性数据治理?过程中遇到了哪些困难?
周昕毅: 携程应用和服务通过框架SDK和自研的Hickwall Agent统一采集Metric、Logging、Tracing数据。统一监控Agent有助于格式和命名规范统一、集中管理和控制以及安全性和合规性提升。过程中遇到的困难包括支持多平台、Agent升级困难、引入防呆机制以及性能持续优化等。
InfoQ: 在Metrics和Logging数据治理方面,携程采取了哪些创新性措施?这些措施如何帮助优化数据质量和系统性能?
周昕毅: 通过Logging治理实践(如统一存储、查询治理和最佳实践推广)和Metrics数据治理实践(如工具功能升级、时间序列数据库容量规划和Metric指标智能化治理),提高数据准确性和完整性,优化查询和分析效率,提升系统稳定性和性能。
可观测性数据质量的保障
InfoQ: 物化视图和分层存储技术在携程可观测平台中如何应用?这些技术如何提升数据处理的时效性和可靠性?
周昕毅: ClickHouse的物化视图技术用于日志预聚合,提高查询性能和支持更长的查询范围。分层存储技术根据数据访问频率使用不同存储介质,降低存储单价,延长存储时间,提高可扩展性。这些技术有效提升数据处理的时效性和可靠性。
未来展望与升级方向
InfoQ: 您认为未来AIOps在运维中的发展趋势是什么?智能化的运维工具将如何改变传统SRE团队的工作模式?
周昕毅: AIOps将推动自动化运维、异常检测、容量预测和可观测性数据整合等发展。智能运维工具将减少人为干预,提高运维效率,成为稳定性工程建设的重要助力。传统SRE团队的工作模式将发生深刻变化。
InfoQ: 为了支持AIOps的落地,可观测平台未来需要在哪些方面进行升级?是否会考虑加入更多智能分析和自动化决策功能?
周昕毅: 未来升级将关注异常检测和预测组件、运维自愈系统建设等,为智能分析和自动化决策提供更多助力。同时,持续提高可观测性平台的核心能力,如全栈视图、智能化数据关联和实时数据处理等。这些能力将影响AIOps的进一步发展。