2025 第三届 CCF 夜莺开源创新论坛,7 月 4 日在北京成功举办。本次论坛由中国计算机学会主办,开源发展委员会及夜莺开源社区承办,自 2023 年起,论坛已成功举办三届,是可观测性开源生态发展和技术进步的重要推动力量。
本次论坛以"AI 加速可观测"为主题,汇聚了开源夜莺核心开发团队及来自滴滴出行、美团、小米、百度、度小满、Apache Doris、快猫星云等知名企业的技术专家,围绕夜莺项目新功能与发展规划、大模型智能运维、AI 故障分析、大模型基础设施及 eBPF 等前沿技术领域进行了深入的技术分享与专题报告。论坛吸引了来自全国各行业的百余位领域专家参会交流,期间,夜莺项目管理委员会正式发布了夜莺 V8 版本。
首先,CCF开源发展委员会主任王怀民教授代表学会致辞。王怀民教授介绍了 CCF 开源发展委员会的使命和愿景,强调开源已成为全球数字技术和人工智能创新的核心引擎,开源发展委员会将始终秉持“创新、开放、协作、共享”的理念,致力于构建产学研用联动的开源创新平台,推动中国开源创新事业发展,构建具有全球辐射力的开源生态。王怀民教授指出,夜莺监控项目,作为开源发展委员会成立后接受捐赠的首个开源项目,具有里程碑意义,它不仅丰富了可观测性领域的开源生态,创造了巨大的用户价值和社会价值,更展现了产学研开源共同体协作的力量,呼吁更多高校、企业和个人加入开源行列,共同培育像夜莺这样的原始创新项目,培养兼具技术能力与开源精神的实践人才。开源发展委员会将继续发挥平台作用,为夜莺等开源项目提供技术孵化、开源治理、社区运营和全球化发展支持,推动中国开源生态从“跟跑”向“引领”升级。
报告一:夜莺 V8 发布以及未来规划
夜莺项目管理委员会主席、快猫星云联合创始人秦晓辉,在大会上宣布夜莺 V8[1]正式发布,并对夜莺 V8 功能进行了详细的剖析。
夜莺 V8 增加了更多的数据源,包括 MySQL、PostgreSQL、Doris、ClickHouse、TDengine、ElasticSearch/OpenSearch、Loki,使得用户可以一站式的对各种数据源中的数据设置告警策略,发送告警。增加了告警事件全景看板,方便用户一目了然的观察告警事件。V8 中最引人瞩目的功能莫属“事件 pipeline”,通过引入“事件 pipeline”,用户可以在告警全生命周期的任一阶段,对告警事件进行“干预”,干预的动作包括 Relabel、Update/Drop/Enrichment、Callback、AI Summary 等,这大大增强了告警事件处理的灵活性、扩展性和想象空间。以 AI Summary 事件处理器为例,用户可以方便的和大语言模型如 DeepSeek 对接,并把告警事件信息传递给大模型进行分析之后,再继续发送给工程师,辅助工程师提升告警处理效率和体验。
报告二: HUATUO —— 基于 BPF 的可观测能力建设及 GPU 大模型性能剖析
报告三:大模型在小米运维体系的探索与演进
报告四: 基于 Apache Doris 构建高性能、低成本、开放易用的可观测性平台
报告五:服务可观测性用好大模型的方法实践和效果
来自快猫星云的联合创始人 & CTO 华明,报告的主题为“服务可观测性用好大模型的方法、实践和效果”,重点阐述了智能运维领域长久以来的终极命题“故障根因自动定位”所面临的挑战和障碍,以及大模型时代相对应的方法和思考。
在华明看来,主要挑战和障碍有三点,分别是:AI 如何理解你的系统、AI 如何查询你的数据、如何与 AI 互动共同走向最终答案。因此在快猫星云的 Flashcat 产品技术方案中,通过抽象“灭火图”,来描述服务的元信息以及服务关联关系,并结合知识库,为 AI 提供更精确的 Context;通过抽象“数据源”,将市面上常见的开源和公有云观测数据源集成到 AI 分析系统中,并进一步封装为 MCP Server,以解决 AI 理解和查询各种可观测性数据的障碍。Flashcat 构建了一个个独立的 agent,比如指标分析 agent、日志分析 agent、链路分析 agent、事件分析 agent、图表分析 agent 等,用户通过 Chatbot 和 Flashcat AI 分析引擎交互,提出问题或者给出修正,AI 分析引擎则自动识别需求,编排多个智能体协同工作,不断地与用户互动直到输出最终结论。
在报告的结尾,华明给出了四点思考,引发了与会专家们的深入讨论:
可观测性的智能化有两大阶段 - Copilot、Autopilot,第一阶段即将全面到来 AI 能理解你的系统、查询你的数据,并实现与 AI 的动态交互是可观测性实现智能化的关键 企业观测数据的建设和治理不可避免,AI 需要高质量的数据输入,数据治理是高价值工作 数据治理的前置工作是解决数据孤岛和存量数据割裂的问题,可以选择适合现状的方法
报告六:度小满万节点规模的可观测性实践
来自度小满的技术专家汪宁瀚,报告的主题为“度小满万节点规模的可观测性实践”,深入分享了度小满将内部可观测性平台迁移到夜莺的选型思考和迁移实践,并基于夜莺实现了关键场景故障情况下 30 秒自动止损的苛刻挑战。
报告七:美团故障管控提效实践
来自美团的技术专家车智红,报告的主题为“美团故障管控提效实践”,系统性的剖析了美团统一故障发现平台的建设思路和实践效果。
报告八:打造稳健可观测的大模型训练系统 —— 百度百舸分布式训练稳定性实践
来自百度百舸的 AI 异构算力平台负责人张慕华,报告的主题为“打造稳健可观测的大模型训练系统 —— 百度百舸分布式训练稳定性实践”,全面回答了大模型时代,为什么把 AI 基础设施算力利用起来如此之难的问题。
最后,现场颁发了可观测性创新案例单位证书和夜莺社区活跃贡献者证书,并为报告嘉宾颁发了感谢证书。论坛取得圆满成功。
夜莺 V8: https://github.com/ccfos/nightingale
往期推荐
点击阅读原文 立即报名开源大会
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...