CCFTF02:9月17日与25家Top技术团队专家共论AI时代的互联网运维
“技术团队自己的顶级交流平台”
中国计算机学会技术前沿研讨会
CCF TF 第2期
主题 人工智能时代的互联网运维
2017年9月17日 北京
系统与运维SIG暨会议主席
章文嵩滴滴出行技术高级副总裁
章文嵩是LVS(Linux Virtual Server)开源软件创始人,在阿里工作近7年,曾任阿里副总裁和阿里云CTO,带领团队为淘宝电商平台搭建软件基础设施和应对历年双11访问的挑战,并把淘宝的大规模系统和经验沉淀为一系列云产品,完善和丰富了阿里云平台。2016年加入滴滴,出任滴滴出行技术高级副总裁,兼任滴滴出行工程技术委员会主席。同时章文嵩也担任CCF技术前沿委员会主席。首届CCF杰出工程师奖获得者。
系统与运维会议执行主席
来炜滴滴出行运维总监
来炜,2008年毕业于中国科大,之后加入百度运维部。2012年加入小米,负责运维自动化平台、监控系统、生态云PaaS平台设计和研发工作,并负责早期小米安全团队的组建和小米安全体系建设。2015年加入滴滴,担任运维总监。国内最流行的开源企业级监控系统Open-Falcon的创始人和社区负责人。
特邀演讲
报告主题1:百度智能运维实践之异常检测
主题简介:在百度设计和实现智能监控系统,面临着巨大挑战:业务种类、特性繁多,流量、收入规模大、影响面广,稳定性、时效性要求高。本报告基于监控系统中的一个重要特性——异常检测,来介绍百度如何准确、高效地进行10亿级的运维时序数据分析:
1.异常检测的算法介绍和百度的调优实践
2.大规模时序数据的采集-存储-计算架构
分享嘉宾
王博 姚睿尧 潘成龙
百度资深工程师 百度高级研发 工程师 百度高级研发工程师
个人简介:
王博,2014年加入百度,先后参与异常检测系统的设计开发、报警收敛、故障诊断等相关工作,目前是异常检测系统的技术负责人。
潘成龙,2015年硕士毕业于中科院计算所,当年加入百度,负责监控系统的数据采集和汇聚计算系统的设计和研发。
报告主题2:大型数据中心运维实践和趋势分析
主题简介:近年来随着互联网行业的发展,数据中心数量激增,数据的规模和模式不断刷新纪录。这个后期的运营和维护工作带来了极大的挑战。
当前比较流行的做法是人工运维与智能运维相结合。把一些常见、耗时的值守类工作交给智能运维。而人工运维更多的集中在突发事件和新问题的处理以及新技术的应用等方面。
本次分享,主要探讨以下方面:
1. 数据中心的发展历程与挑战;
2. ITIL 、ITSM与IT运维;
3. 自动化运维的实现与趋势;
4. 银行、电信、高校等特定领域数据中心运维案例分析。
吉青曙光高性能产品事业部副总经理
个人简介:吉青,自中国科学院化学研究所获得博士学位之后,先后在法国国家科学研究中心和美国麻省理工学院担任博士后研究员。2015年加入曙光,任高性能产品事业部副总经理,并主持在线运维EasyOP的运营和研发等相关工作。截止2017年7月,EasyOP已经接入100+个数据中心,服务近万个节点。
主题3:海量数据场景下的智能监控与定位
主题简介:探讨海量数据场景下,故障的实时发现和精准定位体系建设。该报告由三位资深讲师分别发表演讲,内容主要包括:
1. 海量特征指标采集;
2. 高效的时间序列化存储;
3. 实时报警;
4. 基于机器学习的故障检测;
5. 基于trace的精准定位等能力的建设经验。
分享嘉宾
李培龙 聂安安 贺百灵
滴滴出行高级专家工程师 滴滴出行资深软件开发工程师 滴滴出行高级软件开发工程师
个人简介:
李培龙:2010-2015年任职于百度,负责凤巢系统的全流程质量保障及线上稳定性工作;2015年加入滴滴出行,组建质量架构团队,负责滴滴的Trace调用链追踪与问题定位系统、基于机器学习的异常检测系统和全链路压测平台;
聂安安:主要从事运维平台开发、监控体系建设等相关工作,Open-Falcon开源社区核心Committer之一。曾就职于阿里、小米;
贺百灵:2014~2015年任职于百度,参与社区基础技术反作弊、推荐系统等测试;15年加入滴滴,先后负责LBS、分抢单策略、出租车反作弊系统的测试工作,现阶段主要负责智能运维方向异常检测相关算法的研究与实现;
主题4:故障定位系统「雷达」的设计实现
主题简介:随着美团点评业务规模快速增长,业务及服务间调用越来越复杂,一个基础服务或设施的异常可能会导致大量上游依赖业务异常,同时伴随着异常引发各类监控的告警风暴,给快速定位故障根源快速止损处理造成了极大的不便。所以,我们设计和开发了故障雷达系统,以便遇到故障时可以快速找到故障根源进行处理。本次演讲主要介绍root cause自动定位系统「雷达」的设计实现。
分享嘉宾
许亚南美团点评运维部自动化开发工程师
个人简介:美团点评运维自动化开发团队核心成员,致力于自动故障分析、智能监控等系列产品的设计和开发。
主题5:大规模流量接入系统的设计和实践
主题简介:随着京东业务规模的快速增长和全站https落地实施,6.18/11.11 用户流量峰值给流量接入体系的性能和高可用性建设带来了更多挑战。在这个过程中,我们逐步构建和完善了智能DNS系统,高性能反向代理和负载均衡,数据分析展现,公网流量调度等配套系统平台,协同支撑大规模流量接入和调度。本次主题将介绍这套流量接入平台构建实践以及相关问题和解决方案。
分享嘉宾
谢文辉京东技术保障部架构师
个人简介:2011~2016 任职于百度,负责百度自动运维系统和基础服务(自动部署,名字服务,监控等)设计研发。 2016年加入京东,负责技术保障部流量接入平台设计研发,构建支撑京东6.18极端峰值流量的接入架构。
时间:2017年9月17日
地点:中科院计算所一层报告厅
一、日程安排
9:00-9:10 开场致辞
9:10-10:20 主题1: 百度智能运维实践之异常检测
10:20-10:30 休息
10:30-11:50 主题2:大型数据中心运维实践和趋势分析
12:00-13:00 午餐
13:30-14:40 主题3:海量数据场景下的智能监控与定位
14:30-15:40 主题4:故障定位系统「雷达」的设计实现
15:40-16:00 休息
16:00-17:10 主题5大规模流量接入系统的设计和实践
17:10-17:40 Panel
二、缴费标准
企业团体会员单位享受免费名额,A类:4名,B类:2名。咨询电话139 1065 9011
CCF会员价1000元,非CCF会员价1600元(含一年会员资格)
三、参会方式
扫描二维码或点击网上报名TF02-活动注册二维码
四、会议联系方式
联系人:余遐
电 话:010-6260 0321-22/139 1065 9011
邮 箱:tf@ccf.org.cn