校园资讯

当前位置: 首页 >> 校园资讯 >> 正文

第31期“创+沙龙”回顾 | 百度SRE-网站可靠性工程师

作者:   来源:     发布日期:2018年07月11日   浏览:


本次“创+沙龙”邀请到了百度搜索公司技术经理——徐添晟、资深架构师&机器学习智能运维专家——曹轩,两人针对百度搜索运维的技术栈问题展开了一场创意沙龙。



【创+沙龙 第31期】

嘉宾介绍

徐添晟,搜索运维部技术经理,百度文化风范奖获得者,团队成员曾获得两次百度最高奖提名,负责手百feed运维和用户体验方向团队技术管理。

曹轩,搜索运维部资深运维工程师,百度最高奖获得者,主攻机器学习智能运维方向。

百度应用运维团队一直追求高质量的产品可用性和用户体验,追求最经济的硬件和带宽成本,追求高效的产品迭代速度,追求无人值守的场景化运维,追求帮助业务核心能力的构建。


01

智能运维:基于机器学习的故障定位


1. 基于LR+DNN实现大规模分布式集群根因自动定位系统

2. 召回率99%,准确率95%

3. 将全局大规模异常定位时间缩短至秒级

4. 相关成果亮相SRE行业顶级会议SREcon18

5. 获得业界同行广泛赞誉


02

智能运维:智能低质流量识别与治理


1. 超过一半的互联网流量是抓取和恶意攻击

2. 消耗大量计算资源

3. 恶意攻击,峰值流量严重影响服务稳定

4. 使用防攻击规则等传统手段

   攻击分析依赖人工,小时级,无法防范突发攻击

   枚举攻击/扒取来源特征,存储受限

一个案例:

    真实用户Y轴在统计上会略偏左右一个角度

    抓取和恶意SEO恶设备在台架上,角度为0

    利用这个特征发现和识别

  • 构建网络层、应用层、用户行为分析的特征库,用于鉴别低质流量

  • 使用机器学习,实现流量实时分析

  • 对不同质量流量予以分质

  • 防范CC攻击


03

智能运维:智能query预测与在线预充


1. 利用夜间流量低峰,构造请求预充入缓存,第二天真实用户命中缓存,不再消耗后端大集群资源,削峰填谷

2. 使用历史数据(词频等),预测第二天query

3. 第二天的用户行为,天然提供标注数据


04

分布式服务管理:低成本产品快速迭代





05

响应速度:极致提升用户体验


重要性:

响应速度对于用户体验意义重大,直接影响用户点击和留存意愿

移动化急速发展,5G、AR/VR、IOT等技术邻近爆发,对响应速度有持续挑战



往期“创+沙龙”:

【总第1期】创业的0到1

【总第2期】Ruby on Rails

【总第3期】虚拟与现实

【总第4期】工程师的梦想

【总第5期】创业谈之困境

【总第6期】APP时代的移动玩法

【总第7期】房产O2O创新探索

【总第8期】Mac4me苹果高校技术与创业交流

【总第9期】HTML5游戏开发的技术交流

【总第10期】Spark与性能优化

【总第11期】互联网与传统行业的是与非

【总第12期】汽车自动驾驶中的视觉技术应用与剖析

【总第13期】VR技术发展和应用前景

【总第14期】设计的故事

【总第15期】小红书,全世界的好东西

【总第16期】设计创造辨识度

【总第17期】Making Things Happen

【总第18期】会思考的软件

【总第19期】人工智能技术入门及其行业应用

【总第20期】聊聊那些课堂上学不到的

【总第21期】亚马逊先锋技术课堂

【总第22期】走近Intel

【总第23期】人工智能软硬结合创业之路

【总第24期】中国独立游戏:新机遇和新模式

【总第25期】10倍好的产品——科技创业心得分享

【总第26期】硅谷创业教父史提芬•霍夫曼谈世界投资趋势

【总第27期】对话哈佛,筑梦未来

【总第28期】虚拟SIM为智能硬件企业赋能

【总第29期】周伟:创业中犯的错

【总第30期】汽车的智能驾驶之路

【总第31期】近距离了解百度SRE-网站可靠性工程师