易观CTO郭炜:混合云是大数据分析服务的“基石”
- 发布时间:2016-04-14 18:07:07 来源:大众网 责任编辑:书海
大数据和云计算结合已经成为趋势。易观CTO郭炜在2016第八届云计算中国峰会上分享了在使用云服务时的几点体会。
业内知名大数据专家、易观CTO郭炜
大数据分析服务的四个层面
大数据分析服务其实分为四个层面:
一个是基础服务,比如像saas这些基础技术软件硬件平台搭建,它给我们上层应用提供了基础;
二是数据服务,如PASS这些数据处理平台;
三是分析服务,如AAS或MAS这些分析与模型服务;
四是业务服务,主要是营销类服务。
易观处于第三层,是云服务和云化的支持者。前两层是我们的供应商,第四层是我们的合作伙伴,他们会基于我们的分析服务最终得到营销服务。
大数据分析服务四个层面
坚持云化,但大数据使用公有云尚美中不足
我们既要保证有数据出来,同时要保证集群扩展性好,所以刚开始我们选择用三家不同的公有云,通过一些MQ组件去接受数据,通过Hadoop去处理数据。
公有云优势在于可以快速部署,快速实现。很短的时间就可以把集群搭起来,没有采购的成本,不需要做很多攻击防护的事情,硬件本身也是免维护的。但当数据量非常大时,它的缺陷就暴露了,根据我们的使用经验,也有一些无法回避的缺陷:
(1)数据量大,执行效率低
不管使用哪家公有云,我们都遇到了这样的瓶颈,特别是月活超过1亿后更加明显。一个是执行效率低,一个是数据量非常大,每次这个时候查询再加优化,要30分钟左右,这个时间我是不能忍受的。
(2)公有云单位成本高
公有云单价成本高,好机器年度投入超过三万块。
(3)IO瓶颈明显
因为我们这种是高密度,高CPU型IO的计算。无论换哪一家公有云,IO瓶颈还是很明显的,和线下集群对比是几倍的关系。
(4)不确定性强
因为公有云是大家共享一个计算池子,所以使用的时候会出现CPU抢占的情况。因为我是高密集计算,这样抢占对CPU切分不是很好,有的跑十来分钟有的跑一个小时,这样对我们大数据应用来讲存在不可确定性。
(5)防护策略少
因为我们是在做大数据Hadoop的东西,它的网络的千兆的交换,再加上虚拟机,像网口方面会形成瓶颈。因为我们数据是源源不断到云端的,它的防护策略也比较少,我们这么大量的数据实时传到云端,很多时候公有云会把它当做攻击,把这些给清掉。
不过,即使公有云有这么多缺陷,但它帮助我们快速地进入数据分析领域,迅速满足了我们需求,所以我们还会坚持云化的策略。
解决方案——兼顾性能与灵活性的混合云
数据越来越多,怎么让集群更有效呢?我们想到了混合云的策略。
(1)混合云让集群更有效
最简单来讲,易观所有数据分析服务是在公有云上面在给大家提供的,底下所有的集群则从云端迁到了线下。如果一个公司想在基础的云服务之上再加一些软件提供,我觉得单一的软件是不能满足企业需要的。一个集群一定是多空间、多组件混合在一起,才能满足业务需求。
(2)公有云、私有云难打通问题
如何把原来公有云的数据和私有云,包括底层使用打通这件事也颇费脑筋。当时用到了云的计算,像加密各种方法,最后用了一个光纤,先到公有云的机房,然后把集群跟光纤做互通,达到目前混合云的效果。
混合云的优点在于大数据平台性能非常稳定,云端也比较能够灵活的做些配置,云端和线下集群可以相互转换。但麻烦的是,公有云和私有云打通并不是那么容易。
第一,它的结构非常复杂,如果出现一些问题需要排查,会对我们人员造成比较大的负担。
第二,它的管理成本比较高,因为线上线下同时监控。
这对技术管理提出了更高的要求,目前易观基于开源工具,优化一套DevOps工具,在使用混合云便利的同时,优化整个维护流程,从而降低管理复杂度。
作者简介:
郭炜:现任大数据分析公司易观CTO,负责公司的技术架构以及开发者生态产品研发、生态市场运营工作。加入易观前,曾任联想大数据总监、万达电商数据部总经理