星图数据:大数据的想象空间
- 发布时间:2015-07-14 14:17:26 来源:创见 责任编辑:汤婧
云计算从提出到进化出完善的 PaaS、IaaS 和 SaaS 架构,再到被市场广泛接受,用掉了将近十年。而大数据概念从知名学者舍恩伯格提出到现在,刚刚不到三年,最常见的用途不过是为碎片化的营销渠道提供参考坐标。大数据的潜力和商业能量显然还没被充分挖掘出来。
就大数据的应用场景和未来的发展趋势,我们采访了星图数据 (Syntun) 的创始人谷熠。
产品经理出身的谷熠曾在 SaaS 企业级软件行业工作十多年,主要为企业客户开发数据类和信息类产品;他的合伙人之一,也是星图数据的首席数据官 (CDO) 曾在市场研究行业做调研类工作。随着从业年限的逐渐增加,两个人慢慢发现了传统数据收集方法的落后和不全面。
由于经由人工获取的有效数据本身就非常有限,在后续进行数据处理时,就不得不采用样本推总的思路。而事实上,建立在这个逻辑上的统计处理很可能会因为样本不够全面而导致比较大的误差。在大数据的帮助下,这些误差和不可控因素的势力范围有可能进一步缩小,从而为更加明智的决策和及时深度的洞察创造条件。
谷熠眼中的大数据 (Big Data) 更像是 Mass Data。星图团队自主搭建了独立的服务器,并开发了一套大数据供应链系统。从数据的采集、解析、存储、清洗到后期的数据标准化、建模和自学习,整个流程只需很短的时间就能跑完。公开网络环境下的电商交易数量、成交金额、客户评价等数据,星图都可以通过自己的采集系统收录进来;紧接着是对源数据进行分门别类,即解析。解析完成后,这些初步处理过的数据会被快速清洗,那些有潜在使用价值的数据会被长久保存下来。而标准化、建模和自学习才是星图真正擅长的重头戏——他们根据数据的种类和行业区别开发了一系列分析算法来对已有的数据进行多方位和多角度的解读,这也是输出最终结果的最后步骤。
以星图目前的计算能力,每天大约有 5TB 容量的数据进入星图的自有数据库,每分钟可以完成六千条左右的数据处理。与那些互联网巨头相比,这个速度还基本构不成威胁。而数据的价值并不能简单地从容量这个维度上来看。数据内部的精巧结构、关联关系和广度、时效性等指标都能反映自身的价值。用电商行业来举例,这里的数据可以分为相对稳定的用户数据和随时发生变化的时序数据。对于网上零售行业的从业者而言,这两类数据的重要意义不言而喻。前者能告诉你顾客是谁,有哪些特点,后者则会告诉你和同行相比到底卖得怎么样。于是,中小卖家就有了审时度势的机会,依托于大数据的市场反馈能迅速做出决策和响应,免于因信息闭塞而决策失误。
从另一个角度看,电商行业的用户和交易数据被阿里、京东等平台型巨头持有,这些数据是相互独立、互不开放的。其实割据在互联网的很多细分领域都已经稀松见惯,而星图却打算用这样一套数据供应链系统打破数据层面的割据,通过对全网数据的挖掘,反映真实的电商运行情况。媒体和电商分析师们又多了一个客观的视角。
在零售以外的领域,大数据的魔力并没有减弱。比如,在占据国民经济主体地位的制造业,利用大数据的用户和市场研究结果,产品设计人员可以及时了解消费者对功能和外观的喜好,获知他们在使用中的具体困惑,反过来影响产品设计之初的具体方案。这就避免了采购浪费和供应链临时调整的麻烦,产品方案一旦确定即可大规模投入生产。在谷熠看来,欧美等发达工业国家的先进之处在于供应量的柔性管理能力——市场反应不达预期,可以迅速停止生产或改用备选方案,非常机动灵活。有了大数据的支撑,中国的制造业脉搏能更加有条不紊,逐渐改变过去低水平重复建设的生产模式。
谈到大数据,另一个无法回避的永恒话题是用户隐私。
在采访中,创始人谷熠并没有对此顾左右而言他。星图在数据积累早期就在内部建立了一个用户信息分级机制,能够有效预防隐私泄露情况的发生。
事实上,互联网的使用者几乎一定会在网络上留下些许痕迹,隐私本质上是一个度的概念。如果不贡献任何数据,这个商业世界的很多美好事物将永远不会出现。大数据的想象空间正是在对用户数据的合理使用基础上建立起来,随之而来的便利、智能和自动化也应该让大数据的参与创造者尽快享用到。
到那时,数据反哺农业、制造业乃至服务业的愿景才会一步步实现。