3上一篇  下一篇4 2013年7月19日  新闻热线 010-63744178 放大 缩小 默认  
返回版面  
  版面导航
预测和操纵未来
大数据的神话与现实


 

  有关大数据的一切都指向人的远古渴望:预测和操纵未来。

  王尔德曾经说过:我可以抵御任何力量,除了诱惑。  

  诱惑

  大数据的美妙之处远不止于电子商务网站迷人心智的产品推荐,它还能帮助球队取胜。迈克尔·刘易斯在《魔球》一书里讲述了奥克兰“运动家”棒球队的经营哲学。运动家棒球队的总经理比利·比恩,依靠电脑程序和数据模型分析比赛数据,用以选择球员,最终他带领球队在美国联盟西部赛中夺冠,并创下20场连胜纪录。

  维克托曾经引用这个案例,说明专家的消亡和数据科学家的崛起。大数据的鼓吹者们认为,一个史无前例的新时代正在到来。人类可以收集、利用的数据在规模(Volumn)、类型(Variety)、速度(Velocity)上有了新的变化。

  分布式计算(hadoop、MapReduce等云计算技术)、认知计算在内的计算能力的演化,使得存储和处理数据的成本大幅度下降,换言之,存储和处理海量、实时数据成为可能;另一方面,iPhone引爆了智能设备的流行,生产了大量位置信息。大量位置信息的累积,为艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási)这样的研究者提供了前所未有的丰富素材,以揭开人类行为背后隐藏的模式。无尺度网络模型创建者、美国东北大学教授艾伯特-拉斯洛·巴拉巴西,借助各种模型,正在其研究中心预测人类行为。他的研究包括:在未来一段时间,你会出现在哪些城市里?

  一切都指向人的远古渴望:预测和操纵未来。这一愿望可以远溯至古老的占卜和巫术。如果你能够预测、操纵客户的需求,那么300%的利润,也并非遥不可及。

  即使案边没有艾伯特-拉斯洛的《爆发》、行为经济学家泰勒(Richard Thaler)的《Nudge》、麻省理工神经与心理科学家格瑞别(Ann Graybiel)“老鼠习性与控制”的报告,大数据领先企业也早已把相关心理、神经、认知习惯方面的科学发现运用到营销设计中去了。核物理不杀人,核武器杀人,被大数据研究武装起来的企业已具备了各种诱惑消费的尖端能力。

  《纽约时报》的杜黑格(Charles Duhigg)发现,生产日用品的宝洁公司雇佣心理习性专家,帮助他们把一款滞销的去味产品(Febreze)变成了年销售10亿美元的畅销货。诀窍在于,用广告刺激已经脱敏的嗅觉,重新唤起人们去除异味的意识和欲望,在人们本来已经适应的气味环境中再增加一味化学品,并养成对它的偏好和依赖。从美国到中国,宝洁正在联手百度公司,以大客户的身份“支使”后者利用搜索平台上的相关数据来进行消费洞察和“挖潜”。

  这种人造的消费给谁带来价值,为谁的终极利益服务?在大数据游戏中,挖掘价值和操纵诱惑之间仅隔着沙滩上的一道线。这也解释了在商业世界,大数据一夜走红背后的驱动力。  

  骨感

  Farecast的启示在于,大数据的核心在于思维,而非数据或者技术。

  当然,现实的骨感,多少可以安抚我们的忐忑。本土公司多数还在埋头奋战“小数据”。大数据技术的吆喝者,确实让更多人重新思考数据潜在的价值。从数据存储和分析技术的受追捧程度,可见大数据之风的一时盛行。

  3年以前,对云计算还懵懵懂懂的中国公司,如今以极大的热情投入云计算浪潮中。极端者如苏宁电器,郑重其事地将名字更改为“苏宁云商”。云服务提供商发现,存储数据和处理数据的现实需求,不断增加。

  线上零售商“1号店”三年前开始购买数据仓库,组建BI(Business Intelligence,商业智能)团队。像塔吉特、沃尔玛一样,1号店希望能发现种种有如啤酒与尿布组合的相关性,以便加快产品周转率。通过数据,1号店发现了可口可乐与奥利奥饼干之间的正相关性。

  新的技术,正在帮助许多雄心勃勃的零售商实现赶超沃尔玛的梦想。1号店正在建立一套价格智能系统(PIS),这套系统能够在线实时搜索60多个网站、1700多万商品的库存信息和价格信息。1号店的创始人于刚说,他们依靠PIS进行实时的价格调整,以提升价格竞争力方面的量化指标。

  类似1号店PIS的数据产品思路,脱胎于华盛顿大学人工智能项目负责人奥伦·埃齐奥尼(Oren Etzioni)教授的比价网站Netbot。奥伦还开发过一套机票价格预测系统Farecast,他建立了一个数学模型,反映票价和提前购买天数之间的关系,最初的预测只是基于41天之内的12000个价格样本。2008年,微软花费1.1亿美金收购了Farecast。截至2012年,Farecast系统利用将近10万亿条价格记录来预测美国国内航班票价,准确率高达75%。

  Farecast的启示在于,大数据的核心在于思维,而非数据或者技术本身。12000个价格样本绝对不符合大数据的4V定义。但是,通过奥伦卓越的建模能力,人们可以初步窥见价格与日期之间的相关关系,随后再对系统“喂入”新的数据,不断优化模型,提高预测的准确性。

  大数据处理能力没有那么神秘,至少在IBM中国研究院信息管理和医疗健康首席科学家潘越看来是如此。与大数据相关的技术,可以归纳为三类:数据获取与治理能力、数据分析能力和数据呈现能力。潘越等一批科学家认为,技术的发展很可能会使得这些能力“傻瓜化”。

  至少现在看来,中国不缺数据,缺乏的还是能力,奥伦·埃齐奥尼这样的能力。这也可以解释为什么大多数公司更感兴趣的是如何处理好“数据”,不论规模大小。

  车品觉是阿里巴巴集团大数据委员会负责人,他认为大数据是一种“忽悠”。数据越多、越大,数据分析越复杂,负担就越沉重。在淘宝的平台上,如何“生产”有质量的数据,如何进一步挖掘消费数据,这些话题他兴致盎然,但他并不热衷于大数据的概念、定义和社会学上的讨论。

  到目前为止,阿里巴巴处理并存储了超过100PB(1个PB等于1024个TB)的数据。2013年,它在内部建立了一个虚拟组织单元,称为数据委员会,把分布在阿里巴巴集团内部25个事业部从事数据处理业务的800多位人员,集中在一起,群策群力应对数据质量、数据安全和数据运营的挑战(详见《解码阿里数据》)。

  即便如此,阿里巴巴在数据分析上的能力还只能处理和利用淘宝平台上有限的数据,人才被视为实现数据智能的关键制约。在规模上比淘宝小得多的1号店,持有相同的观点,于刚抱怨建模人才“非常稀缺”。

  从数据到数据智能,再到大数据智能,之间站着1000个奥伦·埃齐奥尼。

(黄晨霞)

3上一篇  下一篇4


报社简介 - 广告服务订阅报纸 - 记者查询 - 记者站联系方式
中华合作时报、中国合作经济、中国农资的电子版内容版权归中华合作时报社所有 转载请联系本网站管理员并注明出处
特别声明:本站若有侵害其他单位与个人权益的文章或内容,请尽快告知本站管理员,将立即删除
电话:010-63703494 传真:010-63702680 电子邮件:web@zh-hz.cn
京ICP备05031563号