正能量 - 传递正能量,拥有给力人生
      人生不给力,来点正能量!搭建自己的气质能量墙,唤醒潜在的正能量,为你的能量导航,积攒不同的今天,兑换不一样的明天,敞开心扉,迎接正能量!
当前位置 :网站首页 - >> 励志文章 - >> 关联物,预测的关键

关联物,预测的关键

在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。

大数据洞察

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。

相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。[2]例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。

相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。如实证学家纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所言,我们可能只是“被随机性所愚弄”而已。相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率是很高的。这一点很多人可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。

通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,他们只能预测可能发生的事情。但是,这已经极其珍贵了。

大数据先锋

沃尔玛,请把蛋挞与飓风用品摆在一起沃尔玛是世界上最大的零售商,拥有超过200万的员工,销售额约4500亿美元,比大多数国家的国内生产总值还多。在网络带来巨多数据之前,沃尔玛在美国企业中拥有的数据资源应该是最多的。[3]

在20世纪90年代,零售链通过把每一个产品记录为数据而彻底改变了零售行业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。在许多情况下,沃尔玛不接受产品的“所有权”,除非产品已经开始销售,这样就避免了存货的风险也降低了成本。实际上,沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。

倘若得到正确分析,历史数据能够解释什么呢?零售商与天睿资讯(Teradata)[4]专业的数字统计员一起研究发现了有趣的相关关系。2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日的天气。

沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且POPTarts蛋挞(美式含糖早餐零食)的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。

过去,总部的人员们需要先有了想法,然后才能收集数据来测试这个想法的可行性。如今,我们有了如此之多的数据和更好的工具,所以要找到相关系变得更快、更容易了。这就意味着我们必须关注:当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期,所以这一点需要我们高度重视。

在大数据时代来临前很久,相关关系就已经被证明大有用途。这个观点是1888年查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士(Francis Galton)提出的,因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的,这是相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的原因。但是在大数据时代之前,相关关系的应用很少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。那么,如何寻找这个关联物呢?

除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点,关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢,因为个人以及团体的偏见会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错误。总之,这是一个烦琐的过程,只适用于小数据时代。

在大数据时代,通过建立在人的偏见基础上的关联物监测法已经不再可行,因为数据库太大而且需要考虑的领域太复杂。幸运的是,许多迫使我们选择假想分析法的限制条件也逐渐消失了。我们现在拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。复杂的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中,计算机把检索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流感传播最相关的词条。

我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设。因此,我们也不需要建立这样一个假设,关于哪些词条可以表示流感在何时何地传播;我们不需要了解航空公司怎样给机票定价;我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是,我们可以对大数据进行相关关系分析,从而知道哪些检索词条是最能显示流感的传播的,飞机票的价格是否会飞涨,哪些食物是飓风期间待在家里的人最想吃的。

我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。

建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于我们经常忽略了它的创新性。当然,它的应用会越来越多。

大数据先锋

FICO,“我们知道你明天会做什么”

一个人的信用常被用来预测他/她的个人行为。美国个人消费信用评估公司,也被称为FICO,在20世纪50年代发明了信用分。2011年,FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。但是这就足够激发FICO的首席执行官扬言,“我们知道你明天会做什么。”这是他在2011年的投资人大会上说的。

另一个征信机构,益百利(Experian)有一种服务,可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据,益百利能够得出评分结果。

大数据的力量

证明一个人的收入状况要花费10美元左右,但是益百利的预测结果售价不足1美元。

所以有时候,通过代理取得数据信息比自己去操作烦琐的程序要便宜得多。同时还有另一个征信机构出售“支付能力指数”和“可支配支出指数”,这些指数是用来预测一个人的支付能力的。

相关关系的运用更加广泛了。中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常浏览的网站、常看的节目、收入估计等。

Aviva的预测模型是由德勤咨询公司发明的,公司觉得这可以用来发现健康隐患。其他保险公司如英国保诚保险有限公司(Prudentia)和美国国际集团(AIG)都承认它们也在考虑类似的方法。好处就是,申请者不再需要提供血液和尿液样本了,因为大家都不太喜欢做这个事情。

大数据的力量

通过利用相关关系,保险公司可以在每人身上节省125美元,然而这个纯数据分析法只需要花费5美元。

有些人可能会觉得这种方法听起来很恐怖,这些公司似乎可以利用任何网络上的信息。这会让人们下次登陆极限运动网站和坐到电视机前观看幽默情景剧前三思而后行,因为不想因此支付更多的保险费用。让我们在接触任何信息的时候(同时也产生可能被分析的数据)都胆战心惊是一件非常糟糕的事情。但另一方面,这个系统有助于更多的人得到保险,这对于社会和保险公司都是有好处的。

大数据先锋

美国折扣零售商塔吉特与怀孕预测

大数据相关关系分析的极致,非美国折扣零售商塔吉特(Target)莫属了。该公司使用大数据的相关关系分析已经有多年。《纽约时报》的记者查尔斯·杜西格(Charles Duhigg)就在一份报道中阐述了塔吉特公司怎样在完全不和准妈妈对话的前提下预测一个女性会在什么时候怀孕。基本上来说,就是收集一个人可以收集到的所有数据,然后通过相关关系分析得出事情的真实状况。

对于零售商来说,知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻改变消费观念的开始,也是一对夫妻生活的分水岭。他们会开始光顾以前不会去的商店,渐渐对新的品牌建立忠诚。塔吉特公司的市场专员们向分析部求助,看是否有什么办法能够通过一个人的购物方式发现她是否怀孕。

公司的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。塔吉特公司注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的。

杜西格在《习惯的力量》(The Power of Habit)一书中讲到了接下来发生的事情。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”

在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。比方说,一种称为预测分析法的方法就被广泛地应用于商业领域,它可以预测事件的发生。这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛采用这种方法来确保它们看好的歌曲真的会流行;也可以指那些用来防止机器失效和建筑倒塌的方法。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被用来记录散发的热量、振幅、承压和发出的声音等。

一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。

大数据先锋

UPS与汽车修理预测

UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。如果车在路上抛锚损失会非常大,因为那样就需要再派一辆车,会造成延误和再装载的负担,并消耗大量的人力物力,所以以前UPS每两三年就会对车辆的零件进行定时更换。但这种方法不太有效,因为有的零件并没有什么毛病就被换掉了。通过监测车辆的各个部位,UPS如今只需要更换需要更换的零件,从而节省了好几百万美元。有一次,监测系统甚至帮助UPS发现了一个新车的一个零件有问题,因此免除了可能会造成的困扰。

无独有偶,桥梁和建筑物上也被安装了传感器来监测磨损程度。大型化工厂和提炼厂也安装了传感器,因为一旦设备的某一个零件有问题,就只有在更换了零件之后生产才能继续进行。收集和分析数据的花费比出现停产的损失小得多。预测性分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题,也就说它并不能告诉你引擎过热是因为什么,磨损的风扇皮带?没拧紧的螺帽?没有答案。

同样的方法也可以运用在人身上。医院使用医疗设备在病人身上装上各种管线同时得到大量的数据。心电图每秒钟就能产生1000个读数。但是只有部分的数据是被保存使用的,大部分都束之高阁了,即使这些数据都能在一定程度上表现出病人的情况。当与其他病人的数据一起考虑的时候,它们就能显现出哪些治疗方法是有效的。

当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。安大略理工大学的卡罗琳·麦格雷戈(Carolyn McGregor)博士和一支研究队伍与IBM一起和很多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产儿的病情诊断。系统会监控16个不同地方的数据,比如心率、呼吸、体温、血压和血氧含量,这些数据可以达到每秒钟1260个数据点之多。

在明显感染症状出现的24小时之前,系统就能监测到早产儿细微的身体变化发出的感染信号。麦格雷戈博士说:“你无法用肉眼看到,但计算机可以看到。”这个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。这正是这个系统的价值!提早知道病情,医生就能够提早治疗,也能更早地知道某种疗法是否有效,这一切都有利于病人的康复。所以,未来这个系统估计会应用到所有病人身上。这个系统可能不会自己做决定,但是它已经做到了机器能做到的最好,那就是帮助人类做到最好。

惊人的是,麦格雷戈博士的大数据分析法能发现一些与医生的传统看法相违背的相关关系。比如说她发现,稳定的生命体征表明病人发生了严重的感染。这很奇怪,因为医生一般认为恶化的疼痛才是全面感染的征兆。你可以想象,以前医生都是下班的时候看看婴儿床旁边的记录本,觉得病情稳定了,也就下班回家了。只有半夜护士的紧急电话才让他们知道大事不好了,他们的直觉犯了大错误。数据表明,早产儿的稳定不但不是病情好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备。但是我们也不太确定,我们不知道具体原因,只是看到了相关关系。这需要海量的数据并且找出隐含的相关性才能发现。但

是,大数据挽救了很多生命,这是毫无疑问的。

标签: 大数据时代
分类:励志文章| 发布:Danny| 查看:2996 | 发表时间:2014-04-25
原创文章如转载,请注明:转载自正能量 http://www.tcomall.com/
本文链接:http://www.tcomall.com/post/215.html
© CopyRight 2011-2025, 正能量 , Inc.All Rights Reserved L.冀ICP备13002191号-7