正能量 - 传递正能量,拥有给力人生
      人生不给力,来点正能量!搭建自己的气质能量墙,唤醒潜在的正能量,为你的能量导航,积攒不同的今天,兑换不一样的明天,敞开心扉,迎接正能量!

最近更新

改变,从操作方式开始

每年,因沙井盖内部失火,纽约每年有很多沙井盖会发生爆炸。重达300磅的沙井盖在轰然塌在地上之前可以冲出几层楼高。这可不是什么好事。

为纽约提供电力支持的联合爱迪生电力公司(Con Edison)每年都会对沙井盖进行常规检查和维修。过去,这完全看运气,如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小。2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系,进而预测出可能会出现问题并且需要维修的沙

参与:1134时间:2014-04-25 大数据时代
“是什么”,而不是“为什么”

在小数据时代,相关关系分析和因果分析都不容易,都耗费巨大,都要从建立假设开始。然后我们会进行实验——这个假设要么被证实要么被推翻。但由于两者都始于假设,这些分析就都有受偏见影响的可能,而且极易导致错误。与此同时,用来做相关关系分析的数据很难得到,收集这些数据时也耗资巨大。现今,可用的数据如此之多,也就不存在这些难题了。

当然,还有一种不同的情况也逐渐受到了人们的重视。在小数据时代,由于计算机能力的不足,大部分相关关系分析仅限于寻求线性关系。这个情况随着数据的增加肯定会发生改变。事实上,实

参与:1913时间:2014-04-25 大数据时代
关联物,预测的关键

在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。

大数据洞察

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。

相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。[2]例

参与:2833时间:2014-04-25 大数据时代
林登与亚马逊推荐系统

1997年,24岁的格雷格·林登(Greg Linden)在华盛顿大学就读博士,研究人工智能,闲暇之余,他会在网上卖书。他的网店运营才两年就已经生意兴隆。他回忆说:“我爱卖书和知识,帮助人们找到下一个他们可能会感兴趣的知识点。”他注册的这家网店就是日后大获成功的亚马逊。后来林登被亚马逊聘为软件工程师,以确保网站的正常运行。

亚马逊的技术含量不仅体现在其工作人员上。虽然亚马逊的故事大多数人都耳熟能详,但只有少数人知道它的内容最初是由人工亲自完成的。当时,它聘请了一个由20多名书评家和编辑组成的团队,他们写书

参与:3363时间:2014-04-25 大数据时代
新的数据库设计的诞生

这些现实条件导致了新的数据库设计的诞生,它们打破了关于记录和预设场域的成规。预设场域显示的是数据的整齐排列。最普遍的数据库查询语言是结构化查询语言,英文缩写为“SQL”——它的名字就显示了它的僵化。但是,近年的大转变就是非关系型数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。但是,一旦考虑到大大降低的存储和处理成本,这就是一个我们支付得起的公平交易。

帕特·赫兰德(Pat Helland)是来自微软的世界上最权威

参与:1515时间:2014-04-25 大数据时代
混杂性,不是竭力避免,而是标准途径

确切地说,在许多技术和社会领域,我们更倾向于纷繁混杂。我们来看看内容分类方面的情况。几个世纪以来,人们一直用分类法和索引法来帮助自己存储和检索数据资源。这样的分级系统通常都不完善——各位读者没有忘记图书馆卡片目录给你们带来的痛苦回忆吧?在“小数据”范围内,这些方法就很有效,但一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃。

相片分享网站Flickr在2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注每张照片就没有意义了。难道真会有人为他的照片取名“像希特勒

参与:1037时间:2014-04-25 大数据时代
纷繁的数据越多越好

传统的样本分析师们很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现。在收集样本的时候,统计学家会用一整套的策略来减少错误发生的概率。在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。尤其是当我们收集所有数据的时候,这就行不通了。不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。就算是不让人们进行沟通争吵,也不能解决这个问

参与:1492时间:2014-04-25 大数据时代
大数据的简单算法比小数据的复杂算法更有效

所以,数据多比少好,更多数据比算法系统更智能还要重要。那么,混乱呢?在班科和布里尔开始研究数据几年后,微软的最大竞争对手,谷歌,也开始更大规模地对这些问题进行探讨。谷歌用的是上万亿的语料库,而不是十亿的。谷歌做这类研究不是因为语法检查,而是为了解决翻译这个更棘手的难题。

20世纪40年代,电脑由真空管制成,要占据整个房间这么大的空间。而机器翻译也只是计算机开发人员的一个想法。在冷战时期,美国掌握了大量关于苏联的各种资料,但缺少翻译这些资料的人手。所以,计算机翻译也成了亟须解决的问题。

参与:3010时间:2014-04-25 大数据时代
允许不精确

在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。

对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确

参与:1968时间:2014-04-25 大数据时代
全数据模式,样本=总体

在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生,它也可以被视为那个时代的产物。如今,计算和制表不再像过去一样困难。感应器、手机导航、网站点击和Twitter被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。

采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候,它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变,但我们的方法和思维却没有跟上这种改变。

采样一直有一个被我们广泛承认却又总有意避开的缺陷,现在这

参与:3863时间:2014-04-25 大数据时代
© CopyRight 2011-2024, 正能量 , Inc.All Rights Reserved L.冀ICP备11010593号