Danny 第159页-正能量

最近更新

数据，从最不可能的地方提取出来: 庞大的数据库有着小数据库所没有的价值，莫里中校是最早发现这一点的人之一。大数据的核心就是挖掘出庞大的数据库独有的价值。更重要的是，他深知只要相关信息能够提取和绘制出来，这些脏乱的航海日志就可以变成有用的数据。通过这样的方式，他重复利用了别人眼里完全没有意义的数据信息。从这个意义上讲，莫里就是数据化的先驱。就像奥伦·埃齐奥尼对Farecast所做的事情一样，用航空业过去的价格信息催生了一个大有赚头的新公司；也像谷歌的工程师所做的一样，通过过去的检索记录预测到了流感的爆发；而莫里则是发挥出了单纯用于记录; 参与：2535人时间：2014-04-25 大数据时代

马修·方丹·莫里（Matthew Fontaine Maury）是一位很有前途的美国海军军官。1839年，在他前往双桅船“合奏号”（Consort）接受一个新任务时，他乘坐的马车突然滑出了车道，瞬间倾倒，把他抛到了空中。他重重地摔到了地上，大腿骨粉碎性骨折，膝盖也脱臼了。当地的医生帮他复位了膝盖关节，但大腿受伤过重，几天后还需要重新手术。直到33岁，他的伤才基本痊愈，但是受伤的腿却留下了残疾，变得有点儿跛，再也无法在海上工作。经过近三年的休养，美国海军把他安排进了办公室，并任命他为图表和仪器厂的负责人。

谁也想不到，这

参与：1918人时间：2014-04-25 大数据时代

大数据，改变人类探索世界的方法

在小数据时代，我们会假想世界是怎么运作的，然后通过收集和分析数据来验证这种假想。在不久的将来，我们会在大数据的指导下探索世界，不再受限于各种假想。我们的研究始于数据，也因为数据我们发现了以前不曾发现的联系。

假想通常来自自然理论或社会科学，它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡，我们也很可能认为我们不再需要理论了。

2008年，《连线》杂志主编克里斯·安德森（Chris Anderson）就指出：“数据爆炸使得科学的研究方法都落伍了。”后来，他又在《拍字节时代》（T

参与：1791人时间：2014-04-25 大数据时代

改变，从操作方式开始

每年，因沙井盖内部失火，纽约每年有很多沙井盖会发生爆炸。重达300磅的沙井盖在轰然塌在地上之前可以冲出几层楼高。这可不是什么好事。

为纽约提供电力支持的联合爱迪生电力公司（Con Edison）每年都会对沙井盖进行常规检查和维修。过去，这完全看运气，如果工作人员检查到的正好是即将爆炸的就最好了，因为沙井盖爆炸威力可不小。2007年，联合爱迪生电力公司向哥伦比亚大学的统计学家求助，希望他们通过对一些历史数据的研究，比如说通过研究以前出现过的问题、基础设施之间的联系，进而预测出可能会出现问题并且需要维修的沙

参与：1447人时间：2014-04-25 大数据时代

“是什么”，而不是“为什么”

在小数据时代，相关关系分析和因果分析都不容易，都耗费巨大，都要从建立假设开始。然后我们会进行实验——这个假设要么被证实要么被推翻。但由于两者都始于假设，这些分析就都有受偏见影响的可能，而且极易导致错误。与此同时，用来做相关关系分析的数据很难得到，收集这些数据时也耗资巨大。现今，可用的数据如此之多，也就不存在这些难题了。

当然，还有一种不同的情况也逐渐受到了人们的重视。在小数据时代，由于计算机能力的不足，大部分相关关系分析仅限于寻求线性关系。这个情况随着数据的增加肯定会发生改变。事实上，实

参与：2243人时间：2014-04-25 大数据时代

关联物，预测的关键

在小数据世界中，相关关系也是有用的，但在大数据的背景下，相关关系大放异彩。通过应用相关关系，我们可以比以前更容易、更快捷、更清楚地分析事物。

大数据洞察

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时，另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系，比如谷歌流感趋势：在一个特定的地理位置，越多的人通过谷歌搜索特定的词条，该地区就有更多的人患了流感。

相反，相关关系弱就意味着当一个数据值增加时，另一个数据值几乎不会发生变化。[2]例

参与：3249人时间：2014-04-25 大数据时代

林登与亚马逊推荐系统

1997年，24岁的格雷格·林登（Greg Linden）在华盛顿大学就读博士，研究人工智能，闲暇之余，他会在网上卖书。他的网店运营才两年就已经生意兴隆。他回忆说：“我爱卖书和知识，帮助人们找到下一个他们可能会感兴趣的知识点。”他注册的这家网店就是日后大获成功的亚马逊。后来林登被亚马逊聘为软件工程师，以确保网站的正常运行。

亚马逊的技术含量不仅体现在其工作人员上。虽然亚马逊的故事大多数人都耳熟能详，但只有少数人知道它的内容最初是由人工亲自完成的。当时，它聘请了一个由20多名书评家和编辑组成的团队，他们写书

参与：3755人时间：2014-04-25 大数据时代

新的数据库设计的诞生

这些现实条件导致了新的数据库设计的诞生，它们打破了关于记录和预设场域的成规。预设场域显示的是数据的整齐排列。最普遍的数据库查询语言是结构化查询语言，英文缩写为“SQL”——它的名字就显示了它的僵化。但是，近年的大转变就是非关系型数据库的出现，它不需要预先设定记录结构，允许处理超大量五花八门的数据。因为包容了结构多样性，这些数据库设计就要求更多的处理和存储资源。但是，一旦考虑到大大降低的存储和处理成本，这就是一个我们支付得起的公平交易。

帕特·赫兰德（Pat Helland）是来自微软的世界上最权威

参与：1901人时间：2014-04-25 大数据时代

混杂性，不是竭力避免，而是标准途径

确切地说，在许多技术和社会领域，我们更倾向于纷繁混杂。我们来看看内容分类方面的情况。几个世纪以来，人们一直用分类法和索引法来帮助自己存储和检索数据资源。这样的分级系统通常都不完善——各位读者没有忘记图书馆卡片目录给你们带来的痛苦回忆吧？在“小数据”范围内，这些方法就很有效，但一旦把数据规模增加好几个数量级，这些预设一切都各就各位的系统就会崩溃。

相片分享网站Flickr在2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注每张照片就没有意义了。难道真会有人为他的照片取名“像希特勒

参与：1365人时间：2014-04-25 大数据时代

纷繁的数据越多越好: 传统的样本分析师们很难容忍错误数据的存在，因为他们一生都在研究如何防止和避免错误的出现。在收集样本的时候，统计学家会用一整套的策略来减少错误发生的概率。在结果公布之前，他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是，即使只是少量的数据，这些规避错误的策略实施起来还是耗费巨大。尤其是当我们收集所有数据的时候，这就行不通了。不仅是因为耗费巨大，还因为在大规模的基础上保持数据收集标准的一致性不太现实。就算是不让人们进行沟通争吵，也不能解决这个问; 参与：1836人时间：2014-04-25 大数据时代