允许不精确-正能量

当前位置：网站首页 - >> 励志文章 - >> 允许不精确

允许不精确

在越来越多的情况下，使用所有可获取的数据变得更为可能，但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确，与此同时，一些错误的数据也会混进数据库。然而，重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的，而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。

对“小数据”而言，最基本、最重要的要求就是减少错误，保证质量。因为收集的信息量比较少，所以我们必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小，为了使结果更加准确，很多科学家都致力于优化测量的工具。在采样的时候，对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大，甚至有可能影响整个结果的准确性。

历史上很多时候，人们会把通过测量世界来征服世界视为最大的成就。事实上，对精确度的高要求始于13世纪中期的欧洲。那时候，天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式，用历史学家阿尔弗雷德·克罗斯比（Alfred Crosby）的话来说就是“测量现实”。

我们研究一个现象，是因为我们相信我们能够理解它。后来，测量方法逐渐被运用到科学观察、解释方法中，体现为一种进行量化研究、记录，并呈现可重复结果的能力。伟大的物理学家开尔文男爵曾说过：“测量就是认知。”这已成为一条至理名言。培根也曾说过：“知识就是力量。”同时，很多数学家以及后来的精算师和会计师都发展了可以准确收集、记录和管理数据的方法。

19世纪，科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统，并逐渐成为其他国家普遍采用的标准，这套系统还为后来国际公认的测量条约奠定了基础，成为测量时代的巅峰。仅半个世纪之后，20世纪20年代，量子力学的发现永远粉碎了“测量臻于至善”的幻梦。然而，在物理学这个小圈子以外的一些测量工程师和科学家仍沉湎在完美测量的梦中。随着理性学科，如数学和统计学逐渐影响到商业领域，商业界更加崇尚这种思想。

然而，在不断涌现的新情况里，允许不精确的出现已经成为一个新的亮点，而非缺点。因为放松了容错的标准，人们掌握的数据也多了起来，还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了，而是大量数据创造了更好的结果。

同时，我们需要与各种各样的混乱做斗争。混乱，简单地说就是随着数据的增加，错误率也会相应增加。所以，如果桥梁的压力数据量增加1000倍的话，其中的部分读数就可能是错误的，而且随着读数量的增加，错误率可能也会继续增加。在整合来源不同的各类信息的时候，因为它们通常不完全一致，所以也会加大混乱程度。例如，与服务器处理投诉时的数据进行比较，用语音识别系统识别某个呼叫中心接到的投诉会产生一个不太准确的结果，但也是有助于我们把握整个事情的大致情况的。

混乱还可以指格式的不一致性，因为要达到格式一致，就需要在进行数据处理之前仔细地清洗数据，而这在大数据背景下很难做到。“大数据”专家帕堤尔（D.J.Patil）指出，I.B.M.、T.J.Watson Labs、International Business Machines都可以用来指代IBM，甚至可能有成千上万种方法称呼IBM。当然，在萃取或处理数据的时候，混乱也会发生。因为在进行数据转化的时候，我们是在把它变成另外的事物。比如，我们在对Twitter的信息进行情感分析来预测好莱坞票房的

时候，就会出现一定的混乱。其实，混乱的起源和类型本来就是一团乱麻。

假设你要测量一个葡萄园的温度，但是整个葡萄园只有一个温度测量仪，那你就必须确保这个测量仪是精确的而且能够一直工作。反过来，如果每100棵葡萄树就有一个测量仪，有些测试的数据可能会是错误的，可能会更加混乱，但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据，而它不仅能抵消掉错误数据造成的影响，还能提供更多的额外价值。

现在想想增加读数频率的这个事情。如果每隔一分钟就测量一下温度，我们至少还能够保证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话，不仅读数可能出错，连时间先后都可能搞混掉。试想，如果信息在网络中流动，那么一条记录很可能在传输过程中被延迟，在其到达的时候已经没有意义了，甚至干脆在奔涌的信息洪流中彻底迷失。虽然我们得到的信息不再那么准确，但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算。

在第一个例子里，我们为了获得更广泛的数据而牺牲了精确性，也因此看到了很多如若不然无法被关注到的细节。在第二个例子里，我们为了高频率而放弃了精确性，结果观察到了一些本可能被错过的变化。虽然如果我们能够下足够多的工夫，这些错误是可以避免的，但在很多情况下，与致力于避免错误相比，对错误的包容会带给我们更多好处。

为了扩大规模，我们接受适量错误的存在。正如技术咨询公司Forrester所认为的，有时得到2加2约等于3.9的结果，也很不错了。当然，数据不可能完全错误，但为了了解大致的发展趋势，我们愿意对精确性做出一些让步。

大数据洞察

“大数据”通常用概率说话，而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间，其中也会出现一些问题。但现在，有必要指出的是，当我们试图扩大数据规模的时候，要学会拥抱混乱。

我们可以在大量数据对计算机其他领域进步的重要性上看到类似的变化。我们都知道，如摩尔定律所预测的，过去一段时间里计算机的数据处理能力得到了很大的提高。摩尔定律认为，每块芯片上晶体管的数量每两年就会翻一倍。这使得电脑运行更快速了，存储空间更大了。大家没有意识到的是，驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示，在很多领域这些算法带来的进步还要胜过芯片的进步。然而，社会从“大数据”中所能得到的，并非来自运行更快的芯片或更好的算法，而是更多的数据。

由于象棋的规则家喻户晓，且走子限制良多，在过去的几十年里，象棋算法的变化很小。

计算机象棋程序总是步步为赢是由于对残局掌握得更好了，[1]而之所以能做到这一点也只是因为往系统里加入了更多的数据。实际上，当棋盘上只剩下六枚棋子或更少的时候，这个残局得到了全面的分析，并且接下来所有可能的走法（样本=总体）都被制入了一个庞大的数据表格[2]。

这个数据表格如果不压缩的话，会有一太字节那么多。所以，计算机在这些重要的象棋残局中表现得完美无缺和不可战胜。

大数据在多大程度上优于算法这个问题在自然语言处理上表现得很明显（这是关于计算机如何学习和领悟我们在日常生活中使用语言的学科方向）。在2000年的时候，微软研究中心的米歇尔·班科（Michele Banko）和埃里克·布里尔（Eric Bill）一直在寻求改进Word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法，还是添加更加细腻精致的特点更有效。所以，在实施这些措施之前，他们决定往现有的算法中添加更多的数据，看看会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后，他们决定往4种常见的算法中逐渐添加数据，先是一千万字，再到一亿字，最后到十亿。

结果有点令人吃惊。他们发现，随着数据的增多，4种算法的表现都大幅提高了。

大数据的力量

当数据只有500万的时候，有一种简单的算法表现得很差，但当数据达10亿的时候，它变成了表现最好的，准确率从原来的75%提高到了95%以上。与之相反地，在少量数据情况下运行得最好的算法，当加入更多的数据时，也会像其他的算法一样有所提高，但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。

后来，班科和布里尔在他们发表的研究论文中写到，“如此一来，我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”

标签：大数据时代
分类：励志文章| 发布：Danny| 查看：2416 | 发表时间：2014-04-25
原创文章如转载，请注明：转载自正能量　http://www.tcomall.com/
本文链接：http://www.tcomall.com/post/209.html