最近更新
- 全数据模式,样本=总体
在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生,它也可以被视为那个时代的产物。如今,计算和制表不再像过去一样困难。感应器、手机导航、网站点击和Twitter被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。
采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候,它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变,但我们的方法和思维却没有跟上这种改变。
采样一直有一个被我们广泛承认却又总有意避开的缺陷,现在这
- 小数据时代的随机采样,最少的数据获得最多的信息
直到最近,私人企业和个人才拥有了大规模收集和分类数据的能力。在过去,这是只有教会或者政府才能做到的。当然,在很多国家,教会和政府是等同的。有记载的、最早的计数发生在公元前8000年的,当时苏美尔的商人用黏土珠来记录出售的商品。大规模的计数则是政府的事情。数千年来,政府都试图通过收集信息来管理国民。
以人口普查为例。据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都恺撒主导实施的人口普查,提出了“每个人都必须纳税”,这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒。1086
- 让数据“发声”
“大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直到最近,我们对此似乎还是难以把握。IBM的资深“大数据”专家杰夫·乔纳斯(Jeff Jonas)提出要让数据“说话”。从某种层面上来说,这听起来很平常。人们使用数据已经有相当长一段时间了,无论是日常进行的大量非正式观察,还是过去几个世纪里在专业层面上用高级算法进行的量化研究,都与数据有关。
在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。但当我们谈论能“说话”的数据时,我们指的远远不止这些。
实际
- 大数据,大挑战
大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。这部分内容将在第1章阐述。19世纪以来,当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。以前我们通常把这看成是理所当然的限制,但高性能数字技术的流行让我们意识到,这其实是一种人为的限制。与局限在小数据范围相比,使用一切数据为我们带来
- 预测,大数据的核心
大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。一封邮件被作为垃圾邮件过滤掉的可能性,输入的“teh”应该是“the”的可能性,从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性,都是大数据可以预测的范围。当然,如果一个人能及时穿过马路,那么他乱穿马路时,车子就只需要稍稍减速就好。这些预测系统之所以能够成功,关键在于它们是建立在海量数据的基础之上的。此外,随着系统接收到的数据越来越多,它们可以聪明到自动搜索最好的信号和模式,并自己改善自己。[1]
在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友,还有更多更复杂的任务。别忘了,亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,Facebook知道我们的喜好,而LinkedIn可以猜出我们认识谁。[2]当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子上。
就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。
- 大数据,开启重大的时代转型
大数据开启了一次重大的时代转型。与其他新技术一样,大数据也必然要经历硅谷臭名昭著的技术成熟度曲线:经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当然,不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要性。
就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解世界的新方法我们现在才意识到。本书旨在如实表达出大数据的内涵,而不会过分热捧它。当然,真
- 大数据,变革思维
人们不再认为数据是静止和陈旧的。但在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。比方说,在飞机降落之后,票价数据就没有用了(对谷歌而言,则是一个检索命令完成之后)。
大数据洞察
如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。
信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放有一
- 大数据,变革商业
大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购买飞机票就是一个很好的例子。
2003年,奥伦·埃齐奥尼(Oren Etzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。
- 大数据,变革公共卫生
2009年出现了一种新的流感病毒。这种甲型H1N1流感结合了导致禽流感和猪流感的病毒的特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来袭。有的评论家甚至警告说,可能会爆发大规模流感,类似于1918年在西班牙爆发的影响了5亿人口并夺走了数千万人性命的大规模流感。更糟糕的是,我们还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道这种流感出现在哪里。
美国,和所有其他国家一样,都要求医生在发现新型流感病例时告知疾病
- 在路上·晃晃悠悠
电子科技大学教授,互联网科学中心主任 周涛
接下翻译这本《大数据时代》的任务时,我的目标是做到110%的好。因为作者维克托·迈尔-舍恩伯格毕竟不像我们每天在一线与数据厮杀搏斗,其爱其恨都更深刻。特别地,我们可以为中文的读者补充很多中国的例子和参考资料。很遗憾,我们最终只做到了90%,应该补充的一些材料还没有整理好,遣词造句也多有生硬疏忽之处。如果再给我一个月的时间,就可以达到我预想的110%甚至120%。
为什么现在把这个版本呈现给诸位呢?一是因为我们的努力使得本书中译本