混杂性,不是竭力避免,而是标准途径
确切地说,在许多技术和社会领域,我们更倾向于纷繁混杂。我们来看看内容分类方面的情况。几个世纪以来,人们一直用分类法和索引法来帮助自己存储和检索数据资源。这样的分级系统通常都不完善——各位读者没有忘记图书馆卡片目录给你们带来的痛苦回忆吧?在“小数据”范围内,这些方法就很有效,但一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃。
相片分享网站Flickr在2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注每张照片就没有意义了。难道真会有人为他的照片取名“像希特勒一样的猫”吗?
恰恰相反,清楚的分类被更混乱却更灵活的机制所取代了。这些机制才能适应改变着的世界。当我们上传照片到Flickr网站的时候,我们会给照片添加标签。也就是说,我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签,所以它是没有标准、没有预先设定的排列和分类,也没有我们必须遵守的类别的。任何人都可以输入新的标签,标签内容事实上就成为了网络资源的分类标准。标签被广泛地应用于Facebook、博客等社交网络上。因为它们的存在,互联网上的资源变得更加容易找到,特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。[4]
当然,有时人们错标的标签会导致资源编组的不准确,这会让习惯了精确性的人们很痛苦。但是,我们用来编组照片集的混乱方法给我们带来了很多好处。比如,我们拥有了更加丰富的标签内容,同时能更深更广地获得各种照片。我们可以通过合并多个搜索标签来过滤我们需要寻找的照片,这在以前是无法完成的。我们添加标签时所固带的不准确性从某种意义上说明我们能够接受世界的纷繁复杂。这是对更加精确系统的一种对抗。这些精确的系统试图让我们接受一个世界贫乏而规整的惨象——假装世间万物都是整齐地排列的。而事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。
互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时间信息。
2000年以来,商务智能和分析软件领域的技术供应商们一直承诺给客户“一个唯一的真理”。执行官们用这个词组并没有讽刺的意思,现在也依然有技术供应商这样说。他们说这个词组的意思就是,每个使用该公司信息技术系统的人都能利用同样的数据资源,这样市场部和营销部的人员们就不需要再在会议开始前争论,到底是谁掌握了正确的客户和销售数据了。这个想法就是说,如果他们知道的数据是一致的,那么他们的利益也会更一致。
但是,“一个唯一的真理”这种想法已经彻底被改变了。现在不但出现了一种新的认识,即“一个唯一的真理”的存在是不可能的,而且追求这个唯一的真理是对注意力的分散。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
我们甚至发现,不精确已经渗入了数据库设计这个最不能容忍错误的领域。传统的数据库引擎要求数据高度精确和准确排列。数据不是单纯地被存储,它往往被划分为包含“域”的记录,每个域都包含了特定种类和特定长度的信息。比方说,某个数值域是7个数字长,一个1000万或者更大的数值就无法被记录。一个人想在某个记录手机号码的域中输入一串汉字是“不被允许”的。想要被允许也可以,需要改变数据库结构才可以。现在,我们依然在和电脑以及智能手机上的这些限制进行斗争,比如软件可能拒绝记录我们输入的数据。
索引是事先就设定好了的,这也就限制了人们的搜索。增加一个新的索引往往既消耗时间,又惹人讨论,因为需要改变底层的设计。传统的关系数据库是为数据稀缺的时代设计的,所以能够也需要仔细策划。在那个时代,人们遇到的问题无比清晰,所以数据库被设计用来有效地回答这些问题。
但是,这种数据存储和分析的方法越来越和现实相冲突。我们现在拥有各种各样、参差不齐的海量数据。很少有数据完全符合预先设定的数据种类。而且,我们想要数据回答的问题,也只有在我们收集和处理数据的过程中才会知道。
分类:励志文章| 发布:Danny| 查看:1185 | 发表时间:2014-04-25
原创文章如转载,请注明:转载自正能量 http://www.tcomall.com/
本文链接:http://www.tcomall.com/post/212.html