Hi,欢迎来中教数据,请登录
首页 >>电信技术 >>从复杂的信息流中获取真知

从复杂的信息流中获取真知

发布时间:2017-10-12 11:00来源:网络

  我们被淹没在信息的海洋里,却因缺乏知识而挨饿。

  ――约翰・奈斯比特
  (John Naisbitt)
  
  法式油炸食品含致癌物质吗?
  据2002年瑞典的一项研究报告,淀粉类食物,比如说法式油炸食品、薯片、大米、谷类等包含丙烯酰胺的食物可能与癌症有联系。你看到这个结论以后,会从此不吃这些食物吗?如果你真的不吃,你可能会吃惊地发现,在九个月以后的后续实验中,研究者们又发现这些食物虽然包含丙烯酰胺,但是并不致癌。
  打击仍在继续:“研究发现,油炸食品DNA成分变异。”这是路透社2003年6月17日的头条新闻。在标题之下,报道解释道,丙烯酰胺产生变异,破坏了DNA。但是几个星期以后的7月5日,路透社另一头条新闻显示:“研究发现,煮熟的土豆片与癌症没有联系。”
  你还会吃土豆吗?对以上这些报道,你或许仅是读读而已。你如何筛选这么复杂的信息?
  在经过多年只吃低脂或无脂食物的痛苦之后,你会发现,最近研究表明,食物中的反式脂肪酸和不饱和脂肪酸会增加患心脏病和癌症的风险。这些发现的研究者们推荐未被加工的脂肪,比如橄榄油、黄油甚至猪油。这样的话,这么多年来你在面包上涂抹人造黄油,深受其害,又是为了什么呢?
  明天会出现什么新的研究?你如何从虚妄中区别出事实真相?你应该完全停止吃那些“危险”食物吗?你会开始抽烟吗?毕竟,总会有某个研究在某天跳出来告诉你,那些东西并不真的那么可怕。
  我们每天被各种建议、研究和信息流轰炸。你如何从中分辨出最重要的并按之行事?你如何发现那些意味着你需转变心智模式和行为的信息,剔除大量无用信息而不被其淹没?在这里,我们将探讨从复杂的信息流中获得有用信息的策略,包括一个拉近镜头看细节和拉远镜头看全局的过程。
  我们正被信息淹没着。加州大学伯克利分校的一项正在进行的研究评估发现,世界正以每年1千兆兆~2千兆兆(1千兆兆也就是1018)字节的速度制造信息。换句话说,整个星球上每一个男人、女人和儿童的人均负担大约为2.5亿字节。电子邮件以每年610亿封的速度在我们之间传送。到2000年,大约有21万亿字节的静态网页,并以每年100%的速度递增。更多的人每天都在写“blogs”―― 一种观察日常生活的在线日记,可与数百万人共享,但谁有时间把它们全部读完呢?
  理查德・沃尔曼指出,一份平日的《纽约时报》的信息量与17世纪一个普通英格兰人一辈子所接触到的几乎一样多。知识大约每十年翻一番。过去30年里产生的新信息,比过去5 000年所产生的信息总量还要多。
  如此复杂的信息洪流很快就会冲垮我们感知世界的能力极限。我们需要从复杂的信息中筛选出所需要的,以改善这种状况。
  
  什么是知识
  
  知识本身的意义在不断地变化着。我们都知道如何编纂一部百科全书。首先,你召集成千上万的、来自不同领域的顶尖专家,然后请他们介绍本领域内的专业知识。这种编纂百科全书方法的最好实例是《大不列颠百科全书》第11版(1911年出版)。这可能是最后一次以这种方式来集中全世界的知识,用出版者的话来说,这部百科全书是“人类知识的总和――包含所有人类思考过的问题、做过的事情以及达到的成就”,或者是“知识之树的一个树干剖面”。这是一个人们真正可以把知识看作一棵树,而不是被流沙包围的丛林和爬行着各种动植物的灌木丛的时代。(大约比这早十年,美国专利办公室建议国会关闭这个办公室,以节省经费,因为所有能被发明的东西都已经被发明了。)
  “人类知识的总和”由各个专业的条目积聚而成。比如,一个历史学家撰写美国大革命的相关条目,一个艺术历史学家撰写关于米开朗琪罗(Michelangelo)的条目,一个物理学家对牛顿定律作出评论。在主编的帮助下,这些作者将人类庞大的知识库集合为简练的条目,并存放到一摞书中或一张光盘里。这种方式世代沿用,将这个世界的知识以一种严谨而有效的方式整合在一起。
  但如今,出现了一种与传统大相径庭的知识组织体系――维基百科(www.wikipedia.com)。这里没有撰写条目的专家,而是完全采用一种来自民间的自发组织系统来建立知识体系。任何一个人都可以加入条目,并将此条目与其他条目链接起来。如果添加的条目正好是错的,那么某个知识更渊博的人就会加以改正。维基百科有一些基本原则,但这个系统是完全开放的。那些对条目的增添作出贡献的人,一直保持匿名状态,与他人共享知识。随着时间的流逝,众人一起编纂的这个百科全书的内容越来越丰富,越来越全面,越来越准确。而这个互联网系统内部也建立了链接。
  同样地,像Google一类的搜索引擎已经从依靠机器在网络中寻找信息,转变到通过人类专家组了解四处蔓延的网络,再到如今依靠志愿者跟踪特定领域的知识。这个“开放目录计划”(http://dmoz.org)依靠全球的志愿者建立经过人工编辑的网络目录,这些志愿者们只对某个特别的领域感兴趣。通常,商业目录网站会以低报酬聘用相关专业的职员来充实内容,应付网页不断增多的情况。而志愿者计划则有效利用了众人的热忱,能“提供一种方法让网络进行自我组织”。
  这些有关信息组织的观点迥然不同。哪一种观点更好一点呢?从一个传统的百科全书编辑的角度来看,维基百科的方法是无法想象的:你如何相信并非来自专家的信息?从维基百科的角度来看,大量的人关注信息,无疑会更快地找出并纠正错误;而且,在一个知识更新如此迅速的世界,即使顶级的专家有时也会出现偏差,历史也有可能被重写。而维基百科所采用的是最为灵活的适应变化的方法,能够反映各式各样的观点,打造一个更广阔、更丰富的知识基础。收集知识的不同方法会产生不同的结果。
  例如,在定义“community”(社区)这个词的时候,《大不列颠百科全书》第15版的解释将重点放在这个词的生物学意义上,而维基百科作为一个在线社团,对这个词进行了更为广泛的解释。解释包括好几部分:比如说“主体”和“虚拟社团”。而另一方面,维基百科对“transformation”(变换)一词下定义时,把其用作分子生物学和数学中的精确术语,而不是看作用来描述商业或人的变化的词。《大不列颠百科全书》有“insight”(洞察力)这个条目,而维基百科对此没有专门的条目。每一种百科全书都有自己的盲点,两者都没有特别关注“mental models”(心智模式)这一概念。为了公平起见,我们必须注意到,我们比较的是在线的“维基百科”和纸版印刷的“大不列颠百科全书”,所以我们应该认识到,信息的不同格式也会影响我们与之相互作用的方式。例如,在线模式更易于进行定向搜索,而印刷模式则更便于浏览。
  还有其他组织和了解知识的方法。《牛津英语字典》通过引用著作中词语的用法来记录单词含义的演化过程。(《牛津英语字典》也采用了与“维基百科”类似的开发过程,字典中的许多条目都是由志愿者提供的,其中最多产者之一是一名英国监狱里的杀人犯。)普林斯顿大学的心理学教授乔治・米勒以他对记忆过程的研究成果为基础,开发了名为“WordNet”的网络项目。比起一般的字典辞典,它列出了更多的定义,提供了更为广阔的视角。除了列出更多定义(例如“community”一词有八个定义)、同义词和反义词,WordNet也不像其他辞典一样按字母顺序排列,而是按照词的语义结构进行排序,在解释某个词时集合了该词的“上位词”或词汇所代表的属类(例如,狗是一类犬齿动物,是一类食肉动物,是一类哺乳动物,是一类动物,是一类生物)、“下位词”或词汇的具体实例(例如,杂种狗、宠物狗、哈巴狗、达尔马提亚狗、纽芬兰狗)以及“组成关系”或词汇的构成部分(如“flag”指狗的尾巴)。

  这些变化赋予词汇上下文关系,而这种关系对于人类、特别是机器翻译极有价值。如果没有这样的上下文关系,机器翻译程序就会犯一些典型错误,例如把“the spirit is willing but the flesh is weak”(心有余而力不足)这个短语翻译为“the vodka is good but the meat stinks”(这伏特加酒不错,但这肉臭了)。显然这样的译文与原话大相径庭。
  我们对词汇和其他信息的理解在很大程度上影响着我们的感知和行动。那些百科全书,例如维基百科、《牛津英语字典》和WordNet项目提供了不同的模型来收集和组织知识。既然有许多看待同一套数据的方法,那么筛选、排序和打乱数据会使我们所看到的事物产生戏剧性的差异。
  尽管诸如从事新闻事业之类的专家被认为不带有偏见,但他们与其他人一样,身上总是带有训练和文化所带来的偏差。新闻记者通过表述同一问题的不同侧面以求得公平和客观,但实际上,把问题的方方面面都考虑周全,其难度并不亚于邀请所有政党的候选人参加一个总统辩论会。所以,有些观点总是会被遗漏的。
  文化甚至会引起我们对词汇定义的偏差。我们中的一位曾经让学生在不同民族的百科全书里去查找某个术语的定义,例如“民主”,可以想象,即使是同一个词,一定也会有种类繁多的定义方式。
  
  将另一堆百万字节的数据投向一位“溺水者”
  
  信息不仅能增长,而且能以不同的方式流通。通过24小时全天候的新闻机构,我们可以与地球上几十亿人共享全球见闻,比如“9・11”恐怖事件、戴安娜王妃之死或者世界杯足球赛。这也是公司为何想让雇员们无时无刻不把寻呼机、掌中宝、电子邮件和手机接到网络上的原因。
  我们已经到了吸收数据能力的极限,更不用说去理解它们了。我们有限的注意能力正以一个常数被消耗。1992―2000年,美国家庭花在媒体(电视、广播、报纸、书籍、杂志、录像、视频游戏和因特网)上的平均时间仅仅增加了1.7%,基本上徘徊在一年3 300小时左右。这说明我们可能已经到了极限。尽管如此,2000年,平均每个家庭通过各种渠道接触到330万兆字节的信息。
  我们中的许多人已经超过了极限。这种信息超载会干扰我们的睡眠、精神乃至免疫系统,英国心理学家戴维・刘易斯将这种“数据烟雾”所导致的现象称为“信息疲劳综合征”。已经发现,它与消化不良、心脏疾病和高血压等一些物理疾病相关;它所引起的更为普遍的症状是神经麻木和错误判断。
  繁杂的事物很快会导致混乱。美国国家运输部的智能交通部门赞助了一项在美国橡树岭国家实验室中进行的研究,研究中被试者被置于不同的、有外在干扰的车辆驾驶室中。当主试者要求被试者沿一条路线驾驶时,这些被试者受到各种自动指路系统、移动电话和网络新闻广播的干扰。同时,研究者给被试者出一些简单的数学题:如果你的车用一加仑的汽油可以跑12英里,那么如果你开完96英里的路程,一共需要多少加仑的汽油?有六分之一的司机忘记了转弯,一些没有接听电话,一些答错了那道初级的数学题。好在36个被试中只有两三个在45分钟的车程里发生了事故,但更多的人一路上感到,他们的思维“失事”了。
  
  知道得越多,理解得越少
  
  过去,信息的作用是帮助我们减少不确定性。而现在,我们拥有的信息越多,理解得却越少。信息来自不同的渠道,具有不同的特点。我们需要确认这些信息的可靠性。对信息的理解取决于信息发布者和接收者的程序。而信息本身的飞速变化使得我们对未来的预测变得更加困难。我们生活的这个地球村由网络联结,形成了一个持续变化的非线性世界,但它同时也是一个充满着短暂时尚和永恒真理的喧嚣世界。
  对我们而言,真正的挑战不仅是抵挡住信息的冲击,还要理解这些信息。我们该怎样面对繁杂的信息海洋并从中提取精华呢?我们怎样才能不被海洋吞噬又找到那些藏在海底深处的珍珠呢?
  
  涸泽而渔
  
  有些人想采用中国古老寓言中的人物的做法:涸泽而渔,即吸干河水得到存留在水底的鱼虾。现实中采用“涸泽而渔”的方法获取信息的一个实例是美国国防部,它计划花费2.4亿美元开展“全面信息分析”(TIA)。这个项目将分析来自美国银行账户、税务表、驾驶执照、航线和旅行预定、信用卡购买、医疗记录、电话和电子邮件以及所有可能的海量信息。这样,政府就可以从这些信息中寻找显示问题所在的模式或潜在联系。
  暂且把个人隐私问题放在一边不谈,TIA看起来是一种使用蛮力进行信息处理的方案。许多专家认为,这个庞大的、繁杂的、笨拙的和持续变化的数据库不大可能提供独到的洞察力。一旦恐怖分子觉察到什么会被跟踪,他们可以很快采取相应的反追踪措施。对此,各公司已经拥有许多关于“数据挖掘”优缺点的经验。另一种可行的方法是采用分散防御的方法,就好像一个免疫系统,找出威胁所在并想办法对付它们。这个系统花费的人力和财力都比较少,同时也使“黑客”更难以侵入。
  有一个颇具诱惑力的想法是,用一些超级计算机分析世界上的所有数据,并从中找出创造性的思想。然而,汇集大量的分散数据并不一定能提高洞察力。实际上,它可能使数据更难以理解。因此,一个强大的信息系统和数据挖掘过程还需要与精确定义的感兴趣领域联系起来,并在这个领域之内对数据进行分析和理解。
  豪尔赫・路易斯・博尔赫斯所著的《博闻强记的富内斯》一书对堆积大量不理解的信息进行了非常有趣的讽刺性描述。主角富内斯拥有超强记忆能力,他可以记住他生活中发生的任何事情,包括每一分钟的细节。他甚至记得很久以前某天太阳在哪一秒升起,太阳升起时每一层颜色的变化。但是,他无法依据如此完美的记忆改变任何事情。所有过去的信息让他窒息,他无法进行思考。博尔赫斯试图通过这个故事,突出原始数据的堆积和创造性理解之间的区别。我们要避免因为使用技术而把自己变成另一个富内斯;我们应将重点放在从知识的洪流中筛选出天然金块的过程。

转载请注明来源。原文地址:

上一篇:在选择与放弃中搭建人生舞台

下一篇:这个……我真不懂