可视化未来 数据透视下的人文大趋势 [UNCHARTED:Big Data as a Lens on Human Culture] pdf epub mobi txt 电子书 下载
编辑推荐
史蒂芬·平克为推崇的人类趋势新作。
世界顶端级数字人文学家、“谷歌图书”项目首席专家埃雷兹·艾登与让-巴蒂斯特·米歇尔重磅力作。
超级畅销书《链接》译者、中科院计算所副研究员沈华伟,中科院计算所所长助理、中国科学院网络数据科学与技术重点实验室主任程学旗诚意之作。
500多万本电子书、82幅图表、6大热点主题,完美洞悉人文历史与未来。
中国工程院院士、中国科学院大学计算机与控制学院院长李国杰,清华大学心理学系主任、加州大学伯克利分校心理学系终身教授,当代伟大思想家、世界顶端级语言学家和认知心理学家、经典畅销书《语言本能》作者史蒂芬·平克,数据趋势先驱,著名畅销书《大数据时代》合著者肯尼思·库克耶联袂重磅推荐。
湛庐文化出品。
内容简介
科学的传播速度有多快?今时今日我们很少谈论上帝了吗?人们什么时候开始用“havingsex”而不用“makinglove”?史上的人是在哪岁成名的?语法的变化速度到底有多快?哪些作家被纳粹审查得彻底?“donut”什么时候开始取代“doughnut”?我们能否预测人类未来?比尔·克林顿和花椰菜哪个更出名?不规则动词是如何逐渐消失的?数据和上帝,人们更相信哪一个?名人们更多的是少年成名,还是大器晚成?如何进行合适的职业选择?
《可视化未来 数据透视下的人文大趋势》一书的一大特色是用图表说话。书中数百幅图表,以直观的方式回答了这些看似毫无头绪的复杂问题。回答这些问题的图表,可以说是人类文化的一部连环画。它们简单易懂,而我们还可以通过在线的n元词组词频查看器方便地生成很多类似的图表,来满足我们对人类文化各个方面的好奇心。
该书是史蒂芬·平克为推崇的人文趋势新作,500多万本电子书、82幅图表、6大热点主题,完美洞悉人文历史与未来。
作者简介
埃雷兹·艾登,1980年,埃雷兹·艾登出生于美国布鲁克林,精通希伯来语和匈牙利语。本科就读于普林斯顿大学,主修数学、物理学和哲学专业,毕业后考入叶史瓦大学历史学专业,攻读硕士学位。
2009年,在哈佛-麻省理工博德研究所攻读博士学位的艾登被《麻省理工科技评论》提名为世界上前35位年龄小于35岁的创新者。
博士毕业后,艾登先是任职于哈佛大学科研学会,后任谷歌客座教授,随后成为贝勒医学院和莱斯大学的助理教授,领导基因组架构研究中心。2012年,他因和同事一起发明了探测基因3D折叠方式的技术,获得美国总统青年科技奖(PECASE),这是美国政府颁给青年科学家的较高荣誉。
让-巴蒂斯特·米歇尔,数据科学公司量化实验室(QuantifiedLabs)创始人,哈佛大学副研究员,曾任谷歌客座教授。2010年在哈佛获得博士学位。2012年入选TEDFellow,最近被《福布斯》提名为“30岁以下30位创新者”之一。
精彩书评
★近年来,全球掀起了一股“大数据”浪潮,波及社会的各行各业,深刻影响和改变着人们的思维和科学研究方式。在工业界,数据已成为企业核心竞争力之一;在学术界,数据密集型科学研究已上升到与科学实验、理论分析、计算模拟并列的科学研究“第四范式”。展现在你面前的《可视化未来》一书以“谷歌图书”项目为背景,讲述了大数据在研究历史文化、人类语言、社会名望、群体记忆等方面的重要作用,其对社会科学的变革意义,与伽利略首次将望远镜指向太空对天文学的意义一样重大。这本书将科学思维之严谨和人文思维之优美有机地结合在了一起,语言幽默诙谐,读起来轻松愉快,又颇具启发性,很值得一读。
——李国杰
中国工程院院士,中国科学院大学计算机与控制学院院长
★人类几乎同时在体验多重演化进程的选择,人类的生物基因组学研究揭示了生物进化的过程,人类的文化基因组学研究揭示了人类文化的演化过程。人类文明,上下传承,到底传承了什么样的文化基因?这正是即将形成的文化科学希望解决的前沿问题。而谷歌进行的对人类出版物的数据化扫描和存储形成的数据库"数据图书",可以有效地帮助人类的文化科学家挖掘和探索出文化进化的规律、规则、趋势及前景。著名的数字人文学家埃雷兹·艾登和让-巴蒂斯特·米歇尔正好是建设“谷歌图书”数据库的领军人物。他们通过对500多万本电子书的数学、语言学和文化进行分析,追踪了从1800-2000年这200年英语语法、词典学、集体记忆、科技使用、名利追求、审查制度以及历史流行病学等一系列文化现象的发展。研究的时间跨度之大、范围之广、发现之新颖,都是前所未有的,不仅为我们了解、分析、剖析、追踪、预测人类文化的变化提供了直观的证据、数据和结论,而且为未来中国的学者对中国图书数据揭示岀的中国文化变迁过程进行研究提供了一个范本。
——彭凯平
清华大学心理学系主任,加州大学伯克利分校心理学系终身教授
★这是几十年来思想世界激动人心的进展之一,出自两位绝顶聪明、十分谦逊而又富有无限创造力的年轻科学家之手。
——史蒂芬·平克
当代伟大思想家,世界顶端级语言学家和认知心理学家
★艾登和米歇尔是大数据研究的先行者,转变了人类思考和认识自身的方式。《可视化未来》是一部充满魔力、趣味十足、便捷易读、信息量丰富的读物,每一页都蕴含着睿智和幽默。
——肯尼思·库克耶
数据趋势先驱,著名畅销书《大数据时代》合著者
★非常令人愉悦……对于知识分子而言,阅读《可视化未来》一书或许就像吃一包薯条那样轻松,却又富有吸引力。你肯定不会只吃一根就停下来的!
——《纽约时报》
★这一巨作非常有趣而富有启示。埃雷兹·艾登和让-巴蒂斯特·米歇尔让我们意识到,书籍中富含对人类历史、文化、经济和政治的启示,而那些书籍的作者们对此都会觉得不可思议。他们两人在《可视化未来》一书中的洞见将会转变我们认识人类生活诸多方面的方式。
——《波士顿环球报》
★艾登和米歇尔为我们提供了一种审视和探索人类过往的新方式。
——《科克斯书评》
目录
推荐序 数据透镜,洞穿科学与人文之美
李国杰
中国工程院院士,中国科学院大学计算机与控制学院院长
译者序 在大数据的指引下开启未知之旅
引言 数字眼,透视历史与未来
第1章 乔治·金斯利·齐夫与化石猎手
英语演进的全景式图谱
源起孩童式问题
1937,数据史诗
幂率,引爆词汇世界新正态
过于齐夫与否
2005,另一个数据史诗
时间旅行者的窘境
词典与索引
数一数玫瑰的花瓣
【量化人文】是burnt,还是burned?
第2章 四个生日和一个葬礼
语言本质的新视域
谷歌数字图书馆之梦
3000万本!“谷歌图书”的9年成果
《财富》500强法务部门的心理
大投影,应对隐私泄漏之殇的密钥
在“谷歌图书”的投影中
自己动手编词典
词汇暗物质
【量化人文】 老爸,保姆来自哪里?
第4章 未来,每个人都将在7.5分钟内成名
从崭露头角到名望顶峰的路线图
名望的万有引力
测量名望,你需要一个“风洞”
临摹名望,只是接近成名
断代分析,将名望视作疾病来研究
人类名望的风云变化:从75岁到41岁
如何获得名望:职业选择指南
恶名,最极端的成名方式
【量化文化】 一步之遥,名望天地间
第5章 文明割裂与寂静之声
如何透视文化审查的藏身之处
“堕落的艺术”
史上最火爆的艺术展
焚书
环球巡回,他们不希望你看到什么
思想有数百万个出口
【量化人文】 两个权利催生一个新权利
第5章 为什么越是痛苦的记忆,越容易被忘怀
集体意识的铭记与遗忘曲线
记忆测试
记忆关联效应:其他东西的记忆
集体记忆的遗忘曲线
新信息如何进入社会
新技术如何进入社会
147个重要日期
奇点,还是破灭?
量化民族精神
让世界一起上瘾
【量化人文】 妈妈,火星人来自哪里?
第 6 章 乌托邦、反乌托邦与数托邦
让预测人类未来成为现实
数字化的过去:书籍、报纸等的数字化
数字化的现在:数字通信与社交媒体让人类更亲密
数字化的未来:“数字化来世”将触手可及
真相与后果
志趣相投:科学与人文已经走向融合
心理史学
【量化人文】 由n元词组词频统计器绘制的人类大未来
附录 n元词组历史大会战
精彩书摘
|第3章|
未来,每个人都将在 7.5 分钟内成名
从崭露头角到名望顶峰的路线图
打扫垃圾这个工作不怎么迷人,却可以成就英雄。
不信的话,你可以问一下希腊神话中的英雄——大力神赫拉克勒斯。在赫拉克勒斯的 12 次劳作中,第 5 次的任务就是打扫奥革阿斯国王 (Augeas)的牛棚,那里面住着数千头长生不老的母牛。由于牛棚已经 30 年 没有打扫了,粪秽堆积如山。因此,赫拉克勒斯将两条湍急的河流引来,一 天之内就将牛棚冲洗得干干净净。他的英雄事迹至今仍是世界排污工程史上最伟大的成就之一。
几千年后,类似的传奇故事仍然不绝于耳。这个故事是关于我们的“计 算大力神”沈渊的。谷歌花费了5 年时间,尽情地汇聚知识的力量,快速地 数字化数以百万计的图书。然而,在创造了世界上最大的数字图书“牛棚” 的同时,也不可避免地衍生出了一个副产品——谷歌积累了数量庞大的低质 量数据。有些大数据是脏的。所以,我们是时候该清理“牛棚”了。
阻碍:错漏百出的图书馆卡片目录
最近,你将多少黄金时间耗费在了图书馆的卡片目录上?
卡片目录曾经是图书馆里图书流通的核心。图书馆里的每本书都对应着 一张卡片,上面记录着该书的关键信息,包括书名、作者、主题、出版年份 和用于标识图书位置的编码。每天,来访者源源不断,他们会走向卡片目录 存放柜,然后再根据目录里的信息走向遥远角落里的一排排书架。
如果没有卡片目录,图书馆将杂乱无章,人们也就无法从中获取任何信 息。很多个世纪以来,最重要的图书馆之一 ——梵蒂冈秘密档案馆(Vatican Secret Archive)就处于这种状态。这家档案馆的书架有 83.7 公里长,却缺少一个囊括所有馆藏图书信息的卡片目录。档案馆里面有什么?即使是有权自由访问该档案馆的人,恐怕也说不清楚。如果需要从中找一本书,你就需要了解:谁可能知道书的位置。档案馆里陈列着很多珍贵的手稿,这些手稿可以追溯到 8 世纪,譬如,关于对伽利略进行异端审判的记录。然而,要想从中找出这些珍宝,却无异于是一场探险,或许《夺宝奇兵》中的印第安纳 · 琼斯(Indiana Jones)会想要去进行这样的探险。对于这家档案馆来说,没有卡片目录无疑是一种绝佳的信息保护方式。
对我们而言,和任何其他图书馆用户一样,仅仅拥有查找馆藏图书的权利还远远不够。如果我们想对比一下不同时代和地方的书,还需要准确地找出记录着书的元信息的卡片目录,以便我们了解哪本书是关于什么的,从而在进行自动分析时知道该如何对其进行分类。
起初,我们并没有觉得这是一个大问题。谷歌在收集 1.3 亿本书时,使用的就是来自数百个源头的目录信息。这些年来,各大图书馆的卡片目录都完成了数字化,这是最早受益于数字化的事物之一,原来那些实体卡片通常都被“冷落”了。然而,事实证明,哪怕是最好的卡片目录也会出错。
错误一旦酿成,一般不会很快得到纠正。卡片目录如此之多,即便是最忠实的图书馆用户也不能总是注意到这些错误。有时候,用户也会因此找不到书。在这种情况下,“非礼勿视,非礼勿听,非礼勿言”。有时候,错误出现在诸如图书出版地区之类的地方,但只要编码正确,用户们还是能找到相应的书。在这种情况下,卡片上错误的元信息对于读者而言影响不大,因为关键信息是正确的。
随着时间的推移,众多没有得到纠正的错误从实体卡片目录上迁移到了数字卡片目录上,然后又迁移到了谷歌采集图书时使用的“母目录”上,最后来到了我们这里。和只对某本书感兴趣的人不同,错误对我们影响很大: 我们无法手工检查数百万本书。然而,这些卡片中有相当大一部分含有错误。如果我们使用这个目录元数据来产生 n 元词组表格,最终的结果就会非常糟糕且无法使用。而当我们使用含有错误的目录信息进行计算时,我们发现,隔壁办公室的朋友 16 世纪时就已经很出名了。当我们告诉她这个消息时, 她否定了自己有那么老。要么是她对我们撒了谎,要么是我们的计算出了问题。我们该怎么办?
由于不能手工检查这些书,所以我们决定编写计算机算法以找出可疑的卡片——因某种原因包含了错误信息的卡片。以杂志为例,对于系列出版物 如报纸、学术期刊以及其他期刊,图书馆会将创刊日期放在每一期上。这就 意味着,按照我们的卡片目录检索,每一期的《时代周刊》都出版于 1923 年。 对于我们的研究目的而言,这是一个大问题。
为了解决这些问题,我们编写了一个叫作“系列出版物杀手”(Serial ?83 Killer)的算法,它可以找出任何可疑的系列出版物。我们还编写了一个叫作“快速确定日期”(Speed Dater)的算法,查看图书的正文,根据正文推测图书的出版日期。我们将两个算法相结合就可以识别出可疑的卡片以及对应的图书。然后,我们再将这些书从我们的分析中剔除出去。
解决:“清洗”脏数据
最终,2009 年夏天,沈渊将两个算法和他的软件工程经验相结合,将那些愚弄我们的脏数据冲走了。数百万的书被冲到了计算的河流中,数量之 大以至于触发了谷歌的内部报警系统。经过这次传奇般的清洗之后,剩下的 图书只有最初的一小部分了。不过,剩下的数据集在规模和历史跨度上仍然是史无前例的:5 000 亿个词,前后贯穿 5 个世纪,涉及 7 种语言。该数据集中包含的书的数目超过了人类曾经出版过的所有书的 4%。
与清理前的数据集相比,这个大数据集同等重要。它的文本总长度是人类基因组总长度的 1 000 倍,其准确性是人类基因组计划(Human Genome Project)报告的基因序列准确性的 10 倍。
现在,我们输入的文本和卡片目录的元数据都是“干净”的了,它们生成的 n 元词组非常好。我们能够从中清晰地辨识出语言和文化的很多演变规律,例如,从 throve 到 thrived 的变迁,从 telegraph 到 telephone 的进步。从科学层面上讲,只要看一眼 n 元词组数据,你就会对它一见钟情。
告别:互联网巨头的担心
但是,和很多夏日恋情一样,伴随秋日的到来,我们对 n 元词组的爱很 快就面临了秋季障碍。随着沈渊结束了在谷歌的实习,我们在不久之后也从谷歌离开,把数据留在了谷歌的防火墙之内。
我们希望谷歌能将这些数据发给我们。但是,这个互联网巨头并不想这么做。在谷歌看来,n 元词组数据很敏感。律师给出的理由很简单:这个 n 元词组数据集是从 500 万本书的正文中计算出来的。500万本书对应着将近500万个作者。如果数据泄露招致了法律诉讼的话,也就对应着500万个原告。我们在具体设计n元词组的数据投影时,就考虑过这个问题。因此,我们当时选择了统计词的出现频次,而不是记录大段的文字。但是,我们的投影方式没有在法庭上进行过测试。因此,谷歌的担心也不无道理。
面对世界上最大公司之一的法律部门,我们能打的牌不多。但是,我们握有20亿个n元词组,所以不打算就此退却。
契机:史蒂芬 · 平克的名望
我们几乎用光了手中所有的牌。第一张牌是机会,获奖的阿维娃·艾登为我们打开了通往谷歌总部的大门。第二张牌是陌生人的友善,彼得·诺维格为我们开了绿灯,并愿意和我们合作。我们甚至还电话求助过一个朋友, 他是我们很久没有联系的一位邻居,叫本·拜尔(Ben Bayer),曾经是谷歌研究院 ( Google Research) 的“时空主管”(Master of Space and Time)——这可能是企业历史上最伟大的职务了。但是,我们还有一张王牌没有用过。
我们关于量化历史趋势的每份报告都受到了史蒂芬·平克(Steven Pinker)的关注,他是目前还在世的最杰出的科学家之一,也是我们一直敬佩的人。
平克是一位心理学家、语言学家、认知科学家,其研究具有超凡的广度和深度。作为畅销书作者,他具有一种非同寻常的能力,能够从最复杂的问题中清晰地提炼出其本质。例如,有一次,平克参加了一个叫作《科尔伯特 报告》(The Colbert Report)的讽刺类新闻节目。斯蒂芬·科尔伯特(Stephen Colbert)问他大脑是如何工作的,并要求其用不超过 5 个词进行回答。平克 想了几秒钟后说:“脑细胞有规律地燃烧。”
让人感到幸运的是,平克的一位拥护者丹·克兰西在 2009 年夏天时正好担任整个谷歌图书项目的运营负责人。克兰西的级别很高,他一发话就能让我们从谷歌公司外部访问 n 元词组数据。但是,他非常忙,没有时间顾及我们和我们的小项目。在那个夏天即将结束时,形势变得清晰起来,如果平克愿意出席一个讨论 n 元词组的会议,那么常常神龙见首不见尾的丹·克兰西也会抽出时间参加。
于是,我们去找平克。看一看吧,我们已经生成了20亿个n元词组, 你能帮助我们自由地使用它们吗?平克认为,我们的工作有潜在的应用价值, 所以他答应会出席会议。而克兰西也同意来参加会议。因此我们就有了30分钟的时间来说明情况。几年前,平克被《时代周刊》提名为“全世界100位最有影响力”的人物之一。随着会议的进行,一切都变好了。对于平克而言, 30 分钟足够他施展魔力了。很快,n元词组就被派上了用场。那么,名望能带给你什么?平克的声望带给我们克兰西30分钟的时间。虽然不多,但足够了。
名望的万有引力
名望是蜜蜂,
它会唱歌,
它会叮人,
啊,它还有翅膀。
美国传奇诗人艾米莉 · 狄金森(Emily Dickinson)的这首诗抓住了名望的本质:富于诱惑、充满危险、能给人以提升的空间却又使人难以把握, 等等。人们不禁会想,狄金森应该很了解名望,或许她就是美国最出名的诗人吧!
然而,狄金森和名望并没有直接的关系(见图 3-1)。她对名望的理解是 出于直觉,而不是源自经历。她一生默默无闻。在狄金森 1886 年去世后差 不多半个世纪,她留下的这首诗才成为人们广泛讨论的话题。
那么,狄金森和名望的这种关系是一个例外,还是一般的规律?人们获 得名望的方式、时间以及原因千差万别,似乎没有规律可循。作为查尔斯王 子和戴安娜王妃的儿子,威廉王子一出生甚至在出生前就非常出名了,因为 他终将会成为英国国王的命运在他尚未出生时就已注定。流行歌手贾斯汀·比伯(Justin Bieber)13 岁时就在 YouTube 上崭露头角,5 年后,他成为谷歌 检索里的“名人”。有时,终生学习会换来一夜成名。当平克的畅销书《语言本能》(The Language Instinct) 出版时,40 岁的他一下子赢得了全世界的 关注,那时候他已经是美国麻省理工学院的教授了。另外,尽管闻名整个美国的大厨朱莉娅·查尔德(Julia Child)年过 40 时还没有开始学习烹饪,但 是她随后给美国烹饪界带来了革命性的变化,成了全美偶像。
和艾米莉 · 狄金森一样,很多著名人物终生都未能获得名望。凡 · 高生 前几乎没有卖出过一幅画,他的天分至死都未获得认可。修道士哥白尼提 出了“日心说”,他很清楚自己的这一想法非常具有颠覆性,因此他一直等 到临终之时才将其公开发表。很多著名人物得到的都是身后的荣耀。正如 美国南北战争时期的联邦军将领威廉 · 特库姆塞 · 舍曼(William Tecumseh Sherman)所说:“我认为,我明白什么是军事名望,那就是在战场上牺牲或 者在报纸上被拼错名字。”
有些人的出名方式还真的很令人匪夷所思。有一个众所周知的例子,帕丽斯·希尔顿和金·卡戴珊这两位美国娱乐界的名媛获得名声的方式是一种 自我实现的预言——因出名而出名。这些人展现出了名望赋予他们的强大万 有引力:他们吸引我们的地方,不仅仅是他们的成就,还有他们的名人身份。
人们虽对名望
可视化未来 数据透视下的人文大趋势 [UNCHARTED:Big Data as a Lens on Human Culture] 电子书 下载 mobi epub pdf txt
可视化未来 数据透视下的人文大趋势 [UNCHARTED:Big Data as a Lens on Human Culture] pdf epub mobi txt 电子书 下载