智能时代我们向何处去
我读吴军老师《智能时代——5G、IoT 构建超级智能新机遇》后写给老婆的汇报清单
曲政 / 2020-05-18
序言
大数据与机器智能催生智能时代 - 邬贺铨
数据的定义。【与吴军老师在第一章中的说法不同。】
- 狭义:能输入计算机的符号介质。
- 广义:能表示和编码的信息和知识。
数据量与计算能力之比没有大变化:
- 从有计算机算起,数据平均每年增长 40%。
- 【摩尔定律相当于?】
科学研究发展的四个范式:
- 实验科学——【托勒密】
- 理论科学——牛顿
- 计算科学——【登月】
- 数据密集型科学——【AlphaGo】
大数据的应用来源于需求:
- 多维度、多变量的不确定性问题
- 没找到解析式关系
- 相关性也能推出发展轨迹
大数据的应用得益于技术:
- 互联网宽带化,移动互联网,物联网产生数据
- 摩尔定律支撑计算能力
- 云计算的集约化运用模式降低信息化成本
- 机器智能算法的发展
新时代特点:
- 计算无处不在
- 软件定义一切
- 数据驱动发展
吴军写书的特点:
- 历史的眼光
- 数学与物理功底
- 理念启迪思维
谁值得读?
- 信息技术行业的科技人员
- 其它行业关注信息化应用的科技人员和管理人员
智能时代,未来已来 - 李善友
吴军写书特点:
- 展现真知灼见和前瞻性
- 写科学的笔法生动,文字有温度
三条重要信息:
- “用不确定的眼光看待世界,再用信息来消除这种不确定性”,是大数据解决智能问题的本质。
- 每一次技术革命都围绕着一个核心技术展开。
- 归纳法的隐含假设是“未来将继续和过去一样”。
人类的胜利 - 吴军
机器智能的时间线:
- 1956 年十人提出“人工智能”的概念。
- 1997 年深蓝战胜卡斯帕罗夫。
- 2016 年 AlphaGo 战胜李世石。
- 围棋比国际象棋难 6~9 个数量级。
AlphaGo 成功的意义:
- 不只是又一个里程碑式的胜利,不仅是技术又上一个新台阶。
- 并非要证明计算机下棋比人强,而是开发一个通用的机器学习工具。
- 证明计算机可以解决更多的智能问题。
- 宣告了机器智能时代的到来。
机器智能在所有棋类中战胜人类只是时间问题。
- 人类智能线性增长。
- 机器智能指数增长。
- 李世石认为 AlphaGo 的水平与他相差 1~2 个子。
- 聂卫平和李开复不相信当时的计算机能赢。
- 2015 年底 AlphaGo 仅仅赢了樊麾二段。
- AlphaGo 胜了第三盘后,很多超一流棋手都渴望与它一战。
AlphaGo 的两个关键技术:
- 把棋盘上当前的状态变成一个获胜概率的数学模型。这个模型里没有任何人工规则,完全是数据训练出来的。【非人工标定法?】
- 启发式搜索算法——蒙特卡洛树搜索算法(Monte Carlo Tree Search)。它能将搜索空间限制在非常有限的范围内,保证计算机能快速找到好的下法。【这个我也学过?】
AlphaGo 是人类的胜利,因为:
- 是谷歌开发了 AlphaGo
- 最终目的是要开发一个机器学习工具,让计算机能够解决智能问题。
- 从樊麾到李世石,他们在用专才帮助谷歌测试机器智能的发展水平。
- AlphaGo 的胜利标志着人类在机器智能方面达到了一个崭新的水平。
面对 AlphaGo 的负面态度:
- 杞人忧天,担心机器在未来控制人类。
- 机器的灵魂是人写的程序,它背后的人才可能控制人类。
- 科技在人类进步中总是扮演着最活跃、最革命的角色,它的发展无法阻止。
- 未来的社会属于那些具有创意的人,而不属于掌握某种技能做重复性工作的人。
出这本书是希望让大家了解:
- 大数据的本质、作用及其与机器智能的关系;
- 机器智能的原理和发展历程;
- 它们对未来产业和社会的影响。
核心内容来自:
- 混沌大学的讲义
- 一些商学院的讲义
- 大量的案例和历史背景介绍
篇目结构:
- 第一篇(1~3 章):大数据和机器智能的原理和基础、机器智能的发展历程及其关键的深度学习技术。
- 第二篇(4~5 章):大数据所带来的思维革命。
- 第三篇(6~7 章):智能革命自身的挑战和机遇。
- 第四篇(8~9 章):智能革命对产业、社会以及对个人所带来的机会和冲击。
第一篇 人工智能的支柱
【引言一】
在这一篇,我们将用三章的篇幅回答这样一些问题:
- 什么是人工智能(或者说机器智能)?它是由谁最先提出的,又是如何一步步发展到今天的?
- 人工智能是否就是让计算机模仿人?如果不是,计算机获得智能的方式和人类又有何区别?
- 人工智能是如何产生的?为什么它在今天这个时间点爆发?支撑它的关键是什么?
【小结一】
通过对人工智能本质的分析以及对其发展历程的回顾,我们可以看出计算机获得智能的方式和人不一样。它并非通过模仿人的思维方式产生,而是建立在大数据、摩尔定律和数学模型基础之上,通过将过去需要由人类智力才能解决的可题变成计算问题,最后在效果上达到人的水平甚至超越人的水平。我们人类的智能活动,包括思考和推理,时常并不需要很多数据,也不需要大脑有很强的计算能力,甚至不需要像计算机那样消耗较高的能量。因此,直到今天,人的智能和机器智能还是各有擅长、各有干秋,全面比较二者孰优孰劣其实没有意义。但是,我们必须看到,人类的智力是有极限的,今天在很多方面人工智能已经超过了入类。这不仅是在下棋方面,也体现在人脸识別、医学影像识别等很多方面,关于这一点我们后面还会讲到。
在人工智能的发展过程中,人类是走了弯路的,主要是一开始对机器智能的本质理解得不清楚,试图通过简单地模仿人让计算机获得智能,这就如同早期研究飞行的人总免不了要让飞行器像鸟一样振动翅膀。因此,直到 20 世纪 60 年代末,人工智能的发展不仅很缓慢而且对今天人工智能的发展其实没有太直接的影响。人类找到人工 智能正确的发展道路是 20 世纪 70 年代之后,通过数据驱动的方法,人类逐步解决了不少带有智能性质的词题。但是,由于数据量有限计算能力不够,因此到了 90 年代,人工智能的发展又陷入第二个低谷。所幸的是,人类所选择的道路是正确的,因此当数据量和计算能力具备之后,人工智能显示出了巨大的生命力。可以讲,人工智能有了今天的成就,除了技术的成功之外,也是思维方式的胜利。因此在下一篇中,我们会重点讲述思维革命的重要性,以及大数据和人工智能的发展对我们思维方式的影响。大家会发现,在未来智能革命的时代,比掌握具体智能技术更重要的是改变思维方式。
人工智能发展到今天,它的作用已经被领域内外大多数人认可。但是人们对它也出现了另ー个方面的误判,就是过分夸大它的能力或者危害。实际上,人工智能依然处在技术革命的早期阶段,里面还有很多问题没有搞清楚。以深度学习为例,为什么当神经网络的层次不断加深之后,机器学习的效果就好,至今无人能解释清楚。这其实是个很基本的问题,但是依然没有答案。因此在人工智能领域,人类还有很长的路要走。
01 一切从数据开始
【引言 01】
如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力,那么数据则是我们正在经历的智能革命的核心动力。要了解人工智能,就要从数据说起。
【小结 01】
数据的范畴远比我们通常想象的要广得多。人类认识自然的过程、科学实践的过程,以及在经济、社会领域的行为,总是伴随着数据的使用。从某种程度上讲,获得和利用数据的水平反映出文明的水平。在电子计算机诞生、人类进入信息时代之后,数据的作用越来越明显,数据驱动方法开始被普遍采用。如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力,那么数据将成为下ー次技术革命和社会变革的核心动力。接下来,我们将在这样一个高度上来理解大数据,以及由它帯来的全球智能革命。
数据、信息和知识
数据的范畴比数字要大得多,它是随着文明的进程不断变化和扩大的:
- 互联网上的任何内容:文字、图片和视频
- 医院里包括医学影像在内的所有档案
- 公司和工厂里的设计图纸
- 出土文物上的文字、图示,甚至它们的尺寸、材料
- 宇宙的基本粒子数量
- 一般书籍上的文字
- 信件、电话、电子邮件
- 电视和广播
- 社交产品中用户产生的内容(UGC)
- 专门针对语音和文字的数据库——语料库 ( Corpus )
- 玩游戏的行为
- 人的社会关系
- 人每天的活动
信息是关于世界、人和事的描述,它比数据来得抽象。
- 两人语音通话记录
- 地球的面积和质量
- 宇宙大爆炸时留下的证据——3K 背景辐射
- 物理定律中的参数
- 日月星辰运行的周期
虽然数据最大的作用在于承载信息,但并非所有的数据都承载了有意义的信息。
- 数据本身是人造物,可以随意制造,也可以伪造。
- 没有信息的数据没太大意义,人们也不关心。
- 伪造的数据有副作用:优化网页搜索排名而人为制造出来的各种作弊数据。
- 金字塔墓室尺寸是数据,考古学家由此知道古埃及懂得运用勾股数这个信息。
- 从数据中获得有用信息的能力是人类特有的本事。
知识有系统性的特征,它比信息更高一个层次,更加抽象。
- 测量星球的位置和对应的时间,是数据。
- 通过数据得到星球的运行轨迹,是信息。
- 通过信息总结出开普勒三定律,是知识。
- 用知识改变生活和世界,是进步。
数据的作用:文明的基石
数据是文明的基石。
- 从观察中总结出数据,是人和动物的重要区别。
- 得到数据和使用数据的能力,是衡量文明发展水平的标准之一。
- 使用数据的标准流程:获取数据 - 分析数据 - 建立模型 - 预测未知。
- 尼罗河畔的闪米特人依据太阳与天狼星同时出现的位置,,有长达 365 x 4 + 1 = 1461 天的季度,能判断农耕的时间和节气。
- 苏美尔人观测到行星的波浪运动,金星大约每四年在天上画一个五角星,能预测日食和月食。
托勒密的伟大之处在于用小圆套大圆的方法,精确地计算出了所有行星运动的轨迹。
-
他继承毕达哥拉斯,也认为圆是最完美的几何图形。
-
喜帕恰斯为他留下了很多观测数据,至少有一百年。
-
他用 3 种尺寸的圆互相嵌套:本轮、偏心轮和均轮。
-
五大行星的轨迹无法用一组圆来统一描述,多达 40~60 个。
-
即使在今天,用计算机也很难解出 40 个套在一起的圆的方程。
-
他模型精度之高,令后来所有科学家惊叹不已。
-
他制定出关于日月星辰位置的《实用天文表》与当时的儒略历相吻合,人们据此决定农时。
1582 年,教皇格列高利十三世利用上千的历史数据凑出了准确的历法:
- 他在日历上取消 10 天;
- 将每一世纪最后一年的闰年改为平年;
- 每 400 年再插回一个闰年。
哥白尼的日心说不能让人心服口服地接受。
- 他也认为天体运行规律必须符合毕达哥拉斯的思想。
- 他的日心说模型只需要 8~10 个圆就能算出一个行星的轨迹。
- 他缺乏数据,模型误差比托勒密的模型误差大不少。
- 开普勒从老师那是继承大量数据,修正轨道为椭圆。
- 牛顿说清楚了行星为什么走椭圆,还把椭圆焦点修正为太阳系的质心。
在过去,数据的作用常常被人们忽视,因为两点:
- 数据的量不足,积累数据要大量时间,短期内数据的作用不明显。
- 数据与信息的联系常常是间接的,要通过不同数据之间的相关性才能体现出来。
相关性:使用数据的钥匙
相关性是让数据发挥出作用的魔棒,讲两个例子:
- 日本投标大庆石油设备,看王进喜的照片,猜油田位置和油井直径。
- 吴军问面试他的数学博士阿米特·帕特尔在谷歌做什么,他的工作后来形成产品谷歌趋势 ( Google Trends ),更有效、更及时地追踪了 2009 年 H1N1 禽流感病毒在美国的传播。
统计学:点石成金的魔棒
统计学(数理统计)
- 是建立在概率论基础上收集、处理和分析数据,
- 找到数据内在的相关性和规律性的学科。
- 很多研究纯数学的数学家都不把概率论当作数学,而是将它看成一门独立的学科。
统计学中数据采集的两个要点:量和质。
- 样本量不充分,统计数字毫无意义。比如电影院观众的年龄分布。
- 使用的统计数据必须与想统计的目标相一致。比如盖洛普 1936 年胜过《文学文摘》。
样本设计很难,尤其没人敢说“好了”。
- 盖洛普成功预测了 1940 和 1944 两次大选,但 1948 年误认为杜威会赢,坑死了蒋介石。
- 虽然盖洛普公司考虑了选民的收入、性别、种族和年龄的因素,但是有非常多的其他因素,以及这些因素的组合它没有考虑。
数学模型:数据驱动方法的基础
【估计是否可信(多大样本量),可信到什么程度(误差)】,从数学上有切比雪夫不等式保证:当观察到的数据足够多了以后,随机性和噪声的影响可以忽略不计【可以无限小】: $$ P(|X-E(X)| \geqslant \varepsilon)<\frac{\sigma^{2}}{n \varepsilon^{2}} $$ 大多数复杂的应用不是计算统计概率的加减乘除,而是要建立数学模型,以便在实际中使用。建立数学模型要解决两个问题:
- 采用什么样的模型。过去学者努力多在此处,比如行星轨道是圆还是椭圆。
- 模型的参数是多少。这一点的被重视程度过去远不如找模型,今天有了新称呼:机器学习。
只要有代表性的数据足够多,简单模型的叠加在误差允许的范围内与完美模型(如果有的话)等效,这种方法被称为“数据驱动方法”。
- 数据有代表性,书上就一句话,生活中非常难。
- 托勒密的地心模型是牛顿的日心模型的逼近。
- 它不仅仅是经验论,从数学原理上讲有严格保障,类似于切比雪夫定理。
- 设计飞机、航天器和其它武器,俄国人数学功底好,美国人有计算机和更多的数据。
- 制造精密光学仪器,德国有技工能加工非球面透镜,日本用多个球面透镜。
- 用计算量和数据量来换取研究的时间。
- 一开始受限于计算能力和数据量显得粗糙,后来受益于计算能力和数据量的指数级速度递增。
- 计算机越来越聪明,并非人类对特定问题的认识有多大提高。
02 大数据和机器智能
【引言 02】
如同飞机不是飞得更高的鸟儿一样,人工智能也并不是更聪明的人。在大数据出现之前,计算机并不擅长解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的轮技术革命一智能革命。
【小结 02】
我们对大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策的支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。而机器一旦产生和人类类似的智能就将对人类社会产生重大的影响。毫不夸张地讲,决定今后 20 年经济发展的是大数据和由之而来的智能革命。
获得了大量的、具有代表性的数据有什么好处?
- 把一些模型描述得更准确。
- 对一些规律认识得更深刻。
- 让计算机完成一些过去只有人才能做到的事情。
智能革命:
- 一场由大数据带来的技术革命
- 典型特征是计算机智能水平的提高
- 当计算机的智能水平在某些领域赶上甚至超过人类,社会就要发生天翻地覆的变化
什么是机器智能
可以编程计算的机器,还谈不上智能:
- 美索不达米亚人
- 希腊人
- 发明算盘的中国人
- 帕斯卡
- 莱布尼茨
- 巴贝奇
- 楚泽 Z3 继电器,每秒 5~10 次
- 1946 年 ENIAC 电子管,每秒 5000 次,快于人脑,发生质变
图录测试,五个事情之一件就够,现在五件事都能做到:
- 语音识别。
- 机器翻译。
- 文本的自动摘要或者写作。
- 战胜人类的国际象棋冠军。【超额完成】
- 自动回答问题。
鸟飞派:人工智能 1.0
1956 年达特茅斯夏季人工智能研究会议,十个人除了香农都在三十以下,后来出了四位图灵奖获得者。
- 10 个一流的大脑的思考还比不上今天一位一流的博士毕业生。
- 提出的问题意义重大,超过 10 个图灵奖。
人工智能有两个定义:
- 泛指机器智能
- 狭义上特指五六十年代“好的老式的人工智能”
- 尽可能使用机器智能来表示广义上人工智能的概念
- 为与当下保持一致,有时会把人工智能与机器智能作为同义词
- 特指时,强调“早期的”“传统的”,或者说成人工智能 1.0
1968 年,明斯基在书里讲人工智能的局限:
- 语法分析和语意
- 常识或者说关于世界的知识 ( world knowledge )
另辟蹊径的数据驱动
贾里尼克是通信和信息论专家,从来不是人工智能专家。
- 贾里尼克 1972 年 40 岁,从康奈尔大学到 IBM 做学术休假。
- 大脑是信息源,编码
- 媒介是信道
- 耳朵是接收器
- 两个马尔可夫模型分别表示信息源和信道
- 数字通信采用什么特征
- IBM 有电传文本
- 白雪公主的计算能力(和七个小矮人)
- 李开复和洪小文的 Sphinx 做连续语音识别,领先于 IBM
数据从量变到质变
2005 年是大数据元年,奥科赢了 NIST 的 BLEU ( blingual evaluation understudy )
- 上万倍的数据
- 六元模型
大数据的特征
体量大,但要具有统计意义
- 人的全基因数据在上百 GB 到 TB 之间
- 记录全世界 70 亿人出生日期
70 亿人的生日
多维度
- 百度知道《中国十大“吃货”省市排行榜》
- 传统民调难追加维度
完备性/全面性
- 奥科不学语法,直接对译句子。
- 2012 年西尔弗成功预测 10 个摇摆州的结果
- 2016 年 Facebook 让自己显得中立
- 自动回答一两种复杂问题,局部完备的数据
及时性
- 城市交通管理中心
- 智能手机中的地图服务
怎么表达“大”
- large scaled, vast data, large amount
- large table - big size, big table - not small
- big data: 一种思维方式的改变
变智能问题为数据问题
IBM 的“深蓝”对弈卡斯帕罗夫
- 1996 年输了,只看过卡的数据
- 1997 年赢了,又用了上百位国际大师的数据
七类问题中的 why 和 how 是复杂问题
- 很多这类问题在前十个网页中有答案,但从机器摘要中看不出来。
- 目标限定在只回答网页中有答案的复杂问题,谷歌就有局部完备性。
03 深度学习与尔定律
【引言 03】
让计算机能够产生智能的三个要素是数据、数学模型和硬件基础,所以有了海量数据,就需要解决如何建立数学模型和硬件基础是否可以承载的问题。这就不得不讲讲今天大热的深度学习,以及在过去半个多世纪里,让计算机处理器的性能增长了上亿倍的摩尔定律。
【小结 03】
今天人工智能的成就,在一定程度上和我们实现了深度学习这个算法工具有关,而它能够得以实现,在很大程度上则要感谢摩尔定律。虽然最近几年集成电路的绝对性能很难再按照摩尔定律所预测的速率增长,但是单位能耗的性能依然在快速提高。
深度神经网络(深度学习)是当今人工智能领域最热门的数学模型
- 2018 年图灵奖授予本吉奥、辛顿和杨立昆
- 第三次不单人
- 深度学习不只是一个人的贡献
什么是机器学习
有确定的数学模型的问题。
- 长程火炮弹道
- 日食、月食出现的时间和地点
- 公式用计算机的语言写一遍,代入参数
更多的问题解决方法不确定。
- 即使有相应的数学模型,但参数不知道:语音识别、人脸识别和机器翻译
- 机器学习就是从数据中自己学习得到相应的参数
机器学习与人类学习有两点相似之处:
- 得知道什么时候算是学好了,考试,期望值最大化
- 学习效果取决于
- 学习的深度,更多、更难的概念。
- 学习时使用的数据量,习题做得多。
- 数据的质量,与考试相关的题目
数据又好又多又能迭代很多次,工程上做不到。
- 难免混入噪音
- 人工滤除噪音成本很高
- AlphaGo 没法判断臭棋,后来自己生成数据
- 计算复杂度太高
- 数据增加,计算时间剧增
- 计算能力限制
- 没有合适的并行计算工具
两种机器学习方案
- 浅层的机器学习
- 简单的模型,大量的数据,较少迭代,得到较粗糙的模型
- 奥科的六元模型
- 深层的机器学习
- 复杂的模型,少量的数据,多次迭代,得到准确的小模型
- 精耕细作
深度学习与谷歌大脑
机器学习根据数学模型的特点可以分为两类:
- 大概知道模型的形式,用机器学习算参数(训练)
- 托勒密的地心说、哥白尼的日心说、开普勒的日心说
- 人肉机器学习
- 概率统计中经常使用
- 根本不知道模型的样子,只能设计一些简单的、通用性强的模型结构,然后用大量的数据训练,训练成什么样就是什么样
- 模型就是墨盒子,即使有效,也不清楚里面是什么。
- 深度学习是这种方法之一。
深度学习源于早期的人工神经网络。
- ANN aritificial neural network 与人的脑神经没有关系,它只是一个特殊的分类器。
- 很多看似人工智能的问题都可以变为分类问题。
- 1956 年就实现了算法
- 三从将概率论和其它机器学习算法引入人工神经网络,改进了技术,扩展了应用范围
- 2008 年后,云计算为非常大规模、网络层次非常深的人工神经网络创造了条件
- 人工神经网络和连接主义的名声不好,所以换了一个说法,叫 DNN 深度神经网络
2010 谷歌推出名为谷歌大脑的深度学习通用工具,理论上没有突破,学术界和工业界却欢呼。
- 找到了一种方法,将大型模型上百万参数同时训练的问题,简化为能分布到上万台服务器上的小问题。
- 找到了一些对大型模型并行训练收效比较快的训练算法。
- 让人工神经网络解决了很多真实的智能问题。
- 证明了深度学习所能带来的奇迹。
谷歌大脑为什么用几十年没有大变化的人工神经网络作为机器学习的算法?
- 直觉上,不断改进的算法,才是好的,应该采用。
- 工程上,通用问题工具实现起来工作量巨大,稳定的算法能用更长的时间,比如专用处理器 TPU。
- 总体上,大部分机器学习算法是等价的,只有量的差别,没有质的差别。
- 谷歌把它作为推广云计算业务的撒手锏。
特定领域的人工智能问题,还得由公司利用大公司的基础工具分头解决。
- 谷歌大脑只是一个非常基础的、通用的机器学习工具。后续出现了很多类似的深度学习工具。
- 在具体的应用中,需要将特殊的问题变成可以使用这个工具来计算的问题,这是利用工具进行二次开发的过程。
- 2012 年,谷歌以 5 亿美元收购只有 100 人左右的 DeepMind 公司,核心技术是通用的机器学习算法。
摩尔定律的馈赠
人工神经网络前 50 年不成,除了算法不完善,还因为硬件跟不上。
- AlphaGo 对战李世石用了 1920 个 CPU ( 每秒 5000~7000 亿次浮点运算),280 个 GPU ( 每秒 70000 亿次运算)。
- 1965 年摩尔提出集成电路的能力将会按照每 18 个月翻一翻的速度发展。
今天集成电路中晶体管的密度已经接近了物理定律的极限。
- 不可能像过去一样简单提高处理器的绝对性能,半导体人士认为摩尔定律不再成立。
- 深度学习相关的计算都比较单一,可以设计专用的芯片,提高单位能耗的计算能力,这是半导体行业一个努力的方向。
- 英伟达的 GPU 适合从事简单运算,效率比 CPU 高两个数量级以上。
- 谷歌的 TPU 号称比 GPU 效率又高两个数量级。
第二篇 思维的革命和商业的变革
【引言二】
在第一篇,我们分析了大数据和机器智能的原理和基础。在本篇,我们从另一个维度来看大数据和智能革命对当下和未来商业以及生活的影响。在历史上,重大的变革都和思维的革命相伴随,从人的角度看,改变思维的人获胜;从商业的角度看,改变商业模式的企业获胜。智能革命也是如此,它正在潜移默化地改变着人们的思维方式和做事方法,而我们除了在思维上跟上时代的步伐,别无他法。
【小结二】
历次工业革命之所以能够对社会产生重大而且不可逆转的改变,除了技术提升了生产力,让产业和商业跳跃性发展之外,更重要的是引发了思维的革命。思维方式的好与坏、先进与落后,决定了一个人能否利用得好技术革命的成就,使自己成为时代的主人。
从科学启蒙时代到 20 世纪初,在科学、技术和工商业上取得重大成就的人,在很大程度上都相信机械论的确定性,并且有信心通过理性发现新知,发明新产品,并且改进工业生产。不接受这种思维,依然依靠经验论做事情的人,因为进步的速度慢,就会被淘汰。当然,通过笛卡儿所谓的理性得到
了【的】规律性是很容昜解释的。到了第二次世界大战之后,信息在科技、经济以及社会生活中的地位变得越来越重要。到了 21 世纪,大数据的出现使我们有可能再次通过经验发现真知,并且总结出暂时无法解释的规律性。我们在这一篇中举了很多有了可以相信的结论却找不出原因的例子,这些看似难以解释的结论,直接使用后,会给我们带来极大的益处。因此在大数据时代,我们的思维也应该做相应的改变,否则就难以适应当下的社会。
04 思维的革命
【引言 04】
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到想知道的答案,这便是大数据思维的核心。
【小结 04】
很多时候,落后与先进的差距,不是购买一些机器或者引进技术就能够弥补,落后最可怕的地方是思维方式的落后。西方在近代走在了世界前列,很大程度上靠的是思维方式的全面领先。【跟先进的人学硬知识和实用技术,更要体会软方法和上层思维,不要让双方总觉得 隔着一层。】
机械思维曾经是改变了人类工作方式的革命性的方法论,并且在工业革命和后来全球工业化的过程中起到了决定性的作用。今天它在很多地方依然能指导我们的行动。如果我们能够找到确定性(或者可预测性)和因果关系,这依然是最好的结果。但是,今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了。不确定性,或者说难以找到确定性,是今天社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到想知道的答案,这便是大数据思维的核心。大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。新的时代一定需要新的方法论,也一定会产生新的方法论。
为什么讲技术的同时要讲思维方式?
在人类历史上,科学和技术的革命是和思维的革命相伴随的。在任何时刻,特别是在变革之中,掌握最先进的思维方式的的最能适应社会的发展,也最能把握发展的机会。
为什么要回顾革命历史?
如果我们要想在“道”的层面了解大数据,了解我们这个时代必须具备的思维方式,就不能将自己的追求仅仅停留在“术”的层面。我们需要了解人类认识世界方法的演变和发展的过程。
从科学意义上讲,人类有两次思维方式的飞跃:
- 17 世纪到 18 世纪初,确立机械思维。
- 20 世纪上半叶,认识不确定性,科学基础是量子力学、信息论和控制论。
思维方式决定科学成就
机械思维的形成可以追溯到古希腊。
- 思辨思想和逻辑推理。
- 实践中总结出最基本的公理,然后通过因果逻辑构建起整个大厦。
欧几里得最大的成就不是发现定理,而是在人类所积累起来的几何学和数学知识的基础上,创立了基于公理化体系的几何学。
- 简单得不能再简单的
- 相互独立的
- 《几何原本》是对世界影响最大的一本书
- 为数学和自然科学的发展奠定了基础
- 罗马法建立在类似的公理化体系上
托勒密的贡献:
- 建立地心说
- 发明球坐标
- 定义经纬线
- 提出黄道
- 发明了弧度制
托勒密的方法论:“通过观察获得数学模型的雏形,然后利用数据来细化模型。”
- 元模型 meta model
- 哥白尼与伽利略也是这个模型
- 伽利略发现木星的 4 颗卫星,才真正让人们相信日心说
- 虽然朴素,但是管用,现在的经济学研究还是这个套路
- 两大缺陷:整体模型很复杂,假设它确定和固定不变。
笛卡尔总结了现代医学的奠基人哈维的工作,提出了科学的方法论:大胆假设,小心求证。
牛顿被有些历史学家认为是人类历史上具有影响力的第二大人物。
- 在数学、物理、天文和光学等诸多领域开创性的成绩。
- 总结出一种全新的方法论。
- 用简单而优美的数学公式破解了自然的秘密。
- 用力学三定律和万有引力定律破解了宇宙中万物运动的规律
- 用微积分的概念把数学从静止的变量拓展为连续变化的函数
- 让人们相信:世界万物是运动的,这些运动遵循着确定性的规律,这些规律又是可以被认识的。
- 告诉人们:任何正确的理论从形式上讲都是简单的,从适用范围上讲是通用的、无条件的。
从欧几里得到托勒密再到牛顿,在思想方法上可以说而又不断发展的。
- 牛顿不仅把欧几里得通过逻辑推理建立系的方法论从数学扩展到自然科学领域,
- 把托勒密用机描述天体的规律,扩展到对世界任何规律的描述。
- 通过微积分这个工具动态地看待问题,而此前人们是孤立、静态地看题。
如果我们用几句话把机械思维加以概括,其核心思想如下:
- 第一,世界是连续变化的,而各种变化的规律是确定的。
- 第二,因为有确定性做保障,因此规律不仅是可以认识的,而且可以用简单的公式或者语言描述清楚。在牛顿之前,大部分人并不认可这一点,而是简单地把规律归结为神的作用。
- 第三,这些规律应该是放之四海而皆准的,可以应用到任何未知领域指导实践,这种认识是在牛顿之后才有的。
工业革命:机械思维的结果
牛顿找到了开启工业革命大门的钥匙,瓦特拿着这把钥匙开启了工业革命的大门。
机械的广泛使用和机械的思维方式直接导致了人类迄今为止最伟大的事件——工业革命。
- 火车
- 转轮打字机
- 轧棉机
- 蒸汽船
- 机械表
- 差分机
- 可编程的 Z1
机械思维更广泛的影响力是作为一种准则指导人们的行为。
- 其核心思想可以概括成确定性(或者可预测性)和因果关系。
- 牛顿和爱因斯坦都相信世界有确定的规律,可以也应该找到背后的因果关系。
- 青霉素和其它抗生素的发明,实际上遵循了“分析找到原因,根据原因得到结果”的思维方式。
- 传统医学常常不知其所以然,治病的效果时好时坏,医生用一种似是而非的语言解释他们其实没有搞清楚的原因。
- 机械思维的局限性更多来源于它否认不确定性和不可知性。
世界的不确定性
影响世界的变量其实非常多,人为地把它们归为不确定一类,用针对随机事件的方法来处理它们。
- 掷色子
- 股市
- 经济
客观世界本身
- 电子云,密度模型
熵:一种新的世界观
数据量有些时候可能和信息量有点关系,但是两者不能划等号。
香农的智慧动作:
- 借用熵的概念,描述一个信息系统的不确定性,接下来指出,信息量与不确定性有关。这样他就把熵和不确定性联系起来了。
- 网页展示广告每 1000 次展示的收益是 0.5 美元,谷歌搜索广告是 50 美元。
- 信息时代的特点:谁掌握了信息,谁就有可能获得财富,就如同在工业时代,谁掌握了资本谁就能获取财富一样。
- 信息时代的方法论:量化地善用信息才能做到这一点。
- 互信息,对相关性的量化度量。
- 香农第一、第二定律
最大熵原理
- 满足所有已经见到的数据,但对未知情况不做任何主观假设。
- 不同于“大胆假设,小心求证”的方法论。
- 熵,成了信息论和不确定性的代名词,它代表了人类对我们这个世界认知度的最高境界。
用大数据消除不确定性
数据的量的重要性体现在两个方面:
- 数据量不大,信息量不可能大,不足以消除不确定性,数据这一因素的作用有限,容易被忽视。
- 数据量不大,随机性和噪声使得信息的置信度不高。
- 由于数据量很重要,因此在先攒下足够数据的领域,成就更容易看得到。
数据的维度的重要性也体现在两个方面:
- 互信息:为了获得相关性
- 交叉验证:相关性大也不确定,加更多也能验证的信息
完备性的重要:
- 交叉熵:库尔贝克-莱布勒散度 ( Kullback - Leibler Divergence ),反映两个信息源之间的一致性,或两种概率模型之间的一致性。
- 所有采用数据驱动的方法,建立模型所使用的数据和使用模型的数据之间需要有一致性,也就是盖洛普说的代表性。
- 在过去,任何基于概率统计的模型都会有很多小概率事件覆盖不到,这在过去被认为是数据驱动方法的死穴。这些漏网的情况反应到交叉熵时,它的值会达到无穷大。
- 在大数据时代,在某个领域获得数据的完备性还是可能的,比如全国人的面孔。训练数据和使用数据的集合是同一个集合或高度重复,它们的交叉熵等于零。
大数据的科学基础是信息论,它的本质是利用信息消除不确定性。
从因果关系到强相关关系
过去我们非常强调因果关系
- 一方面我们觉得常常是先有原因,后有结果;
- 另一方面是如果没有找到原因,我们常常觉得结果不是非常可信。
- 过去的制药业就是这样。
- 现大用 5000 种被批准的处方药,对应 1 万种人类可能得的病,只需花费 3 年时间 1 亿美元。
找不出原因的答案,敢不敢接受,如果愿意,说明已经跳出了机械时代单纯追求因果关系的做法,开始具有大数据思维了。
- 吸烟有害健康,统计上讲不是随机偶然,存在必然的联系,但没有直接证据,借助排除先天后天因素的足够多的可对比样本,用强相关性证据,1997 年烟草公司与各州达成合解,同意赔偿 3655 亿美元。
- 谷歌的 AdSence for Content 服务,发现一些意想不到的搭配,用了这种强相关性,广告效果就好。
数据公司谷歌
谷歌看似是高科技公司,不断开发新产品,但它本质上是一家数据公司。
- 诺威格负责吴军所在的搜索质量部门,他 2001 年加入谷歌,因为“全世界的数据都在谷歌那里”。
- 从每年 3 ~ 5% 的提升,到每年 1% 都不到,搜索质量的算法接近完美了。
- 所有数据特征中,与搜索质量相关性最大的是点击数据。
- 用相关性取代因果关系,有两个风险:马太效应和被人恶意操纵
- 点击模型在搜索排序中的权重在 60% 以上,因果没有相关性重要了。
外人看来,互联网公司竞争的是技术,但更准确地讲,他们是在数据层面竞争。
- 搜狗不如百度在长尾搜索上,搜狗输入法搜集用户行为。
- 微软浏览器和搜索条读取用户在谷歌的搜索内容和点击数据。
- 谷歌至少有 30% ~ 40% 工程师每天的工作就是处理数据。
谷歌的关键词广告系统 ( AdWords ) 不仅是互联网世界最赚钱的产品,对广告商来讲也是效果最好的平台。
- 广告主的出价
- 广告与搜索结果是否相关
- 广告本身的质量
- 历史上用户点击这个广告的比例
- 这样广告主省钱,谷歌赚钱,用户体验好。
05 大数据思维与商业
【引言 05】
今天,大部分人工智能的应用,采用的都是谷歌开源的代码。在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。而大家要做的事情,就是思考如何利用大数据和智能工具,解决好自己的实际问题。
【小结 05】
从工业革命开始,几次主要的技术革命都遵循相似的规律。首先,大部分现有产业加上新技术等于新产业,或者说,原有产业需要以新的形态出现。其次,并非每一家公司都要从事新技术本身的开发,更多时候它们是利用新技术改造原有产业。这次以大数据为核心的智能革命也不例外,我们将看到它依然会延续这两个特点。每次技术革命都会诞生新的思维方式和商业模式,企业只有在思维上跟上新的时代才能在未来的商业中立于不败之地。
难题,梦想,更有效的商业环境,更加现代化的社会。
利用大数据从乱象中找规律
智能电表的用模式,抓私宅种大麻。
同类企业营业额,抓小企业偷漏税。
沪深交易所监管异常行为,抓老鼠仓。
Target 知道谁怀孕了,有刚需。
相关性、时效性和个性化
亚马逊相对沃尔玛等企业有三个明显的优势:
- 交易数据被即时而完整地记录下来,随时可以用。
- 拥有顾客全面的信息。
- 任何市场策略都能马上实现。
亚马逊和阿里巴巴通过个性化的推荐和时效性促销,让顾客产生购买欲望。
- 除了少量的生活必须品,大部分人逛店没有明确的目标。
- 个性化推荐,为亚马逊提供了 1/3 的销售额。
- 亚马逊初期将顾客聚类,效果很不好,现在能 item to item。
奈飞的给客户个性化推荐,用户量 2008 年起剧增。
- 用户不知道除了那些经典,还想看什么。
- 大家认为好的,不一定适合我。
- 根据用户反馈,及时调整给他的推荐策略。
谷歌 2005 年才允许尝试给用户提示相关搜索。
- 原来认为这应该由用户自己决定,而不应由搜索引擎引导用户。
- 用户本能上享受这种服务
- 公司获得巨大的竞争优势
- 安卓手机上使用最多的一个功能 Google Now 就是基于无关键词搜索技术。
被出让的决策权
滴滴不给司机和用户互相选择的权利。
- 最多的匹配,公司收益大。
- 消除选择困难症。
- 避免不必要的纠纷。
- 竞争早已落幕:既然已经身处智能时代,就要接受新时代的做事方法。
今日头条通过用户的历史数据和协同过滤 ( collaborative filtering ) 向手机用户推送每天的阅读内容。
- 只用历史数据,容易走入机器学习的死胡同。
- 它掌握的数据维度非常多,可能找到行为和偏好类似的人,将缺失的信息补回来。
- 不再使用人工编辑,选择的标准也不再是传统媒体教授的。
- 人们将阅读的选择权交给了它,还很享受。
- 它替我们建立了隐含的朋友圈,无形中影响各自的行为。
商业的底层尽在数据流中
在大数据的商业应用中,数据通常要完成两个方向的流动:细节到整体,再从整体到细节。
- 过去基于统计的方法做到从枝末到整体,基本就结束了。
- 数据再应用于每一个具体的操作(每一次交易,每一次展示)。
数据如百川入海般汇聚到一起。
- 生成时彼此孤立。
- 事先与服务的提供者没有沟通和商量。
- 使用者根据自己的需要作筛选、过滤和处理,但不能事先进行主观的假设,从数据中得出什么结论就是什么结论。
把控每一个细节
利用大数据改进传统的酒吧行业。
- RFID 装在瓶子下面
- 全面了解经营情况
- 对异常情况作预警
- 给出行业宏观数据
金风公司变一次性买卖为细水长流的生意。
- 海外市场里,中国企业只能拿到制造环节的收益,设计,销售和服务都拿不到。全世界各大汽车厂也要依赖代理商和汽车销售服务 4S 店。
- 利用互联网,将发电机的各种数据(位置、发电量、运行情况)收集到公司。
- 了解全球风能分布,有针对性地作市场推广。
- 了解日常运行的细节,及时发现和解决问题,改进也有了数据依据。
Afficient 将个性化教学落地。
- 方家元,加州大学教授,辅导自家孩子。
- 因材施教,不炒冷饭。
- 当场练习,及时发现难点,换一种讲法。
- 了解学生的学习能力和课外时间,完全由软件决定课程进度。
- 不存在学不懂的包袱,不是越学越难,一两个月后,反而加速了。
重新认识穷举法
2003 年,辛格和吴军等四人,找到了一种方法,对每一种关键词组合作专门处理,知道什么情况用词根和近义词按类别查找,什么情况必须按照关键词的原型搜索。
- 过去计算机学不会这种,只能 case by case。
- 谷歌的优势在于有数据和算力把每一种组合都事先试一遍。
- 遇到新的关键词,谷歌第一次的反应不会太好,他要离线做一遍,你第二次来就改善了。
谷歌的无从驾驶汽车 2004 ~ 2010 从 0 到 99%,2016 年到 99.99% 年,后两个 9,一方面靠各种机器学习技术的提升,另一方面靠一个半数量级的数据和积累。可以说没有数据就没有智能。
- 已经成熟的街景项目的延伸。不是临时识别目标,事先处理好,调出来使用。
- 十多个传感器,眼观六路,耳听八方,与超级数据中心相连。
- 最好的全球地图数据,规避很多不必要的麻烦。
穷举法可以方便我们对特殊情况作特殊处理,
从历史看技术与产业
原有产业 + 新技术 = 新产业
- 瓷器,白色黄金 - 供大于求
- 纺织业,需要打开东方市场才能消化全部的产能
- 蒸汽轮船取代大帆船,火车取代马车,港口建设
- 晚清买来了技术,却没有推广机械思维。
- 很少专门造蒸汽机,只是拿来用
- 电梯,城市密度,地铁,城市宽度
- 化工产业
- 大众娱乐
- 只有通用电气和西屋电气
- 纳斯达克比纽交所方便
- 招商银行发展飞速
- 孟山都 2017 年收入 146 亿美元,利润 80 亿,农民不再为种子发愁,采用传统农产品种子的很难竞争
- 只有美国 Intel 的 x86 和英国 ARM 的 RISC 两个系列
技术改变商业模式
工业时代的商业模式,社会生活方式:
- 瓷器供大于求,展示店,高端产品专卖店的前身。
- 1851 年第一届世界博览会,英国展示它丰富的工业品,商品时代的传统。【现在已经是旅游业了?】
- 现代传媒和通信业,顺畅的信息沟通渠道。从口碑相传,实体店展示,到广告主动宣传,产生全球性品牌,逐渐垄断市场。
- 能买到东西,工厂不需要从零件开始做自己的产品,产业链开始形成,工业标准化成为必然。
- 工业化国家必须依靠消费拉动增长,社会的消费价值观开始发生变化。
信息时代:
- 产业链从一种产品扩展到整个 IT 产业,安迪-比尔定律。
- 服务业的重要性突显出来,IBM 转型。
大数据时代:
- IT 软件和服务业依然会是 IT 领域最好的行业,而且这个趋势将更加明显。
- 提供服务虽然不像销售产品一次能挣比较多的钱,但细水长流的技术服务最终会给这些服务的提供者带来更长久的生意、更多的利润。
历次技术革命的经验可见:
- 商业模式会变化,也会诞生新的模式。
- 需求拉动增长的模式不可逆转,单纯制造的行业越来越没有出路,提供服务者有主导权。
- 商业模式的变化既有继承,又有创新。
“+大数据”缔造新产业
【这一节我读了三四遍,想全文摘抄,但还是作提要吧。】
每一次技术革命,都会诞生很多新技术,在智能革命中也不例外。我们会不断看到这些新技术,但是具体的技术都只是在“术”这个层面的进步,而新的思维方式和做事方法,才是在“道”这个层面的智慧,它反映在技术和产业相结合的规律上。2015 年,“互联网+”是一个热门词。不过,我觉得用“+互联网”这个词更合适。类似地,对于大数据的应用,我们也可以像过去“+蒸汽机”、“+电气”那样,把它概括成“+大数据”。
制造业的厂商强推营销,最多算是锦上添花,但如果能比较准确地把握每一个用户、每一种产品和每一次使用的细节,给用户提供雪中送炭的服务,制造业就会得到全面的升级,同行之间比拼的不再是价格的高低、功能的多少,而是服务的好坏了。
- 金风公司主营业务转为发电设备的运营和服务。
- GE 给冰箱取水器换滤芯,两个滤芯的利润就抵得上一台冰箱本身的利润。
- Bevi 免费饮料机,每个月 300 美元使用费,是延伸到家庭中的销售平台,绕过中间环节,利润就有了保障。
2013 年 12 月 12 日中国经济年度人物,雷军同董明珠打赌。
- 2013 年小米年收入不到百亿,格力 1200 亿。
- 2018 年小米销售额 1750 亿,格力接近 2000 亿。
- 小米增长 20 倍,格力年均 60%。
- 单一产品的家电公司的黄金时代都不很长。
- 大家电是增量市场,成熟国家里销量非常稳定;而手机每年换一个。
- 通过专利建立壁垒是工业时代最有效的思维方式,在互联网时代以及当今的智能时代却不是那么有效。错误地以为多几千个专利就能弥补商业模式和做事方法论上的缺失,那是在和时代过不去。
占据每个家庭的客厅和卧室,成为微软、谷歌和亚马逊这一代又一代 IT 企业和互联网公司的梦想。
- 早期微软通过游戏机和娱乐中心进入家庭。
- 2010 年谷歌推出 Google TV。2014 年收购 Nest。Google Home 全球市场占有率第一。
- 亚马逊用 echo 进入家庭,背后是 Alexa。
- 苹果 2019 年宣布往服务方向转型。
第三篇 智能技术的挑战与机遇
【引言三】
既然人工智能的支柱是摩尔定律、大数据和数学型,那么它的关键技术和未来的技术挑战也必然这些领域相关联。大数据和人工智能还让一些人和机构获得了前所未有的调动资源和把控社会的能力,过分的资源集中也面临着隐含的巨大风险。如何约束这种能力,同时规避风险,在技术上给人类提出了挑战。
【小结三】
今天最热门的几个领域的技术人工智能、oT、5G6 通信和区块链,它们的发现都不是独立的,而是相互影响、相互促进的。它们会共同把我们领入超级智能时代。
在这样超级智能时代,我们将获得空前的便利性和人身的安全感,各种商业活动会得到很好的保证,隐私和信息安全问题可能得到解决。更重要的是,我们也可以更好地了解自己。
当然,实现这样的超级智能时代在技术上还有挑战,但是任何不足和缺陷也是机遇。任何人如果能够在上面提到的技术中有所突破就站在了超级智能时代的制高点。
06 技术的挑战
【引言 06】
大数据和传统的数据方法是不同的,使用好大数据对相应的技术提出了新的挑战。人工智能目前的成就主要来自大数据、硬件性能和算法(数学模型)的平衡。当数据量还在激增,摩尔定律快要遇到瓶颈时,便到了我们必须迎接挑战的时候。而当新的需求出现时,又会遇到原先想不到的技术挑战。
【小结 06】
大数据在今天这个时间点爆发,是各种技术条件具备的结果。但是,要让大数据真正发挥巨大作用,让计算机变得更聪明,还有很多技术挑战需要应对。
大数据的数据量大、维度多、数据完备等特点,使它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。因此,使用好大数据也需要在技术和工程上采用与过去不同的方法尤其是要改变我们过去的很多思维定式。大数据和机器智能的发展和应用过程,还会带来很多新的技术挑战,需要解决很多技术上的难题,比如对数据安全的考虑、对隐私保护的考虑等。有些问题虽然在大数据时代之前并不重要,但是今天(大数据时代)它们变得非常突出而且敏感,让我们不得不认真考虑。
我们已经向大家展示了大数据能给我们带来的诸多好处,但是这些好处的获得需要有扎实的技术和工程基础做保障。在今后,任何能够提供某些大数据关键技术的公司和个人,在未来的智能革命中,都将有大展宏图的机会。
技术的拐点
数据的产生
数据的存储
数据的传输
数据的处理
数据的收集和选取
数据的压缩和表示
并行计算和实时处理
机器学习的解释和评估
数据安全
保护隐私
07 迈向超级智能
【引言 07】
未来的社会将是一个超级智能的有机体。如果我们把它对应于人,那么人工智能是大脑,IoT 是神经系统。IoT 中数量巨大的传感器和设备扮演着众多感官细胞的角色,而正在发展起来的 5G 移动通信网络则相当于周围神经。区块链也是这个超级智能有机体不可或缺的部分,它扮演着承载生物信号的角色。
【小结 07】
IoT 和 5G 相互依赖,可以讲,它们是同一件事的两个側面,就如同光的波粒二象性一样。从计算机互联网的角度看,一方面,IoT代表了第三代互联网,它有很大的商业潜力,但是绝大部分功能的实现离不开 5G 通信。另一方面,也正是由于 oT 等需求的产生,才使 5G 变得必要。当 IoT 和 5G 与机器智能紧密结合后,整个社会的智能水平将达到前所未有的高度,这将是我们所说的超级智能时代。
“移动互联网+传感器”催生 IoT
IoT 是第三代互联网
5G 不只是比 4G 多 1G
区块链≠虚拟货币
超级智能时代
第四篇 智能时代与我们
【引言四】
智能时代将是人类最好的时代,也会是充满危机的时代。一切皆有可能,一切皆是未知。但是,对每一个人来讲,未来的命运可能完全不同。从 18 世纪末开始,在历次工业革命的初期,只有很少ー部分人能够享受到工业革命所带来的巨大红利。他们常常是发明家、投资人,以及最早使用新技术来改造现有产业的人。对于很多人来讲,可能需要一两代人的时间才能消除技术革命所带来的负面影响。而未来的时代只属于敢于拥抱时代的人。
【小结四】
未来的社会一定会受益于智能革命的各种成就,因此我们即将进入新的时代,也就是我们门书名所说的“智能时代”。在这个新的时代,每一个人都会在一定程度上享受到技术进步所带来的成就。比如在 20 世纪 80 年代大家遥不可及的手机,今天成为每一个人的标配。从这个角度讲,未来的社会将是人类历史上最好的社会,财富剧增,物质生活丰富,寿命延长,同时生活方便,社会安全。
但是另一方面,不论我们自己是否从事和人工智能或者大数据相关的行业,都会因为人工智能社会的重塑而受到影响。绝大部分产业都会有不同程度的改变,很多会以新的形态出现,少数会消失,但不论是哪一种,原有的职业技能和工作经验可能都派不上用场了。这样的结果必将是少数掌握新技术的人直接受益,而其他人将不得不面对严酷的挑战。
智能化的普及还将产生一些人类过去不曾面对的挑战,比如在大量使用个人数据的同时保护个人的隐私。这些问题我们都无法回避而解决它们除了需要在法律层面进行规范,更需要在技术上有新的突破。目前,我们依然处在智能社会的初级阶段,有很多事情要做。最后我们用阿兰・图灵的一句话结束全书:
我们仅能前瞻不远,却有很多事情要做。
( We can only see a short distance ahead, but we can see plenty there that needs to be done. )
——阿兰·图灵
08 未来智能化产业
【引言 08】
人工智能会在未来改变很多产业格局,一些新的产业会出现,但更多的改变是对现有产业的改造。在未来,那些存在了几百甚至上干年的产业还会存在,而且会发展得更好。农业、制造业体育、医疗、法律,甚至编辑记者行业都将迎来崭新形态。我们不妨把这种变化用如下范式来概括:现有产业+智能技术=新产业。而产业的升级和变迁,会比现在的产业更好地满足人类的个性化需求,逐渐导致整个社会的升级和变迁。
【小结 08】
大数据将导致我们社会的产业升级和变迁。不过,如果对比每一次产业革命前后产业的变化,你就会发现其实人类很多基本的需求并没有变,只是采用了新技术后,新产业会取代日产业满足人类的需求。在技术革命时,固守旧产业是没有出路的。
机器智能会给人类带来一个终极问题:既然什么事情都可以让机器来做,而且还比人做得好,那么人类怎么办?我们将在下一章中重点讨论这个问题。
未来的农业
未来的体育
未来的制造业
未来的商业
未来的医疗
未来的律师业
未来的记者和编辑
未来的生产关系
09 未来的社会
【引言 09】
在历次技术革命中,一个人、一家企业,甚至个国家,可以选择的道路只有两条:要么加入浪潮,成为前 2%的一员;要么观望徘徊,被淘汰。
【小结 09】
大数据导致机器革命的到来,对未来社会的影响不仅存在于经济领域,而是全方位的。尽管总体上这些影响是正面的,从长远看会使我们未来的社会变得更好;不过,和以往的技术革命一样,智能革命也会带来很多负面的影响,特别是在它发展的初期,而这些影响可能会持续很久。
任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长的时间里都将是迷茫的一代。在智能革命到来之际,每个人和每家企业无疑应该拥抱它,让自己成为那 2%的受益者;而国家则需要未雨绸缪,争取不要像过去那样每一次重大的技术革命都伴随半个多世纪的动荡。
我们还没有经历过机器在智能上全面超越人类的时代,我们需要在这样的环境里学会生存。这将是一个让我们振奋的时代,也是一个给我们带来空前挑战的时代。