jdl008

开普勒儿童家具官网(开普勒家居)

jdl008 室内家具 2024-06-01 22浏览 0

1 新智元编译

来源:YouTube

译者:李静怡

  今天是2016年9月14日

  AI WORLD 2016世界人工智能大会倒计时33天

  启航期5折抢票倒计时3天

  【新智元导读】LeCun 受 SoftBank Robotics Europe 邀请发表的演讲《深度学习和人工智能的未来》。LeCun 介绍了卷积神经网络(CNN),以及记忆增强网络能够在预测的基础上进行推理、注意力以及陈述性记忆。LeCun 还介绍了深度学习系统在 Facebook 的部署,比如视频和图像采集、内容过滤以及人脸识别,还有语言翻译。LeCun 在谈到了人工智能的未来时强调了非监督学习的重要性,介绍了生成对抗网络的应用。本文开始是LeCun演讲后的问答环节的内容整理。

  QA

  这个问题有关演讲中的 wordtovec,你说语义能够联系到矢量上,这是在很大的语料库上训练的吗?组成成本都是什么?

  一般都是在很大的词汇库上训练,你可以使用维基百科,也可以使用Reddit上面的词汇,里面有咒骂、缩写,还有拼错的单词。不过,也有另一种研究方向,第一层是一个查找表,将向量指向词汇表中的每个单词,就像矩阵一样。这个的论文是谷歌大脑的团队做的,第一作者是Oriol Vinyals,训练语言模型预测接下来的词汇是什么,比较好的表现是在字符水平上的预测,前面几层都是卷积层。预测精度很高,在语言模型中这叫做混淆度很低。

  在机器学中,如何解决多模式数据的问题?

  以前有这个问题,现在,你建一个神经网络,用多个通道接收输入就好了。当然,如果有一部分数据缺失的话,你就需要将那部分补全,你可以使用 droopout 算法。你训练好一个网络后,随机去掉部分输入,然后看网络是否还能稳定输出。举例来说,你可以建立预测模型,预测只有音频数据的时候,视频数据是什么,或者反过来。这也就是我刚才说的你可以做的预测模型。音频和视频信息不一致也正好说明了一种现象,那就是人在判断一个音符是什么的时候,实际上是通过视觉信息来判断的,准确地说,是通过口型。通过听,你能分辨出 ga 和 ba 的区别,但是当一个人发“ga”的音时,如果显示的是一个有着“ba”口型的画面,那么你会误以为说话的人在发“ba”的声音。

  在演讲中你提到了生成卧室的图片。算法是如何知道在哪里生成床、哪里生成窗?为什么床不是蓝色的,因为实际上床有可能是任何颜色的?

  生成卧室图片的网络是一个 De-convolutional Net,这种网络与卷积网络一样,除了所有的神经元都被反了过来,输入成了一堆数字,而输出则是图像。因此,输入是一堆随机的数据,要么经过统一选样,要么经过高斯分布。网络会生成一个图像,对抗网络则会判断这幅图像与真实图像之间的差距,于是系统会调整参数,直到生成的图像与真实的卧室图像对于对抗网络的判别器而言没有差别。其中的一些参数,比如床铺的颜色是什么,距离窗户多远、光照怎么样……这些对于系统而言都没有意义,它关心的只是在数据库的基础上训练网络,得到区分不出来的图像。

  我的问题与自然语言理解有关。要让机器人理解人话就必须要让机器人拥有自然语言理解能力。你刚刚在演讲中提到了“Non-teaching”算法,是不是就解决了这个问题?如果没有解决的话,目前缺少的是什么呢?

  建立对话系统,让机器人在人类跟它们说话后作出回应,是目前十分活跃的一个研究领域。现在世界上还没有人解决了这一个问题。眼下有很多对话系统,比如观察人的对话,或者预测下一个词是什么。有时候这很有趣,微软训练了一个对话机器人,我不是说 Tay,而是在中国的小冰。有很多中国人跟小冰对话,训练得很好。然后微软想在美国再现这个情况,也就是 Tay,不出 24 小时就成了种族主义者,这体现了中美的文化差异。实际上,单纯通过对话让系统学习做一件事情是十分困难的,目前还没有人做到。我们可以训练系统进行对话是可能的,比如 Siri、Cortana、Google Now,但是要让它们学会东西还有很大的挑战。在 Facebook 有一个项目 M,让人类接线员通过 M 工作,看看是否 AI 能够接管,不要人的干预。结果发现这件事十分难,尤其是当对话内容很开放的时候。不过,但对话内容比较窄,比如谈论电影、餐厅……那么这件事情也并非完全不可能。因此还是有希望的。

  在演讲中你有很多系统是一开始离线训练的,然后再上线。你是如何决定什么时候可以把系统放在网络上?

  是的,有一些项目是先在线下训练,然后在放到网上。不过,也有很多项目是一开始就放在网上的。例如 Facebook 的推荐系统,每天有大量的图片上传到 Facebook 的网络,系统不可能把这些图片全部都推送给你。有些人喜欢冲浪,那么系统可能就会从中选择与冲浪有关的图片,或者与猫有关的图片——有的人很喜欢猫,我个人对猫的图片并不是那么感冒——或许你喜欢猫的图片……总之,像这样的系统, 你喜欢什么的模型,是时刻都在更新的,每时每刻都在学习,越聚越多。

  Yann LeCun:深度学习和人工智能的未来

  150 PPT 全文

  如需下载全文,请在新智元订阅号回复 0916下载。

  

  深度学习

  作者Yann Le Cun

  纽约大学,柯朗数学科学学院(CourantInstitute of Mathematical Science, NYU),

  Facebook 人工智能研究

  

  我们需要复制大脑来开发智能机器吗?

  大脑是智能机器存在的依据

  -鸟和蝙蝠是重于空气飞行存在的依据

  

  大脑

  

  今天高速处理器

  

  我们能够通过复制大脑来开发人工智能系统吗?

  电脑离大脑运算能力只有1万次方差距吗?很有可能是100万次方:突触是复杂的。1百万次方是30年摩尔定律

  最好从生物学里获取灵感;但是如果没有了解基本原理,仅从生物学里生搬硬造,注定要失败。飞机是从飞鸟那里获取的灵感;他们使用了同样的飞行基本原理;但是,飞机并不振翅飞翔,也没有羽翼。

  

  让我们从自然里汲取灵感,但不需要依葫芦画瓢

  模仿自然是好的,但是我们也需要去了解自然。对于飞机而言,我们开发了空气动力学以及可压缩流体动力学,我们知道了羽毛和振翅不是关键。

  

  1957年:感知机(第一台学习机器)

  具有适应性“突触权重”的一个简单的模拟神经元,计算输入的加权总和,如果加权总和高于阈值,则输出+1,反之则输出-1。

  

  感知机学习算法

  

  通常的机器学习(监督学习)

  设计一台带有可调节旋钮的机器(与感知机里的权重类似);选取一个训练样本,经机器运行之后,测量误差;找出需要调整那个方向的旋钮以便降低误差;重复使用所有训练样本来进行操作,直到旋钮稳定下来。

  

  通常的机器学习(监督学习)

  设计一台带有可调节旋钮的机器;选取一个训练样本,经机器运行之后,测量误差;调节旋钮以便降低误差;不断重复直到旋钮稳定下来;

  

  机器学习=功能优化

  这就如同行走在雾气弥漫的高山之中,通过往最陡的下坡方向行走来抵达山谷中的村庄;但是每一个样本会给我们一个方向的噪声预估,因此,我们的路径是相当随机的。

  

  泛化能力:识别训练中没有察觉到的情况

  训练之后:用从未识别过的样本来测试机器;

  

  监督学习

  我们能够用诸如桌子、椅子、狗、猫及人等很多例子来训练机器;但是机器能够识别它从未看到过的桌子、椅子、狗、猫及人吗?

  

  大规模的机器学习:现实

  数以亿计的“旋钮”(或“权重”),数以千计的种类;数以百万计的样本;识别每一个样本可能需要进行数十亿的操作;但是这些操作只是一些简单的乘法和加法。

  

  模式识别的传统模式

  模式识别的传统模式(自50年代末开始),固定/设计特征(或固定矩阵)+可训练的分级器,感知机(康奈尔大学,1957年)

  

  深度学习=整台机器是可以训练的

  传统的模式识别:固定及手工制的特征萃取器;主流的现代化模式识别:无监督的中等级别特征;深度学习:表现形式是分等级的及训练有素的;

  

  深度学习=学习分等级的表现形式

  有超过一个阶段的非线性特征变换即为深度学习;在ImageNet上的特征可视化的卷积码净训练[来自蔡勒与宏泰2013(Zeiler Fergus 2013)]

  

  可训练的特征等级

  随着抽象等级的增加,表现形式等级的增加;每一个阶段是一种可训练特征的转换;图像识别:

  像素→边缘→纹理基元→主题→

  部分→对象

  字符→字→字组→从句→句子→故事

  言语

  例子→光谱段→声音→... →电话→音素→字

  

  浅度vs深度==查找表VS多步算法

  “浅与宽”vs“深与窄”==“更多的内存”与“更多的时间”,查找表vs 算法;如果没有一个指数大级别的查找表,几乎很少有函数可以用两步计算完成;通过指数系数,可以通过超过两步运算来减少“存储量”。

  

  大脑如何解读图像?

  在视觉皮层的腹侧(识别)通路 多个阶段;视网膜- LGN - V1 - V2 - V4 - PIT - AIT....等等;

  

  多层的神经网络

  

  多层的神经网络

  简单单位的多层级;每个单位计算一次输入的加权总和;加权总和通过一个非线性函数;学习算法改变权重;

  

  典型的多层神经网路架构

可以通过在网路中装配模块来发明复杂的学习机器;

线性模块

输出=W.输入+B

ReLU 模块(经校正过的线性单元)

输出i=0 如果输入i0;

输出i=输入,如果其他情况;

成本模块:平方距离

成本=||In1-In2||2

目标函数

L(Θ)=1/pΣk C(Xk,Yk,Θ)

Θ=(W1,B1,W2,B2,W3,B3)

  

  通过装配模块来搭建网路

  所有主要深度学习框架使用模块(灵感源自SN/Lush, 1991),火炬7(Torch7), Theano, TensorFlow….

  

  通过反向传递来计算斜率

  链式法则的实际应用

  推倒代数的斜率:

  ● dC/dXi-1 = dC/dXi . dXi/dXi-1

  ● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1

  推倒权重斜率:

  ● dC/dWi = dC/dXi . dXi/dWi

  ● dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi

  

  任何架构都可以工作?

  允许任何的连接图;

  无回路有向图

  循环的网络需要“在时间上展开”

  允许任何的模块

  只要对于相应的参数及其他非终端输入是连续的,并且在几乎所有位置都可以进行求倒。

  几乎所有的架构都提供自动求导功能;

  Theano, Torch7+autograd,...

  程序变成计算无回路有向图(DAGs)及自动求道

  

  多层网络的目标函数是非凸性的。

  1-1-1网络

  – Y = W1*W2*X

  目标函数:二次损失的恒等函数

  一个例子:X=1,Y=1 L(W) = (1-W1*W2)^2

  

  卷积网络

  (简称ConvNet或 CNN)

  

  卷积网络架构

  

  多卷积

  动画:安德烈 .卡帕斯(Andrej Karpathy)网址:https://cs231n.github.io/convolutional-networks/

  

  卷积性网络(制造年代:1990年)

  过滤器-tanh →汇总→过滤器-tanh →汇总→过滤器-tanh

  

  胡贝尔和威塞尔(Hubel Wiesel)的视觉皮层结构模型

  简单单元格用于检测局部特征,复杂单元格用于“汇总”位于视皮层附近的简单单元格输出产物,[福岛(Fukushima)1982年][LeCun 1989, 1998年],[Riesenhuber 1999年]等等

  

  总体架构:多步奏标准化→过滤器集→非线性→汇总

  标准化:白度变化(自由选择)

  减法:平均去除率,高通过滤器

  除法:局部标准化,标准方差

  过滤器库:维度扩大,映射到超完备基数

  非线性:稀疏化,饱和度,侧抑制机制等等

  改正(ReLU),有效分量的减少,tanh,

  汇总:空间或功能类别的集合

  

  1993年LeNet1演示

  

  多字符识别[马坦等(Matan et al),1992年]

  每一层是一个卷积

  

  ConvNet滑动窗口+加权有限状态机

  

  ConvNet滑动窗口+加权FSM

  

  支票读取器(贝尔实验室,1995年)

  图像转换器网络经训练后读取支票金额,用负对数似然损失来进行全面化训练。50%正确,49%拒绝,1%误差(在后面的过程中可以检测到)1996年开始在美国和欧洲的许多银行中使用,在2000年代初处理了美国约10%到20%的手写支票。

  

  人脸检测[威能(Vaillantet al.)等。93、94年]

  ConvNet被用于大图像处理,多尺寸热图,候选者非最大化抑制,对256x256 图像SPARCstation需要6秒时间

  

  同步化人脸检测及姿态预估

  

  卷积网络行人检测

  

  场景解析及标注

  

  场景解析及标注:多尺度ConvNet架构

  每个输出可以看到大量的输入背景,对全方位标注的的图像进行训练监督

  

  方法1:在超像素区域进行多数表决

  

  对RGB及深度图像的场景解析及标注

  

  场景解析及标注

  无后期处理,一帧一帧,ConvNet在Virtex-6 FPGA 硬件上以每帧50毫秒运行,通过以太网上进行通信的功能限制了系统性能

  

  ConvNet用于远距离自适应机器人视觉(DARPA LAGR 项目2005-2008年)

  

  卷机网远距离视觉

  预处理(125毫秒),地平面估计,地平线对准,转换为YUV+局部对比标准化,测量标准化后图像“带”不变量金字塔

  

  卷积网络架构

  每3x12x25输入窗口100个特征;YUV图像带20-36像素高,36-500像素宽

  

  卷机网络视觉物体识别

  在2000年代中期,ConvNets在物体分类方面取得了相当好的成绩,数据集:“Caltech101”:101个类别,每个类别30个训练样本,但是结果比更“传统”的计算机视觉方法要稍微逊色一些,原因是:

  1. 数据集太小了;

  2. 电脑太慢了;

  

  然后,两件事情发生了。。。

  图像网络(ImageNet)数据集[Fei-Fei等,2012年]

  120万训练样本

  1000个类别

  快速及可编程通用目的GPUs

  每秒可进行1万亿操作

  

  极深度的ConvNet物体识别

  1亿到10亿个连接,1000万至10亿个参数,8至20个分层

  

  在GPU上进行极深度的ConvNets训练

  ImageNet前5大错误概率是

  15%;

  [Sermanet等2013年]

  13.8%VGGNet [Simonyan, Zisserman 2014年]

  7.3%

  GoogLeNet[Szegedy等 2014年]

  6.6%

  ResNet [He et等2015年]

  5.7%

  

  极深度的ConvNet架构

  小矩阵,没有进行太多二次抽样过程(断片化二次抽样)

  

  矩阵:第一层(11x11)

  第一层:3×9矩阵,RGB-96的特征图,11×11矩阵,4步

  

  学习在行动

  第一层过滤器如何学习?

  

  深度学习=学习层次代表

  具有超过一个阶段的非线性特征变换即为深度,ImageNet上特征可视化卷积网络学习 [蔡勒与宏泰2013年(Zeiler Fergus)]

  

  ImageNet:分类

  给图像中的主要对象取名,前5误差率:如果误差不是在前5,则视为错误。红色:ConvNet,蓝色:不是ConvNet

  

  ConvNets对象识别及定位

  

  分类+定位:多尺度滑动窗口

  在图像上应用convnet滑动窗口来进行多尺度的重要备;在图像上滑动convnet是很便宜的。对于每一个窗口,预测一个分类及边框参数。即使对象没有完全在视窗内,convnet可以预测它所认为的对象是什么。

  

  结果:在ImageNet1K训练前,微调的ImageNet检测

  

  Detection Example:检测例子

  

  Detection Example:检测例子

  

  Detection Example:检测例子

  

  深度面孔

  [塞利格曼等(Taigman et al.) CVPR,2014年]

  调准ConvNet矩阵学习

  Facebook上使用自动标注

  每天800万张照片

  

  矩阵学习与暹罗架构

  Contrative目标函数,相似的对象应产出相距较近输出产物,不相似对象应产出相距较远输出产物,通过学习和恒定的定位来减少维度,[乔普拉等,CVPR2005年][Hadsell等,CVPR2006年]

  

  人物识别与姿势预测

  

  图像说明:生成描述性句子

  

  C3D:3D ConvNet视频分类

  

  分割与局部化对象(DeepMask)

  [Pinheiro, Collobert, Dollar ICCV 2015年]

  ConvNet生成物件面部模型

  

  DeepMask++ 建议

  

  识别路线

  

  训练

  通过8x4开普勒(Kepler)GPUs与弹性平均随机梯度下降算法(EASGD)运行2.5天后[张, Choromanska, LeCun,NIPS2015年]

  

  

  

  

  

  

  

  

  

  

  

  

  

  结果

  

  监控下的ConvNets制图

  使用ConvNets产生图像

  

  监控下的ConvNets制图

  绘制椅子,在特征空间的椅子算法

  

  ConvNets语音识别

  

  语音识别与卷积网络(纽约大学/IBM)

  声学模型:7层ConvNet。5440万参数。

  把声音信号转化为3000个相互关连的次音位类别

  ReLU单位+脱离上一层级

  经过GPU 4日训练

  

  语音识别与卷积网络(纽约大学/IBM)

  训练样本。

  40 Mel频率倒谱系数视窗:每10微秒40帧

  

  语音识别与卷积网络(纽约大学/IBM)

  第一层卷积矩阵,9x9尺寸64矩阵

  

  语音识别与卷积网络(纽约大学/IBM)

  多语言识别,多尺度输入,大范围视窗

  

  ConvNets无处不在(或即将无处不在)

  

  ConvNet芯片

  目前NVIDIA,英特尔(Intel), Teradeep,Mobileye, 高通(Qualcomm)及三星(Samsung)正在开发ConvNet 芯片

  很多初创公司:Movidius, Nervana等

  在不久的将来,ConvNet将会驾驶汽车

  

  NVIDIA:基于ConvNet技术的驾驶员辅助系统

  驱动-PX2(Drive-PX2):驾驶员辅助系统的开源平台( =150 Macbook Pros)

  嵌入式超级计算机:42TOPS(=150台MacBook Pro)

  

  MobilEye:基于ConvNet技术的驾驶员辅助系统

  配置于特斯拉(Tesla)S型和X型产品中

  

  ConvNet连接组学[Jain, Turaga, Seung,2007年]

  3DConvNet体积图像,使用7x7x7相邻体素来将每一个体素标注为“膜状物”或“非膜状物”,已经成为连接组学的标准方法

  

  脑部肿瘤检测

  级联输入CNN架构,802,368 个参数,用30位患者来进行训练,BRAT2013上显示的结果状况

  

  预测DNA/ RNA - ConvNets蛋白质结合

  “通过深度学习预测DNA- 与RNA-结合的蛋白质序列特异性”-2015年7月,自然生物技术,作者:B Alipanahi, A Delong, M Weirauch, BFrey

  

  深度学习无处不在(ConvNets无处不在)

  在脸书(Facebook)、谷歌(Google)、微软(Microsoft)、百度、推特(Twitter)及IBM等上的许多应用程序。

  为照片集搜索的图像识别

  图片/视频内容过滤:垃圾,裸露和暴力。

  搜索及新闻源排名

  人们每天上传8亿张图片到脸书(Facebook)上面

  (如果我们把Instagram,Messenger and Whatsapp计算在内,就是每天20亿张图片)

  脸书(Facebook)上的每一张照片每隔2秒就通过两个ConvNets

  一个是图像识别及标注;

  另一个是面部识别(在欧洲尚未激活)

  在不久的将来ConvNets将会无处不在:

  自动驾驶汽车,医疗成像,增强现实技术,移动设备,智能相机,机器人,玩具等等。

  

  嵌入的世界

  

  思考的向量

  “邻居的狗萨摩耶犬看起来好像西伯利亚哈士奇犬”

  

  嵌入的世界

  iNSTAGRAM 嵌入视频

  

  用“思考的向量”来代表世界

  任何一个物件、概念或“想法”都可以用一个向量来代表

  [-0.2, 0.3, -4.2, 5.1, …..]代表“猫”的概念

  [-0.2, 0.4, -4.0, 5.1, …..]代表“狗”的概念

  这两个向量是十分相似的,因为猫和狗用许多共同的属性

  加入推理来操控思考向量

  对问题、回答、信息提取及内容过滤的向量进行比较

  通过结合及转化向量来进行推理、规划及语言翻译

  内存存储思考向量

  MemNN (记忆神经网络)是一个很好的例子

  在FAIR, 我们想要“把世界嵌入”思考向量中来

  

  自然语言理解

  

  文字能嵌入吗?

  [Bengio2003年] [Collobert与韦斯顿(Weston),2010年]

  通过前后的文字来对该文字进行预测

  

  语义属性的合成

  东京-日本=柏林-德国

  东京-日本+德国=柏林

  

  问答系统

  

  问答系统

  

  问答系统

  

  LSTM网络的语言翻译

  多层次极大LSTM递归模块

  读入及编码英语句子

  在英文句末生成法语句子

  与现有技术状态的准确率极其相若

  

  神经网络如何记忆事物?

  递归网络不可以长久记忆事物

  皮质只可以持续20秒记忆事物

  我们需要“海马”(一个独立的记忆模块)

  LSTM [Hochreiter 1997年],寄存器

  存储网络[韦斯顿(Weston)等,2014年](FAIR),联想记忆

  堆叠增强递归神经网络[Joulin与Mikolov,2014年](FAIR)

  NTM [DeepMind,2014年], “磁带”.

  

  存储/堆叠增强递归网络

  堆叠增强RNN

  弱监控MemNN:

  寻找可使用的存储位置。

  

  内存网络[韦斯顿(Weston),乔普拉( Chopra),博尔德(Bordes ),2014年]

  在网络中加入短期内存

  

  通往人工智能的障碍物

  

  (除计算能力以外),人工智能的四项缺失部分

  理论的深度认知学习

  深度网络中的目标函数几何学是什么?

  为何ConvNet架构这么好?[(马拉)Mallat, 布鲁纳(Bruna), Tygert..]

  代表/深度学习与推理、注意力、规划及记忆的整合

  很多研究集中在推理/规划,注意力,记忆力及学习“算法”

  内存增强的神经网络“可求导的”算法

  将监控、非监控及强化学习整合在单一的“算法”内

  如果进展顺利,波尔兹曼机将会十分有用处。

  堆叠的什么-哪里自动编码器,梯形网络等

  通过观察及像动物及人类生活一样来发现世界的结构及规律。

  

  神秘的目标函数几何学

  

  深度网络与ReLUs及最大汇总

  线性转换存储栈最大离散操作器

  ReLUs点位方法

  最大汇总

  从一层到另一层开关

  

  深度网络与ReLUs:目标函数是分段多项式函数

  如果我们使用损失函数,增量则取决于Yk。

  随机系数的在w上的分段多项式

  a lot:多项式的临界点位随机(高斯)系数在球面的分布[本阿鲁斯等(Ben Arous et al.)]

  高阶球面自旋玻璃随机矩阵理论

  随机矩阵理论

  

  深度网络与ReLUs:目标函数是分段多项式函数

  从多个初始条件中训练按比例缩小的(10x10)MNIST 2层网路。测量测试集的损失值。

  强化学习,监督学习、无监督学习:学习的三种类型

  

  学习的三种类型

  强化学习

  机器偶尔会对标量效果进行预测

  样本的一部分字节

  监控学习

  机器预测每个输入的种类或数量

  每个样本10到1万位

  非监控学习

  机器对任何输入部分及任何可观察部分进行预测

  在视频中预测未来镜头

  每个样本有数以百万计的字节

  

  机器需要预测多少信息?

  强化学习(车厘子)

  机器偶尔会对标量效果进行预测

  样本的一部分字节

  监控学习(糖衣)

  机器预测每个输入的种类或数量

  每个样本10到1万个字节

  无监督学习(蛋糕)

  机器对任何输入部分及任何可观察部分进行预测

  在视频中预测未来镜头

  每个样本有数以百万计的字节

  

  无监督学习是人工智能的“黑箱”

  基本所有动物及人类进行的学习都是无监督学习。

  我们通过观察了解世界的运作;

  我们学习的世界是三维立体的

  我们知道物体间可以独立运动;

  我们知道物体的恒久性

  我们学习如何预测从现在开始一秒或一小时后的世界

  我们通过预测性非监控学习来构建世界模型

  这样的预测模型让我们有了“常识”的认知

  无监督学习让我们了解到世界的规律。

  

  通过非监控学习而得到的常识

  通过对世界预测模型的学习让我们掌握了常识;

  如果我们说:”Gérard拿起包离开房间”, 你能够推测出:

  Gérard起立,伸展手臂,向门口走去,打开门,走出去。

  他以及他的包已经不会在房间里

  他不可能消失或飞了出去

  

  非监控学习

  

  以能量为基础的非监控学习

  能量函数:取数据流的最低值,取其他地方的最高值

  如果是所需能量输出,则向下按;

  其他情况,则向上按;

  

  生成对抗的网络

  

  拉普拉斯(Laplacian) GAN:拉埃甘(又名EYESCREAM)

  学习生成图像[丹顿等人(Denton et al.),NIPS2015年]

  发生器产出拉普拉斯金字塔系数代表的图像

  鉴别器学习如何区分真假拉普拉斯图像。

  

  “EyeScream”

  

  “EyeScream”/“LAPGAN”

  

  发现规律

  DCGAN:通过对抗训练来生成图像

  [雷德福(Radford),梅斯(Metz),Chintala, 2015年]

  输入:随机数字;

  输出:卧室

  

  导航流

  DCGAN:通过对抗训练来生成图像

  用漫画人物来训练

  人物之间的插入

  

  面部代数(在DCGAN空间)

  DCGAN:通过对抗训练来生成图像

  [雷德福(Radford),梅斯(Metz),Chintala,2015年]

  

  无监督学习:视频预测

  

  无监督学习是人工智能的黑箱

  无监督学习是能够提供足够信息去训练数以十亿计的神经网络的唯一学习形式。

  监督学习需要花费太多的标注精力

  强化学习需要使用太多次的尝试

  但是我们却不知道如何去进行非监控许诶下(甚至如何将其公式化)

  我们有太多的想法及方法

  但是他们并不能很好的运作

  为何那么难?因为世界本来就是不可预测的。

  预测器产出所有未来可能的平均值-模糊图像

  

  ConvNet多尺度视频预测

  4到8框架输入→无需汇总的ConvNet→1到8框架输出

  

  无法使用开方误差:模糊预测

  世界本来就是无法预测的,mse训练预测未来可能情况的平均值:模糊图像

  

  ConvNet多尺度视频预测

  

  ConvNet多尺度视频预测

  

  ConvNet多尺度视频预测

  与使用LSTM的人[Srivastava等, 2015年]做比较

  无监督学习预测

  在“对抗训练”中已经取得了一些成果

  但是我们离一个完整的解决方案还相距甚远。

  

  预测学习

  

  机器智能与人工智能将会有很大不同

  

  人工智能会是什么样子呢?

  人类和动物行为拥有进化过程与生俱来的驱动力

  抗战/飞行,饥饿,自我保护,避免疼痛,对社交的渴求等等

  人类相互之间做错误的事情也是大部分因为这些驱动力造成的。

  受威胁时的暴力行为,对物质资源及社会力量的渴求等等。

  但是,人工智能系统并没有这些驱动力,除非我们在系统里进行配置。

  在没有驱动力情况下,我们很难去对智能实体进行想像

  尽管在动物世界里我们有许多的例子。

  

  我们如何调整人工智能的“道德价值”使其与人类价值保持一致?

  我们将建立一些基本的、不可改变的固有驱动力:

  人类培训师将会把使周围人类开心及舒适的行为与奖励联系起来。

  这正是儿童(及社会性动物)如何学习在社会中变得讲规矩

  我们能够预防不安全的人工智能吗?

  是的,就如同我们防范存在潜在危险的飞机及汽车一样

  

  与人类同等级的人工智能如何产生?

  与人类同等级的人工智能的出现不会是一个孤立“事件”。

  它会是渐进式的

  它也不会孤立发生

  没有任何机构可以在好的想法上面存在垄断。

  先进的人工智能现在是一个科学性的问题,而不是一个技术性的挑战。

  建立无监督学习是我们最大的挑战

  个人的突破将会很快被复制

  人工智能研究是一个全球性的团体。

  大部分好的点子来自学术届

  尽管另人最印象深刻的应用程序来自行业

  区分智能与自主化是十分重要的

  最智能的系统并不是自主化的。

  

  结论

  深度学习正在引领应用程序的浪潮

  如今:图像识别、视频认知:洞察力正在运作

  如今:更好的语言识别:语言识别正在运作

  不久的将来:更好的语言理解能力,对话及翻译将成为可能

  深度学习与卷积网络正在被广泛使用

  如今:图像理解能力已经在脸书、谷歌、推特和微软中被广泛应用

  不久的将来:汽车自动驾驶、医疗图像分析,机器人的感知能力将成为可能

  我们需要为嵌入式应用程序找到硬件(与软件的)

  对于数码相机、手机设备、汽车、机器人及玩具而言。。

  我们离发明真正智能的机器还相距甚远。

  我们需要将推理与深度学习整合在一起。

  我们需要一个很好的“情节化”(短期)内存。

  我们需要为无监督学习找到好的理论原理做支撑。

  

  AI WORLD 抢先看

  神秘中国“大狗”机器人亮相2016世界人工智能大会

  看过美国波士顿动力大狗机器人意犹未尽?

  其实,我国“四足仿生机器人”的研究也早在几年前开展,

  神秘的国产机器人大狗即将亮相北京·AI WORLD 2016大会现场。

  先来一睹为快

  

  

  机器人大狗来自山东大学,由我国自主研发,技术水平国际领先。

  

  山东大学李贻斌教授

  大会还特别邀请到山东大学机器人研究中心主任李贻斌教授在AI WORLD2016-技术分论坛分享“中国大狗”的研发之路。

  想近距离接触机器人大狗,了解大狗背后的故事?

  『AI WORLD 2016 世界人工智能大会』

  10月18日·北京·国家会议中心

  我们不见不散!

  戳阅读原文,启航期5折抢票,倒计时5天

版权声明

本文仅代表作者观点,不代表B5编程立场。
本文系作者授权发表,未经许可,不得转载。

继续浏览有关 开普勒儿童家具官网 的文章
发表评论