返回
朗读
暂停
+书签

视觉:
关灯
护眼
字体:
声音:
男声
女声
金风
玉露
学生
大叔
司仪
学者
素人
女主播
评书
语速:
1x
2x
3x
4x
5x

上一页 书架管理 下一页
第十三章 神经网络
;。这意味着没有外界输入的指导信息。对任何连接的改变只依赖于网络内部的局部状态。简单的赫布规则具有这种特点。与之相反,在有教师学习中,从外部向网络提供关于网络执行状况的指导信号。

    无教师学习具有很诱人的性质,因为从某种意义上说网络是在自己指导自己。理论家们设计了一种更有效的学习规则,但它需要一位quot;教师quot;来告诉网络它对某些输入的反应是好、是差还是很糟。这种规则中有一个称作quot;δ律quot;。

    训练一个网络需要有供训练用的输入集合,称作quot;训练集quot;。很快我们在讨论网络发音器(NEt talk)时将看到一个这样的例子。这有用的训练集必须是网络在训练后可能遇到的输入的合适的样本。通常需要将训练集的信号多次输入,因而在网络学会很好地执行之前需要进行大量的训练。其部分原因是这种网络的连接通常是随机的。而从某种意义上讲,脑的初始连接是由遗传机制控制的,通常不完全是随机的。

    网络是如何进行训练的呢?当训练集的一个信号被输入到网络中,网络就会产生一个输出。这意味着每个输出神经元都处在一个特殊的活动状态。教师则用信号告诉每个输出神经元它的误差,即它的状态与正确之间的差异,δ这个名称便来源于这个真实活动与要求之间的差异(数学上δ常用来表示小而有限的差异)。网络的学习规则利用这个信息计算如何调整权重以改进网络的性能。

    Adaline网络是使用有教师学习的一个较早的例子。它是1960年由伯纳德·威德罗(Bernard idrow)和霍夫(M.E.hoff)设计的,因此δ律又称作威德罗-霍夫规则。他们设计规则使得在每一步修正中总误差总是下降的。①这意味着随着训练过程网络最终会达到一个误差的极小值。这是毫无疑问的,但还不能确定它是真正的全局极小还是仅仅是个局域极小值。用自然地理的术语说就是,我们达到的是一个火山口中的湖,还是较低的池塘。海洋,还是像死海那样的凹下去的海(低于海平面的海)?

    训练算法是可以调节的,因而趋近局域极小的步长可大可小。如果步长过大,算法会使网络在极小值附近跳来跳去(开始时它会沿下坡走,但走得太远以致又上坡了)。如果步子小,算法就需要极长的时间才能达到极小值的底端。人们也可以使用更精细的调节方案。

    反传算法是有教师学习算法中的一个特殊例子。为了让它工作,网络的单元需要具有一些特殊性质。它们的输出不必是二值的(即,或0,或者+1或-1),而是分成若干级。它通常在0到+1之间取值。理论家们盲目地相信这对应于神经元的平均发放率(取最大发放率为+1),但他们常常说不清应该在什么时候取这种平均。

    如何确定这种quot;分级quot;输出的大小呢?像以前一样,每个单元对输入加权求和,但此时不再有一个真实的阈值。如果总和很小,输出几乎是0。总和稍大一些时,输出便增加。当总和很大时,输出接近于最大值。图54所示的S形函数(sigmoid函数)体现了这种输入总和与输出间的典型关系。如果将一个真实神经元的平均发放率视为它的输出,那么它的行为与此相差不大。

    这条看似平滑的曲线有两个重要性质。它在数学上是quot;可微的quot;,即任意一处的斜率都是有限的;反传算法正依赖于这个特性。更重要的是,这条曲线是非线性的,而真实神经元即是如此。当(内部)输入加倍时输出并不总是加倍。这种非线性使得它能处理的问题比严格的线性系统更加广泛。

    现在让我们看一个典型的反传网络。它通常具有三个不同的单元层(见图55)。最底层是输入层。下
上一页 书架管理 下一页

首页 >惊人的假说——灵魂的科学探索简介 >惊人的假说——灵魂的科学探索目录 > 第十三章 神经网络