深度学习:方法及应用
机械工业出版社 / 谢磊
9787111529064
¥5.00 ¥25.40
全新 文学艺术
序言
译者序
深度学习是目前人工智能、机器学习领域异常火热的研究方向,受到了学术界和工业界的高度关注,被《麻省理工学院技术评论》(MIT Technology Review)评为2013年十大突破性技术之首。深度学习已经在语音识别、图像识别、自然语言处理等诸多领域取得了突破性进展,对学术界和工业界产生了深远的影响。本书原著的作者——微软研究院的邓力博士和俞栋博士是最早将深度学习技术付诸于语音识别工业级实践的专家,他们和深度学习专家多伦多大学Geoffrey Hinton教授合作,最早将深度神经网络应用于大词汇量连续语音识别领域中,使相对识别错误率降低了20%以上。
作为多年的导师和好朋友,两位专家将这本书的中文翻译任务交付给我,我倍感荣幸。此次中译本是在忠于原著的基础上进行翻译的,既涉及深度学习的背景和基本概念,又涉及常用的模型与方法,同时包含深度学习在不同领域中的应用。本书共有12章,具体内容包括:引言、深度学习的历史、三类深度学习网络、深度自编码器、预训练的深度神经网络、深度堆叠网络及其变种、语音和音频处理中的应用、在语言模型和自然语言处理中的相关应用、信息检索领域中的应用、在目标识别和计算机视觉中的应用、多模态和多任务学习中的典型应用、结论。
本书的翻译除了受到原著作者的指导,也受到了张蓬副教授、陈小敏、吕航、丁闯、孙思宁、何长青、樊博、张弼弘、张彬彬、周祥增的帮助,在此表示感谢。同时感谢机械工业出版社的大力支持与推动。没有他们的帮助,本书的翻译是无法促成的。
由于深度学习技术是一个快速发展的方向,新的模型和应用层出不穷,加之本人学识有限以及中英文语言表达、术语翻译上的差异,书中难免存在错误,还请广大读者指正与原谅。建议读者在学习过程中和英文原著一起阅读,并参考本书引用的参考文献,以便提高学习和理解效果。
谢磊
原书序
“这本书对最前沿的深度学习方法及应用进行了全面的阐述,不仅包括自动语音识别(ASR),还包括计算机视觉、语言建模、文本处理、多模态学习以及信息检索。在深度学习这一领域,这是第一本,也是最有价值的一本书,能使读者对这一领域进行广泛而深入的学习。深度学习对信息处理的很多方面(尤其对语音识别)都具有重大的影响,甚至对整个科技领域的影响也不容忽视。因此,对于有意了解这一领域的学者,这本书是绝对不容错过的。”
——Sadaoki Furui,芝加哥丰田技术研究院院长,日本东京工业大学教授
如前所述,深度学习指的是一类广泛的机器学习技术和架构,其特点是采用多层的非线性信息处理方法,这种方法在本质上是分层的。根据这些结构和技术不同的应用领域,如合成/生成或识别/分类,我们可以大致把这些结构分为三类:
(1)无监督或生成式学习的深度网络针对模式分析和合成任务,用于在没有目标类标签信息的情况下捕捉观测到的或可见数据的高阶相关性。各种文献中的无监督特征或表达学习指的就是这一类深度网络。当用于生成模式时,它也可以用来描述可见数据和其相关分类的联合概率分布,此时它具有可利用的类别标签,而且这些类别标签被看作是可见数据的一部分。在后一种情况中,利用贝叶斯准则可以把生成式学习网络转换为判别式学习网络。
(2)有监督学习的深度网络 直接提供用于模式分类目的的判别能力,它的特点是描述了可见数据条件下的类别后验分布。对于这种有监督的学习,目标类别标签总是以直接或间接形式给出,所以它们也被称作判别式深度网络。
(3)混合深度网络 目标是判别式模型,往往以生成式或无监督深度网络的结果作为重要辅助,可以通过更好地优化和正则化类别(2)中的深度网络来实现,也可以通过在对类别(1)中所述的深度生成式或无监督深度网络的参数进行估计时,使用判别式准则来实现。
译者序
深度学习是目前人工智能、机器学习领域异常火热的研究方向,受到了学术界和工业界的高度关注,被《麻省理工学院技术评论》(MIT Technology Review)评为2013年十大突破性技术之首。深度学习已经在语音识别、图像识别、自然语言处理等诸多领域取得了突破性进展,对学术界和工业界产生了深远的影响。本书原著的作者——微软研究院的邓力博士和俞栋博士是最早将深度学习技术付诸于语音识别工业级实践的专家,他们和深度学习专家多伦多大学Geoffrey Hinton教授合作,最早将深度神经网络应用于大词汇量连续语音识别领域中,使相对识别错误率降低了20%以上。
作为多年的导师和好朋友,两位专家将这本书的中文翻译任务交付给我,我倍感荣幸。此次中译本是在忠于原著的基础上进行翻译的,既涉及深度学习的背景和基本概念,又涉及常用的模型与方法,同时包含深度学习在不同领域中的应用。本书共有12章,具体内容包括:引言、深度学习的历史、三类深度学习网络、深度自编码器、预训练的深度神经网络、深度堆叠网络及其变种、语音和音频处理中的应用、在语言模型和自然语言处理中的相关应用、信息检索领域中的应用、在目标识别和计算机视觉中的应用、多模态和多任务学习中的典型应用、结论。
本书的翻译除了受到原著作者的指导,也受到了张蓬副教授、陈小敏、吕航、丁闯、孙思宁、何长青、樊博、张弼弘、张彬彬、周祥增的帮助,在此表示感谢。同时感谢机械工业出版社的大力支持与推动。没有他们的帮助,本书的翻译是无法促成的。
由于深度学习技术是一个快速发展的方向,新的模型和应用层出不穷,加之本人学识有限以及中英文语言表达、术语翻译上的差异,书中难免存在错误,还请广大读者指正与原谅。建议读者在学习过程中和英文原著一起阅读,并参考本书引用的参考文献,以便提高学习和理解效果。
谢磊
原书序
“这本书对最前沿的深度学习方法及应用进行了全面的阐述,不仅包括自动语音识别(ASR),还包括计算机视觉、语言建模、文本处理、多模态学习以及信息检索。在深度学习这一领域,这是第一本,也是最有价值的一本书,能使读者对这一领域进行广泛而深入的学习。深度学习对信息处理的很多方面(尤其对语音识别)都具有重大的影响,甚至对整个科技领域的影响也不容忽视。因此,对于有意了解这一领域的学者,这本书是绝对不容错过的。”
——Sadaoki Furui,芝加哥丰田技术研究院院长,日本东京工业大学教授
如前所述,深度学习指的是一类广泛的机器学习技术和架构,其特点是采用多层的非线性信息处理方法,这种方法在本质上是分层的。根据这些结构和技术不同的应用领域,如合成/生成或识别/分类,我们可以大致把这些结构分为三类:
(1)无监督或生成式学习的深度网络针对模式分析和合成任务,用于在没有目标类标签信息的情况下捕捉观测到的或可见数据的高阶相关性。各种文献中的无监督特征或表达学习指的就是这一类深度网络。当用于生成模式时,它也可以用来描述可见数据和其相关分类的联合概率分布,此时它具有可利用的类别标签,而且这些类别标签被看作是可见数据的一部分。在后一种情况中,利用贝叶斯准则可以把生成式学习网络转换为判别式学习网络。
(2)有监督学习的深度网络 直接提供用于模式分类目的的判别能力,它的特点是描述了可见数据条件下的类别后验分布。对于这种有监督的学习,目标类别标签总是以直接或间接形式给出,所以它们也被称作判别式深度网络。
(3)混合深度网络 目标是判别式模型,往往以生成式或无监督深度网络的结果作为重要辅助,可以通过更好地优化和正则化类别(2)中的深度网络来实现,也可以通过在对类别(1)中所述的深度生成式或无监督深度网络的参数进行估计时,使用判别式准则来实现。