机器学习的数学理论
书籍作者:[中] 史斌 |
ISBN:9787111661368 |
书籍语言:简体中文 |
连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 |
下载次数:6097 |
创建日期:2021-02-14 |
发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
内容简介
《机器学习的数学理论》重点研究机器学习的数学理论。第一部分探讨了在非凸优化问题中,选择梯度下降步长来避免严z格鞍点的自适应性。第二部分提出了在非凸优化中寻找局部极小值的算法,并利用牛顿第二定律在一定程度上得到无摩擦的全局极小值。第三部分研究了含有噪声和缺失数据的子空间聚类问题,这是一个由随机高斯噪声的实际应用数据和含有均匀缺失项的不完全数据激发的问题;还提出了一种新的具有粘性网正则化的VAR模型及其等价贝叶斯模型,该模型既考虑了稳定的稀疏性,又考虑了群体选择。
《机器学习的数学理论》可作为本科生或研究生的入门教材。对于希望进一步加强对机器学习的理解的教授、行业专家和独立研究人员来说,该书也是好的选择。
作者简介
史斌(Bin Shi)博士 目前是加州大学伯克利分校的博士后研究员。他的研究重点是机器学习理论,特别是机器学习中的优化理论。史斌博士2006年毕业于中国海洋大学应用数学专业,获理学学士学位;2008年至2011年师从复旦大学袁小平教授学习现代常微分方程理论,并接受严格的数学训练;2011年获复旦大学数学专业和麻省大学达特茅斯分校理论物理专业理学双硕士学位。他的研究兴趣集中在统计机器学习和优化,以及一些理论计算机科学,他的研究成果已发表在NIPS OPT-2017研讨会和INFORMS Jour-nal on Optimization(机器学习特刊)上。
S.S.艾扬格(S.S.lyengar)博士,是迈阿密佛罗里达国际大学杰出的大学教授、杰出的Ryder教授和计算与信息科学学院院长,是分布式传感器网络/传感器融合、机器人技术计算领域以及高性能计算领域的先驱。
他曾是印度科学理工学院(IISC)班加罗尔分校的Satish Dhawan教授,以及泰米尔纳德邦Kalpakkam IGCAR的Homi Bhabha教授,还曾是巴黎大学、清华大学、KAIST等的客座教授。
他发表研究论文600余篇,在MIT出版社、John Wiley & Sons出版社、Prentice Hall出版社、CRC出版社、Springer Verlag出版社等出版22部专著,这些出版物已在世界各地的重点大学使用。他拥有许多专利,其中一些专利还出现在得克萨斯州达拉斯市举办的世界技术论坛上。他的研究出版物涉及高效算法、并行计算、传感器网络和机器人的设计与分析。在过去的40年里,他指导了55名博士生、100名硕士生和许多本科生,这些学生现在遍布世界各地,有的是重点大学的教师,有的是国家实验室/工业领域的科学家或工程师。他的许多本科生仍在从事他的研究项目。最近,艾扬格博士获得了Times Network媒体集团评选的2017年度非居民印度人奖,这是一个为全球印度领导人设立的著名奖项。
艾扬格博士是欧洲科学院成员,IEEE、ACM、AAAS、美国国家发明家科学院(NAI)、美国设计与工艺学会(SPDS)、美国工程师学会(FIE)、美国医学与生物工程学会(AIMBE)的高级或资深会员。由于对传感器融合算法和并行算法的贡献,他获得了班加罗尔印度科学研究所的杰出校友奖和IEEE计算机协会技术成就奖。他还在喷气推进实验室获得了IBM杰出教师奖和NASA夏季奖学金。他是2010年得克萨斯州奥斯汀市跨学科学习与高级研究学院的研究员。
他获得了各种国内和国际奖项,包括Times Network媒体集团评选的2017年度非居民印度人奖、2013年美国国家发明家科学院院士奖、2013年伦敦上议院的NRI圣雄甘地·普拉瓦西奖章,以及国际敏捷制造协会(ISAM)授予的终身成就奖,以表彰他在教学、研究和管理领域的杰出成就以及对印度理工学院(BHU)在工程和计算机科学领域做出的毕生贡献。2012年,他和Nulogix荣获2012年佛罗里达创新一产业奖(i2i)。因在传感器网络、计算机视觉和图像处理领域的研究,他获得了厦门大学颁发的杰出研究奖。他与他的研究小组的里程碑式的贡献,包括在分布式传感器网络中开发用于监视和目标定位的网格覆盖与Brooks-Iyengar融合算法。他获得了富布赖特杰出研究奖,以及2019年IEEE智能和安全信息学研究领导奖;在第25届国际IEEE高性能计算会议(2019年)上,因其对分布式传感器网络的贡献而获得终身成就奖,该奖由Infosys的联合创始人Narayana Murthy博士颁发;获得佛罗里达州青光眼装置创新技术工业创新奖、LSU Rainmaker奖,以及杰出研究硕士奖。他还被授予荣誉理工科博士学位。他在世界上许多公司和大学的顾问委员会任职,还曾在许多国家科学委员会任职,如美国国立卫生研究院生物信息学国家医学图书馆、国家科学基金会评审小组、美国宇航局空间科学、国土安全部、海军安全办公室等。他对美国海军研究实验室的贡献是一项开拓性工作的核心,该项工作旨在为科学技术发展图像分析,并扩大美国海军研究实验室的目标。
他的研究成果可以在多家公司和多个国家实验室中看到,如雷神公司、Telcordia公司、摩托罗拉公司、美国海军、DARPA和其他美国机构。他在DARPA与BBN、剑桥、马萨诸塞、MURI、PSU/ARL、杜克大学、威斯康星大学、加州大学洛杉矶分校(UCLA)、康奈尔大学和LSU的研究人员项目演示中做出了重要贡献。他也是International Journal of Distributed Sen-sor Networks的创刊编辑。他曾是多家期刊的编委会成员,也是多所大学的博士委员会成员,包括卡内基梅隆大学(CMU)、杜克大学和世界各地的许多其他大学。他目前是ACM Computing Surveys等期刊的编辑。
他还是FIU发现实验室的创始主任。他的研究成果被广泛引用。他的基础工作已经转化为独特的技术。在长达40年的职业生涯中,艾扬格博士以一种独特的方式致力于运用数学形态学来定量地理解计算过程,并将其应用于许多领域。
前言
机器学习是一种核心的、变革性的方式,通过它,我们可以重新思考我们正在做的一切。我们正在深思熟虑地将它应用到所有的产品中,无论是搜索、广告、YouTube还是游戏。虽然刚刚起步,但你会看到我们如何系统地思考将机器学习应用到所有这些领域。
——Sundar Pichai, 谷歌首席执行官
机器学习及相关技术是最有趣的研究课题之一,它有可能改变世界的发展方向。然而,在目前的研究现状中,机器学习的研究还没有一个坚实的理论框架,不能为分析提供基础,也不能为实验运行提供指导。本书试图确定并解决在现代机器学习、人工智能、深度神经网络等方面具有重大研究兴趣的各个领域中存在的问题,这些技术可以完成非凡的任务,但是如何使用它们高度依赖的基本概念仍然是一个谜。梯度下降法是一种广泛应用于神经网络训练的方法。当使用梯度下降法时,无论是收敛到局部最小值还是全局最小值,都存在的一个挑战是缺乏关于该算法何时收敛的指导性准则。本书试图解决这个关键问题。本书为读者提供了新的理论框架,可以用于收敛性分析。
本书也代表了作者和合作者在机器学习领域数学方面的重大贡献。在整本书中,我们确保读者能够很好地理解和感受梯度下降技术的理论框架,以及在神经网络训练中使用这些理论框架的方法。为了强调这一点,书中使用了我们最近的一些研究成果,以及其他研究人员正在探索的综合成果。当阅读本书的各个章节时,读者会接触到各种非常重要的应用,比如子空间聚类和时间序列分析。本书力求达到理论与应用的平衡,因此,书中会同时给出理论以及相关应用。我们希望在机器学习领域为读者提供正确的工具,使阅读更加精彩,同时对读者产生巨大的影响。
与诸如Goodfellow、Bengio和Courville的《深度学习》等现有书籍相比,本书更深入地定义和展示了梯度下降领域的最新研究成果,使之成为学生和专业人士更为全面的工具。此外,本书还将这些概念与诸如子空间聚类和时间序列数据之类的应用联系起来,使其成为该领域中更好的选择。
本书的目标读者涵盖从事机器学习的所有人,无论是学生、教授、行业专家,还是独立研究人员。编撰本书的目的是为日常研究活动提供一本方便的手册。
本书分为几个独立的部分,以便读者首先接触到机器学习、神经网络、优化、梯度下降法等基本概念。在接下来的内容中,读者可以学习和理解选择梯度下降步长的最优性和自适应性,从而避开非凸优化问题中的严格鞍点。当所有鞍点都是严格的时,我们首先给出寻找局部最小值的梯度下降法的一个最大允许固定步长,它是梯度利普希茨常数(1/L)的2倍。虽然在最坏情况下步长大于2/L的梯度下降法发散,但是对于严格的鞍形非凸优化问题,我们同样得到了梯度下降法的最优步长。其中一个重要的结果是只要梯度下降的诱导映射是局部微分同胚的,就可以确保算法收敛到严格鞍点的勒贝格测度为0,而以前的研究工作都要求这个映射是全局微分同胚的。其次,我们还考虑了步长的自适应选择,证明如果每次迭代的步长与局部梯度利普希茨常数的倒数成正比,梯度下降法不会收敛到任何严格鞍点。据我们所知,这是第一个揭示变步长梯度下降法也可以避开鞍点的研究成果,应用动力系统理论中Hartman积映射定理的推广可以证明这一点。
本书还定义和阐述了用于在非凸优化方案中寻找局部最小值的算法,从而帮助我们获得在某种程度上符合无摩擦牛顿第二定律的全局最小值。基于辛欧拉算法,以运动中可观察和可控制的速度为关键观测量,模拟了无摩擦的牛顿第二定律,并从解析解的直观分析出发,对该算法的高速收敛性进行了理论分析。最后,给出了高维强凸、非强凸和非凸函数的实验结果。本书还描述了一些离散算法,这些算法将用于测试速度或动能的可观测性和可控性,以及人工耗散能量。
此后又研究了含有噪声和缺失数据的问题子空间聚类,这是一个很有实际应用价值的问题。考虑到应用中具有随机高斯噪声和具有一致缺失项的不完整数据,我们的主要贡献是CoCoSSC——一种受CoCoLasso启发的新颖的噪声子空间聚类方法。值得注意的是,CoCoSSC在将输入数据传递到Lasso SSC算法之前,使用了一种基于半正定规划的预处理步骤来“去偏”和“去噪”,这使得它更加稳定,并且是一个L1标准化的自回归模型。我们从理论上证明了即使有1-Ω(n-2/5)比例的数据缺失,同时又被信噪比(SnR)为n-1/4的加性高斯噪声干扰,CoCoSSC仍能正常工作。与已知的只能处理恒定比例的数据丢失和n-1/6的高斯噪声信噪比的算法相比,CoCoSSC算法的效率有了显著的改善。与现有的粒子学习方法相比,我们的方法改进了粒子学习的样本完全推理策略。对合成的和实际的时间序列数据的大量实证研究,表明了该方法的有效性和高效率,同时有效的数值计算结果也证明了我们提出的算法的有效性和高效率。
史斌,加州大学伯克利分校
S S 艾扬格,迈阿密大学
目录
译者序
序言
致谢
前言
作者简介
第一部分 引言
第1章 绪论
11 神经网络
12 深度学习
13 梯度下降法
14 小结
15 本书结构
第2章 通用数学框架
21 机器学习与计算统计学
22 小结
第3章 优化理论简述
31 机器学习所需的优化理论
32 在线算法:机器学习的顺序更新
33 小结
第4章 改进的CoCoSSC方法
41 问题描述
42 梯度加速下降法
43 CoCoSSC方法
44 在线时变粘性网算法
45 小结
第5章 关键术语
51 一些定义
52 小结
第6章 关于非凸规划几何的相关研究
61 多元时间序列数据集
62 粒子学习
63 在气候变化中的应用
64 小结
第二部分 机器学习的数学框架:理论部分
第7章 收敛到最小值的梯度下降法:最优和自适应的步长规则
71 引言
72 符号与预备知识
73 最大允许步长
74 自适应步长规则
75 定理71的证明
76 定理72的证明
77 辅助定理
78 技术证明
79 小结
第8章 基于优化的守恒定律方法
81 准备:直观的解析演示
82 辛方法与算法
83 局部高速收敛现象的渐近分析
84 实验演示
85 小结与展望
第三部分 机器学习的数学框架:应用部分
第9章 含有噪声和缺失观测值的稀疏子空间聚类的样本复杂度的改进
91 CoCoSSC算法的主要结果
92 证明
93 数值结果
94 技术细节
95 小结
第10章 多元时间序列中稳定和分组因果关系的在线发现
101 问题表述
102 粘性网正则化
103 在线推理
104 实验验证
105 小结与展望
第11章 后记
参考文献
短评
非常不错的书,推荐一下。
2020-09-15 11:23:53
很不错的一本书,等了好久,总算是在活动日买到!
2020-09-09 08:50:44
很好的书啊,写的太深奥了
2020-08-12 17:28:12