书籍作者:乔霓丹 | ISBN:9787547845264 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:4088 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
随着数据量的几何级数增长,近5年,以数据为导向的预测和因果推断在学术界有着巨大的进展。本书将着重讨论这两方面的进展,以及如何应用这些成果进行医学科学研究。
本书前半部分以重症监护治疗室患者的数据为例介绍如何进行医学数据的预处理,如何使用机器学习模型预测患者的死亡率。本书前半部分的重点在于深度学习,内容包括神经网络的基础知识、利用卷积神经网络分类诱发电位图像、利用递归神经网络预测疾病的复发以及利用自编码算法去除图像噪音以生**的模拟图像。本书还涉及基础医学中深度学习的应用以及如何解释机器学习模型。然而,医学实践中往往不只需要预测某个患者的某项结局,更需要知道哪些治疗能够改善结局。本书在神经网络模型之后将以脓毒症患者的治疗为例介绍强化学习的概念,从而为进入因果推断搭建桥梁。
本书最后2个专题着重讨论如何通过因果关系图直观地判断因果关系中的混杂因素、如何使用回归控制混杂因素、如何利用倾向得分控制混杂因素以及如何利用逆概率加权控制混杂因素。结合强化学习的概念,最后将讨论如何评估随时间变化的治疗,以及如何建立治疗策略。
本书可作为各级医学研究者、医学院学生和教师的参考用书。
乔霓丹,男,医学博士,复旦大学华山医院神经外科主治医师。2012年博士毕业于复旦大学。 2009-2010年在日本京都大学北野医院实习,方向为心血管与神经外科。2017—2019年在职攻读美国哈佛医学院临床研究科学硕士,为美国麻省总医院神经内分泌科研究员,上海医师协会会员。至今发表SCI 30余篇。负责上海市科委扬帆计划1项,上海市科委基础研究项目1项。参与译著有《尤曼斯神经外科学》,参与编写《垂体瘤疑难病例汇编》。
①一本针对医学数据深度学习的内容十分全面且可实现操作性的图书。②此书涉及模型内容前沿,极具前瞻性;文稿中有计算机编程的介绍,可按其操作。③所选案例不仅包括图像数据,而且有临床数据库数据、基因数据、蛋白数据。期望读者阅读之后能在自己的数据中实现深度学习模型。④书稿中部分数据为作者工作成果,是作者在临床中收集整理而来。
笔者有幸在2017年7月受复旦大学附属华山医院神经外科委派,前往美国哈佛大学医学院攻读医学研究硕士学位,同时在美国麻省总医院进行临床研究。在哈佛大学医学院的课程主要包括机器学习、因果推断、临床试验等。在美期间同时参与与麻省理工学院的合作项目,主要内容是神经网络及医学电子病历大数据的应用。
笔者深感利用医学大数据进行预测和因果推断是今后临床医学研究的方向,也很遗憾国内的医学教育还比较缺乏这方面的意识。因此,笔者自觉有义务将在哈佛大学和麻省理工学院学习的成果和感悟分享给国内的医学研究者和学生。
随着计算机计算能力的提升,数据的产生呈爆炸式几何级数增长,数据存储的成本也越来越低。在医学领域也是如此:从基础医学到临床医学,从基因数据到电子病历数据,从文本数据到图像数据,医学的各个方面都出现了“大数据”。利用医学大数据进行医学研究是近年来的热门话题,频频出现在各大主流媒体上。如何存储数据、利用数据进行科学研究的学科称为“数据科学”(data science),主要包括三大方面:数据的描述(description)、数据的预测(prediction)和因果推断(casual inference)。传统的统计学着重于数据的描述,如发病率、均值、误差等,其统计推断也基于简单的卡方检验、t检验、Logistic回归分析等。随着数据量的几何级数增长,近年来以数据为导向的预测和因果推断在学术界发展迅捷。
利用数据进行预测需要解决的问题是,在某一人群中如何通过一系列观测值预判另一未观测值。传统的预测模型主要是线性回归模型,这也是最为广泛应用的模型。近年来,随着计算机计算速度的提升,以往难以完成的需要耗费大量计算能力的模型得到了广泛应用。这些模型统称为机器学习(machine learning),它通过算法和统计模型的科学研究,利用计算机系统来有效地执行特定任务,不使用明确的指令而是依赖于模式和推理。这其中也包括近两年来最为热门的神经网络,也称为“深度学习”(deep learning)。其实,这些模型的诞生都要追溯至50年前,但是因为那时的计算能力无法与模型的复杂程度匹配,因而这些模型未被广泛应用。
本书前半部分以重症监护治疗病房患者的数据为例介绍如何进行医学数据的预处理,在一般机器学习中重点介绍利用“梯度提升决策树”(gradient boosting decision tree)预测患者的死亡率,然后介绍聚类算法在基因数据中的应用。当然,本书前半部分的重点在于深度学习,包括神经网络的基础知识、利用卷积神经网络分类诱发电位图像、利用递归神经网络预测疾病的复发,以及利用自编码算法去除图像噪声并生成新的模拟图像。本书还涉及基础医学中深度学习的应用及如何解释机器学习模型。
然而,医学实践中往往不仅需要预测某位患者的某项结局,而且需要知道哪些治疗能够改善结局。本书在神经网络模型之后将以脓毒症患者的治疗为例,介绍强化学习的概念,从而为引入因果推断搭建桥梁。
由于仅仅利用模型进行数据预测终究无法指导医学实践,因此需要数据科学的第三大方面:因果推断。因果推断需要解决的问题是,评价一种观测值的变化是否带来另一种观测值的变化;如果有变化,变化的幅度又是多大。医学科学中进行因果推断最好的方法当属随机对照临床研究。如果需要研究某种药物对某种疾病是否有效,通常的方法是选取一个该疾病的患者队列,然后进行随机分组:一组使用该药物,另外一组不使用或使用安慰剂,比较两组患者的结局(缓解率、治愈率或死亡率等)是否不同,从而得出该药物是否有效的结论。然而,并不是所有的因果问题都可以用随机对照研究来解决,比如想要研究吸烟是否引起肺癌,就不能使用随机分组。不仅是干预措施有害时不能使用随机对照研究,结局出现时间太长的研究(比如喝咖啡是否引起死亡率上升)也不能使用随机对照研究。而且随机对照研究得出的治疗效果往往只是倾向性治疗的效果(intention-to-treat),即研究组与对照组对比的效果。实际研究过程中,部分患者可能存在不依从甚至组间交叉。医学实践现实中需要的往往是实际治疗(per-protocol)的效果,因此很多情况下需要利用观察性数据进行正确的因果推断。
观察性数据与随机对照研究的最大差别在于观察性数据中有很多混杂因素,因此控制混杂因素是利用观察性数据进行因果推断的关键。本书最后两个专题着重讨论如何通过因果关系图直观地判断因果关系中的混杂因素,如何使用回归控制混杂因素,如何利用“倾向得分”(propensity score)控制混杂因素,以及如何利用逆概率加权控制混杂因素。结合强化学习的概念,最后将讨论如何评估随时间变化的治疗,以及如何建立治疗策略。
本书所用软件为R和Python,因为传统的SPSS以及Stata对机器学习及进阶的因果推断支持性不佳。希望读者在阅读本书之后,能对数据科学有较全面的认识,也能运用本书中的模型与方法进行实际的医学研究;希望读者在今后的研究工作中区分所涉及的问题是预测问题还是因果推断问题(但同时这两者又通过相同的模型紧密地联系在一起)。
本书文字描述部分皆为笔者在美期间的学习所获及研究感悟。数据案例部分大部分为临床中收集的去除隐私信息的案例,部分来源于网络公开数据,小部分为模拟数据。代码部分大部分为作者自行编写,部分代码改编自一些引用文献,笔者也列出了这些引用文献。
本书文字中概念性的名词以中文表达并在括号中加注英文。如无特殊说明,直接用英文的表示数据表,用“ [列变量名] ”表示列变量名,用引号表示具体变量的值。
本书的写作得到了哈佛大学公共卫生学院Miguel Hernan教授、哈佛大学医学院David Sontag教授、麻省理工学院Leo Anthony Celi教授及谷歌研究员Ian Goodfellow等资深学者的指导,在此深表感谢。
本书受上海市科学技术委员会青年科技英才扬帆计划(17YF426700)、上海市科学技术委员会基础研究项目(17JC1402100),以及2018年度米尔斯坦亚美医学基金会转化医学研究基金(2018 Milstein Medical Asian American Partnership Foundation Fellowship Award in Translational Medicine)支持。
由于笔者经验有限,书中缺点和不足之处还望读者不吝指正。
乔霓丹
2019年7月
1 机器学习基础 / 1
1.1 数据概况 / 2
1.2 数据的预处理和特征选取 / 3
1.3 缺失值的处理与插补 / 8
1.4 交叉验证 / 12
1.5 模型建立 / 13
1.6 模型比较 / 20
2 梯度提升决策树 / 23
2.1 超参数 / 26
2.2 特征重要性 / 32
2.3 模型的临床应用 / 33
2.4 模型集成 / 35
2.5 机器学习的报告要点 / 38
3 聚类算法 / 41
3.1 各种聚类算法 / 42
3.2 主成分分析 / 46
3.3 聚类算法的直观显示 / 48
4 神经网络 / 51
4.1 感知器 / 52
4.2 全连接神经网络的训练 / 53
4.3 控制过拟合 / 58
4.4 公开数据来源 / 61
5 卷积神经网络 / 67
5.1 卷积运算 / 68
5.2 池化运算 / 71
5.3 简单卷积神经网络的构建和训练 / 71
5.4 图像样本量扩大 / 78
5.5 迁移学习 / 81
5.6 可解释的卷积神经网络 / 86
5.7 开放图像数据库 / 88
5.8 卷积神经网络的意义与不足 / 89
6 自编码和对抗生成神经网络 / 91
6.1 自编码算法基础 / 92
6.2 自编码算法降噪 / 97
6.3 变分自编码算法 / 100
6.4 变分自编码算法生成虚拟图像 / 104
6.5 对抗生成神经网络生成虚拟图像 / 105
7 递归神经网络 / 107
7.1 递归神经网络原理 / 108
7.2 递归神经网络构建 / 109
7.3 长短期记忆网络 / 111
7.4 门控递归神经网络 / 113
7.5 LSTM和GRU的构建 / 113
7.6 卷积神经网络和递归神经网络的叠加 / 115
8 自然语言处理和电子病历 / 119
8.1 从单词到向量 / 120
8.2 利用传统自然语言处理寻找脑外伤患者 / 122
8.3 利用神经网络寻找脑外伤患者 / 125
8.4 电子病历系统中神经网络的应用 / 131
9 可解释的机器学习 / 133
9.1 预测蛋白-蛋白间结合 / 134
9.2 预测基因-蛋白间结合 / 139
9.3 机器学习的解释 / 145
10 深度强化学习 / 147
10.1 强化学习 / 148
10.2 利用Q学习预测脓毒症的治疗策略 / 149
10.3 利用深度强化学习预测治疗策略 / 154
10.4 强化学习的不足之处 / 161
11 因果推断简介 / 163
11.1 反事实模型 / 164
11.2 随机对照研究 / 164
11.3 非随机对照研究 / 165
11.4 因果推断还是预测 / 165
11.5 因果关系图 / 166
11.6 分层分析 / 167
11.7 回归 / 170
11.8 交互作用 / 171
12 控制混杂因素的新方法 / 173
12.1 匹配分析 / 174
12.2 倾向得分 / 175
12.3 逆概率和稳定的逆概率加权 / 179
12.4 失访偏差的校正 / 182
12.5 随机对照研究中的偏差校正 / 183
12.6 工具变量 / 184
12.7 断点回归 / 185
12.8 随时间变动的治疗和混杂 / 188
12.9 动态治疗方案 / 189
附录:软件安装 / 193