猜你喜欢
实用健康医疗数据科学精要

实用健康医疗数据科学精要

书籍作者:弓凯 ISBN:9787302647676
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:9537
创建日期:2024-05-10 发布日期:2024-05-10
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书分为道、术两篇。道篇讲述了数据科学与医疗全领域交互融合的底层逻辑,以及数据科学在医疗科、教、医、研、管五个方面的角色和作用,建立适用于医疗人工智能开发的ML-PICOS原则,并从建设角度,阐述了医疗大数据理、采、存、管、用的全过程。术篇普及了数据科学用于回归、分类、聚类、关联分析的基础算法,以及他们在医疗领域应用的场景和逻辑。本书可帮助读者建立数据科学在医疗领域应用的体系化认知。读者对象包括医疗全领域相关工作者以及想要涉足医疗领域的数据科学相关人士。

作者简介

弓凯,北京大学医学部外科学博士(本博连读)、神经外科副主任医师、厦门大学附属第一医院计算机中心副主任、医疗大数据中心负责人、厦门市第三医院信息办主任。

前言

近年来,随着医疗健康产业信息化水平的不断提升,医疗数据的体量出现了前所未有的快速增长,医疗数据的应用也逐渐成为了医疗行业普遍关注的热点话题。在国内老龄化加重、慢病负担持续增大的压力下,国家出台大量政策鼓励使用医疗大数据推动智慧医疗建设,通过医疗大数据及人工智能的技术赋能,改善医疗需求和供给的匹配失衡,以全民健康,托起全民小康,推进健康中国战略。在我国全面启动卫生数字化转型的大背景下,医疗数据应用已经成为不可逆转的行业趋势。数据科学将逐渐渗透到健康医疗服务的各个角落,值得每一位卫生从业者学习和掌握。

医疗数据是一个宽泛的概念,它包含了各种与健康和疾病相关的数据,例如疾病诊疗数据、临床研究和实验室数据、生物信息数据(如基因组学、转录组学、蛋白组学、代谢组学等数据)以及健康管理数据(如可穿戴设备监测数据)等。医疗数据的积累为人工智能等数据科学手段提供了施展拳脚的舞台,数据科学的进步又为医疗大数据的应用提供了全新的技术手段。两者的相互成就,促成了目前医疗大数据产业的繁荣。近年来,基于数据驱动的医疗人工智能产品层出不穷,其中一些具有代表性的产品,如肺结节的智能诊断、输血智能预测和深静脉血栓预警系统等,已经应用到实际临床业务场景中。在学术方面,人工智能领域的诸多算法为临床及基础研究提供了全新思路。基于数据科学技术手段的医工结合,已经成为医疗乃至生命科学领域非常重要的交叉学科发展方向。

然而,纵观近年来大数据和人工智能对医疗行业的影响,可谓广度喜人而深度不足。在诸多医疗人工智能产品中,得皮毛者多,得精髓者少。目前,医疗大数据与人工智能的从业者多是信息技术人员,他们虽深谙数据科学技术,却缺乏医疗业务经验,无法深刻理解医疗数据的产生背景和行业隐喻,也无法全面掌握在实际医疗场景下的决策要素与思辨逻辑。而医疗健康服务的实施者,包括医疗管理者和医务工作者,虽然在医疗行业深耕多年,但长期积累的行业经验在数据科学时代往往会成为一柄双刃剑——在帮助他们胜任日常工作的同时也成为束缚思维的枷锁。传统医疗从业者常常因为数据科学知识欠缺而无法匹配数据科学与医疗业务的底层逻辑,因此无法与数据产品完成有效的协同交互,更无法充分利用数据科学提升医疗健康服务的质量和内涵。由于行业壁垒的限制,很多数据科学产品在临床中的应用流于形式。甚至近年来,智慧医疗领域存在一种认识上的误区,认为数据赋能医疗的具体方式是以特定数据产品的形式呈现的。笔者认为,数据产品虽然是智慧医疗建设的重要组成部分,但它们只能是特定的工具,服务于特定状态下的时期和场景,一旦脱离产品的设计框架,使用者就无法获得可信的决策建议。数据改变医疗的着力点,一定是改变医疗行为决策的思维意识形态,而并非依赖业务伴随系统。数据科学是一种工具,更是一种能力,一种不断用数据提出问题和解决问题的能力。我们需要不断地提问和回答,需要用什么样的数据,来解决什么样的问题。现实问题的多样性、时效性、地域性和不稳定性等特点决定了要以更灵活的方式处理数据,借助科学的思维方式不断地求索、推理和决策。这正是数据科学家们的日常工作。

数据科学的探索过程大多是通过编程实现的,但是这种编程和传统信息行业存在明显的区别:后者多以实现某种具体功能为目的,程序员通过计算机语言把人的想法实现,这个过程更多的是人到计算机的单向输出;而数据科学家的编程是以数学语言为媒介和数据不断对话的过程。例如在拿到一个数据集后,我们要知道每个变量的样本分布、了解缺失值的分布和产生原因、了解不同类别样本的均衡性、评估各类分析方法使用的合理性等等。我们称这种编程方式为“文学式编程”,它是一个充满故事性的数据叙事过程。在未来,基于文学式编程的交互式分析将成为数据分析的主流方式。相比于传统编程,数据科学更接近一种思想和文化。国际知名数据分析公司Juice Analytics的创始人曾写过一本专注于“数据畅流”理念的著作——Data Fluency: Empowering Your Organization With Effective Data Communication。数据畅流指的是运用数据语言流畅地交换和探索组织重要思想的能力。书中认为实现数据畅流需要四个基本要件,分别为具备数据素养的消费者、熟练的数据生产者、数据畅流的文化和数据产品的生态系统。在医疗领域,医务工作者既是数据的生产者,也是数据的消费者,他们是否具备基本的数据科学素养,能否用数据发现、沟通和解决现实问题,对于是否能在医疗领域内建立数据畅流文化和数据产品生态是至关重要的。数据之于业务,好比空气之于飞鸟,流水之于游鱼。所谓忘形而得神,神明而章成。只有提高医疗从业者的数据科学素养,进而在医疗圈形成一种数据文化,才能使数据对医疗业务起到隐性的、稳固的、持续的、充分的支撑作用,才能打破隔行如隔山的窘境,充分释放大数据和人工智能在医疗行业的潜力和产能。

当前,医学发展存在四个趋势,分别为全科协同(科间协同)、全程统筹(从健康到疾病、从出生到死亡的全病程管理)、全队介入(医护、心理师、社工、康复师等)和全能应对(技术胜任力兼备人文胜任力)。前三者都需要医疗信息在不同医疗团队和地域组织间广泛互通共享,而数据科学的广泛应用也对医护人员的技术胜任力和人文胜任力提出了新的要求。在信息化和数据化的重要性一再被强调的背景下,许多进步的医疗工作者已经开始追逐数据革命浪潮,尝试学习数据科学的理论和技术。市面上相关领域的出版物很多,其中不乏经典:例如Lan Goodfellow教授所著的Deep Learning(业内又称之为花书)、周志华教授所著的《机器学习》(又叫西瓜书)和李航教授所著的《统计学习方法》等。这些著作虽然被公认为学习人工智能的经典,但是它们的默认读者都是有一定数学和编程基础的信息技术人员。书中复杂的数学公式和推理已经超出了绝大多数医务工作者的理解能力。让医务人员研读数据科学领域的专业书籍,轻者云里雾里,重者寸步难行。而市面上的一些人工智能科普读物,大多仍处在只看热闹而不讲门道的状态,无法让医务人员深刻体会到数据科学和医疗业务的逻辑共鸣。阅读此类科普书籍,并不足以改变医务工作者在实际业务中的思维方式,更不足以帮助他们利用数据科学解决现实医疗问题。因此,医疗大数据与人工智能,实则是一门谈者多懂者少的学问。这也呼应了人工智能界广为流传的一句笑谈:学习人工智能,不是从入门到精通,而是从入门到放弃。畅销书作家Malcolm Gladwell在其著作David and Goliath: Underdogs, Misfits, and the Art of Battling Giants中提出了两种学习模式——资本学习(capitalization learning)和补偿学习(compensation learning)。前者指在自己的优势知识或技能基础上进行学习,相对容易;后者是指在自己的劣势区学习,补齐短板,这无疑将会非常困难。对于医疗工作者而言,尽管医学也是一门终身学习的学问,但是大部分人的知识体系已经定型,很难再走到偏离自己认知舒适区太远的位置。而数据科学就处在这个认知能力可及区的边缘。对于大部分医务人员来说,学习数据科学是妥妥的补偿学习。如果想降低学习难度,就要从医疗从业者熟悉的领域入手,努力把补偿学习转变为资本学习。因此,为医疗从业者量身打造一本医疗数据科学的通识读物,努力为数据工作者和医务工作者建立业务契合点,是笔者作为医疗大数据践行者的夙愿。本书从医疗入手,用医生的话,讲数据的事,把对数据科学技术的讲解,融入医疗场景中。本书坚持道术融合:道者,形而

上,是抽象的,侧重于战略;术者,形而下,是具体的,侧重于战术。《道德经》有

言:“有道无术,术尚可求也。有术无道,止于术。”医疗数据科学中的“道”对应着数据科学的来龙去脉,数据思维的基本逻辑,数据与医疗的本质联系;“术”则对应着具体的算法,以及它们在医疗业务中的实际作用和具体实现。目前相关领域的读物普遍“道”与“术”难以兼顾,数据科学的庞大体系很容易将人的精力全部消耗在“术”的繁杂中,而不得入门之法。所谓道为体,术为用,道为纲,术为目。我们学习数据科学,先要明白“道”,从而理解数据;在这个基础上,再了解“术”,从而应用数据。明白了道的初衷,才能守一而用万;明白了术的逻辑,才能触类而旁通。

九层之台,起于累土,数据科学的底层是数学,绕开了数学理论,大部分算法是没办法讲透的。网上有个段子,说生活可能会欺骗你,但是数学不会,因为数学“不会”,就是“不会”。笔者同每一位医务工作者一样,深深理解非专业人士对于数学的恐惧。因此,本书在讲“术”的部分章节中,依据所涉及的数学原理从浅到深,分为不同层次进行算法讲解。读者可以根据自身的接受能力和要求选择性阅读。略过部分数学原理,并不会对算法的理解造成特别大的影响。

需要特别声明的是,数据科学和医疗行业都是快速发展的行业。数据科学作为一种思想和技术工具,如果在医疗领域只为部分研究者或技术协作者掌握,没有改变医疗一线工作者的思维方式,没有颠覆医疗相关决策所依据的思考路径,那么医疗数据科学的发展是不能被称为“成功”的。对常年忙于医疗事务性工作的一线人员而言,数据科学是相当遥远的存在。我们不能一开始就从一个高大上的角度来向医疗工作者介绍数据科学,尽管那样看似高屋建瓴,实则在阅读伊始就并非与受众读者同频思考。本书的目的,并不是向读者传递最前沿的数据科学+医疗领域知识。如果读者有这种思想,应该去读最新的研究文献,而不是读一本书。本书的初衷,是站在医疗业务的最底层,从各类医疗从业者的日常工作出发,向更高的认知高度,即:朝着数据科学的方向攀登到数据科学能够在医疗领域实现文化畅流的高度。让广大医疗临床人员、管理人员、科研人员、产业人员等,在充分认识医疗业务逻辑和思维方式的基础上理解数据科学。让医疗与数据的融合超越信息数字孪生的层面,达到医疗业务根本逻辑的数据科学思想孪生层面。让数据为医疗代言,促进数据科学在医疗领域工具化、语言化、思想化、文化化,借此改变医疗工作人员的思维范式,尽可能消除医工交叉团队之间的专业隔阂,从而促进数据科学在医疗领域发挥更大的作用并加速其向前

发展。

数据科学与健康医疗的文化融合,其意义远不止于改善当前健康医疗领域的业务现状,更在于医学科学的发展和传承。著名教育家约翰·杜威(John Dewey)曾说:“如果我们用过去的方式教育现在的孩子,就是在剥夺他们的未来。”在数据科学与健康医学广泛融合并协同发展的今天,只有广大医疗卫生从业者转变思维方式,拥抱数据科学,才能让下一代医学人站在更高的起点向上攀登。因此,本书亦可作为健康、医疗、数据相关课程的参考用书,以及面向医疗首席数据官的通识读物。图1、图2和图3给出了本书主要内容的思维导图,供读者预览。

医学知识浩如烟海,数据理论博大精深。笔者诚惶诚恐,希望尽绵薄之力,推动医疗数据科学的普及和发展。由于能力有限,书中难免有不当和错误之处,还望读者海涵和指正,不胜感激!



2023年10月


目录

第1章 医学发展与数据科学 1

1.1?医学认知的物质化、科学化和数据化 1

1.1.1?从神灵主义走出的医学? 1

1.1.2?医学认知的物质化? 2

1.1.3?医学认知的科学化? 4

1.1.4?医学认知的数据化? 6

1.2?数据化或是传统医学现代化的必经之路 8

1.2.1?现代医学与传统医学的分歧? 8

1.2.2?数据科学助力传统医学融入现代? 8

1.3?以实践和数据说话的循证医学发展历程 10

1.3.1?理解循证医学? 10

1.3.2?循证医学证据体系建立的五个阶段? 11

1.4?基于PICOS原则把临床语言转变为数据语言 18

1.5?数据科学在循证医学证据体系以外的应用 19

第2章 走进数据科学时代 23

2.1?大数据的由来、定义和特征 23

2.1.1?大数据的由来和定义? 23

2.1.2?大数据的nV特征? 24

2.1.3?走出数据以“大”论英雄的误区? 25

2.2?大数据发展的数据工程问题 27

2.2.1?硬件工程问题? 27

2.2.2?软件技术问题? 28

2.3?大数据发展的数据科学问题 30

2.3.1?统计学的由来与发展? 30

2.3.2?智能的内涵:知有所合谓之智,能有所合谓之能? 31

2.3.3?人工智能的起落与辉煌? 32

2.3.4?发展人工智能应坚守的造物观:重己役物,致用利人? 35

2.4?大数据驱动的数据科学生态变革 38

2.4.1?从统计学思维到应用型思维? 38

2.4.2?数据科学生态促使数据从业者角色分化? 40

2.5?大数据驱动的科学研究范式变革 42

2.5.1?科学革命的结构? 42

2.5.2?第四范式与AI for science? 43

2.6?大数据驱动的日常生活变革 46

2.7?数字经济驱动数据要素价值变现 48

2.7.1?互联网泡沫破碎后的数字经济重建? 48

2.7.2?理解数据要素化? 49

2.7.3?数据变现的路径? 51

第3章 健康医疗大数据与人工智能 54

3.1?健康医疗大数据的范围 54

3.2?健康医疗大数据的行业特征 55

3.2.1?医疗大数据的纵向和横向孤岛现象? 55

3.2.2?健康医疗大数据的多模态性、疾病主题特异性和动态性? 56

3.2.3?健康医疗大数据的主观性和价值稀疏性? 56

3.3?大数据驱动的人工智能在医疗领域的应用与角色 59

3.3.1?人工智能在医疗领域的应用? 59

3.3.2?从效率工具角度看待医疗人工智能? 61

3.3.3?医疗AI开发中的困难与瓶颈? 62

3.4?模型的透明性和可问责性是医疗人工智能广泛落地的基础 64

第4章 健康医疗大数据让循证医学走进真实世界 67

4.1?以RCT为代表的理想世界研究的局限性 67

4.2?基于真实世界数据的真实世界研究 69

4.2.1?真实世界研究的定义? 69

4.2.2?真实世界研究的证据等级体系? 72

4.3?大数据时代下的真实世界人群队列管理 74

第5章 基于真实世界数据的医学统计 76

5.1?医疗业务的数据化 76

5.2?缺失值的识别和处理 78

5.3?真实世界研究数据分析要点概述 80

5.4?统计三件套:说一说、比一比、找关系 84

5.5?从暴露到结局的单变量关系是经典循证医学研究的基本关注点 90

5.5.1?单变量之间的线性和广义线性关系? 90

5.5.2?单变量之间的线性趋势关系和非线性关系? 98

5.5.3?从辛普森悖论看为什么研究单变量之间的关系同样要做多

   因素分析? 101

5.5.4?单变量间的相关关系和因果关系? 104

5.6?单变量之间关系的论证逻辑结构 105

5.6.1?从定性到定量:单变量关系研究需要回答的四个问题? 105

5.6.2?从一根杠杆看懂何为混杂和交互因素? 106

5.6.3?混杂因素的识别和控制? 108

5.6.4?交互因素的识别和控制? 112

5.6.5?倾向性评分:控制多个混杂的神器? 113

第6章 由统计推导结论到智能预测 119

6.1?从医学统计到统计学习 119

6.1.1?从效用统计到结局预测? 119

6.1.2?从人工智能到机器学习? 120

6.1.3?人工智能中的损失和优化? 123

6.2?临床预测模型构建的基本思路 125

6.2.1?建模前工作? 125

6.2.2?建模中工作? 127

6.2.3?建模后工作? 129

6.3?医疗机器学习的“PICOS” 140

第7章 统计学习的常见算法浅析 142

7.1?回归分析中的多重共线性与Lasso回归 142

7.1.1?多重共线性的影响和识别? 142

7.1.2?Lasso回归的原理? 143

7.2?通俗好用的树模型和集成算法 146

7.2.1?用于分类任务的决策树构建? 146

7.2.2?用于回归任务的回归树和模型树? 151

7.2.3?群策群力的集成学习? 152

7.3?人们日用而不自知的贝叶斯推理 155

7.3.1?初识贝叶斯定理? 155

7.3.2?朴素贝叶斯算法? 158

7.3.3?概率图模型? 159

7.4?基于距离的机器学习分类与聚类 161

7.4.1?K近邻分类? 162

7.4.2?聚类算法? 163

7.5?数据降维的艺术 166

7.5.1?主成分分析? 166

7.5.2?因子分析? 174

7.6?支持向量机 178

7.6.1?AI界的水果忍者? 178

7.6.2?SVM到底在优化什么?? 180

7.6.3?核技巧是使SVM真正强大起来的原因? 183

7.7?挖掘数据共显模式的关联规则算法 185

7.7.1?驱动购物的关联规则? 185

7.7.2?Apriori算法? 186

7.8?时间序列分析 188

第8章 开启多模态学习的深度学习 201

8.1?人工神经网络与深度学习 201

8.1.1?人工神经网络与深度学习入门? 201

8.1.2?神经网络在学习过程中,到底学到了什么?? 204

8.1.3?如何更准确地选择损失函数下降的方向? 208

8.2?卷积神经网络与机器视觉 211

8.2.1?卷积神经网络的直观理解? 211

8.2.2?卷积运算的数学解释? 214

8.2.3?计算机视觉和卷积神经网络的发展脉络? 217

8.2.4?医学影像人工智能? 222

8.3?给AI植入想象力的对抗生成网络和扩散模型 227

8.3.1?对GAN原理的形象理解? 227

8.3.2?GAN训练过程的算法数学理解? 228

8.3.3?GAN的其他集中花式玩法? 230

8.3.4?扩散模型简介? 233

8.4?使AI学会策略的强化学习 235

8.4.1?理解决策过程? 235

8.4.2?如何学习Q值?? 236

8.4.3?理解整个策略学习过程? 236

8.4.4?理解深度强化学习之DQN? 238

8.5?循环神经网络与自然语言处理 240

8.5.1?对RNN的形象理解? 240

8.5.2?对RNN的算法理解? 241

8.6?基于深度学习的自然语言处理简介 245

8.6.1?词的向量表示? 245

8.6.2?Encoder-Decoder和注意力机制? 250

8.6.3?从transformer到ChatGPT? 253

8.6.4?自然语言处理在医学中的应用浅析? 261

8.7?大模型驱动的AIGC通用人工智能时代 263

8.7.1?AIGC缘起? 263

8.7.2?大力出奇迹:ChatGPT引爆了AIGC的奇点? 264

8.7.3?大模型的解封咒语:提示工程? 269

第9章 日常诊疗与数据科学 271

9.1?临床推理中的双重认知模式 271

9.2?医疗与数据科学的认知协同 275

9.3?人机决策与CDSS 278

9.4?医疗从业者学习数据科学的必要性和可行性 281

第10章 精准医学与数据科学 284

10.1?精准医学的由来 284

10.2?精准医学与组学研究 285

10.3?以中心法则为主线开展的组学研究 286

10.4?中心法则之外,拓宽组学的边界 291

10.5?始于差异,经由机制,终于临床 293

第十一章 医药研发与数据科学 301

11.1?新药研发概述 301

11.2?生物分子的化学表征与计算 302

11.3?基于不同分子表征的模型计算 304

第12章 转化医学与数据科学 307

12.1?转化医学的由来、阶段和与数据科学的关系 307

12.2?树立合理的医学科技创新观念和转化动机 310

12.3?科技成果评价的主要方法和维度 314

12.4?医学科技成果的转化途径与过程 325

12.5?医学转化案例之CRISPR-Cas9基因编辑技术 330

第13章 智慧健康医疗与数据科学 333

13.1?智慧健康医疗概述 333

13.2?智慧健康医疗衍射出的重要概念 340

13.3?数据科学之于智慧医疗,是渔而非鱼 345

第14章 合理医疗与数据科学 351

14.1?合理医疗的大道理 351

14.2?不合理医疗的小算盘 352

14.3?合理医疗监管的外儒内法 359

14.4?监管手段从形式之法到数据之法 361

14.5?基于数据科学的合理医疗循证评价 364

第15章 医院管理与数据科学 370

15.1?指标化的医院数字化管理 370

15.2?基于数据科学的DRGs/DIP医保费用管理 379

15.3?基于数据科学方法的精细医院运营管理 386

15.4?基于数据科学的RBRVS绩效评价体系构建 391

第16章 医学人文与数据科学 396

16.1?技术和人文是医学发展的双翼 396

16.2?数据科学对医学人文的潜在影响 400

16.3?在医学美学的指导下发展医疗数据科学 403

第17章 医疗大数据的理、采、存、管、用 407

17.1?医疗机构数据应用的窘境 407

17.2?医疗大数据平台的四层架构和五项功能 412

17.3?医疗大数据的变现管理 421

17.4?医疗大数据应用的安全体系 426

17.4.1?信息安全是所有数据建设的基础? 427

17.4.2?健康医疗大数据的合规管理? 431

17.4.3?隐私计算在促进医疗大数据合规应用的作用? 437

17.4.4?隐私计算融合区块链提升数据协作全流程保护能力? 441

17.4.5?易被忽视的AI安全? 442

17.5?DataOps推动业务数据协作联动? 445

17.6?警惕唯数据主义的陷阱 447

后?记 精数道以明医理,通仁术以践仁心 453