博古睿讲座06 | 数据、算法与精准医学伦理
主要观点:精准医学在当代具有必要性,借助机器学习等方法全面分析数据尤为重要。除隐私与安全等话题,精准医学还面临数据限制或价值偏倚等问题,影响人工智能系统的准确预测。因此必须就算法设计做出价值选择,采集有代表性的数据样本,纳入尚未得到充分关注的人群。
在11月份举办的第二场博古睿讲座(06)上,斯坦福大学生物医学伦理学中心主任大卫·马格努斯(David MAGNUS)应邀在北京大学作了题为“精准医学应用中的伦理挑战”的演讲。
大卫·马格努斯(David MAGNUS)
马格努斯的发言首先强调了精准医学在当代的必要性——在目前的诊所中,医师能够考虑的变量是有限的。医师所使用的数据,往往基于其在某一固定医疗保健系统下,与个人的零星接触;而非可用的全部数据。同时,他提出医师诊断可能存在的偏倚,比如接诊患者近期经历通常会对医师的判断造成很大影响。
考虑到上述因素,以及今天的医师们可以通过电子病历、可穿戴数据获取的大量数据。因此,借助机器学习等计算工具,对数据进行全面的理解与分析就显得十分必要。
马格努斯详细阐述了(除隐私与安全等话题之外)精准医学面临的诸多挑战。首先是嵌入算法设计过程的值。与患者或其医师制作的算法相比,第三方供应商开发、返销给医疗系统的算法,可能会将着重点放在不同结果上。其次是数据的偏倚与限制。2011年启动的“世界基因组学”研究显示,在大多数全基因组关联研究中,96%的数据样本采自具有欧洲血统的人群。因此,许多人群未能获得系统性的代表,那么,人工智能系统是否尚能做出准确预测?对此,他提出了质疑。
“数据可以产生‘自我应验的预言’,而且偏倚最终会通过机器学习被‘吸收’”,马格努斯提到2009年,他研究“神经发育延迟对儿科实质脏器移植决策”的影响时如此表示。这一研究分析了神经发育延迟,在移植决策中使用频率的项目所占的百分比。其中发现44%的项目,通常会在决定是否将某人列入移植名单时考虑“发育延迟”;而39%的项目很少或从不考虑这一因素。马格努斯表示,这就意味着,如果机器学习向一家没有“将发育迟缓儿童列入移植名单”的机构学习,算法则将此类儿童视为负结果,从而强化现有偏倚并将其具体化。
此外,算法的设计过程面临进退维谷的处境,即决策重点选择落在算法而非算法结果上,将会降低算法在其结果准确性方面的预测能力;而将决策重点选择落在算法结果及预测本身上,却可能会因此加剧社会不平等情况。
马格努斯之所以提出这一思考,是为了强调必须就算法设计本身做出艰难的价值选择。但他同时表示出一种担忧,即医疗保健系统和临床医师可能尚未意识到——在算法或其一直从中学习的数据中,存在大量的数据限制或价值偏倚。因此,为了使精准医学对每个人都有效,输入算法的数据样本必须具有代表性,而且必须包括目前许多尚未能得到充分关注的人群。
解决这一问题,首先需要了解科学研究数据采集中的“招募”障碍。马格努斯为此提到VALUES研究,即“患者价值观及其对知识库的态度”,在研究中使用EHRs与样本。这一方法旨在“评估和比较患者对于在种族和民族各异的患者群体中使用和管理临床数据及样本的态度”,并“确定与对临床数据及样本的使用、共享和管理的态度及偏好相关的因素”。通过研究发现,为了形成所需的信任,需要仔细考虑隐喻术语的选择,特别是在生物库相关研究中未能获得充分代表的人群,以便收集具有代表性的数据样本。
这一研究的参与者对生物库的“库”(bank)中,所体现出的商业含义表达了强烈的消极反应,因此,马格努斯表示,有必要寻找一种更为合适的词汇或概念。“‘医学信息库’(Library of Medical Information)等可以更好展示‘生物库’研究中的关键特征。”
为了采集有代表性的数据样本,以此推动精准医学的未来研究。马格努斯强调,“认识文化差异”对形成良好的社区联系和关系而言,至关重要。因此,他提出了防止滥用算法的四条建议:算法设计需要尽可能透明;设计算法时临床医师与工程师需要紧密配合;算法设计需要考虑到不同的价值观与利益群体;保障数据一致性。
算法体现着所学习数据的价值观。因此,马格努斯在演讲的最后提出了一个问题:我们能否期望,在输入了我们的所有缺陷之后,可以获得一个完美的算法?
* 大卫·马格努斯(David MAGNUS),美国斯坦福大学医学与生物医学伦理学、儿科学与医学教授;《美国生命伦理学杂志》(American Journal of Bioethics))主编。
** 本文由北京大学国际关系学院研究生慕天一(Echahbouni Moustapha)采写。
(杨嘉琪/编辑)