作者简介： 李舰，现任九峰移动医疗 CTO，曾任 Mango Solutions 中国区数据总监。专注于数据科学在行业里的应用。擅长R语言的工程开发与分析建模，是 Rweibo、Rwordseg、tmcn 等 R 包的作者。与肖凯合著了《数据科学中的R语言》，参与翻译了《R语言核心技术手册》、《机器学习与R语言》。

tuyouyou.pic

这篇文章本来是从屠呦呦得诺奖的时候开始写的，作为一个拖延症晚期患者，直到今天才修改好。当然，现在讨论这个话题可以避免很多信仰方面的争端，大家可以心平气和地讨论药的问题。

对于中药、西药和统计学我都只是初窥门径，没有资格代表其中任意一方，在这里只是介绍一些本人在这个行业中工作多年学到的知识和个人的看法。之所以敢写这篇文章，是因为这是一篇科普文，比起某些因为信仰而走火入魔的科普作者，我觉得我还是很有资格的，毕竟我在西药研发和统计学的业界真刀真枪地工作了好多年，也帮助包括几家大药厂在内的很多著名公司用数据解决过不少实际的问题。

一、新药研发与临床试验

我们今天要谈的是药，药和医是不同的，中医和西医都是太大的领域，我不专业就不专门提了。相对来说，药学比较偏技术，也依赖数据，统计可以发挥很重要的作用。一款新药的研发和上市要经过非常复杂的流程。我这里尽量试图用最简单的语言大概地介绍每个环节，请注意其中关于时间和金额的数据是多年来的一个概数，是我个人和以前的公司搜集公开数据并总结的，主要用作行业交流，不保证完全精确但也可承诺不是瞎编的。

在新药研发中，首先是新药发现和临床前试验（Preclinical）的阶段，这个阶段主要是从实验室里筛选化合物并在动物身上进行试验，掌握初步的药动学规律并证实无毒，然后才能进入人体试验阶段。这个阶段通常需要持续3年半，其花费差不多占了整个药物研发过程中35%的比例。然后按照 FDA（美国食品药品监督管理局）的标准流程，需要进行四期的临床试验，只有通过了层层考验之后，才能上市卖个好价钱，把之前的研发费用弥补回来。通常在决定做试验之前药厂就开始向FDA等监管机构提交研究性新药申请（Investigational New Drug Application，简称IND），等到做完人体试验再提交新药申请（New Drug Application，简称NDA）。也就是说，从试验的开始阶段，新药研发就开始了。

第一期试验（Phase I）通常都是在健康的人群中进行，目地是证明药物的安全性，并探求药物的合适剂量。主要是使用药动学和药效学（简称 PK/PD）的方法去研究药物在人体内的吸收、分布、代谢等规律，并确认剂量的影响。这个阶段通常需要100位以内的试验对象，花费1年左右，成本方面约占15%。

第二期试验（Phase II）可以说是最关键的阶段，此时开始招募对症的病人进行试验，通常需要100到300位试验对象。花费2年左右的时间。这个阶段的成本通常占整个流程的40%左右。FDA于2004年提出了基于模型的药物研发模式，并于2009年正式成立了定量药理学评审室。作为肩负着行业兴衰使命的监管机构，FDA 一直鼓励药厂从二期开始就尽早地用模型和模拟（M&S）来帮助研发，这也是我之前最主要的工作。

由于第二期试验是新药研发中最重要的探索阶段，通常将第二期试验也分为两个阶段，IIa 和 IIb。 IIa 期先选取少量的试验对象，根据试验结果进行分析和建模，进行大量的探索和尝试，然后扩大试验规模，开始IIb 期。在 IND 申请中，FDA 于2003 年提出了 EOP2A（End of Phase 2A）的申请，鼓励药厂尽早地与 FDA 交流，并分享临床实验数据的建模和模拟经验。现在越来越多的药厂开始申请和重视 EOP2A。

第二期试验阶段是统计学应用的一个非常好的舞台，我们以某种癌症药物为例，首先要用非线性混合效应模型（NONMEM，既是模型也是软件名）来研究群体药动学和药效学，用微分方程来求解 PK/PD参数。还可以用一些非线性回归模型对肿瘤的生长进行建模。对于抗癌药物，能显著提升总体生存期是最终目地，因此还需要建立生存模型。利用已有的数据建完各类模型后，再使用蒙特卡洛方法模拟整个试验的过程，可以帮助药厂做决策，比如该药物的研发是否应该继续下去？是否要往特效药的方向发展？

第三期试验（Phase III）就是大规模的人体试验了，通常需要1000位以上的试验对象，主要是通过临床试验来验证药物的有效性。这个阶段一般需要3年的时间，花费10%左右的成本。通过了第三期试验之后，就可以安心地等待各项审批工作的完成（通常花费2年半左右的时间）。

一旦新药能够批准上市，就可以开始进行第四期（Phase IV）试验，这个阶段里药物被应用到更广大的病患人群，进一步验证药物的安全性和不良反应。进行完临床试验之后，药物就可以开始生产了。成功上市后，剩下的工作就是销售和市场了。

在整个制药行业，每年的销售收入差不多是6万亿人民币，而每年制药行业的研发成本在1万亿左右。每款上市的新药的平均研发时间是12年。在从实验室走出来通过了动物试验的药物中，最终能进入人体试验的只有千分之一。而通过人体试验最终能够上市的只有五分之一。平均每款药物的研发成本在50亿人民币左右。在所有的失败案例中，差不多有一半是因为在进行人体试验时无法证明具有统计显著的有效性而饮恨的。

二、中药与西药

大家可以发现，无论是时间、资金成本还是我介绍的文字，最大份额都是临床试验，这是搞统计的人可以愉快玩耍的领域。而网络上西药和中药的争论显然不是集中在这个领域。在我的介绍里，也只是“新药发现”一个词就带过了。在这里，我觉得青蒿素是一个非常好的例子可以说明这个争论的焦点。首先，我觉得有必要强调一下，就是青蒿素显然是西药而不是中药，有个事情我觉得非常有趣，从屠呦呦得奖开始我就在关注社交网络上关于中药的态度，结果中药粉还没有什么表示的时候就有一大波中药黑假想人们会认为青蒿素是中药，开始大肆攻击。实际上，从官方媒体的报道中可以很明确地知道，在我们以上介绍的制药流程中，青蒿素“新药发现”的灵感来自中药的方子，后面的动物试验到人体试验都和目前主流的新药研发流程没什么区别。

那么那张中药的方子在青蒿素的成功中发挥了多大的作用呢？中医粉认为是决定性的作用，中医黑认为就是牛顿苹果的作用。在这里我不过多地涉及信仰之争，仍然只是说统计和药。在制药界，新药筛选是永恒的难题，尤其是现在，好的化合物可能被发现得差不多了，筛选新的化合物越来越难，而很多药物的专利保护期不会等人，药厂面临的压力很大。本来化合物的筛选就像撞大运一般。据说当年美国为了越战抗疟的需要筛选了三十万种化合物（数据引自官方媒体，我没有认真考据，但该数据符合常理）也没有发现好的化合物，而屠呦呦当时的科研组从中医药方入手，很快就找到了青蒿素。如果把一切都归结于巧合，这不是科学的态度。化合物的筛选虽然极不容易，但是并不是新药研发中最关键的部分。那么中药和西药的不同之处究竟在哪里呢？

仍然拿青蒿素来举例，西药的药理学会研究化合物对人体的作用，我摘抄了一段介绍是这样的：“它们将修饰或抑制疟原虫生长所需要的大分子物质或破坏疟原虫生物膜结构，最终导致疟原虫死亡。” 我不确定我摘抄的这个一定对，但这就是西药研究药理的表述方式。我没做过青蒿素的相关模型，但我做过癌症药、糖尿病药、止疼药的模型。在西药的研发过程中，药理和生物、化学是紧密相连的，绝对是科学的方式，知道某个化合物会导致疟原虫死亡还远远不够，还需要利用血药数据建立药物进入血液后的药动学模型、药物浓度起作用的药效学模型，这样就可以量化地研究其规律，用统计模型来描述药和人体之间的关系，然后通过各项试验的数据来验证，并依赖且仅依赖于大规模人体试验的数据来判断该药是有效且轻害的。

而中药呢，是另一种表述方式，葛洪就说青蒿搅汁服用可以截疟。虽说这是个药，但里面也是有模型和理论的，比如最大的黑点就是很多模型并不是数学模型，而是玄学模型，比如阴阳五行之类。其实这些模型并不是伪科学，因为根本就不是科学。比如关于经络，虽然解剖不出，但是据说如果有谁能达到内视的境界，自己就能看到。这没办法用科学的方式来验证，也没有办法来证伪，而且可以自证。但这并不是中医和中药的全部，从神农尝百草开始的试验思想以及以疗效为唯一目地的统计思想是值得称道的。尤其是今天，有些人过多地关注数学模型相对于玄学模型的优势，而忘了模型的本质只是研究真实世界的一种不得已而用之的手段，刻意强调方法的“科学性”而忽视大规模数据的验证，我觉得这样的危害并不比方法不科学更小。

其实说到模型，解剖看不到不是关键，比如说现代药动学里面的房室模型解剖后同样看不到。但是在科学的体系下，利用数学来描述自然的世界就是正道。如果这个模型里面没有伊普西龙，那就要赶快告诉爱因斯坦搞个大新闻了。即使没有这么好的事情，只要有数据，肯定可以弄出统计模型的，如果能够在大量数据的条件下检验有效，那么数学和自然就统一了。这是当今最完美的解决方案，这就是科学的力量。我不认为科学是唯一的真理，但我相信科学是目前认识世界最好的工具，所以一直在科学的领域奋战。我觉得科学最伟大的地方在于有教无类，即使智商再低的人，只要有时间，就可以一步一步地从数学学起，即使进步缓慢也会一直在进步，只要肯努力就能在某个专业领域有所建树。而中华文化中的很多非科学的学科对个人特质的要求太高，容易良莠不齐，不好控制。

上面一段虽然有些跑题，但我觉得也有利于帮助我们理解中药和西药的差异。目前来看，中药和西药最大的差异在于药理，很显然古代中药的药理学很不科学，现代人致力于将中药理论科学化但是效果并不好。可是整个现代制药流程中，最接近真理的地方并不在于药理，而是药效。就拿青蒿素来说，如果有个人说“葛老仙翁说青蒿汁喝了就好”，我相信很多中医粉愿意喝，不过我不会喝。另一个人说“青蒿素可以破坏疟原虫生物膜结构然后导致疟原虫死亡”，我相信很多“科学青年”愿意喝，但是我也不会喝。这才是问题的关键，人们因为文化差异和信仰的不同，会对不同的理论产生不同的反应。但药这个东西不是小事，人命关天的东西不是理论有道理就该推崇的。所以说，现代药学真正核心的东西无关药理，而是试验。就拿所有人都不会反对的 FDA 来说，其权威性就是靠严格的试验控制挣来的，当年拒绝“反应停”就是 FDA 的经典之作（感兴趣的读者可以自行搜索）。所以哪怕化学和药理学告诉我青蒿素再好，我也不信，我只信大规模试验后的数据，这就是统计。

三、统计学的应用

统计学是隶属于西药还是中药？很显然都不是。但是太多人认为它只属于西药的阵营，随机双盲说起来都溜得很。实际上，相信试验数据恰好是一种结果导向，用最终的疗效说话而不是靠理论正确。刻意地用“传统落后医学”和“现代医学”来区分中医与西医，我是不赞同的，如果我是中医粉的话，我会从循证医学、转化医学、精准医疗的角度来辩驳，这就不是本文关心的问题了。

那么统计学是否能支持中药呢？很显然，统计不拒绝任何对人类有帮助的东西，我们只相信数据及其结论。但是实际的情况是中药基本上不参加随机双盲的试验。这不是因为中药在逃避，而是因为另一个复杂的问题。在我的前文表述中，提到制药其实默认都是西药，而且是西药中的化合物药，这是制药界的传统。目前我们用的药中，绝大部分都是单一化合物的药。在我参加的项目中，药厂在传统的新药研发之外最关心的新领域有两个，一是生物制药，二是混合物药。我做过一个研究就是某药厂关于两个化合物协同效应的探索。搞模型的人都知道这个难度比单一化合物要高多了。中药在临床试验中面临的最大问题就是混合物的问题。

传统的草药中绝对不止两个化合物，如果要维持传统的制法，要做到两剂药中各成分的含量相同，如果不要求精度，还能用运筹学搞个非线性混合整数规划来求解，要要求严格的比例控制的话，基本就不可能了。如果纯粹从化合物入手，那就不知是多少种化合物的组合了。作为混合物，中药没办法参加随机双盲试验，这是略懂统计的人就该懂的道理，但这并不意味着中药没办法进行科学的试验，这应该是中药粉今后努力的正确方向。中药也不是没有 FDA 验证的先例，本文不广告不引战就不继续这个话题了。

最后再回到文章的开头，我相信屠呦呦的诺奖影响肯定不会小。至少像我这样偶尔到制药界的后花园逛一下的统计人士就被影响了。我以前一直认为中药这样不科学的东西往科学的方法上靠肯定是死路一条。但是屠老得奖后我的想法也变了，我之前在一次会议上看到有人拿5个化合物建模的时候觉得这是刑天舞干戚，但是现在觉得这未尝不是中药的一条新路。每个学科都有自己的理论，这里我就不过多地置喙了，但善用统计学、相信数据不会错，希望无论是中药还是西药，都能在统计学的护持下认真地成长。

中药、西药及统计学

李舰

一、新药研发与临床试验

二、中药与西药

三、统计学的应用

关于作者

李舰