遵循《药物临床试验数据递交指导原则》,让数据递交从源头开始良性运作
2020年5月,国家药品监督管理局药品审评中心发布《药物临床试验数据递交指导原则》(征求意见稿),除了数据递交规范化之外,指导原则还进一步阐明了约束递交的要求。那么,下一步的工作具体需要谁来做,做什么,怎么做?值得从业者们仔细思考。本文对指导原则进行了一定解读和整理,与读者分享,也欢迎在留言区与我们探讨交流。
● 1、数据递交标准的价值
新版指导原则中提到:“鼓励”申办方以临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)的标准递交临床试验数据及相关的申报资料。为什么是“鼓励”使用标准方式递交,而不是强制要求?我们可以从其他相关标准的发展历程中瞥见端倪。
以FDA积极推进SDTM(CDISC的其中一项标准)为例,SDTM格式从2002年由CDISC Submission Data Standards (SDS) team 提出的Submission Data Domain Models演变而来,并于2004年正式发布可执行版本。在此过程中,FDA一直定期参与SDS team组织的会议,随后的多版本修订中,FDA也一直积极推进将“使用标准格式进行递交”这一举措纳入递交要求的提议。2005年FDA CDER总监Dr. Janet Woodcock指出,FDA的一项重要目标就在于使业界统一执行SDTM标准。2006年后,SDTM标准提交的要求成功被写入了Notice of Proposed Rulemaking (NPRM)。
同时,在强制要求按照SDTM标准提交之前,FDA充分吸收业界意见,开发了根据SDTM自动转换data listings 和patient profiles的工具,并据此对外提供关于SDTM review及相关工具的培训,这使得各类数据相关文件的审阅效率大大提升。
而对于国内监管部门而言,现阶段应该正处于这条规范格式的发展道路上,吸取前车之鉴,待标准递交相关工具和培训成熟之时,相信“鼓励”将会成为“要求”。
除了审阅方,对申办方以及其他所有需要采集临床数据的机构而言,数据标准同样重要。数据标准一旦统一,不同项目不同系统中的数据更容易被串联,历史数据中的知识也将更容易被挖掘。这为节省传输转化成本,提高数据质量,发掘药物用途,规避药物风险,预测试验走向创造了有利条件。
综上,为转换成SDTM标准格式提供便利,将成为所有数据相关方,尤其是DM和EDC供应商的一个重要发展方向。
● 2、数据递交标准的主要关注方
数据管理人员,生物统计人员,以及申办方会受到数据递指导原则的较大影响。
数据管理需要创建CRFs,EDC则需要创建eCRFs, 其中对每个字段的命名以及格式设定需要直接遵守递交指导原则。否则,在统计阶段会带来巨大的重命名以及转换工作量,而且如果数据结构混乱,没有相关说明文件,则转化成本更高,最终造成字段遗失或解读错误,数据的递交质量将无法保证。
对于申办方来说,上面提到的数据流在外包的情况下是一个黑盒体系。拥有完整体系的申办方,从CRF设计,字段命名,到转换分析用的Macro全部是标准化的,新项目如果用同样的设计模型,只需要调整参数就可以得到大部分转换后的原始数据以及分析数据结果,节省大量资源,但前提是申办方能够有力把控好统计部分。对于过程外包,或者自身体系不完善的申办方,这一周期必然延长,但如果能确保DM数据格式,命名标准化,或者EDC系统将此流程标准化,那么转换成本可以大幅降低,且保证项目质量。
● 3、从源头遵循数据递交标准
对指导原则进行剖析后不难发现,我国的数据递交要求正逐步与国际接轨。关于递交格式,则要从数据格式的源头EDC说起:
法规原文
1.原始数据库通常包含多个原始数据集,原始数据集应按主题进行组织并命名,数据集通常以两个字母组成的代码命名,如受试者人口学数据集(DM)、不良事件数据集(AE),实验室检查数据集等(LB)
可以看出,这个命名方式和例子实际上都与SDTM标准中的命名相同。这里的用词“通常”反映出了完全标准化之前对非标项目的暂时容忍。
EDC建立eCRF时需要在域层级以两字母命名(推荐用CDASH或SDTM命名方式),例如图中的SAS Dataset Name(在某些EDC系统中是Form OID),因此需要特别注意命名方法。
法规原文
2. 为了便于审阅,数据集标签和变量标签应使用中文,长度不超过40字节,必要时可以包含英文字母、下划线或数字,但不能以数字开头
3. 一般变量设置变量值长度最大不超过200字节,必要时拆分变量
4. 数据集名称只能包含小写字母和数字,并且必须以小写字母开头。且数据集名称的最大长度为8个英文字符
从以上三条关于变量长度的限制,可以分析出,SAS V5 Transport File Format规定变量名最多8 characters,变量值最长200 bytes,变量名标签最多40 characters。但其实FDA没有要求递交者强制使用SAS,实际情况是SAS基本垄断了这个分析市场,甚至连FDA内部都为其定制了大量的工具。为了防止数据传输错误或被截取,只能限制长度。值得一提的是,SAS V8已经取消了8,200,40的限制,但是历史工具,以及各单位使用的不可控的版本要求同时进行保留限制,以防意外。如今国内的情况如出一辙,基本上复刻了当年FDA面对的形势与解决方案。
EDC建eCRF时,根据指导原则要求,字段OID,SAS Label(如果EDC支持设置)不应超过40字符,SAS Field/ Variable Name(如果EDC支持设置)不应超过8字符,字段长度不应超过200字节。取决于语言和格式,一个字符可以占到1,2,3,4个字节,通常将字段长度设置为200字符保证尽可能多的存储原始数据。
法规原文
5. 递交的原始数据库和分析数据库必须有相应的数据说明文件。数据说明文件是一份用来描述递交数据的文件,至少应包含递交数据库中各数据集名称、标签、基本结构描述及每一数据集中各变量的名称、标签、类型及衍生变量的衍生过程。
CDISC体系中,说明文件通常指Define-XML,该文件描述了SDTM与ADaM等数据集的元数据,配合SDRG,ADRG等共同帮助审阅者理解数据。同上文提到的SDTM一样,Define-XML是FDA与PMDA所强制要求的。如果没有遵循CDISC标准,则需要单独生成文件解释说明。从实际情况来讲,如果以EDC导出的数据为原始数据,需要针对不同系统额外补充不同的说明信息,对于审核方来说困难重重。由此可见,说明文件在不远的将来会同原始数据一样,必将被要求标准化。
在理想的数据递交流程中,采集是标准的,分析是标准的,递交也同样是标准的,数据在每个节点都无需进行大量转换和调整。但由现阶段的流程中来看,我们还有很长的路要走,目前能做到的是把控好源头,从DM以及EDC供应商开始,为后期提供标准的命名以及足够的说明,让整个标准能够从头开始流转。
那么这个标准如何推行?如何保证数据流前端的人愿意为后端的人提供便利?数据采集与分析间标准要求不同怎么解决?还有很多亟待解决的问题,咱们下次讨论。
参考文献:
1. The CDISC Study Data Tabulation Model (SDTM): History, Perspective, and Basics. Jan 2008
2. Reducing Variable Lengths for Submission Dataset Size Reduction 2014
3. Study Data Technical Conformance Guide. Mar 2018
4. Big Data in Drug Development and Discovery. Oct 2018