您现在的位置是:首页 > IT基础架构 > 软件与服务 >
制药前期开发的数据仓库解决方案
2009-11-02 22:58:00作者:陈泓 袁援来源:
摘要针对现有化学计量学的数据库解决方案在分析制药前期开发数据方面能力差的弱点,将数据仓库技术引入到药品开发领域,从分析制药前期开发的特征出发,提出了制药前期开发数据仓库的体系结构,并设计了其联机分析处理方案和实现措施,为药品开发提供了一种新颖的智能预测解决方...
药品开发最关键和最基本的研究任务是确定对疾病具有积极性功效的有机物分子。通常将此过程称为前期开发(Leading),分为三个步骤:标药,药剂师分析有机物并标定它们;试药,化验师化验有机物的治疗功效,对已知疾病具有疗效的有机分子称为前期药品(Lead);配药,配药师进行组合实验,将这些前期药品配制为药方,以实现大规模生产。此过程将产生大量科学数据,从现有历史数据中预测未知前期开发的倾向不仅可缩短药品的开发周期、减小开发代价,还可避免开发过程的经验性,制药领域中的建模者已采用单机操作性数据库来实现此目标。但操作性数据库适合于事务处理,分析性能弱,性能不稳定性、集成性差,没有标准的数据存储格式,且为每种类型药品建立一个单机数据库是不合算的,因此,制药企业有必要创建一种具备更强预测功能的数据存储模式。
20世纪90年代初数据仓库技术的提出及发展,以数据仓库(Data Warehouse,DW)+联机分析处理(On-Line Analytical Processing,OLAP)+数据挖掘(Data Mining,DM)的解决方案成为建立决策支持系统的一种趋势。DW是一种只读的分析性数据库,是面向主题的、集成的、时间不变的稳定性存储,其主要目标是建立一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,为决策分析提供统一的、综合的数据环境。为超越分析化学数据传统的数据库管理方法,国外的一些化学计量学家也提出了将数据仓库及相关技术作为化学数据分析工具的思想。但以分析化学为理论基础的药品开发行业仍然只有数据库解决方案,而文中提出的采用DW来管理制药前期开发数据的方法为指导药品的智能开发提供了一种新颖的解决方案。
1 制药前期开发分析
在为一个数据仓库建模之前,应该首先分析需要建模领域的行业特征。药品开发是分析化学与生物化学的交叉应用领域,药品数据仓库的建模者不仅应该是一个计量化学专家,而且应该具备生物化学方面的知识。就制药前期开发的三个阶段而言,应该涉及到以下三类专业数据:
(1)标药的主要目标是获取有机物的相关描述性特征。有机物分子式的复杂性主要表现为同分异构现象,更为复杂的是,药品分子通常还具有一种“握手”关联现象,需要采用立体化学式(Stereochemical Formula)表示。因此,需要惟一性地表示药品分子的组成、连接、3D结构或立体化学结构式;构造式(Conformation)表示了具有相同立体化学式的药品分子在电荷上的差异,对于具有相同化学式的有机分子,某一构造方式对疾病处理可能具有积极作用,而其它的可能则与疗效无关,甚至具有副作用,因此,有必要表示药品分子的构造式;在药品分析活动中,表示有机分子的酸碱性和亲水性等物理特征也是相当重要的。
(2)化验主要关注有机分子的生化信息。酶是专门用于连接并激活一定有机分子(通常称为培养基)的蛋白质,是生化学的研究主体,培养基的连接位置称为活性点(Active Site)。酶(通常在药品研究中的酶而不包括编码细胞的蛋白质的遗传物质相关的生物宏分子,将这种酶特称为目标体Target)对培养基的催化作用体现为对这些活性点的控制,有机分子的活性点是化验师最有用的数据,化验的目标是测量培养基中酶随时间而消耗的实验,即通过测量培养基活性的衰减值而获得的酶在培养基中的呼吸活动特征,通常采用培养基的Ic50或Ki表示培养基对酶活性的程度,需要注意的是,培养基中的有机物对同一酶体具有不同活性,在这些有机物中对目标体具有足够活性的有机物即为前期药品。
(3)配药关心前期药品的配制。为方便组合试药,根据构造式特征的相似性或者局部性结构特征,通常将有机分子归类为一些系列或者族类,一个类表示了具有共享结构性功能特征的药品,而这些族系被称为置换类(Substituent),即药剂师可以在置换类中进行组合试药,从而节省工作量,这些置换类从组合化学实验室中的组合实验而获得。
2 制药前期开发数据仓库的体系结构
通常所称的“数据仓库”只是分析性数据的存储单元,而非DW的系统结构,DW的整体设计应该主要关注操作性数据库、分析性数据存储单元、应用之间的组织关系。图1是由Stanford大学数据集成实验室提出的经典DW体系结构,可以看出中央DW的主要功能是对分散于各系统同构或异构数据源的数据进行有效集成、抽取,为此,DW体系结构的基本组成部分包括:a. 数据源,通常指操作性数据库;b. 监视器感知数据源变化并按DW的需求提取数据;c. 在元数据的指导下,集成器负责被抽取数据的转换、计算和融合;BC存储分析性数据的DW;e. 采用OLAP查询并挖掘DW数据的使用者。
根据图1模型,文中设计了图2的制药前期开发DW(Pharmaceutical Leading DW,PLDW)的体系结构,它主要以有机物分析数据库、生物化验数据库和组合配药数据库为基础,其它的数据源还包括前期开发的代价数据以及市场需求、其它企业生产特点等外部数据,这些数据通过数据抽取工具被集成到中央DW中,中央DW按照制药企业的主题组织这些数据,形成一个关于制药前期生产的多维视角,为其使用者提供一个综合的、面向分析的决策支持数据环境,图中的DW遵循了图1的体系结构。如图2所示,从各种PLDW数据源出发到PLDW使用者需经如下几步:a. 利用数据管理与建模工具抽取、转换及装载数据;b. 通过元数据的指导,将整合后的数据存放于中央DW;c. 根据不同的使用任务,将中央DW组织为不同的中间视图(反映了DW的一个侧面,其另外一个作用是数据缓冲功能);d. 用户通过OLAP及DM工具进行数据访问与分析。
3 分析查询设计
创建DW的目的是智能性分析其中的数据,联机分析处理(OLAP)是实现该目标的主要工具,但现有OLAP工具的使用以一定客户问题为载体,这些问题规范了DW可回答客户的以自然语言形式提出的宏观性决策问题。对PLDW而言,其使用目标是为药品开发提供智能帮助,使用对象包括生产过程中的药剂师、化验师和配药师,而DW建模者(通常是专业的化学计量学家)和管理者是其更高级别的使用者,因此,PLDW应该满足五类使用者提出的分析问题:药剂师关心与有机物化学特征相关的问题;化验师关心与化验相关的问题;配药师关心组合实验的相关问题;管理者需要了解PLDW的使用状况;建模者期望扩展其智能预测性。以下的分析查询大致概括了PLDW的使用能力。
(1)对药剂师而言:
Q1:对于在一个组合实验中具有活性的有机物组合,在此组合中是否存在结构性或功能性相似的有机物?在活性和物理特性(如,电荷、酸碱性、亲水性等)间是否存在一定程度的关联?
Q2:仓库中哪些有机物在结构上或功能上同前期药品竞争物或副产物相似?
Q3:哪些有机物可能导致竞争效应?
(2)对化验师而言:
Q4:在化验A中具有活性的有机物X是否在化验B中具有相似活性?
Q5:发现其中有机物三维结构已知的酶体培养基不具活性,而需实施新化验时,仓库中的哪些有机物在结构上与该培养基中的有机物相似?
Q6:Q5中,假如酶的X-射线结构已知,仓库中的哪些有机物可适合于此酶的活性点?
Q7:在化验固化的情况下,仓库中的哪种有机物与已知的前期药品在结构上和功能上相似?
(3)对配药师而言:
Q8:对出自经验实验室的前期药品组合方案而言,应该对哪个前期药品的组合方案首先实施实验?是否能够在考虑以下因素前提下进行组合测试?
a. 其中的某一有机物与已知的抑制剂(inhibitor)具有相似结构时;
b. 其中的某一有机物与已知的培养基中的某一有机物具有相似结构时;
c. 其中的某一有机物对目标体的活性点具有惰性时。
Q9:当在组合配药中加入新的有机物时,能否进行Q8中的测试?
(4)对管理者而言:
Q10:哪些化验得到的前期药品较多?哪些较少?
Q11:哪些生产规划得到的前期药品较多?哪些较少?
Q12:在找到一种前期性药品之前,必须平均化验多少种有机物?化验的经费开支如何?
Q13:对于某一目标体,必须平均化验多少种有机物?化验的经费开支如何?
Q14:一天平均需要实验多少种有机物?一天能够发现多少种前期性药品?而一星期、一个月、今年、去年、三年前、一年后呢?
Q15:公司是直接向其它药品公司购买组合配药方案,还是应该自行进行组合配药?
Q16:一种配药方案的投入与预期经济效益如何?
(5)对建模者而言:
建模者是PLDW的最高级别和最经常的使用者,需要经常调整PLDW的使用功能、范围、质量,因此,建模者将使用到几乎上述所有分析查询。
4 PLDW的实现方案
实现方案即是考虑图2PLDW中各组成部分的配置。配置DW是根据业务数据对其的最终实施方案,即对整个DW环境提供实现措施。针对图2体系结构需要解决的问题包括:PLDW的整体布局、各组成部分的工具支持、接口设计、网络环境等问题。
(1)整体布局:通常的DW选用两层C/S或B/S模式布局,但PLDW的存储量大、数据仓库结构较复杂、使用者类型多样,由图2可知,PLDW应该采用三层C/S或B/S的布局,使用者是客户端,中间视图为数据中间层,DW服务器是后台,即采用了客户—数据中间层—后台DW服务器的总体结构。
(2)工具支持:DW服务器可采用基于Unix平台的SP2商用小型机,而DW的创建工具可在Microsoft,Sybase,Informix,IBM,Oracle等公司的相应产品中选择,Microsoft公司的SQL Server 2000应用较为广泛,技术上比较容易得到支持,其AnalysisServices也提供了方便的数据加载技术和DW创建、管理方案,故采用它作为中央DW的创建工具;J2EE是Sun公司优良的跨平台、代码的中间件技术,采用支持该技术的中间件产品存储中间视图,将屏蔽PLDW使用者平台和数据格式的差异,当前支持J2EE技术的比较成熟的应用服务器产品是Inorise公司的VisiBroker;客户端随使用者的操作习惯和对系统性能的要求而定,若客户需要一种友好的访问界面而对系统运行性能要求不高,可采用B/S结构,采用微软的ASP.NET为动态网页设计工具,相反,需要采用C/S结构,可采用EXCEL工作表作为其存储格式,也可采用PL/SQL,Developer2000程序批量生产具有标准格式的报表,利用AnalysisServices提供的数据导入/导出工具,两种风格的使用者可方便地输入查询集并在需要时接受预测结果集。
(3)接口设计:PLDW服务器与应用服务器间采用JDBC通用数据接口连接,使用者与应用服务器之间通过OLEDB而连接。
(4)网络环境:网络是否具备足够带宽是影响PLDW访问速度的外部因素,本案例使用100MB专用网络端口,另外,网络配置对系统性能也有很大影响,为加快网络访问速度,可考虑将AnalysisServices侦听器中冗余的网络协议(如NamedPipes,SPX等)删除,并将TRACE_LEVEL_LISTENNER的参数改成OFF。
综上所述,PLDW的系统配置可采用以下两种总体方案:SP2+SQL Server+IIS为DW服务器,VisiBroker为应用服务器;WindowsXP+ASP.NET动态网页+IE5.0以上版本为客户端;SP2+SQL Server+IIS为DW服务器,VisiBroker为应用服务器;WindowsXP+ExcelXP为工作表,Developer2000为报表生成器。
以某医药公司的现有药品数据库为数据源,笔者已采用第一种总体设计方案进行了PLDW配置模拟,现运行状况良好。
5 结 论
提出了制药前期开发数据仓库的体系结构,将药品前期开发的各类数据进行汇总和综合,采用数据仓库模型重新组织和存储,为药品开发提供了一种高级别的智能分析工具。虽然该方法要完全应用到真实的药品开发领域还需要解决根据不同药品企业提出不同数据模型、实施大规模施工等问题,但在药品开发的智能预测方面提出了一些新思路,并且,随着药品企业对药品开发代价、安全性和可靠性分析、统一运做、智能性分析全方位要求的提高,数据仓库和联机分析技术将在药品开发领域中发挥越来越大的作用,创建药品开发数据仓库必将成为化学计量学的研究热点。
(本文不涉密)
责任编辑:
上一篇:BI巨头为何追捧国内中型企业
下一篇:一种有效的数据仓库定制应用方式