1DM概述
DM是数据库知识的发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分,不可缺少的一部分,KDD它是将未加工的数据转换为有用信息的整个过程(图1),包括从数据预处理到数据预处理到数据预处理的一系列转换步骤DM的后处理[1]。第11届美国人工智能协会最早于1989年举行(americanassociationforartificialintelli-gence,AAAI)近年来,随着人工智能和数据库技术的发展,学术会议提出了一项新兴技术[4],其开发、研究和应用是基于先进的计算机技术、大规模数据库的出现、大量数据的快速访问、这些数据应用深度统计方法的计算能力,以数据库、人工智能和数理统计为支柱[5]。
2DM临床医学的基本模式和应用
DM任务通常有两类:预测任务和描述任务。预测任务主要是根据其他属性的值来预测特定属性的值,主要包括分类(classificaion)和回归(regression)两种模式。描述任务的目标是导出概括数据中潜在的连接模式(相关、趋势、聚类、轨迹和异常),主要包括相关分析、聚类分析和异常检测[1]。
2.1预测建模(predictivemodeling)
以解释变量函数的方式为目标变量建立模型。有两种模式:分类和回归。分类用于预测离散的目标变量。在临床医学中,疾病的诊断和识别诊断是一个典型的分类过程。Melgani和Bazi[6]以麻省理工学院心律失常数据库的心电图为原始数据,采用不同的分类模型对心电图的5个异常波形和正常波形进行分类。回归用于预测连续的目标变量。回归可广泛应用于医学研究,如医学诊断与预后的判断、多因素疾病的病因研究等。Burke等[7]采用各种回归模式对影响乳腺癌患者预后的因素进行回归分析。
2.2关联分析(associationanalysis)
用于描述数据中强相关特征的模式,用于发现隐藏在大型数据集中的感兴趣的联系。发现的模式通常以包含规则或特征子集的形式表示。相关分析主要用于DNA类似的搜索和比较、基因序列的识别、患者生理参数分析的应用、疾病相关因素的分析等[5]。有学者跟踪观察了37000例肾病患者,监测肾小球过滤率、尿蛋白水平和贫血。结果表明,上述三个生理指标中的任何异常都伴随着心脏病发病率的上升。这种肾病与心脏病“相关”的现象可能发生在肾病的早期阶段[8]。
2.3聚类分析(clusteranalysis)
目的是找到一个密切相关的观测值组,使同一簇的观测值与不同簇的观测值尽可能相似。聚类分析主要用于医学领域DNA分析、医学影像数据自动分析、各种生理参数监测数据分析、中医诊断与处方研究、疾病危险因素等[5]。罗立溥和郭宪国[9]利用分类分析分析云南省25个县(市)现有112种医学革螨的动物地理区划,发现云南省医学革螨的分布明显受到自然地理区位和特定自然景观的限制。
2.4异常检测(anomalydetection)
用于识别其特征明显不同于其他数据的观测值。这种观测值称为异常点(anomaly)或离群点(outlier)。异常检测的目标是发现真正的异常点,并避免错误地将正常对象标记为异常点。换句话说,一个好的异常检测器必须具有高检测率和低误报率,主要用于检测欺诈、网络攻击、疾病异常模式等[2]。