ROC曲线的ROC分析

2024-05-04 20:31

1. ROC曲线的ROC分析

SPSS 9.0以上版本可进行ROC分析，操作步骤如下：1.定义列变量，并输入数据（1）诊断分类值或检测结果（test）：多个诊断试验则定义test1，test2，...（2）金标准类别（group）：1=病例组，0=对照组（3）分类频数（freq），需要进一步执行第二步2.说明频数变量 路径：Data\Weight Case..., 选项：Weight case by， 填表：Freqency Variable （freq）3.ROC分析：路径：Grahps\Roc Curve... 填表：Test Variable（test）， State Variable （group）， Value of state variable，选项包括：(display) ROC Curve，with diagonal reference line （机会线）， standard error and confidence interval （面积的标准误，及其可信区间）， Coordinate points of the ROC curve （ROC曲线的坐标点）， options：test direction （如果检测值小划归为阳性，则需要选）， cofidence level （%）：需要除95%以外的可信度，可在此定义。如果是连续型测量资料，则不需要第1步的（3）及第2步。

ROC曲线的ROC分析

2. ROC曲线的分析步骤

3. ROC曲线的介绍

受试者工作特征曲线 （receiver operating characteristic curve，简称ROC曲线），又称为感受性曲线（sensitivity curve）。得此名的原因在于曲线上各点反映着相同的感受性，它们都是对同一信号刺激的反应，只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚报概率为横轴，击中概率为纵轴所组成的坐标图，和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。ROC曲线是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（灵敏度）为纵坐标，假阳性率（1-特异度）为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点，必须将试验结果分为两类，再进行统计分析。ROC曲线的评价方法与传统的评价方法不同，无须此限制，而是根据实际情况，允许有中间状态，可以把试验结果划分为多个有序分类，如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此，ROC曲线评价方法适用的范围更为广泛。

ROC曲线的介绍

4. ROC曲线原理实例分析【1】

 在选择诊断试验时，许多研究者会在灵敏度和特异度之间进行艰难的取舍。那么，是否可以综合考虑灵敏度和特异度的特点，根据一个指标评价诊断试验的准确性呢？受试者工作特征曲线（receiver operating characteristic curve，简称ROC曲线），用来描述诊断试验的内在真实程度，应用十分广泛。   ROC曲线是以真阳性率（灵敏度）为纵坐标，假阳性率（1-特异度）为横坐标绘制的。每一个点都对应诊断试验的一个截点，我们将这些可能的点连接起来即可制作出经验ROC曲线（empirical ROC curve）。该方法可以帮助研究者简单、直观地分析诊断试验的临床准确性，选择更加合适的截点。
    一、背景介绍 
   在介绍ROC曲线之前，首先来介绍一下预测模型的背景。
    （一）预测模型建模流程简介 
   1.利用数据中的训练集进行模拟的生成。
   2.利用测试集进行模型的评测。
   3.将评测的结果反馈给生成模型。
   4.若评测结果比较满意，进行生成模型的输出，否则重新生成。
   那么测试集如何评测预测模型？这里引出混淆矩阵的概念。
    （二）混淆矩阵 
   混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，常用来预测模型的准确率。
                                           图1 混淆矩阵
   P：样本中的正例，n：样本中的负例 Y：通过模型预测出来样本中的正列，N：通过模型预测出来样本中的负列 TP(True Positives)：本来是正列，通过模型预测出来也是正列FP(False Positives)：本来是负列，通过模型预测出来也是正列预测模型准确率accuracy=(TP+TN)/(P+n) （三）案例分析    表1 原始数据
                                           从表1可以看出，有20个观测值，结局有1和0两种状态，分别代表着阳性和阴性。类似于Logistic回归当中某个人是否患疾病，患病为1，不患病为0。预测概率是通过Logistic回归预测的结果。那怎么去预测这组概率的准确率呢？
   
   
                                           从表2中可以看出前6个数据预测结局为阳性，其他14个数据预测结局为阴性。计算它的混淆矩阵如表3，真实结局中有10个1和10个0。但是预测结局的阳性数有6个，其中有5个是真实阳性，有1个是真实阴性。第三个观测值结局本来是阴性的，但预测结局是阳性的，这个观测值预测错误。同理，预测结局的阴性数有14个，其中有9个是真实阴性，有5个是真实阳性。第九个观测值结局本来是阳性的，但预测结局是阴性的，这个观测值预测错误。
   表3 混淆矩阵表
                                           真阳率是指本来是阳性的，预测出的结果也是阳性的。假阳率是指本来是阴性的，但预测出的结果是阳性的。从表3中可以看出，在真实阳性数这一竖列中，预测正确的观测值有5个，所以真阳率(TPR)=5/P=5/10=0.5。在真实阴性数这一竖列中，预测正确的观测值有1个，所以假阳率(FPR)=1/n=1/10=0.1。
   同理真阴率(TNR)=9/10=0.1，假阴率(FNR)=5/10=0.5。
   表4 真阳率和假阳率
                                           从表4可以看出，以0.54为阈值，作出来的混淆矩阵真阳率为0.5，假阳率为0.1。真阳率和假阳率是以每一次相应的预测概率为阈值，算出混淆矩阵而得到的。
   将1-20每个样本的评分均作为分类器的判定阈值，可以得到20组TPR和FPR的有序数对。然后以TPR和FPR为两个坐标轴建立一个直角坐标系，就可以得到图2。
                                           图2 TPR和FPR的有序数对
    二、ROC曲线概念 
   ROC曲线：受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)，又称为感受性曲线(sensitivity curve)。
   采用真阳性率和假阳性率作出的曲线，适用于诊断试验结果为连续变量。试验的真阳性率（Sen）为纵坐标（Y），假阳性率（1-Spe）为横坐标（X），坐标轴上的率值由0 1或0% 100%。
                                           图3 ROC曲线示意图横轴FPR：1-TPR，1-Specificity，FPR越大，预测正类中实际负类越多。纵轴TPR：Sensitivity，TPR越大，预测正类中实际正类越多。理想目标：TPR=1，TPR=0，即图中(0,1)点，故ROC曲线越靠拢(0,1)点，越偏离45°对角线越好，Sensitivity、Specificity越大效果越好。
    三、最佳阈值的确定——约登指数 
   约登指数（Youden index，YI）：是评价筛查试验真实性的方法，假设其假阴性和假阳性的危害性同等意义时，即可应用约登指数。约登指数=灵敏度Sensitivity+特异度Specificit-1=[a/(a+c)+d/(b+d)]-1。指数越大说明筛查试验的效果越好，真实性越大。从表中可以看出，真阳率与假阳率的差值就是约登指数，最大的约登指数为0.4，0.4对应的预测概率为0.54，大于0.54认为是阳性的，小于0.54认为是阴性的。0.54就是最佳阈值。
    四、AUC概念 
   AUC(Area Under Curve)值为ROC曲线下方的面积大小。显然，AUC越大，预测效果越好。AUC=1，是完美分类器，采用这个预测模型时，不管设定什么截断点都能得出完美预测。绝大多数预测的场合，不存在完美分类器。0.5<AUC<1，优于随机猜测。这个预测模型妥善设定截断点的话，能有预测价值。AUC=0.5，跟随机猜测一样（例：抛硬币），模型没有预测价值。AUC<0.5，比随机猜测还差，但只要总是反预测而行，就优于随机预测。
                                           图4 包含AUC值的ROC曲线
   [参考资料]（ https://mp.weixin.qq.com/s?src=11×tamp=1584533576&ver=2224&signature=6PwC6AuccTKFKXc0sXP0Cp7rEVSF3Qp2QFHfyfE 7Bq3d1cN-XspGn-EV2gqpTVgaS2q 1ZBqgxp7bx3zDNkhfOxz7DM62BCpshh*EiK7oj9QD517iKBdoR58gaYLBMM&new=1    ）

5. ROC曲线的概念

在ROC空间中，以FP rate为横轴、TP rate为纵轴
  
 ROC曲线是显示Classification模型真正率和假正率之间折中的一种图形化方法。
  
 解读ROC图的一些概念定义:：
  
  真正（True Positive , TP） 被模型预测为正的正样本；
  
  假负（False Negative , FN） 被模型预测为负的正样本；
  
  假正（False Positive , FP） 被模型预测为正的负样本；
  
  真负（True Negative , TN） 被模型预测为负的负样本。
  
  真正率 （True Positive Rate , TPR）或灵敏度（sensitivity）
  
 TPR = TP /（TP + FN）（正样本预测结果数 / 正样本实际数）
  
  假负率 （False Negative Rate , FNR）
  
 FNR = FN /（TP + FN） （被预测为负的正样本结果数 / 正样本实际数 ）
  
  假正率 （False Positive Rate , FPR）
  
 FPR = FP /（FP + TN） （被预测为正的负样本结果数 /负样本实际数）
  
  真负率 （True Negative Rate , TNR）或特指度（specificity）
  
 TNR = TN /（TN + FP） （负样本预测结果数 / 负样本实际数）
  
 目标属性的被选中的那个期望值称作是“正”（positive）

ROC曲线的概念

6. ROC曲线的意义

ROC曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

7. ROC曲线的优点

该方法简单、直观，通过图示可观察分析方法的临床准确性，并可用肉眼作出判断。ROC曲线将灵敏度与特异性以图示方法结合在一起，可准确反映某分析方法特异性和敏感性的关系，是试验准确性的综合代表。ROC曲线不固定分类界值，允许中间状态存在，利于使用者结合专业知识，权衡漏诊与误诊的影响，选择一更佳截断点作为诊断参考值。提供不同试验之间在共同标尺下的直观的比较，ROC曲线越凸越近左上角表明其诊断价值越大，利于不同指标间的比较。曲线下面积可评价诊断准确性。

ROC曲线的优点

8. ROC曲线的属性

（1）β值的改变独立于d’的变化，考察β值变化对P(y/SN)和P(y/N)的影响时发现：当β接近无穷大时，虚惊率几乎为0，即信号全当成噪音接受；当β接近0时，击中率几乎为0，即噪音全当成信号接受；而当β从接近0向无穷大渐变的过程中，将形成一条完整地ROC曲线，曲线在某一处达到最佳的标准βOPT。（2）ROC曲线的曲率反应敏感性指标d’：对角线，代表P(y/SN)=P(y/N)，即被试者的辨别力d’为0，ROC曲线离这条线愈远，表示被试者辨别力愈强，d’的值当然就愈大。由上可知，d’的变化使ROC曲线形成一个曲线簇，而β的变化体现在这一曲线簇中的某一条曲线上不同点的变化。此外，如果将ROC曲线的坐标轴变为Z分数坐标，我们将看到ROC曲线从曲线形态变为直线形态。这种坐标变换可以用来验证信号检测论一个重要假设，即方差齐性假设。

ROC曲线的ROC分析

1. ROC曲线的ROC分析

2. ROC曲线的分析步骤

3. ROC曲线的介绍

4. ROC曲线原理实例分析 【1】

5. ROC曲线的概念

6. ROC曲线的意义

7. ROC曲线的优点

8. ROC曲线的属性

4. ROC曲线原理实例分析【1】