库克曲线是什么

库克曲线(Cook’s curve)也叫库克-芬利曲线(Cook-Finley curve),它是广泛应用于预测测试均方误差(PMSE)和选择最优样品数的一种图表,由美国俄亥俄州立大学的雷金纳德·L·库克(Reginald L. Cook)和道格拉斯·E·芬利(Douglas E. Finley)于1982年首次提出。(库克曲线也被称为塞弗里奇曲线(Seifridge curve),以麻省理工学院的杰弗里·D·塞弗里奇(Jeffrey D. Seifridge)的名字命名,他在1979年首次提出了这种方法的第一个版本。)

库克曲线由一系列曲线组成,每条曲线代表样本量 $n$ 和未来预测的PMSE值 $U$ 之间的关系。曲线从 $n=1$ 到 $n=\infty$ 延伸,并且形状通常是抛物线形的。在库克曲线上,可以通过比较不同样本量所对应的PMSE值来选择最优样本量。

库克曲线通常用于确定预测测试的样本量,以便以最小的PMSE值来准确地预测未来值。在实践中,通常会使用交叉验证法(cross-validation)来估计PMSE值,然后在库克曲线上找到最优样本量。库克曲线可以帮助研究者了解样本量与预测精度之间的关系,并做出最优的样本量选择。

库克曲线也用于评估预测模型的性能。通过比较不同预测模型的库克曲线,可以识别出具有最佳预测精度的模型。

库克曲线的公式由PMSE值计算得出,PMSE是整体平均误差值的均方(MSE)与相关性的平方之和的比值。

PMSE = MSE / R^2

库克曲线的典型形状与底部向上的抛物线类似。PMSE值随着样本量的增加而下降,抛物线的底部对应于最优样本量。

阅读剩余
THE END