一些非线性回归程序报告拟合的卡方值。这是什么意思?为什么Prism不报告卡方值?

卡方计算用于比较观测值和预期值。通常,这些计算用于分类结果的上下文中,以比较类别中观察到的和预期的受试者分布。
卡方在非线性回归中的使用是完全不同的。回归可查找最小化曲线周围点分散的曲线(更多详细信息见下文)。如果您对数据的分散了解很多,则可以将预期看到的分散量(基于仿行之间的变异)与实际观察到的数量(基于点与曲线的距离)进行比较,并将结果简化为卡方值。如果此卡方值较高,则曲线周围的分散大于预期,这可能会导致您得出拟合模型错误的结论。
这就是大局。现在让我们填写一些细节。
非线性回归最小化数据点和曲线之间垂直距离平方的总和。换句话说,非线性回归调整模型的参数以最小化(Ydata- Ycurve)2的和.如果选择,您可以应用加权因子来调整随 Y 增加的仿行散点中的系统差异。
为了找到参数的最佳拟合值,非线性回归将平方和最小化。但是您怎么能解释平方和呢?您真的不能,因为它取决于您收集的数据点的数量和您用来表示Y的单位。平方和的值可用于计算 R2.该值是通过将平方和(曲线周围点的分散度量)与 Y 值的总变化(忽略 X,忽略模型)进行比较来计算的。您预期的R2是什么?多低的值算太低?一般来说,您无法真正回答这个问题,因为答案取决于您的实验系统。
平方和是否太高?比什么太高了?如果收集了 X 的每个值处的仿行 Y 值,则可以将平方和与从仿行之间的散点预测的值进行比较。Prism 5 执行此计算,我们称之为仿行检验。
正态化平方和值的另一种方法是将观察到的曲线周围点的分散(平方和)与您期望看到的基于理论的实验分散量进行比较。这是通过使用以下等式计算卡方来完成的:

卡方是点与曲线距离的平方除以该值 X 处的预测标准差之和。
如果您知道 X 的所有值的 SD 都相同,则简化为:

这些标准差值必须从大量数据中计算出来。第二个方程可能更有用,因为您可以从大量重复中计算SD。从您在这一个实验中收集的仿行中计算 SD 值不是一个好主意。除非您在每个 X 值处有很多(肯定不止十几个)重复,否则您根本无法以足够的精度了解 SD 值,以使卡方计算有所帮助。(请改用仿行检验)
使用常规加权非线性回归(Prism 可以做到),您只需要知道相对权重。知道散点的标准偏差与 Y 值成正比(例如)就足够了。您不必实际知道 SD 值。这足以找到最佳拟合曲线,但不足以计算卡方。要计算卡方,您必须知道 X 的任何值下的预测标准偏差。
如果您假设仿行根据您输入的 SD 的高斯分布分散,并且您将数据拟合到正确的模型,则根据该方程计算的卡方值将遵循已知的卡方分布。此分布取决于自由度数,自由度数等于数据点数减去参数数。知道卡方的值和自由度数,您可以使用此GraphPad QuickCalc网络计算器,Excel公式或统计表计算P值。
P 值回答了这个问题:如果所有假设都为真,那么获得这么大或这么大的卡方值的几率有多大?因此,如果 P 值很小,则发生了罕见的巧合,或者您可以得出以下结论之一:
· 您选错了模型。曲线周围的数据分散度比您预期的要多,因此模型不能很好地遵循数据。
· 您输入的标准差值是错误的(太小)。
· 分散并不真正遵循高斯分布。
如果您非常确定分散确实是高斯的,并且您输入了正确的SD值,那么卡方是有帮助的。一个大的卡方,所以一个小的 P 值,告诉您您的模型是不正确的--曲线真的不能很好地遵循数据。您应该寻找一个更好的模型。
但通常,卡方的高值和低P值只是告诉您,您对SD的了解并不像您想象的那么好。很难精确地确定SD值,因此很难解释卡方值。出于这个原因,我们不会尝试在 Prism 中进行卡方计算。我们担心这会误导而不是帮助。
总之,卡方将数据和曲线之间的实际差异与基于仿行中已知SD的预期差异(假设您选择了正确的模型)进行比较。如果差异很大,那么您有一些证据表明您选择了错误的模型。卡方计算的优点是它测试单个模型的适当性(无需提出替代方案)。缺点是计算依赖于以足够的精度了解SD值,而事实往往并非如此。
我们更喜欢比较两个模型的拟合,而不是使用卡方来检验一个模型的拟合是否足够。