抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

考虑建立简单的线性回归模型,在开播前期对一部番剧结束后的评分进行估计。

我们可以想到一些影响因子:

  • 开播后若干天的评分分布情况。
  • 开播之后的热度,包括评论数多少、“在看”人数的多少。
  • 动画标签,如 异世界P.A.WORKS麻枝准 等等。

在这里,我们选择比较具有代表性的参数:开播 1 天,11 天,21 天后评分为 14,56,78,910 分的频率和当时“在看”的人数。

首先,从 netabare 上爬取数据,并且剔除一些误差较大的数据,这里获得了 63 个较有效的数据,大多来自近 2 年。

image-20230116204743252

其次,利用主成分分析将数据拍扁到 n1n-1 维,并且观察最小特征值,在 0.20.90.2\sim 0.9 之间说明比较正常。

1
auto R=pca(v);

接下来是调参,合理安排训练组和测试组的大小,最小化测试组的平均误差。如果训练组过大,很可能造成过拟合,导致结果出现很大偏差,但是这个是线性的所以还好。还可以关闭一些相关性较小的变量,避免影响结果。经测试,测试组最好误差可以达到平均 0.21 左右。

然后预测新番,比如:

1
2
3
4
5
6
転天革命
0.88 14.10 74.89 10.13 1202 0.86 12.97 75.79 10.09 1632 0.77 15.33 75.68 7.89 3397
预测:7.21883,置信区间 7.0~7.5
おにまい
1.35 8.10 67.72 22.27 3360 1.48 9.75 70.43 17.64 5325 1.35 9.66 71.07 17.19 5523
预测:7.51096,置信区间 7.3~7.7

就看准不准了。

评论