考虑建立简单的线性回归模型,在开播前期对一部番剧结束后的评分进行估计。
我们可以想到一些影响因子:
- 开播后若干天的评分分布情况。
- 开播之后的热度,包括评论数多少、“在看”人数的多少。
- 动画标签,如
异世界
,P.A.WORKS
,麻枝准
等等。
在这里,我们选择比较具有代表性的参数:开播 1 天,11 天,21 天后评分为 14,56,78,910 分的频率和当时“在看”的人数。
首先,从 netabare 上爬取数据,并且剔除一些误差较大的数据,这里获得了 63 个较有效的数据,大多来自近 2 年。
其次,利用主成分分析将数据拍扁到 维,并且观察最小特征值,在 之间说明比较正常。
1 | auto R=pca(v); |
接下来是调参,合理安排训练组和测试组的大小,最小化测试组的平均误差。如果训练组过大,很可能造成过拟合,导致结果出现很大偏差,但是这个是线性的所以还好。还可以关闭一些相关性较小的变量,避免影响结果。经测试,测试组最好误差可以达到平均 0.21
左右。
然后预测新番,比如:
1 | 転天革命 |
就看准不准了。