总结¶
- 目标:时间序列分析-预测视频欢迎度、点击量--用线性回归
- 不足:测试数据时间序列数据少(短),比如只有前10天数据,预测第100天数据,预测不准
- 预测不准是因为所有训练数据都用上,明显噪音过多, 解决:
对视频根据增长模式不同进行分类, 如电影的粉丝电影(初期暴增,后期缓慢),普通电影(稳定直线增长)、逆增长(初期缓慢,后期暴增),只使用同类增长模式的数据进行预测 - 测试数据时间序列数据不足, 只能在初期数据之外,添加其他特征,如作者人气、视频长度、视频内容类别、点赞、渠道信息等
- 有特征进行训练,就需要标签(监督学习)。
标签即本文新定义的生命期——$\alpha$-lifespan,点击达到$\alpha$=50%或80%时的时间——也就是第3点的增长模式,细节差别而已 - 用训练集的初期数据(点击量)、人气、视频长度、类别等特征与标签 生命期 一同使用回归树训练, 预测数据就能先预测到所属类别——增长模式。
- 对训练数据按时间序列进行聚类(Kmeans),得到各类模式的生命期下界(和上界),选择预测数据所在模式k的数据, 再进行时间序列分析的线性回归训练和预测。
OVER, 绕了半天, 总算绕出来了。 看的时候真不一定觉得是问题, 到自己来解释时才知道没理解透
特别是要猜论文作者(理论提出者)是发现什么问题、怎么发现问题、 怎么想到解决思路。
目标¶
如何用少量历史数据预测视频的受欢迎程度——到未来某时间的总浏览量?
现在的方法只能预测近期,不好预测远期
所以, 作者(们)提出 生命期感知回归模型
生命期感知回归模型¶
每个视频都有一定的生命期(寿命lifetime)模式, 或点击增长模式(popularity evolution paterns), 比如不同上传者(知名度)、不同内容、质量是影响因素。更不用说不小心摊上什么大事这种不可控因素, 不过应该也可以测什么事件将会对什么视频产生什么影响——没差。
朴素的 生命期是一个视频从上传(或某事件)到没人点击(一段时间内)的这段时间间隔。
显然有什么问题?
太长¶
有些视频常年有人看,等不到生命期的结束。 总之观察期不会那么久。而统计就是从无限数据中采样, 在自己观察到的样本总数里进行分析。
所以, 改无限长的观察时间成固定时长, 比如总时长多少天或多少小时,每天或每小时获得一次数据。
相应地, 生命期的计算也需要变化, 从以前的最终时间(等到没人看), 改成最快达到 某个比例阈值的时间。
比如观察了20天,有一个总访问量,第一天、第10天、第19天到达总访问量的50%或80%分别代表了这视频的火红一时、 细水长流、 慢慢发酵三种情况。
所以就可以用到达总量50%或80%的时间跨度($\alpha$-lifespan, $\alpha$ = 0.5 或 0.8 )来定义新的 生命期。
$\alpha$取不同值对区别实际模型也有影响, 如图:
D1与D3在50%时难以区别, 而80%则显然不同
找规律¶
接下来就是用机器学习(之类的)方法来把特征与新生命期进行映射了。
作者使用了10个特征, 包括视频类别(如果算标签就更复杂了)、视频长度、 播放量(访问量)、评论数等。
用什么分类算法比较好?
训练¶
训练后, 以后就能根据少量的历史数据(初始一天或一小时)和其他特征计算生命期, 用于预测欢迎度
预测欢迎度¶
定义视频的生命期为$L_v$, 访问量$N_v(t_i)$ 和 上个时间段增长量 $x_v(t_i)$
目标就是用生命期$L_v$和至今$t_r$各段时间增长量$X_v(t_r) = (x_v (t_1),x_v (t_2 ),...,x_v (t_r ))$来预测 未来时间 $t_t$的访问量$N_v(t_t)$ —— 也是欢迎度
因为这是时间序列总量, 所以公式为:
其中
而K代表了 不同增长模式的模型, 比如火红一时、 细水长流、 口碑发酵等等, 如果把所有数据都认为只遵从一种模式的话, 误差显然会较大, 同时跟 生命期$L_v$ 也就没什么关系了。
根据机器学习求损失函数, 定义为以下优化问题:
K的选定¶
如何用生命期$L_v$选定K及划分数据集呢?
首先, 用生命期$L_v$划分出K个子集, 每个子集有 生命期的下界(和上界), 就是在总时间长度$t_t = N$的横坐标上划分K个区间, 或者说 在N个人中间放上K-1块木板(每个区间好歹有一个值吧), 组合数的计算量很大
因此, 需要更简单的聚类方法(数据没有标签,就是聚类), 最简单的就是 KMeans。 聚类的特征就是训练数据的时间序列, 类似 Figure-2 每个数据集就分成了6种。
作者实验后认为 分成 4类比较好。
实验¶
原文¶
C. Ma, Z. Yan and C. W. Chen, "LARM: A Lifetime Aware Regression Model for Predicting YouTube Video Popularity", in ACM International Conference on Information and Knowledge Management (ACM CIKM), 2017. [PDF]