其次,個(gè)性化的因數(shù)。雖然會(huì)有很多文章說(shuō)視頻的主題、風(fēng)格、之類等等,但其中非常重要的是視頻和視頻之間的相關(guān)性,即行業(yè)內(nèi)稱為類似item2item的技術(shù)。抱大腿是很重要的,你的視頻里面本身存在一些相關(guān)的熱門視頻,容易給你帶來(lái)流量,和知乎的蹭熱點(diǎn)是一個(gè)道理。
再者,不要把現(xiàn)在技術(shù)想的太高大上,比如認(rèn)為模型在實(shí)時(shí)理解視頻的內(nèi)容含義,所以標(biāo)題還是很重要的,一個(gè)好的標(biāo)題,不僅能吸引人的眼球,還要盡量讓算法解析出足夠多的信息。在PC時(shí)代,seo風(fēng)靡一時(shí),其實(shí)在app內(nèi),SEO也是要做的。一般都是用搜索引擎去處理這些視頻內(nèi)容,而搜索引擎會(huì)對(duì)文本切詞、建索引,再與視頻的標(biāo)題、描述文本等去匹配。多一些可能會(huì)被搜的關(guān)鍵詞,匹配到的概率會(huì)變高,也是為什么淘寶之類的商品會(huì)堆砌標(biāo)題的關(guān)鍵詞。
最后,機(jī)器學(xué)習(xí)在里面,始終是在預(yù)估一定的概率,模型最求的是全局最優(yōu)解。所以容易存在各種badcase,流量會(huì)上下波動(dòng),這些是不可避免的。模型如果做得好,特征數(shù)量有可能會(huì)幾十億、幾百億,再加上一些非線性的組合,解釋性并不強(qiáng)。但大家只要想清楚一個(gè)問(wèn)題就行,模型在優(yōu)化什么,新聞類的一般是點(diǎn)擊率,視頻類的一般就是播放完成率,各個(gè)業(yè)務(wù)定義不一樣。你需要做的事情是,讓自己的作品或內(nèi)容,盡量往模型追求的結(jié)果去靠,剩下的交給系統(tǒng)去吧。
補(bǔ)充一點(diǎn),所有上述的因子,對(duì)新的視頻都是不友好的,所以模型在設(shè)計(jì)時(shí),有些策略是直接扶持新品,比如新品期的視頻有流量扶持。也有些策略是嘗試Explorer&Exploit,簡(jiǎn)單來(lái)講就是先拿一部分流量給這些新品試下,好的繼續(xù),差的淘汰。