其次,個(gè)性化的因數。雖然會(huì )有很多文章說(shuō)視頻的主題、風(fēng)格、之類(lèi)等等,但其中非常重要的是視頻和視頻之間的相關(guān)性,即行業(yè)內稱(chēng)為類(lèi)似item2item的技術(shù)。抱大腿是很重要的,你的視頻里面本身存在一些相關(guān)的熱門(mén)視頻,容易給你帶來(lái)流量,和知乎的蹭熱點(diǎn)是一個(gè)道理。
再者,不要把現在技術(shù)想的太高大上,比如認為模型在實(shí)時(shí)理解視頻的內容含義,所以標題還是很重要的,一個(gè)好的標題,不僅能吸引人的眼球,還要盡量讓算法解析出足夠多的信息。在PC時(shí)代,seo風(fēng)靡一時(shí),其實(shí)在app內,SEO也是要做的。一般都是用搜索引擎去處理這些視頻內容,而搜索引擎會(huì )對文本切詞、建索引,再與視頻的標題、描述文本等去匹配。多一些可能會(huì )被搜的關(guān)鍵詞,匹配到的概率會(huì )變高,也是為什么淘寶之類(lèi)的商品會(huì )堆砌標題的關(guān)鍵詞。
最后,機器學(xué)習在里面,始終是在預估一定的概率,模型最求的是全局最優(yōu)解。所以容易存在各種badcase,流量會(huì )上下波動(dòng),這些是不可避免的。模型如果做得好,特征數量有可能會(huì )幾十億、幾百億,再加上一些非線(xiàn)性的組合,解釋性并不強。但大家只要想清楚一個(gè)問(wèn)題就行,模型在優(yōu)化什么,新聞類(lèi)的一般是點(diǎn)擊率,視頻類(lèi)的一般就是播放完成率,各個(gè)業(yè)務(wù)定義不一樣。你需要做的事情是,讓自己的作品或內容,盡量往模型追求的結果去靠,剩下的交給系統去吧。
補充一點(diǎn),所有上述的因子,對新的視頻都是不友好的,所以模型在設計時(shí),有些策略是直接扶持新品,比如新品期的視頻有流量扶持。也有些策略是嘗試Explorer&Exploit,簡(jiǎn)單來(lái)講就是先拿一部分流量給這些新品試下,好的繼續,差的淘汰。