《哪吒》上映已經一個(ge) 多月,這樣一部國產(chan) 動畫電影的火爆程度超出了很多人的預料。
8月7日,貓眼預測,《哪吒》總票房會(hui) 達到46.8億(yi) ,超過《流浪地球》。二十多天後的8月31日,貓眼數據顯示,《哪吒》票房正式超過《流浪地球》,成為(wei) 中國影史票房排名第二的電影。
在《哪吒》刷屏的背後,很多人也會(hui) 產(chan) 生疑問:票房預測的基本原理是什麽(me) ?對此,騰訊科技聯合知乎平台,並采訪貓眼數據專(zhuan) 家,揭秘票房預測背後的黑盒子。
據知乎答主“DataHunter”介紹,目針對電影票房的預測主要有以下三種思路:
第一種思路可以形象的理解為(wei) “照貓畫虎”,其原理在於(yu) :目前市場上已經上映了大量的影片,並積累了海量的票房變動數據,深度神經網絡模型可以依據某一部影片的大量用戶行為(wei) 數據,在定檔影片上映前一個(ge) 月就可以給出該片的首日票房預測。
同時,係統自動篩選出與(yu) 之最相似的電影,描繪出待映電影的未來票房走勢圖,進而預測出這部影片在上映期間的每日票房以及最終的總票房。
穀歌所采用的預測模型隻選取了三種維度:電影預告片的搜索量、同係列電影前幾部的票房表現、檔期的季節性特征,最終獲得94%的預測準確率。
這種方式的優(you) 點在於(yu) 簡單直接,更接近傳(chuan) 統大數據分析“隻反映趨勢,不深究因果”的理念,上映時間越長,其預測的數據就越為(wei) 精準,往往適用於(yu) 掌握了大量票房數據的企業(ye) 。但缺點在於(yu) ,其無法將電影上映過程中眾(zhong) 多的複雜因素考慮進來,所以經常會(hui) 出現預測波動大、與(yu) 實際偏離值較高等缺陷。
第二種思路則較為(wei) 複雜,而且會(hui) 將更多的因子納入到考量因素中來。其先根據曆史票房變化預測出某一個(ge) 檔期的總票房,然後根據社交媒體(ti) 討論數量、不同導演與(yu) 演員的曆史電影質量、點映用戶的評價(jia) 、票房情況、SEO情況等預測出各電影票房占比,之後綜合預測出各電影的實際票房。
這種方式優(you) 點在於(yu) 更多的將“電影評價(jia) ”這一個(ge) 重要因子納入到考量範圍內(nei) ,通過電影導演表現、上映前反饋等等因素來判斷出電影的流行趨勢,因此預測精準性方麵有更好的效果。
第三種思路則綜合了大數據分析與(yu) 人工決(jue) 策,即先使用大數據分析來對於(yu) 影片的票房進行一個(ge) 事先的預測,並輸出可視化的數據圖表。
與(yu) 此同時,專(zhuan) 家會(hui) 對具體(ti) 的電影進行分析,找出其潛在的爆點或是隱患,並評估其可能帶來的影響,並以加權的方式納入到模型之中進行修正。這種方式在預測爆品方麵有更好的表現。
在和貓眼的對話中,騰訊科技了解到,貓眼有一套比較完整的票房預測工具,包括實時票房(含未來預售票房)、天級票房預測(未來3天每日大盤票房預測)和總票房預測(單片總票房)等算法,由於(yu) 貓眼的大數據優(you) 勢(積累了多年的實時票房詳細數據、電影天級票房和總票房樣本、以及貓眼平台的交易數據),這些算法可以達到非常好的預測效果,如實時票房準確度度可以達到99%以上,次日天級票房預測準確度可以達到90%左右。
此外,除了算法工具,貓眼也有票房預測的專(zhuan) 家,會(hui) 根據經驗提供一些建議,對算法產(chan) 出的數據會(hui) 做一定的審核和校對,但總體(ti) 上以算法產(chan) 出為(wei) 主,人的幹預比例很小。
這套算法的基本邏輯就是:根據相似電影的票房規律預測新電影的票房,相似電影的選取會(hui) 有若幹條件(如類型、評分、所處檔期、票房體(ti) 量、近期走勢等),然後基於(yu) 這些相似電影,構建預測天級票房或總票房的機器學習(xi) 模型。
以預測《哪吒》票房為(wei) 例,貓眼在前期參考其類型、評分因素,以《大聖歸來》為(wei) 參考影片,後期《哪吒》的票房走勢出來後,貓眼發現他與(yu) 《戰狼2》的走勢相像,參考《戰狼2》的走勢調整接下來的票房預測。在《哪吒》上映期間,根據多部上映影片的表現情況實時調整其預測票房。
在國外,穀歌也有一套自己的算法預測模型。穀歌的算法模型主要利用搜索、點擊數據以及院線排片來預測票房。2013年,穀歌就宣布其模型預測票房與(yu) 真實票房的吻合程度達到了94%。
與(yu) 此同時,穀歌通過分析自身的數據還發現,在上映前四周時,大部分電影的預告片都是這個(ge) 時間發布並開始密集的投放廣告,因此,這個(ge) 階段的用戶搜索信息與(yu) 票房的相關(guan) 性會(hui) 更加緊密。
DataHunter也提到了算法大數據預測票房的難點所在:很多大數據分析工具並不考慮因果性,隻考慮相關(guan) 性,經常會(hui) 帶來“虛假相關(guan) ”的問題,也就是無法對於(yu) 數據變化的真正原因進行歸因。在大多數場景下,這樣的預測並沒有什麽(me) 問題,但是在特定的場景下,偏離預測的情況仍有可能會(hui) 發生。
此外不成熟的市場環境,以及潛在的風險因素,也會(hui) 對票房預測產(chan) 生關(guan) 鍵影響。比如影片檔期選擇、宣發策略的一招失誤,就可能導致整個(ge) 影片的票房成幾倍的誤差。而某個(ge) 關(guan) 鍵演員的負麵新聞也同樣會(hui) 帶來不可預期的影響,例如某位主演醜(chou) 聞,導致《情聖2》撤檔。
因此,這又引出了下一個(ge) 問題:如何提高算法預測的準確性?
DataHunter認為(wei) ,大數據分析與(yu) 人工決(jue) 策相結合的方式,其核心原理就是利用人工思維的主觀能動性與(yu) 創造性,發掘電影票房中潛在、但關(guan) 鍵的影響因子,最終來得出結論。
對此,貓眼提出的解決(jue) 方案是:目前算法都是實時訓練和預測的,就是針對一個(ge) 新的待預測電影,實時選取相似電影,並訓練模型以及預測,模型的超參數是提前訓練好的,短期不會(hui) 變化,算法的精度隨著樣本的積累或越來越好。當新樣本積累到一定程度,貓眼會(hui) 對模型重新優(you) 化(模型的選擇,超參數的優(you) 化)。