目前國內(nèi)電影票房的日趨火熱,2010年到現(xiàn)在電影票房近乎呈指數(shù)增長,理念觀影人數(shù)以及電影銀幕數(shù)數(shù)量同樣呈近乎指數(shù)的增長趨勢,而由于中國人口基數(shù)大,每10萬人擁有的屏幕數(shù)(2塊左右)仍遠低于美國的14.9塊。在這樣的大趨勢下,電影票房預(yù)測分析順應(yīng)而生。電影票房預(yù)測分析有助于考察電影本身特質(zhì)對票房的主要影響因素,在一定程度上預(yù)測電影票房,為投資方在初期提供決策,為拍攝方在電影相關(guān)細節(jié)方面給出合理化建議。做電影票房預(yù)測分析回答的核心問題只有一個:如何拍出票房可能更高的電影。
數(shù)據(jù)文件說明:數(shù)據(jù)文件名為:film.csv。該數(shù)據(jù)記錄了2011年到2013年票房1千萬以上的所有電影的相關(guān)數(shù)據(jù),每個觀測為一部電影,共273部電影。因變量就是電影票房,自變量包含兩大部分:影片自身屬性和導(dǎo)演演員相關(guān)屬性,其中影片自身屬性包括影片類型、影片IP屬性、上映時間以及宣傳方,導(dǎo)演演員屬性包括導(dǎo)演名字、年代、第幾部作品、獲獎情況、導(dǎo)演是否轉(zhuǎn)型、兩個主演名字及對應(yīng)的主演百度指數(shù)。
本案例共包含四個知識點。1.數(shù)據(jù)讀入,讀入常見的csv格式數(shù)據(jù)2.數(shù)據(jù)清洗,主要處理缺失值,使分類變量更具直觀的描述性3.對數(shù)據(jù)進行基本的描述性和探索性分析,主要用到箱線圖,觀察電影票房在各分類變量條件下的關(guān)系,得到初步的關(guān)聯(lián)概念,初步確定未來的研究方向4.使用多元線性回歸進行推斷和預(yù)測分析,得到系數(shù)并且進行初步的觀察和解釋,并且運用模型對新變量進行預(yù)測
1.啟動Rstudio2.使用setwd()函數(shù)設(shè)置工作目錄,將數(shù)據(jù)文件拷貝至工作目錄下3.清空當(dāng)前全局環(huán)境中存儲的所有變量,釋放內(nèi)存空間4.使用read.csv讀取數(shù)據(jù),設(shè)置相應(yīng)的參數(shù),這里我們設(shè)置表頭為真,不將字符串自動轉(zhuǎn)化為因子向量,并且將5.讀取的數(shù)據(jù)賦值給自定義的對象a。6.查看讀入的數(shù)據(jù)對象a。
知識點小結(jié):描述性分析和探索性分析都是直觀的通過圖形來描述和探索變量之間的關(guān)系,本知識點大多數(shù)圖形用箱線圖表現(xiàn)出各影響因素對電影票房的影響,箱線圖的寬度是此分類下的電影數(shù)量,所以這里用一維箱線圖表現(xiàn)出了三維的數(shù)據(jù),更加的直觀簡便。
從模型中得到的部分啟示:影響票房的主要因素有:影片類型、宣發(fā)團隊、IP因素、檔期、導(dǎo)演投資選材建議:選擇魔幻、懸疑類題材,故事盡量原創(chuàng),有一定的群眾基礎(chǔ)(最好是翻拍片),搶占賀歲檔,宣發(fā)團隊要豪華(聯(lián)合企業(yè)),找一個從演員轉(zhuǎn)行的得過獎的導(dǎo)演
CDA(數(shù)據(jù)分析師認證),與CFA相似,由國際范圍內(nèi)數(shù)據(jù)科學(xué)領(lǐng)域行業(yè)專家、學(xué)者及知名企業(yè)共同制定并修訂更新,迅速發(fā)展成行業(yè)內(nèi)長期而穩(wěn)定的全球大數(shù)據(jù)及數(shù)據(jù)分析人才標(biāo)準,具有專業(yè)化、科學(xué)化、國際化、系統(tǒng)化等特性。
Level Ⅱ+Ⅲ:中國區(qū)30所城市,北京/上海/天津/重慶/成都/深圳/廣州/濟南/南京/杭州/蘇州/福州/太原/武漢/長沙/西安/貴陽/鄭州/南寧/昆明/烏魯木齊/沈陽/哈爾濱/合肥/石家莊/呼和浩特/南昌/長春/大連/蘭州看看我所在的地哪里報名