給定過去一段時間的數(shù)據(jù)如何對未來的數(shù)據(jù)進行預(yù)測這類時間序列預(yù)測問題是很多領(lǐng)域都關(guān)心的問題。在機器學(xué)習(xí)中目前主流的方法是利用LSTM等遞歸神經(jīng)網(wǎng)絡(luò)來對未來數(shù)據(jù)進行預(yù)測這次介紹的DeepAR模型也不例外不過不同的是DeepAR模型并不是這樣做的好處有兩點1、很多過程本身就具有隨機屬性因此輸出一個概率分布更加貼近本質(zhì)預(yù)測的精度反而更高2、可以評估出預(yù)測的不確定性和相關(guān)的風(fēng)險。接下來我們就來看DeepAR模型是如何具體實現(xiàn)的。
第一個等號很好理解就是將原先的聯(lián)合概率分布寫為自回歸的概率乘積形式這在NLP的語言模型中經(jīng)常出現(xiàn)第二個等號就是將自回歸概率用一個參數(shù)化后的似然函數(shù)來表示具體來說
對于訓(xùn)練過程圖左所有的數(shù)據(jù)都是已知的因此我們可以直接輸入prediction range的數(shù)據(jù)然后計算下一時刻的似然函數(shù)通過最大化似然函數(shù)來實現(xiàn)對于模型參數(shù)的訓(xùn)練。
可以看出訓(xùn)練和預(yù)測過程之間其實存在著一些差別這在一些任務(wù)例如NLP中可能會造成嚴(yán)重的“脫節(jié)”問題不過論文在實驗中并沒有發(fā)現(xiàn)這個問題。
另外考慮到模型的輸入是多個時間序列這些時間序列的量級可能并不一樣因此我們需要對它們做放縮對于每一個時間序列i都對應(yīng)有一個放縮因子
另外最近還有一篇論文利用DeepAR模型做了一些金融領(lǐng)域的實驗這里簡單介紹兩個小實驗第一個是在S&P500股票數(shù)據(jù)上的收益實驗該實驗構(gòu)建了這樣一個多空交易策略在時刻t預(yù)測所有股票在th時刻的漲跌情況然后做多期望收益最高的k只股票并做空期望損失最大的k支股票利用蒙特卡洛方法來估計收益期望。得到的收益與目前主流的非概率模型的結(jié)果對比如下
這篇論文提出的DeepAR模型不同于以往的時間序列預(yù)測模型它輸出的是未來數(shù)據(jù)的一個概率分布我們需要通過采樣的方法用DeepAR遞歸地生成對于未來一段時間數(shù)據(jù)的預(yù)測不過因為是從概率分布中采樣得到的這只是一條可能的“軌跡”要計算期望值的線c;就需要利用蒙特卡洛方法多次重復(fù)采樣后取平均來得到。個人感覺這種讓模型輸出概率分布的方法特別適用于像金融數(shù)據(jù)這類具有較大不確定性的時間序列數(shù)據(jù)這類數(shù)據(jù)上往往具有一些噪聲這就導(dǎo)致直接對未來數(shù)據(jù)做直接預(yù)測并不一定可靠而對于預(yù)測概率分布的DeepAR模型最大化未來序列的似然函數(shù)的方式反而能夠更好地反映出數(shù)據(jù)內(nèi)在的隨機性質(zhì)它不僅能夠預(yù)測數(shù)值還可以預(yù)測未來的波動這一特點對于需要考慮風(fēng)險的金融領(lǐng)域是非常有幫助的。
為87%,所以她選擇主動切除乳腺。當(dāng)時這篇報道給我的震驚在于女神的果斷,因為我們常人懷有僥幸心理,不到萬不得已絕舍不得給自己來一刀。 不過,如今我們學(xué)習(xí)機器學(xué)習(xí),那視角就得小小切換一下:女神這 87%的患病
對向量,矩陣,張量求導(dǎo) 英文原文:Partial Least Squares (PLS) Regression. 目錄 用 [TOC]來生成目錄: 對向量矩陣張量求導(dǎo) 目錄 Expanding notation into explicit sums and equations for each component 2 Removing summation notation
筆者在看各種NLP的論文、文獻、博客之中發(fā)現(xiàn)在應(yīng)用過程中,有種類繁多的詞向量的表達。筆者舉例所看到的詞向量有哪些。 詞向量類型: 一個詞一列向量,Hash算法,word2vec,LDA主題-詞語矩陣; 一個詞一個值,bow算法,詞權(quán)重; 根據(jù)詞向量組成句向量的方式: 如果是一詞一列向量,一般用簡單相加(相加被證明是最科學(xué))來求得; 一個詞一值的就是用詞權(quán)重組合成向量的方
當(dāng)中。因為在NLP 里面,最細粒度的是 詞語,詞語組成句子,句子再組成段落、篇章、文檔。所以處理 NLP 的問題,首先就要拿詞語開刀。一般來說,對文本的預(yù)處理流程如下: 預(yù)處理結(jié)束后,我們得到的是詞匯,而通用的
出現(xiàn)多重共線性、異方差、序列相關(guān)等等問題時,我們需要如何應(yīng)對與處理。 接下來我們來分別針對不同的情況看進行處理 正文 一,異方差(Heteroscedasticity) (一) 異方差的介紹 在線性...
值與殘差的圖形。例如,如下代碼,可繪制一個常見的診斷圖: plot(predict(model,type = response),residuals(model,type = deviance))R將列出帽子值(hat value)、學(xué)生化殘差值和Cook