久久99国产精品尤物|久久黄色视频二区|三级在线播放试看无码一区二区|国产综合在线观看精品12

電話:+86 574 88168918 郵箱:sales@aliance.cn

首頁-新聞動態-新聞詳情

入門深度學習,但你知道哪些情況下不該使用深度學習嗎?

發布時(shi)間:作者:cobinet瀏覽:445次來源:jifang360
CobiNet(寧波)推薦文章:

我知道以深(shen)度(du)學(xue)(xue)習的(de)(de)(de)缺點(dian)來開始(shi)本文是不合(he)時宜的(de)(de)(de),但是此前(qian)關(guan)于(yu)深(shen)度(du)學(xue)(xue)習的(de)(de)(de)一(yi)(yi)大波討(tao)論我覺得可以很(hen)好的(de)(de)(de)引出我觀點(dian)。一(yi)(yi)切都是從 Jeff Leek 于(yu) Simply Stats 博客 發表的(de)(de)(de)一(yi)(yi)篇關(guan)于(yu)在小(xiao)樣本規模體系中使(shi)用深(shen)度(du)學(xue)(xue)習的(de)(de)(de)注(zhu)意事項文章開始(shi)。

 

來源 | hyperparameter.space

簡(jian)(jian)而言之,Jeff Leek 認為當樣本規模(mo)很小(xiao)的(de)(de)時候(通常(chang)在(zai)生物領域(yu)很常(chang)見),參數(shu)較小(xiao)的(de)(de)線性模(mo)型(xing)甚至比擁(yong)有少量分層和隱藏單元(yuan)的(de)(de)深(shen)網表現更好。為了(le)(le)證明自己的(de)(de)觀點,Jeff 展示了(le)(le)一(yi)個擁(yong)有十(shi)個最常(chang)見信息特征(zheng)的(de)(de)簡(jian)(jian)單線性預測,在(zai)嘗試(shi)使用(yong)僅 80 個樣本的(de)(de) MNIST 數(shu)據組進行 0 和 1 的(de)(de)分類時,它在(zai)表現上優于簡(jian)(jian)單深(shen)網。

這(zhe)(zhe)(zhe)引起了 Andrew Beam 注意(yi)并寫了一篇文(wen)章(zhang)反駁。文(wen)章(zhang)指(zhi)出(chu)經過(guo)適當訓練甚至只經過(guo)幾個簡單訓練的(de)(de)深(shen)度(du)學習(xi)可以打敗(bai)簡單線性模型。這(zhe)(zhe)(zhe)個來來回(hui)回(hui)的(de)(de)辯論(lun)發生在越(yue)來越(yue)多(duo)生物(wu)信息研究(jiu)者采用深(shen)度(du)學習(xi)來解決問題(ti)的(de)(de)時候。這(zhe)(zhe)(zhe)到底是炒作(zuo)還是線性模型真的(de)(de)是我們所(suo)需要的(de)(de)?

對(dui)于這個(ge)問(wen)題的答案,我認為和(he)往常一樣,是(shi)需(xu)要根據(ju)情況來決定(ding)的。在(zai)(zai)這篇文章中,我將重心放在(zai)(zai)機(ji)器(qi)學習(xi)上,解(jie)析深度學習(xi)不(bu)是(shi)那(nei)么(me)有效(xiao)或者受到阻礙的的使用(yong)案例,尤其是(shi)對(dui)入門者來說。

▌打破深度學習先入為主的(de)觀念

首先(xian),讓我們來(lai)聚(ju)焦一(yi)些(xie)在外行人眼中(zhong)已經成為半(ban)真相的(de)先(xian)入(ru)之見。這些(xie)先(xian)入(ru)之見有兩個籠統的(de)和一(yi)個更有專業性的(de)。他們有點類似于 Andrew Beam 在帖子中(zhong)指出的(de) 誤解 部(bu)分的(de)延(yan)伸。

▌深度學習真(zhen)的(de)可以(yi)在(zai)小規模體系(xi)中使用

深度(du)學習之所以成功是因為(wei)他的背后有大數據支(zhi)持(還記得第一個 Google Brain 項目(mu)嗎(ma),他將大量的 YouTube 視頻加(jia)入(ru)到了深網(wang)中),并(bing)且宣(xuan)稱有復(fu)雜的算法來處理這(zhe)些數據。

然(ran)而(er),這個大數(shu)據(ju)(ju)/深度學習也可(ke)以被翻(fan)譯成截然(ran)相(xiang)反的(de)(de)(de)(de)意(yi)思:這個很好用(yong)(yong)的(de)(de)(de)(de)東西無(wu)法(fa)被用(yong)(yong)到很小的(de)(de)(de)(de)規模體系中。如(ru)果你只(zhi)有(you)少數(shu)幾個可(ke)供添加進(jin)神經網絡的(de)(de)(de)(de)樣(yang)(yang)本,想(xiang)要適用(yong)(yong)于高采樣(yang)(yang)比參數(shu),似乎(hu)就感覺要求(qiu)過高了。然(ran)而(er),只(zhi)考(kao)慮給定問題的(de)(de)(de)(de)樣(yang)(yang)本大小和維度,無(wu)論是(shi)(shi)監(jian)督還是(shi)(shi)無(wu)監(jian)督,都是(shi)(shi)在真空中對數(shu)據(ju)(ju)進(jin)行建模,而(er)無(wu)需任何上下(xia)文。這種情(qing)況可(ke)能是(shi)(shi)因為您有(you)與您的(de)(de)(de)(de)問題相(xiang)關的(de)(de)(de)(de)數(shu)據(ju)(ju)源,或(huo)(huo)者(zhe)領域專家可(ke)以提供強有(you)力的(de)(de)(de)(de)數(shu)據(ju)(ju)源,或(huo)(huo)者(zhe)以非常(chang)特殊的(de)(de)(de)(de)方式(shi)構建數(shu)據(ju)(ju)(比如(ru)使用(yong)(yong)圖形(xing)或(huo)(huo)圖像進(jin)行編碼)。

以(yi)上的(de)(de)(de)這(zhe)些情況,深度(du)學習(xi)都(dou)可(ke)以(yi)作(zuo)為一種解(jie)決辦法(fa)。例(li)如(ru),你(ni)可(ke)以(yi)編碼較大(da)的(de)(de)(de),與數據(ju)集相(xiang)關(guan)的(de)(de)(de)表(biao)達(da)。并在(zai)你(ni)的(de)(de)(de)問題中(zhong)使用(yong)這(zhe)些表(biao)達(da)。一個(ge)(ge)關(guan)于這(zhe)個(ge)(ge)的(de)(de)(de)經(jing)典例(li)子便(bian)是(shi)我們對自然語言進行的(de)(de)(de)處理。你(ni)可(ke)以(yi)在(zai)大(da)型詞(ci)匯網站比如(ru)Wikipedia上學習(xi)一個(ge)(ge)單詞(ci),并將這(zhe)個(ge)(ge)單詞(ci)用(yong)在(zai)范圍更(geng)小更(geng)窄的(de)(de)(de)使用(yong)中(zhong)去(qu)。在(zai)極端情況下(xia),你(ni)可(ke)以(yi)擁有一套神經(jing)網絡共(gong)同學習(xi)一種表(biao)達(da)方式(shi),并在(zai)小樣本(ben)集中(zhong)重復使用(yong)該表(biao)達(da)方式(shi)的(de)(de)(de)有效方法(fa)。

這種(zhong)行(xing)為被稱作一次學習(one-shot learning),并已經(jing)被成功(gong)應(ying)用于包括計算機視覺(//arxiv.org/abs/1606.04080)和藥物研發(//arxiv.org/abs/1611.03199)在內的(de)高維數據的(de)多個領域。

 

用于藥品開(kai)發(fa)的一(yi)次(ci)學習網絡,引自 Altae-Tran 等(deng)人的論(lun)文,ACS Cent. Sci. 2017▲

▌深度(du)學習不適用于所(suo)有情況(kuang)

第二個我常聽到的(de)先(xian)入之見是人(ren)(ren)們對于深(shen)度學習的(de)炒作。很(hen)多(duo)還沒開始嘗(chang)試的(de)實(shi)踐者(zhe)希望深(shen)網可以給他們帶來神話般的(de)表現(xian)提升,只因為(wei)(wei)它在別的(de)領域有效。另外一些(xie)人(ren)(ren)則因為(wei)(wei)令人(ren)(ren)影響深(shen)刻的(de)建模(mo),圖像,音樂(le)和語言收到啟發。他們嘗(chang)試訓練最新的(de) GAN 架構而(er)希望成(cheng)為(wei)(wei)第一批(pi)進(jin)入這片領域的(de)人(ren)(ren)。這些(xie)炒作在很(hen)多(duo)方面其實(shi)是真實(shi)的(de)。

深(shen)度學(xue)習(xi)在機器學(xue)習(xi)中已經(jing)成為不可否(fou)認的(de)(de)力量,并(bing)且是所有數據建模者(zhe)的(de)(de)核心工(gong)具。它(ta)的(de)(de)普及帶來了(le)(le)諸如(ru) TensorFlow 和(he) Pytorch 等重(zhong)要框架,即(ji)使在深(shen)入學(xue)習(xi)之外也是非常有用的(de)(de)。從(cong)失(shi)敗者(zhe)到(dao)超級(ji)明星的(de)(de)起源故事激勵了(le)(le)研究人員重(zhong)新審視其他的(de)(de)方(fang)法,如(ru)進化策略(lve)和(he)強化學(xue)習(xi)。但這并(bing)不是萬能(neng)的(de)(de)。

天下沒有免費的(de)(de)午餐,深度學習(xi)模型(xing)可以非常細微,需(xu)要仔細和(he)(he)有時非常昂貴(gui)的(de)(de)超參數搜索,調整和(he)(he)測試(詳(xiang)細內容會在(zai)之后的(de)(de)文章中(zhong)提及)。另(ling)一方面,在(zai)很多情況下,使用深度學習(xi)從實踐(jian)的(de)(de)角度來(lai)看(kan)是(shi)沒有意義的(de)(de),因為更簡單(dan)的(de)(de)模型(xing)工作得更好

▌深度學習(xi)遠不止(zhi).fit()這么簡單

另外還有一(yi)個深度學(xue)習模式的(de)(de)缺失,我認為(wei)是(shi)因為(wei)翻譯自(zi)其(qi)他(ta)機(ji)器(qi)學(xue)習領域導致(zhi)的(de)(de)。絕大多(duo)數深度學(xue)習的(de)(de)教程和入門材料將這(zhe)些(xie)模型(xing)描述為(wei)由(you)分(fen)層連接(jie)的(de)(de)節(jie)點層組(zu)成(cheng),其(qi)中第一(yi)層是(shi)輸入,最后一(yi)層是(shi)輸出,并且你可以(yi)使用某種形式的(de)(de)隨機(ji)梯(ti)度下降法來訓練它們。可能(neng)經(jing)(jing)過(guo)一(yi)些(xie)簡(jian)短的(de)(de)提及梯(ti)度下降是(shi)如何運作(zuo)以(yi)及什么是(shi)反響傳播,大部分(fen)的(de)(de)解釋(shi)都集(ji)中在神經(jing)(jing)網絡豐富的(de)(de)多(duo)樣性上(卷積,反復等等)。

優化方(fang)法本身只收到了(le)一點(dian)點(dian)額(e)外關注,這(zhe)是(shi)(shi)很不幸的(de)(de)(de),因(yin)(yin)為他(ta)才是(shi)(shi)深度(du)學(xue)習最重要的(de)(de)(de)部分之一。他(ta)解(jie)釋(shi)了(le)深度(du)學(xue)習是(shi)(shi)如何實現(xian)的(de)(de)(de)。知(zhi)道如何優化參數(shu)(shu),如何有(you)效(xiao)地分配數(shu)(shu)據來(lai)使用(yong)它們(men),在合理的(de)(de)(de)時間內獲(huo)得良(liang)好的(de)(de)(de)結合是(shi)(shi)至關重要的(de)(de)(de)。這(zhe)也正是(shi)(shi)為什么(me)隨機梯(ti)度(du)這(zhe)么(me)關鍵卻仍然有(you)很多人不了(le)解(jie),問題的(de)(de)(de)原因(yin)(yin)即(ji)出自(zi)于此。我(wo)最喜歡的(de)(de)(de)是(shi)(shi)執行(xing)貝(bei)葉(xie)斯推(tui)理一部分的(de)(de)(de)解(jie)釋(shi)方(fang)法。實質上(shang),每當你做某種形式的(de)(de)(de)數(shu)(shu)值優化時,你都會用(yong)特定的(de)(de)(de)假設(she)和先驗來(lai)執行(xing)一些貝(bei)葉(xie)斯推(tui)理。實際上(shang),有(you)一個被稱為概率(lv)數(shu)(shu)字(zi)的(de)(de)(de)領(ling)域,就是(shi)(shi)基于這(zhe)個觀點(dian)誕生(sheng)的(de)(de)(de)。

隨機梯度下(xia)降是(shi)(shi)(shi)沒有什么不(bu)同的(de)(de)(de)(de),最近的(de)(de)(de)(de)工作表明(ming),該(gai)程序實際上是(shi)(shi)(shi)一個馬(ma)爾可(ke)(ke)夫(fu)鏈(lian),在某些假設下(xia),具有一個可(ke)(ke)以看作是(shi)(shi)(shi)后(hou)向變(bian)分(fen)(fen)近似的(de)(de)(de)(de)靜態分(fen)(fen)布(bu)。所以當(dang)你(ni)停止你(ni)的(de)(de)(de)(de) SGD 并獲得(de)最后(hou)的(de)(de)(de)(de)參數(shu)(shu),你(ni)其實是(shi)(shi)(shi)在從(cong)這(zhe)個近似分(fen)(fen)布(bu)中(zhong)抽樣(yang)。我發(fa)現這(zhe)個想法是(shi)(shi)(shi)有啟發(fa)性(xing)的(de)(de)(de)(de),因(yin)為(wei)優化器的(de)(de)(de)(de)參數(shu)(shu)(在這(zhe)種情況下(xia),學(xue)習(xi)(xi)率)使得(de)這(zhe)種方(fang)(fang)式更(geng)有意(yi)義(yi)。例如,當(dang)增(zeng)(zeng)加 SGD 的(de)(de)(de)(de)學(xue)習(xi)(xi)參數(shu)(shu)時(shi),Markov 鏈(lian)變(bian)得(de)不(bu)穩定,直到(dao)找到(dao)大面積(ji)樣(yang)本的(de)(de)(de)(de)局部(bu)極小值;那(nei)是(shi)(shi)(shi)因(yin)為(wei)你(ni)增(zeng)(zeng)加了程序的(de)(de)(de)(de)方(fang)(fang)差。另一方(fang)(fang)面,如果您減(jian)少學(xue)習(xi)(xi)參數(shu)(shu),馬(ma)爾科夫(fu)鏈(lian)會緩(huan)慢地(di)接近較窄的(de)(de)(de)(de)最小值,直到(dao)其收斂于緊密的(de)(de)(de)(de)區(qu)(qu)域(yu);那(nei)是(shi)(shi)(shi)因(yin)為(wei)您增(zeng)(zeng)加了某些部(bu)分(fen)(fen)的(de)(de)(de)(de)偏差。另一個參數(shu)(shu),SGD 中(zhong)的(de)(de)(de)(de)批(pi)量大小也可(ke)(ke)以控制算法收斂的(de)(de)(de)(de)區(qu)(qu)域(yu)是(shi)(shi)(shi)什么類型的(de)(de)(de)(de)區(qu)(qu)域(yu):較大區(qu)(qu)域(yu)的(de)(de)(de)(de)較小批(pi)次和(he)較大批(pi)次的(de)(de)(de)(de)較小區(qu)(qu)域(yu)。

SGD 根(gen)據學習速度(du)或批量大小(xiao)而更傾(qing)向于(yu)寬極小(xiao)或尖極小(xiao)▲

這(zhe)(zhe)種(zhong)(zhong)復(fu)雜(za)性(xing)意味著深層(ceng)網絡的優(you)(you)化(hua)器成為最重要(yao)的部(bu)分(fen)(fen):它們是(shi)模(mo)型(xing)的核心部(bu)分(fen)(fen),與(yu)層(ceng)架構一樣重要(yao)。這(zhe)(zhe)種(zhong)(zhong)現象在別的機器學習模(mo)型(xing)里并(bing)不常見。線性(xing)模(mo)型(xing)和(he)(he) SVMs 的優(you)(you)化(hua)并(bing)沒有(you)過多的細(xi)微差別,并(bing)且真的只(zhi)有(you)一個解決(jue)辦法(fa)。這(zhe)(zhe)就是(shi)為什么(me)來自其他(ta)領域和(he)(he)/或使用 Scikit 學習的工(gong)(gong)具的人在他(ta)們找不到具有(you) .fit()方法(fa)的非(fei)常簡(jian)單(dan)的 API 時會感到困惑(huo)(雖(sui)然有(you)一些工(gong)(gong)具,如(ru)Skflow,嘗試將簡(jian)單(dan)的網絡裝入(ru) .fit() 簽名(ming),但我(wo)認為這(zhe)(zhe)有(you)點誤導,因為深入(ru)學習的關鍵是(shi)它的靈活性(xing))。

▌什么(me)時候不應(ying)使用深度學習(xi)

結合以上的觀(guan)點,深(shen)度(du)(du)學(xue)習(xi)不適用于什么樣的任(ren)務?依(yi)我之見,以下這些主要場景的深(shen)度(du)(du)學(xue)習(xi)弊(bi)大于利。

低成(cheng)本或者低承諾問題

深網是非常靈活的模型(xing)(xing),有(you)著(zhu)許多(duo)(duo)架(jia)構和(he)節(jie)(jie)點(dian)類型(xing)(xing),優化器和(he)正則(ze)化策略(lve)。根(gen)據應用,你的模型(xing)(xing)可(ke)能(neng)會有(you)卷基層(有(you)多(duo)(duo)寬?使用什么(me)匯集操作?)或(huo)者(zhe)反復結構(有(you)沒有(you)門?);他也有(you)可(ke)能(neng)很(hen)深(沙漏(lou),暹羅或(huo)其他許多(duo)(duo)架(jia)構?)又或(huo)者(zhe)只是幾個隱藏的層(有(you)多(duo)(duo)少(shao)個單(dan)元(yuan)?); 它可(ke)能(neng)使用整流線性單(dan)元(yuan)或(huo)其他激活功能(neng);它可(ke)能(neng)或(huo)可(ke)能(neng)沒有(you)流失dropout(在(zai)哪一層?哪一塊?)占比應該是恰當的(l1,l2,或(huo)者(zhe)是某些東西)。這只是一個部(bu)分列表,有(you)很(hen)多(duo)(duo)其他類型(xing)(xing)的節(jie)(jie)點(dian),連(lian)接,甚至丟失的功能(neng)等著(zhu)我們(men)嘗試。

這(zhe)些是(shi)(shi)調整(zheng)和架構(gou)探索的(de)(de)(de)(de)很多超參數(shu)(shu),當訓(xun)練(lian)(lian)大型網絡的(de)(de)(de)(de)一個實例時可(ke)(ke)(ke)能非常耗時。谷歌最近吹噓自(zi)己的(de)(de)(de)(de) AutoML 管道可(ke)(ke)(ke)以(yi)自(zi)動找到最好的(de)(de)(de)(de)架構(gou),這(zhe)是(shi)(shi)非常令人印象深(shen)刻(ke)的(de)(de)(de)(de),但(dan)仍(reng)然需要(yao)(yao)超過 800 個 GPU,全天(tian)候工作數(shu)(shu)周,這(zhe)對(dui)正(zheng)常人來說是(shi)(shi)很難實現的(de)(de)(de)(de)。問(wen)題的(de)(de)(de)(de)關鍵在于訓(xun)練(lian)(lian)深(shen)網需要(yao)(yao)大量的(de)(de)(de)(de)成(cheng)本用(yong)于計算(suan)和調試(shi)。這(zhe)種費用(yong)對(dui)于許多日常預測(ce)問(wen)題并(bing)沒有意義,即使(shi)調整(zheng)小型網絡,調整(zheng)網絡的(de)(de)(de)(de)投資回報率也可(ke)(ke)(ke)能太低。即使(shi)有足夠的(de)(de)(de)(de)預算(suan)和承諾,也沒有理(li)由不(bu)嘗(chang)試(shi)基(ji)準替代方(fang)法。您可(ke)(ke)(ke)能會(hui)驚喜地發現,線性SVM真的(de)(de)(de)(de)是(shi)(shi)您需要(yao)(yao)的(de)(de)(de)(de)。

解(jie)釋和傳達模(mo)型參(can)數對一般(ban)觀眾的(de)重(zhong)要性(xing)

深網(wang)另(ling)一個令人(ren)詬病(bing)的(de)原因(yin)是其徒有(you)高(gao)預測能力卻很難解釋清(qing)楚。盡(jin)管最近有(you)很多(duo)工(gong)具,如 Saliency 地圖(tu)和(he) Activation Differences(//arxiv.org/abs/1704.02685),對某些領域而言是非常(chang)有(you)用(yong)的(de),但它們并不會完全轉移到所有(you)應用(yong)程序上。

這(zhe)主要(yao)是(shi)因為(wei),當您想要(yao)確保(bao)網絡(luo)不(bu)會通(tong)過記(ji)住數(shu)據集或專(zhuan)注于特(te)定(ding)(ding)的虛假特(te)征來欺(qi)騙您時(shi),這(zhe)些工(gong)具就(jiu)能很好地工(gong)作(zuo),但是(shi)對(dui)于深層網絡(luo)的整體決策(ce)來說,仍然(ran)難以將每(mei)個特(te)征的重要(yao)性進行解(jie)釋(shi)。在這(zhe)個情況(kuang)下,沒有(you)什么是(shi)可以真正的打敗線(xian)性模型的,因為(wei)學習的難度(du)與客戶反應有(you)直接的關系。當將這(zhe)些解(jie)釋(shi)傳達(da)給(gei)需要(yao)根(gen)據它(ta)們作(zuo)出決定(ding)(ding)的一般(ban)觀眾時(shi),這(zhe)尤其重要(yao)。

舉個例子(zi),醫(yi)生需要根據不(bu)同的(de)(de)數據來作(zuo)出診(zhen)斷(duan),變(bian)量和(he)結(jie)果之間的(de)(de)關系更(geng)簡單更(geng)直(zhi)接,醫(yi)生則能更(geng)好的(de)(de)利用(yong)它,而(er)不(bu)是(shi)低(di)估/高估其價(jia)值。此外,有些情況下,模型的(de)(de)準確性(通(tong)常是(shi)深(shen)度學(xue)習所(suo)擅長的(de)(de))并(bing)不(bu)像解釋性那樣重要。比如,決策(ce)者可能想知道人口變(bian)量對死亡率(lv)的(de)(de)影(ying)響,可能會對直(zhi)接近似關系感興趣(qu),而(er)不(bu)是(shi)預(yu)測的(de)(de)準確性。從以上兩(liang)個例子(zi),不(bu)難(nan)看出與更(geng)簡單,更(geng)加滲透的(de)(de)方(fang)法相比,深(shen)度學(xue)習處于不(bu)利地位(wei)。

建立因果機制

模(mo)型解釋的極端情況是當我們試圖建立一(yi)個(ge)機械(xie)的模(mo)型,即一(yi)個(ge)實(shi)際捕獲數據背后的現象的模(mo)型。好(hao)的例子包(bao)括(kuo)試圖猜測兩個(ge)分子(例如藥物,蛋(dan)白質(zhi),核酸等)是否在(zai)特(te)定的細胞環境中相(xiang)互作(zuo)用(yong),或者假設特(te)定的營(ying)銷策略如何(he)對銷售(shou)產生實(shi)際的影響。在(zai)這個(ge)領域沒有什么能真正的擊敗專家(jia)的老(lao)式貝葉斯方(fang)法(fa)(可(ke)能不完(wan)美);他(ta)們是我們表達和推(tui)斷因果關(guan)系的最好(hao)方(fang)法(fa)。Vicarious最近有一(yi)些(xie)很好(hao)的研究證(zheng)明了為什么更有原則的手段比游戲任務中的深度學習更好(hao)。

從 非(fei)結構化 功能中學(xue)習

這一條(tiao)可(ke)能(neng)有(you)(you)待爭論。我發現深入學(xue)習(xi)擅長的(de)(de)(de)一個(ge)(ge)領域是為特定任(ren)務(wu)找到有(you)(you)用的(de)(de)(de)數據表示。一個(ge)(ge)很好(hao)的(de)(de)(de)例子是上(shang)述的(de)(de)(de)詞語(yu)嵌(qian)(qian)入。自然語(yu)言具有(you)(you)豐富而復雜(za)的(de)(de)(de)結構,可(ke)以通過 上(shang)下文感知(zhi) 來(lai)學(xue)習(xi),每個(ge)(ge)單詞都可(ke)以用向量來(lai)表示并(bing)編碼程其最常用的(de)(de)(de)內容。為了(le)NLP任(ren)務(wu)在大型語(yu)料庫中學(xue)習(xi)使用單詞嵌(qian)(qian)入有(you)(you)時可(ke)以在另一個(ge)(ge)語(yu)料庫的(de)(de)(de)特定任(ren)務(wu)中提(ti)升(sheng)效果。

然而,如果所討(tao)論(lun)的(de)(de)語料庫(ku)是(shi)完全非(fei)結構化的(de)(de),則可能(neng)沒有(you)任(ren)(ren)何用處。例(li)如,假設(she)您正(zheng)在查(cha)看非(fei)結構化的(de)(de)關鍵字(zi)(zi)列表來對對象進行分(fen)類(lei)。由(you)于關鍵字(zi)(zi)不(bu)(bu)是(shi)在任(ren)(ren)何特(te)定的(de)(de)結構中使用(如在一(yi)個句子中),所以(yi)(yi)字(zi)(zi)嵌(qian)(qian)(qian)入(ru)(ru)不(bu)(bu)太可能(neng)有(you)幫(bang)助(zhu)。在這(zhe)種(zhong)情況下,數據(ju)是(shi)真(zhen)正(zheng)的(de)(de)一(yi)個單詞(ci),這(zhe)種(zhong)表示可能(neng)足以(yi)(yi)滿足任(ren)(ren)務。與此(ci)相反的(de)(de)是(shi),如果您預培訓深度(du)(du)(du)學習(xi)的(de)(de)話,并(bing)且可以(yi)(yi)更好地捕獲關鍵字(zi)(zi)相似(si)度(du)(du)(du),那么字(zi)(zi)嵌(qian)(qian)(qian)入(ru)(ru)的(de)(de)代價并(bing)不(bu)(bu)高。不(bu)(bu)過,我(wo)還(huan)是(shi)寧愿(yuan)從(cong)一(yi)個詞(ci)包的(de)(de)表示開(kai)始,看看能(neng)否(fou)得到很好的(de)(de)預測。畢竟,這(zhe)個詞(ci)包的(de)(de)每個維度(du)(du)(du)都(dou)比對應的(de)(de)字(zi)(zi)嵌(qian)(qian)(qian)入(ru)(ru)槽更容易解讀(du)。

▌前路漫漫

深(shen)(shen)度(du)學習領域現在(zai)很熱門,資金(jin)充足,并(bing)且正在(zai)快速發(fa)展。當你閱讀在(zai)會(hui)議上(shang)發(fa)表的(de)(de)(de)(de)論文的(de)(de)(de)(de)時候,它很可(ke)能又經(jing)歷了兩(liang)三次(ci)迭代并(bing)且已經(jing)不(bu)推薦了。這給我以上(shang)提(ti)出(chu)的(de)(de)(de)(de)觀點(dian)相(xiang)符:深(shen)(shen)度(du)學習在(zai)不(bu)久的(de)(de)(de)(de)將(jiang)來(lai)可(ke)能對這些情景來(lai)說是非常有用的(de)(de)(de)(de)。用于解釋圖像和離散序列的(de)(de)(de)(de)深(shen)(shen)度(du)學習模型(xing)的(de)(de)(de)(de)工具越來(lai)越好。

最近(jin)的軟件,如融合了貝葉斯建(jian)模的 Edward 深(shen)層框架(jia),允許(xu)(xu)量化神經網絡(luo)參數(shu)的不確定(ding)性和容(rong)易(yi)的貝葉斯推理通過(guo)概率進行(xing)編程和自動變(bian)分推理。從長(chang)遠來看,可能會有一個減少(shao)(shao)的建(jian)模詞(ci)匯表,它會揭(jie)露深(shen)層網絡(luo)可以具有的顯著屬(shu)性,從而減少(shao)(shao)需要(yao)嘗試(shi)的東西的參數(shu)空間。因此,繼(ji)續(xu)刷(shua)新你的 arXiv 吧,也許(xu)(xu)這(zhe)篇文章在一兩個月后就過(guo)時了。

Edward 與 TensorFlow 結合概率規劃,支持(chi)深度學習和貝葉斯模型,摘自 Tran 等人(ren)的(de) ICLR 2017 論文

原文:

 

文章編輯:CobiNet(寧波)  
本公司專注于電訊配件,銅纜綜合布線系列領域產品研發生產超五類,六類,七類線,屏蔽模塊,配線架及相關模(mo)塊配件的研發和生產。

歡迎來電咨詢0574 88168918,郵箱sales@aliance.cn,網址aliance.cn

相關新聞

 

?2016-2019寧波科(ke)博通信(xin)技術有限公司版權所有