Searching for Activation Functions/paper/zh
| Research Paper | |
|---|---|
| Authors | Prajit Ramachandran; Barret Zoph; Quoc V. Le |
| Year | 2017 |
| Topic area | Machine Learning |
| Difficulty | Research |
| arXiv | 1710.05941 |
| Download PDF | |
尋找激活函數
Prajit Ramachandran, Barret Zoph, Quoc V. Le
Google Brain
{prajit,barretzoph,qvl}@google.com
本工作完成於 Google Brain Residency 項目期間(g.co/brainresidency)。
摘要
深度網絡中激活函數的選擇對訓練動態和任務性能有顯著影響。目前最成功且使用最廣泛的激活函數是 Rectified Linear Unit(ReLU)。儘管已經提出了多種手工設計的 ReLU 替代方案,但由於增益不穩定,無一能夠取代它。本工作中,我們提出利用自動化搜索技術來發現新的激活函數。通過結合窮舉搜索與基於強化學習的搜索,我們發現了多個新穎的激活函數。我們通過對最佳被發現的激活函數進行實證評估來驗證搜索的有效性。我們的實驗表明,最佳被發現的激活函數 $ {\textstyle {f\hspace{0pt}{(x)}} = {{x \cdot \text{sigmoid}}\hspace{0pt}{({\beta\hspace{0pt}x})}}} $(我們將其命名為 Swish),在多個具有挑戰性的數據集上,於更深層模型上往往優於 ReLU。例如,僅將 ReLU 替換為 Swish 單元便可在 ImageNet 上將 Mobile NASNet-A 的 top-1 分類準確率提高 0.9%,將 Inception-ResNet-v2 提高 0.6%。Swish 的簡潔性以及與 ReLU 的相似性使從業者可以輕鬆地在任何神經網絡中將 ReLU 替換為 Swish 單元。
1 引言
每個深度網絡的核心都是一個線性變換後跟一個激活函數 $ {\textstyle f\hspace{0pt}{( \cdot )}} $。激活函數在深度神經網絡的訓練成功中起着主要作用。目前最成功且使用最廣泛的激活函數是 Rectified Linear Unit(ReLU)(Hahnloser et al., 2000;Jarrett et al., 2009;Nair & Hinton, 2010),其定義為 $ {\textstyle {f\hspace{0pt}{(x)}} = {\max{(x,0)}}} $。ReLU 的使用是一項突破性進展,使得最先進的深度網絡能夠進行完全監督訓練(Krizhevsky et al., 2012)。帶有 ReLU 的深度網絡比帶有 sigmoid 或 tanh 單元的網絡更易於優化,因為當輸入為正時,ReLU 函數允許梯度流動。由於其簡潔性和有效性,ReLU 已成為整個深度學習社區中默認使用的激活函數。
儘管已經提出了大量替代 ReLU 的激活函數(Maas et al., 2013;He et al., 2015;Clevert et al., 2015;Klambauer et al., 2017),但沒有一個能夠獲得 ReLU 所享有的廣泛採用。許多從業者更青睞 ReLU 的簡潔性和可靠性,因為其他激活函數在不同模型和數據集上的性能改進往往不穩定。
提出用於替代 ReLU 的激活函數都是為了符合被認為重要的屬性而手工設計的。然而,最近研究表明,使用搜索技術來自動發現傳統上由人手工設計的組件極為有效(Zoph & Le, 2016;Bello et al., 2017;Zoph et al., 2017)。例如,Zoph et al.(2017)使用基於強化學習的搜索找到了一個可復用的卷積單元,在 ImageNet 上超過了人類設計的架構。
在本工作中,我們使用自動化搜索技術來發現新穎的激活函數。我們專注於尋找新的標量激活函數 —— 即輸入一個標量、輸出一個標量的函數 —— 因為標量激活函數可以在不改變網絡架構的情況下替換 ReLU。通過結合窮舉搜索與基於強化學習的搜索,我們發現了若干表現出色的新穎激活函數。為了進一步驗證使用搜索發現標量激活函數的有效性,我們對最佳被發現的激活函數進行了實證評估。我們將最佳被發現的激活函數命名為 Swish,其形式為 $ {\textstyle {f\hspace{0pt}{(x)}} = {{x \cdot \text{sigmoid}}\hspace{0pt}{({\beta\hspace{0pt}x})}}} $,其中 $ {\textstyle \beta} $ 是一個常數或可訓練參數。我們大量的實驗表明,在圖像分類和機器翻譯等多種具有挑戰性的領域中,Swish 在深度網絡上始終匹配或優於 ReLU。在 ImageNet 上,將 ReLU 替換為 Swish 單元可使 Mobile NASNet-A 的 top-1 分類準確率提高 0.9%(Zoph et al., 2017),Inception-ResNet-v2 提高 0.6%(Szegedy et al., 2017)。考慮到從 Inception V3(Szegedy et al., 2016)到 Inception-ResNet-v2(Szegedy et al., 2017)一整年的架構調整和擴大才帶來 1.3% 的準確率提升,這些準確率收益是可觀的。
2 方法
為了利用搜索技術,必須設計一個包含有前途的候選激活函數的搜索空間。設計搜索空間時一個重要的挑戰是平衡搜索空間的大小與表達能力。過於受限的搜索空間不會包含新穎的激活函數,而過大的搜索空間則難以有效搜索。為了平衡兩者,我們設計了一個簡單的搜索空間,受 Bello et al.(2017)的優化器搜索空間啟發,通過組合一元和二元函數來構造激活函數。
如圖 1 所示,激活函數通過反覆組合"核心單元"構造而成,其定義為 $ {\textstyle b\hspace{0pt}{({u_{1}\hspace{0pt}{(x_{1})}},{u_{2}\hspace{0pt}{(x_{2})}})}} $。核心單元接受兩個標量輸入,分別將每個輸入通過一個一元函數,然後用一個二元函數將兩個一元輸出組合為一個標量輸出。由於我們的目標是尋找將單個標量輸入轉換為單個標量輸出的標量激活函數,因此一元函數的輸入被限制為該層的預激活 $ {\textstyle x} $ 和二元函數的輸出。
給定搜索空間,搜索算法的目標是為一元和二元函數找到有效的選擇。搜索算法的選擇取決於搜索空間的大小。如果搜索空間很小,例如只用一個核心單元,便可以窮舉枚舉整個搜索空間。如果核心單元重複多次,則搜索空間會變得極其龐大(即 $ {\textstyle 10^{12}} $ 量級的可能性),使窮舉搜索不可行。
對於大型搜索空間,我們使用 RNN 控制器(Zoph & Le, 2016),如圖 2 所示。在每個時間步,控制器預測激活函數的一個組件。預測結果會反饋到下一個時間步的控制器,重複此過程直到預測出激活函數的所有組件。然後用預測得到的字符串來構造激活函數。
一旦搜索算法生成了一個候選激活函數,就會用該候選激活函數訓練一個"子網絡"在某個任務上(例如 CIFAR-10 上的圖像分類)。訓練完成後,記錄子網絡的驗證準確率並用於更新搜索算法。在窮舉搜索中,會維護一個按驗證準確率排序的最佳激活函數列表。在 RNN 控制器的情形下,使用強化學習訓練控制器以最大化驗證準確率,其中驗證準確率作為獎勵。這種訓練促使控制器生成具有較高驗證準確率的激活函數。
由於評估單個激活函數需要訓練一個子網絡,搜索的計算成本很高。為減少進行搜索所需的實際時間,我們採用分布式訓練方案來並行化每個子網絡的訓練。在該方案中,搜索算法提出一批候選激活函數加入隊列。worker 機從隊列中取出激活函數,訓練一個子網絡,並將對應激活函數的最終驗證準確率反饋回來。驗證準確率會被匯總,用於更新搜索算法。
3 搜索發現
我們所有的搜索都使用 ResNet-20(He et al., 2016a)作為子網絡架構,在 CIFAR-10(Krizhevsky & Hinton, 2009)上訓練 10K 步。這種受限環境可能會使結果產生偏差,因為表現最好的激活函數可能只對小型網絡有效。然而,我們在實驗部分中表明,許多被發現的函數能夠泛化到更大的模型。對於小型搜索空間使用窮舉搜索,對於較大的搜索空間則使用 RNN 控制器。RNN 控制器使用 Policy Proximal Optimization(Schulman et al., 2017)訓練,使用獎勵的指數滑動平均作為基線以降低方差。所考慮的一元和二元函數的完整列表如下:
•
一元函數: $ {\textstyle x} $, $ {\textstyle - x} $, $ {\textstyle |x|} $, $ {\textstyle x^{2}} $, $ {\textstyle x^{3}} $, $ {\textstyle \sqrt{x}} $, $ {\textstyle \beta\hspace{0pt}x} $, $ {\textstyle x + \beta} $, $ {\textstyle \log{({{|x|} + \epsilon})}} $, $ {\textstyle \exp{(x)}} $ $ {\textstyle \sin{(x)}} $, $ {\textstyle \cos{(x)}} $, $ {\textstyle \sinh{(x)}} $, $ {\textstyle \cosh{(x)}} $, $ {\textstyle \tanh{(x)}} $, $ {\textstyle \sinh^{- 1}{(x)}} $, $ {\textstyle \tan^{- 1}{(x)}} $, $ {\textstyle \text{sinc}\hspace{0pt}{(x)}} $, $ {\textstyle \max{(x,0)}} $, $ {\textstyle \min{(x,0)}} $, $ {\textstyle \sigma\hspace{0pt}{(x)}} $, $ {\textstyle \log{({1 + {\exp{(x)}}})}} $, $ {\textstyle \exp{({- x^{2}})}} $, $ {\textstyle \text{erf}\hspace{0pt}{(x)}} $, $ {\textstyle \beta} $
•
二元函數: $ {\textstyle x_{1} + x_{2}} $, $ {\textstyle x_{1} \cdot x_{2}} $, $ {\textstyle x_{1} - x_{2}} $, $ {\textstyle \frac{x_{1}}{x_{2} + \epsilon}} $, $ {\textstyle \max{(x_{1},x_{2})}} $, $ {\textstyle \min{(x_{1},x_{2})}} $, $ {\textstyle {\sigma\hspace{0pt}{(x_{1})}} \cdot x_{2}} $, $ {\textstyle \exp{({- {\beta\hspace{0pt}{({x_{1} - x_{2}})}^{2}}})}} $, $ {\textstyle \exp{({- {\beta\hspace{0pt}{|{x_{1} - x_{2}}|}}})}} $, $ {\textstyle {\beta\hspace{0pt}x_{1}} + {{({1 - \beta})}\hspace{0pt}x_{2}}} $
其中 $ {\textstyle \beta} $ 表示按通道可訓練的參數,$ {\textstyle {\sigma\hspace{0pt}{(x)}} = {({1 + {\exp{({- x})}}})}^{- 1}} $ 為 sigmoid 函數。通過改變用於構造激活函數的核心單元數量,以及搜索算法可用的一元和二元函數,可以創建不同的搜索空間。
圖 3 繪製了搜索發現的表現最佳的新穎激活函數。我們強調搜索揭示的幾個值得注意的趨勢:
•
複雜的激活函數始終不如更簡單的激活函數,這可能是由於優化難度增加所致。表現最好的激活函數可以用 $ {\textstyle 1} $ 個或 $ {\textstyle 2} $ 個核心單元來表示。
•
表現最好的激活函數共有的一個結構是將原始預激活 $ {\textstyle x} $ 作為最終二元函數的輸入:$ {\textstyle b\hspace{0pt}{(x,{g\hspace{0pt}{(x)}})}} $。ReLU 函數也遵循這一結構,其中 $ {\textstyle {b\hspace{0pt}{(x_{1},x_{2})}} = {\max{(x_{1},x_{2})}}} $ 且 $ {\textstyle {g\hspace{0pt}{(x)}} = 0} $。
•
搜索發現了使用周期函數(如 $ {\textstyle \sin} $ 和 $ {\textstyle \cos} $)的激活函數。最常見的使用方式是與原始預激活 $ {\textstyle x} $(或線性縮放後的 $ {\textstyle x} $)進行加法或減法。先前工作僅簡要探索了在激活函數中使用周期函數(Parascandolo et al., 2016),因此這些被發現的函數為進一步研究提示了一條富有成果的途徑。
•
使用除法的函數往往表現不佳,因為當分母接近 $ {\textstyle 0} $ 時輸出會爆炸。只有當分母中的函數遠離 $ {\textstyle 0} $(如 $ {\textstyle \cosh{(x)}} $),或僅當分子也接近 $ {\textstyle 0} $ 時分母才接近 $ {\textstyle 0} $(產生 $ {\textstyle 1} $ 的輸出),除法才會成功。
由於這些激活函數是使用一個相對較小的子網絡發現的,它們的表現在更大模型上可能無法泛化。為測試表現最好的新穎激活函數對不同架構的魯棒性,我們使用 preactivation ResNet-164(RN)(He et al., 2016b)、Wide ResNet 28-10(WRN)(Zagoruyko & Komodakis, 2016)和 DenseNet 100-12(DN)(Huang et al., 2017)模型進行了額外實驗。我們在 TensorFlow 中實現這 3 個模型,並將 ReLU 函數替換為搜索發現的每個表現最好的新穎激活函數。我們使用每篇工作中描述的相同超參數(例如使用帶動量的 SGD 進行優化),並按照先前工作報告 5 次運行的中位數。
| 函數 | RN | WRN | DN |
|---|---|---|---|
| ReLU [$ {\textstyle \max{(x,0)}} $] | 93.8 | 95.3 | 94.8 |
| $ {\textstyle {x \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}} $ | 94.5 | 95.5 | 94.9 |
| $ {\textstyle \max{(x,{\sigma\hspace{0pt}{(x)}})}} $ | 94.3 | 95.3 | 94.8 |
| $ {\textstyle {\cos{(x)}} - x} $ | 94.1 | 94.8 | 94.6 |
| $ {\textstyle \min{(x,{\sin{(x)}})}} $ | 94.0 | 95.1 | 94.4 |
| $ {\textstyle {({\tan^{- 1}{(x)}})}^{2} - x} $ | 93.9 | 94.7 | 94.9 |
| $ {\textstyle \max{(x,{\tanh{(x)}})}} $ | 93.9 | 94.2 | 94.5 |
| $ {\textstyle {\text{sinc}\hspace{0pt}{(x)}} + x} $ | 91.5 | 92.1 | 92.0 |
| $ {\textstyle x \cdot {({\sinh^{- 1}{(x)}})}^{2}} $ | 85.1 | 92.1 | 91.1 |
| 函數 | RN | WRN | DN |
|---|---|---|---|
| ReLU [$ {\textstyle \max{(x,0)}} $] | 74.2 | 77.8 | 83.7 |
| $ {\textstyle {x \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}} $ | 75.1 | 78.0 | 83.9 |
| $ {\textstyle \max{(x,{\sigma\hspace{0pt}{(x)}})}} $ | 74.8 | 78.6 | 84.2 |
| $ {\textstyle {\cos{(x)}} - x} $ | 75.2 | 76.6 | 81.8 |
| $ {\textstyle \min{(x,{\sin{(x)}})}} $ | 73.4 | 77.1 | 74.3 |
| $ {\textstyle {({\tan^{- 1}{(x)}})}^{2} - x} $ | 75.2 | 76.7 | 83.1 |
| $ {\textstyle \max{(x,{\tanh{(x)}})}} $ | 74.8 | 76.0 | 78.6 |
| $ {\textstyle {\text{sinc}\hspace{0pt}{(x)}} + x} $ | 66.1 | 68.3 | 67.9 |
| $ {\textstyle x \cdot {({\sinh^{- 1}{(x)}})}^{2}} $ | 52.8 | 70.6 | 68.1 |
結果如表 2 與 2 所示。儘管模型架構有所變化,八個激活函數中有六個仍能成功泛化。在這六個激活函數中,所有函數在 ResNet-164 上都達到或超過 ReLU。此外,被發現的激活函數中有兩個 —— $ {\textstyle {x \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}} $ 與 $ {\textstyle \max{(x,{\sigma\hspace{0pt}{(x)}})}} $ —— 在所有三個模型上都始終匹配或超過 ReLU。
儘管這些結果令人鼓舞,但被發現的激活函數能否在具有挑戰性的真實數據集上成功替代 ReLU 仍不清楚。為驗證搜索的有效性,本工作其餘部分聚焦於實證評估激活函數 $ {\textstyle {f\hspace{0pt}{(x)}} = {{x \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}}} $,我們將其命名為 Swish。我們選擇對 Swish 進行廣泛評估而不是 $ {\textstyle \max{(x,{\sigma\hspace{0pt}{(x)}})}} $,因為早期實驗表明 Swish 的泛化性更好。在接下來的章節中,我們分析 Swish 的性質,然後對若干大型模型在多種任務上對 Swish、ReLU 與其他候選基線激活函數進行充分的實證比較。
4 Swish
回顧一下,Swish 定義為 $ {\textstyle {x \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}} $,其中 $ {\textstyle {\sigma\hspace{0pt}{(z)}} = {({1 + {\exp{({- z})}}})}^{- 1}} $ 為 sigmoid 函數,$ {\textstyle \beta} $ 是常數或可訓練參數。圖 5 繪製了不同 $ {\textstyle \beta} $ 值下 Swish 的曲線。當 $ {\textstyle \beta = 1} $ 時,Swish 等價於 Elfwing et al.(2017)為強化學習提出的 Sigmoid-weighted Linear Unit(SiL)。當 $ {\textstyle \beta = 0} $ 時,Swish 退化為按比例縮放的線性函數 $ {\textstyle {f\hspace{0pt}{(x)}} = \frac{x}{2}} $。當 $ {\textstyle \beta\rightarrow\infty} $ 時,sigmoid 部分逼近 $ {\textstyle 0} $-$ {\textstyle 1} $ 階躍函數,因此 Swish 趨近於 ReLU。這表明 Swish 可以粗略地視為在線性函數與 ReLU 之間進行非線性插值的光滑函數;如果將 $ {\textstyle \beta} $ 設為可訓練參數,模型還可控制插值的程度。
與 ReLU 類似,Swish 在上方無界、在下方有界。與 ReLU 不同的是,Swish 是光滑且非單調的。事實上,Swish 的非單調性使其區別於大多數常見的激活函數。Swish 的導數為
| $ {\textstyle f^{\prime}\hspace{0pt}{(x)}} $ | $ {\textstyle = {{\sigma\hspace{0pt}{({\beta\hspace{0pt}x})}} + {{{\beta\hspace{0pt}x} \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}\hspace{0pt}{({1 - {\sigma\hspace{0pt}{({\beta\hspace{0pt}x})}}})}}}} $ | ||
| $ {\textstyle = {{{\sigma\hspace{0pt}{({\beta\hspace{0pt}x})}} + {{{\beta\hspace{0pt}x} \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}}} - {{{\beta\hspace{0pt}x} \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}^{2}}}} $ | |||
| $ {\textstyle = {{{{\beta\hspace{0pt}x} \cdot \sigma}\hspace{0pt}{(x)}} + {\sigma\hspace{0pt}{({\beta\hspace{0pt}x})}\hspace{0pt}{({1 - {{{\beta\hspace{0pt}x} \cdot \sigma}\hspace{0pt}{({\beta\hspace{0pt}x})}}})}}}} $ | |||
| $ {\textstyle = {{\beta\hspace{0pt}f\hspace{0pt}{(x)}} + {\sigma\hspace{0pt}{({\beta\hspace{0pt}x})}\hspace{0pt}{({1 - {\beta\hspace{0pt}f\hspace{0pt}{(x)}}})}}}} $ |
圖 5 展示了不同 $ {\textstyle \beta} $ 值下 Swish 的一階導數。$ {\textstyle \beta} $ 的尺度決定了一階導數趨近於 $ {\textstyle 0} $ 與 $ {\textstyle 1} $ 的速度。當 $ {\textstyle \beta = 1} $ 時,對於約小於 $ {\textstyle 1.25} $ 的輸入,導數的幅值小於 $ {\textstyle 1} $。因此,Swish 在 $ {\textstyle \beta = 1} $ 時的成功表明,ReLU 的梯度保持性質(即當 $ {\textstyle x > 0} $ 時導數為 1)在現代架構中可能不再是顯著優勢。
Swish 和 ReLU 之間最顯著的差異是 Swish 在 $ {\textstyle x < 0} $ 時的非單調"凸起"。如圖 7 所示,很大比例的預激活值落在該凸起的範圍內 ($ {\textstyle - 5 \leq x \leq 0)} $,這表明非單調凸起是 Swish 的一個重要方面。可以通過改變 $ {\textstyle \beta} $ 參數來控制凸起的形狀。雖然固定 $ {\textstyle \beta = 1} $ 在實踐中是有效的,但實驗部分表明訓練 $ {\textstyle \beta} $ 可以在某些模型上進一步提高性能。圖 7 繪製了來自 Mobile NASNet-A 模型 (Zoph 等, 2017) 的訓練後 $ {\textstyle \beta} $ 值的分布。訓練後的 $ {\textstyle \beta} $ 值分布在 $ {\textstyle 0} $ 和 $ {\textstyle 1.5} $ 之間,並在 $ {\textstyle \beta \approx 1} $ 處有一個峰值,這表明該模型利用了可訓練 $ {\textstyle \beta} $ 參數所提供的額外靈活性。
在實踐中,在大多數深度學習庫中只需修改一行代碼即可實現 Swish,例如在 TensorFlow(Abadi et al., 2016)中使用 x * tf.sigmoid(beta * x),或在本工作提交之後發布的 TensorFlow 版本中使用 tf.nn.swish(x)。需要注意的是,如果使用 BatchNorm(Ioffe & Szegedy, 2015),應當設置其 scale 參數。一些高層庫由於 ReLU 是分段線性函數而默認關閉 scale 參數,但該設置對 Swish 並不正確。對於訓練 Swish 網絡,我們發現略微降低用於訓練 ReLU 網絡的學習率效果很好。
5 Swish 的實驗
我們在具有挑戰性的數據集上將 Swish 與 ReLU 以及多個近期提出的激活函數進行基準比較,發現 Swish 在幾乎所有任務上都達到或超過基線。以下章節將更詳細地描述我們的實驗設置和結果。作為總結,表 3 展示了 Swish 與我們考慮的每個基線激活函數的對比(基線定義見下一節)。表 3 中的結果通過比較 Swish 與不同激活函數在多種模型(如 Inception ResNet-v2(Szegedy et al., 2017)和 Transformer(Vaswani et al., 2017))、多個數據集(如 CIFAR、ImageNet 與英→德翻譯)上的表現進行匯總。111為了避免使比較失真,每種模型僅比較一次。具有多個結果的模型用其結果的中位數來表示。具體而言,進行匯總的模型包括:(a) 在 CIFAR-10 與 CIFAR-100 上的 ResNet-164、Wide ResNet 28-10 與 DenseNet 100-12;(b) 在 3 次運行上的 Mobile NASNet-A 與 Inception-ResNet-v2;(c) 在 4 個 newstest 結果上的 WMT Transformer 模型。在單邊配對符號檢驗下,Swish 相對其他激活函數的改進具有統計顯著性。
| 基線 | ReLU | LReLU | PReLU | Softplus | ELU | SELU | GELU |
|---|---|---|---|---|---|---|---|
| Swish $ {\textstyle >} $ Baseline | 9 | 7 | 6 | 6 | 8 | 8 | 8 |
| Swish $ {\textstyle =} $ Baseline | 0 | 1 | 3 | 2 | 0 | 1 | 1 |
| Swish $ {\textstyle <} $ Baseline | 0 | 1 | 0 | 1 | 1 | 0 | 0 |
5.1 實驗設置
我們在多種模型和數據集上將 Swish 與若干其他基線激活函數進行比較。由於已提出的激活函數數量眾多,我們選擇最常見的激活函數作為對比,並遵循每篇原始工作中給出的指南:
•
Leaky ReLU(LReLU) (Maas et al., 2013):
$ {\displaystyle {f\hspace{0pt}{(x)}} = \begin{cases} x & {{\text{if~}\hspace{0pt}x} \geq 0} \\ {\alpha\hspace{0pt}x} & {{\text{if~}\hspace{0pt}x} < 0} \end{cases}} $ 其中 $ {\textstyle \alpha = 0.01} $。LReLU 允許在 $ {\textstyle x < 0} $ 時有少量信息流過。
•
Parametric ReLU(PReLU)(He et al., 2015):與 LReLU 形式相同,但 $ {\textstyle \alpha} $ 為可學習參數。每個通道共享一個 $ {\textstyle \alpha} $,其初始化為 $ {\textstyle 0.25} $。
•
Softplus(Nair & Hinton, 2010):$ {\textstyle {f\hspace{0pt}{(x)}} = {\log{({1 + {\exp{(x)}}})}}} $。Softplus 是一個具有與 Swish 相似性質的光滑函數,但嚴格為正且單調。可以視為 ReLU 的光滑版本。
•
Exponential Linear Unit(ELU)(Clevert et al., 2015):
$ {\displaystyle {f\hspace{0pt}{(x)}} = \begin{cases} x & {{\text{if~}\hspace{0pt}x} \geq 0} \\ {\alpha\hspace{0pt}{({{\exp{(x)}} - 1})}} & {{\text{if~}\hspace{0pt}x} < 0} \end{cases}} $ 其中 $ {\textstyle \alpha = 1.0} $
•
Scaled Exponential Linear Unit(SELU)(Klambauer et al., 2017):
$ {\displaystyle {f\hspace{0pt}{(x)}} = {\lambda\hspace{0pt}\begin{cases} x & {{\text{if~}\hspace{0pt}x} \geq 0} \\ {\alpha\hspace{0pt}{({{\exp{(x)}} - 1})}} & {{\text{if~}\hspace{0pt}x} < 0} \end{cases}}} $ 其中 $ {\textstyle \alpha \approx 1.6733} $ 與 $ {\textstyle \lambda \approx 1.0507} $。
•
Gaussian Error Linear Unit(GELU)(Hendrycks & Gimpel, 2016):$ {\textstyle {f\hspace{0pt}{(x)}} = {{x \cdot \Phi}\hspace{0pt}{(x)}}} $,其中 $ {\textstyle \Phi\hspace{0pt}{(x)}} $ 是標準正態分布的累積分布函數。GELU 是一種非單調函數,其形狀與 $ {\textstyle \beta = 1.4} $ 時的 Swish 相似。
我們同時評估了帶有可訓練 $ {\textstyle \beta} $ 的 Swish 和固定 $ {\textstyle \beta = 1} $ 的 Swish(為簡便起見我們將其稱為 Swish-1,但它等價於 Elfwing et al.(2017)的 Sigmoid-weighted Linear Unit)。請注意,由於我們的訓練設置存在差異,我們的結果可能無法與對應工作的結果直接比較。
5.2 CIFAR
我們首先在 CIFAR-10 和 CIFAR-100 數據集(Krizhevsky & Hinton, 2009)上將 Swish 與所有基線激活函數進行比較。我們沿用比較搜索技術發現的激活函數時所用的相同設置,使用 preactivation ResNet-164(He et al., 2016b)、Wide ResNet 28-10(WRN)(Zagoruyko & Komodakis, 2016)和 DenseNet 100-12(Huang et al., 2017)模型,比較 5 次運行的中位數。
| 模型 | ResNet | WRN | DenseNet |
|---|---|---|---|
| LReLU | 94.2 | 95.6 | 94.7 |
| PReLU | 94.1 | 95.1 | 94.5 |
| Softplus | 94.6 | 94.9 | 94.7 |
| ELU | 94.1 | 94.1 | 94.4 |
| SELU | 93.0 | 93.2 | 93.9 |
| GELU | 94.3 | 95.5 | 94.8 |
| ReLU | 93.8 | 95.3 | 94.8 |
| Swish-1 | 94.7 | 95.5 | 94.8 |
| Swish | 94.5 | 95.5 | 94.8 |
| 模型 | ResNet | WRN | DenseNet |
|---|---|---|---|
| LReLU | 74.2 | 78.0 | 83.3 |
| PReLU | 74.5 | 77.3 | 81.5 |
| Softplus | 76.0 | 78.4 | 83.7 |
| ELU | 75.0 | 76.0 | 80.6 |
| SELU | 73.2 | 74.3 | 80.8 |
| GELU | 74.7 | 78.0 | 83.8 |
| ReLU | 74.2 | 77.8 | 83.7 |
| Swish-1 | 75.1 | 78.5 | 83.8 |
| Swish | 75.1 | 78.0 | 83.9 |
表 5 與 5 中的結果表明,在 CIFAR-10 與 CIFAR-100 的每個模型上,Swish 與 Swish-1 始終匹配或超過 ReLU。在幾乎所有模型上,Swish 也匹配或超越最佳基線的表現。值得注意的是,"最佳基線"在不同模型間會變化,這顯示出 Swish 在面對這些變化的基線時的穩定性。Softplus 在一側也趨近零且光滑,與 Swish 相似,同樣表現出色。
5.3 ImageNet
接下來,我們在 ImageNet 2012 分類數據集(Russakovsky et al., 2015)上將 Swish 與基線激活函數進行基準比較。ImageNet 被廣泛視為最重要的圖像分類數據集之一,包含 1,000 個類別和 128 萬張訓練圖像。我們在擁有 50,000 張圖像的驗證集上進行評估。
我們在為 ImageNet 設計的多種架構上比較所有激活函數:Inception-ResNet-v2、Inception-v4、Inception-v3(Szegedy et al., 2017)、MobileNet(Howard et al., 2017)以及 Mobile NASNet-A(Zoph et al., 2017)。所有這些架構都是為 ReLU 設計的。我們再次將 ReLU 激活函數替換為不同的激活函數,並訓練固定步數,由 ReLU 基線的收斂情況決定。對於每個激活函數,我們用 RMSProp(Tieleman & Hinton, 2012)嘗試 3 個不同的學習率,並選取其中最好的。222對於使用 ELU、SELU 和 PReLU 的某些模型,由於最初的 3 個學習率未能收斂,我們額外嘗試了 3 個學習率(共 6 個學習率)。所有網絡使用 He initialization 初始化(He et al., 2015)。333對於 SELU,我們同時嘗試了 He initialization 與 Klambauer et al.(2017)建議的初始化,並為每個模型分別選擇最佳結果。為驗證性能差異可復現,我們以第一組實驗的最佳學習率對 Inception-ResNet-v2 與 Mobile NASNet-A 實驗各重複運行 3 次。我們在圖 8 中繪製 Mobile NASNet-A 的學習曲線。
| 模型 | Top-1 Acc. (%) | Top-5 Acc. (%) | ||||
|---|---|---|---|---|---|---|
| LReLU | 73.8 | 73.9 | 74.2 | 91.6 | 91.9 | 91.9 |
| PReLU | 74.6 | 74.7 | 74.7 | 92.4 | 92.3 | 92.3 |
| Softplus | 74.0 | 74.2 | 74.2 | 91.6 | 91.8 | 91.9 |
| ELU | 74.1 | 74.2 | 74.2 | 91.8 | 91.8 | 91.8 |
| SELU | 73.6 | 73.7 | 73.7 | 91.6 | 91.7 | 91.7 |
| GELU | 74.6 | - | - | 92.0 | - | - |
| ReLU | 73.5 | 73.6 | 73.8 | 91.4 | 91.5 | 91.6 |
| Swish-1 | 74.6 | 74.7 | 74.7 | 92.1 | 92.0 | 92.0 |
| Swish | 74.9 | 74.9 | 75.2 | 92.3 | 92.4 | 92.4 |
| 模型 | Top-1 Acc. (%) | Top-5 Acc. (%) | ||||
|---|---|---|---|---|---|---|
| LReLU | 79.5 | 79.5 | 79.6 | 94.7 | 94.7 | 94.7 |
| PReLU | 79.7 | 79.8 | 80.1 | 94.8 | 94.9 | 94.9 |
| Softplus | 80.1 | 80.2 | 80.4 | 95.2 | 95.2 | 95.3 |
| ELU | 75.8 | 79.9 | 80.0 | 92.6 | 95.0 | 95.1 |
| SELU | 79.0 | 79.2 | 79.2 | 94.5 | 94.4 | 94.5 |
| GELU | 79.6 | 79.6 | 79.9 | 94.8 | 94.8 | 94.9 |
| ReLU | 79.5 | 79.6 | 79.8 | 94.8 | 94.8 | 94.8 |
| Swish-1 | 80.2 | 80.3 | 80.4 | 95.1 | 95.2 | 95.2 |
| Swish | 80.2 | 80.2 | 80.3 | 95.0 | 95.2 | 95.0 |
| 模型 | Top-1 Acc. (%) | Top-5 Acc. (%) |
|---|---|---|
| LReLU | 72.5 | 91.0 |
| PReLU | 74.2 | 91.9 |
| Softplus | 73.6 | 91.6 |
| ELU | 73.9 | 91.3 |
| SELU | 73.2 | 91.0 |
| GELU | 73.5 | 91.4 |
| ReLU | 72.0 | 90.8 |
| Swish-1 | 74.2 | 91.6 |
| Swish | 74.2 | 91.7 |
| 模型 | Top-1 Acc. (%) | Top-5 Acc. (%) |
|---|---|---|
| LReLU | 78.4 | 94.1 |
| PReLU | 77.7 | 93.5 |
| Softplus | 78.7 | 94.4 |
| ELU | 77.9 | 93.7 |
| SELU | 76.7 | 92.8 |
| GELU | 77.7 | 93.9 |
| ReLU | 78.4 | 94.2 |
| Swish-1 | 78.7 | 94.2 |
| Swish | 78.7 | 94.0 |
| 模型 | Top-1 Acc. (%) | Top-5 Acc. (%) |
|---|---|---|
| LReLU | 79.3 | 94.7 |
| PReLU | 79.3 | 94.4 |
| Softplus | 79.6 | 94.8 |
| ELU | 79.5 | 94.5 |
| SELU | 78.3 | 94.5 |
| GELU | 79.0 | 94.6 |
| ReLU | 79.2 | 94.6 |
| Swish-1 | 79.3 | 94.7 |
| Swish | 79.3 | 94.6 |
表 6-10 中的結果顯示 Swish 表現強勁。在 Inception-ResNet-v2 上,Swish 比 ReLU 高出可觀的 $ {\textstyle 0.5\%} $。Swish 在移動尺寸模型上表現尤為突出:相對 ReLU,在 Mobile NASNet-A 上提升 $ {\textstyle 1.4\%} $,在 MobileNet 上提升 $ {\textstyle 2.2\%} $。在大多數模型上,Swish 也匹配或超過表現最佳的基線,並且最佳基線再次因模型而異。Softplus 在較大模型上達到了與 Swish 相當的準確率,但在兩種移動尺寸模型上表現更差。對 Inception-v4 而言,切換激活函數帶來的收益更為有限,Swish 略遜於 Softplus 與 ELU。總體而言,結果表明切換到 Swish 可在幾乎不需要額外調參的情況下提升性能。
5.4 機器翻譯
我們在機器翻譯領域中額外對 Swish 進行了基準比較。我們在標準的 WMT 2014 英→德數據集上訓練機器翻譯模型,該數據集包含 450 萬訓練句子,並在 4 個不同的 newstest 集上使用標準 BLEU 度量進行評估。我們使用基於注意力的 Transformer(Vaswani et al., 2017)模型,該模型在每個注意力層之間使用一個 2 層的前饋網絡,其中使用 ReLU。我們用 2 個不同的學習率444我們額外為 Softplus 嘗試了一個學習率,但發現它在所有學習率下都表現不佳。訓練一個 12 層的"Base Transformer"模型 300K 步,其餘超參數與原始工作中相同,例如使用 Adam(Kingma & Ba, 2015)進行優化。
| 模型 | newstest2013 | newstest2014 | newstest2015 | newstest2016 |
|---|---|---|---|---|
| LReLU | 26.2 | 27.9 | 29.8 | 33.4 |
| PReLU | 26.3 | 27.7 | 29.7 | 33.1 |
| Softplus | 23.4 | 23.6 | 25.8 | 29.2 |
| ELU | 24.6 | 25.1 | 27.7 | 32.5 |
| SELU | 23.7 | 23.5 | 25.9 | 30.5 |
| GELU | 25.9 | 27.3 | 29.5 | 33.1 |
| ReLU | 26.1 | 27.8 | 29.8 | 33.3 |
| Swish-1 | 26.2 | 28.0 | 30.1 | 34.0 |
| Swish | 26.5 | 27.6 | 30.0 | 33.1 |
表 11 表明 Swish 在機器翻譯上優於或匹配其他基線。Swish-1 在 newstest2016 上表現尤為突出,比下一個表現最好的基線高出 $ {\textstyle 0.6} $ BLEU 分。表現最差的基線函數是 Softplus,這顯示出其在不同領域間性能的不一致性。相比之下,Swish 在多個領域中始終表現良好。
6 相關工作
Swish 是使用多種自動化搜索技術發現的。其他工作中也使用搜索技術來發現卷積與循環架構(Zoph & Le, 2016;Zoph et al., 2017;Real et al., 2017;Cai et al., 2017;Zhong et al., 2017)以及優化器(Bello et al., 2017)。使用搜索技術來發現傳統上由手工設計的組件,是近期復興的元學習(meta-learning)子領域的一個實例(Schmidhuber, 1987;Naik & Mammone, 1992;Thrun & Pratt, 2012)。元學習已被用於為 one-shot 學習尋找初始化(Finn et al., 2017;Ravi & Larochelle, 2016)、可適應的強化學習(Wang et al., 2016;Duan et al., 2016)以及生成模型參數(Ha et al., 2016)。元學習之所以強大,是因為其編碼的極少假設帶來的靈活性可以導出實證有效的解決方案。我們利用這一性質來尋找像 Swish 這樣具有強實證表現的標量激活函數。
雖然本工作關注的是將一個標量映射到另一個標量的標量激活函數,但深度網絡中使用的激活函數有許多種類型。many-to-one 函數,如 max pooling、maxout(Goodfellow et al., 2013)以及 gating(Hochreiter & Schmidhuber, 1997;Srivastava et al., 2015;van den Oord et al., 2016;Dauphin et al., 2016;Wu et al., 2016;Miech et al., 2017),其能力來自於以非線性方式組合多個來源。one-to-many 函數,如 Concatenated ReLU(Shang et al., 2016),通過對單個輸入應用多個非線性函數來提升性能。最後,many-to-many 函數,如 BatchNorm(Ioffe & Szegedy, 2015)與 LayerNorm(Ba et al., 2016),在其輸入之間引入強非線性關係。
先前的大部分工作集中在提出新的激活函數(Maas et al., 2013;Agostinelli et al., 2014;He et al., 2015;Clevert et al., 2015;Hendrycks & Gimpel, 2016;Klambauer et al., 2017;Qiu & Cai, 2017;Zhou et al., 2017;Elfwing et al., 2017),但很少有研究(如 Xu et al.(2015))系統地比較不同的激活函數。據我們所知,這是首個在多個具有挑戰性的數據集上比較標量激活函數的研究。
我們的研究表明,Swish 在深度模型上始終優於 ReLU。Swish 的強勁表現挑戰了關於 ReLU 的傳統觀念。當殘差連接(He et al., 2016a)已經能夠支持非常深的網絡的優化時,關於 ReLU 梯度保持性質重要性的假設似乎已無必要。在完全基於注意力的 Transformer(Vaswani et al., 2017)中也能找到類似的洞見:當使用長度固定的注意力連接時,構造精巧的 LSTM 單元(Hochreiter & Schmidhuber, 1997)不再必要。架構改進降低了單個組件保持梯度的必要性。
7 結論
在本工作中,我們利用自動化搜索技術發現了具有強實證表現的新穎激活函數。隨後我們對最佳被發現的激活函數進行了實證驗證,我們將其命名為 Swish,其定義為 $ {\textstyle {f\hspace{0pt}{(x)}} = {{x \cdot \text{sigmoid}}\hspace{0pt}{({\beta\hspace{0pt}x})}}} $。我們的實驗使用了為 ReLU 設計的模型和超參數,只是將 ReLU 激活函數替換為 Swish;即便是這樣簡單且次優的流程,也使 Swish 始終優於 ReLU 與其他激活函數。我們預計當這些模型和超參數針對 Swish 進行專門設計時,會有額外的收益。Swish 的簡潔性以及與 ReLU 的相似性意味着在任何網絡中替換 ReLU 只需簡單地修改一行代碼。
致謝
我們感謝 Esteban Real、Geoffrey Hinton、Irwan Bello、Jascha Sohl-Dickstein、Jon Shlens、Kathryn Rough、Mohammad Norouzi、Navdeep Jaitly、Niki Parmar、Sam Smith、Simon Kornblith、Vijay Vasudevan 以及 Google Brain 團隊對本項目的幫助。
參考文獻
- Abadi et al. (2016) Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al. Tensorflow: A system for large-scale machine learning. In USENIX Symposium on Operating Systems Design and Implementation, volume 16, pp. 265–283, 2016.
- Agostinelli et al. (2014) Forest Agostinelli, Matthew Hoffman, Peter Sadowski, and Pierre Baldi. Learning activation functions to improve deep neural networks. arXiv preprint arXiv:1412.6830, 2014.
- Ba et al. (2016) Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. In Advances in Neural Information Processing Systems, 2016.
- Bello et al. (2017) Irwan Bello, Barret Zoph, Vijay Vasudevan, and Quoc V Le. Neural optimizer search with reinforcement learning. In International Conference on Machine Learning, pp. 459–468, 2017.
- Cai et al. (2017) Han Cai, Tianyao Chen, Weinan Zhang, Yong Yu, and Jun Wang. Reinforcement learning for architecture search by network transformation. arXiv preprint arXiv:1707.04873, 2017.
- Clevert et al. (2015) Djork-Arné Clevert, Thomas Unterthiner, and Sepp Hochreiter. Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289, 2015.
- Dauphin et al. (2016) Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated convolutional networks. arXiv preprint arXiv:1612.08083, 2016.
- Duan et al. (2016) Yan Duan, John Schulman, Xi Chen, Peter L Bartlett, Ilya Sutskever, and Pieter Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. arXiv preprint arXiv:1611.02779, 2016.
- Elfwing et al. (2017) Stefan Elfwing, Eiji Uchibe, and Kenji Doya. Sigmoid-weighted linear units for neural network function approximation in reinforcement learning. arXiv preprint arXiv:1702.03118, 2017.
- Finn et al. (2017) Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. arXiv preprint arXiv:1703.03400, 2017.
- Goodfellow et al. (2013) Ian J Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, and Yoshua Bengio. Maxout networks. In International Conference on Machine Learning, 2013.
- Ha et al. (2016) David Ha, Andrew Dai, and Quoc V Le. Hypernetworks. arXiv preprint arXiv:1609.09106, 2016.
- Hahnloser et al. (2000) Richard HR Hahnloser, Rahul Sarpeshkar, Misha A Mahowald, Rodney J Douglas, and H Sebastian Seung. Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit. Nature, 405(6789):947, 2000.
- He et al. (2015) Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision, pp. 1026–1034, 2015.
- He et al. (2016a) Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778, 2016a.
- He et al. (2016b) Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In European Conference on Computer Vision, pp. 630–645. Springer, 2016b.
- Hendrycks & Gimpel (2016) Dan Hendrycks and Kevin Gimpel. Bridging nonlinearities and stochastic regularizers with gaussian error linear units. arXiv preprint arXiv:1606.08415, 2016.
- Hochreiter & Schmidhuber (1997) Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural Computation, 9(8):1735–1780, 1997.
- Howard et al. (2017) Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
- Huang et al. (2017) Gao Huang, Zhuang Liu, Kilian Q Weinberger, and Laurens van der Maaten. Densely connected convolutional networks. In Conference on Computer Vision and Pattern Recognition, 2017.
- Ioffe & Szegedy (2015) Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International Conference on Machine Learning, pp. 448–456, 2015.
- Jarrett et al. (2009) Kevin Jarrett, Koray Kavukcuoglu, Yann LeCun, et al. What is the best multi-stage architecture for object recognition? In 2009 IEEE 12th International Conference on Computer Vision, 2009.
- Kingma & Ba (2015) Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In International Conference on Learning Representations, 2015.
- Klambauer et al. (2017) Günter Klambauer, Thomas Unterthiner, Andreas Mayr, and Sepp Hochreiter. Self-normalizing neural networks. arXiv preprint arXiv:1706.02515, 2017.
- Krizhevsky & Hinton (2009) Alex Krizhevsky and Geoffrey Hinton. Learning multiple layers of features from tiny images. Technical report, Technical report, University of Toronto, 2009.
- Krizhevsky et al. (2012) Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, pp. 1097–1105, 2012.
- Maas et al. (2013) Andrew L Maas, Awni Y Hannun, and Andrew Y Ng. Rectifier nonlinearities improve neural network acoustic models. In International Conference on Machine Learning, volume 30, 2013.
- Miech et al. (2017) Antoine Miech, Ivan Laptev, and Josef Sivic. Learnable pooling with context gating for video classification. arXiv preprint arXiv:1706.06905, 2017.
- Naik & Mammone (1992) Devang K Naik and RJ Mammone. Meta-neural networks that learn by learning. In Neural Networks, 1992. IJCNN., International Joint Conference on, volume 1, pp. 437–442. IEEE, 1992.
- Nair & Hinton (2010) Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In International Conference on Machine Learning, 2010.
- Parascandolo et al. (2016) Giambattista Parascandolo, Heikki Huttunen, and Tuomas Virtanen. Taming the waves: sine as activation function in deep neural networks. 2016.
- Qiu & Cai (2017) Suo Qiu and Bolun Cai. Flexible rectified linear units for improving convolutional neural networks. arXiv preprint arXiv:1706.08098, 2017.
- Ravi & Larochelle (2016) Sachin Ravi and Hugo Larochelle. Optimization as a model for few-shot learning. 2016.
- Real et al. (2017) Esteban Real, Sherry Moore, Andrew Selle, Saurabh Saxena, Yutaka Leon Suematsu, Quoc Le, and Alex Kurakin. Large-scale evolution of image classifiers. arXiv preprint arXiv:1703.01041, 2017.
- Russakovsky et al. (2015) Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015.
- Schmidhuber (1987) Jurgen Schmidhuber. Evolutionary principles in self-referential learning. On learning how to learn: The meta-meta-… hook.) Diploma thesis, Institut f. Informatik, Tech. Univ. Munich, 1987.
- Schulman et al. (2017) John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
- Shang et al. (2016) Wenling Shang, Kihyuk Sohn, Diogo Almeida, and Honglak Lee. Understanding and improving convolutional neural networks via concatenated rectified linear units. In International Conference on Machine Learning, pp. 2217–2225, 2016.
- Srivastava et al. (2015) Rupesh Kumar Srivastava, Klaus Greff, and Jürgen Schmidhuber. Highway networks. arXiv preprint arXiv:1505.00387, 2015.
- Szegedy et al. (2016) Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016.
- Szegedy et al. (2017) Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI, pp. 4278–4284, 2017.
- Thrun & Pratt (2012) Sebastian Thrun and Lorien Pratt. Learning to learn. Springer Science & Business Media, 2012.
- Tieleman & Hinton (2012) Tijmen Tieleman and Geoffrey Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machine learning, 4(2):26–31, 2012.
- van den Oord et al. (2016) Aaron van den Oord, Nal Kalchbrenner, Lasse Espeholt, Oriol Vinyals, Alex Graves, et al. Conditional image generation with pixelcnn decoders. In Advances in Neural Information Processing Systems, pp. 4790–4798, 2016.
- Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017.
- Wang et al. (2016) Jane X Wang, Zeb Kurth-Nelson, Dhruva Tirumala, Hubert Soyer, Joel Z Leibo, Remi Munos, Charles Blundell, Dharshan Kumaran, and Matt Botvinick. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.
- Wu et al. (2016) Yuhuai Wu, Saizheng Zhang, Ying Zhang, Yoshua Bengio, and Ruslan R Salakhutdinov. On multiplicative integration with recurrent neural networks. In Advances in Neural Information Processing Systems, pp. 2856–2864, 2016.
- Xu et al. (2015) Bing Xu, Naiyan Wang, Tianqi Chen, and Mu Li. Empirical evaluation of rectified activations in convolutional network. arXiv preprint arXiv:1505.00853, 2015.
- Zagoruyko & Komodakis (2016) Sergey Zagoruyko and Nikos Komodakis. Wide residual networks. In British Machine Vision Conference, 2016.
- Zhong et al. (2017) Zhao Zhong, Junjie Yan, and Cheng-Lin Liu. Practical network blocks design with q-learning. arXiv preprint arXiv:1708.05552, 2017.
- Zhou et al. (2017) Guorui Zhou, Chengru Song, Xiaoqiang Zhu, Xiao Ma, Yanghui Yan, Xingya Dai, Han Zhu, Junqi Jin, Han Li, and Kun Gai. Deep interest network for click-through rate prediction. arXiv preprint arXiv:1706.06978, 2017.
- Zoph & Le (2016) Barret Zoph and Quoc V Le. Neural architecture search with reinforcement learning. In International Conference on Learning Representations, 2016.
- Zoph et al. (2017) Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V Le. Learning transferable architectures for scalable image recognition. arXiv preprint arXiv:1707.07012, 2017.