Deep learning実装の基礎と実践

⽇日本神経回路路学会セミナー Deep Learningが拓拓く世界 Deep Learning 実装の基礎と実践 2014/08/26 京都⼤大学東京オフィス株式会社Preferred Networks 得居誠也

⾃自⼰己紹介 l 得居誠也 (Seiya Tokui) l Preferred Networks リサーチャー l Jubatus のアルゴリズム開発 – Jubatus: NTTとPFIで共同開発しているオープンソースの分散リアルタイム機械学習基盤 http://jubat.us/ l 現在は映像解析とディープラーニングの研究開発に従事 2

ニューラルネットの基礎、実装、実験について話します l ニューラルネットの道具 – 全体の構成、⾏行行列列による表現、損失関数、誤差逆伝播、SGD l 主要な実装 – Pylearn2, Torch7, Caffe, Cuda-‐‑‒convnet2 l フレームワークの基本的な設計 – テンソルデータ、レイヤー、ネット、最適化ルーチン – アーキテクチャの記述⽅方法（宣⾔言的、スクリプティング） l 実験の進め⽅方 – データの前処理理、アーキテクチャの設計、パラメータの初期値、正則化、学習率率率の初期値と調節、モーメンタム – 評価の⽅方法、プロット、パラメータの可視化 – 中断・レジューム、パラメータの差し替え 3

ニューラルネットの道具

Deep Learningいろいろ Neural Network: 右図のような計算グラフで表される⾮非線形関数 Convolutional NN: 画像や⾳音声などの構造を反映したNNの⼀一種 Deep Belief Network(左), Deep Boltzmann Machine(右): 多層のグラフィカルモデル（確率率率モデル） ※今⽇日は触れません “Deep” の定義は⽂文脈により様々。普通は3層以上で深いと⾔言われる 5

Feed-‐‑‒Forward Neural Network （結合）重み x ⼊入⼒力力層隠れ層隠れ層出⼒力力層1 wj1 x2 wj2 x3 wj3 x4 wj4 ユニット活性 hj = f(wj1x1 + · · · + wj4x4 + bj) 活性化関数バイアス項 = f(wj x + bj) 重みとバイアス項を調節して、望みの予測を得られるようにするのが学習の⽬目標

Feed-‐‑‒Forward Neural Network（⾏行行列列で書く）各層をベクトルで表して以下のように書くことが多い h = f(Wx+ b) 下図のように3層の場合だと y = f3(W3f2(W2f1(W1x + b1) + b2) + b3) W1 W2 W3 x h1 h2 y

最適化としての学習 l モデルの出⼒力力（予測）と正解とがよく⼀一致するほど⼩小さくなるような値（損失 loss）を考える l 各教師データごとの損失の平均を⽬目的関数とするのが⼀一般的 L(W) = 1 N XN i=1 `(y(xi;W), yi) l 学習＝⽬目的関数の最⼩小化 ` y(x;W) (xi, yi)i=1,...,N W l 損失関数：エントロピー誤差（分類）や⼆二乗誤差（回帰） 8 損失関数モデルの予測各教師データ予測器の重み minimize （パラメータ） W L(W) `(y, yi) = ky − y1k2 （⼆二乗誤差）

最適化⼿手法：勾配降降下法⽬目的関数の勾配 gradient の⽅方向に向かって重みを動かしていく（次式の更更新を繰り返す） W W − ⌘rL(W) 学習率率率勾配ベクトル 9 L の等⾼高線極⼩小点

確率率率的勾配降降下法 Stochastic Gradient Descent (SGD) l 教師データ全部を⾒見見ず、⼀一部（ミニバッチ）だけを⾒見見て勾配を計算する（：ミニバッチ） l 最初にデータセットをランダムシャッフルして、前から個ずつミニバッチとして取り出して更更新するのが⼀一般的 – データの順序に偏りがある場合、シャッフルしないと性能が⼤大きく落落ちる – 理理論論的には毎回ランダムにミニバッチを選ぶのが収束の速さという意味で良良いが、ランダムアクセスが増えるので実際には遅くなることが多い 10 B |B| W W − ⌘ |B| X i2B r`(y(xi;W), yi)

モーメンタム法 l SGD は勾配のブレが⼤大きいとなかなか収束しない l ブレを低減するために、勾配の移動平均（モーメンタム）を使う 11 h h + μ 1 |B| Xn i2B r`(y(xi;W), yi), モーメンタムモーメンタム係数 W W − ⌘h. W(t) r` W(t1) W(t+1) 上付きの添字は更更新回数を表すとする W(t+2)

勾配の計算⽅方法誤差逆伝播法 (backpropagation) l Feed Forward Neural Network はたくさんの関数の合成 l 勾配を求めるには合成関数の微分（連鎖律律 chain rule）を使う l すると勾配の計算は、出⼒力力側から⼊入⼒力力側に向かって各ユニットの勾配を伝播させるような処理理としてかける誤差関数 (error) ⼊入⼒力力層隠れ層隠れ層出⼒力力層正解 12 (groundtruth) 重みの勾配重みの勾配重みの勾配

主要な実装名前主要な開発者⾔言語特徴 Pylearn2Univ. Montrealの LISA Lab Python (C++)NumPyとの親和性、強⼒力力な⾃自動微分 Torch7NewYork Univ.など?Lua/C++Luaによるスクリプティング、拡張性の⾼高さ CaffeBerkeley Vision and Learning Center (UCB) C++ (Python)単⼀一GPUで最⾼高速度度（2014/08現在） Cuda-convnet2Alex KrizhevskyC++ (Python)マルチGPU環境での並列列実⾏行行（Tesla K20x8） 13

フレームワークの基本的な設計 14

主要なフレームワークはいずれも似たような構成要素からなる l テンソルデータ構造 l レイヤー（ビルディングブロックとして） l ネット l 最適化ルーチンフレームワークによってこれらの設計指針や抽象化の粒粒度度、インターフェイスが異異なる

典型的なDeep Learningフレームワークの概略略 16 最適化ルーチン出⼒力力データレイヤー中間データレイヤー⼊入⼒力力データ正解データバイアス重み中間エラーバイアス重みネットワーク実装

テンソルデータ構造 17 最適化ルーチン出⼒力力データレイヤー中間データレイヤー正解データバイアス中間エラーネットワーク実装⼊入⼒力力データ重みバイアス重み

テンソルデータ構造 18 ⼊入⼒力力・中間・出⼒力力データミニバッチデータの次元⾼高さ横幅ミニバッチ重みテンソル⼊入⼒力力次元出⼒力力次元⾼高さ横幅フィルター数

テンソルデータ構造 l 浮動⼩小数点の配列列に、次元の情報が加わったもの l データの構造を使わない、全連結なニューラルネットワークを作る場合、⾏行行列列とベクトルだけで実装できる l 画像に対する畳込みニューラルネットを作る場合、4階のテンソルが必要 l 動画に対して時間軸も区別する⼿手法を作る場合、5階のテンソルが必要 l 実装例例：NumPy の ndarray – Pylearn2 は ndarray を使う – Caffe のデータ構造もゼロコピーで ndarray との相互変換ができる 19

レイヤー 20 最適化ルーチン出⼒力力データ中間データ⼊入⼒力力データ正解データバイアス重み中間エラーバイアス重みネットワーク実装レイヤーレイヤー

レイヤー l データを受け取って変換したデータを出⼒力力する l 関数または⼿手続きと思えば良良い l ⼀一部のレイヤーはパラメータを持つ – ニューラルネットのうち学習可能な部分 l ただの関数との違いはbackpropagationが必要なこと 21

レイヤーのbackpropagationは連鎖律律による微分計算 l z = g(y), y = f(x,w) のとき、のに関する勾配は 22 L(z) w x f y g z @L @z @L @y w @L @w = @L @z @z @w , @z @w = @z @y @y @w g の逆伝播はこの値の計算

レイヤーのbackpropagationは連鎖律律による微分計算 l 実際の計算の流流れ：これがの backprop（出⼒力力のエラーから⼊入⼒力力のエラーを計算） l 実際には⼊入出⼒力力は多変数なので、多変数の微分が必要 23 @L @y = @L @z @z @y g x f y g z @L @z @L @y w

ネットワーク実装 24 最適化ルーチン出⼒力力データレイヤー中間データレイヤー⼊入⼒力力データ正解データバイアス重み中間エラーバイアス重みネットワーク実装

ネットワークは順伝播と逆伝播を実装する l ネットワークの仕事は、ニューラルネット全体＝計算グラフを保持して、その上で順伝播や逆伝播を実⾏行行すること l ネットワーク上の誤差逆伝播は⾃自動微分 – 指定された⼊入⼒力力変数・出⼒力力変数に対して、どういう順番で backpropを呼び出せば⽬目的の勾配を計算することができるのかを⾃自動で判断する – ネットワークが⼀一本のチェーン状の場合は簡単 – ネットワークが複数の⼊入⼒力力、合流流、分岐、複数の出⼒力力を持つ場合には少しややこしくなる l 正しくDAGになっていれば計算可能 25

最適化ルーチン 26 最適化ルーチン出⼒力力データレイヤー中間データレイヤー⼊入⼒力力データ正解データバイアス重み中間エラーバイアス重みネットワーク実装

最適化ルーチンは重み・バイアスの配列列に対して勾配を⽤用いてオンライン最適化を実⾏行行する l ここは⽐比較的単純な実装になることが多く、現在のパラメータと勾配を受け取って更更新するルーチンとして書かれる場合が多い l ほぼすべてのフレームワークではモーメンタムSGDをサポートしている – State of the art なニューラルネット学習で⽤用いられる – 学習率率率のチューニングが精度度に重要 – Pylearn2 などは、現在のパラメータの性能を監視して⾃自動的に学習率率率を下げる機能などもサポートしている l 学習率率率を⾃自動調節する⼿手法を実装していることも（AdaGrad, AdaDelta, RMSpropなど） 27

アーキテクチャの記述⽅方法 l アーキテクチャ：ネットワークの構成 – ⼊入⼒力力データの情報（パスや前処理理⽅方法）も⼀一緒に記述することが多い – 最適化ルーチンの設定を⼀一緒に記述するフレームワークもある l 試⾏行行錯誤を簡単にするために、宣⾔言的に書けるような仕組みを持っていることが多い l Pylearn2: PyYAML l Caffe: Protocol Buffer（テキスト形式） l Cuda-‐‑‒convnet: iniファイル 28

例例：Pylearn2 l 多層パーセプトロンのチュートリアルからアーキテクチャ部分のみを抜粋 l Layersにレイヤー定義を並べていく l 指定の仕⽅方は model によって異異なる l スクリプトで構築することもできる（複雑なグラフを作りたい場合など） 29

例例：Caffe l Caffe の MNIST サンプルのアーキテクチャ設定から⼀一部を抜粋 l Protocol Buffer の layers メッセージとしてレイヤーの設定を並べる l bottom, top が⼊入⼒力力、出⼒力力レイヤーに対応していて、複雑なグラフも書ける 30

実験の流流れ l 計算機環境の準備 l データの前処理理（重要！！！） l チューニング：以下の繰り返し – アーキテクチャの設計 – パラメータ初期値の設定 – 学習率率率の初期値を探す – 評価しながら学習率率率調節

計算機環境の準備 l ⼩小さなデータセット（10万件）なら CPU のみでOK l ⼤大きなデータセットでは GPGPU が必須 – ⼀一回の実験が数⼗十分〜～数時間になってくると欲しくなる l 多くのフレームワークは CUDA 対応なので NVIDIA GPU が良良い l 価格と性能のトレードオフ – 性能は CUDA コア数、メモリサイズ、クロック数で⾒見見る – メモリサイズは巨⼤大な NN を⼤大きなミニバッチで学習する際に必要 – トレードオフの意味で最もリーズナブルなのは NVIDIA GeForce GTX770（2014年年8⽉月現在、4万円弱） l 電源と冷冷却にも気をつける 33

データの前処理理（重要！！！） l よく⾏行行われるのは⽩白⾊色化 whitening – データの平均が 0 ベクトルになるように平⾏行行移動させる – データの各次元の分散が 1 になるようにスケールさせる l 主成分分析に基づく⽩白⾊色化もよく⾏行行われる – 主成分に変換する：主成分軸⽅方向の分散を 1 に揃える効果 – 画像などデータの⾒見見た⽬目が解釈しやすい、あるいはデータの構造を学習に活⽤用したい場合、変換後に主成分表⽰示からもとの RGB空間に戻すことがある（ZCA whitening） l 画像では他にもコントラスト正規化を⾏行行うことがある l 前処理理は最適化の収束速度度に強く影響する 34

アーキテクチャの設計 l まずは各フレームワークの examples を⾒見見ていろいろ学ぶ l はじめは狭くて浅いネットワークから始める l チューニングしながら、精度度が上がらなくなったら広くする（各層のユニット数を増やす） l 精度度が上がらなかったり過学習の兆候が⾒見見えたら、少し狭くしてネットワークを深くする – 過学習：訓練データでは精度度が上がるが評価データでは精度度が落落ちる l どの活性化関数を使うかや、ドメイン依存のレイヤー（画像に対する正規化レイヤーなど）は最適な組合せがタスクによって違うので、いろいろ変えて⽐比較して選ぶ 35

パラメータの初期値 l 活性化関数によって設定の仕⽅方が変わる l 最善の⽅方法がわかっているわけではない l シグモイド型関数の場合（ロジスティック関数、tanh関数） – 重み⾏行行列列は各ユニットの 1/sqrt(⼊入⼒力力辺数) 以下の乱数にする l ⼀一様分布か、ガウシアンからサンプリングすることが多い – バイアス項は 0 で初期化 l Rectified Linear Unit (ReLU) の場合 – 重み⾏行行列列の初期値に知られた経験則はないが 1/(⼊入⼒力力辺数) 以下の乱数が良良い（⼊入⼒力力と出⼒力力の値の範囲が⼤大体⼀一緒になる） – バイアス項は 0 以上の定数値で初期化（正の値にすると学習が速くなるが、⼤大きすぎると学習が不不安定になる） 36

最適化パラメータの調節 l 学習率率率の初期値 – はじめは⼤大きい値を試す – ⼤大きすぎるとパラメータが爆発する（infやNaNなど） – 爆発しないぎりぎりを探し、それより少し⼩小さい値を使う – 爆発しないぎりぎりの値は結局学習が不不安定になるので避ける l 学習率率率の調節 – 評価データでスコアの値を監視する – だいたいスコアが変わらなくなったあたりで学習率率率が下がるようにスケジューリングする – この作業を⾃自動でやってくれるフレームワークもある（Pylearn2など） 37

評価はプロットで l 多くのフレームワークは標準出⼒力力などにスコアを吐く l が、それを眺めてると⽇日が暮れるので注意！！！（眺めるの楽しいですが） l グラフにプロットする l 例例：右図で崖になっている部分で学習率率率を下げている 38

重みのプロットも使える l ユニットが意味のあるパターンを学習しているかどうか l 画像の場合は画像としてプロットするとわかりやすい l ⼀一般のデータに対しても重みを棒グラフなどでプロットすると良良い 39

まとめ l ニューラルネット実装は主にテンソルデータ構造、レイヤー、レイヤーをつなげ合わせたネットワーク、最適化ルーチンからなる l レイヤーは勾配計算つきの関数 l ネットワークは⾃自動微分ができる計算グラフ l ニューラルネットはチューニングが必要 – 設定、実験、評価の繰り返し – 設定にはいろんな経験則があるが、タスクによって変わる部分もある – 評価はプロットで！重みのプロットも重要 40

Deep learning実装の基礎と実践

More Related Content

What's hot

Viewers also liked

Similar to Deep learning実装の基礎と実践

More from Seiya Tokui

Deep learning実装の基礎と実践