KDOC 195: 『ディープラーニングがわかる数学入門』
この文書のステータス
- 作成
- 2024-07-20 貴島
- レビュー
- 2024-07-21 貴島
概要
ディープラーニングがわかる数学入門は、ディープラーニングに必要な数学について解説する本。
メモ
- 与えられた学習データから重みとバイアスを決定することを学習という(p45)
- ニューラルネットワークの学習の流れ。ニューラルネットワークが算出した予測値と正解との誤差を算出し、その誤差の総和が最小になるように重みとバイアスを決定する。モデルの最適化という(p45)
- 合成関数の微分公式がよくわからない(p86)
- チェーンルールは重要そうに見える
- 各層に対する勾配を逐次計算し、最終的に重みの更新に利用する
- 近似公式がよくわからない(p90)
- 勾配降下法。変化量×偏微分の形は、ベクトルの内積の形である。ベクトルの内積が最小となるときはベクトルが反対向きになるとき(p96)
- ピンポン玉の例。場所によって急坂となる方向が異なるので、「少しだけ場所を移動しながら急坂部分を探す」という手続きを繰り返すことで、グラフの底つまり関数の最小点にたどり着ける、という(p98)
- ハミルトン演算子(p100)
- ニューラルネットワークの決定は、数学的にいえば最適化問題の1つ。ニューラルネットワークを規程するパラメータ(重みとバイアス)を実際のデータに合致させるようにフィットさせる問題である(p105)
- 最適化と呼ばれる数学分野で、誤差の総和を誤差関数、損失関数、コスト関数などという(p109)
- データを入れる「変数」とモデルを定める「パラメータ」を区別することは理論の理解には不可欠である、という(p112)
- 回帰方程式
y = p + qx
だと、x, yが変数。p, qがパラメータ - 重みとバイアスはパラメータ
- 入力、重み付きの入力、ユニットの出力は変数
- 回帰方程式
- p115のパラメータの表記法を説明した図
- 誤差の総和を示すコスト関数を最小にするのが最良のパラメータ、という考え方の最適化である、という(p132)
- データの大きさが数学モデルを規程するパラメータの個数以上でなければ、そのモデルは確定しない。なので学習に必要なデータの最低数がある(p136)
- 関数の最小値を求める方法でもっとも有名なのは、「最小値の条件」を利用すること。なめらかな関数であれば、偏微分したそれぞれで傾きが0になる点を見つければよい。ニューラルネットワークでは重みとバイアスに相当するが、重みとバイアスの総数は膨大で、さらにコスト関数には活性化関数が含まれるため方程式を解くのは困難である。そのためディープラーニングでは勾配降下法を使う。さらに微分地獄を避けるために誤差逆伝播法を使って解く(p144)
- 多変数関数の最小値を探す問題には勾配降下法が有効である。しかし、ニューラルネットワークの世界では変数、パラメータと関数が複雑に絡み合い、勾配降下法をそのままでは利用できない。そこで登場したのが誤差逆伝播法である、という(p151)
- 誤差逆伝播法は煩雑な微分計算を「数列の漸化式」に置き換えるのが特徴。その漸化式を提供するのがユニットの誤差と呼ばれる変数デルタ。ユニットの誤差と2乗誤差は全く異なる(p151)
- p152の変数の関係図
- ユニットの誤差が求められれば、勾配降下法の算出に必要な2乗誤差の偏微分も求められる(p156)
- 誤差逆伝播法はデルタ(ユニット誤差)と1つ先の層のデルタの関係からデルタを求める(p156
- 「ユニット誤差」とは、ユニットの重み付き入力が2乗誤差に与える変化率を表す。ニューラルネットワークがデータにフィットしていれば、最小条件から変化率は0となる。ユニット誤差はフィットした理想的状態からのズレを表すと考えられる(p156)
- ユニットの誤差が得られれば、勾配降下法の基本となる2乗誤差の偏微分が得られる(p158)
- 誤差逆伝播法を使うと、出力層にあるユニットの誤差さえ求めれば、他のユニットの誤差は偏微分の計算をする必要がない(p162)
関連
なし。