■ はじめに

パターン認識（Pattern recognition）について扱う

■ 段階

* パターン認識は、以下のような段階を踏む。

【A】学習（訓練）段階

* 訓練データを処理してクラスの特徴を抽出する段階

【B】分類段階

* 新しい分類ラベルのついていないデータを分類(Classify)する段階

■ 論理

* パターン認識は、以下の理論が関係する 

【１】 最近傍法(さいきんぼうほう, nearest neighbour algorithm)
【２】 決定木（decision tree） / ランダムフォレスト
【３】 ニューラルネットワーク（Neural network）

【１】最近傍法(さいきんぼうほう)

 * パターン認識のアルゴリズムの内の一つ。
 * ざっくり言うと、「近いデータに合わせる」
 * 一般的に、「ユークリッド距離」で計算する

http://www5.ocn.ne.jp/~shinya91/csm/332csm_knn.html

【２】決定木 / ランダムフォレスト

決定木（decision tree）

* 条件分岐を木構造のように繰り返しデータを分類する手法
　⇒ 言葉で説明するより、以下の図見たほうが理解は早い

https://www.randpy.tokyo/entry/decision_tree_theory
https://dev.classmethod.jp/articles/2017ad_20171211_dt-2/

ランダムフォレスト（random forests）

* 決定木をたくさん生成し、多数決する（または平均を取る）ような手法
　⇒ 決定"木を集めたから、ランダム"フォレスト（森）"。

例）「傘を持っていくべきか？」という命題を考えた場合

「既に雨が降っているか？ (Yes or No)」
「雲っているか？ (Yes or No)」
「湿度は高いか？ (Yes or No)」
など、複数の質問により、その命題を解決する。

不純度（impurity）

* 分類をする際に、どれだけ他のクラスのデータが混ざっているかの度合い
cf. impurity イムピュリティ = 不純、不道徳、不純物、混入物
　⇒ 決定木は、不純度が一番小さくなるような条件を分岐する

【不純度の指標】
１）ノードにおける誤り率
２）ジニ係数（GINI coefficient、イタリアの統計学者、GINI さんが考案）
３）交差エントロピー（entropy）

関連用語

* 目的変数(objective variable) 
　⇒ 予測したい変数

* 説明変数(explanatory variable)
　⇒ 目的変数の因果関係における原因を表す変数

e.g. y = 2x (yが目的変数で、xが説明変数)

https://future-chem.com/ames-decision-tree/

【３】ニューラルネットワーク

 実際の脳の動きは
 * 脳の中には多数のニューロン（神経細胞）が存在している。
　各ニューロンは、多数の他のニューロンから信号を受け取り、
　他の多数のニューロンへ信号を受け渡している。
　脳は、この信号の流れによって、様々な情報処理を行っている。

ニューラルネットワークとは

 * 上の仕組みをコンピュータ内に実現しようとしたものが
　ニューラルネットワーク

畳み込みニューラルネットワーク

CNN;Convolutional Neural Network)

https://screwandsilver.com/cnn_convolutional_net/
https://www.hellocybernetics.tech/entry/2016/12/23/000557

プログラムの超個人的なメモ

Memo for Programming.

【アルゴリズム】パターン認識について

■ はじめに

■ 段階

【A】学習（訓練）段階

【B】分類段階

■ 論理

【１】最近傍法(さいきんぼうほう)

【２】決定木 / ランダムフォレスト

【３】ニューラルネットワーク

■ はじめに

■ 段階

【A】 学習（訓練）段階

【B】 分類段階

■ 論理

【１】 最近傍法(さいきんぼうほう)

【２】 決定木 / ランダムフォレスト

【３】 ニューラルネットワーク

【A】学習（訓練）段階

【B】分類段階

【１】最近傍法(さいきんぼうほう)

【２】決定木 / ランダムフォレスト

【３】ニューラルネットワーク