틀릴 수 있음. cross check 필요
http://charlie0301.blogspot.com/2018/07/ai-machine-learning-links.html
Deep learning
: https://en.wikipedia.org/wiki/Deep_learning
Deep learning (also known as deep structured learning or hierarchical learning) is part of a broader family of machine learning methods based on learning data representations, as opposed to task-specific algorithms. Learning can be supervised, semi-supervised or unsupervised.
: 뉴런을 따라 만든 알고리즘 하나의 단위, 여러 input에 대해 output을 출력
: 계산은 연결된 이전 퍼셉트론과의 Linear Combination + Activation function
: Linear Combination - 이전 Layer의 연결된 뉴런들의 출력값 * 연결 weight
: Activation - 이전 뉴런 들과의 Linear Combination 값을 non-linear function을 통해 Activation
- Activation function들 : Sigmoid, Hyperbolic Tangent (tanh), Rectified Linear Unit (ReLU)
https://en.wikipedia.org/wiki/Activation_function
https://en.wikipedia.org/wiki/Activation_function
Multi-Layer Perceptron (다층 퍼셉트론)
: https://en.wikipedia.org/wiki/Multilayer_perceptron
: https://en.wikipedia.org/wiki/Multilayer_perceptron
: 복수의 Perceptron을 연결한 구조
: Non-linear Activation function + Multi-Layer
Artificial Neural Network (인공 신경망)
: https://en.wikipedia.org/wiki/Artificial_neural_network
: https://en.wikipedia.org/wiki/Artificial_neural_network
: Input Layer > Hidden Layer > Output Layer 로 구성
- Input Layer : 초기값을 받는 가장 첫번째 Layer
- Hidden Layer : 중간 단계의 모든 Layer
- Output Layer : 마지막 Layer로 출력값 계산
. 결과값을 그대로 받아 Regression
. Sigmoid를 거쳐 Binary Classification
. Softmax를 거쳐 K-Class Classification
: Forward Propagation
: Back Propagation Algorithm
Neural Network Learning Process
1) Initialization
: 학습하고자 하는 Parameter(θ) 초기값 선정
: Xavier Initialization (for Sigmoid, tanh), He Initialization (for ReLU)
2) Cost Function
: 함수 정의 (Cost Function을 최소화 하도록 학습 진행)
: 용도에 따라 Least Square Error 또는 Cross-Entropy를 사용함.
: Parameter의 많아질 수록 overfitting 현상이 심화 되어 Cost Function + Regularization Term 추가
> https://en.wikipedia.org/wiki/Regularization_(mathematics)
: Overfitting을 방지하기 위한 방법으로 Dropout 방법도 있음.
> https://en.wikipedia.org/wiki/Convolutional_neural_network#Dropout
3) Optimizer
: Cost Function을 최소화하는 방향으로 Parameter(θ)를 변경하는 학습 방식을 적용
: 일반적으로 Gradient Descent를 이용한 방식 사용
: Batch normalization, Optimizer (Adam)