아주 간단한 Deep Learning에 대한 기초를 이전 글들을 통해 쌓아봤습니다. 이제 본격적으로 NN(Neural Network)를 시작할 겁니다. (기대되네요 >_<)


먼저 간단한 NN으로 다층 퍼셉트론을 이용한 XOR 문제를 해결해볼 것입니다. XOR(eXclusive OR: 베타적 논리합)은 논리 연산 중 하나입니다. 컴퓨터 프로그래밍에서는 A^B로 나타낼 수 있습니다. 두 변수가 있고, 이를 XOR 했을 때 결과는 다음 표와 같습니다.


B

A^B

 False

False

False

True

False

True

False

True

True

True

True

False


OR 연산과 다른 점은 A와 B를 연산했을 때 True가 아니라 False가 나온다는 점입니다. True를 1, False를 0이라고 두고 결과값 True를 파란색 점, False를 빨간색 점이라고 두면 다음과 같은 그래프로 나타낼 수 있습니다.

보시다시피, 이렇게 나와있는 형태의 경우 직선으로는 두 종류를 정확도 100%로 분할할 수 없습니다. 따라서 선형 분류가 불가능하다는 소리인데, 이런 경우가 XOR 말고도 꽤 있습니다. 따라서 이런 문제에서는 sigmoid 함수(뉴런)를 한 번만 사용하는 것이 아닌 여러 번을 겹쳐 사용하여 문제를 해결합니다. 간단히 아래와 같이 NN을 설계해보겠습니다.

(그래프 표기는 http://www.asimovinstitute.org/neural-network-zoo/를 따랐습니다. 넘나 이뻐서... 앞으로도 그래프는 이것을 따를 예정입니다)

노란색 노드: 입력, 초록색 노드: 은닉층, 주황색 노드: 출력

노란색 노드를 제외하고는 모두 sigmoid를 가지고 있는 연산노드입니다. 각 노드를 왼쪽부터 순서대로 Layer 1(노란색), Layer 2(초록색), Layer 3(주황색)이라고 하고 각 층마다 행렬로 묶어서 연산을 하면 좀 더 간단하게 연산을 나타낼 수 있습니다. 아래가 그 모습입니다.


이 상태에서 Layer 2, Layer 3에 sigmoid를 적용하면 끝인거죠. 참 쉽죠?


다음으로 이 네트워크를 어떻게 최적화시킬지 알아보겠습니다. 물론 TensorFlow 상에선 cross-entropy를 적용하고 GradientDescentOptimizer를 적용하면 바로 해결됩니다. 그래도 간단히 최적화시키는 기법인 Backpropagation을 알아가면 좋을 거 같아서 한 번 알아보겠습니다.


Backpropagation(역전파법)은 다음과 같은 과정으로 이뤄집니다.

1. Forward Propagation: 임의의 작은 수로 Network의 Weight를 초기화합니다. 그리고 학습 데이터를 입력하여 출력을 만들어냅니다.

2. label과 출력의 에러를 계산해냅니다. 그리고 이를 기반으로 Weight에 대한 미분값을 구합니다.


3. 계산된 에러의 미분값을 이용해 학습률(Learning rate)를 정하고 학습률만큼 수정된 Weight를 구해 업데이트합니다. 그리고 네트워크가 일정한 정확도

     에 도달할 때까지 이 과정을 반복합니다.


수식으로 나타내보고 싶지만, 이게 여간 쉬워보이진 않아서(...) 나중에 기회가 되면 수식으로 정리해보겠습니다.


이렇게 기초적인 NN에 대해 정리를 해봤습니다. 아래 코드를 통해서 이를 직접 테스트할 수 있습니다. Jupyter Notebook 파일도 첨부합니다.

Hello, NN!.ipynb

import tensorflow as tf
import numpy as np

x = [[0, 0], [0, 1], [1, 0], [1 ,1]]
y = [[0], [1], [1], [0]]

X = tf.placeholder(tf.float32, [None, 2], name="X-Input")
Y = tf.placeholder(tf.float32, [None, 1], name="Y-Input")

W1 = tf.Variable(tf.random_uniform([2, 2], -1., 1.), name="W1")
W2 = tf.Variable(tf.random_uniform([2, 1], -1., 1.), name="W2")
B1 = tf.Variable(tf.zeros([2]), name="B1")
B2 = tf.Variable(tf.zeros([1]), name="B2")

with tf.name_scope("Layer2") as scope:
    L2 = tf.sigmoid(tf.matmul(X, W1) + B1)
with tf.name_scope("Layer3") as scope:
    L3 = tf.sigmoid(tf.matmul(L2, W2) + B2)

with tf.name_scope("Cost") as scope:
    cost = -tf.reduce_mean(Y * tf.log(L3) + (1 - Y) * tf.log(1 - L3))
    cost_summ = tf.summary.scalar("Cost", cost)    

with tf.name_scope("Train") as scope:
    train = tf.train.GradientDescentOptimizer(0.5).minimize(cost)

with tf.name_scope("Accuracy") as scope:
    accuracy = tf.reduce_mean(tf.cast(tf.equal(tf.floor(L3 + 0.5), Y), tf.float32))
    accuracy_summ = tf.summary.scalar("Accuracy", accuracy)

init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)

merged = tf.summary.merge_all()
writer = tf.summary.FileWriter("./logs/", sess.graph)

for step in xrange(2001):
    summary, _ = sess.run([merged, train], feed_dict={X: x, Y: y})
    writer.add_summary(summary, step)
    if step % 500 == 0:
        print sess.run(cost, feed_dict={X: x, Y: y})

print sess.run(accuracy, feed_dict={X: x, Y: y})


추가적으로 설명하자면, Deep Learning에서 Accuracy 등의 변화를 좀 더 편하게 살피고, 네트워크의 구조를 살피기 좋게 TensorFlow에서는 TensorBoard라는 것을 제공합니다. 따라서 앞으로 다루는 NN에 대해서는 TensorBoard를 적용해서 편리하게 네트워크를 보려고 합니다. 그래서 이번 기회에 이 TensorBoard를 소개하고자 합니다. TensorBoard 사용방법은 다음과 같습니다.


1. 그래프에 표기하고 싶은 변수들의 이름을 정한다

X = tf.placeholder(tf.float32, [None, 2], name="X-Input")


2. 기록하고 싶은 부분(Accuracy, Cost, Layer 등)을 scop를 통해 묶는다.

with tf.name_scope("Train") as scope:


3. Scalar 그래프 또는 Histogram 그래프로 보고 싶은 변수는 아래와 같이 이름과 함께 등록해둔다.

cost_summ = tf.summary.scalar("Cost", cost)


4. 모든 Summaries를 Merge하고, 이 Summaries를 기록할 Writer를 만든다. 이때 저장될 log의 경로를 정합니다.

merged = tf.summary.merge_all()

writer = tf.summary.FileWriter("./logs/", sess.graph)


5. merged된 것을 돌리고 매 step마다 writer에 추가합니다.

summary, _ = sess.run([merged, train], feed_dict={X: x, Y: y})

writer.add_summary(summary, step)


6. TensorBoard를 이용해 기록된 log, 네트워크의 graph를 확인합니다. 이때 경로 상에 ','가 있는 경우 그걸 기점으로 경로가 나눠져버리니 이 점 고려하셔야 합니다. (의도는 여러 개의 log를 볼 수 있게 ','를 통해 여러 경로를 받으려는 거 같은데, ""로 경로를 하나 감싸도 이러는 거 보니 버그 맞는 듯) 만약 로그가 정상적으로 로딩이 안 되면, --debug를 붙여서 TensorBoard의 상태를 확인해보시면 됩니다.

tensorboard --logdir=./logs/


아래는 위 코드를 실행시키고 TensorBoard로 Cost, Accuracy, NN의 Graph를 확인한 내용입니다.



이렇게 간단한 NN을 끝내봤습니다. 다음엔 ReLU를 할 거 같습니다.


+ Recent posts

티스토리 툴바