๊ฐ ๊ฐ๋ ์ ์์ธํ ๋ด์ฉ์ ์ ๋ธ๋ก๊ทธ์๋ ๋์์์ต๋๋ค. Computer Vision ์์ฃผ๋ก.. ์ด๋ฏธ์ง ์ผ์ฑ ์์ฃผ๋ก ์ค๋ช ํ๊ณ ์์ต๋๋ค.
Chat GPT์ MIT์ Goodfellow๋์ ์ฑ ๋ค์ ์ฐธ์กฐํ์ต๋๋ค. ์ ๊ฐ ๋ํ์์์ ์ด ์ฑ ์ผ๋ก ๊ณต๋ถํ๊ฑฐ๋ ์.
https://www.deeplearningbook.org
โ
์ด๋ฐ๊ฑฐ ๋ค ์๋ฉด์, ๊ทธ๋ฆฌ๊ณ ์ด๋ฐ๊ฒ ์์ฒญ๋๊ฒ ์ฌํ์ ์ธ ๋ด์ฉ์ ์๋์๋ ๊ตณ์ด๊ตณ์ด ์ ๋ฆฌํ๋ ์ด์ ๋,
์ ๊ฐ ์ฒ์์ ๊ณต๋ถ ํ ๋ ์ด๋ ค์ ๊ณ , ์์ผ๋ก๋ ํ์ํ ์ฌ๋๋ค์ด ์์ ๊ฒ ๊ฐ์์์.
์ด 50๊ฐ์ง ๊ฐ๋ ์ ๋ํด ๊ฐ ์์ ๋ ๊ฒ์์์ง์ โPytorch codeโ์ โmatlab codeโ๋ก ๊ฒ์ํ์๋ฉด ์ฝ๊ฒ ์ฐพ์ ์ ์์ต๋๋ค.
โ
๊ทธ๋ฆฌ๊ณ , 50๊ฐ์ง ๊ฐ๋ ๋ค์ ์์ฃผ ์ด๋ ต์ต๋๋ค. ์ธ๊ณต์ง๋ฅ ๊ด๋ จ ๋ํ๋ฅผ ์ํ 50๊ฐ์ง ์ฉ์ด์ง์ด๋ผ๊ณ ์ดํดํ์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
์ด ์ฉ์ด์ง์ ๋ค ์ตํ๋ฉด,
์ธ๊ณต์ง๋ฅ ๊ด๋ จ ์ ๊ณต ์๋ฐ์ฌ๋ค์ด๋ ๋ํ๋ ๊ด๋ จ ์ปจํผ๋ฐ์ค์์ ์ธ๋ฏธ๋ ์ดํดํ๋ ๊ฒ์ ๋ฌธ์ ์์๊ฒ๋๋ค.
โ
์์ํฉ๋๋ค.
โ
- Adversarial Training (์ ๋์ ํ๋ จ)
Adversarial training์ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค. ์ด๊ฑธ ์์๋ณด๊ธฐ ์ ์, ์ ํด์ผ ํ๋์ง ์๋ ค๋ฉด,
Adversarial attack์ ๋ํด ์๋ฉด ๋ ์ฝ์ต๋๋ค.
โ
Adversarial example๋ ์์ ๋ณํ๋ก๋ ๋ชจ๋ธ์ ์๋ชป๋ ๋ถ๋ฅ๋ฅผ ์ ๋ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ์ด์ฉํ Adversarial training์ ๋ชจ๋ธ์ด ์๋ชป ๋ถ๋ฅํ๋ ๋ฐ์ดํฐ์ ๋ํ ์ ํญ์ฑ์ ๋์ด๋ ๋ฐ ํจ๊ณผ์ ์ ๋๋ค.
โ
์์ฆ ์์ดํฐ์ด๋ ๊ฐค๋ญ์ ํฐ๋ค์ ์ผ๊ตด์ธ์ / ์ง๋ฌธ์ธ์ ๋ฑ์ผ๋ก ์ ๊ธ์ ํด์ ํฉ๋๋ค. ์ผ๊ตด์ด๋ ์์ด ๋ถ๊ฑฐ๋, ๊ฐ๋๊ฐ ์ด์ง ๋ณํ๊ฑฐ๋, ์ผ๊ตด์ ํธ๋ฌ๋ธ์ด ์๊ฒจ๋ ์ ์ธ์ํด์ฃผ์ฃ .
๊ณ ์์ด ์ผ๊ตด์ ๋ณด์ฌ์ฃผ๋ฉด ์ธ์์ ๋ชปํฉ๋๋ค.
๊ทผ๋ฐ ํด์ปค๊ฐ ์ด ๋ชจ๋ธ์ 100% ์ดํดํ์ ๋, ๊ฐ ํฝ์ ๋ง๋ค weight๊ฐ์ ๊ณ์ฐํ๋ฉด..
๊ณ ์์ด ์ผ๊ตด์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ์ด๋ฐ ์ ๊ธ์ ํด์ ํ ์ ์๊ฒ ๋๋๊ฒ์ด์ฃ .
โ
์๋๋ ๊ณ ์์ด ์ฌ์ง์ ๋ ธ์ด์ฆ ํฝ์ ์ ์ถ๊ฐํ์ฌ, AI๊ฐ ๊ณ ์์ด๋ฅผ ํ ์คํฐ๊ธฐ๋ก ์๋ชป ์ธ์ํ๊ฒ ๋ง๋ ์ฌ์ง์ ๋๋ค.
์ด๋ฐ๊ฑธ ์ ์ฉํ๋ฉด,
์ด๋ป๊ฒ ATM๊ธฐ๋ฅผ ๊ฐ์ง ๋์ผ๋ก ์ง์ง ๋์ผ๋ก ์์ผ ์ ์์์ง?
์ด๋ป๊ฒ ์๋์ฐจ ์ ํธ์๋ฐ์ ํ๋ฉด์, ๋ด ๋ฒํธํ์ ๋ค๋ฅธ ๋ฒํธํ์ผ๋ก ์์ผ ์ ์์์ง?
๋์ค์ ํ์ฌ๊ฐ AI๋ก ๋ฐ๋๋ค๋ฉด, ํ์ฌ์๊ฒ ์ด๋ป๊ฒ ์๋ชป๋ ํ๊ฒฐ์ ๋ด๋ฆด ์ ์์์ง? ์ด๋ฐ ๊ฒ๋ค์ด์ฃ .
โ
์ด๋ฐ๊ฒ๋ค ๋๋ฌธ์, ๋ชจ๋ธ์ ๋ง๋ค ๋ ์ผ๋ถ๋ฌ ํธ๋ ์ด๋์ธํธ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด์ ๋ชจ๋ธ์ ์ข ๋ ์ ํญ์ฑ์ ๋์ด๋ ๊ฒ์ ๋๋ค.
๊ด๋ จ ๋ ผ๋ฌธ :
[1602.02697] Practical Black-Box Attacks against Machine Learning
- Autoencoder
Autoencoder๋ ์ ๋ ฅ์ ์์ถํ์ฌ ์ ์ฌ ํํ์ผ๋ก ์ธ์ฝ๋ฉํ ํ, ์ด๋ฅผ ๋ค์ ๋ณต์ํ์ฌ ์๋ณธ ์ ๋ ฅ๊ณผ์ ์ฌ๊ตฌ์ฑ ์ค์ฐจ๋ฅผ ์ต์ํํ๋๋ก ํ์ตํฉ๋๋ค. ์ด๋ฅผ ํตํด Autoencoder๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ค์ํ ํน์ง์ ์ถ์ถํ๊ณ , ์ก์์ด๋ ๋ถํ์ํ ์ ๋ณด๋ฅผ ๊ฑธ๋ฌ๋ด๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋ฉ๋๋ค.
์คํ ์ธ์ฝ๋(Autoencoder)๋ ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ ๋ ฅ์ ์์ถํ๊ณ , ์ถ๋ ฅ์ผ๋ก ์ ํํ๋ ๋ค์ค ์ ๊ฒฝ๋ง์ ๋๋ค.
๋์งํธ ํ๋ก์ ๊ฐ๋จํ ์ธ์ฝ๋/๋์ฝ๋๊ฐ ์๋, ๋คํธ์ํฌ์ ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก constraint๋ฅผ ์ค์ ์คํ ์ธ์ฝ๋๋ฅผ ๋ง๋ค์ด์ฃผ๊ณ , ์ด ์คํ ์ธ์ฝ๋๋ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์ํ๊ฑฐ๋, ์ค์ ํน์ง์ ์ถ์ถํ๊ฑฐ๋,๋ ธ์ด์ฆ๋ฅผ ๊ฑธ๋ฌ๋ด๊ฑฐ๋ ํ์ฌ ๋ฐ์ดํฐ ์ถ๋ ฅ ํํ์ ํจ์จ์ ์ผ๋ก ๋ง๋๋ ๊ฒ์ ๋ํ ์ฌ์ฉ ๋ชฉ์ ์ด ์์ต๋๋ค.
โ
โ
- Back propagation
Propagation ๋จ๊ณ์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํตํด ์์ธก๊ฐ์ ๊ณ์ฐํ๊ณ ,
Back-Propagation ๋จ๊ณ์์ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ์ฌ์ด์ ์ค์ฐจ๋ฅผ ์ญ์ผ๋ก ์ ํํ์ฌ ๊ฐ ๊ฐ์ค์น์ ๊ธฐ์ฌ๋๋ฅผ ๊ณ์ฐํฉ๋๋ค.
์ด๋ฅผ ํตํด ์ค์ฐจ๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ๋คํธ์ํฌ๋ฅผ ํ์ต์ํค๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
โ
- RBM๊ณผ Energy Function RBM
RBM (Restricted Boltzmann Machine)์ ๋น์ง๋ ํ์ต์ ์ํ ํ๋ฅ ์ ์์ฑ ๋ชจ๋ธ๋ก, ์ ๋ ฅ ๋ฐ์ดํฐ์ ํ๋ฅ ์ ๋ถํฌ๋ฅผ ํ์ตํ๋ ์ธ๊ณต ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ๋๋ค. RBM์ ์ ๋ ฅ์ธต๊ณผ ์๋์ธต์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ๋ ธ๋๋ ์ด์ง๊ฐ์ ๊ฐ์ง๋๋ค. ์ ๋ ฅ์ธต๊ณผ ์๋์ธต ์ฌ์ด์ ์ฐ๊ฒฐ์ ์๋ฐฉํฅ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด RBM์ ๋ฐ์ดํฐ์ ํน์ง์ ํ์ตํ๊ณ ์ ์ฌ์ ์ธ ์ํธ์์ฉ์ ๋ชจ๋ธ๋งํฉ๋๋ค. RBM์ ๋ ธ๋์ ํ์ฑํ ์ํ์ ๊ธฐ๋ฐํ์ฌ ํ๋ฅ ์ ์ธ ์ํ๋ง์ ์ํํ๋ฉฐ, ์ด๋ฅผ ํตํด ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. RBM์ ์ฐจ์ ์ถ์, ํน์ง ์ถ์ถ, ์ก์ ์ ๊ฑฐ ๋ฑ์ ์ฐ์ ๋๋ค.
โ
โ
- BPTT
BPTT (Backpropagation Through Time)๋ ์ํ ์ ๊ฒฝ๋ง (Recurrent Neural Network, RNN)์์ ์ฌ์ฉ๋๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. RNN์ ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ์ ์ฃผ๋ก ์ฌ์ฉ๋๋๋ฐ, BPTT๋ RNN์์ ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ญ์ ํ๋ฅผ ์ํํ์ฌ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. BPTT๋ RNN์ ์์ ํ ๋จ๊ณ์์ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ณ , ์ญ์ ํ ๋จ๊ณ์์ ์๊ฐ์ ์ญ์์ผ๋ก ์ค์ฐจ๋ฅผ ์ ํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ์๊ฐ ๋จ๊ณ์์์ ์ค์ฐจ ๊ธฐ์ฌ๋๋ฅผ ๊ณ์ฐํ๊ณ , ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ์ฌ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค. BPTT๋ RNN์์ ์ํ์ค ๋ฐ์ดํฐ์ ์์กด ๊ด๊ณ๋ฅผ ๊ณ ๋ คํ์ฌ ํ์ตํ ์ ์๊ฒ ํด์ฃผ๋ ์ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
โ
- Convolution and Pooling
Convolution๊ณผ Pooling์ ์ปจ๋ณผ๋ฃจ์ ์ ๊ฒฝ๋ง (Convolutional Neural Network, CNN)์์ ์ฌ์ฉ๋๋ ์ฃผ์ํ ๊ฐ๋ ์ ๋๋ค. Convolution์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํํฐ ๋๋ ์ปค๋์ ์ ์ฉํ์ฌ ํน์ง ๋งต(feature map)์ ์์ฑํ๋ ๊ณผ์ ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํ ์ ์์ต๋๋ค. ํํฐ๋ ์์ ํฌ๊ธฐ์ ์๋์ฐ์ฒ๋ผ ์์ง์ด๋ฉด์ ์ ๋ ฅ ๋ฐ์ดํฐ์์ ํฉ์ฑ๊ณฑ์ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ํตํด ํน์ง ๋งต์ ์์ฑํฉ๋๋ค. Convolution์ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ์ธ ํน์ง์ ๊ฐ์งํ๊ณ ์ถ์ถํ๋ ๋ฐ์ ์ฌ์ฉ๋ฉ๋๋ค. Pooling์ Convolutional Layer์ ์ถ๋ ฅ์์ ์ค์ํ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ฉด์ ๊ณต๊ฐ์ ์ธ ์ฐจ์์ ์ค์ด๋ ์์ ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก Max Pooling์ด ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ฉฐ, ์์ ์๋์ฐ ๋ด์์ ์ต๋๊ฐ์ ์ ํํ์ฌ ํน์ง ๋งต์ ๋ค์ด์ํ๋งํฉ๋๋ค. ์ด๋ฅผ ํตํด ํน์ง์ ์์น์ ์๋์ ์ธ ๋ถ๋ณ์ฑ์ ๋ถ์ฌํ๊ณ , ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๋ ํจ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค. Convolution๊ณผ Pooling์ CNN์ ํต์ฌ ์์๋ก, ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์ปดํจํฐ ๋น์ ์์ ์ ์ฃผ๋ก ํ์ฉ๋ฉ๋๋ค. Convolution์ ํน์ง ์ถ์ถ์ ๋ด๋นํ๊ณ , Pooling์ ๊ณต๊ฐ์ ์ธ ์ฐจ์ ์ถ์์ ๋ถ๋ณ์ฑ์ ์ ๊ณตํ๋ ์ญํ ์ ์ํํฉ๋๋ค.
โ
7.Convolutional Neural Networks
Convolutional Neural Networks (CNNs)๋ ์ฃผ๋ก ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ์ด๋ฏธ์ง ์ธ์, ๊ฐ์ฒด ๊ฒ์ถ, ์ด๋ฏธ์ง ๋ถํ ๋ฑ์ ์์ ์ ์ฌ์ฉ๋๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ๋๋ค. CNN์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ํฉ์ฑ๊ณฑ ์ฐ์ฐ๊ณผ ํ๋ง ์ฐ์ฐ์ ํตํด ํน์ง์ ์ถ์ถํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ถ๋ฅ๋ ํ๊ท์ ๊ฐ์ ์์ ์ ์ํํฉ๋๋ค. CNN์ ์ฃผ๋ก Convolutional Layer, Pooling Layer, Fully Connected Layer๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. Convolutional Layer์์๋ ํํฐ๋ฅผ ์ด์ฉํ์ฌ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํฉ์ฑ๊ณฑ ์ฐ์ฐ์ ์ํํ์ฌ ํน์ง ๋งต์ ์์ฑํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ์ธ ํน์ง์ ์ถ์ถํฉ๋๋ค. Pooling Layer์์๋ ํน์ง ๋งต์ ๊ณต๊ฐ์ ์ธ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ ์ค์ํ ์ ๋ณด๋ฅผ ๋ณด์กดํฉ๋๋ค. Fully Connected Layer์์๋ ์ถ์ถ๋ ํน์ง์ ๋ฐํ์ผ๋ก ์ต์ข ์ถ๋ ฅ์ ๊ณ์ฐํ๊ณ , ๋ถ๋ฅ๋ ํ๊ท ๋ฑ์ ์์ ์ ์ํํฉ๋๋ค. CNN์ ํนํ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์ ํฉํ ๊ตฌ์กฐ๋ก, ์ง์ญ์ ์ธ ํจํด ์ธ์๊ณผ ๊ณต๊ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ์ ์ดํดํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ์ปดํจํฐ ๋น์ ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ๋ฅ๋ฌ๋ ๋ถ์ผ์์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ ๋๋ค.
โ
8.Cross Entropy
Cross Entropy๋ ์ ๋ณด ์ด๋ก ๊ณผ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ๋ ์์ค ํจ์์ ํ๋๋ก, ๋ ํ๋ฅ ๋ถํฌ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฃผ๋ก ๋ถ๋ฅ ๋ฌธ์ ์์ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋ ๋ฐ์ ์ฌ์ฉ๋ฉ๋๋ค. Cross Entropy๋ ์์ธก๊ฐ์ ํ๋ฅ ๋ถํฌ์ ์ค์ ๊ฐ์ ํ๋ฅ ๋ถํฌ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋๋ฐ ์ ์ฉ๋ฉ๋๋ค. ์์ธก๊ฐ์ ํ๋ฅ ๋ถํฌ๋ ์ํํธ๋งฅ์ค ํจ์๋ฅผ ํตํด ์ป์ด์ง ํ๋ฅ ๊ฐ์ด๋ฉฐ, ์ค์ ๊ฐ์ ์-ํซ ์ธ์ฝ๋ฉ๋ ๋ฒกํฐ๋ก ํํ๋ฉ๋๋ค. Cross Entropy๋ ๋ ๋ถํฌ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ์ฌ ๋ถ๋ฅ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค. Cross Entropy๋ ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ฑฐ๋, ๋ชจ๋ธ์ ํ์ต์ ์ง๋ํ๋ ์์ค ํจ์๋ก ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค. ๋์ Cross Entropy ๊ฐ์ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ๊ฐ์ ๋ถ์ผ์น๋ฅผ ๋ํ๋ด๋ฉฐ, ๋ฎ์ Cross Entropy ๊ฐ์ ์ข์ ์์ธก ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค. ๋ฐ๋ผ์ Cross Entropy๋ ๋ถ๋ฅ ๋ชจ๋ธ์ ํ์ต๊ณผ ํ๊ฐ์ ์ค์ํ ์งํ๋ก ํ์ฉ๋ฉ๋๋ค.
โ
- Curse of Dimensionality
Curse of Dimensionality(์ฐจ์์ ์ ์ฃผ)๋ ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ํ์ต์ด ์ด๋ ค์์ง๋ ํ์์ ๊ฐ๋ฆฌํต๋๋ค. ์ด๋ ๋ฐ์ดํฐ์ ์ฐจ์์ด ์ฆ๊ฐํ ์๋ก ๋ฐ์ดํฐ ํฌ์ธํธ ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์ด์ง๊ณ , ๋ฐ์ดํฐ์ ํน์ฑ ๋ฐ ํจํด์ ํ์ ํ๊ธฐ ์ด๋ ค์์ง๋ ๋ฌธ์ ๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฐจ์์ด ์ฆ๊ฐํ๋ฉด ๋ฐ์ดํฐ ํฌ์ธํธ์ ์๋ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ฉฐ, ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ ๋ฉ์ด์ง๋๋ค. ์ด๋ก ์ธํด ๋ฐ์ดํฐ๊ฐ ํฌ์ํด์ง๊ณ , ์ํ์ ๋ฐ๋๊ฐ ๊ฐ์ํ๊ฒ ๋ฉ๋๋ค. ๋ํ ๊ณ ์ฐจ์ ๊ณต๊ฐ์์๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ด ์๊ณก๋์ด ์ ์ฌ์ฑ์ ์ ๋๋ก ์ธก์ ํ๊ธฐ ์ด๋ ต์ต๋๋ค. Curse of Dimensionality๋ก ์ธํด ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ๋ถ์๊ณผ ํ์ต์๋ ๋ฐ์ดํฐ์ ์์ด ๋ง์์ผ ํ๋ฉฐ, ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ ๋ฑ์ ์ ์ฒ๋ฆฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค. ๋ํ, ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์์๋ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ด ์ฆ๊ฐํ๊ณ , ๊ณผ์ ํฉ์ ์ํ๋ ์ปค์ง๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ๋ฐ๋ผ์ ์ฐจ์์ ์ ์ฃผ๋ฅผ ์ํํ๊ธฐ ์ํด ๋ฐ์ดํฐ์ ์ฐจ์์ ์ ์ ํ ์ ํํ๊ฑฐ๋, ์ฐจ์ ์ถ์ ๋ฐ ํน์ฑ ์ ํ ๋ฑ์ ๋ฐฉ๋ฒ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ ๋ถ์์ ์ํํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
โ
- DAE/CAE
DAE (Denoising Autoencoder)์ CAE (Contractive Autoencoder)๋ Autoencoder์ ๋ณํ๋ ํํ๋ก, ๋ฐ์ดํฐ์ ํน์ง์ ํ์ตํ๊ณ ์ก์ ์ ๊ฑฐ ๋๋ ํน์ง ์ถ์ถ์ ํ์ฉ๋ฉ๋๋ค. DAE๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ผ๋ถ ์ก์์ ๋์ ํ์ฌ ์ด๋ฅผ ์๋ ๋ฐ์ดํฐ๋ก ๋ณต์ํ๋๋ก ํ์ตํ๋ ๋ฐฉ์์ ๋๋ค. ์ก์์ด ํฌํจ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด DAE๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ก์์ ์ ๊ฑฐํ๊ณ , ๋ ๊น๋ํ ํน์ง์ ์ถ์ถํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ต๋๋ค. DAE๋ ๋ฐ์ดํฐ ์ก์ ์ ๊ฑฐ, ๋ฐ์ดํฐ ์์ถ ๋ฐ ์ฌ๊ตฌ์ฑ, ํน์ง ์ถ์ถ ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ํ์ฉ๋ฉ๋๋ค. CAE๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์ํ๋ฉด์ ์ค์ํ ํน์ง์ ๋ณด์กดํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํ๋ Autoencoder์ ๋๋ค. CAE๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ ํํ์ผ๋ก ์ธ์ฝ๋ฉํ๊ณ , ๋ค์ ๋์ฝ๋ฉํ์ฌ ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค. ์ค์ํ ํน์ง์ ๋ณด์กดํ๊ธฐ ์ํด ์์ถ๋ ํํ์ ์ ์ฝ ์กฐ๊ฑด์ ๋ถ์ฌํ์ฌ ํ์ตํ๋ฉฐ, ์ด๋ฅผ ํตํด ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ ์๋ฏธํ ํน์ง์ ์ถ์ถํ ์ ์์ต๋๋ค. CAE๋ ํน์ง ์ถ์ถ, ์ฐจ์ ์ถ์, ๋ฐ์ดํฐ ์์ถ ๋ฑ์ ์์ ์ ์ ์ฉํ๊ฒ ํ์ฉ๋ฉ๋๋ค. ๋ ๋ค Autoencoder์ ๋ณํ์ผ๋ก, ๋ฐ์ดํฐ์ ์ก์ ์ ๊ฑฐ๋ ํน์ง ์ถ์ถ์ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
โ
โ
- Distributed Representation
Distributed Representation(๋ถ์ฐ ํํ)์ ์ ๋ณด๋ฅผ ๊ณ ์ฐจ์์ ๋ฒกํฐ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๊ฐ ์ฐจ์์ด ์๋ฏธ ์๋ ํน์ง์ ๋ํ๋ด๋ ๋ฐฉ์์ ๋๋ค. ๋ถ์ฐ ํํ์ ๊ฐ๋ณ ์์๊ฐ ๋ ๋ฆฝ์ ์ธ ์๋ฏธ๋ฅผ ๊ฐ๋ ํฌ์ ํํ๊ณผ๋ ๋ฌ๋ฆฌ, ๋ฒกํฐ์ ๊ฐ ์ฐจ์์ด ์ฌ๋ฌ ๊ฐ์ ํน์ง์ ๋์์ ํํํฉ๋๋ค. ๋ถ์ฐ ํํ์ ํน์ง ๊ณต๊ฐ์์ ์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ์ง ์์๋ค์ด ์๋ก ๊ฐ๊น๊ฒ ์ธ์ฝ๋ฉ๋๋ ํน์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋จ์ด์ ๊ฒฝ์ฐ ํน์ ์๋ฏธ๋ ๋ฌธ๋งฅ๊ณผ ๊ด๋ จ๋ ์ฐจ์๋ค์ด ์๋ก ๊ทผ์ ํ๊ฒ ํํ๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋จ์ด๋ค์ด ์ ์ฌํ ๋ฒกํฐ๋ก ํํ๋์ด ์ ๋ณด๋ฅผ ๋ณด์กดํ๊ณ ์ ์ถ๋ฅผ ์ํํ ์ ์๋ ์ฅ์ ์ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค. ๋ถ์ฐ ํํ์ ๋ฅ๋ฌ๋์์ ์์ฃผ ์ฌ์ฉ๋๋ ๊ฐ๋ ์ผ๋ก, Word2Vec, GloVe, BERT ๋ฑ ๋ค์ํ ๋ชจ๋ธ์์ ํ์ฉ๋ฉ๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ํ ์คํธ, ์ด๋ฏธ์ง, ์์ฑ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ์์ ๋ถ์ฐ ํํ์ ํ์ตํ์ฌ ์๋ฏธ๋ฅผ ๋ดํฌํ ์ ์ฌ ๊ณต๊ฐ์ ๊ตฌ์ถํ๊ณ , ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ, ์ด๋ฏธ์ง ์ธ์, ๋ฌธ์ ๋ถ๋ฅ ๋ฑ์ ์์ ์ ํ์ฉ๋ฉ๋๋ค. ๋ถ์ฐ ํํ์ ํจ์จ์ ์ด๊ณ ์๋ฏธ๋ก ์ ์ผ๋ก ํ๋ถํ ํํ ๋ฐฉ๋ฒ์ผ๋ก์จ ๋ค์ํ ์ธ๊ณต์ง๋ฅ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
โ
- Dropout Regularization
Dropout Regularization์ ์ ๊ฒฝ๋ง์ ๊ณผ์ ํฉ์ ์ค์ด๊ธฐ ์ํ ํจ๊ณผ์ ์ธ ์ ๊ทํ ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค. ํ์ต ๊ณผ์ ์์ ๋๋คํ๊ฒ ์ ํ๋ ๋ด๋ฐ๋ค์ ์ ์ธ์ํด์ผ๋ก์จ ์ ๊ฒฝ๋ง์ ์ผ๋ถ๋ฅผ ๋ฌด์์๋ก ๋นํ์ฑํ์ํค๋ ๊ฒ์ ๋๋ค. Dropout์ ๊ฐ ํ์ต ๋จ๊ณ์์ ์ ๋ ฅ์ธต ๋๋ ์๋์ธต์ ๋ด๋ฐ์ ํ๋ฅ ์ ์ผ๋ก ์ ํํ์ฌ ์ ์ธ์ํต๋๋ค. ์ ์ธ๋ ๋ด๋ฐ์ ํด๋น ํ์ต ๋จ๊ณ์์ ๊ณ์ฐ์ ์ฐธ์ฌํ์ง ์์ผ๋ฉฐ, ์ ๊ฒฝ๋ง์ ๋๋จธ์ง ๋ด๋ฐ๋ค๋ง์ ๊ธฐ๋ฐ์ผ๋ก ์์ธก ๋ฐ ์ญ์ ํ๋ฅผ ์ํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ ๋ด๋ฐ์ ์์กดํ์ง ์๊ณ , ์ผ๋ถ ๋ด๋ฐ๋ค์ด ๋ค๋ฅธ ๋ด๋ฐ๋ค์ ๊ธฐ๋ฅ์ ๋์ ํ ์ ์๋๋ก ํ์ต๋ฉ๋๋ค. Dropout์ ์ ๊ฒฝ๋ง์ ๋ณต์ก์ฑ์ ์ค์ด๊ณ , ๊ณผ์ ํฉ์ ์ต์ ํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํต๋๋ค. ๋ด๋ฐ๋ค์ด ์ผ๋ถ๋ฌ ์ ์ธ๋๋ ๊ฒ์ผ๋ก ์ธํด ์ ๊ฒฝ๋ง์ ๋ ๊ฐ๊ฑดํ ํน์ฑ์ ํ์ตํ๊ฒ ๋๋ฉฐ, ์์๋ธ ํจ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค. ๋ํ, Dropout์ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์กฐ์ ํ๋ฉด์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค. ์ฃผ์ํ ์ ์ ํ ์คํธ ๋จ๊ณ์์๋ Dropout์ ์ ์ฉํ์ง ์๊ณ ๋ชจ๋ ๋ด๋ฐ์ ์ฌ์ฉํ์ฌ ์์ธก์ ์ํํด์ผ ํฉ๋๋ค.
โ
- Early Stopping
Early Stopping์ ์ ๊ฒฝ๋ง ํ์ต ๊ณผ์ ์์ ๋ชจ๋ธ์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ์ ๊ทํ ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ํ์ต ๊ณผ์ ์์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ฑ๋ฅ์ด ๊ฐ์ ๋์ง ์๊ฑฐ๋ ํ๋ฝํ๋ ์ง์ ์ ๊ฐ์งํ์ฌ ํ์ต์ ์กฐ๊ธฐ ์ข ๋ฃํ๋ ๋ฐฉ์์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ ๊ฒฝ๋ง์ ํ์ต ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ์ฐจ์ ์ผ๋ก ์์ค์ ๊ฐ์์ํค๊ณ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒฝํฅ์ด ์์ง๋ง, ๊ณผ์ ํฉ์ด ๋ฐ์ํ๋ฉด ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ์ ์ ์กฐํด์ง๋๋ค. Early Stopping์ ์ด๋ฌํ ํ์์ ์ด์ฉํ์ฌ ํ์ต ์ค๋จ ์์ ์ ๊ฒฐ์ ํฉ๋๋ค. Early Stopping์ ๋ชจ๋ธ์ด ์ผ์ ํ ์๊ฐ ๋์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ์ด ํฅ์๋์ง ์์ ๋ ํ์ต์ ์ข ๋ฃํฉ๋๋ค. ์ฑ๋ฅ์ด ๊ฐ์ ๋์ง ์๋ ์์ ์ ๋ชจ๋ธ์ด ๊ณผ์ ํฉ๋๊ธฐ ์์ํ๋ ์์ ์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ํ์ต ๊ณผ์ ์ ์ผ์ฐ ์ค๋จํจ์ผ๋ก์จ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ณ , ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค. ์ฃผ์ํ ์ ์ Early Stopping์ ์ ์ฉํ ๋๋ ํ์ต ๋ฐ์ดํฐ, ๊ฒ์ฆ ๋ฐ์ดํฐ, ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๋๋์ด์ผ ํฉ๋๋ค. ํ์ต ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ตํ๊ณ , ๊ฒ์ฆ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ฉฐ, ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ต์ข ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. Early Stopping์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ์ ๋ชจ๋ํฐ๋งํ์ฌ ํ์ต์ ์ค๋จํ๋ ๋ฐฉ์์ด๋ฏ๋ก, ํ ์คํธ ๋ฐ์ดํฐ๋ ์ต์ข ํ๊ฐ๋ฅผ ์ํด ๋ณ๋๋ก ๋ณด๊ด๋์ด์ผ ํฉ๋๋ค.
โ
- Ensemble Learning
Ensemble Learning์ ์ฌ๋ฌ ๊ฐ์ ํ์ต ๋ชจ๋ธ์ ์กฐํฉํ์ฌ ๋ ๊ฐ๋ ฅํ ์์ธก ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๊ฐ ๋ชจ๋ธ์ ๊ฐ๋ณ์ ์ผ๋ก ํ์ต๋์ง๋ง, ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ์ฌ ๋ณด๋ค ์ ํํ๊ณ ์์ ์ ์ธ ์์ธก์ ์ํํฉ๋๋ค. Ensemble Learning์ ๋ค์ํ ํ์ต ์๊ณ ๋ฆฌ์ฆ ๋๋ ๋์ผํ ์๊ณ ๋ฆฌ์ฆ์ ๋ค๋ฅธ ์ค์ ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ๋ค์ ํ์ฉํฉ๋๋ค. ๋ํ์ ์ธ Ensemble Learning ๋ฐฉ๋ฒ์ผ๋ก๋ ๋ฐฐ๊น (Bagging), ๋ถ์คํ (Boosting), ์คํํน(Stacking) ๋ฑ์ด ์์ต๋๋ค. ๋ฐฐ๊น ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ๋ฌด์์๋ก ์ ํํ์ฌ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต์ํค๊ณ , ์์ธก ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ๋๋ ๋ค์๊ฒฐ๋ก ๊ฒฐํฉํฉ๋๋ค. ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ ๋๋ค ํฌ๋ ์คํธ(Random Forest)๊ฐ ์์ต๋๋ค. ๋ถ์คํ ์ ์ฝํ ํ์ต๊ธฐ๋ค์ ์์ฐจ์ ์ผ๋ก ํ์ต์ํค๊ณ , ๊ฐ ๋ชจ๋ธ์ ์์ธก ์ค์ฐจ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๋ชจ๋ธ์ ๊ฐํ์ํต๋๋ค. ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ AdaBoost, Gradient Boosting, XGBoost, LightGBM ๋ฑ์ด ์์ต๋๋ค. ์คํํน์ ๋ค๋ฅธ ํ์ต ๋ชจ๋ธ๋ค์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ง์ง๋ง ๋จ๊ณ์์ ์ต์ข ์์ธก์ ์ํํ๋ ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค. ์คํํน์ ์ฌ๋ฌ ๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ์ฌ ๋ณด๋ค ์ ๊ตํ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. Ensemble Learning์ ๋จ์ผ ๋ชจ๋ธ๋ณด๋ค ๋ ์ข์ ์์ธก ์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง ์ ์์ต๋๋ค. ๋ค์ํ ๋ชจ๋ธ๋ค์ ๋ค๋ฅธ ํน์ง๊ณผ ์ค์ฐจ๋ฅผ ์์ํจ์ผ๋ก์จ ์์ธก์ ์ ํ์ฑ๊ณผ ์์ ์ฑ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โ
- Generative Adversarial Networks (GANs)
Generative Adversarial Networks (GAN)์ ์์ฑ ๋ชจ๋ธ ์ค ํ๋๋ก, ์์ฑ์์ ํ๋ณ์๋ผ๋ ๋ ๊ฐ์ ์ ๊ฒฝ๋ง์ด ์๋ก ๋๋ฆฝํ๋ฉฐ ๊ฒฝ์ํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. GAN์ ์์ฑ์๊ฐ ์ค์ ์ ์ ์ฌํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ก ํ์ตํ๊ณ , ํ๋ณ์๋ ์์ฑ์๊ฐ ์์ฑํ ๋ฐ์ดํฐ์ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ํ์ตํฉ๋๋ค. ์์ฑ์๋ ์ด๊ธฐ์๋ ๋ฌด์์ํ ๋ ธ์ด์ฆ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ฉฐ, ํ๋ณ์๋ ์ด๋ฅผ ์ค์ ์ ๊ตฌ๋ถํฉ๋๋ค. ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ์์ฑ์๋ ์ ์ฐจ ์ค์ ๋ฐ์ดํฐ์ ์ ์ฌํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ก ๋ฐ์ ํ๊ณ , ํ๋ณ์๋ ์ ์ฐจ ๋์ฑ ์ ํํ๊ฒ ๊ตฌ๋ถํ๋๋ก ๋ฐ์ ํฉ๋๋ค. GAN์ ์์ฑ์์ ํ๋ณ์๊ฐ ์๋ก ๋๋ฆฝํ๋ฉฐ ๊ฒฝ์ํ๋ ๊ณผ์ ์ ํตํด ์์ ์ ์ด๊ณ ์ค์ ์ ์ ์ฌํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด GAN์ ์ด๋ฏธ์ง ์์ฑ, ์์ ์์ฑ, ์์ฐ์ด ์ฒ๋ฆฌ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. GAN์ ์ด๋ฏธ์ง ์์ฑ์ ํนํ ๋ง์ด ํ์ฉ๋๋ฉฐ, ์ค์ ๋ก ์ค์ ์ฌ์ง๊ณผ ๊ตฌ๋ณํ๊ธฐ ํ๋ ๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋ด๋ ๋ฑ ๋์ ์์ค์ ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
โ
- Generative Model
Generative Model(์์ฑ ๋ชจ๋ธ)์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ์ตํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ , ๋ฐ์ดํฐ์ ํจํด๊ณผ ๊ตฌ์กฐ๋ฅผ ํ์ตํ์ฌ ์๋ก์ด ์ํ์ ์์ฑํ ์ ์์ต๋๋ค. ์์ฑ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ํ๋งํ๋ ๋ฐฉ์์ผ๋ก ๋์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์ ์ ๋ํ ํน์ง๊ณผ ํต๊ณ์ ๊ตฌ์กฐ๋ฅผ ํ์ ํ๋ฉฐ, ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ๋์๋ ํ์ตํ ํจํด์ ๋ฐ๋ฅด๋๋ก ํฉ๋๋ค. ์์ฑ ๋ชจ๋ธ์ ๋ค์ํ ํํ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ตฌํ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํ๋ฅ ์ ์์ฑ ๋ชจ๋ธ์ธ Gaussian Mixture Models(GMM), Variational Autoencoders(VAE), Generative Adversarial Networks(GAN) ๋ฑ์ด ์์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ด๋ฏธ์ง, ์์ฑ, ํ ์คํธ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ์ ํ์ ๋ํด ์์ฑ์ ์ธ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ต๋๋ค. ์์ฑ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ์์ฑ, ๋ฐ์ดํฐ ๋ณด๊ฐ, ์ด๋ฏธ์ง ์์ฑ, ์์ ์์ฑ, ์์ฐ์ด ์ฒ๋ฆฌ ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ์ฌ์ฉ๋ฉ๋๋ค. ๋ํ, ์์ฑ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๊ณ ์ด๋ฅผ ํตํด ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๊ธฐ๋ฅ์ ์ ๊ณตํจ์ผ๋ก์จ ์ฐฝ์์ ์ธ ์ฝํ ์ธ ์์ฑ๊ณผ ๋ฐ์ดํฐ ์์ฑ์ ํ์ฉ๋ ์ ์์ต๋๋ค.
โ
- Gradient Descent
Gradient Descent(๊ฒฝ์ฌ ํ๊ฐ๋ฒ)์ ํจ์์ ์ต์๊ฐ์ ์ฐพ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ฃผ์ด์ง ํจ์์ ๊ธฐ์ธ๊ธฐ(๊ฒฝ์ฌ)๋ฅผ ์ด์ฉํ์ฌ ํจ์์ ์ต์๊ฐ์ ์ฐพ์๊ฐ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํจ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ์ต์๊ฐ์ ๊ฐ๋ฆฌํค๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์์์ ์์ ์์ํ์ฌ ํ์ฌ ์์น์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๊ณ , ๊ทธ ๋ฐฉํฅ์ผ๋ก ์ผ์ ํ ํ์ต๋ฅ (learning rate)์ ๊ณฑํ ๋งํผ ์ด๋ํฉ๋๋ค. ์ด ๊ณผ์ ์ ์ต์๊ฐ์ ๋๋ฌํ ๋๊น์ง ๋ฐ๋ณตํฉ๋๋ค. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ์ต๋ฅ ๊ณผ ์ด๊ธฐ๊ฐ์ ๋ฐ๋ผ ์ต์๊ฐ์ ๋๋ฌํ๋ ์๋์ ์ ํ๋๊ฐ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. ๋๋ฌด ํฐ ํ์ต๋ฅ ์ ์ฌ์ฉํ๋ฉด ์ต์๊ฐ์ ์ง๋์น ์ ์๊ณ , ๋๋ฌด ์์ ํ์ต๋ฅ ์ ์ฌ์ฉํ๋ฉด ์๋ ด ์๋๊ฐ ๋๋ ค์ง ์ ์์ต๋๋ค. ๋ํ, ์ด๊ธฐ๊ฐ์ ๋ฐ๋ผ ๋ค๋ฅธ ์ต์๊ฐ์ ์๋ ดํ ์ ์๊ธฐ ๋๋ฌธ์ ์ด๊ธฐ๊ฐ ์ค์ ์ ์ฃผ์ํด์ผ ํฉ๋๋ค. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๋จธ์ ๋ฌ๋์์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๊ณ ์์ค ํจ์๋ฅผ ์ต์ํํ๋ ๋ฐ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ์ฌ ์์ค ํจ์๋ฅผ ์ต์ํํจ์ผ๋ก์จ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ณผ์ ์์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด ์ฌ์ฉ๋๋๋ฐ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.
โ
- Greedy Layer-Wise Unsupervised Traning
ChatGPT Greedy Layer-Wise Unsupervised Training์ ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ ์ค ํ๋๋ก, ์ฌ์ธต ์ ๊ฒฝ๋ง์ ์ด๊ธฐํ๋ฅผ ์ํด ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ํ ์ธต์ฉ ์์ฐจ์ ์ผ๋ก ํ์ตํ์ฌ ์ ์ฒด ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ๋ ๋ฐฉ์์ ๋๋ค. Greedy Layer-Wise Unsupervised Training์ ๊ฐ ์ธต์ ๋ ๋ฆฝ์ ์ธ ์คํ ์ธ์ฝ๋(Autoencoder) ๋๋ ์ ํ๋ ๋ณผ์ธ ๋ง ๋จธ์ (Restricted Boltzmann Machine, RBM)๊ณผ ๊ฐ์ ๋น์ง๋ ํ์ต ๋ชจ๋ธ๋ก ์ฌ์ ํ์ตํฉ๋๋ค. ๊ฐ ์ธต์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ ์ฌ์ ์ธ ํํ์ ํ์ตํ์ฌ, ์ธต๋ณ๋ก ๋ ์๋ฏธ ์๋ ํน์ง์ ์ถ์ถํ ์ ์๋๋ก ํฉ๋๋ค. ๊ฐ ์ธต์ ๋จ์ผ ์คํ ์ธ์ฝ๋๋ RBM์ผ๋ก ์ฌ์ ํ์ต๋๊ณ , ๊ทธ ๋ค์์๋ ๋ค์ ์ธต์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ฅผ ๋ฐ๋ณตํ์ฌ ๋ชจ๋ ์ธต์ด ์ฌ์ ํ์ต๋ ํ์๋ ์ ์ฒด ์ฌ์ธต ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ๊ณ , ์ ์ฒด ์ ๊ฒฝ๋ง์ ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. ์ด๋ฌํ Greedy Layer-Wise Unsupervised Training ๋ฐฉ๋ฒ์ ์ด๊ธฐํ ๋จ๊ณ์์ ์ฌ์ธต ์ ๊ฒฝ๋ง์ด ์ง์ญ ์ต์ ํด์ ๊ฐํ์ง ์๊ณ ๋ ๋์ ์ ์ญ ์ต์ ํด๋ก ์๋ ดํ ์ ์๋๋ก ๋์์ค๋๋ค. ์ธต๋ณ๋ก ์ฌ์ ํ์ต์ ์ํํ์ฌ ์ด๊ธฐ ๊ฐ์ค์น๋ฅผ ์ข์ ์ด๊ธฐ๊ฐ์ผ๋ก ์ค์ ํจ์ผ๋ก์จ ์ ์ฒด ์ ๊ฒฝ๋ง์ ์ฑ๋ฅ๊ณผ ์๋ ด ์๋๋ฅผ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โ
- KL Divergence/MLE
KL Divergence(Kullback-Leibler Divergence)์ ๋ ๊ฐ์ ํ๋ฅ ๋ถํฌ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ์งํ์ ๋๋ค. ์ฃผ๋ก ์ ๋ณด ์ด๋ก ์์ ์ฌ์ฉ๋๋ฉฐ, ๋ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋ค๋ฅธ์ง๋ฅผ ๋ํ๋ ๋๋ค. KL Divergence๋ ์ฃผ์ด์ง ํ๋ฅ ๋ถํฌ P์ Q ๊ฐ์ ๋น๊ต๋ฅผ ์ํด ์ฌ์ฉ๋ฉ๋๋ค. P์ Q๊ฐ ์์ ํ ๋์ผํ ๋ถํฌ๋ผ๋ฉด KL Divergence๋ 0์ด ๋ฉ๋๋ค. ํ์ง๋ง P์ Q๊ฐ ๋ค๋ฅผ์๋ก KL Divergence๋ ์ฆ๊ฐํฉ๋๋ค. KL Divergence๋ ๋น๋์นญ์ ์ด๋ฉฐ, ์ฆ, KL(P | ย | Q)์ KL(Q | ย | P)๋ ์๋ก ๋ค๋ฅผ ์ ์์ต๋๋ค. ์ต๋ ์ฐ๋ ์ถ์ (Maximum Likelihood Estimation, MLE)์ ๊ด์ธก๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํ๋ ํต๊ณ์ ๋ฐฉ๋ฒ์ ๋๋ค. MLE๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ์ด ๋์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. KL Divergence๋ MLE์ ์ผ๋ถ๋ก ์ฌ์ฉ๋๋๋ฐ, MLE์์๋ ๋ชจ๋ธ์ ์์ธก ๋ถํฌ์ ์ค์ ๋ถํฌ ์ฌ์ด์ KL Divergence๋ฅผ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ค์ ๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ ์ ํฉ์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ฐ๋ผ์, KL Divergence๋ ๋ ๋ถํฌ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๊ณ , MLE๋ KL Divergence๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. MLE๋ ํ๋ฅ ์ ์ธ ๋ชจ๋ธ๋ง์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ, KL Divergence๋ฅผ ํตํด ๋ชจ๋ธ์ ์ ํฉ๋๋ฅผ ํ๊ฐํ๊ณ ๊ฐ์ ํ ์ ์์ต๋๋ค. |
โ
- K-Nearest Neighbors Algorithm
K-Nearest Neighbors(K-NN) ์๊ณ ๋ฆฌ์ฆ์ ๋ถ๋ฅ(classification)์ ํ๊ท(regression) ๋ฌธ์ ์ ์ฌ์ฉ๋๋ ๊ฐ๋จํ๊ณ ์ง๊ด์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ด์์ ๊ฐ์ฅ ๊ฐ๊น์ด K๊ฐ์ ์ด์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๊ฑฐ๋ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. K-NN ์๊ณ ๋ฆฌ์ฆ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ด์์ ์๋ก์ด ๋ฐ์ดํฐ ํฌ์ธํธ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์๋ค์ ์ฐพ์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ(Euclidean distance)๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ ํฌ์ธํธ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ๋ค์๊ฒฐ ๋ฐฉ์์ผ๋ก ๋ถ๋ฅ ๋ฌธ์ ์์๋ ๋ค์ ํด๋์ค๋ก ๋ถ๋ฅ๋๊ณ , ํ๊ท ๋ฌธ์ ์์๋ ํ๊ท ๋๋ ๊ฐ์ค ํ๊ท ์ ์ฌ์ฉํ์ฌ ๊ฐ์ ์์ธกํฉ๋๋ค. K-NN ์๊ณ ๋ฆฌ์ฆ์ ๋น๋ชจ์์ ์ด๋ฉฐ, ํ์ต ๋จ๊ณ์์ ๋ชจ๋ธ์ ๊ตฌ์ถํ์ง ์์ต๋๋ค. ๋์ ์ ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง ๋๋ง๋ค ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ์ ์ด์๋ค์ ๊ณ์ฐํ๊ณ ๋ถ๋ฅ ๋๋ ํ๊ท๋ฅผ ์ํํฉ๋๋ค. ์ด๋ฌํ ํน์ฑ์ K-NN์ ๊ฐ๋จํ๊ฒ ๊ตฌํํ๊ณ ์ดํดํ๊ธฐ ์ฝ๊ฒ ๋ง๋ค์ด์ฃผ๋ ์ฅ์ ์ ๋๋ค. K-NN ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ดํฐ๊ฐ ๋ฐ์ง๋ ์ง์ญ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๋ฐ์ดํฐ๊ฐ ํฌ์ํ๊ฑฐ๋ ์ฐจ์์ด ๋์ ๊ฒฝ์ฐ์๋ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค. ๋ํ, ์ด์์ ๊ฐ์(K)๋ฅผ ์ ํํ๋ ๊ฒ์ด ์ค์ํ๋ฐ, ์ ์ ํ K ๊ฐ ์ ํ์ด ์์ธก ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. K-NN ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋จํ๋ฉด์๋ ์ ์ฉํ ์๊ณ ๋ฆฌ์ฆ์ด์ง๋ง, ๋๋์ ๋ฐ์ดํฐ์ ์์๋ ๊ณ์ฐ ๋น์ฉ์ด ํฌ๊ณ ์์ธก ์๋๊ฐ ๋๋ฆด ์ ์์ผ๋ฏ๋ก ๋ฐ์ดํฐ์ ์๊ณผ ํน์ฑ์ ์ ํฉํ ์ฌ์ฉ๋ฒ์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค.
โ
- Learning Rate Decay
Learning Rate Decay(ํ์ต๋ฅ ๊ฐ์)๋ ํ์ต ๊ณผ์ ์์ ์ฌ์ฉ๋๋ ํ์ต๋ฅ (learning rate)์ ์ ์ง์ ์ผ๋ก ๊ฐ์์ํค๋ ๊ธฐ๋ฒ์ ๋๋ค. ํ์ต๋ฅ ์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ ๋ ์ฌ์ฉ๋๋ ์ค์ผ์ผ๋ง ์์๋ก, ์ผ๋ง๋ ํฌ๊ฒ ๊ฐฑ์ ํ ์ง๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ํ์ต๋ฅ ๊ฐ์๋ ์ด๊ธฐ์๋ ํฐ ํ์ต๋ฅ ๋ก ์์ํ์ฌ ์ ์ญ ์ต์ ์ ์ ๋น ๋ฅด๊ฒ ์๋ ดํ๊ณ , ์ดํ์๋ ์์ ํ์ต๋ฅ ๋ก ์กฐ์ ํจ์ผ๋ก์จ ์ ํํ ์ต์ ์ ์ฃผ๋ณ์์ ๋ ์ธ๋ฐํ ์กฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ํ์ต ๊ณผ์ ์์ ์ง๋์ ์ค์ด๊ณ ์๋ ด ์๋๋ฅผ ํฅ์์ํฌ ์ ์์ต๋๋ค. ํ์ต๋ฅ ๊ฐ์ ๋ฐฉ๋ฒ์๋ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก๋ ๋ ๊ฐ์ง ์ฃผ์ ์ ๊ทผ ๋ฐฉ์์ด ์ฌ์ฉ๋ฉ๋๋ค: Step Decay: ํน์ epoch ๋๋ ์ผ์ ๊ฐ๊ฒฉ๋ง๋ค ํ์ต๋ฅ ์ ๊ณ ์ ๋ ๋น์จ๋ก ๊ฐ์์ํค๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋งค 10๋ฒ์งธ epoch๋ง๋ค ํ์ต๋ฅ ์ 0.1๋ฐฐ์ฉ ์ค์ด๋ ๊ฒ์ ๋๋ค. Exponential Decay: ๊ฐ epoch ๋๋ ์ผ์ ๊ฐ๊ฒฉ๋ง๋ค ํ์ต๋ฅ ์ ์ง์ ํจ์ ํํ๋ก ๊ฐ์์ํค๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋งค epoch๋ง๋ค ํ์ต๋ฅ ์ ์ด๊ธฐ ํ์ต๋ฅ ์ ์ง์ ๊ฐ์์จ์ ์ ์ฉํ๋ ๊ฒ์ ๋๋ค. ํ์ต๋ฅ ๊ฐ์๋ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ๋์์ด ๋๋ฉฐ, ํ์ต ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ค๋ฒํผํ (overfitting)์ ์ํ์ ์ค์ผ ์ ์์ต๋๋ค. ํ์ง๋ง ์ ์ ํ ํ์ต๋ฅ ๊ฐ์ ์ค์ผ์ค์ ์ ํํ๋ ๊ฒ์ ์ค์ํ๋ฉฐ, ๋ฌธ์ ์ ๋ฐ๋ผ ์ต์ ์ ๊ฐ์ ๋ฐฉ๋ฒ์ด ๋ฌ๋ผ์ง ์ ์์ต๋๋ค.
โ
22.Linear Separability
Linear Separability(์ ํ ๋ถ๋ฆฌ ๊ฐ๋ฅ์ฑ)์ ๋ค์ฐจ์ ๊ณต๊ฐ์์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ์ ํ ๊ฒฝ๊ณ๋ก ์๋ฒฝํ๊ฒ ๋ถ๋ฅํ ์ ์๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฐ๋ ์ ๋๋ค. ๊ฐ๋จํ ๋งํด, ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ํ๋์ ์ดํ๋ฉด์ผ๋ก ๋๋ ์ ์๋์ง ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๊ฒ์ ๋๋ค. ์ ํ ๋ถ๋ฆฌ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋ ํด๋์ค ๊ฐ์ ๊ฒฝ๊ณ๊ฐ ์ , ํ๋ฉด ๋๋ ์ดํ๋ฉด์ผ๋ก ์์ ํ ๊ตฌ๋ถ๋์ด ๋ถ๋ฅํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ, ์ ํ ๋ถ๋ฅ๊ธฐ(์: ์ ํ ํ๊ท, ๋ก์ง์คํฑ ํ๊ท, ์ํฌํธ ๋ฒกํฐ ๋จธ์ ๋ฑ)๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ํ ๋ถ๋ฆฌ ๊ฐ๋ฅ์ฑ์ด ์๋ ๊ฒฝ์ฐ์๋ ๋น์ ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฌ์ฉํด์ผ ํฉ๋๋ค. ๋น์ ํ ๋ถ๋ฅ๊ธฐ๋ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋งคํํ์ฌ ๋ถ๋ฅ ๊ฒฝ๊ณ๋ฅผ ๋ง๋ค๊ฑฐ๋, ์ปค๋ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋น์ ํ์ ์ผ๋ก ๋ถ๋ฆฌํ ์ ์์ต๋๋ค. ์ ํ ๋ถ๋ฆฌ ๊ฐ๋ฅ์ฑ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์ด ์ ํ ๋ถ๋ฅ์ ์ ํฉํ์ง๋ฅผ ํ๋จํ๋ ๋ฐ ์ฌ์ฉ๋๋ฉฐ, ๋ถ๋ฅ ๋ชจ๋ธ์ ์ ํ๊ณผ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
โ
23.Long Short-Term Memory Networks (LSTMs)
Long Short-Term Memory Networks (LSTMs)๋ ์ํ ์ ๊ฒฝ๋ง(Recurrent Neural Networks, RNN)์ ํ ์ข ๋ฅ๋ก, ์ํ์ค ๋ฐ์ดํฐ์์ ์ฅ๊ธฐ ์์กด์ฑ(Long-term dependencies)์ ํ์ตํ๋ ๋ฐ ํจ๊ณผ์ ์ธ ๊ตฌ์กฐ์ ๋๋ค. LSTM์ ๊ธฐ์กด์ RNN ๊ตฌ์กฐ์์ ๋ฐ์ํ ์ ์๋ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ (vanishing gradient problem)๋ฅผ ์ํํ๊ธฐ ์ํด ๊ณ ์๋์์ต๋๋ค. LSTM์ ๊ฐ ์๊ฐ ๋จ๊ณ์์ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๊ณ ์ ๋ฌํ๋ ๋ฉ๋ชจ๋ฆฌ ์ (memory cell)๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์ ๋ ฅ ๊ฒ์ดํธ(input gate), ์ญ์ ๊ฒ์ดํธ(forget gate), ์ถ๋ ฅ ๊ฒ์ดํธ(output gate)๋ผ๋ ์ธ ๊ฐ์ง ๊ฒ์ดํธ๋ฅผ ํตํด ์ ๋ณด์ ํ๋ฆ์ ์ ์ดํฉ๋๋ค. ์ ๋ ฅ ๊ฒ์ดํธ๋ ํ์ฌ ์๊ฐ ๋จ๊ณ์ ์ ๋ ฅ์ ์ผ๋ง๋ ๋ฐ์ํ ์ง๋ฅผ ๊ฒฐ์ ํ๊ณ , ์ญ์ ๊ฒ์ดํธ๋ ์ด์ ์๊ฐ ๋จ๊ณ์ ๋ฉ๋ชจ๋ฆฌ ์ ์ํ ์ค์์ ์ด๋ค ์ ๋ณด๋ฅผ ์ญ์ ํ ์ง๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ์ถ๋ ฅ ๊ฒ์ดํธ๋ ํ์ฌ ์๊ฐ ๋จ๊ณ์ ์ถ๋ ฅ์ ์ผ๋ง๋ ๋ฐ์ํ ์ง๋ฅผ ๊ฒฐ์ ํ์ฌ ์ต์ข ์์ธก์ ๋ง๋ญ๋๋ค. LSTM์ ์ฅ๊ธฐ ์์กด์ฑ์ ํ์ตํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ด, ์ํ์ค ๋ฐ์ดํฐ์์ ๊ธด ์์กด์ฑ์ ํฌ์ฐฉํ๊ณ ์ด๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ ์์ ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์์ฐ์ด ์ฒ๋ฆฌ, ์์ฑ ์ธ์, ๊ธฐ๊ณ ๋ฒ์ญ ๋ฑ ๋ค์ํ ์์ญ์์ LSTMs๊ฐ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
โ
24.Manifold
Manifold(๋ค์์ฒด)๋ ๊ณต๊ฐ์์ ์ผ๋ฐ์ ์ผ๋ก ๋งํ๋ ํ๋ฉด, ๊ณก๋ฉด ๋๋ ๊ณ ์ฐจ์ ๊ตฌ์กฐ๋ฅผ ์๋ฏธํฉ๋๋ค. ๊ฐ๋จํ ๋งํด, Manifold๋ ๋ฐ์ดํฐ๊ฐ ๋ถํฌํ๋ ๊ณต๊ฐ์ ํํ๋ฅผ ์ค๋ช ํ๋ ์ํ์ ๊ฐ๋ ์ ๋๋ค. ๋ฐ์ดํฐ๋ ์ผ๋ฐ์ ์ผ๋ก ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ํํ๋์ง๋ง, ์ด๋ฌํ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ ์ฒ๋ฆฌํ๊ธฐ๋ ์ด๋ ค์ธ ์ ์์ต๋๋ค. Manifold ๊ฐ๋ ์ ๋ฐ์ดํฐ๊ฐ ์ค์ ๋ก ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ์ ์ฐจ์ Manifold์ ๊ฐ๊น๊ฒ ๋ถํฌ๋์ด ์๋ค๋ ๊ฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ด๋ ๊ฒ ์ ์ฐจ์ Manifold์ ๋ฐ์ดํฐ๋ฅผ ํํํ๋ฉด ๋ฐ์ดํฐ์ ๊ตฌ์กฐ์ ํจํด์ ๋ ์ ์ดํดํ๊ณ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค. Manifold ํ์ต์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์ Manifold๋ก ๋งคํํ๋ ๋ฐฉ๋ฒ์ ์ฐพ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ์ ์ฐจ์ ์ถ์, ์๊ฐํ, ํจํด ์ธ์, ํด๋ฌ์คํฐ๋ง ๋ฑ ๋ค์ํ ์์ ์ ํ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฃผ์ฑ๋ถ ๋ถ์(Principal Component Analysis, PCA)๋ ๋ฐ์ดํฐ์ ์ฃผ์ํ ๋ณ๋์ฑ์ ์ค๋ช ํ๋ Manifold๋ฅผ ์ฐพ๋ ๋ฐ ์ฌ์ฉ๋๋ฉฐ, t-SNE(t-Distributed Stochastic Neighbor Embedding)๋ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์๊ฐํํ๊ธฐ ์ํด Manifold ๋งคํ์ ์ํํฉ๋๋ค. Manifold ๊ฐ๋ ์ ๋ฐ์ดํฐ ๋ถ์๊ณผ ๋จธ์ ๋ฌ๋์์ ์ค์ํ ๊ฐ๋ ์ผ๋ก, ๋ฐ์ดํฐ์ ๋ด์ฌ๋ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ ๋ชจ๋ธ๋งํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
โ
- Max Pooling
Max Pooling์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(Convolutional Neural Networks, CNN)์์ ์ฌ์ฉ๋๋ ํ๋ง(pooling) ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค. ์ฃผ๋ก ์ด๋ฏธ์ง ์ฒ๋ฆฌ์์ ์ฌ์ฉ๋๋ฉฐ, ์ ๋ ฅ ์์์ ๊ณต๊ฐ์ ์ธ ์ฐจ์์ ์ค์ด๊ณ ์ค์ํ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ์ญํ ์ ํฉ๋๋ค. Max Pooling์ ์ ๋ ฅ ์์์ ๊ฒฉ์ ํํ์ ์์ ์์ญ์ผ๋ก ๋ถํ ํ๊ณ , ๊ฐ ์์ญ์์ ๊ฐ์ฅ ํฐ ๊ฐ์ ์ ํํ์ฌ ์ถ๋ ฅ ์์์ ๋์ํ๋ ์์น์ ์ ์ฅํ๋ ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ, ์ ๋ ฅ ์์์ ๊ณต๊ฐ์ ์ธ ํด์๋๋ฅผ ์ค์ด๊ณ ๋ถํ์ํ ์ธ๋ถ ์ ๋ณด๋ฅผ ์ ๊ฑฐํจ์ผ๋ก์จ ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ์ ์ค์ด๊ณ , ํน์ง์ ์์น์ ์๋์ ์ธ ๋ถ๋ณ์ฑ์ ์ ๊ณตํฉ๋๋ค. Max Pooling์ ํน์ง ๋งต(feature map)์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ ์ค์ํ ํน์ง์ ๊ฐ์กฐํ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. ์์ ๋ณํ์ ๋ ๋ฏผ๊ฐํด์ง๋ ํจ๊ณผ๋ก ์ธํด ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ , ๋ชจ๋ธ์ ๊ณผ์ ํฉ(overfitting)์ ๋ฐฉ์งํ๋ ์ญํ ์ ํฉ๋๋ค. ๋ํ, ์๊ฐ์ ์ธ ๋ณํ์ ๋ํ ๋ถ๋ณ์ฑ์ ์ ๊ณตํ์ฌ ๊ฐ์ฒด์ ํฌ๊ธฐ๋ ์์น์ ๋ณํ์ ์๊ด์์ด ๋์ผํ ํน์ง์ ์ถ์ถํ ์ ์๊ฒ ํฉ๋๋ค. Max Pooling์ CNN์ ์ผ๋ฐ์ ์ธ ๊ตฌ์กฐ์์ ์์ฃผ ์ฌ์ฉ๋๋ ์ฐ์ฐ ์ค ํ๋์ด๋ฉฐ, ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ๊ฒ์ถ, ์ด๋ฏธ์ง ๋ถํ ๋ฑ ๋ค์ํ ์ปดํจํฐ ๋น์ ์์ ์์ ์ ์ฉํ๊ฒ ์ ์ฉ๋ฉ๋๋ค.
โ
- Mean Squared Error (MSE)
Mean Squared Error (MSE)๋ ์์ธก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์ค์ฐจ ์ธก์ ์งํ์ ๋๋ค. MSE๋ ์์ธก ๊ฐ๊ณผ ์ค์ ๊ฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๊ณฑํ์ฌ ํ๊ท ํํ ๊ฐ์ ๋๋ค. MSE๋ ๋ค์๊ณผ ๊ฐ์ ๊ณต์์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค: MSE = (1/n) * ฮฃ(y - ลท)^2 ์ฌ๊ธฐ์, n์ ๋ฐ์ดํฐ ํฌ์ธํธ์ ์๋ฅผ ๋ํ๋ด๋ฉฐ, y๋ ์ค์ ๊ฐ, ลท๋ ์์ธก ๊ฐ์ ๋๋ค. MSE๋ ์ค์ ๊ฐ๊ณผ ์์ธก ๊ฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๊ณฑํ์ฌ ํ๊ท ํํ๊ธฐ ๋๋ฌธ์ ์ค์ฐจ์ ํฌ๊ธฐ์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํฉ๋๋ค. MSE๋ ์ค์ฐจ ์ ๊ณฑ์ ํ๊ท ์ ๊ณ์ฐํ๋ฏ๋ก, ์ค์ฐจ๊ฐ ํด์๋ก ๋ ํฐ ๊ฐ์ผ๋ก ํํ๋ฉ๋๋ค. ๋ฐ๋ผ์ MSE๊ฐ ์์์๋ก ์์ธก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํ๋จํ ์ ์์ต๋๋ค. MSE๋ ํ๊ท ๋ฌธ์ ์์ ์์ฃผ ์ฌ์ฉ๋๋ฉฐ, ์์ธก ๊ฐ๊ณผ ์ค์ ๊ฐ ์ฌ์ด์ ํ๊ท ์ ์ธ ์ค์ฐจ๋ฅผ ์ธก์ ํ๋ ๋ฐ ์ ์ฉํฉ๋๋ค. ๊ทธ๋ฌ๋ MSE๋ ์ค์ฐจ ์ ๊ณฑ์ ์ํด ํฐ ์ค์ฐจ์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ์ด์์น(outlier)์ ๋ฏผ๊ฐํ ์ ์์ต๋๋ค. ์ด์์น๊ฐ ์๋ ๊ฒฝ์ฐ ํ๊ท ์ ๊ณฑ ์ค์ฐจ๊ฐ ํฌ๊ฒ ์ฆ๊ฐํ ์ ์์ผ๋ฏ๋ก, ์ด๋ฅผ ๊ฐ์ํ์ฌ ๋ชจ๋ธ์ ํ๊ฐํด์ผ ํฉ๋๋ค.
โ
- Mini-Batch Gradient Descent
Mini-Batch Gradient Descent๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ํ ๋ณ์ข ์ผ๋ก, ํ์ต ๊ณผ์ ์์ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ํ ๋ฒ์ ์ฒ๋ฆฌํ๋ ๋์ , ์์ ๋ฏธ๋ ๋ฐฐ์น(mini-batch)๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋์ด ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. Mini-Batch Gradient Descent๋ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ก ์งํ๋ฉ๋๋ค: ๋ฐ์ดํฐ์ ์ ๋ฏธ๋ ๋ฐฐ์น๋ก ๋๋๋๋ค. ๊ฐ ๋ฏธ๋ ๋ฐฐ์น๋ ์ฌ๋ฌ ๊ฐ์ ๋ฐ์ดํฐ ์ํ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ๋ฏธ๋ ๋ฐฐ์น์ ๋ํด ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ํํฉ๋๋ค. ์ฆ, ๋ฏธ๋ ๋ฐฐ์น์ ์ํ ๋ฐ์ดํฐ ์ํ๋ค์ ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ , ์์ค ํจ์์ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ๋ชจ๋ ๋ฏธ๋ ๋ฐฐ์น์ ๋ํ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ์ ๋ฐ์ดํธ๋ฅผ ์ํํ ํ, ๋ค์ ์ํฌํฌ(epoch)๋ก ๋์ด๊ฐ๋๋ค. ์ํฌํฌ๋ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ํ ๋ฒ ํ์ตํ๋ ๋จ์์ ๋๋ค. Mini-Batch Gradient Descent๋ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ํ ๋ฒ์ ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ๋ณด๋ค ํจ์จ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์์ ๋ฏธ๋ ๋ฐฐ์น๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ฉฐ, ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ์ ์ค์ผ ์ ์์ต๋๋ค. ๋ํ, ๋ฏธ๋ ๋ฐฐ์น์ ์์์ฑ(randomness)์ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค. ๋ฏธ๋ ๋ฐฐ์น์ ํฌ๊ธฐ๋ ์ฌ์ฉ์๊ฐ ์ง์ ํด์ผ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ด๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ์์ญ์์ ์๋ฐฑ ๊ฐ์ ๋ฐ์ดํฐ ์ํ์ ํฌํจํฉ๋๋ค. ๋ฏธ๋ ๋ฐฐ์น์ ํฌ๊ธฐ์ ๋ฐ๋ผ ํ์ต ์๋์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์๋ ด ์๋๊ฐ ๋ฌ๋ผ์ง ์ ์์ผ๋ฏ๋ก, ์ ์ ํ ๋ฏธ๋ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ ํํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
โ
28.Momentum Optimization Algorithm
Momentum Optimization Algorithm์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ํ ๋ณ์ข ์ผ๋ก, ๊ธฐ์ธ๊ธฐ์ ์๋์ ๋ฐฉํฅ์ ๊ณ ๋ คํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์๋ ด ์๋๋ฅผ ๊ฐ์ ํ๊ณ ์ง์ญ ์ต์๊ฐ(local minimum)์์ ๋น ์ ธ๋์ฌ ์ ์๋ ํน์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
Momentum์ ๋ฌผ๋ฆฌํ์์์ ์ฉ์ด๋ก, ๋ฌผ์ฒด๊ฐ ๊ฐ์๋๋ฅผ ์ป์ด์ ๊ด์ฑ์ ๊ฐ์ง๊ณ ์์ง์ด๋ ํ์์ ๋ํ๋ ๋๋ค. Momentum Optimization Algorithm์ ์ด ๊ฐ๋ ์ ๋ชจ๋ธ์ ํ์ต์ ์ ์ฉํ์ฌ ์ด์ ์ ์ ๋ฐ์ดํธ ๋ฐฉํฅ๊ณผ ์๋๋ฅผ ๊ธฐ์ตํ๊ณ ํ์ฉํฉ๋๋ค.
์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ์ด ์งํ๋ฉ๋๋ค:
-
์ด์ ์ ๋ฐ์ดํธ์์์ ๋ชจ๋ฉํ (momentum) ๊ฐ์ ์ ์ฅํฉ๋๋ค. ์ด๊ธฐ์๋ 0 ๋๋ ์์ ๊ฐ์ผ๋ก ์ค์ ๋ฉ๋๋ค.
-
๊ฐ ๊ฐ์ค์น์ ๋ํด ํ์ฌ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
-
๋ชจ๋ฉํ ๊ฐ์ ๊ธฐ๋ฐํ์ฌ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ฅผ ์ํํฉ๋๋ค. ์ด์ ์ ๋ฐ์ดํธ ๋ฐฉํฅ๊ณผ ํ์ฌ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ํฉ์น ๊ฐ์ผ๋ก ์ ๋ฐ์ดํธํฉ๋๋ค.
-
๋ค์ ์ ๋ฐ์ดํธ๋ฅผ ์ํด ๋ชจ๋ฉํ ๊ฐ์ ์ ๋ฐ์ดํธํฉ๋๋ค.
Momentum Optimization Algorithm์ ๊ธฐ์ธ๊ธฐ์ ํฌ๊ธฐ๊ฐ ํฐ ๊ฒฝ์ฐ์๋ ๋ชจ๋ฉํ ๊ฐ์ ํฌ๊ฒ ์ค์ ํ์ฌ ๋น ๋ฅด๊ฒ ์ด๋ํ๊ณ , ๊ธฐ์ธ๊ธฐ์ ํฌ๊ธฐ๊ฐ ์์ ๊ฒฝ์ฐ์๋ ๋ชจ๋ฉํ ๊ฐ์ ์๊ฒ ์ค์ ํ์ฌ ๋ถ๋๋ฝ๊ฒ ์ด๋ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ง์ญ ์ต์๊ฐ์์ ๋น ์ ธ๋์ ๊ธ๋ก๋ฒ ์ต์๊ฐ(global minimum)์ ์ฐพ๋ ๋ฐ ๋์์ ์ค๋๋ค.
Momentum Optimization Algorithm์ ํ์ต ์๋๋ฅผ ํฅ์์ํค๊ณ , ์ง์ญ ์ต์๊ฐ์ ๋น ์ง๋ ๋ฌธ์ ๋ฅผ ์ํํ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. ํนํ, ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ๋ณต์กํ ํจ์๋ฅผ ์ต์ ํํ ๋ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ฉ๋๋ค.
โ
- Monte Carlo Simulation
Monte Carlo Simulation์ ํ๋ฅ ๊ณผ ํต๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์์น ๊ณ์ฐ ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํ๋ฅ ์ ์ธ ์์๊ฐ ํฌํจ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ฑฐ๋, ๋ถํ์ค์ฑ์ ๋ค๋ฃจ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
Monte Carlo Simulation์ ํ๋ฅ ๋ชจํ์ ๊ตฌ์ฑํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์์ ๋์๋ฅผ ์์ฑํ์ฌ ์ฌ๋ฌ ๋ฒ์ ์คํ์ ์ํํฉ๋๋ค. ์ด๋ฅผ ํตํด ์๋ง์ ๊ฐ๋ฅ์ฑ์ ๊ณ ๋ คํ๊ณ , ํต๊ณ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ถ์ ํ๊ฑฐ๋ ์์ธกํ ์ ์์ต๋๋ค.
์ค์ ๋ก Monte Carlo Simulation์ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ผ๋ก ์งํ๋ฉ๋๋ค:
-
๋ฌธ์ ์ ํ๋ฅ ๋ชจํ์ ๊ตฌ์ฑํฉ๋๋ค. ์ด๋ ๋ฌธ์ ์ ํน์ฑ์ ๋ง๊ฒ ๊ฒฐ์ ๋๋ฉฐ, ์ฃผ๋ก ํ๋ฅ ๋ถํฌ๋ ํ๋ฅ ๋ฐ๋ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ํํ๋ฉ๋๋ค.
-
์ ์๋ ํ๋ฅ ๋ชจํ์ ๊ธฐ๋ฐ์ผ๋ก ๋์๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ ๋ฌธ์ ์ ํ๋ฅ ๋ชจํ์ ๋ฐ๋ผ ์ ์ ํ ๋์ ์์ฑ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
-
์์ฑ๋ ๋์๋ฅผ ์ด์ฉํ์ฌ ๋ชจํ์ ๋ํ ์คํ์ ์ํํฉ๋๋ค. ์ด๋ ํ๋ฅ ๋ชจํ์ ์ด์ฉํ์ฌ ํ์ํ ๋ณ์๋ฅผ ๊ฒฐ์ ํ๊ณ , ๋ฌธ์ ์ ๋ํ ์ ์ ํ ๊ณ์ฐ์ ์ํํ๋ ๊ณผ์ ์ ๋๋ค.
-
์คํ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ์ฌ ํต๊ณ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์ต๋๋ค. ์ด๋ฅผ ํตํด ํ๊ท , ๋ถ์ฐ, ์ ๋ขฐ๊ตฌ๊ฐ ๋ฑ์ ์ถ์ ํ๊ฑฐ๋, ๋ฌธ์ ์ ๋ํ ์์ธก์ ์ํํ ์ ์์ต๋๋ค.
Monte Carlo Simulation์ ๋ถํ์ค์ฑ์ด๋ ํ๋ฅ ์ ์ธ ์์๊ฐ ํฌํจ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ์ ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธ์ต ๋ถ์ผ์์๋ ์ฃผ๊ฐ ๋ชจ๋ธ๋ง, ์ต์ ๊ฐ์น ํ๊ฐ ๋ฑ์ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ๋ํ, ๋ฌผ๋ฆฌํ, ๊ณตํ, ์ด์ก ๋ฐ ๋ก์ง ์์คํ ๋ฑ ๋ค์ํ ๋ถ์ผ์์๋ ๋๋ฆฌ ํ์ฉ๋๊ณ ์์ต๋๋ค.
โ
- multi-modal learning
Multi-modal learning์ ๋ค์ํ ์ข ๋ฅ์ ๋ฐ์ดํฐ ๋๋ ๋ชจ๋ฌ๋ฆฌํฐ(modality)๋ก๋ถํฐ ์ง์์ ์ถ์ถํ๊ณ ํตํฉํ์ฌ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ๋ชจ๋ฌ๋ฆฌํฐ๋ ์๋ก ๋ค๋ฅธ ํํ๋ ํน์ฑ์ ๊ฐ์ง ๋ฐ์ดํฐ ์ ํ์ ์๋ฏธํฉ๋๋ค. ์ฃผ๋ก ์๊ฐ์ ์ธ ์ด๋ฏธ์ง, ์์ฑ, ํ ์คํธ ๋ฑ ๋ค์ํ ์ ํ์ ๋ฐ์ดํฐ๊ฐ ๊ฒฐํฉ๋์ด ์ฌ์ฉ๋ฉ๋๋ค.
Multi-modal learning์ ๋จ์ผ ์ ํ์ ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ๋ ๋จ์ผ ๋ชจ๋ฌ๋ฆฌํฐ ํ์ต๊ณผ๋ ๋ฌ๋ฆฌ, ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์์ ์ ๋ณด๋ฅผ ์์งํ๊ณ ์ํธ ์ฐ๊ด์ฑ์ ํ์ฉํ์ฌ ๋ ํ๋ถํ ํํ๊ณผ ์ดํด๋ ฅ์ ๊ฐ๋ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ์ ๋ค์ํ ์ธก๋ฉด์ ๊ณ ๋ คํ๊ณ , ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ์ ์ํธ์์ฉ์ ์ดํดํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
์๋ฅผ ๋ค์ด, ๋์์ ๋ถ์์์๋ ๋น๋์ค ๋ฐ์ดํฐ์ ์์ฑ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ์ฌ ๊ฐ์ฒด ์ธ์, ํ๋ ์ธ์, ๊ฐ์ ๋ถ์ ๋ฑ์ ์ํํ ์ ์์ต๋๋ค. ๋ํ ์์จ ์ฃผํ ์๋์ฐจ์ ๊ฒฝ์ฐ, ๋น๋์ค ๋ฐ์ดํฐ, ๋ผ์ด๋ค ๋ฐ์ดํฐ, ์ผ์ ๋ฐ์ดํฐ ๋ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํ์ฉํ์ฌ ํ๊ฒฝ ์ธ์๊ณผ ์ฃผํ ๊ฒฐ์ ์ ์ํํฉ๋๋ค.
Multi-modal learning์ ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ก๋ถํฐ ์ถ์ถ๋ ํน์ง์ ํตํฉํ๊ฑฐ๋, ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์ํธ์์ฉ์ ๋ชจ๋ธ๋งํ์ฌ ๋ณตํฉ์ ์ธ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค. ์ด๋ ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ํํ๊ณผ ํจํด ์ธ์, ๋ฌธ์ ํด๊ฒฐ์ ๋์์ ์ค ์ ์์ต๋๋ค.
โ
- One-Shot Learning
One-Shot Learning์ ๋งค์ฐ ์ ํ๋ ์์ ํ์ต ์ํ๋ก๋ถํฐ ์๋ก์ด ํด๋์ค๋ฅผ ์ธ์ํ๊ฑฐ๋ ํ์ตํ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ธฐ์กด์ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ง์ ์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง๋ง, One-Shot Learning์ ๋จ ํ ๋ฒ์ ํ์ต ์์ ๋ง์ผ๋ก๋ ์๋ก์ด ํด๋์ค๋ฅผ ํ์ตํ ์ ์์ต๋๋ค.
One-Shot Learning์ ํ์ค์์ ์ฐ๋ฆฌ๊ฐ ์ง๋ฉดํ๋ ์ํฉ๊ณผ ์ ์ฌํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ผ๋ฐ์ ์ผ๋ก ์๋ก์ด ๊ฐ๋ ์ ํ์ตํ ๋ ๋ง์ ์์ ๋ฅผ ํ์๋ก ํ์ง ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ก์ด ์ผ๊ตด์ ๋ณด๊ณ ํด๋น ์ธ๋ฌผ์ ์๋ณํ๋ ๊ฒ์ ์ผ๋ฐ์ ์ผ๋ก ํ ๋ฒ์ ๊ด์ฐฐ๋ง์ผ๋ก ๊ฐ๋ฅํฉ๋๋ค.
One-Shot Learning์ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌํ๋ ์ ์์ต๋๋ค. ์ผ๋ฐ์ ์ธ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ง๋ฅ์ ์ธ ํน์ง ์ถ์ถ๊ณผ ๋น๊ต๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ๋ฏธ๋ฆฌ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ ํ ์คํธ ๋ฐ์ดํฐ์ ํน์ง์ ์ถ์ถํ๊ณ , ์๋ก์ด ์ ๋ ฅ๊ณผ ์ด์ ์ ํ์ต ์ํ ๊ฐ์ ์ ์ฌ์ฑ์ ๋น๊ตํ์ฌ ๋ถ๋ฅ ๋๋ ์ธ์์ ์ํํฉ๋๋ค.
One-Shot Learning์ ํ์ต ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ธ ์ํฉ์์ ์ ์ฉํ๋ฉฐ, ์ธ์ ๋๋ ๋ถ๋ฅ์ ๋ํ ๋น ๋ฅธ ์๋ต์ด ํ์ํ ๊ฒฝ์ฐ์๋ ํ์ฉ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ฃ ์ง๋จ์ด๋ ๋ณด์ ์์คํ ์์ ์๋ก์ด ํด๋์ค์ ์ธ์์ด ํ์ํ ๊ฒฝ์ฐ์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
โ
- Overfitting and Underfitting
Overfitting๊ณผ Underfitting์ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ๋ํด ๊ณผ์ ํฉ(overfitting) ๋๋ ๊ณผ์์ ํฉ(underfitting)๋๋ ํ์์ ๋ํ๋ ๋๋ค.
Overfitting์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ์ง๋์น๊ฒ ๋ง์ถ์ด์ ธ์, ํ์ต ๋ฐ์ดํฐ์์๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง ์๋ก์ด ๋ฐ์ดํฐ๋ ํ ์คํธ ๋ฐ์ดํฐ์์๋ ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒฝ์ฐ์ ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ์ก์์ด๋ ๋ฏธ์ธํ ๋ณ๋์ ๋ํด์๋ ๊ณผ๋ํ๊ฒ ๋ฐ์ํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋จ์ด์ง๊ฒ ๋ฉ๋๋ค.
Underfitting์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ์ ๋๋ก ์ ํฉ๋์ง ๋ชปํ์ฌ, ํ์ต ๋ฐ์ดํฐ์ ํ ์คํธ ๋ฐ์ดํฐ์์ ๋ชจ๋ ์ฑ๋ฅ์ด ๋ฎ์ ๊ฒฝ์ฐ์ ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ํจํด์ ์ถฉ๋ถํ ํ์ ํ์ง ๋ชปํ๊ฑฐ๋, ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ด ๋๋ฌด ๋ฎ์์ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ถฉ๋ถํ ํํํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ์ ๋๋ค.
Overfitting๊ณผ Underfitting์ ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํด์น๋ ๋ฌธ์ ๋ก, ์ด๋ฅผ ์ต์ํํ๊ธฐ ์ํด ์กฐ์ ์ด ํ์ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก Overfitting์ ํด๊ฒฐํ๊ธฐ ์ํด regularization ๊ธฐ๋ฒ์ด๋ ๋ฐ์ดํฐ augmentation, ๋ชจ๋ธ์ ๋ณต์ก์ฑ ์กฐ์ ๋ฑ์ ์ฌ์ฉํฉ๋๋ค. Underfitting์ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ๋์ด๊ฑฐ๋, ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ฆ๊ฐ์์ผ ํด๊ฒฐํ ์ ์์ต๋๋ค.
์ ์ ํ ๋ชจ๋ธ์ ๋ณต์ก์ฑ๊ณผ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๊ณ ๋ คํ์ฌ Overfitting๊ณผ Underfitting์ ์ต์ํํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์๋ ์ผ๋ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ด๊ณ , ์ค์ ๋ฌธ์ ์ ๋ํด ์ ํํ๊ณ ์ ๋ขฐํ ์ ์๋ ์์ธก์ ์ํํ ์ ์์ต๋๋ค.
โ
- Pre-Conditioning
Pre-Conditioning์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ์ ๋ณํํ์ฌ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์๋ ด ์๋๋ฅผ ํฅ์์ํค๊ฑฐ๋ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๋ ์ ํฉํ ํํ๋ก ๊ฐ๊ณตํ๊ฑฐ๋ ์ค์ผ์ผ์ ์กฐ์ ํจ์ผ๋ก์จ, ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด ๋ ์ ์๋ํ๋๋ก ๋๋ ๊ฒ์ด ๋ชฉ์ ์ ๋๋ค.
Pre-Conditioning์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋จ๊ณ์์ ์ํ๋ ์ ์์ผ๋ฉฐ, ๋ค์ํ ๋ฐฉ๋ฒ๊ณผ ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ Pre-Conditioning ๊ธฐ๋ฒ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒ๋ค์ด ์์ต๋๋ค:
-
Feature Scaling: ๋ฐ์ดํฐ์ ํน์ง๋ค์ ๋์ผํ ๋ฒ์๋ก ์ค์ผ์ผ ์กฐ์ ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก Min-Max ์ค์ผ์ผ๋ง์ด๋ ํ์คํ(Z-score normalization)๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ํ์ค ๋ฒ์๋ก ๋ณํํฉ๋๋ค.
-
Feature Transformation: ๋ฐ์ดํฐ์ ํน์ง๋ค์ ์๋ก์ด ํํ๋ก ๋ณํํฉ๋๋ค. ์ฃผ์ฑ๋ถ ๋ถ์(Principal Component Analysis, PCA)์ด๋ ์ ํ ๋๋ ๋น์ ํ ๋ณํ ๋ฑ์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์ํ๊ฑฐ๋ ์๋ก์ด ํํ์ผ๋ก ๋ณํํฉ๋๋ค.
-
๋ฐ์ดํฐ ์ ์ ๋ฐ ์ด์์น ์ฒ๋ฆฌ: ๋ฐ์ดํฐ์์ ๊ฒฐ์ธก์น๋ ์ด์์น๋ฅผ ์ ๊ฑฐํ๊ฑฐ๋ ๋์ฒดํ์ฌ ๋ฐ์ดํฐ์ ํ์ง์ ํฅ์์ํต๋๋ค.
-
๋ฐ์ดํฐ ์ฆ๊ฐ: ๊ธฐ์กด ๋ฐ์ดํฐ๋ฅผ ๋ณํํ๊ฑฐ๋ ํฉ์ฑํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ์ ๋ ๋ค์ํ๊ณ ํ๋ถํ๊ฒ ๋ง๋ญ๋๋ค. ํ์ , ์ด๋, ๋ค์ง๊ธฐ ๋ฑ์ ๋ณํ์ ์ ์ฉํ๊ฑฐ๋ ์์ฑ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค.
Pre-Conditioning์ ๋ฐ์ดํฐ์ ํน์ฑ๊ณผ ๋ฌธ์ ์ ์ฑ๊ฒฉ์ ๋ฐ๋ผ ๋ค์ํ๊ฒ ์ ์ฉ๋ ์ ์์ต๋๋ค. ์ ์ ํ Pre-Conditioning ๊ธฐ๋ฒ์ ์ ํํ๊ณ ์ ์ฉํจ์ผ๋ก์จ, ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์๋ ด ์๋๋ฅผ ํฅ์์ํค๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โ
- Principal Component Analysis (PCA)
์ฃผ์ฑ๋ถ ๋ถ์(Principal Component Analysis, PCA)์ ๋ค์ฐจ์ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์ํ๊ฑฐ๋ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ์ฃผ๋ก ๋ฐ์ดํฐ์ ํน์ง ์ถ์ถ, ์ฐจ์ ์ถ์, ๋ฐ์ดํฐ ์๊ฐํ ๋ฑ์ ์ฌ์ฉ๋ฉ๋๋ค.
PCA๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ค์ํ ๋ณ๋์ฑ์ ์ค๋ช ํ๋ ์ฃผ์ฑ๋ถ์ ์ฐพ์๋ด๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฃผ์ฑ๋ถ์ ๋ฐ์ดํฐ์ ๋ถ์ฐ์ ์ต๋ํํ๋ ์ถ์ผ๋ก ์ ์๋ฉ๋๋ค. ์ฆ, ๊ฐ์ฅ ๋ง์ ์ ๋ณด๋ฅผ ์ ์งํ๋ฉด์ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ค์ด๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.
PCA๋ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ก ์ํ๋ฉ๋๋ค:
-
๋ฐ์ดํฐ์ ์ค์ฌ์ ์์ ์ผ๋ก ์ด๋์ํต๋๋ค.
-
๋ฐ์ดํฐ์ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ๊ณ์ฐํฉ๋๋ค.
-
๊ณต๋ถ์ฐ ํ๋ ฌ์ ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ฅผ ๊ตฌํฉ๋๋ค.
-
๊ณ ์ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ๊ณ ์ ๋ฒกํฐ๋ฅผ ์ ๋ ฌํฉ๋๋ค.
-
์ฃผ์ฑ๋ถ์ ์ ํํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์๋ก์ด ๊ณต๊ฐ์ผ๋ก ๋ณํํฉ๋๋ค.
PCA๋ ๊ฐ์ฅ ํฐ ๊ณ ์ ๊ฐ์ ํด๋นํ๋ ์ฃผ์ฑ๋ถ๋ถํฐ ์์๋๋ก ์ ํํ์ฌ ์ฐจ์์ ์ถ์ํ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ์ถ์๋ ์ฐจ์์ ์๋ ๋ฐ์ดํฐ์ ๋ณ๋์ฑ์ ๊ฐ๋ฅํ ํ ๋ณด์กดํ๋ฉด์๋ ์ฐจ์์ ์ค์ด๋ ํจ๊ณผ๋ฅผ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค.
PCA๋ ์ฐจ์ ์ถ์๋ฅผ ํตํด ๋ฐ์ดํฐ์ ๋ณต์ก์ฑ์ ๊ฐ์์ํค๊ณ , ๋ ธ์ด์ฆ๋ ์๊ด๊ด๊ณ๊ฐ ๋ฎ์ ํน์ฑ๋ค์ ์ ๊ฑฐํ์ฌ ๋ ๊ฐ๊ฒฐํ๊ณ ์ ์๋ฏธํ ๋ฐ์ดํฐ ํํ์ ์ป์ ์ ์์ต๋๋ค. ๋ํ, PCA๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์๊ฐํํ๋ฉด ๋ฐ์ดํฐ ๊ฐ์ ํจํด๊ณผ ๊ด๊ณ๋ฅผ ํ์ ํ ์ ์์ต๋๋ค. PCA๋ ๋ค์ํ ๋ถ์ผ์์ ์ฐจ์ ์ถ์, ํน์ง ์ถ์ถ, ๋ฐ์ดํฐ ์์ถ, ๋ฐ์ดํฐ ์๊ฐํ ๋ฑ์ ํ์ฉ๋๋ ์ ์ฉํ ๋๊ตฌ์ ๋๋ค.
โ
- Radial Basis Function Kernel Neural Network
Radial Basis Function Kernel Neural Network(RBF Kernel NN)์ ์ ๊ฒฝ๋ง๊ณผ Radial Basis Function(RBF) ์ปค๋์ ๊ฒฐํฉํ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ํจํด์ ํ์ตํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
RBF ์ปค๋์ ๋ฐ์ดํฐ ํฌ์ธํธ ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ ํจ์๋ก ์ฌ์ฉ๋ฉ๋๋ค. RBF ์ปค๋์ ๋ฐ์ดํฐ์ ํน์ง ๊ณต๊ฐ์์ ๊ฐ์ฐ์์ ํจ์์ ํํ๋ก ์ ์๋๋ฉฐ, ๋ฐ์ดํฐ ํฌ์ธํธ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฌ๋๋ฅผ ์ธก์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด RBF ์ปค๋์ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์ฐจ์ ํน์ง ๊ณต๊ฐ์ผ๋ก ๋งคํํ์ฌ ๋น์ ํ ํจํด์ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
RBF Kernel NN์ RBF ์ปค๋์ ์ฌ์ฉํ์ฌ ์ ๊ฒฝ๋ง์ ์๋์ธต๊ณผ ์ฐ๊ฒฐ๋ ๊ฐ์ค์น๋ฅผ ํ์ตํฉ๋๋ค. ์๋์ธต์ ๋ด๋ฐ์ RBF ์ปค๋ ํจ์๋ฅผ ์ ์ฉํ์ฌ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ฐ์ค์น ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ถ๋ ฅ์ ๊ฒฐ์ ํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก RBF Kernel NN์ ๋น์ ํ ํจํด์ ๋ชจ๋ธ๋งํ๊ณ , ๋ณต์กํ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
RBF Kernel NN์ ์ฃผ๋ก ๋ถ๋ฅ ๋ฌธ์ ์ ์ฌ์ฉ๋๋ฉฐ, ํนํ ๋น์ ํ์ ์ธ ํด๋์ค ๊ตฌ๋ถ์ด ํ์ํ ๊ฒฝ์ฐ์ ํจ๊ณผ์ ์ ๋๋ค. RBF ์ปค๋์ ํตํด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ๊ณ , ์ ๊ฒฝ๋ง์ ํตํด ์ด๋ฅผ ํ์ตํ์ฌ ๋ฐ์ดํฐ์ ๋น์ ํ ํน์ฑ์ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด RBF Kernel NN์ ๋ค์ํ ๋ถ์ผ์์ ํจํด ์ธ์, ๋ฐ์ดํฐ ๋ง์ด๋, ์์ธก ๋ฑ์ ์์ ์ ํ์ฉ๋ ์ ์์ต๋๋ค.
โ
- Rectified Linear Units (ReLUs)
Rectified Linear Units (ReLUs)์ ์ธ๊ณต์ ๊ฒฝ๋ง์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ํ์ฑํ ํจ์ ์ค ํ๋์ ๋๋ค. ReLU๋ ์ ๋ ฅ ๊ฐ์ด ์์์ธ ๊ฒฝ์ฐ์๋ ๊ทธ ๊ฐ์ ๊ทธ๋๋ก ์ถ๋ ฅํ๊ณ , ์์์ธ ๊ฒฝ์ฐ์๋ 0์ ์ถ๋ ฅํ๋ ํจ์์ ๋๋ค.
ReLU ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: f(x) = max(0, x)
์ฌ๊ธฐ์ x๋ ์ ๋ ฅ ๊ฐ์ด๋ฉฐ, f(x)๋ ์ถ๋ ฅ ๊ฐ์ ๋๋ค. ์ ๋ ฅ ๊ฐ์ด 0๋ณด๋ค ์์ ๊ฒฝ์ฐ ์ถ๋ ฅ์ 0์ด ๋๊ณ , 0๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์ ๊ฒฝ์ฐ์๋ ์ ๋ ฅ ๊ฐ ๊ทธ๋๋ก ์ถ๋ ฅ๋ฉ๋๋ค. ์ด๋ฌํ ํน์ง ๋๋ฌธ์ ReLU๋ ์ ํ ์ฐ์ฐ์ ๊ฐ๋จํ๊ฒ ์ฒ๋ฆฌํ๋ฉฐ, ์ ๊ฒฝ๋ง์ ํ์ต์ ๋น ๋ฅด๊ฒ ์งํํ ์ ์๋ ์ฅ์ ์ด ์์ต๋๋ค.
ReLU์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ๋น์ ํ์ฑ์ ๊ฐ์ง๋ฉด์๋ ๊ณ์ฐ์ด ๊ฐ๋จํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ ๊ฒฝ๋ง์ ๋น์ ํ ํจํด์ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค. ๋ํ, ReLU๋ ๊ฒฝ์ฌ ์์ค ๋ฌธ์ ๋ฅผ ์ํํ ์ ์์ด ์ฌ์ธต ์ ๊ฒฝ๋ง์ ํ์ต์ ์ ๋ฆฌํฉ๋๋ค.
ReLU๋ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ๊ฒ์ถ, ์์ฑ ์ธ์ ๋ฑ ๋ค์ํ ์ธ๊ณต์ง๋ฅ ์์ ์์ ์ฑ๋ฅ์ด ์ ์ฆ๋์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ๋ ฅ ๊ฐ์ด ์์์ธ ๊ฒฝ์ฐ์๋ ๊ทธ๋๋์ธํธ๊ฐ 0์ด ๋์ด ํด๋น ๋ด๋ฐ์ด ํ์ต์ ์ฐธ์ฌํ์ง ์๊ฒ ๋๋ โ์ฃฝ์ ReLUโ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Leaky ReLU, Parametric ReLU ๋ฑ์ ๋ณํ๋ ReLU ํจ์๋ค์ด ์ ์๋๊ธฐ๋ ํฉ๋๋ค.
โ
- Recurrent Neural Networks (RNNs)
Recurrent Neural Networks (RNNs)์ ์์ฐจ์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ์ด์ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ํ ์ข ๋ฅ์ ๋๋ค. RNN์ ์ํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด์ ๋จ๊ณ์ ์ถ๋ ฅ์ ํ์ฌ ๋จ๊ณ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ์๊ฐ์ ์ธ ์์กด์ฑ์ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
RNN์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํจ๊ป ์์ฐจ์ ์ผ๋ก ์๊ฐ ๋จ๊ณ๋ฅผ ๋ฐ๋ผ ์ฒ๋ฆฌ๋ฉ๋๋ค. ๊ฐ ์๊ฐ ๋จ๊ณ์์ RNN์ ํ์ฌ ์ ๋ ฅ๊ณผ ์ด์ ์๊ฐ ๋จ๊ณ์ ์ถ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ์ถ๋ ฅ์ ๊ณ์ฐํฉ๋๋ค. ์ด๋ฌํ ๋ฐ๋ณต ๊ณผ์ ์ ํตํด RNN์ ์ด์ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๊ณ ํ์ฌ ์ ๋ ฅ๊ณผ ๊ฒฐํฉํ์ฌ ๋ค์ ๋จ๊ณ์ ์ถ๋ ฅ์ ์์ธกํฉ๋๋ค.
RNN์ ๋ค์ํ ๋๋ฉ์ธ์์ ์๊ณ์ด ๋ฐ์ดํฐ, ์์ฐ์ด ์ฒ๋ฆฌ, ๊ธฐ๊ณ ๋ฒ์ญ ๋ฑ์ ์ฌ์ฉ๋ฉ๋๋ค. RNN์ ์ฅ์ ์ ์ํ์ค ๋ฐ์ดํฐ์ ๊ธธ์ด์ ๊ด๊ณ์์ด ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฐ๊ด์ฑ์ ํ์ตํ ์ ์๋ค๋ ์ ์ ๋๋ค. ๋ํ, RNN์ ๊ฐ๋ณ์ ์ธ ๊ธธ์ด์ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์์ด ์์ฐ์ด ์ฒ๋ฆฌ์ ๊ฐ์ ์์ ์ ํจ๊ณผ์ ์ ๋๋ค.
๊ทธ๋ฌ๋ RNN์ ์ฅ๊ธฐ ์์กด์ฑ ๋ฌธ์ ๋ฅผ ๊ฐ์ง ์ ์์ต๋๋ค. ๊ธด ์ํ์ค์์๋ ์ด๊ธฐ ์ ๋ณด๊ฐ ๋ฉ๋ฆฌ ๋จ์ด์ง ๋จ๊ณ์์ ์ฌ๋ผ์ง๋ ๊ฒฝํฅ์ด ์์ด ํ์ต์ด ์ด๋ ค์ธ ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LSTM(Long Short-Term Memory)์ด๋ GRU(Gated Recurrent Unit)์ ๊ฐ์ ๋ณํ๋ RNN ์ํคํ ์ฒ๊ฐ ๊ฐ๋ฐ๋์์ต๋๋ค. ์ด๋ฌํ ๋ณํ๋ RNN ์ํคํ ์ฒ๋ ์ฅ๊ธฐ ์์กด์ฑ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ ๊ธด ์ํ์ค์์๋ ์ ๋ณด๋ฅผ ์ ์งํ ์ ์๋๋ก ํฉ๋๋ค.
โ
- Regression
Regression์ ์ฃผ์ด์ง ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐ์์ ์ธ ์ถ๋ ฅ ๊ฐ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ์ง๋ ํ์ต(Supervised Learning) ์๊ณ ๋ฆฌ์ฆ์ ํ ์ข ๋ฅ์ ๋๋ค. Regression์ ์ ๋ ฅ ๋ณ์์ ์ถ๋ ฅ ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๊ณ , ์๋ก์ด ์ ๋ ฅ ๊ฐ์ ๋ํ ์ถ๋ ฅ ๊ฐ์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
Regression์ ์ข ์ ๋ณ์(๋๋ ์ถ๋ ฅ ๋ณ์)์ ํ๋ ์ด์์ ๋ ๋ฆฝ ๋ณ์(๋๋ ์ ๋ ฅ ๋ณ์) ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ฐพ๋ ๋ฌธ์ ์ ๋๋ค. ์ข ์ ๋ณ์๋ ์ฐ์์ ์ธ ์์น ๊ฐ์ด๋ฉฐ, ๋ ๋ฆฝ ๋ณ์๋ ๊ด์ธก๋ ํน์ง์ด๋ ์์ฑ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. Regression ๋ชจ๋ธ์ ์ฃผ์ด์ง ์ ๋ ฅ ๋ณ์์ ํจํด๊ณผ ์ข ์ ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ์ฌ ์๋ก์ด ์ ๋ ฅ ๊ฐ์ ๋ํ ์์ธก ๊ฐ์ ์ ๊ณตํฉ๋๋ค.
Regression์ ์์ธก, ์ถ์ธ ๋ถ์, ํ๊ท ๋ถ์ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฃผํ ๊ฐ๊ฒฉ ์์ธก, ๋งค์ถ ์์ธก, ์ผ์ ๋ฐ์ดํฐ ๋ถ์ ๋ฑ์ ๋ฌธ์ ์ Regression์ ์ฌ์ฉํ ์ ์์ต๋๋ค. Regression ๋ชจ๋ธ์ ์ ๋ ฅ ๋ณ์์ ์ถ๋ ฅ ๋ณ์ ๊ฐ์ ๋ณต์กํ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ผ๋ฉฐ, ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์๋ก์ด ์ ๋ ฅ ๊ฐ์ ์์ธกํ๊ฑฐ๋ ํด๋น ๋ณ์๋ค ๊ฐ์ ์๊ด์ฑ์ ๋ถ์ํ ์ ์์ต๋๋ค.
โ
- Regularization Techniques
Regularization Techniques์ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๊ณผ์ ํฉ(Overfitting)์ ๋ฐฉ์งํ๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ๋ค์ ๋ชจ์์ ๋๋ค. ๊ณผ์ ํฉ์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ์ง๋์น๊ฒ ๋ง์ถ์ด์ ธ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ์ด ์ ํ๋๋ ํ์์ ์๋ฏธํฉ๋๋ค. Regularization Techniques์ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ ์ดํ๊ณ ๊ฐ์ค์น๋ฅผ ์ ํํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ Regularization Techniques์๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒ๋ค์ด ์์ต๋๋ค:
-
L1 Regularization (Lasso): ๋ชจ๋ธ์ ์์ค ํจ์์ ๊ฐ์ค์น์ ์ ๋๊ฐ์ ๋ํ ํจ๋ํฐ๋ฅผ ์ถ๊ฐํ์ฌ ํน์ ๊ฐ์ค์น๋ค์ 0์ผ๋ก ๋ง๋ค์ด ๋ณ์ ์ ํ(Feature Selection)์ ์ํํฉ๋๋ค.
-
L2 Regularization (Ridge): ๋ชจ๋ธ์ ์์ค ํจ์์ ๊ฐ์ค์น์ ์ ๊ณฑ์ ๋ํ ํจ๋ํฐ๋ฅผ ์ถ๊ฐํ์ฌ ๊ฐ์ค์น ๊ฐ์ด ์์์ง๋๋ก ์ ์ดํ์ฌ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ค์ ๋๋ค.
-
Dropout: ํ์ต ์ค์ ๋๋คํ๊ฒ ์ผ๋ถ ๋ด๋ฐ์ ์ ๊ฑฐํ์ฌ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค. ์ด๋ฅผ ํตํด ์ฌ๋ฌ ๊ฐ์ ๋ถ๋ถ ๋ชจ๋ธ๋ค์ ์์๋ธํ๊ณ , ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ์ ์์ต๋๋ค.
-
Early Stopping: ํ์ต ๊ณผ์ ์ค์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ฑ๋ฅ์ด ๊ฐ์ ๋์ง ์์ ๋ ํ์ต์ ์กฐ๊ธฐ์ ์ข ๋ฃํ์ฌ ๊ณผ์ ํฉ์ ๋ฐฉ์งํฉ๋๋ค.
์ด ์ธ์๋ ๋ชจ๋ธ ๋ณต์ก๋๋ฅผ ์ ์ดํ๊ธฐ ์ํด ๊ฐ์ค์น ๊ฐ์(Weight Decay), ๋ฐฐ์น ์ ๊ทํ(Batch Normalization) ๋ฑ์ Regularization Techniques์ด ํ์ฉ๋ ์ ์์ต๋๋ค. Regularization Techniques์ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์์ธก๋ ฅ์ ๊ฐ์ ํ์ฌ ๋ ์์ ์ ์ด๊ณ ์ ๋ขฐํ ์ ์๋ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
โ
โ
โ
- Restricted/Deep Bolzman Machine
Restricted Boltzmann Machine (RBM)์ ํ๋ฅ ์ ์ธ ๊ทธ๋ํฝ ๋ชจ๋ธ ์ค ํ๋๋ก, ๋น์ง๋ํ์ต(Unsupervised Learning)์ ์ํด ์ฌ์ฉ๋๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ํ ์ข ๋ฅ์ ๋๋ค. RBM์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํ๋ฅ ์ ์ธ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๊ณ , ๋ฐ์ดํฐ์ ํน์ง์ ์ถ์ถํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
RBM์ visible layer์ hidden layer๋ก ๊ตฌ์ฑ๋ ์๋ฐฉํฅ ๊ทธ๋ํ ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. Visible layer๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ํ๋ด๊ณ , hidden layer๋ ๋ฐ์ดํฐ์ ์ถ์ํ๋ ํน์ง์ ํํํฉ๋๋ค. RBM์ visible layer์ hidden layer ์ฌ์ด์ ์ฐ๊ฒฐ ๊ฐ์ค์น๋ฅผ ๊ฐ๊ณ ์์ผ๋ฉฐ, ์ด ๊ฐ์ค์น๋ฅผ ํตํด ํ๋ฅ ์ ์ธ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํฉ๋๋ค.
RBM์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํ ํ๋ฅ ๋ชจ๋ธ์ ํ์ตํจ์ผ๋ก์จ ๋ฐ์ดํฐ์ ํน์ง์ ์ถ์ถํฉ๋๋ค. ํ์ต ๊ณผ์ ์์ RBM์ ์ ๋ ฅ ๋ฐ์ดํฐ์ hidden layer์ ํ์ฑํ ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ค์น๋ฅผ ๊ฐฑ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด RBM์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํน์ง์ ํํํ๋ ์ต์ ์ ๊ฐ์ค์น๋ฅผ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
Deep Boltzmann Machine (DBM)์ RBM์ ์ฌ๋ฌ ์ธต์ผ๋ก ์์ ์ฌ๋ฆฐ ์ฌ์ธต ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ๋๋ค. DBM์ ์ฌ๋ฌ ๊ฐ์ RBM์ ์์ ์ฌ๋ฆผ์ผ๋ก์จ ๋ ๋ณต์กํ ๋ฐ์ดํฐ ํํ์ ํ์ตํ ์ ์์ต๋๋ค. ๊ฐ ์ธต์ RBM์ ์ด์ ์ธต์ hidden layer๋ฅผ ๋ค์ ์ธต์ visible layer๋ก ์ฌ์ฉํ์ฌ ์์ ์ฌ๋ ค์ง ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค.
RBM๊ณผ DBM์ ์ฃผ๋ก ์ฐจ์ ์ถ์, ํน์ง ์ถ์ถ, ์์ฑ ๋ชจ๋ธ๋ง ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋ฉ๋๋ค. ํนํ, DBM์ ๋น์ง๋ํ์ต์ ๊ธฐ๋ฐํ ๋ฅ๋ฌ๋์ ์ด๊ธฐ ๋ชจ๋ธ ์ค ํ๋๋ก์จ, ์ด๋ฏธ์ง, ์์ฑ ๋ฑ ๋ค์ํ ์ ํ์ ๋ฐ์ดํฐ์์ ์๋ฏธ ์๋ ํํ์ ํ์ตํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
โ
- Sigmoid/Tanh Activation Function
Sigmoid ํจ์์ Tanh ํจ์๋ ์ธ๊ณต์ ๊ฒฝ๋ง์์ ์ฌ์ฉ๋๋ ํ์ฑํ ํจ์(Activation Function) ์ค ์ผ๋ถ์ ๋๋ค.
Sigmoid ํจ์๋ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํด 0๊ณผ 1 ์ฌ์ด์ ์ฐ์์ ์ธ ์ถ๋ ฅ ๊ฐ์ ๋ฐํํฉ๋๋ค. ์์์ ์ผ๋ก ํํํ๋ฉด f(x) = 1 / (1 + exp(-x))์ ๋๋ค. Sigmoid ํจ์๋ ์ ๋ ฅ์ ๋ํ ์ถ๋ ฅ์ ํ๋ฅ ์ฒ๋ผ ํด์ํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ์ด์ฉํ์ฌ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์ ํ๋ฅ ๊ฐ์ ๊ณ์ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ Sigmoid ํจ์๋ ์ ๋ ฅ๊ฐ์ด ํฌ๊ฑฐ๋ ์์ ๋ ๊ทธ๋๋์ธํธ ์์ค(Vanishing Gradient) ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๊ณ , ์ถ๋ ฅ๊ฐ์ ์ค์ฌ์ด 0์ ๊ฐ๊น์์ง์ผ๋ก์จ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์๋ ด ์๋๊ฐ ๋๋ ค์ง ์ ์๋ ๋จ์ ์ด ์์ต๋๋ค.
Tanh ํจ์๋ -1๊ณผ 1 ์ฌ์ด์ ์ฐ์์ ์ธ ์ถ๋ ฅ ๊ฐ์ ๋ฐํํฉ๋๋ค. ์์์ ์ผ๋ก ํํํ๋ฉด f(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x))์ ๋๋ค. Tanh ํจ์๋ Sigmoid ํจ์์ ์ ์ฌํ์ง๋ง, ์ถ๋ ฅ ๋ฒ์๊ฐ -1๊ณผ 1๋ก ํ์ฅ๋์ด ์์ต๋๋ค. ์ด๋ก ์ธํด Tanh ํจ์๋ ์ ๋ ฅ๊ฐ์ด 0 ๊ทผ์ฒ์ผ ๋ ๋ ๋ง์ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ Tanh ํจ์๋ ์ ๋ ฅ๊ฐ์ด ํฌ๊ฑฐ๋ ์์ ๋ ๊ทธ๋๋์ธํธ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
Sigmoid ํจ์์ Tanh ํจ์๋ ์ฃผ๋ก ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์ ์ถ๋ ฅ์ธต์ ํ์ฑํ ํจ์๋ก ์ฌ์ฉ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ฅ๋ฌ๋์์๋ ReLU(Recitified Linear Unit)์ ๊ฐ์ ๋ค๋ฅธ ํ์ฑํ ํจ์๊ฐ ๋ ๋ง์ด ์ฌ์ฉ๋๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ReLU๋ ๊ณ์ฐ์ด ๊ฐ๋จํ๊ณ , ๊ทธ๋๋์ธํธ ์์ค ๋ฌธ์ ๋ฅผ ์ํ์ํฌ ์ ์๋ ์ฅ์ ์ด ์์ด ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
โ
- Softmax Activation Function
Softmax ํจ์๋ ์ธ๊ณต์ ๊ฒฝ๋ง์์ ๋ค์ค ํด๋์ค ๋ถ๋ฅ ๋ฌธ์ ์์ ์ถ๋ ฅ์ธต์ ํ์ฑํ ํจ์๋ก ์ฌ์ฉ๋๋ ํจ์์ ๋๋ค. Softmax ํจ์๋ ์ฃผ์ด์ง ์ ๋ ฅ ๋ฒกํฐ์ ๋ํด ๊ฐ ํด๋์ค์ ์ํ ํ๋ฅ ์ ๋ฐํํฉ๋๋ค.
Softmax ํจ์๋ ์ ๋ ฅ ๋ฒกํฐ์ ์์๋ค์ ์ ๊ทํํ์ฌ ์ถ๋ ฅ๊ฐ์ ๊ณ์ฐํฉ๋๋ค. ์์์ ์ผ๋ก ํํํ๋ฉด, ์ฃผ์ด์ง ์ ๋ ฅ ๋ฒกํฐ x = [x1, x2, โฆ, xn]์ ๋ํด Softmax ํจ์์ ์ถ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค:
softmax(x) = [exp(x1) / (exp(x1) + exp(x2) + โฆ + exp(xn)), exp(x2) / (exp(x1) + exp(x2) + โฆ + exp(xn)), โฆ, exp(xn) / (exp(x1) + exp(x2) + โฆ + exp(xn))]
Softmax ํจ์๋ ์ ๋ ฅ ๋ฒกํฐ์ ๊ฐ ์์๋ฅผ ์ง์ ํจ์๋ก ๋ณํํ ๋ค, ๋ณํ๋ ๊ฐ๋ค์ ํฉ์ผ๋ก ๊ฐ ์์๋ฅผ ๋๋์ด ์ ๊ทํํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ถ๋ ฅ ๋ฒกํฐ์ ์์๋ค์ 0๊ณผ 1 ์ฌ์ด์ ํ๋ฅ ๊ฐ์ด ๋๋ฉฐ, ๋ชจ๋ ์์์ ํฉ์ 1์ด ๋ฉ๋๋ค. ์ด๋ฌํ ํน์ฑ์ผ๋ก Softmax ํจ์๋ ๋ค์ค ํด๋์ค ๋ถ๋ฅ ๋ฌธ์ ์์ ๊ฐ ํด๋์ค์ ์ํ ํ๋ฅ ์ ํํํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
Softmax ํจ์๋ ํฐ ์ ๋ ฅ๊ฐ์ ๋ํด ์ง์ ํจ์๋ฅผ ๊ณ์ฐํ๋ฏ๋ก ์์น์ ์ธ ์์ ์ฑ์ ์ฃผ์ํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ ๋ ฅ๊ฐ์์ ์ต๋๊ฐ์ ๋นผ์ฃผ์ด ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด Softmax ํจ์์ ์ถ๋ ฅ๊ฐ์ ๋ณํ์ง ์์ผ๋ฉด์ ์์น์ ์ธ ์์ ์ฑ์ ํ๋ณดํ ์ ์์ต๋๋ค.
Softmax ํจ์๋ ๋ถ๋ฅ ๋ฌธ์ ์์ ํ๋ฅ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ์ฌ์ฉ๋๋ฉฐ, ํญ์ ํ๋์ ํด๋์ค์ ๋ํด์๋ง ํ๋ฅ ์ ์ธ ์ ํ์ ํ๊ฒ ๋ฉ๋๋ค. ๋ค๋ฅธ ํด๋์ค๋ค์ ๋ํ ํ๋ฅ ๊ฐ์ด ๋ฎ์์ง๋ ํน์ฑ์ ๊ฐ์ง๋ฏ๋ก, ๋ค์ค ํด๋์ค ๋ถ๋ฅ ๋ฌธ์ ์์ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ํด๋์ค๋ฅผ ์ ํํ๋ ๋ฐ ํ์ฉ๋ฉ๋๋ค.
โ
- Sparse Regularization
Sparse Regularization์ ๋จธ์ ๋ฌ๋์์ ์ฌ์ฉ๋๋ ์ ๊ทํ(regularization) ๊ธฐ๋ฒ ์ค ํ๋๋ก, ๋ชจ๋ธ์ ๊ฐ์ค์น(weight) ๋๋ ๊ณ์(coefficient)์ ํฌ์์ฑ(sparcity)์ ๋ถ์ฌํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
ํฌ์์ฑ์ ๋ชจ๋ธ์ ๊ฐ์ค์น ๋๋ ๊ณ์ ์ค ์ผ๋ถ๊ฐ 0์ธ ๊ฒ์ ์๋ฏธํฉ๋๋ค. Sparse Regularization์ ์ด๋ฌํ ํฌ์์ฑ์ ๊ฐํ์ํค๋ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ํฌ์์ฑ์ ๋ถ์ฌํ๋ ์ด์ ๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ ๊ณ์ ์ค ์ผ๋ถ๊ฐ 0์ด๋ฉด ํด๋น ๋ณ์๊ฐ ๋ชจ๋ธ์ ์ํฅ์ ๊ฑฐ์ ๋ฏธ์น์ง ์๋๋ค๋ ์๋ฏธ์ ๋๋ค. ๋ฐ๋ผ์, ํฌ์์ฑ์ ๋์ด๋ ๊ฒ์ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ค์ด๊ณ , ๋ถํ์ํ ๋ณ์์ ์ํฅ์ ์ค์ด๋ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋ฉฐ, ๋ชจ๋ธ์ ํด์๋ ฅ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
Sparse Regularization์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ L1 Regularization์ด ์์ต๋๋ค. L1 Regularization์ ๊ฐ์ค์น ๋๋ ๊ณ์์ ์ ๋๊ฐ์ ํจ๋ํฐ๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ด๋ก ์ธํด ์ผ๋ถ ๊ฐ์ค์น๋ ๊ณ์๊ฐ 0์ด ๋๋ ํจ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค. L1 Regularization์ Lasso Regression ๋ฑ์์ ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ์ผ๋ก, ๋ณ์ ์ ํ๊ณผ ๋ณ์ ์ค์๋ ์ถ์ ๋ฑ์ ํ์ฉ๋ฉ๋๋ค.
Sparse Regularization์ ๋ณ์ ์ ํ, ํน์ง ์ ํ, ์ฐจ์ ์ถ์ ๋ฑ ๋ค์ํ ๋ฌธ์ ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ๋ฐ์ดํฐ๊ฐ ํฌ์ํ ๊ฒฝ์ฐ๋ ๋ณ์์ ๊ฐ์๊ฐ ๋ง์ ๊ฒฝ์ฐ์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ์ ์์ผ๋ฉฐ, ๋ถํ์ํ ๋ณ์๋ฅผ ์ ๊ฑฐํ๊ฑฐ๋ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ค์ด๋ ๋ฐ ๋์์ ์ค๋๋ค.
โ
- Stochastic Gradient Descent (SGD)
Stochastic Gradient Descent (SGD)๋ ๊ธฐ๊ณ ํ์ต ์๊ณ ๋ฆฌ์ฆ์์ ์ฌ์ฉ๋๋ ์ต์ ํ ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค. ์ผ๋ฐ์ ์ธ Gradient Descent์ ๋น๊ตํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ ์์ ๋ฏธ๋ ๋ฐฐ์น(mini-batch) ๋จ์๋ก ์ฌ์ฉํ์ฌ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ํํ๋ ๋ฐฉ์์ ๋๋ค.
SGD๋ ๋งค ๋ฐ๋ณต๋ง๋ค ์ ์ฒด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ ๋ฐ๋ณต์์ ๋ฏธ๋ ๋ฐฐ์น์ ์ํ๋ ๋ฐ์ดํฐ ์ํ๋ค์ ๋ํ ์์ค ํจ์์ ๊ทธ๋๋์ธํธ(gradient)๋ฅผ ๊ณ์ฐํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด๋ ๊ณ์ฐ ๋น์ฉ์ ํฌ๊ฒ ์ค์ฌ์ค์ผ๋ก์จ ํ์ต ์๋๋ฅผ ํฅ์์ํฌ ์ ์์ต๋๋ค.
SGD๋ ๋ฏธ๋ ๋ฐฐ์น๋ง๋ค ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๊ธฐ ๋๋ฌธ์ ์์ค ํจ์์ ๊ทธ๋๋์ธํธ ๊ณ์ฐ์ด ๋น ๋ฅด๋ฉฐ, ํฐ ๋ฐ์ดํฐ์ ์์๋ ํจ์จ์ ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋ฌ๋ SGD๋ ๋ฏธ๋ ๋ฐฐ์น์ ์ ํ์ ์ํด ํ๋ จ ๊ณผ์ ์ด ๋ ธ์ด์ฆ๋ฅผ ๊ฐ์ง ์ ์๊ณ , ์ด์ ๋ฐ๋ผ ์๋ ด ์๋๊ฐ ์กฐ๊ธ ๋ ๋ถ์์ ํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ถ์์ ์ฑ์ ์ํํ๊ธฐ ์ํด ํ์ต๋ฅ (learning rate)์ ์กฐ์ ํ๊ฑฐ๋ ๋ชจ๋ฉํ (Momentum)๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ๋์ ํ๊ธฐ๋ ํฉ๋๋ค.
SGD๋ ๋ฅ๋ฌ๋์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ณผ ๋ณต์กํ ๋ชจ๋ธ์์๋ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉ๋ฉ๋๋ค. ๋ํ, SGD๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ค์ํ ๋ณํ ์๊ณ ๋ฆฌ์ฆ๋ค๋ ๊ฐ๋ฐ๋์์ผ๋ฉฐ, ์ด๋ค์ SGD์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํ๊ณ ์์ต๋๋ค.
โ
- Tensor
Tensor(ํ ์)๋ ๋ค์ฐจ์ ๋ฐฐ์ด๋ก์จ ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ์๋ฃ๊ตฌ์กฐ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ค์นผ๋ผ(0์ฐจ์ ํ ์), ๋ฒกํฐ(1์ฐจ์ ํ ์), ํ๋ ฌ(2์ฐจ์ ํ ์)์ ๋น๋กฏํ์ฌ ๊ณ ์ฐจ์์ ๋ค์ฐจ์ ๋ฐฐ์ด์ ํ ์๋ก ํํํ ์ ์์ต๋๋ค.
ํ ์๋ ์ํ์ ์ผ๋ก ๋ค์ฐจ์ ๊ณต๊ฐ์์ ๋ฒกํฐ์ ๋งค์ฐ ์ ์ฌํ ๊ฐ๋ ์ ๋๋ค. ๊ฐ ์ฐจ์์ ํ ์์ ์ถ(axis)์ด๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ฉฐ, ํ ์์ ์์(element)๋ ํด๋น ์ถ์ ๋ํ ์ธ๋ฑ์ค๋ก ์ ๊ทผํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, 2์ฐจ์ ํ ์(ํ๋ ฌ)์ ๊ฒฝ์ฐ ํ๊ณผ ์ด์ ๋ํ ์ธ๋ฑ์ค๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ์์์ ์ ๊ทผํ ์ ์์ต๋๋ค.
ํ ์๋ ๋ค์ํ ๋ถ์ผ์์ ๋ฐ์ดํฐ๋ฅผ ํํํ๊ณ ์ฒ๋ฆฌํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ํนํ, ์ธ๊ณต ์ ๊ฒฝ๋ง๊ณผ ๋ฅ๋ฌ๋์์๋ ์ ๋ ฅ ๋ฐ์ดํฐ, ๊ฐ์ค์น(weight), ํธํฅ(bias), ๊ทธ๋ผ๋์ธํธ(gradient) ๋ฑ์ ํ ์๋ก ํํํ์ฌ ์ฐ์ฐ ๋ฐ ํ์ต์ ์ํํฉ๋๋ค. ๋ํ, ์ปดํจํฐ ๋น์ , ์์ฐ์ด ์ฒ๋ฆฌ, ์์ฑ ์ธ์ ๋ฑ์ ๋ถ์ผ์์ ์ด๋ฏธ์ง, ํ ์คํธ, ์ค๋์ค ๋ฐ์ดํฐ๋ฅผ ํ ์๋ก ํํํ์ฌ ์ฒ๋ฆฌํฉ๋๋ค.
ํ ์๋ ๋ค์ฐจ์ ๋ฐฐ์ด์ด๋ฏ๋ก ๋ค์ํ ์ฐจ์๊ณผ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง ์ ์์ผ๋ฉฐ, ๊ฐ ์์๋ ์ซ์, ๋ฌธ์, ๋ ผ๋ฆฌ ๊ฐ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ํ์ ์ผ๋ก ๊ตฌ์ฑ๋ ์ ์์ต๋๋ค. ํ ์๋ ๋ฐ์ดํฐ ๋ถ์๊ณผ ๋จธ์ ๋ฌ๋์์ ์ค์ํ ๊ฐ๋ ์ด๋ฉฐ, ๋ง์ ํ๋ก๊ทธ๋๋ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํ๋ ์์ํฌ์์ ํ ์๋ฅผ ๋ค๋ฃจ๋ ๊ธฐ๋ฅ์ ์ ๊ณตํ๊ณ ์์ต๋๋ค.
โ
- Transfer Learning Techniques
Transfer Learning์ ๋จธ์ ๋ฌ๋๊ณผ ๋ฅ๋ฌ๋์์ ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ์ผ๋ก, ํ ๋๋ฉ์ธ์์ ํ์ตํ ๋ชจ๋ธ์ ์ง์๊ณผ ํน์ฑ์ ๋ค๋ฅธ ๋๋ฉ์ธ์ ๋ฌธ์ ์ ์ ์ฉํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๊ธฐ์กด์ ํ์ต๋ ๋ชจ๋ธ์ ์ผ๋ถ ๋๋ ์ ์ฒด๋ฅผ ์๋ก์ด ๋ฌธ์ ์ ์ฌ์ฌ์ฉํ์ฌ ํ์ต ์๊ฐ๊ณผ ๋ฐ์ดํฐ ์์ ์ ์ฝํ๊ณ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
Transfer Learning์ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ๋ค๋ก ๊ตฌํ๋ ์ ์์ต๋๋ค:
-
Pretrained Model์ ํ์ฉ: ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ๊ฐ์ง, ์์ฐ์ด ์ฒ๋ฆฌ ๋ฑ ๋ค์ํ ์์ ์ ๋ํด ์ฌ์ ์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ๋ํ์ ์ธ ์๋ก๋ ImageNet ๋ฐ์ดํฐ์ ์์ ์ฌ์ ์ ํ์ต๋ CNN (Convolutional Neural Network) ๋ชจ๋ธ์ ๊ฐ์ ธ์ ์๋ก์ด ์์ ์ ์ ์ฉํ๋ ๊ฒ์ด ์์ต๋๋ค.
-
Feature Extraction: ์ฌ์ ์ ํ์ต๋ ๋ชจ๋ธ์์ ํน์ฑ ์ถ์ถ์ ์ํด ์์ ๋ ์ด์ด๋ฅผ ์ ์ธํ ํ์ ๋ ์ด์ด๋ฅผ ๊ณ ์ ์ํค๊ณ , ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ํตํด ํด๋น ๋ ์ด์ด์ ์ถ๋ ฅ์ ์ถ์ถํฉ๋๋ค. ์ด๋ฌํ ํน์ฑ ์ถ์ถ๊ธฐ๋ ์๋ก์ด ์์ ์ ์ํด ์๋ก์ด ๋ถ๋ฅ๊ธฐ์ ํจ๊ป ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
-
Fine-tuning: ์ฌ์ ์ ํ์ต๋ ๋ชจ๋ธ์ ์ผ๋ถ ์์ ๋ ์ด์ด๋ฅผ ์๋ก์ด ์์ ์ ๋ง๊ฒ ์ฌํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ํ์ ๋ ์ด์ด๋ ๊ณ ์ ์ํค๊ณ , ์์ ๋ ์ด์ด๋ฅผ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ง๊ฒ ์ ๋ฐ์ดํธํ์ฌ ์๋ก์ด ์์ ์ ๋ ์ ์ ์ํ๋๋ก ํฉ๋๋ค.
Transfer Learning์ ์ ์ ๋ฐ์ดํฐ๋ก๋ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๊ณ , ํ์ต ์๊ฐ์ ๋จ์ถ์ํฌ ์ ์์ด ์ค์ ์์ฉ์์ ๋ง์ด ์ฌ์ฉ๋ฉ๋๋ค. ๋ํ, ์ฌ์ ์ ํ์ต๋ ๋ชจ๋ธ์ ๋ค์ํ ๋ฐ์ดํฐ์ ๊ณผ ์์ ์ ๊ฑธ์ณ ๊ด๋ฒ์ํ๊ฒ ํ์ฉํ ์ ์์ด, ๋ค์ํ ๋ถ์ผ์์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ฉ๋๋ค.
โ
- Unsupervised Learning
Unsupervised Learning(๋น์ง๋ ํ์ต)์ ๊ธฐ๊ณ ํ์ต์ ํ ๋ถ์ผ๋ก, ๋ ์ด๋ธ์ด ์ง์ ๋์ง ์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ฌํ ํ์ต ๋ฐฉ์์์๋ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ๋ด๋ถ ๊ตฌ์กฐ๋ ํจํด์ ์ค์ค๋ก ๋ฐ๊ฒฌํ๊ณ ํ์ตํฉ๋๋ค.
๋น์ง๋ ํ์ต์ ์ฃผ์ด์ง ์ ๋ ฅ ๋ฐ์ดํฐ์์ ํน์ง์ด๋ ๊ตฌ์กฐ๋ฅผ ์ถ์ถํ๊ฑฐ๋ ๋ฐ์ดํฐ๋ฅผ ๊ตฐ์งํ(cluster)ํ๋ ๋ฑ์ ์์ ์ ์ฌ์ฉ๋ฉ๋๋ค. ๋ํ์ ์ธ ๋น์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒ๋ค์ด ์์ต๋๋ค:
-
๊ตฐ์งํ(Clustering): ๋น์ทํ ํน์ฑ์ ๊ฐ์ง๋ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ฃนํํ๋ ์์ ์ผ๋ก, ๋ฐ์ดํฐ์ ๋ด๋ถ ํจํด์ ๋ฐ๊ฒฌํฉ๋๋ค. K-means ํด๋ฌ์คํฐ๋ง, ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง ๋ฑ์ด ์์ต๋๋ค.
-
์ฐจ์ ์ถ์(Dimensionality Reduction): ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ผ๋ก ์์ถํ๋ ์์ ์ผ๋ก, ๋ฐ์ดํฐ์ ์ค์ํ ํน์ฑ์ ์ถ์ถํฉ๋๋ค. ์ฃผ์ฑ๋ถ ๋ถ์(PCA), ์๊ธฐ ์กฐ์งํ ์ง๋(SOM), t-SNE ๋ฑ์ด ์์ต๋๋ค.
-
๋ฐ๋ ์ถ์ (Density Estimation): ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ถ์ ํฉ๋๋ค. ๊ฐ์ฐ์์ ํผํฉ ๋ชจ๋ธ(GMM), ์ปค๋ ๋ฐ๋ ์ถ์ (KDE) ๋ฑ์ด ์์ต๋๋ค.
๋น์ง๋ ํ์ต์ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ์ ํจํด์ ํ์ ํ๊ณ ์ดํดํ๋ ๋ฐ์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ๋ํ, ์ ์ฒ๋ฆฌ ๋จ๊ณ์์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋์ด ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ํน์ง์ ์ถ์ถํ๋ ๋ฐ์๋ ํ์ฉ๋ฉ๋๋ค.
โ
- Vanishing/Exploding Gradient Problem
Vanishing/Exploding Gradient Problem(๊ธฐ์ธ๊ธฐ ์์ค/ํญ๋ฐ ๋ฌธ์ )์ ์ ๊ฒฝ๋ง ํ์ต์์ ๋ฐ์ํ ์ ์๋ ๋ฌธ์ ๋ก, ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ ๊ฒฝ๋ง์ ํ์ตํ ๋ ๊ธฐ์ธ๊ธฐ ๊ฐ์ด ์ง๋์น๊ฒ ์์์ง๊ฑฐ๋ ์ปค์ง๋ ํ์์ ๋งํฉ๋๋ค.
๊ธฐ์ธ๊ธฐ๋ ์ญ์ ํ ๊ณผ์ ์์ ์ด์ ๋ ์ด์ด๋ก ์ ๋ฌ๋๋๋ฐ, ์ด๋ ๊ฐ์ค์น ํ๋ ฌ๊ณผ ํ์ฑํ ํจ์์ ๋ํจ์๋ฅผ ๊ณฑํ๊ฒ ๋ฉ๋๋ค. ๋ง์ฝ ํ์ฑํ ํจ์์ ๋ํจ์๊ฐ 1๋ณด๋ค ์์ ๊ฐ์ธ ๊ฒฝ์ฐ, ์ญ์ ํ๋๋ ๊ธฐ์ธ๊ธฐ๋ ์ด์ ๋ ์ด์ด๋ก ์ ๋ฌ๋ ๋ ์ง์์ ์ผ๋ก ๊ฐ์ํ๋ฉฐ ์๋ฉธํ ์ ์์ต๋๋ค. ์ด๋ฅผ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ผ๊ณ ํฉ๋๋ค.
๋ฐ๋๋ก, ํ์ฑํ ํจ์์ ๋ํจ์๊ฐ 1๋ณด๋ค ํฐ ๊ฐ์ธ ๊ฒฝ์ฐ, ๊ธฐ์ธ๊ธฐ๋ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ์ฌ ์ด์ ๋ ์ด์ด๋ก ์ ๋ฌ๋ ๋ ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐํ ์ ์์ต๋๋ค. ์ด๋ฅผ ๊ธฐ์ธ๊ธฐ ํญ๋ฐ ๋ฌธ์ ๋ผ๊ณ ํฉ๋๋ค.
๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ฉด, ํ์ ๋ ์ด์ด์ ๊ฐ์ค์น๊ฐ ๊ฑฐ์ ์ ๋ฐ์ดํธ๋์ง ์๊ณ ํ์ต์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด, ๊ธฐ์ธ๊ธฐ ํญ๋ฐ ๋ฌธ์ ๋ ์์น ๊ณ์ฐ ์ค๋ฒํ๋ก์ฐ๋ก ์ธํด ๋ชจ๋ธ์ด ๋ถ์์ ํด์ง๊ณ ๋ฐ์ฐํ ์ ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์๋๋ฐ, ๊ทธ ์ค ์ผ๋ถ๋ ํ์ฑํ ํจ์์ ์ ํ, ๊ฐ์ค์น ์ด๊ธฐํ ๋ฐฉ๋ฒ, ๊ทธ๋ ๋์ธํธ ํด๋ฆฌํ, ์ ๊ทํ ๋ฑ์ ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๊ธฐ์ธ๊ธฐ์ ์์ ์ ์ธ ์ ๋ฌ์ ๋ณด์ฅํ๊ณ ์ ๊ฒฝ๋ง ํ์ต์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โ
- Variational Autoencoders (VAEs)
โ
Variational Autoencoders (VAEs)๋ ์์ฑ ๋ชจ๋ธ์ ํ ์ข ๋ฅ๋ก, ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค. VAE๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ ์ธ ๋ถํฌ๋ฅผ ํ์ตํ๊ณ , ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ฑฐ๋ ๋ฐ์ดํฐ์ ํน์ฑ์ ์กฐ์ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
VAE๋ ๊ธฐ๋ณธ์ ์ผ๋ก Autoencoder ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. Autoencoder๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์ธ์ฝ๋ฉํ ๋ค์, ๋์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๊ตฌ์ฑํ๋ ๊ตฌ์กฐ์ ๋๋ค. ํ์ง๋ง VAE๋ ์ผ๋ฐ์ ์ธ Autoencoder์ ๋ฌ๋ฆฌ ์ ์ฌ ๊ณต๊ฐ์ ๋ํ ํ๋ฅ ์ ์ธ ๋ชจ๋ธ๋ง์ ์ํํฉ๋๋ค.
VAE์์ ์ ์ฌ ๊ณต๊ฐ์ ๋ณดํต ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ํ๋ฅ ๋ณ์๋ก ๋ชจ๋ธ๋ง๋ฉ๋๋ค. ์ธ์ฝ๋๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ด ํ๋ฅ ๋ณ์์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ํ๋ผ๋ฏธํฐ๋ก ๋ณํํฉ๋๋ค. ์ด๋ ๊ฒ ์ป์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ ์ฌ ๊ณต๊ฐ์์์ ์ํ๋ง ๊ณผ์ ์์ ์ฌ์ฉ๋ฉ๋๋ค.
ํ์ต ๊ณผ์ ์์ VAE๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์ธ์ฝ๋ฉํ์ฌ ์ํ๋ง์ ์ํํ๊ณ , ๋์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๊ตฌ์ฑ์ ์์ฑํฉ๋๋ค. ์ด๋, ์ ์ฌ ๊ณต๊ฐ์์์ ์ํ๋ง์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ธฐ๋ฐํ์ฌ ํ๋ฅ ์ ์ผ๋ก ์ํ๋๋ฉฐ, ์ ์ฌ ๊ณต๊ฐ์์์ ์ํ๋ง๊ณผ ๋์ฝ๋๋ฅผ ํตํ ์ฌ๊ตฌ์ฑ ๊ณผ์ ์ ํตํด ์๋ณธ ๋ฐ์ดํฐ์ ์ฌ๊ตฌ์ฑ ๋ฐ์ดํฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋ฉ๋๋ค.
VAE๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ ์ธ ๊ตฌ์กฐ๋ฅผ ํ์ตํ๊ณ , ์ด๋ฅผ ํ์ฉํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ฑฐ๋ ๊ธฐ์กด ๋ฐ์ดํฐ์ ํน์ฑ์ ์กฐ์ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ํ, ์ ์ฌ ๊ณต๊ฐ์ ๊ตฌ์กฐ๋ฅผ ํตํด ๋ฐ์ดํฐ์ ํน์ฑ์ ์กฐ์ํ๊ฑฐ๋ ๋ณด๊ฐํ๋ ๋ฑ์ ๋ค์ํ ์์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
โ
- Word Embeddings
Word Embeddings(๋จ์ด ์๋ฒ ๋ฉ)์ ์์ฐ์ด ์ฒ๋ฆฌ์์ ๋จ์ด๋ฅผ ์์น์ ์ผ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ ๋จ์ด๋ฅผ ๋ฐ์ง๋ ๊ณต๊ฐ์ ๋งคํํ์ฌ ์๋ฏธ์ ์ธ ์ ์ฌ์ฑ์ ๋ณด์กดํ๊ณ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ ์ ์๋๋ก ๋์์ค๋๋ค.
๊ธฐ์กด์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ๋จ์ด๋ฅผ ํฌ์ ๋ฒกํฐ๋ก ํํํ๋ One-hot Encoding์ ์ฌ์ฉํ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋จ์ด๋ง๋ค ๊ณ ์ ํ ์ธ๋ฑ์ค๋ฅผ ๋ถ์ฌํ๊ณ , ํด๋นํ๋ ์ธ๋ฑ์ค ์์น์๋ง 1์ ๊ฐ์ง๋ ๋ฒกํฐ๋ก ํํํฉ๋๋ค. ํ์ง๋ง ์ด๋ฌํ ํํ์ ๋จ์ด ๊ฐ์ ์ ์ฌ์ฑ์ ํฌ์ฐฉํ๊ธฐ ์ด๋ ต๊ณ , ๋ฒกํฐ์ ์ฐจ์์ด ๋จ์ด ์งํฉ์ ํฌ๊ธฐ์ ๋น๋กํ์ฌ ๋งค์ฐ ํฌ๊ณ ํฌ์ํ ํน์ง์ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค.
๋ฐ๋ฉด, Word Embeddings์ ๋จ์ด๋ฅผ ์ ์ฐจ์์ ์ค์ ๋ฒกํฐ๋ก ํํํฉ๋๋ค. ์ด๋ฌํ ๋ฒกํฐ๋ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ๊ณ , ์๋ฏธ์ ์ธ ์ ์ฌ์ฑ์ ๊ฐ์ง๋ฉฐ, ๋จ์ด ๊ฐ์ ์ฐ์ฐ์ด ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ฒ ๋ฉ๋๋ค. Word Embeddings๋ ๋๊ท๋ชจ ํ ์คํธ ์ฝํผ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ํด ์์ฑ๋ฉ๋๋ค. ๋ํ์ ์ธ Word Embeddings ๋ชจ๋ธ๋ก๋ Word2Vec, GloVe, FastText ๋ฑ์ด ์์ต๋๋ค.
Word Embeddings์ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์ ํ์ฉ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌธ์ ๋ถ๋ฅ, ๊ฐ์ฒด๋ช ์ธ์, ๊ฐ์ฑ ๋ถ์ ๋ฑ์ ์์ ์์ ์ ๋ ฅ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ์ฌ ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ฑฐ๋, ๋จ์ด ๊ฐ์ ์ ์ฌ์ฑ์ ๊ณ์ฐํ์ฌ ์ ์ฌ ๋จ์ด๋ฅผ ์ฐพ๋ ๋ฑ์ ํ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค. Word Embeddings์ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ํํํ๊ณ , ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ๋์์ ์ค๋๋ค.