๊ฐ ๊ฐœ๋…์˜ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ์ œ ๋ธ”๋กœ๊ทธ์—๋„ ๋‚˜์™€์žˆ์Šต๋‹ˆ๋‹ค. Computer Vision ์œ„์ฃผ๋กœ.. ์ด๋ฏธ์ง€ ์„ผ์‹ฑ ์œ„์ฃผ๋กœ ์„ค๋ช…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

Chat GPT์™€ MIT์˜ Goodfellow๋‹˜์˜ ์ฑ…๋“ค์„ ์ฐธ์กฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ œ๊ฐ€ ๋Œ€ํ•™์›์—์„œ ์ด ์ฑ…์œผ๋กœ ๊ณต๋ถ€ํ–ˆ๊ฑฐ๋“ ์š”.

https://www.deeplearningbook.org

โ€‹

์ด๋Ÿฐ๊ฑฐ ๋‹ค ์•Œ๋ฉด์„œ, ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฐ๊ฒŒ ์—„์ฒญ๋‚˜๊ฒŒ ์‹ฌํ™”์ ์ธ ๋‚ด์šฉ์€ ์•„๋‹˜์—๋„ ๊ตณ์ด๊ตณ์ด ์ •๋ฆฌํ•˜๋Š” ์ด์œ ๋Š”,

์ œ๊ฐ€ ์ฒ˜์Œ์— ๊ณต๋ถ€ ํ•  ๋•Œ ์–ด๋ ค์› ๊ณ , ์•ž์œผ๋กœ๋„ ํ•„์š”ํ•œ ์‚ฌ๋žŒ๋“ค์ด ์žˆ์„ ๊ฒƒ ๊ฐ™์•„์„œ์š”.

์ด 50๊ฐ€์ง€ ๊ฐœ๋…์— ๋Œ€ํ•ด ๊ฐ ์˜ˆ์ œ๋Š” ๊ฒ€์ƒ‰์—”์ง„์— โ€œPytorch codeโ€์™€ โ€œmatlab codeโ€๋กœ ๊ฒ€์ƒ‰ํ•˜์‹œ๋ฉด ์‰ฝ๊ฒŒ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

๊ทธ๋ฆฌ๊ณ , 50๊ฐ€์ง€ ๊ฐœ๋…๋“ค์€ ์•„์ฃผ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ธ๊ณต์ง€๋Šฅ ๊ด€๋ จ ๋Œ€ํ™”๋ฅผ ์œ„ํ•œ 50๊ฐ€์ง€ ์šฉ์–ด์ง‘์ด๋ผ๊ณ  ์ดํ•ดํ•˜์‹œ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ด ์šฉ์–ด์ง‘์„ ๋‹ค ์ตํžˆ๋ฉด,

์ธ๊ณต์ง€๋Šฅ ๊ด€๋ จ ์ „๊ณต ์„๋ฐ•์‚ฌ๋“ค์ด๋ž‘ ๋Œ€ํ™”๋‚˜ ๊ด€๋ จ ์ปจํผ๋Ÿฐ์Šค์—์„œ ์„ธ๋ฏธ๋‚˜ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ๋ฌธ์ œ ์—†์„๊ฒ๋‹ˆ๋‹ค.

โ€‹

์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Adversarial Training (์ ๋Œ€์  ํ›ˆ๋ จ)

Adversarial training์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์ด๊ฑธ ์•Œ์•„๋ณด๊ธฐ ์ „์—, ์™œ ํ•ด์•ผ ํ•˜๋Š”์ง€ ์•Œ๋ ค๋ฉด,

Adversarial attack์— ๋Œ€ํ•ด ์•Œ๋ฉด ๋” ์‰ฝ์Šต๋‹ˆ๋‹ค.

โ€‹

Adversarial example๋Š” ์ž‘์€ ๋ณ€ํ™”๋กœ๋„ ๋ชจ๋ธ์˜ ์ž˜๋ชป๋œ ๋ถ„๋ฅ˜๋ฅผ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์ด์šฉํ•œ Adversarial training์€ ๋ชจ๋ธ์ด ์ž˜๋ชป ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ €ํ•ญ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.

โ€‹

์š”์ฆ˜ ์•„์ดํฐ์ด๋‚˜ ๊ฐค๋Ÿญ์‹œ ํฐ๋“ค์€ ์–ผ๊ตด์ธ์‹ / ์ง€๋ฌธ์ธ์‹ ๋“ฑ์œผ๋กœ ์ž ๊ธˆ์„ ํ•ด์ œํ•ฉ๋‹ˆ๋‹ค. ์–ผ๊ตด์ด๋‚˜ ์†์ด ๋ถ“๊ฑฐ๋‚˜, ๊ฐ๋„๊ฐ€ ์‚ด์ง ๋ณ€ํ•˜๊ฑฐ๋‚˜, ์–ผ๊ตด์— ํŠธ๋Ÿฌ๋ธ”์ด ์ƒ๊ฒจ๋„ ์ž˜ ์ธ์‹ํ•ด์ฃผ์ฃ .

๊ณ ์–‘์ด ์–ผ๊ตด์„ ๋ณด์—ฌ์ฃผ๋ฉด ์ธ์‹์„ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

๊ทผ๋ฐ ํ•ด์ปค๊ฐ€ ์ด ๋ชจ๋ธ์„ 100% ์ดํ•ดํ–ˆ์„ ๋•Œ, ๊ฐ ํ”ฝ์…€๋งˆ๋‹ค weight๊ฐ’์„ ๊ณ„์‚ฐํ•˜๋ฉด..

๊ณ ์–‘์ด ์–ผ๊ตด์— ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์ด๋Ÿฐ ์ž ๊ธˆ์„ ํ•ด์ œ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋Š”๊ฒƒ์ด์ฃ .

โ€‹

์•„๋ž˜๋Š” ๊ณ ์–‘์ด ์‚ฌ์ง„์— ๋…ธ์ด์ฆˆ ํ”ฝ์…€์„ ์ถ”๊ฐ€ํ•˜์—ฌ, AI๊ฐ€ ๊ณ ์–‘์ด๋ฅผ ํ† ์Šคํ„ฐ๊ธฐ๋กœ ์ž˜๋ชป ์ธ์‹ํ•˜๊ฒŒ ๋งŒ๋“  ์‚ฌ์ง„์ž…๋‹ˆ๋‹ค.

b1

์ด๋Ÿฐ๊ฑธ ์•…์šฉํ•˜๋ฉด,

์–ด๋–ป๊ฒŒ ATM๊ธฐ๋ฅผ ๊ฐ€์งœ ๋ˆ์œผ๋กœ ์ง„์งœ ๋ˆ์œผ๋กœ ์†์ผ ์ˆ˜ ์žˆ์„์ง€?

์–ด๋–ป๊ฒŒ ์ž๋™์ฐจ ์‹ ํ˜ธ์œ„๋ฐ˜์„ ํ•˜๋ฉด์„œ, ๋‚ด ๋ฒˆํ˜ธํŒ์„ ๋‹ค๋ฅธ ๋ฒˆํ˜ธํŒ์œผ๋กœ ์†์ผ ์ˆ˜ ์žˆ์„์ง€?

๋‚˜์ค‘์— ํŒ์‚ฌ๊ฐ€ AI๋กœ ๋ฐ”๋€๋‹ค๋ฉด, ํŒ์‚ฌ์—๊ฒŒ ์–ด๋–ป๊ฒŒ ์ž˜๋ชป๋œ ํŒ๊ฒฐ์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ์„์ง€? ์ด๋Ÿฐ ๊ฒƒ๋“ค์ด์ฃ .

โ€‹

์ด๋Ÿฐ๊ฒƒ๋“ค ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์„ ๋งŒ๋“ค ๋•Œ ์ผ๋ถ€๋Ÿฌ ํŠธ๋ ˆ์ด๋‹์„ธํŠธ์— ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•ด์„œ ๋ชจ๋ธ์„ ์ข€ ๋” ์ €ํ•ญ์„ฑ์„ ๋†’์ด๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ด€๋ จ ๋…ผ๋ฌธ :

[1602.02697] Practical Black-Box Attacks against Machine Learning

  1. Autoencoder

Autoencoder๋Š” ์ž…๋ ฅ์„ ์••์ถ•ํ•˜์—ฌ ์ž ์žฌ ํ‘œํ˜„์œผ๋กœ ์ธ์ฝ”๋”ฉํ•œ ํ›„, ์ด๋ฅผ ๋‹ค์‹œ ๋ณต์›ํ•˜์—ฌ ์›๋ณธ ์ž…๋ ฅ๊ณผ์˜ ์žฌ๊ตฌ์„ฑ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋„๋ก ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด Autoencoder๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , ์žก์Œ์ด๋‚˜ ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฑธ๋Ÿฌ๋‚ด๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์˜คํ† ์ธ์ฝ”๋”(Autoencoder)๋Š” ์•„๋ž˜์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ์ž…๋ ฅ์„ ์••์ถ•ํ•˜๊ณ , ์ถœ๋ ฅ์œผ๋กœ ์ „ํŒŒํ•˜๋Š” ๋‹ค์ค‘ ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค.

๋””์ง€ํ„ธ ํšŒ๋กœ์˜ ๊ฐ„๋‹จํ•œ ์ธ์ฝ”๋”/๋””์ฝ”๋”๊ฐ€ ์•„๋‹Œ, ๋„คํŠธ์›Œํฌ์— ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ constraint๋ฅผ ์ค˜์„œ ์˜คํ† ์ธ์ฝ”๋”๋ฅผ ๋งŒ๋“ค์–ด์ฃผ๊ณ , ์ด ์˜คํ† ์ธ์ฝ”๋”๋Š” ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ถ•์†Œํ•˜๊ฑฐ๋‚˜, ์ค‘์š” ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ฑฐ๋‚˜,๋…ธ์ด์ฆˆ๋ฅผ ๊ฑธ๋Ÿฌ๋‚ด๊ฑฐ๋‚˜ ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์ถœ๋ ฅ ํ‘œํ˜„์„ ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ์‚ฌ์šฉ ๋ชฉ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

โ€‹

  1. Back propagation

Propagation ๋‹จ๊ณ„์—์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก๊ฐ’์„ ๊ณ„์‚ฐํ•˜๊ณ ,

Back-Propagation ๋‹จ๊ณ„์—์„œ ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’ ์‚ฌ์ด์˜ ์˜ค์ฐจ๋ฅผ ์—ญ์œผ๋กœ ์ „ํŒŒํ•˜์—ฌ ๊ฐ ๊ฐ€์ค‘์น˜์˜ ๊ธฐ์—ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š”๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

  1. RBM๊ณผ Energy Function RBM

RBM (Restricted Boltzmann Machine)์€ ๋น„์ง€๋„ ํ•™์Šต์„ ์œ„ํ•œ ํ™•๋ฅ ์  ์ƒ์„ฑ ๋ชจ๋ธ๋กœ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ ์  ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ์ธ๊ณต ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. RBM์€ ์ž…๋ ฅ์ธต๊ณผ ์€๋‹‰์ธต์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ฐ ๋…ธ๋“œ๋Š” ์ด์ง„๊ฐ’์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ž…๋ ฅ์ธต๊ณผ ์€๋‹‰์ธต ์‚ฌ์ด์˜ ์—ฐ๊ฒฐ์€ ์–‘๋ฐฉํ–ฅ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด RBM์€ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ํ•™์Šตํ•˜๊ณ  ์ž ์žฌ์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. RBM์€ ๋…ธ๋“œ์˜ ํ™œ์„ฑํ™” ์ƒํƒœ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ํ™•๋ฅ ์ ์ธ ์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. RBM์€ ์ฐจ์› ์ถ•์†Œ, ํŠน์ง• ์ถ”์ถœ, ์žก์Œ ์ œ๊ฑฐ ๋“ฑ์— ์“ฐ์ž…๋‹ˆ๋‹ค.

โ€‹

โ€‹

  1. BPTT

BPTT (Backpropagation Through Time)๋Š” ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง (Recurrent Neural Network, RNN)์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. RNN์€ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ์— ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, BPTT๋Š” RNN์—์„œ ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ์—ญ์ „ํŒŒ๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. BPTT๋Š” RNN์˜ ์ˆœ์ „ํŒŒ ๋‹จ๊ณ„์—์„œ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ , ์—ญ์ „ํŒŒ ๋‹จ๊ณ„์—์„œ ์‹œ๊ฐ„์˜ ์—ญ์ˆœ์œผ๋กœ ์˜ค์ฐจ๋ฅผ ์ „ํŒŒํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ์˜ ์˜ค์ฐจ ๊ธฐ์—ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. BPTT๋Š” RNN์—์„œ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์˜ ์˜์กด ๊ด€๊ณ„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” ์ค‘์š”ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

โ€‹

  1. Convolution and Pooling

Convolution๊ณผ Pooling์€ ์ปจ๋ณผ๋ฃจ์…˜ ์‹ ๊ฒฝ๋ง (Convolutional Neural Network, CNN)์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ฃผ์š”ํ•œ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. Convolution์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ํ•„ํ„ฐ ๋˜๋Š” ์ปค๋„์„ ์ ์šฉํ•˜์—ฌ ํŠน์ง• ๋งต(feature map)์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์—์„œ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•„ํ„ฐ๋Š” ์ž‘์€ ํฌ๊ธฐ์˜ ์œˆ๋„์šฐ์ฒ˜๋Ÿผ ์›€์ง์ด๋ฉด์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€์˜ ํ•ฉ์„ฑ๊ณฑ์„ ๊ณ„์‚ฐํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Convolution์€ ์ด๋ฏธ์ง€์˜ ๊ณต๊ฐ„์ ์ธ ํŠน์ง•์„ ๊ฐ์ง€ํ•˜๊ณ  ์ถ”์ถœํ•˜๋Š” ๋ฐ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. Pooling์€ Convolutional Layer์˜ ์ถœ๋ ฅ์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๋ฉด์„œ ๊ณต๊ฐ„์ ์ธ ์ฐจ์›์„ ์ค„์ด๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ Max Pooling์ด ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋ฉฐ, ์ž‘์€ ์œˆ๋„์šฐ ๋‚ด์—์„œ ์ตœ๋Œ€๊ฐ’์„ ์„ ํƒํ•˜์—ฌ ํŠน์ง• ๋งต์„ ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํŠน์ง•์˜ ์œ„์น˜์— ์ƒ๋Œ€์ ์ธ ๋ถˆ๋ณ€์„ฑ์„ ๋ถ€์—ฌํ•˜๊ณ , ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๋Š” ํšจ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Convolution๊ณผ Pooling์€ CNN์˜ ํ•ต์‹ฌ ์š”์†Œ๋กœ, ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์™€ ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์— ์ฃผ๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. Convolution์€ ํŠน์ง• ์ถ”์ถœ์„ ๋‹ด๋‹นํ•˜๊ณ , Pooling์€ ๊ณต๊ฐ„์ ์ธ ์ฐจ์› ์ถ•์†Œ์™€ ๋ถˆ๋ณ€์„ฑ์„ ์ œ๊ณตํ•˜๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

7.Convolutional Neural Networks

Convolutional Neural Networks (CNNs)๋Š” ์ฃผ๋กœ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ ์ด๋ฏธ์ง€ ์ธ์‹, ๊ฐ์ฒด ๊ฒ€์ถœ, ์ด๋ฏธ์ง€ ๋ถ„ํ•  ๋“ฑ์˜ ์ž‘์—…์— ์‚ฌ์šฉ๋˜๋Š” ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. CNN์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ๊ณผ ํ’€๋ง ์—ฐ์‚ฐ์„ ํ†ตํ•ด ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ถ„๋ฅ˜๋‚˜ ํšŒ๊ท€์™€ ๊ฐ™์€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. CNN์€ ์ฃผ๋กœ Convolutional Layer, Pooling Layer, Fully Connected Layer๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. Convolutional Layer์—์„œ๋Š” ํ•„ํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์˜ ๊ณต๊ฐ„์ ์ธ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. Pooling Layer์—์„œ๋Š” ํŠน์ง• ๋งต์˜ ๊ณต๊ฐ„์ ์ธ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ  ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค. Fully Connected Layer์—์„œ๋Š” ์ถ”์ถœ๋œ ํŠน์ง•์„ ๋ฐ”ํƒ•์œผ๋กœ ์ตœ์ข… ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•˜๊ณ , ๋ถ„๋ฅ˜๋‚˜ ํšŒ๊ท€ ๋“ฑ์˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. CNN์€ ํŠนํžˆ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์— ์ ํ•ฉํ•œ ๊ตฌ์กฐ๋กœ, ์ง€์—ญ์ ์ธ ํŒจํ„ด ์ธ์‹๊ณผ ๊ณต๊ฐ„์ ์ธ ๊ตฌ์กฐ๋ฅผ ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ, ๋”ฅ๋Ÿฌ๋‹ ๋ถ„์•ผ์—์„œ ๊ฐ€์žฅ ํ•ต์‹ฌ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.

โ€‹

8.Cross Entropy

Cross Entropy๋Š” ์ •๋ณด ์ด๋ก ๊ณผ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœํ•˜๋Š” ์†์‹ค ํ•จ์ˆ˜์˜ ํ•˜๋‚˜๋กœ, ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ฃผ๋กœ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. Cross Entropy๋Š” ์˜ˆ์ธก๊ฐ’์˜ ํ™•๋ฅ  ๋ถ„ํฌ์™€ ์‹ค์ œ๊ฐ’์˜ ํ™•๋ฅ  ๋ถ„ํฌ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•˜๋Š”๋ฐ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ์ธก๊ฐ’์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋Š” ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ์–ป์–ด์ง„ ํ™•๋ฅ ๊ฐ’์ด๋ฉฐ, ์‹ค์ œ๊ฐ’์€ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ๋œ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. Cross Entropy๋Š” ๋‘ ๋ถ„ํฌ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•˜์—ฌ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. Cross Entropy๋Š” ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ฑฐ๋‚˜, ๋ชจ๋ธ์˜ ํ•™์Šต์„ ์ง€๋„ํ•˜๋Š” ์†์‹ค ํ•จ์ˆ˜๋กœ ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋†’์€ Cross Entropy ๊ฐ’์€ ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’ ๊ฐ„์˜ ๋ถˆ์ผ์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๋‚ฎ์€ Cross Entropy ๊ฐ’์€ ์ข‹์€ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ Cross Entropy๋Š” ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ํ•™์Šต๊ณผ ํ‰๊ฐ€์— ์ค‘์š”ํ•œ ์ง€ํ‘œ๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Curse of Dimensionality

Curse of Dimensionality(์ฐจ์›์˜ ์ €์ฃผ)๋Š” ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ํ•™์Šต์ด ์–ด๋ ค์›Œ์ง€๋Š” ํ˜„์ƒ์„ ๊ฐ€๋ฆฌํ‚ต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์ด ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€์–ด์ง€๊ณ , ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ ๋ฐ ํŒจํ„ด์„ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ค์›Œ์ง€๋Š” ๋ฌธ์ œ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ฐจ์›์ด ์ฆ๊ฐ€ํ•˜๋ฉด ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์˜ ์ˆ˜๋„ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋ฉฐ, ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋„ ๋ฉ€์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์†Œํ•ด์ง€๊ณ , ์ƒ˜ํ”Œ์˜ ๋ฐ€๋„๊ฐ€ ๊ฐ์†Œํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ๋Š” ๊ฑฐ๋ฆฌ ๊ฐœ๋…์ด ์™œ๊ณก๋˜์–ด ์œ ์‚ฌ์„ฑ์„ ์ œ๋Œ€๋กœ ์ธก์ •ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. Curse of Dimensionality๋กœ ์ธํ•ด ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ๋ถ„์„๊ณผ ํ•™์Šต์—๋Š” ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ๋งŽ์•„์•ผ ํ•˜๋ฉฐ, ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ• ๋“ฑ์˜ ์ „์ฒ˜๋ฆฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ๋Š” ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์ด ์ฆ๊ฐ€ํ•˜๊ณ , ๊ณผ์ ํ•ฉ์˜ ์œ„ํ—˜๋„ ์ปค์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ฐจ์›์˜ ์ €์ฃผ๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ ์ ˆํžˆ ์„ ํƒํ•˜๊ฑฐ๋‚˜, ์ฐจ์› ์ถ•์†Œ ๋ฐ ํŠน์„ฑ ์„ ํƒ ๋“ฑ์˜ ๋ฐฉ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. DAE/CAE

DAE (Denoising Autoencoder)์™€ CAE (Contractive Autoencoder)๋Š” Autoencoder์˜ ๋ณ€ํ˜•๋œ ํ˜•ํƒœ๋กœ, ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ํ•™์Šตํ•˜๊ณ  ์žก์Œ ์ œ๊ฑฐ ๋˜๋Š” ํŠน์ง• ์ถ”์ถœ์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. DAE๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ์ผ๋ถ€ ์žก์Œ์„ ๋„์ž…ํ•˜์—ฌ ์ด๋ฅผ ์›๋ž˜ ๋ฐ์ดํ„ฐ๋กœ ๋ณต์›ํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์žก์Œ์ด ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์›ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด DAE๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์žก์Œ์„ ์ œ๊ฑฐํ•˜๊ณ , ๋” ๊น”๋”ํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์Šต๋‹ˆ๋‹ค. DAE๋Š” ๋ฐ์ดํ„ฐ ์žก์Œ ์ œ๊ฑฐ, ๋ฐ์ดํ„ฐ ์••์ถ• ๋ฐ ์žฌ๊ตฌ์„ฑ, ํŠน์ง• ์ถ”์ถœ ๋“ฑ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. CAE๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋ฉด์„œ ์ค‘์š”ํ•œ ํŠน์ง•์„ ๋ณด์กดํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜๋Š” Autoencoder์ž…๋‹ˆ๋‹ค. CAE๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์˜ ํ‘œํ˜„์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๊ณ , ๋‹ค์‹œ ๋””์ฝ”๋”ฉํ•˜์—ฌ ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ํŠน์ง•์„ ๋ณด์กดํ•˜๊ธฐ ์œ„ํ•ด ์••์ถ•๋œ ํ‘œํ˜„์— ์ œ์•ฝ ์กฐ๊ฑด์„ ๋ถ€์—ฌํ•˜์—ฌ ํ•™์Šตํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์œ ์˜๋ฏธํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. CAE๋Š” ํŠน์ง• ์ถ”์ถœ, ์ฐจ์› ์ถ•์†Œ, ๋ฐ์ดํ„ฐ ์••์ถ• ๋“ฑ์˜ ์ž‘์—…์— ์œ ์šฉํ•˜๊ฒŒ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋‘˜ ๋‹ค Autoencoder์˜ ๋ณ€ํ˜•์œผ๋กœ, ๋ฐ์ดํ„ฐ์˜ ์žก์Œ ์ œ๊ฑฐ๋‚˜ ํŠน์ง• ์ถ”์ถœ์— ํšจ๊ณผ์ ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

โ€‹

  1. Distributed Representation

Distributed Representation(๋ถ„์‚ฐ ํ‘œํ˜„)์€ ์ •๋ณด๋ฅผ ๊ณ ์ฐจ์›์˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๊ฐ ์ฐจ์›์ด ์˜๋ฏธ ์žˆ๋Š” ํŠน์ง•์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๋ถ„์‚ฐ ํ‘œํ˜„์€ ๊ฐœ๋ณ„ ์š”์†Œ๊ฐ€ ๋…๋ฆฝ์ ์ธ ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š” ํฌ์†Œ ํ‘œํ˜„๊ณผ๋Š” ๋‹ฌ๋ฆฌ, ๋ฒกํ„ฐ์˜ ๊ฐ ์ฐจ์›์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํŠน์ง•์„ ๋™์‹œ์— ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ๋ถ„์‚ฐ ํ‘œํ˜„์€ ํŠน์ง• ๊ณต๊ฐ„์—์„œ ์œ ์‚ฌํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ์š”์†Œ๋“ค์ด ์„œ๋กœ ๊ฐ€๊น๊ฒŒ ์ธ์ฝ”๋”ฉ๋˜๋Š” ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹จ์–ด์˜ ๊ฒฝ์šฐ ํŠน์ • ์˜๋ฏธ๋‚˜ ๋ฌธ๋งฅ๊ณผ ๊ด€๋ จ๋œ ์ฐจ์›๋“ค์ด ์„œ๋กœ ๊ทผ์ ‘ํ•˜๊ฒŒ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋น„์Šทํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋‹จ์–ด๋“ค์ด ์œ ์‚ฌํ•œ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋˜์–ด ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๊ณ  ์œ ์ถ”๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์„ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋ถ„์‚ฐ ํ‘œํ˜„์€ ๋”ฅ๋Ÿฌ๋‹์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋…์œผ๋กœ, Word2Vec, GloVe, BERT ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์—์„œ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์Œ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์—์„œ ๋ถ„์‚ฐ ํ‘œํ˜„์„ ํ•™์Šตํ•˜์—ฌ ์˜๋ฏธ๋ฅผ ๋‚ดํฌํ•œ ์ž ์žฌ ๊ณต๊ฐ„์„ ๊ตฌ์ถ•ํ•˜๊ณ , ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ, ์ด๋ฏธ์ง€ ์ธ์‹, ๋ฌธ์„œ ๋ถ„๋ฅ˜ ๋“ฑ์˜ ์ž‘์—…์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋ถ„์‚ฐ ํ‘œํ˜„์€ ํšจ์œจ์ ์ด๊ณ  ์˜๋ฏธ๋ก ์ ์œผ๋กœ ํ’๋ถ€ํ•œ ํ‘œํ˜„ ๋ฐฉ๋ฒ•์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ์ธ๊ณต์ง€๋Šฅ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Dropout Regularization

Dropout Regularization์€ ์‹ ๊ฒฝ๋ง์˜ ๊ณผ์ ํ•ฉ์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ํšจ๊ณผ์ ์ธ ์ •๊ทœํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ ๋žœ๋คํ•˜๊ฒŒ ์„ ํƒ๋œ ๋‰ด๋Ÿฐ๋“ค์„ ์ œ์™ธ์‹œํ‚ด์œผ๋กœ์จ ์‹ ๊ฒฝ๋ง์˜ ์ผ๋ถ€๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋น„ํ™œ์„ฑํ™”์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Dropout์€ ๊ฐ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์ž…๋ ฅ์ธต ๋˜๋Š” ์€๋‹‰์ธต์˜ ๋‰ด๋Ÿฐ์„ ํ™•๋ฅ ์ ์œผ๋กœ ์„ ํƒํ•˜์—ฌ ์ œ์™ธ์‹œํ‚ต๋‹ˆ๋‹ค. ์ œ์™ธ๋œ ๋‰ด๋Ÿฐ์€ ํ•ด๋‹น ํ•™์Šต ๋‹จ๊ณ„์—์„  ๊ณ„์‚ฐ์— ์ฐธ์—ฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์‹ ๊ฒฝ๋ง์€ ๋‚˜๋จธ์ง€ ๋‰ด๋Ÿฐ๋“ค๋งŒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜ˆ์ธก ๋ฐ ์—ญ์ „ํŒŒ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋“  ๋‰ด๋Ÿฐ์— ์˜์กดํ•˜์ง€ ์•Š๊ณ , ์ผ๋ถ€ ๋‰ด๋Ÿฐ๋“ค์ด ๋‹ค๋ฅธ ๋‰ด๋Ÿฐ๋“ค์˜ ๊ธฐ๋Šฅ์„ ๋Œ€์‹ ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. Dropout์€ ์‹ ๊ฒฝ๋ง์˜ ๋ณต์žก์„ฑ์„ ์ค„์ด๊ณ , ๊ณผ์ ํ•ฉ์„ ์–ต์ œํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ๋‰ด๋Ÿฐ๋“ค์ด ์ผ๋ถ€๋Ÿฌ ์ œ์™ธ๋˜๋Š” ๊ฒƒ์œผ๋กœ ์ธํ•ด ์‹ ๊ฒฝ๋ง์€ ๋” ๊ฐ•๊ฑดํ•œ ํŠน์„ฑ์„ ํ•™์Šตํ•˜๊ฒŒ ๋˜๋ฉฐ, ์•™์ƒ๋ธ” ํšจ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, Dropout์€ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์กฐ์ ˆํ•˜๋ฉด์„œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์˜ํ•  ์ ์€ ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„์—์„œ๋Š” Dropout์„ ์ ์šฉํ•˜์ง€ ์•Š๊ณ  ๋ชจ๋“  ๋‰ด๋Ÿฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Early Stopping

Early Stopping์€ ์‹ ๊ฒฝ๋ง ํ•™์Šต ๊ณผ์ •์—์„œ ๋ชจ๋ธ์˜ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ์ •๊ทœํ™” ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์˜ ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋˜์ง€ ์•Š๊ฑฐ๋‚˜ ํ•˜๋ฝํ•˜๋Š” ์ง€์ ์„ ๊ฐ์ง€ํ•˜์—ฌ ํ•™์Šต์„ ์กฐ๊ธฐ ์ข…๋ฃŒํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์‹ ๊ฒฝ๋ง์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ์ ์ฐจ์ ์œผ๋กœ ์†์‹ค์„ ๊ฐ์†Œ์‹œํ‚ค๊ณ  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์ง€๋งŒ, ๊ณผ์ ํ•ฉ์ด ๋ฐœ์ƒํ•˜๋ฉด ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์€ ์ €์กฐํ•ด์ง‘๋‹ˆ๋‹ค. Early Stopping์€ ์ด๋Ÿฌํ•œ ํ˜„์ƒ์„ ์ด์šฉํ•˜์—ฌ ํ•™์Šต ์ค‘๋‹จ ์‹œ์ ์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. Early Stopping์€ ๋ชจ๋ธ์ด ์ผ์ •ํ•œ ์‹œ๊ฐ„ ๋™์•ˆ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์ง€ ์•Š์„ ๋•Œ ํ•™์Šต์„ ์ข…๋ฃŒํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋˜์ง€ ์•Š๋Š” ์‹œ์ ์€ ๋ชจ๋ธ์ด ๊ณผ์ ํ•ฉ๋˜๊ธฐ ์‹œ์ž‘ํ•˜๋Š” ์‹œ์ ์œผ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต ๊ณผ์ •์„ ์ผ์ฐ ์ค‘๋‹จํ•จ์œผ๋กœ์จ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ณ , ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์˜ํ•  ์ ์€ Early Stopping์„ ์ ์šฉํ•  ๋•Œ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ, ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ, ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆ„์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ณ , ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์ตœ์ข… ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. Early Stopping์€ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜์—ฌ ํ•™์Šต์„ ์ค‘๋‹จํ•˜๋Š” ๋ฐฉ์‹์ด๋ฏ€๋กœ, ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ์ตœ์ข… ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ๋ณ„๋„๋กœ ๋ณด๊ด€๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Ensemble Learning

Ensemble Learning์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํ•™์Šต ๋ชจ๋ธ์„ ์กฐํ•ฉํ•˜์—ฌ ๋” ๊ฐ•๋ ฅํ•œ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ชจ๋ธ์€ ๊ฐœ๋ณ„์ ์œผ๋กœ ํ•™์Šต๋˜์ง€๋งŒ, ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ณ  ์•ˆ์ •์ ์ธ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. Ensemble Learning์€ ๋‹ค์–‘ํ•œ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋˜๋Š” ๋™์ผํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋‹ค๋ฅธ ์„ค์ •์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ๋“ค์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ Ensemble Learning ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ๋ฐฐ๊น…(Bagging), ๋ถ€์ŠคํŒ…(Boosting), ์Šคํƒœํ‚น(Stacking) ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐฐ๊น…์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ€๋ถ„์ ์œผ๋กœ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•˜์—ฌ ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ค๊ณ , ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ท  ๋˜๋Š” ๋‹ค์ˆ˜๊ฒฐ๋กœ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ๋Š” ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ(Random Forest)๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ถ€์ŠคํŒ…์€ ์•ฝํ•œ ํ•™์Šต๊ธฐ๋“ค์„ ์ˆœ์ฐจ์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ค๊ณ , ๊ฐ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์˜ค์ฐจ์— ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๋ชจ๋ธ์„ ๊ฐ•ํ™”์‹œํ‚ต๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ๋Š” AdaBoost, Gradient Boosting, XGBoost, LightGBM ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์Šคํƒœํ‚น์€ ๋‹ค๋ฅธ ํ•™์Šต ๋ชจ๋ธ๋“ค์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ ์ตœ์ข… ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์Šคํƒœํ‚น์€ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ์ข…ํ•ฉํ•˜์—ฌ ๋ณด๋‹ค ์ •๊ตํ•œ ์˜ˆ์ธก์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. Ensemble Learning์€ ๋‹จ์ผ ๋ชจ๋ธ๋ณด๋‹ค ๋” ์ข‹์€ ์˜ˆ์ธก ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๋ชจ๋ธ๋“ค์˜ ๋‹ค๋ฅธ ํŠน์ง•๊ณผ ์˜ค์ฐจ๋ฅผ ์ƒ์‡„ํ•จ์œผ๋กœ์จ ์˜ˆ์ธก์˜ ์ •ํ™•์„ฑ๊ณผ ์•ˆ์ •์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Generative Adversarial Networks (GANs)

Generative Adversarial Networks (GAN)์€ ์ƒ์„ฑ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ, ์ƒ์„ฑ์ž์™€ ํŒ๋ณ„์ž๋ผ๋Š” ๋‘ ๊ฐœ์˜ ์‹ ๊ฒฝ๋ง์ด ์„œ๋กœ ๋Œ€๋ฆฝํ•˜๋ฉฐ ๊ฒฝ์Ÿํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. GAN์€ ์ƒ์„ฑ์ž๊ฐ€ ์‹ค์ œ์™€ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šตํ•˜๊ณ , ํŒ๋ณ„์ž๋Š” ์ƒ์„ฑ์ž๊ฐ€ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ์™€ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ์ž๋Š” ์ดˆ๊ธฐ์—๋Š” ๋ฌด์ž‘์œ„ํ•œ ๋…ธ์ด์ฆˆ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๊ฐ€์งœ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ, ํŒ๋ณ„์ž๋Š” ์ด๋ฅผ ์‹ค์ œ์™€ ๊ตฌ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ์ƒ์„ฑ์ž๋Š” ์ ์ฐจ ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ๋ฐœ์ „ํ•˜๊ณ , ํŒ๋ณ„์ž๋Š” ์ ์ฐจ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ๊ตฌ๋ถ„ํ•˜๋„๋ก ๋ฐœ์ „ํ•ฉ๋‹ˆ๋‹ค. GAN์€ ์ƒ์„ฑ์ž์™€ ํŒ๋ณ„์ž๊ฐ€ ์„œ๋กœ ๋Œ€๋ฆฝํ•˜๋ฉฐ ๊ฒฝ์Ÿํ•˜๋Š” ๊ณผ์ •์„ ํ†ตํ•ด ์•ˆ์ •์ ์ด๊ณ  ์‹ค์ œ์™€ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด GAN์€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ, ์Œ์•… ์ƒ์„ฑ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. GAN์€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ํŠนํžˆ ๋งŽ์ด ํ™œ์šฉ๋˜๋ฉฐ, ์‹ค์ œ๋กœ ์‹ค์ œ ์‚ฌ์ง„๊ณผ ๊ตฌ๋ณ„ํ•˜๊ธฐ ํž˜๋“  ๊ฐ€์งœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•ด๋‚ด๋Š” ๋“ฑ ๋†’์€ ์ˆ˜์ค€์˜ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

โ€‹

  1. Generative Model

Generative Model(์ƒ์„ฑ ๋ชจ๋ธ)์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ , ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด๊ณผ ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ƒ์„ฑ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ํŠน์ง•๊ณผ ํ†ต๊ณ„์  ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๋ฉฐ, ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ๋•Œ์—๋„ ํ•™์Šตํ•œ ํŒจํ„ด์„ ๋”ฐ๋ฅด๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์™€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๊ตฌํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ™•๋ฅ ์  ์ƒ์„ฑ ๋ชจ๋ธ์ธ Gaussian Mixture Models(GMM), Variational Autoencoders(VAE), Generative Adversarial Networks(GAN) ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ์ด๋ฏธ์ง€, ์Œ์„ฑ, ํ…์ŠคํŠธ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์— ๋Œ€ํ•ด ์ƒ์„ฑ์ ์ธ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ƒ์„ฑ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ, ๋ฐ์ดํ„ฐ ๋ณด๊ฐ•, ์ด๋ฏธ์ง€ ์ƒ์„ฑ, ์Œ์•… ์ƒ์„ฑ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋“ฑ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ƒ์„ฑ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์ฐฝ์˜์ ์ธ ์ฝ˜ํ…์ธ  ์ƒ์„ฑ๊ณผ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Gradient Descent

Gradient Descent(๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•)์€ ํ•จ์ˆ˜์˜ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ(๊ฒฝ์‚ฌ)๋ฅผ ์ด์šฉํ•˜์—ฌ ํ•จ์ˆ˜์˜ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ์•„๊ฐ€๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์€ ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์ตœ์†Ÿ๊ฐ’์„ ๊ฐ€๋ฆฌํ‚ค๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•˜๋Š” ๊ฒƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์‹œ์ž‘์ ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ํ˜„์žฌ ์œ„์น˜์—์„œ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ๊ทธ ๋ฐฉํ–ฅ์œผ๋กœ ์ผ์ •ํ•œ ํ•™์Šต๋ฅ (learning rate)์„ ๊ณฑํ•œ ๋งŒํผ ์ด๋™ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ์ตœ์†Ÿ๊ฐ’์— ๋„๋‹ฌํ•  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์€ ํ•™์Šต๋ฅ ๊ณผ ์ดˆ๊ธฐ๊ฐ’์— ๋”ฐ๋ผ ์ตœ์†Ÿ๊ฐ’์— ๋„๋‹ฌํ•˜๋Š” ์†๋„์™€ ์ •ํ™•๋„๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋„ˆ๋ฌด ํฐ ํ•™์Šต๋ฅ ์„ ์‚ฌ์šฉํ•˜๋ฉด ์ตœ์†Ÿ๊ฐ’์„ ์ง€๋‚˜์น  ์ˆ˜ ์žˆ๊ณ , ๋„ˆ๋ฌด ์ž‘์€ ํ•™์Šต๋ฅ ์„ ์‚ฌ์šฉํ•˜๋ฉด ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋Š๋ ค์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ดˆ๊ธฐ๊ฐ’์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ์ตœ์†Ÿ๊ฐ’์— ์ˆ˜๋ ดํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ดˆ๊ธฐ๊ฐ’ ์„ค์ •์— ์ฃผ์˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์€ ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•˜๊ณ  ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐ ์ฃผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•˜์—ฌ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ •์—์„œ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์ด ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค.

โ€‹

  1. Greedy Layer-Wise Unsupervised Traning

ChatGPT Greedy Layer-Wise Unsupervised Training์€ ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ, ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์˜ ์ดˆ๊ธฐํ™”๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์„ ํ•œ ์ธต์”ฉ ์ˆœ์ฐจ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ์ „์ฒด ์‹ ๊ฒฝ๋ง์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. Greedy Layer-Wise Unsupervised Training์€ ๊ฐ ์ธต์„ ๋…๋ฆฝ์ ์ธ ์˜คํ† ์ธ์ฝ”๋”(Autoencoder) ๋˜๋Š” ์ œํ•œ๋œ ๋ณผ์ธ ๋งŒ ๋จธ์‹ (Restricted Boltzmann Machine, RBM)๊ณผ ๊ฐ™์€ ๋น„์ง€๋„ ํ•™์Šต ๋ชจ๋ธ๋กœ ์‚ฌ์ „ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ธต์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ์ ์ธ ํ‘œํ˜„์„ ํ•™์Šตํ•˜์—ฌ, ์ธต๋ณ„๋กœ ๋” ์˜๋ฏธ ์žˆ๋Š” ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ธต์€ ๋‹จ์ผ ์˜คํ† ์ธ์ฝ”๋”๋‚˜ RBM์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜๊ณ , ๊ทธ ๋‹ค์Œ์—๋Š” ๋‹ค์Œ ์ธต์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐ˜๋ณตํ•˜์—ฌ ๋ชจ๋“  ์ธต์ด ์‚ฌ์ „ ํ•™์Šต๋œ ํ›„์—๋Š” ์ „์ฒด ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์„ ๊ตฌ์„ฑํ•˜๊ณ , ์ „์ฒด ์‹ ๊ฒฝ๋ง์„ ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ๋ฏธ์„ธ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ Greedy Layer-Wise Unsupervised Training ๋ฐฉ๋ฒ•์€ ์ดˆ๊ธฐํ™” ๋‹จ๊ณ„์—์„œ ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์ด ์ง€์—ญ ์ตœ์ ํ•ด์— ๊ฐ‡ํžˆ์ง€ ์•Š๊ณ  ๋” ๋‚˜์€ ์ „์—ญ ์ตœ์ ํ•ด๋กœ ์ˆ˜๋ ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค. ์ธต๋ณ„๋กœ ์‚ฌ์ „ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์ดˆ๊ธฐ ๊ฐ€์ค‘์น˜๋ฅผ ์ข‹์€ ์ดˆ๊ธฐ๊ฐ’์œผ๋กœ ์„ค์ •ํ•จ์œผ๋กœ์จ ์ „์ฒด ์‹ ๊ฒฝ๋ง์˜ ์„ฑ๋Šฅ๊ณผ ์ˆ˜๋ ด ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. KL Divergence/MLE
KL Divergence(Kullback-Leibler Divergence)์€ ๋‘ ๊ฐœ์˜ ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. ์ฃผ๋กœ ์ •๋ณด ์ด๋ก ์—์„œ ์‚ฌ์šฉ๋˜๋ฉฐ, ๋‘ ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. KL Divergence๋Š” ์ฃผ์–ด์ง„ ํ™•๋ฅ  ๋ถ„ํฌ P์™€ Q ๊ฐ„์˜ ๋น„๊ต๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. P์™€ Q๊ฐ€ ์™„์ „ํžˆ ๋™์ผํ•œ ๋ถ„ํฌ๋ผ๋ฉด KL Divergence๋Š” 0์ด ๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ P์™€ Q๊ฐ€ ๋‹ค๋ฅผ์ˆ˜๋ก KL Divergence๋Š” ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. KL Divergence๋Š” ๋น„๋Œ€์นญ์ ์ด๋ฉฐ, ์ฆ‰, KL(P ย  Q)์™€ KL(Q ย  P)๋Š” ์„œ๋กœ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ๋Œ€ ์šฐ๋„ ์ถ”์ •(Maximum Likelihood Estimation, MLE)์€ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•˜๋Š” ํ†ต๊ณ„์  ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. MLE๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. KL Divergence๋Š” MLE์˜ ์ผ๋ถ€๋กœ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, MLE์—์„œ๋Š” ๋ชจ๋ธ์˜ ์˜ˆ์ธก ๋ถ„ํฌ์™€ ์‹ค์ œ ๋ถ„ํฌ ์‚ฌ์ด์˜ KL Divergence๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์„ ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ๊ฐ€์žฅ ์ž˜ ์ ํ•ฉ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, KL Divergence๋Š” ๋‘ ๋ถ„ํฌ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๊ณ , MLE๋Š” KL Divergence๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. MLE๋Š” ํ™•๋ฅ ์ ์ธ ๋ชจ๋ธ๋ง์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋ฉฐ, KL Divergence๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์ ํ•ฉ๋„๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. K-Nearest Neighbors Algorithm

K-Nearest Neighbors(K-NN) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ถ„๋ฅ˜(classification)์™€ ํšŒ๊ท€(regression) ๋ฌธ์ œ์— ์‚ฌ์šฉ๋˜๋Š” ๊ฐ„๋‹จํ•˜๊ณ  ์ง๊ด€์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด K๊ฐœ์˜ ์ด์›ƒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ฑฐ๋‚˜ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์—์„œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ด์›ƒ๋“ค์„ ์ฐพ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์œ ํด๋ฆฌ๋””์•ˆ ๊ฑฐ๋ฆฌ(Euclidean distance)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด์›ƒ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์€ ๋‹ค์ˆ˜๊ฒฐ ๋ฐฉ์‹์œผ๋กœ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ๋Š” ๋‹ค์ˆ˜ ํด๋ž˜์Šค๋กœ ๋ถ„๋ฅ˜๋˜๊ณ , ํšŒ๊ท€ ๋ฌธ์ œ์—์„œ๋Š” ํ‰๊ท  ๋˜๋Š” ๊ฐ€์ค‘ ํ‰๊ท ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ’์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋น„๋ชจ์ˆ˜์ ์ด๋ฉฐ, ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋Œ€์‹ ์— ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์งˆ ๋•Œ๋งˆ๋‹ค ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜์˜ ์ด์›ƒ๋“ค์„ ๊ณ„์‚ฐํ•˜๊ณ  ๋ถ„๋ฅ˜ ๋˜๋Š” ํšŒ๊ท€๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์„ฑ์€ K-NN์„ ๊ฐ„๋‹จํ•˜๊ฒŒ ๊ตฌํ˜„ํ•˜๊ณ  ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ์žฅ์ ์ž…๋‹ˆ๋‹ค. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฐ€์ง‘๋œ ์ง€์—ญ์—์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์†Œํ•˜๊ฑฐ๋‚˜ ์ฐจ์›์ด ๋†’์€ ๊ฒฝ์šฐ์—๋Š” ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด์›ƒ์˜ ๊ฐœ์ˆ˜(K)๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•œ๋ฐ, ์ ์ ˆํ•œ K ๊ฐ’ ์„ ํƒ์ด ์˜ˆ์ธก ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ์œ ์šฉํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด์ง€๋งŒ, ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ๊ณ„์‚ฐ ๋น„์šฉ์ด ํฌ๊ณ  ์˜ˆ์ธก ์†๋„๊ฐ€ ๋Š๋ฆด ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ํŠน์„ฑ์— ์ ํ•ฉํ•œ ์‚ฌ์šฉ๋ฒ•์„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Learning Rate Decay

Learning Rate Decay(ํ•™์Šต๋ฅ  ๊ฐ์†Œ)๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ•™์Šต๋ฅ (learning rate)์„ ์ ์ง„์ ์œผ๋กœ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ํ•™์Šต๋ฅ ์€ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•  ๋•Œ ์‚ฌ์šฉ๋˜๋Š” ์Šค์ผ€์ผ๋ง ์š”์†Œ๋กœ, ์–ผ๋งˆ๋‚˜ ํฌ๊ฒŒ ๊ฐฑ์‹ ํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต๋ฅ  ๊ฐ์†Œ๋Š” ์ดˆ๊ธฐ์—๋Š” ํฐ ํ•™์Šต๋ฅ ๋กœ ์‹œ์ž‘ํ•˜์—ฌ ์ „์—ญ ์ตœ์ ์ ์— ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๊ณ , ์ดํ›„์—๋Š” ์ž‘์€ ํ•™์Šต๋ฅ ๋กœ ์กฐ์ •ํ•จ์œผ๋กœ์จ ์ •ํ™•ํ•œ ์ตœ์ ์  ์ฃผ๋ณ€์—์„œ ๋” ์„ธ๋ฐ€ํ•œ ์กฐ์ •์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต ๊ณผ์ •์—์„œ ์ง„๋™์„ ์ค„์ด๊ณ  ์ˆ˜๋ ด ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต๋ฅ  ๊ฐ์†Œ ๋ฐฉ๋ฒ•์—๋Š” ์—ฌ๋Ÿฌ ๊ฐ€์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ ‘๊ทผ ๋ฐฉ์‹์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค: Step Decay: ํŠน์ • epoch ๋˜๋Š” ์ผ์ • ๊ฐ„๊ฒฉ๋งˆ๋‹ค ํ•™์Šต๋ฅ ์„ ๊ณ ์ •๋œ ๋น„์œจ๋กœ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋งค 10๋ฒˆ์งธ epoch๋งˆ๋‹ค ํ•™์Šต๋ฅ ์„ 0.1๋ฐฐ์”ฉ ์ค„์ด๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Exponential Decay: ๊ฐ epoch ๋˜๋Š” ์ผ์ • ๊ฐ„๊ฒฉ๋งˆ๋‹ค ํ•™์Šต๋ฅ ์„ ์ง€์ˆ˜ ํ•จ์ˆ˜ ํ˜•ํƒœ๋กœ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋งค epoch๋งˆ๋‹ค ํ•™์Šต๋ฅ ์„ ์ดˆ๊ธฐ ํ•™์Šต๋ฅ ์— ์ง€์ˆ˜ ๊ฐ์†Œ์œจ์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•™์Šต๋ฅ  ๊ฐ์†Œ๋Š” ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๋„์›€์ด ๋˜๋ฉฐ, ํ•™์Šต ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์˜ค๋ฒ„ํ”ผํŒ…(overfitting)์˜ ์œ„ํ—˜์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ ์ ˆํ•œ ํ•™์Šต๋ฅ  ๊ฐ์†Œ ์Šค์ผ€์ค„์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์€ ์ค‘์š”ํ•˜๋ฉฐ, ๋ฌธ์ œ์— ๋”ฐ๋ผ ์ตœ์ ์˜ ๊ฐ์†Œ ๋ฐฉ๋ฒ•์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

22.Linear Separability

Linear Separability(์„ ํ˜• ๋ถ„๋ฆฌ ๊ฐ€๋Šฅ์„ฑ)์€ ๋‹ค์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์„ ์„ ํ˜• ๊ฒฝ๊ณ„๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•ด, ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์„ ํ•˜๋‚˜์˜ ์ดˆํ‰๋ฉด์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์„ ํ˜• ๋ถ„๋ฆฌ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ๋Š” ํด๋ž˜์Šค ๊ฐ„์˜ ๊ฒฝ๊ณ„๊ฐ€ ์„ , ํ‰๋ฉด ๋˜๋Š” ์ดˆํ‰๋ฉด์œผ๋กœ ์™„์ „ํžˆ ๊ตฌ๋ถ„๋˜์–ด ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ, ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ(์˜ˆ: ์„ ํ˜• ํšŒ๊ท€, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, ์„œํฌํŠธ ๋ฒกํ„ฐ ๋จธ์‹  ๋“ฑ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์„ ํ˜• ๋ถ„๋ฆฌ ๊ฐ€๋Šฅ์„ฑ์ด ์—†๋Š” ๊ฒฝ์šฐ์—๋Š” ๋น„์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋น„์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๋Š” ๊ณ ์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋งคํ•‘ํ•˜์—ฌ ๋ถ„๋ฅ˜ ๊ฒฝ๊ณ„๋ฅผ ๋งŒ๋“ค๊ฑฐ๋‚˜, ์ปค๋„ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋น„์„ ํ˜•์ ์œผ๋กœ ๋ถ„๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์„ ํ˜• ๋ถ„๋ฆฌ ๊ฐ€๋Šฅ์„ฑ์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์…‹์ด ์„ ํ˜• ๋ถ„๋ฅ˜์— ์ ํ•ฉํ•œ์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋ฉฐ, ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ์„ ํƒ๊ณผ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

23.Long Short-Term Memory Networks (LSTMs)

Long Short-Term Memory Networks (LSTMs)๋Š” ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(Recurrent Neural Networks, RNN)์˜ ํ•œ ์ข…๋ฅ˜๋กœ, ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์—์„œ ์žฅ๊ธฐ ์˜์กด์„ฑ(Long-term dependencies)์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ธ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. LSTM์€ ๊ธฐ์กด์˜ RNN ๊ตฌ์กฐ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ(vanishing gradient problem)๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. LSTM์€ ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜๊ณ  ์ „๋‹ฌํ•˜๋Š” ๋ฉ”๋ชจ๋ฆฌ ์…€(memory cell)๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ž…๋ ฅ ๊ฒŒ์ดํŠธ(input gate), ์‚ญ์ œ ๊ฒŒ์ดํŠธ(forget gate), ์ถœ๋ ฅ ๊ฒŒ์ดํŠธ(output gate)๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ๊ฒŒ์ดํŠธ๋ฅผ ํ†ตํ•ด ์ •๋ณด์˜ ํ๋ฆ„์„ ์ œ์–ดํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ ๊ฒŒ์ดํŠธ๋Š” ํ˜„์žฌ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ž…๋ ฅ์„ ์–ผ๋งˆ๋‚˜ ๋ฐ˜์˜ํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๊ณ , ์‚ญ์ œ ๊ฒŒ์ดํŠธ๋Š” ์ด์ „ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ๋ฉ”๋ชจ๋ฆฌ ์…€ ์ƒํƒœ ์ค‘์—์„œ ์–ด๋–ค ์ •๋ณด๋ฅผ ์‚ญ์ œํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ถœ๋ ฅ ๊ฒŒ์ดํŠธ๋Š” ํ˜„์žฌ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ถœ๋ ฅ์„ ์–ผ๋งˆ๋‚˜ ๋ฐ˜์˜ํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜์—ฌ ์ตœ์ข… ์˜ˆ์ธก์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. LSTM์€ ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์–ด, ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์—์„œ ๊ธด ์˜์กด์„ฑ์„ ํฌ์ฐฉํ•˜๊ณ  ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ, ์Œ์„ฑ ์ธ์‹, ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋“ฑ ๋‹ค์–‘ํ•œ ์˜์—ญ์—์„œ LSTMs๊ฐ€ ์„ฑ๊ณต์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

24.Manifold

Manifold(๋‹ค์–‘์ฒด)๋Š” ๊ณต๊ฐ„์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ๋งํ•˜๋Š” ํ‰๋ฉด, ๊ณก๋ฉด ๋˜๋Š” ๊ณ ์ฐจ์› ๊ตฌ์กฐ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•ด, Manifold๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ„ํฌํ•˜๋Š” ๊ณต๊ฐ„์˜ ํ˜•ํƒœ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ์ˆ˜ํ•™์  ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ํ‘œํ˜„๋˜์ง€๋งŒ, ์ด๋Ÿฌํ•œ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๊ธฐ๋Š” ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Manifold ๊ฐœ๋…์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์‹ค์ œ๋กœ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ €์ฐจ์› Manifold์— ๊ฐ€๊น๊ฒŒ ๋ถ„ํฌ๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฐ€์ •์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ €์ฐจ์› Manifold์— ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๋ฉด ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ์™€ ํŒจํ„ด์„ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ  ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Manifold ํ•™์Šต์€ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์› Manifold๋กœ ๋งคํ•‘ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ์ฐจ์› ์ถ•์†Œ, ์‹œ๊ฐํ™”, ํŒจํ„ด ์ธ์‹, ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ฃผ์„ฑ๋ถ„ ๋ถ„์„(Principal Component Analysis, PCA)๋Š” ๋ฐ์ดํ„ฐ์˜ ์ฃผ์š”ํ•œ ๋ณ€๋™์„ฑ์„ ์„ค๋ช…ํ•˜๋Š” Manifold๋ฅผ ์ฐพ๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋ฉฐ, t-SNE(t-Distributed Stochastic Neighbor Embedding)๋Š” ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๊ธฐ ์œ„ํ•ด Manifold ๋งคํ•‘์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. Manifold ๊ฐœ๋…์€ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๋จธ์‹  ๋Ÿฌ๋‹์—์„œ ์ค‘์š”ํ•œ ๊ฐœ๋…์œผ๋กœ, ๋ฐ์ดํ„ฐ์˜ ๋‚ด์žฌ๋œ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

โ€‹

  1. Max Pooling

Max Pooling์€ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(Convolutional Neural Networks, CNN)์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ’€๋ง(pooling) ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์ฃผ๋กœ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์—์„œ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ž…๋ ฅ ์˜์ƒ์˜ ๊ณต๊ฐ„์ ์ธ ์ฐจ์›์„ ์ค„์ด๊ณ  ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. Max Pooling์€ ์ž…๋ ฅ ์˜์ƒ์„ ๊ฒฉ์ž ํ˜•ํƒœ์˜ ์ž‘์€ ์˜์—ญ์œผ๋กœ ๋ถ„ํ• ํ•˜๊ณ , ๊ฐ ์˜์—ญ์—์„œ ๊ฐ€์žฅ ํฐ ๊ฐ’์„ ์„ ํƒํ•˜์—ฌ ์ถœ๋ ฅ ์˜์ƒ์— ๋Œ€์‘ํ•˜๋Š” ์œ„์น˜์— ์ €์žฅํ•˜๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ, ์ž…๋ ฅ ์˜์ƒ์˜ ๊ณต๊ฐ„์ ์ธ ํ•ด์ƒ๋„๋ฅผ ์ค„์ด๊ณ  ๋ถˆํ•„์š”ํ•œ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ๊ณ„์‚ฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ ์‚ฌํ•ญ์„ ์ค„์ด๊ณ , ํŠน์ง•์˜ ์œ„์น˜์— ์ƒ๋Œ€์ ์ธ ๋ถˆ๋ณ€์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. Max Pooling์€ ํŠน์ง• ๋งต(feature map)์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ  ์ค‘์š”ํ•œ ํŠน์ง•์„ ๊ฐ•์กฐํ•˜๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž‘์€ ๋ณ€ํ™”์— ๋œ ๋ฏผ๊ฐํ•ด์ง€๋Š” ํšจ๊ณผ๋กœ ์ธํ•ด ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ๋ชจ๋ธ์˜ ๊ณผ์ ํ•ฉ(overfitting)์„ ๋ฐฉ์ง€ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‹œ๊ฐ์ ์ธ ๋ณ€ํ™”์— ๋Œ€ํ•œ ๋ถˆ๋ณ€์„ฑ์„ ์ œ๊ณตํ•˜์—ฌ ๊ฐ์ฒด์˜ ํฌ๊ธฐ๋‚˜ ์œ„์น˜์˜ ๋ณ€ํ™”์— ์ƒ๊ด€์—†์ด ๋™์ผํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. Max Pooling์€ CNN์˜ ์ผ๋ฐ˜์ ์ธ ๊ตฌ์กฐ์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ์—ฐ์‚ฐ ์ค‘ ํ•˜๋‚˜์ด๋ฉฐ, ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜, ๊ฐ์ฒด ๊ฒ€์ถœ, ์ด๋ฏธ์ง€ ๋ถ„ํ•  ๋“ฑ ๋‹ค์–‘ํ•œ ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์—์„œ ์œ ์šฉํ•˜๊ฒŒ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Mean Squared Error (MSE)

Mean Squared Error (MSE)๋Š” ์˜ˆ์ธก ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์˜ค์ฐจ ์ธก์ • ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. MSE๋Š” ์˜ˆ์ธก ๊ฐ’๊ณผ ์‹ค์ œ ๊ฐ’ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ œ๊ณฑํ•˜์—ฌ ํ‰๊ท ํ™”ํ•œ ๊ฐ’์ž…๋‹ˆ๋‹ค. MSE๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณต์‹์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค: MSE = (1/n) * ฮฃ(y - ลท)^2 ์—ฌ๊ธฐ์„œ, n์€ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์˜ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, y๋Š” ์‹ค์ œ ๊ฐ’, ลท๋Š” ์˜ˆ์ธก ๊ฐ’์ž…๋‹ˆ๋‹ค. MSE๋Š” ์‹ค์ œ ๊ฐ’๊ณผ ์˜ˆ์ธก ๊ฐ’ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ œ๊ณฑํ•˜์—ฌ ํ‰๊ท ํ™”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์˜ค์ฐจ์˜ ํฌ๊ธฐ์— ๋ฏผ๊ฐํ•˜๊ฒŒ ๋ฐ˜์‘ํ•ฉ๋‹ˆ๋‹ค. MSE๋Š” ์˜ค์ฐจ ์ œ๊ณฑ์˜ ํ‰๊ท ์„ ๊ณ„์‚ฐํ•˜๋ฏ€๋กœ, ์˜ค์ฐจ๊ฐ€ ํด์ˆ˜๋ก ๋” ํฐ ๊ฐ’์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ MSE๊ฐ€ ์ž‘์„์ˆ˜๋ก ์˜ˆ์ธก ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. MSE๋Š” ํšŒ๊ท€ ๋ฌธ์ œ์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋ฉฐ, ์˜ˆ์ธก ๊ฐ’๊ณผ ์‹ค์ œ ๊ฐ’ ์‚ฌ์ด์˜ ํ‰๊ท ์ ์ธ ์˜ค์ฐจ๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ MSE๋Š” ์˜ค์ฐจ ์ œ๊ณฑ์— ์˜ํ•ด ํฐ ์˜ค์ฐจ์— ๋ฏผ๊ฐํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด์ƒ์น˜(outlier)์— ๋ฏผ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ƒ์น˜๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ๊ฐ€ ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ด๋ฅผ ๊ฐ์•ˆํ•˜์—ฌ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Mini-Batch Gradient Descent

Mini-Batch Gradient Descent๋Š” ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์˜ ํ•œ ๋ณ€์ข…์œผ๋กœ, ํ•™์Šต ๊ณผ์ •์—์„œ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๋Œ€์‹ , ์ž‘์€ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜(mini-batch)๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆ„์–ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. Mini-Batch Gradient Descent๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค: ๋ฐ์ดํ„ฐ์…‹์„ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. ๊ฐ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์— ๋Œ€ํ•ด ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์— ์†ํ•œ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ๋“ค์„ ๋ชจ๋ธ์— ์ž…๋ ฅ์œผ๋กœ ์ฃผ๊ณ , ์†์‹ค ํ•จ์ˆ˜์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์— ๋Œ€ํ•œ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ์—…๋ฐ์ดํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•œ ํ›„, ๋‹ค์Œ ์—ํฌํฌ(epoch)๋กœ ๋„˜์–ด๊ฐ‘๋‹ˆ๋‹ค. ์—ํฌํฌ๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ํ•œ ๋ฒˆ ํ•™์Šตํ•˜๋Š” ๋‹จ์œ„์ž…๋‹ˆ๋‹ค. Mini-Batch Gradient Descent๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•๋ณด๋‹ค ํšจ์œจ์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ž‘์€ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๊ณ„์‚ฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ ์‚ฌํ•ญ์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์˜ ์ž„์˜์„ฑ(randomness)์€ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์˜ ํฌ๊ธฐ๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ์ง€์ •ํ•ด์•ผ ํ•˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ด๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ์ˆ˜์‹ญ์—์„œ ์ˆ˜๋ฐฑ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ํ•™์Šต ์†๋„์™€ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ ์ ˆํ•œ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

28.Momentum Optimization Algorithm

Momentum Optimization Algorithm์€ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์˜ ํ•œ ๋ณ€์ข…์œผ๋กœ, ๊ธฐ์šธ๊ธฐ์˜ ์†๋„์™€ ๋ฐฉํ–ฅ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ์ˆ˜๋ ด ์†๋„๋ฅผ ๊ฐœ์„ ํ•˜๊ณ  ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’(local minimum)์—์„œ ๋น ์ ธ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

Momentum์€ ๋ฌผ๋ฆฌํ•™์—์„œ์˜ ์šฉ์–ด๋กœ, ๋ฌผ์ฒด๊ฐ€ ๊ฐ€์†๋„๋ฅผ ์–ป์–ด์„œ ๊ด€์„ฑ์„ ๊ฐ€์ง€๊ณ  ์›€์ง์ด๋Š” ํ˜„์ƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. Momentum Optimization Algorithm์€ ์ด ๊ฐœ๋…์„ ๋ชจ๋ธ์˜ ํ•™์Šต์— ์ ์šฉํ•˜์—ฌ ์ด์ „์˜ ์—…๋ฐ์ดํŠธ ๋ฐฉํ–ฅ๊ณผ ์†๋„๋ฅผ ๊ธฐ์–ตํ•˜๊ณ  ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค:

  1. ์ด์ „ ์—…๋ฐ์ดํŠธ์—์„œ์˜ ๋ชจ๋ฉ˜ํ…€(momentum) ๊ฐ’์„ ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” 0 ๋˜๋Š” ์ž‘์€ ๊ฐ’์œผ๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค.

  2. ๊ฐ ๊ฐ€์ค‘์น˜์— ๋Œ€ํ•ด ํ˜„์žฌ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  3. ๋ชจ๋ฉ˜ํ…€ ๊ฐ’์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด์ „ ์—…๋ฐ์ดํŠธ ๋ฐฉํ–ฅ๊ณผ ํ˜„์žฌ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ํ•ฉ์นœ ๊ฐ’์œผ๋กœ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

  4. ๋‹ค์Œ ์—…๋ฐ์ดํŠธ๋ฅผ ์œ„ํ•ด ๋ชจ๋ฉ˜ํ…€ ๊ฐ’์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

Momentum Optimization Algorithm์€ ๊ธฐ์šธ๊ธฐ์˜ ํฌ๊ธฐ๊ฐ€ ํฐ ๊ฒฝ์šฐ์—๋Š” ๋ชจ๋ฉ˜ํ…€ ๊ฐ’์„ ํฌ๊ฒŒ ์„ค์ •ํ•˜์—ฌ ๋น ๋ฅด๊ฒŒ ์ด๋™ํ•˜๊ณ , ๊ธฐ์šธ๊ธฐ์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ์—๋Š” ๋ชจ๋ฉ˜ํ…€ ๊ฐ’์„ ์ž‘๊ฒŒ ์„ค์ •ํ•˜์—ฌ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์ด๋™ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’์—์„œ ๋น ์ ธ๋‚˜์™€ ๊ธ€๋กœ๋ฒŒ ์ตœ์†Ÿ๊ฐ’(global minimum)์„ ์ฐพ๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

Momentum Optimization Algorithm์€ ํ•™์Šต ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’์— ๋น ์ง€๋Š” ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋ณต์žกํ•œ ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•  ๋•Œ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Monte Carlo Simulation

Monte Carlo Simulation์€ ํ™•๋ฅ ๊ณผ ํ†ต๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ˆ˜์น˜ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ํ™•๋ฅ ์ ์ธ ์š”์†Œ๊ฐ€ ํฌํ•จ๋œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ฑฐ๋‚˜, ๋ถˆํ™•์‹ค์„ฑ์„ ๋‹ค๋ฃจ๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

Monte Carlo Simulation์€ ํ™•๋ฅ  ๋ชจํ˜•์„ ๊ตฌ์„ฑํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž„์˜์˜ ๋‚œ์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ˆ˜๋งŽ์€ ๊ฐ€๋Šฅ์„ฑ์„ ๊ณ ๋ คํ•˜๊ณ , ํ†ต๊ณ„์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ถ”์ •ํ•˜๊ฑฐ๋‚˜ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์‹ค์ œ๋กœ Monte Carlo Simulation์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณผ์ •์œผ๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค:

  1. ๋ฌธ์ œ์˜ ํ™•๋ฅ  ๋ชจํ˜•์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ฌธ์ œ์˜ ํŠน์„ฑ์— ๋งž๊ฒŒ ๊ฒฐ์ •๋˜๋ฉฐ, ์ฃผ๋กœ ํ™•๋ฅ  ๋ถ„ํฌ๋‚˜ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

  2. ์ •์˜๋œ ํ™•๋ฅ  ๋ชจํ˜•์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‚œ์ˆ˜๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ฌธ์ œ์˜ ํ™•๋ฅ  ๋ชจํ˜•์— ๋”ฐ๋ผ ์ ์ ˆํ•œ ๋‚œ์ˆ˜ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  3. ์ƒ์„ฑ๋œ ๋‚œ์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ชจํ˜•์— ๋Œ€ํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ™•๋ฅ  ๋ชจํ˜•์„ ์ด์šฉํ•˜์—ฌ ํ•„์š”ํ•œ ๋ณ€์ˆ˜๋ฅผ ๊ฒฐ์ •ํ•˜๊ณ , ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ ์ ˆํ•œ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

  4. ์‹คํ—˜์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•˜์—ฌ ํ†ต๊ณ„์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ‰๊ท , ๋ถ„์‚ฐ, ์‹ ๋ขฐ๊ตฌ๊ฐ„ ๋“ฑ์„ ์ถ”์ •ํ•˜๊ฑฐ๋‚˜, ๋ฌธ์ œ์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Monte Carlo Simulation์€ ๋ถˆํ™•์‹ค์„ฑ์ด๋‚˜ ํ™•๋ฅ ์ ์ธ ์š”์†Œ๊ฐ€ ํฌํ•จ๋œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ธˆ์œต ๋ถ„์•ผ์—์„œ๋Š” ์ฃผ๊ฐ€ ๋ชจ๋ธ๋ง, ์˜ต์…˜ ๊ฐ€์น˜ ํ‰๊ฐ€ ๋“ฑ์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฌผ๋ฆฌํ•™, ๊ณตํ•™, ์šด์†ก ๋ฐ ๋กœ์ง ์‹œ์Šคํ…œ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ๋„ ๋„๋ฆฌ ํ™œ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. multi-modal learning

Multi-modal learning์€ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ ๋˜๋Š” ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(modality)๋กœ๋ถ€ํ„ฐ ์ง€์‹์„ ์ถ”์ถœํ•˜๊ณ  ํ†ตํ•ฉํ•˜์—ฌ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ํ˜•ํƒœ๋‚˜ ํŠน์„ฑ์„ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ ์œ ํ˜•์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ฃผ๋กœ ์‹œ๊ฐ์ ์ธ ์ด๋ฏธ์ง€, ์Œ์„ฑ, ํ…์ŠคํŠธ ๋“ฑ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฒฐํ•ฉ๋˜์–ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

Multi-modal learning์€ ๋‹จ์ผ ์œ ํ˜•์˜ ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๋‹จ์ผ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ•™์Šต๊ณผ๋Š” ๋‹ฌ๋ฆฌ, ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์—์„œ ์ •๋ณด๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ƒํ˜ธ ์—ฐ๊ด€์„ฑ์„ ํ™œ์šฉํ•˜์—ฌ ๋” ํ’๋ถ€ํ•œ ํ‘œํ˜„๊ณผ ์ดํ•ด๋ ฅ์„ ๊ฐ–๋Š” ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘ํ•œ ์ธก๋ฉด์„ ๊ณ ๋ คํ•˜๊ณ , ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์˜์ƒ ๋ถ„์„์—์„œ๋Š” ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์™€ ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐ์ฒด ์ธ์‹, ํ–‰๋™ ์ธ์‹, ๊ฐ์ • ๋ถ„์„ ๋“ฑ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ž์œจ ์ฃผํ–‰ ์ž๋™์ฐจ์˜ ๊ฒฝ์šฐ, ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ, ๋ผ์ด๋‹ค ๋ฐ์ดํ„ฐ, ์„ผ์„œ ๋ฐ์ดํ„ฐ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ™˜๊ฒฝ ์ธ์‹๊ณผ ์ฃผํ–‰ ๊ฒฐ์ •์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

Multi-modal learning์€ ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋œ ํŠน์ง•์„ ํ†ตํ•ฉํ•˜๊ฑฐ๋‚˜, ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ชจ๋ธ๋งํ•˜์—ฌ ๋ณตํ•ฉ์ ์ธ ํ•™์Šต ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํšจ๊ณผ์ ์ธ ๋ฐ์ดํ„ฐ ํ‘œํ˜„๊ณผ ํŒจํ„ด ์ธ์‹, ๋ฌธ์ œ ํ•ด๊ฒฐ์— ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. One-Shot Learning

One-Shot Learning์€ ๋งค์šฐ ์ œํ•œ๋œ ์ˆ˜์˜ ํ•™์Šต ์ƒ˜ํ”Œ๋กœ๋ถ€ํ„ฐ ์ƒˆ๋กœ์šด ํด๋ž˜์Šค๋ฅผ ์ธ์‹ํ•˜๊ฑฐ๋‚˜ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๊ธฐ์กด์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ๋งŽ์€ ์–‘์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€๋งŒ, One-Shot Learning์€ ๋‹จ ํ•œ ๋ฒˆ์˜ ํ•™์Šต ์˜ˆ์ œ๋งŒ์œผ๋กœ๋„ ์ƒˆ๋กœ์šด ํด๋ž˜์Šค๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

One-Shot Learning์€ ํ˜„์‹ค์—์„œ ์šฐ๋ฆฌ๊ฐ€ ์ง๋ฉดํ•˜๋Š” ์ƒํ™ฉ๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ํ•™์Šตํ•  ๋•Œ ๋งŽ์€ ์˜ˆ์ œ๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ƒˆ๋กœ์šด ์–ผ๊ตด์„ ๋ณด๊ณ  ํ•ด๋‹น ์ธ๋ฌผ์„ ์‹๋ณ„ํ•˜๋Š” ๊ฒƒ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ•œ ๋ฒˆ์˜ ๊ด€์ฐฐ๋งŒ์œผ๋กœ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

One-Shot Learning์€ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ตฌํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์€ ์ง€๋Šฅ์ ์ธ ํŠน์ง• ์ถ”์ถœ๊ณผ ๋น„๊ต๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๋‚˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , ์ƒˆ๋กœ์šด ์ž…๋ ฅ๊ณผ ์ด์ „์˜ ํ•™์Šต ์ƒ˜ํ”Œ ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ์„ ๋น„๊ตํ•˜์—ฌ ๋ถ„๋ฅ˜ ๋˜๋Š” ์ธ์‹์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

One-Shot Learning์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ์ ์ธ ์ƒํ™ฉ์—์„œ ์œ ์šฉํ•˜๋ฉฐ, ์ธ์‹ ๋˜๋Š” ๋ถ„๋ฅ˜์— ๋Œ€ํ•œ ๋น ๋ฅธ ์‘๋‹ต์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ์—๋„ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜๋ฃŒ ์ง„๋‹จ์ด๋‚˜ ๋ณด์•ˆ ์‹œ์Šคํ…œ์—์„œ ์ƒˆ๋กœ์šด ํด๋ž˜์Šค์˜ ์ธ์‹์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ์— ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Overfitting and Underfitting

Overfitting๊ณผ Underfitting์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ณผ์ ํ•ฉ(overfitting) ๋˜๋Š” ๊ณผ์†Œ์ ํ•ฉ(underfitting)๋˜๋Š” ํ˜„์ƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

Overfitting์€ ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ง€๋‚˜์น˜๊ฒŒ ๋งž์ถ”์–ด์ ธ์„œ, ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ๋Š” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋‚˜ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์žก์Œ์ด๋‚˜ ๋ฏธ์„ธํ•œ ๋ณ€๋™์— ๋Œ€ํ•ด์„œ๋„ ๊ณผ๋„ํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ๋–จ์–ด์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Underfitting์€ ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ œ๋Œ€๋กœ ์ ํ•ฉ๋˜์ง€ ๋ชปํ•˜์—ฌ, ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ ๋ชจ๋‘ ์„ฑ๋Šฅ์ด ๋‚ฎ์€ ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ ์ถฉ๋ถ„ํžˆ ํŒŒ์•…ํ•˜์ง€ ๋ชปํ•˜๊ฑฐ๋‚˜, ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์ด ๋„ˆ๋ฌด ๋‚ฎ์•„์„œ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ์ถฉ๋ถ„ํžˆ ํ‘œํ˜„ํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค.

Overfitting๊ณผ Underfitting์€ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ•ด์น˜๋Š” ๋ฌธ์ œ๋กœ, ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์กฐ์ •์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ Overfitting์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด regularization ๊ธฐ๋ฒ•์ด๋‚˜ ๋ฐ์ดํ„ฐ augmentation, ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ ์กฐ์ ˆ ๋“ฑ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. Underfitting์€ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ๋†’์ด๊ฑฐ๋‚˜, ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ์ฆ๊ฐ€์‹œ์ผœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ ์ ˆํ•œ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ๊ณผ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ Overfitting๊ณผ Underfitting์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋„ ์ผ๋ฐ˜ํ™”๋œ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ , ์‹ค์ œ ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ •ํ™•ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Pre-Conditioning

Pre-Conditioning์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์ „์— ๋ณ€ํ™˜ํ•˜์—ฌ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ˆ˜๋ ด ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ฑฐ๋‚˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ ํ•ฉํ•œ ํ˜•ํƒœ๋กœ ๊ฐ€๊ณตํ•˜๊ฑฐ๋‚˜ ์Šค์ผ€์ผ์„ ์กฐ์ •ํ•จ์œผ๋กœ์จ, ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋” ์ž˜ ์ž‘๋™ํ•˜๋„๋ก ๋•๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ž…๋‹ˆ๋‹ค.

Pre-Conditioning์€ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„์—์„œ ์ˆ˜ํ–‰๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๊ณผ ๊ธฐ๋ฒ•์ด ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” Pre-Conditioning ๊ธฐ๋ฒ•์œผ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค:

  1. Feature Scaling: ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•๋“ค์„ ๋™์ผํ•œ ๋ฒ”์œ„๋กœ ์Šค์ผ€์ผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ Min-Max ์Šค์ผ€์ผ๋ง์ด๋‚˜ ํ‘œ์ค€ํ™”(Z-score normalization)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œ์ค€ ๋ฒ”์œ„๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

  2. Feature Transformation: ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•๋“ค์„ ์ƒˆ๋กœ์šด ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์„ฑ๋ถ„ ๋ถ„์„(Principal Component Analysis, PCA)์ด๋‚˜ ์„ ํ˜• ๋˜๋Š” ๋น„์„ ํ˜• ๋ณ€ํ™˜ ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ถ•์†Œํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

  3. ๋ฐ์ดํ„ฐ ์ •์ œ ๋ฐ ์ด์ƒ์น˜ ์ฒ˜๋ฆฌ: ๋ฐ์ดํ„ฐ์—์„œ ๊ฒฐ์ธก์น˜๋‚˜ ์ด์ƒ์น˜๋ฅผ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜ ๋Œ€์ฒดํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

  4. ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•: ๊ธฐ์กด ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ˜•ํ•˜๊ฑฐ๋‚˜ ํ•ฉ์„ฑํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ๋” ๋‹ค์–‘ํ•˜๊ณ  ํ’๋ถ€ํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ํšŒ์ „, ์ด๋™, ๋’ค์ง‘๊ธฐ ๋“ฑ์˜ ๋ณ€ํ˜•์„ ์ ์šฉํ•˜๊ฑฐ๋‚˜ ์ƒ์„ฑ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

Pre-Conditioning์€ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ๊ณผ ๋ฌธ์ œ์˜ ์„ฑ๊ฒฉ์— ๋”ฐ๋ผ ๋‹ค์–‘ํ•˜๊ฒŒ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ ์ ˆํ•œ Pre-Conditioning ๊ธฐ๋ฒ•์„ ์„ ํƒํ•˜๊ณ  ์ ์šฉํ•จ์œผ๋กœ์จ, ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ˆ˜๋ ด ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Principal Component Analysis (PCA)

์ฃผ์„ฑ๋ถ„ ๋ถ„์„(Principal Component Analysis, PCA)์€ ๋‹ค์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ถ•์†Œํ•˜๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์ฃผ๋กœ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง• ์ถ”์ถœ, ์ฐจ์› ์ถ•์†Œ, ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ๋“ฑ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

PCA๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ณ€๋™์„ฑ์„ ์„ค๋ช…ํ•˜๋Š” ์ฃผ์„ฑ๋ถ„์„ ์ฐพ์•„๋‚ด๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ฃผ์„ฑ๋ถ„์€ ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ถ•์œผ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ€์žฅ ๋งŽ์€ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ค„์ด๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค.

PCA๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹จ๊ณ„๋กœ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค:

  1. ๋ฐ์ดํ„ฐ์˜ ์ค‘์‹ฌ์„ ์›์ ์œผ๋กœ ์ด๋™์‹œํ‚ต๋‹ˆ๋‹ค.

  2. ๋ฐ์ดํ„ฐ์˜ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  3. ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ๊ณ ์œ ๊ฐ’๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

  4. ๊ณ ์œ ๊ฐ’์„ ๊ธฐ์ค€์œผ๋กœ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ์ •๋ ฌํ•ฉ๋‹ˆ๋‹ค.

  5. ์ฃผ์„ฑ๋ถ„์„ ์„ ํƒํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒˆ๋กœ์šด ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

PCA๋Š” ๊ฐ€์žฅ ํฐ ๊ณ ์œ ๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” ์ฃผ์„ฑ๋ถ„๋ถ€ํ„ฐ ์ˆœ์„œ๋Œ€๋กœ ์„ ํƒํ•˜์—ฌ ์ฐจ์›์„ ์ถ•์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ถ•์†Œ๋œ ์ฐจ์›์€ ์›๋ž˜ ๋ฐ์ดํ„ฐ์˜ ๋ณ€๋™์„ฑ์„ ๊ฐ€๋Šฅํ•œ ํ•œ ๋ณด์กดํ•˜๋ฉด์„œ๋„ ์ฐจ์›์„ ์ค„์ด๋Š” ํšจ๊ณผ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

PCA๋Š” ์ฐจ์› ์ถ•์†Œ๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๋ณต์žก์„ฑ์„ ๊ฐ์†Œ์‹œํ‚ค๊ณ , ๋…ธ์ด์ฆˆ๋‚˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋‚ฎ์€ ํŠน์„ฑ๋“ค์„ ์ œ๊ฑฐํ•˜์—ฌ ๋” ๊ฐ„๊ฒฐํ•˜๊ณ  ์œ ์˜๋ฏธํ•œ ๋ฐ์ดํ„ฐ ํ‘œํ˜„์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, PCA๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๋ฉด ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ํŒจํ„ด๊ณผ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. PCA๋Š” ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ฐจ์› ์ถ•์†Œ, ํŠน์ง• ์ถ”์ถœ, ๋ฐ์ดํ„ฐ ์••์ถ•, ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ๋“ฑ์— ํ™œ์šฉ๋˜๋Š” ์œ ์šฉํ•œ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค.

โ€‹

  1. Radial Basis Function Kernel Neural Network

Radial Basis Function Kernel Neural Network(RBF Kernel NN)์€ ์‹ ๊ฒฝ๋ง๊ณผ Radial Basis Function(RBF) ์ปค๋„์„ ๊ฒฐํ•ฉํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋น„์„ ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ  ํŒจํ„ด์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

RBF ์ปค๋„์€ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. RBF ์ปค๋„์€ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง• ๊ณต๊ฐ„์—์„œ ๊ฐ€์šฐ์‹œ์•ˆ ํ•จ์ˆ˜์˜ ํ˜•ํƒœ๋กœ ์ •์˜๋˜๋ฉฐ, ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด RBF ์ปค๋„์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์ฐจ์› ํŠน์ง• ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜์—ฌ ๋น„์„ ํ˜• ํŒจํ„ด์„ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

RBF Kernel NN์€ RBF ์ปค๋„์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹ ๊ฒฝ๋ง์˜ ์€๋‹‰์ธต๊ณผ ์—ฐ๊ฒฐ๋œ ๊ฐ€์ค‘์น˜๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์€๋‹‰์ธต์˜ ๋‰ด๋Ÿฐ์€ RBF ์ปค๋„ ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•˜์—ฌ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ๊ฐ€์ค‘์น˜ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ถœ๋ ฅ์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ RBF Kernel NN์€ ๋น„์„ ํ˜• ํŒจํ„ด์„ ๋ชจ๋ธ๋งํ•˜๊ณ , ๋ณต์žกํ•œ ๊ฒฐ์ • ๊ฒฝ๊ณ„๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

RBF Kernel NN์€ ์ฃผ๋กœ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ์‚ฌ์šฉ๋˜๋ฉฐ, ํŠนํžˆ ๋น„์„ ํ˜•์ ์ธ ํด๋ž˜์Šค ๊ตฌ๋ถ„์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ์— ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. RBF ์ปค๋„์„ ํ†ตํ•ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜๊ณ , ์‹ ๊ฒฝ๋ง์„ ํ†ตํ•ด ์ด๋ฅผ ํ•™์Šตํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ๋น„์„ ํ˜• ํŠน์„ฑ์„ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด RBF Kernel NN์€ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํŒจํ„ด ์ธ์‹, ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹, ์˜ˆ์ธก ๋“ฑ์˜ ์ž‘์—…์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Rectified Linear Units (ReLUs)

Rectified Linear Units (ReLUs)์€ ์ธ๊ณต์‹ ๊ฒฝ๋ง์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ReLU๋Š” ์ž…๋ ฅ ๊ฐ’์ด ์–‘์ˆ˜์ธ ๊ฒฝ์šฐ์—๋Š” ๊ทธ ๊ฐ’์„ ๊ทธ๋Œ€๋กœ ์ถœ๋ ฅํ•˜๊ณ , ์Œ์ˆ˜์ธ ๊ฒฝ์šฐ์—๋Š” 0์„ ์ถœ๋ ฅํ•˜๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.

ReLU ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค: f(x) = max(0, x)

์—ฌ๊ธฐ์„œ x๋Š” ์ž…๋ ฅ ๊ฐ’์ด๋ฉฐ, f(x)๋Š” ์ถœ๋ ฅ ๊ฐ’์ž…๋‹ˆ๋‹ค. ์ž…๋ ฅ ๊ฐ’์ด 0๋ณด๋‹ค ์ž‘์„ ๊ฒฝ์šฐ ์ถœ๋ ฅ์€ 0์ด ๋˜๊ณ , 0๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜ ๊ฐ™์„ ๊ฒฝ์šฐ์—๋Š” ์ž…๋ ฅ ๊ฐ’ ๊ทธ๋Œ€๋กœ ์ถœ๋ ฅ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์ง• ๋•Œ๋ฌธ์— ReLU๋Š” ์„ ํ˜• ์—ฐ์‚ฐ์„ ๊ฐ„๋‹จํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ์‹ ๊ฒฝ๋ง์˜ ํ•™์Šต์„ ๋น ๋ฅด๊ฒŒ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

ReLU์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ๋น„์„ ํ˜•์„ฑ์„ ๊ฐ€์ง€๋ฉด์„œ๋„ ๊ณ„์‚ฐ์ด ๊ฐ„๋‹จํ•˜๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹ ๊ฒฝ๋ง์€ ๋น„์„ ํ˜• ํŒจํ„ด์„ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ReLU๋Š” ๊ฒฝ์‚ฌ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์–ด ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์˜ ํ•™์Šต์— ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

ReLU๋Š” ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜, ๊ฐ์ฒด ๊ฒ€์ถœ, ์Œ์„ฑ ์ธ์‹ ๋“ฑ ๋‹ค์–‘ํ•œ ์ธ๊ณต์ง€๋Šฅ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ž…๋ ฅ ๊ฐ’์ด ์Œ์ˆ˜์ธ ๊ฒฝ์šฐ์—๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ๊ฐ€ 0์ด ๋˜์–ด ํ•ด๋‹น ๋‰ด๋Ÿฐ์ด ํ•™์Šต์— ์ฐธ์—ฌํ•˜์ง€ ์•Š๊ฒŒ ๋˜๋Š” โ€œ์ฃฝ์€ ReLUโ€ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Leaky ReLU, Parametric ReLU ๋“ฑ์˜ ๋ณ€ํ˜•๋œ ReLU ํ•จ์ˆ˜๋“ค์ด ์ œ์•ˆ๋˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Recurrent Neural Networks (RNNs)

Recurrent Neural Networks (RNNs)์€ ์ˆœ์ฐจ์ ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ด์ „ ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์˜ ํ•œ ์ข…๋ฅ˜์ž…๋‹ˆ๋‹ค. RNN์€ ์ˆœํ™˜ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ์ด์ „ ๋‹จ๊ณ„์˜ ์ถœ๋ ฅ์„ ํ˜„์žฌ ๋‹จ๊ณ„์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ฐ„์ ์ธ ์˜์กด์„ฑ์„ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

RNN์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ํ•จ๊ป˜ ์ˆœ์ฐจ์ ์œผ๋กœ ์‹œ๊ฐ„ ๋‹จ๊ณ„๋ฅผ ๋”ฐ๋ผ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค. ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ RNN์€ ํ˜„์žฌ ์ž…๋ ฅ๊ณผ ์ด์ „ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ถœ๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ˜๋ณต ๊ณผ์ •์„ ํ†ตํ•ด RNN์€ ์ด์ „ ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜๊ณ  ํ˜„์žฌ ์ž…๋ ฅ๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‹ค์Œ ๋‹จ๊ณ„์˜ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

RNN์€ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ, ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋“ฑ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. RNN์˜ ์žฅ์ ์€ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์˜ ๊ธธ์ด์— ๊ด€๊ณ„์—†์ด ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ์—ฐ๊ด€์„ฑ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, RNN์€ ๊ฐ€๋ณ€์ ์ธ ๊ธธ์ด์˜ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์™€ ๊ฐ™์€ ์ž‘์—…์— ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ RNN์€ ์žฅ๊ธฐ ์˜์กด์„ฑ ๋ฌธ์ œ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธด ์‹œํ€€์Šค์—์„œ๋Š” ์ดˆ๊ธฐ ์ •๋ณด๊ฐ€ ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ๋‹จ๊ณ„์—์„œ ์‚ฌ๋ผ์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์–ด ํ•™์Šต์ด ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด LSTM(Long Short-Term Memory)์ด๋‚˜ GRU(Gated Recurrent Unit)์™€ ๊ฐ™์€ ๋ณ€ํ˜•๋œ RNN ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณ€ํ˜•๋œ RNN ์•„ํ‚คํ…์ฒ˜๋Š” ์žฅ๊ธฐ ์˜์กด์„ฑ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ณ  ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Regression

Regression์€ ์ฃผ์–ด์ง„ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ์—ฐ์†์ ์ธ ์ถœ๋ ฅ ๊ฐ’ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ์ง€๋„ ํ•™์Šต(Supervised Learning) ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ•œ ์ข…๋ฅ˜์ž…๋‹ˆ๋‹ค. Regression์€ ์ž…๋ ฅ ๋ณ€์ˆ˜์™€ ์ถœ๋ ฅ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๊ณ , ์ƒˆ๋กœ์šด ์ž…๋ ฅ ๊ฐ’์— ๋Œ€ํ•œ ์ถœ๋ ฅ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

Regression์€ ์ข…์† ๋ณ€์ˆ˜(๋˜๋Š” ์ถœ๋ ฅ ๋ณ€์ˆ˜)์™€ ํ•˜๋‚˜ ์ด์ƒ์˜ ๋…๋ฆฝ ๋ณ€์ˆ˜(๋˜๋Š” ์ž…๋ ฅ ๋ณ€์ˆ˜) ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์ฐพ๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์ข…์† ๋ณ€์ˆ˜๋Š” ์—ฐ์†์ ์ธ ์ˆ˜์น˜ ๊ฐ’์ด๋ฉฐ, ๋…๋ฆฝ ๋ณ€์ˆ˜๋Š” ๊ด€์ธก๋œ ํŠน์ง•์ด๋‚˜ ์†์„ฑ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. Regression ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ์ž…๋ ฅ ๋ณ€์ˆ˜์˜ ํŒจํ„ด๊ณผ ์ข…์† ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ž…๋ ฅ ๊ฐ’์— ๋Œ€ํ•œ ์˜ˆ์ธก ๊ฐ’์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Regression์€ ์˜ˆ์ธก, ์ถ”์„ธ ๋ถ„์„, ํšŒ๊ท€ ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ฃผํƒ ๊ฐ€๊ฒฉ ์˜ˆ์ธก, ๋งค์ถœ ์˜ˆ์ธก, ์„ผ์„œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋“ฑ์˜ ๋ฌธ์ œ์— Regression์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Regression ๋ชจ๋ธ์€ ์ž…๋ ฅ ๋ณ€์ˆ˜์™€ ์ถœ๋ ฅ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๋ณต์žกํ•œ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ž…๋ ฅ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ํ•ด๋‹น ๋ณ€์ˆ˜๋“ค ๊ฐ„์˜ ์ƒ๊ด€์„ฑ์„ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Regularization Techniques

Regularization Techniques์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ๊ณผ์ ํ•ฉ(Overfitting)์„ ๋ฐฉ์ง€ํ•˜๊ณ  ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•๋“ค์˜ ๋ชจ์Œ์ž…๋‹ˆ๋‹ค. ๊ณผ์ ํ•ฉ์€ ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์ง€๋‚˜์น˜๊ฒŒ ๋งž์ถ”์–ด์ ธ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ํ˜„์ƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. Regularization Techniques์€ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ œ์–ดํ•˜๊ณ  ๊ฐ€์ค‘์น˜๋ฅผ ์ œํ•œํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” Regularization Techniques์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค:

  1. L1 Regularization (Lasso): ๋ชจ๋ธ์˜ ์†์‹ค ํ•จ์ˆ˜์— ๊ฐ€์ค‘์น˜์˜ ์ ˆ๋Œ“๊ฐ’์— ๋Œ€ํ•œ ํŒจ๋„ํ‹ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ํŠน์ • ๊ฐ€์ค‘์น˜๋“ค์„ 0์œผ๋กœ ๋งŒ๋“ค์–ด ๋ณ€์ˆ˜ ์„ ํƒ(Feature Selection)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

  2. L2 Regularization (Ridge): ๋ชจ๋ธ์˜ ์†์‹ค ํ•จ์ˆ˜์— ๊ฐ€์ค‘์น˜์˜ ์ œ๊ณฑ์— ๋Œ€ํ•œ ํŒจ๋„ํ‹ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ฐ€์ค‘์น˜ ๊ฐ’์ด ์ž‘์•„์ง€๋„๋ก ์ œ์–ดํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ž…๋‹ˆ๋‹ค.

  3. Dropout: ํ•™์Šต ์ค‘์— ๋žœ๋คํ•˜๊ฒŒ ์ผ๋ถ€ ๋‰ด๋Ÿฐ์„ ์ œ๊ฑฐํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ถ€๋ถ„ ๋ชจ๋ธ๋“ค์„ ์•™์ƒ๋ธ”ํ•˜๊ณ , ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  4. Early Stopping: ํ•™์Šต ๊ณผ์ • ์ค‘์— ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์˜ ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋˜์ง€ ์•Š์„ ๋•Œ ํ•™์Šต์„ ์กฐ๊ธฐ์— ์ข…๋ฃŒํ•˜์—ฌ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.

์ด ์™ธ์—๋„ ๋ชจ๋ธ ๋ณต์žก๋„๋ฅผ ์ œ์–ดํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์ค‘์น˜ ๊ฐ์†Œ(Weight Decay), ๋ฐฐ์น˜ ์ •๊ทœํ™”(Batch Normalization) ๋“ฑ์˜ Regularization Techniques์ด ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Regularization Techniques์€ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก๋ ฅ์„ ๊ฐœ์„ ํ•˜์—ฌ ๋” ์•ˆ์ •์ ์ด๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

โ€‹

โ€‹

โ€‹

  1. Restricted/Deep Bolzman Machine

Restricted Boltzmann Machine (RBM)์€ ํ™•๋ฅ ์ ์ธ ๊ทธ๋ž˜ํ”ฝ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ, ๋น„์ง€๋„ํ•™์Šต(Unsupervised Learning)์„ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์˜ ํ•œ ์ข…๋ฅ˜์ž…๋‹ˆ๋‹ค. RBM์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ ์ ์ธ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ณ , ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

RBM์€ visible layer์™€ hidden layer๋กœ ๊ตฌ์„ฑ๋œ ์–‘๋ฐฉํ–ฅ ๊ทธ๋ž˜ํ”„ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Visible layer๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , hidden layer๋Š” ๋ฐ์ดํ„ฐ์˜ ์ถ”์ƒํ™”๋œ ํŠน์ง•์„ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. RBM์€ visible layer์™€ hidden layer ์‚ฌ์ด์˜ ์—ฐ๊ฒฐ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ–๊ณ  ์žˆ์œผ๋ฉฐ, ์ด ๊ฐ€์ค‘์น˜๋ฅผ ํ†ตํ•ด ํ™•๋ฅ ์ ์ธ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค.

RBM์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ชจ๋ธ์„ ํ•™์Šตํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ RBM์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ hidden layer์˜ ํ™œ์„ฑํ™” ๊ฐ’์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐฑ์‹ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด RBM์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ํ‘œํ˜„ํ•˜๋Š” ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Deep Boltzmann Machine (DBM)์€ RBM์„ ์—ฌ๋Ÿฌ ์ธต์œผ๋กœ ์Œ“์•„ ์˜ฌ๋ฆฐ ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. DBM์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ RBM์„ ์Œ“์•„ ์˜ฌ๋ฆผ์œผ๋กœ์จ ๋” ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ํ‘œํ˜„์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์ธต์˜ RBM์€ ์ด์ „ ์ธต์˜ hidden layer๋ฅผ ๋‹ค์Œ ์ธต์˜ visible layer๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์Œ“์•„ ์˜ฌ๋ ค์ง„ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

RBM๊ณผ DBM์€ ์ฃผ๋กœ ์ฐจ์› ์ถ•์†Œ, ํŠน์ง• ์ถ”์ถœ, ์ƒ์„ฑ ๋ชจ๋ธ๋ง ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, DBM์€ ๋น„์ง€๋„ํ•™์Šต์— ๊ธฐ๋ฐ˜ํ•œ ๋”ฅ๋Ÿฌ๋‹์˜ ์ดˆ๊ธฐ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ์จ, ์ด๋ฏธ์ง€, ์Œ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๋ฐ์ดํ„ฐ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Sigmoid/Tanh Activation Function

Sigmoid ํ•จ์ˆ˜์™€ Tanh ํ•จ์ˆ˜๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜(Activation Function) ์ค‘ ์ผ๋ถ€์ž…๋‹ˆ๋‹ค.

Sigmoid ํ•จ์ˆ˜๋Š” ์ฃผ์–ด์ง„ ์ž…๋ ฅ์— ๋Œ€ํ•ด 0๊ณผ 1 ์‚ฌ์ด์˜ ์—ฐ์†์ ์ธ ์ถœ๋ ฅ ๊ฐ’์„ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด f(x) = 1 / (1 + exp(-x))์ž…๋‹ˆ๋‹ค. Sigmoid ํ•จ์ˆ˜๋Š” ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ถœ๋ ฅ์„ ํ™•๋ฅ ์ฒ˜๋Ÿผ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ์ด์šฉํ•˜์—ฌ ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ํ™•๋ฅ ๊ฐ’์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Sigmoid ํ•จ์ˆ˜๋Š” ์ž…๋ ฅ๊ฐ’์ด ํฌ๊ฑฐ๋‚˜ ์ž‘์„ ๋•Œ ๊ทธ๋ž˜๋””์–ธํŠธ ์†Œ์‹ค(Vanishing Gradient) ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๊ณ , ์ถœ๋ ฅ๊ฐ’์˜ ์ค‘์‹ฌ์ด 0์— ๊ฐ€๊นŒ์›Œ์ง์œผ๋กœ์จ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์˜ ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋Š๋ ค์งˆ ์ˆ˜ ์žˆ๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Tanh ํ•จ์ˆ˜๋Š” -1๊ณผ 1 ์‚ฌ์ด์˜ ์—ฐ์†์ ์ธ ์ถœ๋ ฅ ๊ฐ’์„ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด f(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x))์ž…๋‹ˆ๋‹ค. Tanh ํ•จ์ˆ˜๋Š” Sigmoid ํ•จ์ˆ˜์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ, ์ถœ๋ ฅ ๋ฒ”์œ„๊ฐ€ -1๊ณผ 1๋กœ ํ™•์žฅ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด Tanh ํ•จ์ˆ˜๋Š” ์ž…๋ ฅ๊ฐ’์ด 0 ๊ทผ์ฒ˜์ผ ๋•Œ ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Tanh ํ•จ์ˆ˜๋„ ์ž…๋ ฅ๊ฐ’์ด ํฌ๊ฑฐ๋‚˜ ์ž‘์„ ๋•Œ ๊ทธ๋ž˜๋””์–ธํŠธ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Sigmoid ํ•จ์ˆ˜์™€ Tanh ํ•จ์ˆ˜๋Š” ์ฃผ๋กœ ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ์ถœ๋ ฅ์ธต์˜ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” ReLU(Recitified Linear Unit)์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๊ฐ€ ๋” ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ReLU๋Š” ๊ณ„์‚ฐ์ด ๊ฐ„๋‹จํ•˜๊ณ , ๊ทธ๋ž˜๋””์–ธํŠธ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ์™„ํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์ด ์žˆ์–ด ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Softmax Activation Function

Softmax ํ•จ์ˆ˜๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์—์„œ ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ์ถœ๋ ฅ์ธต์˜ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉ๋˜๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. Softmax ํ•จ์ˆ˜๋Š” ์ฃผ์–ด์ง„ ์ž…๋ ฅ ๋ฒกํ„ฐ์— ๋Œ€ํ•ด ๊ฐ ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์„ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

Softmax ํ•จ์ˆ˜๋Š” ์ž…๋ ฅ ๋ฒกํ„ฐ์˜ ์›์†Œ๋“ค์„ ์ •๊ทœํ™”ํ•˜์—ฌ ์ถœ๋ ฅ๊ฐ’์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด, ์ฃผ์–ด์ง„ ์ž…๋ ฅ ๋ฒกํ„ฐ x = [x1, x2, โ€ฆ, xn]์— ๋Œ€ํ•ด Softmax ํ•จ์ˆ˜์˜ ์ถœ๋ ฅ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค:

softmax(x) = [exp(x1) / (exp(x1) + exp(x2) + โ€ฆ + exp(xn)), exp(x2) / (exp(x1) + exp(x2) + โ€ฆ + exp(xn)), โ€ฆ, exp(xn) / (exp(x1) + exp(x2) + โ€ฆ + exp(xn))]

Softmax ํ•จ์ˆ˜๋Š” ์ž…๋ ฅ ๋ฒกํ„ฐ์˜ ๊ฐ ์›์†Œ๋ฅผ ์ง€์ˆ˜ ํ•จ์ˆ˜๋กœ ๋ณ€ํ™˜ํ•œ ๋’ค, ๋ณ€ํ™˜๋œ ๊ฐ’๋“ค์˜ ํ•ฉ์œผ๋กœ ๊ฐ ์›์†Œ๋ฅผ ๋‚˜๋ˆ„์–ด ์ •๊ทœํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ถœ๋ ฅ ๋ฒกํ„ฐ์˜ ์›์†Œ๋“ค์€ 0๊ณผ 1 ์‚ฌ์ด์˜ ํ™•๋ฅ ๊ฐ’์ด ๋˜๋ฉฐ, ๋ชจ๋“  ์›์†Œ์˜ ํ•ฉ์€ 1์ด ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์„ฑ์œผ๋กœ Softmax ํ•จ์ˆ˜๋Š” ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ๊ฐ ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

Softmax ํ•จ์ˆ˜๋Š” ํฐ ์ž…๋ ฅ๊ฐ’์— ๋Œ€ํ•ด ์ง€์ˆ˜ ํ•จ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜๋ฏ€๋กœ ์ˆ˜์น˜์ ์ธ ์•ˆ์ •์„ฑ์— ์ฃผ์˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ž…๋ ฅ๊ฐ’์—์„œ ์ตœ๋Œ“๊ฐ’์„ ๋นผ์ฃผ์–ด ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด Softmax ํ•จ์ˆ˜์˜ ์ถœ๋ ฅ๊ฐ’์€ ๋ณ€ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ์ˆ˜์น˜์ ์ธ ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Softmax ํ•จ์ˆ˜๋Š” ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ํ™•๋ฅ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋ฉฐ, ํ•ญ์ƒ ํ•˜๋‚˜์˜ ํด๋ž˜์Šค์— ๋Œ€ํ•ด์„œ๋งŒ ํ™•๋ฅ ์ ์ธ ์„ ํƒ์„ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ํด๋ž˜์Šค๋“ค์— ๋Œ€ํ•œ ํ™•๋ฅ ๊ฐ’์ด ๋‚ฎ์•„์ง€๋Š” ํŠน์„ฑ์„ ๊ฐ€์ง€๋ฏ€๋กœ, ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ๊ฐ€์žฅ ํ™•๋ฅ ์ด ๋†’์€ ํด๋ž˜์Šค๋ฅผ ์„ ํƒํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Sparse Regularization

Sparse Regularization์€ ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ •๊ทœํ™”(regularization) ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ, ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜(weight) ๋˜๋Š” ๊ณ„์ˆ˜(coefficient)์— ํฌ์†Œ์„ฑ(sparcity)์„ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

ํฌ์†Œ์„ฑ์€ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜ ๋˜๋Š” ๊ณ„์ˆ˜ ์ค‘ ์ผ๋ถ€๊ฐ€ 0์ธ ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. Sparse Regularization์€ ์ด๋Ÿฌํ•œ ํฌ์†Œ์„ฑ์„ ๊ฐ•ํ™”์‹œํ‚ค๋Š” ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ํฌ์†Œ์„ฑ์„ ๋ถ€์—ฌํ•˜๋Š” ์ด์œ ๋Š” ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋‚˜ ๊ณ„์ˆ˜ ์ค‘ ์ผ๋ถ€๊ฐ€ 0์ด๋ฉด ํ•ด๋‹น ๋ณ€์ˆ˜๊ฐ€ ๋ชจ๋ธ์— ์˜ํ–ฅ์„ ๊ฑฐ์˜ ๋ฏธ์น˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ํฌ์†Œ์„ฑ์„ ๋†’์ด๋Š” ๊ฒƒ์€ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ด๊ณ , ๋ถˆํ•„์š”ํ•œ ๋ณ€์ˆ˜์˜ ์˜ํ–ฅ์„ ์ค„์ด๋Š” ํšจ๊ณผ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ๋ชจ๋ธ์˜ ํ•ด์„๋ ฅ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Sparse Regularization์„ ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋Š” L1 Regularization์ด ์žˆ์Šต๋‹ˆ๋‹ค. L1 Regularization์€ ๊ฐ€์ค‘์น˜ ๋˜๋Š” ๊ณ„์ˆ˜์˜ ์ ˆ๋Œ“๊ฐ’์„ ํŒจ๋„ํ‹ฐ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์ผ๋ถ€ ๊ฐ€์ค‘์น˜๋‚˜ ๊ณ„์ˆ˜๊ฐ€ 0์ด ๋˜๋Š” ํšจ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. L1 Regularization์€ Lasso Regression ๋“ฑ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ๋ณ€์ˆ˜ ์„ ํƒ๊ณผ ๋ณ€์ˆ˜ ์ค‘์š”๋„ ์ถ”์ • ๋“ฑ์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

Sparse Regularization์€ ๋ณ€์ˆ˜ ์„ ํƒ, ํŠน์ง• ์„ ํƒ, ์ฐจ์› ์ถ•์†Œ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌธ์ œ์— ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์†Œํ•œ ๊ฒฝ์šฐ๋‚˜ ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ์— ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ถˆํ•„์š”ํ•œ ๋ณ€์ˆ˜๋ฅผ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ด๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

โ€‹

  1. Stochastic Gradient Descent (SGD)

Stochastic Gradient Descent (SGD)๋Š” ๊ธฐ๊ณ„ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ตœ์ ํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ Gradient Descent์™€ ๋น„๊ตํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž‘์€ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜(mini-batch) ๋‹จ์œ„๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

SGD๋Š” ๋งค ๋ฐ˜๋ณต๋งˆ๋‹ค ์ „์ฒด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ฐ ๋ฐ˜๋ณต์—์„œ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ๋“ค์— ๋Œ€ํ•œ ์†์‹ค ํ•จ์ˆ˜์˜ ๊ทธ๋ž˜๋””์–ธํŠธ(gradient)๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ณ„์‚ฐ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ค„์—ฌ์คŒ์œผ๋กœ์จ ํ•™์Šต ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

SGD๋Š” ๋ฏธ๋‹ˆ ๋ฐฐ์น˜๋งˆ๋‹ค ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์†์‹ค ํ•จ์ˆ˜์˜ ๊ทธ๋ž˜๋””์–ธํŠธ ๊ณ„์‚ฐ์ด ๋น ๋ฅด๋ฉฐ, ํฐ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ SGD๋Š” ๋ฏธ๋‹ˆ ๋ฐฐ์น˜์˜ ์„ ํƒ์— ์˜ํ•ด ํ›ˆ๋ จ ๊ณผ์ •์ด ๋…ธ์ด์ฆˆ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๊ณ , ์ด์— ๋”ฐ๋ผ ์ˆ˜๋ ด ์†๋„๊ฐ€ ์กฐ๊ธˆ ๋” ๋ถˆ์•ˆ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ถˆ์•ˆ์ •์„ฑ์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต๋ฅ (learning rate)์„ ์กฐ์ ˆํ•˜๊ฑฐ๋‚˜ ๋ชจ๋ฉ˜ํ…€(Momentum)๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

SGD๋Š” ๋”ฅ๋Ÿฌ๋‹์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ณต์žกํ•œ ๋ชจ๋ธ์—์„œ๋„ ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, SGD๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋‹ค์–‘ํ•œ ๋ณ€ํ˜• ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค๋„ ๊ฐœ๋ฐœ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋“ค์€ SGD์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๊ธฐ์—ฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Tensor

Tensor(ํ…์„œ)๋Š” ๋‹ค์ฐจ์› ๋ฐฐ์—ด๋กœ์จ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ์ž๋ฃŒ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์Šค์นผ๋ผ(0์ฐจ์› ํ…์„œ), ๋ฒกํ„ฐ(1์ฐจ์› ํ…์„œ), ํ–‰๋ ฌ(2์ฐจ์› ํ…์„œ)์„ ๋น„๋กฏํ•˜์—ฌ ๊ณ ์ฐจ์›์˜ ๋‹ค์ฐจ์› ๋ฐฐ์—ด์„ ํ…์„œ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ…์„œ๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ ๋‹ค์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋ฒกํ„ฐ์™€ ๋งค์šฐ ์œ ์‚ฌํ•œ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ๊ฐ ์ฐจ์›์€ ํ…์„œ์˜ ์ถ•(axis)์ด๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋ฉฐ, ํ…์„œ์˜ ์š”์†Œ(element)๋Š” ํ•ด๋‹น ์ถ•์— ๋Œ€ํ•œ ์ธ๋ฑ์Šค๋กœ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 2์ฐจ์› ํ…์„œ(ํ–‰๋ ฌ)์˜ ๊ฒฝ์šฐ ํ–‰๊ณผ ์—ด์— ๋Œ€ํ•œ ์ธ๋ฑ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ์š”์†Œ์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ…์„œ๋Š” ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์ธ๊ณต ์‹ ๊ฒฝ๋ง๊ณผ ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ, ๊ฐ€์ค‘์น˜(weight), ํŽธํ–ฅ(bias), ๊ทธ๋ผ๋””์–ธํŠธ(gradient) ๋“ฑ์„ ํ…์„œ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ์—ฐ์‚ฐ ๋ฐ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ปดํ“จํ„ฐ ๋น„์ „, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ, ์Œ์„ฑ ์ธ์‹ ๋“ฑ์˜ ๋ถ„์•ผ์—์„œ ์ด๋ฏธ์ง€, ํ…์ŠคํŠธ, ์˜ค๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ํ…์„œ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

ํ…์„œ๋Š” ๋‹ค์ฐจ์› ๋ฐฐ์—ด์ด๋ฏ€๋กœ ๋‹ค์–‘ํ•œ ์ฐจ์›๊ณผ ํฌ๊ธฐ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฐ ์š”์†Œ๋Š” ์ˆซ์ž, ๋ฌธ์ž, ๋…ผ๋ฆฌ ๊ฐ’ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ํƒ€์ž…์œผ๋กœ ๊ตฌ์„ฑ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ…์„œ๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ์ค‘์š”ํ•œ ๊ฐœ๋…์ด๋ฉฐ, ๋งŽ์€ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ํ…์„œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Transfer Learning Techniques

Transfer Learning์€ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ํ•œ ๋„๋ฉ”์ธ์—์„œ ํ•™์Šตํ•œ ๋ชจ๋ธ์˜ ์ง€์‹๊ณผ ํŠน์„ฑ์„ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์˜ ๋ฌธ์ œ์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์— ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์ผ๋ถ€ ๋˜๋Š” ์ „์ฒด๋ฅผ ์ƒˆ๋กœ์šด ๋ฌธ์ œ์— ์žฌ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ์‹œ๊ฐ„๊ณผ ๋ฐ์ดํ„ฐ ์–‘์„ ์ ˆ์•ฝํ•˜๊ณ  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Transfer Learning์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•๋“ค๋กœ ๊ตฌํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. Pretrained Model์˜ ํ™œ์šฉ: ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜, ๊ฐ์ฒด ๊ฐ์ง€, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•ด ์‚ฌ์ „์— ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋กœ๋Š” ImageNet ๋ฐ์ดํ„ฐ์…‹์—์„œ ์‚ฌ์ „์— ํ•™์Šต๋œ CNN (Convolutional Neural Network) ๋ชจ๋ธ์„ ๊ฐ€์ ธ์™€ ์ƒˆ๋กœ์šด ์ž‘์—…์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  2. Feature Extraction: ์‚ฌ์ „์— ํ•™์Šต๋œ ๋ชจ๋ธ์—์„œ ํŠน์„ฑ ์ถ”์ถœ์„ ์œ„ํ•ด ์ƒ์œ„ ๋ ˆ์ด์–ด๋ฅผ ์ œ์™ธํ•œ ํ•˜์œ„ ๋ ˆ์ด์–ด๋ฅผ ๊ณ ์ •์‹œํ‚ค๊ณ , ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•ด๋‹น ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์„ฑ ์ถ”์ถœ๊ธฐ๋Š” ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์œ„ํ•ด ์ƒˆ๋กœ์šด ๋ถ„๋ฅ˜๊ธฐ์™€ ํ•จ๊ป˜ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  3. Fine-tuning: ์‚ฌ์ „์— ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์ผ๋ถ€ ์ƒ์œ„ ๋ ˆ์ด์–ด๋ฅผ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋งž๊ฒŒ ์žฌํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ํ•˜์œ„ ๋ ˆ์ด์–ด๋Š” ๊ณ ์ •์‹œํ‚ค๊ณ , ์ƒ์œ„ ๋ ˆ์ด์–ด๋ฅผ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋” ์ž˜ ์ ์‘ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

Transfer Learning์€ ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๊ณ , ํ•™์Šต ์‹œ๊ฐ„์„ ๋‹จ์ถ•์‹œํ‚ฌ ์ˆ˜ ์žˆ์–ด ์‹ค์ œ ์‘์šฉ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‚ฌ์ „์— ํ•™์Šต๋œ ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ž‘์—…์— ๊ฑธ์ณ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์–ด, ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Unsupervised Learning

Unsupervised Learning(๋น„์ง€๋„ ํ•™์Šต)์€ ๊ธฐ๊ณ„ ํ•™์Šต์˜ ํ•œ ๋ถ„์•ผ๋กœ, ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋˜์ง€ ์•Š์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ•™์Šต ๋ฐฉ์‹์—์„œ๋Š” ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ๋‚˜ ํŒจํ„ด์„ ์Šค์Šค๋กœ ๋ฐœ๊ฒฌํ•˜๊ณ  ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

๋น„์ง€๋„ ํ•™์Šต์€ ์ฃผ์–ด์ง„ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์—์„œ ํŠน์ง•์ด๋‚˜ ๊ตฌ์กฐ๋ฅผ ์ถ”์ถœํ•˜๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฐ์ง‘ํ™”(cluster)ํ•˜๋Š” ๋“ฑ์˜ ์ž‘์—…์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ๋น„์ง€๋„ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ๊ตฐ์ง‘ํ™”(Clustering): ๋น„์Šทํ•œ ํŠน์„ฑ์„ ๊ฐ€์ง€๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋ฃนํ™”ํ•˜๋Š” ์ž‘์—…์œผ๋กœ, ๋ฐ์ดํ„ฐ์˜ ๋‚ด๋ถ€ ํŒจํ„ด์„ ๋ฐœ๊ฒฌํ•ฉ๋‹ˆ๋‹ค. K-means ํด๋Ÿฌ์Šคํ„ฐ๋ง, ๊ณ„์ธต์  ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  2. ์ฐจ์› ์ถ•์†Œ(Dimensionality Reduction): ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์œผ๋กœ ์••์ถ•ํ•˜๋Š” ์ž‘์—…์œผ๋กœ, ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”ํ•œ ํŠน์„ฑ์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์„ฑ๋ถ„ ๋ถ„์„(PCA), ์ž๊ธฐ ์กฐ์งํ™” ์ง€๋„(SOM), t-SNE ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  3. ๋ฐ€๋„ ์ถ”์ •(Density Estimation): ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜์—ฌ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋ฅผ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์šฐ์‹œ์•ˆ ํ˜ผํ•ฉ ๋ชจ๋ธ(GMM), ์ปค๋„ ๋ฐ€๋„ ์ถ”์ •(KDE) ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋น„์ง€๋„ ํ•™์Šต์€ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ์™€ ํŒจํ„ด์„ ํŒŒ์•…ํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ๋ฐ์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„์—์„œ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜์–ด ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๋ฐ์—๋„ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Vanishing/Exploding Gradient Problem

Vanishing/Exploding Gradient Problem(๊ธฐ์šธ๊ธฐ ์†Œ์‹ค/ํญ๋ฐœ ๋ฌธ์ œ)์€ ์‹ ๊ฒฝ๋ง ํ•™์Šต์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋กœ, ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹ ๊ฒฝ๋ง์„ ํ•™์Šตํ•  ๋•Œ ๊ธฐ์šธ๊ธฐ ๊ฐ’์ด ์ง€๋‚˜์น˜๊ฒŒ ์ž‘์•„์ง€๊ฑฐ๋‚˜ ์ปค์ง€๋Š” ํ˜„์ƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์šธ๊ธฐ๋Š” ์—ญ์ „ํŒŒ ๊ณผ์ •์—์„œ ์ด์ „ ๋ ˆ์ด์–ด๋กœ ์ „๋‹ฌ๋˜๋Š”๋ฐ, ์ด๋•Œ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ๊ณผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๋„ํ•จ์ˆ˜๋ฅผ ๊ณฑํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๋„ํ•จ์ˆ˜๊ฐ€ 1๋ณด๋‹ค ์ž‘์€ ๊ฐ’์ธ ๊ฒฝ์šฐ, ์—ญ์ „ํŒŒ๋˜๋Š” ๊ธฐ์šธ๊ธฐ๋Š” ์ด์ „ ๋ ˆ์ด์–ด๋กœ ์ „๋‹ฌ๋  ๋•Œ ์ง€์ˆ˜์ ์œผ๋กœ ๊ฐ์†Œํ•˜๋ฉฐ ์†Œ๋ฉธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๋ฐ˜๋Œ€๋กœ, ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๋„ํ•จ์ˆ˜๊ฐ€ 1๋ณด๋‹ค ํฐ ๊ฐ’์ธ ๊ฒฝ์šฐ, ๊ธฐ์šธ๊ธฐ๋Š” ์ง€์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ ์ด์ „ ๋ ˆ์ด์–ด๋กœ ์ „๋‹ฌ๋  ๋•Œ ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ธฐ์šธ๊ธฐ ํญ๋ฐœ ๋ฌธ์ œ๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๋ฉด, ํ•˜์œ„ ๋ ˆ์ด์–ด์˜ ๊ฐ€์ค‘์น˜๊ฐ€ ๊ฑฐ์˜ ์—…๋ฐ์ดํŠธ๋˜์ง€ ์•Š๊ณ  ํ•™์Šต์ด ์ œ๋Œ€๋กœ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๊ธฐ์šธ๊ธฐ ํญ๋ฐœ ๋ฌธ์ œ๋Š” ์ˆ˜์น˜ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ”Œ๋กœ์šฐ๋กœ ์ธํ•ด ๋ชจ๋ธ์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€๊ณ  ๋ฐœ์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋“ค์ด ์ œ์•ˆ๋˜์—ˆ๋Š”๋ฐ, ๊ทธ ์ค‘ ์ผ๋ถ€๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์„ ํƒ, ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•, ๊ทธ๋ ˆ๋””์–ธํŠธ ํด๋ฆฌํ•‘, ์ •๊ทœํ™” ๋“ฑ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ ๊ธฐ์šธ๊ธฐ์˜ ์•ˆ์ •์ ์ธ ์ „๋‹ฌ์„ ๋ณด์žฅํ•˜๊ณ  ์‹ ๊ฒฝ๋ง ํ•™์Šต์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

  1. Variational Autoencoders (VAEs)

โ€‹

Variational Autoencoders (VAEs)๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ•œ ์ข…๋ฅ˜๋กœ, ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. VAE๋Š” ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ์ ์ธ ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•˜๊ณ , ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์กฐ์ž‘ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

VAE๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ Autoencoder ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. Autoencoder๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์˜ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ์ธ์ฝ”๋”ฉํ•œ ๋‹ค์Œ, ๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ VAE๋Š” ์ผ๋ฐ˜์ ์ธ Autoencoder์™€ ๋‹ฌ๋ฆฌ ์ž ์žฌ ๊ณต๊ฐ„์— ๋Œ€ํ•œ ํ™•๋ฅ ์ ์ธ ๋ชจ๋ธ๋ง์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

VAE์—์„œ ์ž ์žฌ ๊ณต๊ฐ„์€ ๋ณดํ†ต ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ํ™•๋ฅ  ๋ณ€์ˆ˜๋กœ ๋ชจ๋ธ๋ง๋ฉ๋‹ˆ๋‹ค. ์ธ์ฝ”๋”๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ด ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์€ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ์ƒ˜ํ”Œ๋ง ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

ํ•™์Šต ๊ณผ์ •์—์„œ VAE๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜์—ฌ ์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•˜๊ณ , ๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์žฌ๊ตฌ์„ฑ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ, ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ์ƒ˜ํ”Œ๋ง์€ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ํ™•๋ฅ ์ ์œผ๋กœ ์ˆ˜ํ–‰๋˜๋ฉฐ, ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ์ƒ˜ํ”Œ๋ง๊ณผ ๋””์ฝ”๋”๋ฅผ ํ†ตํ•œ ์žฌ๊ตฌ์„ฑ ๊ณผ์ •์„ ํ†ตํ•ด ์›๋ณธ ๋ฐ์ดํ„ฐ์™€ ์žฌ๊ตฌ์„ฑ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.

VAE๋Š” ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ์ ์ธ ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜๊ณ , ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์กฐ์ž‘ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ž ์žฌ ๊ณต๊ฐ„์˜ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์กฐ์ž‘ํ•˜๊ฑฐ๋‚˜ ๋ณด๊ฐ„ํ•˜๋Š” ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ์‘์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

โ€‹

  1. Word Embeddings

Word Embeddings(๋‹จ์–ด ์ž„๋ฒ ๋”ฉ)์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ๋‹จ์–ด๋ฅผ ์ˆ˜์น˜์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์–ด๋ฅผ ๋ฐ€์ง‘๋œ ๊ณต๊ฐ„์— ๋งคํ•‘ํ•˜์—ฌ ์˜๋ฏธ์ ์ธ ์œ ์‚ฌ์„ฑ์„ ๋ณด์กดํ•˜๊ณ  ๋‹จ์–ด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์€ ๋‹จ์–ด๋ฅผ ํฌ์†Œ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” One-hot Encoding์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋‹จ์–ด๋งˆ๋‹ค ๊ณ ์œ ํ•œ ์ธ๋ฑ์Šค๋ฅผ ๋ถ€์—ฌํ•˜๊ณ , ํ•ด๋‹นํ•˜๋Š” ์ธ๋ฑ์Šค ์œ„์น˜์—๋งŒ 1์„ ๊ฐ€์ง€๋Š” ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ํ‘œํ˜„์€ ๋‹จ์–ด ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ์„ ํฌ์ฐฉํ•˜๊ธฐ ์–ด๋ ต๊ณ , ๋ฒกํ„ฐ์˜ ์ฐจ์›์ด ๋‹จ์–ด ์ง‘ํ•ฉ์˜ ํฌ๊ธฐ์— ๋น„๋ก€ํ•˜์—ฌ ๋งค์šฐ ํฌ๊ณ  ํฌ์†Œํ•œ ํŠน์ง•์„ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, Word Embeddings์€ ๋‹จ์–ด๋ฅผ ์ €์ฐจ์›์˜ ์‹ค์ˆ˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฒกํ„ฐ๋Š” ๋‹จ์–ด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•˜๊ณ , ์˜๋ฏธ์ ์ธ ์œ ์‚ฌ์„ฑ์„ ๊ฐ€์ง€๋ฉฐ, ๋‹จ์–ด ๊ฐ„์˜ ์—ฐ์‚ฐ์ด ๊ฐ€๋Šฅํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. Word Embeddings๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์— ์˜ํ•ด ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ Word Embeddings ๋ชจ๋ธ๋กœ๋Š” Word2Vec, GloVe, FastText ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Word Embeddings์€ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฌธ์„œ ๋ถ„๋ฅ˜, ๊ฐœ์ฒด๋ช… ์ธ์‹, ๊ฐ์„ฑ ๋ถ„์„ ๋“ฑ์˜ ์ž‘์—…์—์„œ ์ž…๋ ฅ ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋ชจ๋ธ์— ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜, ๋‹จ์–ด ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ์„ ๊ณ„์‚ฐํ•˜์—ฌ ์œ ์‚ฌ ๋‹จ์–ด๋ฅผ ์ฐพ๋Š” ๋“ฑ์˜ ํ™œ์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. Word Embeddings์€ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ณด๋‹ค ํšจ๊ณผ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ , ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.