Computer Science/์ธ๊ณต์ง€๋Šฅ

[์ธ๊ณต์ง€๋Šฅ] SP09-Regularization

ํ•˜์ด๋žŒ 2023. 12. 20. 01:12

์ผ๋ฐ˜ํ™”(generalization) ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ•๋“ค

Early stopping
๋งค iteration๋งˆ๋‹ค validation performance๋ฅผ ์ธก์ •ํ•˜์—ฌ, ์ผ์ • ๊ธฐ๊ฐ„ ๋™์•ˆ ๊ฐœ์„ ์ด ์—†์„ ์‹œ ๊ณผ์ ํ•ฉ๋˜๊ธฐ ์ „์— ํ•™์Šต์„ ์กฐ๊ธฐ ์ข…๋ฃŒํ•ด์ฃผ๋Š” ๊ธฐ๋Šฅ์ด๋‹ค.

 

Ensembling
์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ณ , ๊ทธ ์˜ˆ์ธก์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ตœ์ข… ์˜ˆ์ธก์„ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•

๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•  ๋•Œ, regression ๋ฌธ์ œ๋Š” output๋“ค์˜ ํ‰๊ท ์„ ์‚ฌ์šฉํ•˜๊ณ  classification ๋ฌธ์ œ๋Š” softmax activation์„ ๊ฑฐ์น˜๊ธฐ ์ „ ๊ฐ’๋“ค์˜ ํ‰๊ท ์„ ์‚ฌ์šฉํ•œ๋‹ค. ๋˜๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ  regression ๋ฌธ์ œ๋Š” output๋“ค์˜ ์ค‘์•™๊ฐ’์„ ์‚ฌ์šฉํ•˜๊ณ  classification ๋ฌธ์ œ๋Š” ์ตœ๋นˆ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.

๋ชจ๋ธ๋ณ„๋กœ ๋‹ค๋ฅธ ์ดˆ๊ธฐ๊ฐ’์„ ์ฃผ๊ฑฐ๋‚˜, ๋ฐ์ดํ„ฐ์…‹์„ re-samplingํ•˜๊ฑฐ๋‚˜, ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋‹ฌ๋ฆฌํ•˜๊ฑฐ๋‚˜, ๋‹ค๋ฅธ ์œ ํ˜•์˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋“ฑ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ชจ๋ธ ๊ฐ„์— ์ฐจ์ด๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

 

Dropout
ํ•™์Šต ๊ณผ์ •์—์„œ, ๋งค iteration๋งˆ๋‹ค ๋ฌด์ž‘์œ„๋กœ ํŠน์ • ๋น„์œจ์˜ ๋‰ด๋Ÿฐ์„ ๋„๋Š” ๋ฐฉ๋ฒ•

kink๋ฅผ ์œ ๋ฐœํ•˜๋Š” ํ•™์Šต์ด ๋œ ๋œ unit์„ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๊ณ , ํ•ด๋‹น unit์„ ํ•™์Šต์‹œํ‚ค๋ฏ€๋กœ์จ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

 

Transfer learning
์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์ผ๋ถ€๋ฅผ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์— ์žฌ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•

secondary task๋ฅผ ํ†ตํ•ด ๋‚ด๋ถ€์ ์ธ ๊ฐœ๋…์„ ์ตํžˆ๊ณ , original task์— ์ ์šฉํ•œ๋‹ค.

๋‚ด๋ถ€์  ๊ฐœ๋…์„ ์ตํ˜€ ๋ชจ๋ธ๋ง์„ ํ•œ ํ›„์— ๋งˆ์ง€๋ง‰ layer์„ ์‚ญ์ œํ•˜๊ณ  ํ•œ ๊ฐœ ์ด์ƒ์˜ layer๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ original task์— ๋งž๋„๋ก fine-tuningํ•œ๋‹ค.

 

Multi-task learning
์—ฌ๋Ÿฌ task๋ฅผ ๋™์‹œ์— ํ•™์Šตํ•˜์—ฌ, ๊ฐ ์ž‘์—…์—์„œ ์–ป์€ ์ง€์‹์„ ๊ณต์œ ํ•˜๋Š” ๋ฐฉ๋ฒ•

์ด๋ ‡๊ฒŒ ๋™์‹œ์— ํ•™์Šต์„ ํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋  ์ˆ˜ ์žˆ๋‹ค.

 

Self-supervised learning
๋ ˆ์ด๋ธ”์ด ์—†๋Š” ์ƒํƒœ์—์„œ ์Šค์Šค๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•

- Generative: ์Šค์Šค๋กœ ๋งˆ์Šคํ‚นํ•˜๊ณ  ๋งž์ถ”๊ธฐ

์˜ˆ๋ฅผ ๋“ค์–ด ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์ด๋ฏธ์ง€์—์„œ ๋žœ๋คํ•˜๊ฒŒ ์ผ๋ถ€๋ถ„์„ ์ง€์šฐ๊ณ , ๋ชจ๋ธ์ด ์ฑ„์šฐ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

- Contrastive: ๊ณตํ†ต์ ์œผ๋กœ ๋น„๊ตํ•˜๊ธฐ

์˜ˆ๋ฅผ ๋“ค์–ด ์„œ๋กœ ์ด์–ด์ง€๋Š” ๋ฌธ์žฅ์ธ์ง€ ํ™•์ธํ•œ๋‹ค.

 

Data augmentation
๊ธฐ์กด์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ˜•ํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ˜•์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•

์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘ํ•œ ๋ณ€ํ˜•์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์˜์–ด๋‚˜ ๋‹ค๋ฅธ ์–ธ์–ด๋กœ ๋ฒˆ์—ญํ•œ ํ›„ ๋‹ค์‹œ ๋ฒˆ์—ญํ•˜์˜€์„ ๋•Œ ์ผ์น˜ํ•˜๋Š” ์ง€ ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.