LLM์ด ์จ ์ฃผ๋ ์ฝ๋๋ฅผ ์ ์ ์ผ๋ก ๋ฏฟ์ด๋ ๋๋์?
Claude Code๋ ๋๋ถ๋ถ์ ์์ ์ ๋ฅ์ํ๊ฒ ์ฒ๋ฆฌํ์ง๋ง, ์์งํ ํ๊ฐํ์๋ฉด ์ฌ์ฉ์ฌ์ฉ ์ค์๋ฅผ ์์ฃผ ํ๋ ํธ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ํ ๋ฒ์ Qwen๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ต์์ ์์ฑํ๋ผ๊ณ ํ๋๋ ๋ช ์๊ฐ์งธ ์์ ์ด ๋๋์ง ์์๊ณ , ํ์ธํด ๋ณด๋ batch size 1๋ก ๋ฃจํ๋ฅผ ๋๊ณ ์์์ต๋๋ค. ์ํ ์ ์ ์ด๊ฑธ ๊ณ ์น๋ผ๊ณ ํ๋ฉด ๋ ๊ธ๋ฐฉ ์ค์ค๋ก ์ ๊ณ ์น๋ค๋ ๊ฒ์ ๋๋ค. ์ฆ, ์๊ธฐ๋ ํ ์ค์ ์๋๋ฐ๋ (๊ฐ์ด๋ ์์ด๋) ์ค์ค๋ก ํ์ง๋ ์๋๋ผ๊ณ ์.
์๋ฐํ๊ฒ ๋ฐ์ง์๋ฉด ์ ๊ฐ prompt๋ฅผ ambiguousํ๊ฒ ์ ๊ณตํ์ผ๋, ์ ์๋ชป์ด์ฃ . ๊ทธ๋ฐ๋ฐ ๊ทธ๋ ๊ฒ ์ดํดํ๋ ค๋ค๊ฐ๋, ๊ฒฐ๊ตญ ๋ค์ ์๋ฌธ์ด ๋ค์์ต๋๋ค. ๊ทธ๋ผ ๋ด๊ฐ ํ๋ํ๋ ์ธ์ธํ๊ฒ prompt๋ก ์ง์ค์ผ ํ๋? ์๋๋ฉด generate๋ ์ฝ๋๋ฅผ ๋ด๊ฐ ์ ๋ถ ๊ฒ์ํด์ผ ํ๋? ๊ทธ๋ด ๊ฑฐ๋ฉด ๋ด๊ฐ ์ Claude๋ฅผ ์ฐ์ง?
Scalable Managing
NAVER์ MIT์์ ์ธํด๋ค์ ์ง๋ํ ๋๋ ์ ํํ ๋น์ทํ ๊ณ ๋ฏผ์ ํ๋ค๋ ์ฌ์ค์ด ๋ ์ฌ๋์ต๋๋ค. ์์ Junior ์์ ์๋ ์ ์ผ์ ์ ๊ฐ ์ง์ ํ๊ณ , ๊ทธ๋๋ Claude ๊ฐ์ ๋๊ตฌ๋ ์์์ผ๋, ์ ๊ฐ ์์ฑํ ์ฝ๋์ ์ ๊ฐ ํ๊ณ ์๋ ์ผ์ low-level๊น์ง ๋ชจ๋ ์ดํดํ๊ณ ์์์ต๋๋ค. ํ์ง๋ง ์ธํด๋ค๊ณผ ํจ๊ป ์ผํ๊ธฐ ์์ํ๋ฉด์, ๊ทธ๋ถ๋ค์ด ์์ฑํ ์ฝ๋๋ฅผ ๋ด๊ฐ ํ๋ํ๋ ๋ค ๋ด์ค ์๋ ์๋ค๋ ์ฌ์ค์ ๋ฐ์๋ค์ฌ์ผ ํ์ต๋๋ค. ๋ฌผ๋ก ๊ฐ๋ฅ์ ํ์ฃ . ํ์ง๋ง ๊ทธ๊ฒ์ scalableํ ํ์ ๋ฐฉ์์ด ์๋์์ต๋๋ค. ๊ทธ๋ ๋ค๊ณ ์ธํด์ ๊ฒฐ๊ณผ๋ฌผ์ ์์ ํ ์ ๋ขฐํ๋ ๊ฒ๋ ์ฅ๊ธฐ์ ์ผ๋ก๋ ์ข์ ๋ฐฉ๋ฒ์ด ์๋๋ ๊ฒ๋ ๊ณง ๋ฐฐ์ฐ๊ฒ ๋์์ต๋๋ค.
๊ทธ ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ ์ตํ ์ง๋ ๋ฐฉ๋ฒ์: ๊ฐ์ ธ์จ ๊ฒฐ๊ณผ๋ฌผ์ ๋ํด counterfactualํ ์ง๋ฌธ์ ๋์ง๋ ๊ฒ์ด์์ต๋๋ค. A ์๋๋ฆฌ์ค์์๋ ์ด๋ ๋์ง, B์์๋ ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์๋์ง, C์์๋ ๋ ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง๋ฅผ ์ข ๋ ๊ตฌ์ฒด์ ์ผ๋ก ๋ฌป๋ ๋ฐฉ์์ด์ฃ . ์ฌ์ค ์ด๋ฐ ์ง๋ฌธ๋ค์ ๋ํด์๋ ์ด๋ฏธ ์ด๋ ์ ๋ ๋ต์ ์ง์ํ๊ณ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ์์งํ ๋งํ๋ฉด ๊ฒฐ๊ณผ ์์ฒด๊ฐ ๊ถ๊ธํ๋ค๊ธฐ๋ณด๋ค๋, ๋ด๊ฐ ์๊ฐํ ๋ฐฉ์๋๋ก ์์ ํ๋ค๋ฉด ๋์ฌ ๊ฒ์ด๋ผ๊ณ ์์๋๋ ๊ฒฐ๊ณผ๋ค์ด ์ค์ ๋ก๋ ๊ทธ๋ ๊ฒ ๋์ค๋์ง๋ฅผ ํ์ธํ๋ ๊ณผ์ ์ ๊ฐ๊น์ ์ต๋๋ค.
Claude์๊ฒ ์ผ์ ์ํฌ ๋๋ ์ต์ํ ๋ด๊ฐ ๊ทธ ์ผ์ ๊ฒฐ๊ณผ๊ฐ ๋๋ต ์ด๋ค ๋ชจ์์ด์ด์ผ ํ๋์ง๋ฅผ ์๊ณ ์์ผ๋ฉด, Claude์ output์ ์ฌ์ฉํ๋ ๋ฐ ๋ํ reliability๊ฐ ํฌ๊ฒ ์ฌ๋ผ๊ฐ๋ค๋ ์ ์ ๊นจ๋ฌ์์ต๋๋ค. ์ธ๋ถ์ ์ธ ๊ฒฐ๊ณผ๊น์ง ์์ ํ ์์๊ณผ ๊ฐ์ ํ์๋ ์์ต๋๋ค. ํ์ง๋ง ๋ง๋ ์ ๋๋ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋ฉด, ๋ฌด์ธ๊ฐ๊ฐ ํ๋ ธ๋ค๋ ๊ฐํ signal๋ก ๋ฐ์๋ค์ด๋ ๊ฑฐ์ฃ .1
Stochastic Blackbox
(์์ง์) LLM agent๋ฅผ Stochastic Blackbox Tool๋ก ๋ด์ผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค.2 ์์ฐ์ฑ์ ๋์ด๊ธฐ ์ํด Claude๋ฅผ ์ฐ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, Claude๊ฐ ์ ์ด ์ค ์ฝ๋๋ฅผ ํ ์ค ํ ์ค ์ฝ๋ ๊ฒ์ ๊ทธ ์๋ฏธ๊ฐ ํด์๋ฉ๋๋ค. (์ฌ์ค ์ฝ๋๋ค ํด๋ ์ ๋๋ก ๋ฒ๊ทธ๋ฅผ ์ฐพ์๋ผ ์์ ๋ ์์ต๋๋ค.) ๊ทธ๋ ๋ค๋ฉด ์ฐจ๋ผ๋ฆฌ LLM agent๋ฅผ blackbox๋ก ์๊ฐํ๊ณ , ์ด ๊ฒฐ๊ณผ๋ฌผ์ reliability๋ฅผ ์ด๋ป๊ฒ ๊ฒ์ฆํ๊ณ ๋ณด์ฅํ ๊ฒ์ธ์ง ๊ณ ๋ฏผํ๋ ํธ์ด ๋ ํจ์จ์ ์ด์ง ์์๊น์?
์ฌ์ค ์ด๋ฐ ์ ๋ต ์์ฒด๊ฐ ์์ ํ ์๋ก์ด ๊ฒ์ ์๋ ๊ฒ ๊ฐ์ต๋๋ค. ์ ๊ฐ Instagram Ad Ranking ํ์์ ์ผํ๋ ๋ฐฉ์์ด ์ ํํ ๊ทธ๋ฌ์ต๋๋ค. ์์ง๋์ด๋ค์ ๋ชจ๋ธ์ ๋ง๋ค๊ณ , ํ์ฌ๋ statistically reliableํ evaluation tool์ ์ค๊ณํด ์ ๊ณตํฉ๋๋ค. ์์ง๋์ด๋ internal testing์ ๋ง์น ๋ชจ๋ธ์ ์ต์ข evaluation tool์ ๋ฃ๊ณ score๋ฅผ ๋ฐ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ score๊ฐ ๊ณง ๊ทธ ๋ชจ๋ธ์ reliability๋ฅผ ๋๋ณํฉ๋๋ค. Evaluation tool์ด ์์ง๋์ด๋ค์ ์ฝ๋๋ฅผ ์ฝ์ง ์์ฃ .
Agent๊ฐ ๋ฐ์ด๋ ์ ์๋ ์ธ์์ ๋ง๋ค์ด์ฃผ๊ธฐ
์ข์ evaluation protocol์ ์ค๊ณํ๋ ์ผ์ ๋ถ๋ช ์๊ฐ์ด ๋ง์ด ๋ญ๋๋ค. ํ์ง๋ง ํ ๋ฒ ์ ๋๋ก ๋ง๋ค์ด๋๋ฉด, ๊ทธ ์ดํ์๋ agent์๊ฒ ๋งก๊ธธ ์ ์๋ ์ผ์ ๋ฒ์๋ฅผ ํจ์ฌ ๋ scalableํ๊ฒ ๋ํ ์ ์์ต๋๋ค. ๊ทธ๋์ ๊ฒฐ๊ตญ์ ๋๋ผ๊ฒ ๋ ๊ฒ์:
prompt๋ฅผ ์ ์ฐ๋ ๊ฒ๋ ์ค์ํ์ง๋ง, ๊ทธ๋ณด๋ค ๋จผ์ “๋ด๊ฐ ํ๊ณ ์ถ์ ๋ฌธ์ ๊ฐ ์ ํํ ๋ฌด์์ธ์ง”, “์ ํ๋ ธ์ ๋ ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์์ผ ํ๋์ง”๋ฅผ ์ค๊ณํ๋ ๋ฐ ๋ ๋ง์ ์๊ฐ๊ณผ ๋ ธ๋ ฅ์ ์จ์ผ ํ๋ค๋ ์ ์ด์์ต๋๋ค.
๋ ํ๋ ์ ์ ๋ ๊ฐํ๊ฒ ๋๋ผ๋ ๊ฑด, ์ต์ข ๊ฒฐ๊ณผ๋ง ๋ณด๋ ๊ฒ์ผ๋ก๋ ๋ถ์กฑํ๋ค๋ ๊ฒ์ ๋๋ค. intermediate result๊น์ง ํจ๊ป ํ์ธํด์ผ ํฉ๋๋ค. ๋ง์น RL์์ sparse reward๋ณด๋ค dense reward๊ฐ ํ์ต์ ๋ ์ ๋ฆฌํ ๊ฒ์ฒ๋ผ, Claude ๊ฐ์ agent์๊ฒ๋ ๋ ์ด์ดํ evaluation signal์ด ํ์ํ๋ค๋ ์๊ฐ์ด ๋ญ๋๋ค.
์ด์ฉ๋ฉด Claude Code๋ฅผ ์ด๋ค๋ ๊ฑด, ๋ด๊ฐ ์ง์ agent๋ฅผ RL์ํค๋ ์ผ๊ณผ ๊ฝค ๋น์ทํ์ง๋ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ๋ด๊ฐ ํด์ผ ํ ์ผ์ agent๊ฐ ๋ฐ์ด๋ ์ ์๋ (constrained) ํ๊ฒฝ์ ์ค๊ณํ๊ณ , ๊ทธ ์์์ ์๋ํ reward model์ ์ ์ํ๊ณ ๊ณ์ ์์ ํด ๋๊ฐ๋ ๊ณผ์ ์ด ์๋๊น์?
์ฌ๋ด
ํ์ฌ/ํ๊ต์์ ๋งค๋์ /PI์ ์ผํ๋ค ๋ณด๋ฉด, ๊ฐ๋์ “์ ์ด๋ ๊ฒ๊น์ง ์์ฌ์ ํ์ง?” ์ถ์ ์๊ฐ๋ค์ด ์์ต๋๋ค. ์ด๋ค ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ๊ฐ๋ ์ผ๋จ ํ ๋ฒ์ ์์ฌ๋ถํฐ ํ์์ฃ . ์ฑ๋ฅ์ด ๊ธฐ๋ ์ด์์ผ๋ก ์ ๋์ค๋ฉด “์ค, ์ข๋ค!”๋ณด๋ค๋ “์ด๊ฑฐ ๋ญ๊ฐ ์๋ชป๋ ๊ฑฐ ์๋์ผ?”๋ผ๋ ๋ฐ์์ด ๋จผ์ ๋์ต๋๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์, ์ผ์๋ฌ(์ผ์ ์ํ๋ ์ฌ๋)๋ค์ ์ด๋ฌํ ์ง๋ฌธ๋ค์ ์ด๋ฏธ ์์ํ๊ณ ๋๋นํด ๋๋ค๋ ๊ฒ์ ๋๋ค. ์ค๊ฐ ๊ฒฐ๊ณผ๋ ์ด๋ ํ๋์ง, ํน์ ์กฐ๊ฑด์์๋ ์ด๋ค ์์์ด ๋ํ๋ฌ๋์ง, ์์ธ์ ์ธ ์ํฉ์์๋ ์ด๋ป๊ฒ ๋์ํ๋์ง์ ๊ฐ์ ์ง๋ฌธ์ ๋ํด, “์ด๋ฏธ ๋ชจ๋ ๊ฒํ ํด ๋ณด์๋ค”๊ณ ์์ฐ์ค๋ฝ๊ฒ ๋ตํ ์ ์๋ ์ํ๋ฅผ ๋ง๋ค์ด ๋ก๋๋ค. ๋จ์ํ ์ต์ข ๊ฒฐ๊ณผ๋ง์ ์ ์ํ๋ ๊ฒ์ด ์๋๋ผ, ๊ทธ ๊ฒฐ๊ณผ์ ์ด๋ฅด๊ธฐ๊น์ง์ ๊ณผ์ ๊ณผ ๋ค์ํ ๊ฐ๋ฅ์ฑ์ ํจ๊ป ์ ๊ฒํด ๋ ๊ฒ์ ๋๋ค.
๋ ๋์๊ฐ, ์ด๋ฌํ ์ฌ๋๋ค์ ๋งค๋์ ์ ์ฆ๊ฐ์ ์ธ ์ง๋ฌธ์๋ ์ ์ฐํ๊ฒ ๋์ํ ์ ์๋๋ก ์ฝ๋์ ์คํ ํ๊ฒฝ์ ์ค๊ณํด ๋ก๋๋ค. ํ์ํ๋ค๋ฉด ์ถ๊ฐ์ ์ธ ๋ถ์์ด๋ ๊ฒ์ฆ์ ๋น ๋ฅด๊ฒ ์ํํ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ๊ณ ์๊ธฐ ๋๋ฌธ์, ํ๊ฐ ๊ณผ์ ์์ฒด๋ฅผ ํจ์ฌ ์ ์ํ๊ณ ํจ์จ์ ์ผ๋ก ์งํํ ์ ์์ต๋๋ค. ๊ฒฐ๊ตญ ์ด๋ ๋จ์ํ ์ค๋น์ฑ์ ๋์ด, ๊ฒฐ๊ณผ์ ๋ํ ์ฑ ์๊ฐ๊ณผ ์ ๋ขฐ๋ฅผ ์ค์ค๋ก ํ๋ณดํ๋ ค๋ ํ๋์์ ๋น๋กฏ๋ ๊ฒ์ด ์๋๊น ์ถ์ต๋๋ค.
ํ๊ตญ์๋ ‘๊ฐ๋ก๊ฐ์ด ๋งํด๋ ์ฐฐ๋ก๊ฐ์ด ์์๋ฃ๋๋ค’๋ผ๋ ์๋ด์ด ์์ต๋๋ค.3 ๋ง์ฐฌ๊ฐ์ง๋ก ์ง๋ posting์์ ์ธ๊ธํ ๊ฒ์ฒ๋ผ, ์ฌ๋๋ค๋ ๋ ์ด์ “๋ชจ๋ฅด๊ฒ ์ต๋๋ค!”๋ง ๋ฐ๋ณตํ๋ i-don’t-know bot์ ์ข์ํ์ง ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ด ๋จ์ง uncertainty๋ฅผ ์ ํํํ๋ ๊ฒ์ ๋์ด, ๋์ ์ง๋ฌธ์ ์ดํดํ๊ณ , ์ฌ์ง์ด ํ ๋ฒ๋ ๋ณธ ์ ์๋ ์ํฉ์์๋ reliableํ decision์ ๋ด๋ ค์ฃผ๊ธฐ๋ฅผ ์ํฉ๋๋ค.
Claude Code๊ฐ ์์ง์ ‘์ผ์๋ฌ’์ ๋จ๊ณ์ ์ค๋ฅด์ง๋ ์์ ๊ฒ ๊ฐ์์, ์ด๋ ์ ๋๋ ์์ฌํ๋ฉฐ ์ฌ์ฉํ ํ์๊ฐ ์์ต๋๋ค. ๊ทธ๋ ๋ค๊ณ ํด์ ์ฝ๋๋ฅผ ์ค ๋จ์๋ก ๊ฒ์ดํ๋ฏ ํ์ธํ๋ ๋ฐฉ์์, ์ข์ ํ์ ๋ฐฉ์์ด๋ผ๊ณ ๋ณด๊ธด ์ด๋ ค์ด ๊ฒ ๊ฐ์ต๋๋ค.
1 ์ฌ์ค ์ด approach๋ ๋ด๊ฐ ๋์ ์ฝ๋์ ์ ๋ขฐ์ฑ์ ํ๊ฐํ ๋๋ ์ข ์ข ์ฐ๋ ๋ฐฉ๋ฒ์ด์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๋ก ๋ง๋ ์ถ์ฒ ์์คํ ๋ชจ๋ธ์ ํ ์คํธ๋ฅผ ํ๊ณ ์๋๋ฐ offline CTR์ด ๊ณผ๋ํ๊ฒ ๋๊ฒ ๋์๋ค๊ณ ๊ฐ์ ํฉ์๋ค. ์ด ๋๋ ๋ด๊ฐ ๋๋จํ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ค๊ณ ์์ถํ๋ ๊ฒ ๋ณด๋ค, ์ฌ์ฉํ๋ฉด ์๋๋ ํผ์ณ๋ user history๊ฐ ํ์ต๊ณผ์ ์ ์์ด๋ค์ด๊ฐ๊ตฌ๋ํ๊ณ ๋ฐ์๋ค์ด๋ ๊ฑฐ์ฃ . ↑
2 ์ด ๋ง์ 2025๋ 12์ NeurIPS์์ Ahmad๊ฐ ์ ๊ฒ ํด์ค ์ด์ผ๊ธฐ์ ๋๋ค. ↑
3 ํฅ๋ฏธ๋กญ๊ฒ๋ ์์ด์๋ “Ask a silly question, get a silly answer”๋ผ๋ ์๋ฐ๋ ํํ์ด ์์ต๋๋ค. ↑