We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
1 parent a25344d commit ed73cacCopy full SHA for ed73cac
โintermediate_source/TP_tutorial.rstโ
@@ -51,7 +51,7 @@ PyTorch์ Fully Sharded Data Parallel(FSDP)๋ ์ด๋ฏธ ๋ชจ๋ธ ํ์ต์ ํน์
51
Tensor Parallel๊ณผ FSDP์ ๊ฒฐํฉ์ด ํ์ํ, ๋ค์๊ณผ ๊ฐ์ ์ถ๊ฐ์ ์ธ ๊ณผ์ ๊ฐ ๋ค์ ๋ฐ์ํ ์ ์์ต๋๋ค.
52
53
1. ๊ทธ ์ธ๊ณ์ ํฌ๊ธฐ (GPU ์)๊ฐ ์ง๋์น๊ฒ ์ปค์ง์ ๋ฐ๋ผ (128/256 GPU ์ด๊ณผ), FSDP ์งํฉ(์๋ฅผ ๋ค์ด, ``allgather`` )์ ring latency๋ก ์ง๋ฐฐ๋๊ณ ์์ต๋๋ค. TP/SP๋ฅผ FSDP ์์ ๊ตฌํํ์ฌ, FSDP๋ฅผ ํธ์คํธ ๊ฐ์๋ง ์ ์ฉํ์ฌ FSDP ์ธ๊ณ ํฌ๊ธฐ๋ฅผ 8๊ฐ๋ก ์ค์ผ ์ ์์ผ๋ฉฐ, ๊ทธ์ ๋ฐ๋ผ ์ง์ฐ ๋น์ฉ๋ ๋์ผํ๊ฒ ์ค์ผ ์ ์์ต๋๋ค.
54
-2. ์๋ ด ๋ฐ GPU ๋ฉ๋ชจ๋ฆฌ ์ ํ์ผ๋ก ์ธํด ๊ธ๋ก๋ฒ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ GPU ์๋ณด๋ค ๋๊ฒ ์ค์ ํ ์ ์๋ ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ํ๊ณ๋ฅผ ๋ฌ์ฑํ๋ ค๋ฉด, Tensor/Sequence Parallel์ด ๊ธ๋ก๋ฒ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ "ballpark"ํ๊ณ , ๋ ๋ง์ GPU๋ก ํ์ฅํ๋ ์ ์ผํ ๋ฐฉ๋ฒ์ ๋๋ค.
+2. ์๋ ด ๋ฐ GPU ๋ฉ๋ชจ๋ฆฌ ์ ํ์ผ๋ก ์ธํด ๊ธ๋ก๋ฒ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ GPU ์๋ณด๋ค ๋๊ฒ ์ค์ ํ ์ ์๋ ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ํ๊ณ๋ฅผ ๋ฌ์ฑํ๋ ค๋ฉด, Tensor/Sequence Parallel์ด ๊ธ๋ก๋ฒ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ "์ถ์ (ballpark)"ํ๊ณ , ๋ ๋ง์ GPU๋ก ํ์ฅํ๋ ์ ์ผํ ๋ฐฉ๋ฒ์ ๋๋ค.
55
3. ํน์ ์ ํ์ ๋ชจ๋ธ์์๋ ๋ก์ปฌ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ ์์์ง๋ฉด, TP/SP๊ฐ ๋ถ๋ ์์์ ์ฐ์ฐ(FLOPS)์ ๋ ์ต์ ํ๋ ํ๋ ฌ ๊ณฑ ํํ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
56
57
๊ทธ๋์, ์ฌ์ ํ์ต์ ํ ๋, ์ด๋ฌํ ํ๊ณ๋ฅผ ๋ฌ์ฑํ๋ ๊ฐ์ฅ ์ฌ์ด ๋ฐฉ๋ฒ์ ๋ฌด์์ผ๊น์? ์ง๊ธ๋ถํฐ, ์์ญ์ต ํน์ ์์กฐ ๊ฐ์ ํ ํฐ์ ๊ฐ์ง ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ (LLM)์ ์ฌ์ ํ์ตํ๋ ๊ฒ์ ์์ฒ์ฅ์ GPU๋ฅผ ์ฌ์ฉํ ๋์กฐ์ฐจ, ์๊ฐ์์ด ์์๋ ์ ์์ต๋๋ค.
0 commit comments