@@ -49,13 +49,14 @@ LightLLM 支持以下几种部署模式:
4949.. code-block :: bash
5050
5151 # H200 单机 DeepSeek-R1 DP + EP 模式
52- MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
52+ LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
5353 --model_dir /path/DeepSeek-R1 \
5454 --tp 8 \
55- --dp 8
55+ --dp 8 \
56+ --enable_ep_moe
5657
5758 **参数说明: **
58- - `MOE_MODE=EP `: 设置专家并行模式
59+ - `--enable_ep_moe `: 设置专家并行模式
5960- `--tp 8 `: 张量并行度
6061- `--dp 8 `: 数据并行度,通常设置为与 tp 相同的值
6162
@@ -119,14 +120,14 @@ LightLLM 支持以下几种部署模式:
119120 # H200 多机 DeepSeek-R1 EP 模式 Node 0
120121 # 使用方法: sh multi_node_ep_node0.sh <nccl_host>
121122 export nccl_host=$1
122- MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
123+ LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
123124 --model_dir /path/DeepSeek-R1 \
124125 --tp 16 \
125126 --dp 16 \
126127 --nnodes 2 \
127128 --node_rank 0 \
128129 --nccl_host $nccl_host \
129- --nccl_port 2732
130+ --nccl_port 2732 --enable_ep_moe
130131
131132 **Node 1 启动命令: **
132133
@@ -135,14 +136,14 @@ LightLLM 支持以下几种部署模式:
135136 # H200 多机 DeepSeek-R1 EP 模式 Node 1
136137 # 使用方法: sh multi_node_ep_node1.sh <nccl_host>
137138 export nccl_host=$1
138- MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
139+ LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
139140 --model_dir /path/DeepSeek-R1 \
140141 --tp 16 \
141142 --dp 16 \
142143 --nnodes 2 \
143144 --node_rank 1 \
144145 --nccl_host $nccl_host \
145- --nccl_port 2732
146+ --nccl_port 2732 --enable_ep_moe
146147
147148 **可选优化参数: **
148149- `--enable_prefill_microbatch_overlap `: 启用预填充微批次重叠
@@ -179,7 +180,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
179180 export host=$1
180181 export pd_master_ip=$2
181182 nvidia-cuda-mps-control -d
182- MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
183+ LOADWORKER=18 python -m lightllm.server.api_server \
183184 --model_dir /path/DeepSeek-R1 \
184185 --run_mode " prefill" \
185186 --tp 8 \
@@ -189,7 +190,8 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
189190 --nccl_port 2732 \
190191 --disable_cudagraph \
191192 --pd_master_ip $pd_master_ip \
192- --pd_master_port 60011
193+ --pd_master_port 60011 \
194+ --enable_ep_moe
193195 # 如果需要启用微批次重叠,可以取消注释以下行
194196 # --enable_prefill_microbatch_overlap
195197
@@ -202,7 +204,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
202204 export host=$1
203205 export pd_master_ip=$2
204206 nvidia-cuda-mps-control -d
205- MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
207+ LOADWORKER=18 python -m lightllm.server.api_server \
206208 --model_dir /path/DeepSeek-R1 \
207209 --run_mode " decode" \
208210 --tp 8 \
@@ -212,7 +214,8 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
212214 --nccl_port 12322 \
213215 --disable_cudagraph \
214216 --pd_master_ip $pd_master_ip \
215- --pd_master_port 60011
217+ --pd_master_port 60011 \
218+ --enable_ep_moe
216219 # 如果需要启用微批次重叠,可以取消注释以下行
217220 # --enable_decode_microbatch_overlap
218221
@@ -269,7 +272,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
269272 export host=$1
270273 export config_server_host=$2
271274 nvidia-cuda-mps-control -d
272- MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
275+ LOADWORKER=18 python -m lightllm.server.api_server \
273276 --model_dir /path/DeepSeek-R1 \
274277 --run_mode " prefill" \
275278 --host $host \
@@ -279,15 +282,16 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
279282 --nccl_port 2732 \
280283 --disable_cudagraph \
281284 --config_server_host $config_server_host \
282- --config_server_port 60088
285+ --config_server_port 60088 \
286+ --enable_ep_moe
283287 # 如果需要启用微批次重叠,可以取消注释以下行
284288 # --enable_prefill_microbatch_overlap
285289
286290 # Decode 服务
287291 export host=$1
288292 export config_server_host=$2
289293 nvidia-cuda-mps-control -d
290- MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
294+ LOADWORKER=18 python -m lightllm.server.api_server \
291295 --model_dir /path/DeepSeek-R1 \
292296 --run_mode " decode" \
293297 --host $host \
@@ -296,7 +300,8 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
296300 --tp 8 \
297301 --dp 8 \
298302 --config_server_host $config_server_host \
299- --config_server_port 60088
303+ --config_server_port 60088 \
304+ --enable_ep_moe
300305 # 如果需要启用微批次重叠,可以取消注释以下行
301306 # --enable_decode_microbatch_overlap
302307
0 commit comments