Merge branch 'yueshen/support_llama4_hf_mlm_import' into 'main'

deepakn94 · deepakn94 · commit d338252b864b · 2025-08-09T20:03:21.000-07:00
Support Llama4 HF checkpoint to MLM checkpoint

See merge request ADLR/megatron-lm!3731
diff --git a/examples/post_training/modelopt/conf/arguments.sh b/examples/post_training/modelopt/conf/arguments.sh
@@ -50,7 +50,7 @@ fi
 
 if [ -z ${ETP} ]; then
     ETP=${TP}
-    printf "${MLM_WARNING} Variable ${PURPLE}TP${WHITE} not set! (default: ${ETP})\n"
+    printf "${MLM_WARNING} Variable ${PURPLE}ETP${WHITE} not set! (default: ${ETP})\n"
 fi
 
 if [ -z ${EP} ]; then
@@ -70,7 +70,7 @@ fi
 
 
 if [ -z ${LAUNCH_SCRIPT} ]; then
-    LAUNCH_SCRIPT="torchrun --nproc_per_node=$((TP * EP * PP * DP))"
+    LAUNCH_SCRIPT="torchrun --nproc_per_node=$((ETP * EP * PP * DP))"
 fi
 
 # Install TensorRT Model Optimizer if haven't.
diff --git a/examples/post_training/modelopt/conf/meta-llama/Llama-4-Maverick-17B-128E-Instruct.sh b/examples/post_training/modelopt/conf/meta-llama/Llama-4-Maverick-17B-128E-Instruct.sh
@@ -49,4 +49,5 @@ MODEL_ARGS=" \
     --rotary-interleaved \
     --no-rope-freq 4 \
     --export-moe-apply-probs-on-input \
+    --padded-vocab-size 202048 \
 "
diff --git a/examples/post_training/modelopt/conf/meta-llama/Llama-4-Scout-17B-16E-Instruct.sh b/examples/post_training/modelopt/conf/meta-llama/Llama-4-Scout-17B-16E-Instruct.sh
@@ -50,4 +50,5 @@ MODEL_ARGS=" \
     --no-bias-swiglu-fusion \
     --export-qk-l2-norm \
     --export-moe-apply-probs-on-input \
+    --padded-vocab-size 202048 \
 "
diff --git a/examples/post_training/modelopt/conf/qwen/Qwen2.5-0.5B-Instruct.sh b/examples/post_training/modelopt/conf/qwen/Qwen2.5-0.5B-Instruct.sh
@@ -0,0 +1,37 @@
+#!/bin/bash
+
+if [ -z ${HF_MODEL_CKPT} ]; then
+    HF_MODEL_CKPT=Qwen/Qwen2.5-0.5B
+    TOKENIZER_MODEL=Qwen/Qwen2.5-0.5B
+else
+    TOKENIZER_MODEL=${HF_MODEL_CKPT}
+fi
+
+MODEL_ARGS=" \
+    --save-interval 100000 \
+    --micro-batch-size 1 \
+    --bf16 \
+    --no-masked-softmax-fusion \
+    --disable-bias-linear \
+    --add-qkv-bias \
+    --position-embedding-type rope \
+    --no-rope-fusion \
+    --normalization RMSNorm \
+    --swiglu \
+    --num-layers 24 \
+    --hidden-size 896 \
+    --ffn-hidden-size 4864 \
+    --num-attention-heads 14 \
+    --group-query-attention \
+    --num-query-groups 2 \
+    --kv-channels 64 \
+    --seq-length 4096 \
+    --max-position-embeddings 32768 \
+    --tokenizer-type HuggingFaceTokenizer \
+    --padded-vocab-size 151936 \
+    --make-vocab-size-divisible-by 1 \
+    --use-mcore-models \
+    --rotary-percent 1.0 \
+    --rotary-base 1000000 \
+    --no-bias-swiglu-fusion \
+"
diff --git a/examples/post_training/modelopt/conf/qwen/Qwen2.5-7B-Instruct.sh b/examples/post_training/modelopt/conf/qwen/Qwen2.5-7B-Instruct.sh
@@ -0,0 +1,38 @@
+#!/bin/bash
+
+if [ -z ${HF_MODEL_CKPT} ]; then
+    HF_MODEL_CKPT=Qwen/Qwen2.5-7B-Instruct
+    TOKENIZER_MODEL=Qwen/Qwen2.5-7B-Instruct
+else
+    TOKENIZER_MODEL=${HF_MODEL_CKPT}
+fi
+
+MODEL_ARGS=" \
+    --save-interval 100000 \
+    --micro-batch-size 1 \
+    --bf16 \
+    --no-masked-softmax-fusion \
+    --disable-bias-linear \
+    --add-qkv-bias \
+    --position-embedding-type rope \
+    --no-rope-fusion \
+    --normalization RMSNorm \
+    --swiglu \
+    --num-layers 28 \
+    --hidden-size 3584 \
+    --ffn-hidden-size 18944 \
+    --num-attention-heads 28 \
+    --group-query-attention \
+    --num-query-groups 4 \
+    --kv-channels 128 \
+    --seq-length 4096 \
+    --max-position-embeddings 32768 \
+    --tokenizer-type HuggingFaceTokenizer \
+    --padded-vocab-size 152064 \
+    --make-vocab-size-divisible-by 1 \
+    --use-mcore-models \
+    --rotary-percent 1.0 \
+    --rotary-base 1000000 \
+    --no-bias-swiglu-fusion \
+    --untie-embeddings-and-output-weights \
+"
diff --git a/examples/post_training/modelopt/convert_model.py b/examples/post_training/modelopt/convert_model.py
@@ -13,6 +13,7 @@
 
 from megatron.core import mpu
 from megatron.core.enums import ModelType
+from megatron.core.parallel_state import destroy_model_parallel
 from megatron.post_training.arguments import add_modelopt_args
 from megatron.post_training.checkpointing import load_modelopt_checkpoint
 from megatron.post_training.model_provider import model_provider
@@ -183,3 +184,5 @@ def check_arguments():
     torch.distributed.barrier()
 
     save_checkpoint(1, model, None, None, 0)
+
+    destroy_model_parallel()
diff --git a/megatron/training/arguments.py b/megatron/training/arguments.py
@@ -2451,6 +2451,10 @@ def _add_tokenizer_args(parser):
     group = parser.add_argument_group(title='tokenizer')
     group.add_argument('--vocab-size', type=int, default=None,
                        help='Size of vocab before EOD or padding.')
+    group.add_argument('--padded-vocab-size', type=int, default=None,
+                       help='Vocabulary size of the model (padded to be divisible by '
+                       'tensor model parallel size). If not provided, it will be '
+                       'automatically calculated from vocab-size.')
     group.add_argument('--vocab-file', type=str, default=None,
                        help='Path to the vocab file.')
     group.add_argument('--merge-file', type=str, default=None,

Original file line number	Diff line number	Diff line change
`@@ -49,4 +49,5 @@ MODEL_ARGS=" \`
`49`	`49`	`--rotary-interleaved \`
`50`	`50`	`--no-rope-freq 4 \`
`51`	`51`	`--export-moe-apply-probs-on-input \`
	`52`	`+ --padded-vocab-size 202048 \`
`52`	`53`	`"`
Original file line number	Diff line number	Diff line change
`@@ -50,4 +50,5 @@ MODEL_ARGS=" \`
`50`	`50`	`--no-bias-swiglu-fusion \`
`51`	`51`	`--export-qk-l2-norm \`
`52`	`52`	`--export-moe-apply-probs-on-input \`
	`53`	`+ --padded-vocab-size 202048 \`
`53`	`54`	`"`