jd-opensource
diff --git a/‎xllm/core/framework/model/causal_lm.h‎
Lines changed: 4 additions & 4 deletions b/‎xllm/core/framework/model/causal_lm.h‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎xllm/core/framework/model/causal_vlm.h‎
Lines changed: 2 additions & 2 deletions b/‎xllm/core/framework/model/causal_vlm.h‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎xllm/core/layers/word_embedding.h‎
Lines changed: 3 additions & 25 deletions b/‎xllm/core/layers/word_embedding.h‎
Lines changed: 3 additions & 25 deletions
diff --git a/‎xllm/core/runtime/acl_graph_executor_test.cpp‎
Lines changed: 4 additions & 3 deletions b/‎xllm/core/runtime/acl_graph_executor_test.cpp‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎xllm/core/runtime/llm_worker_impl.h‎
Lines changed: 2 additions & 2 deletions b/‎xllm/core/runtime/llm_worker_impl.h‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎xllm/models/llm/deepseek_v2.h‎
Lines changed: 8 additions & 6 deletions b/‎xllm/models/llm/deepseek_v2.h‎
Lines changed: 8 additions & 6 deletions
diff --git a/‎xllm/models/llm/deepseek_v2_mtp.h‎
Lines changed: 7 additions & 5 deletions b/‎xllm/models/llm/deepseek_v2_mtp.h‎
Lines changed: 7 additions & 5 deletions
diff --git a/‎xllm/models/llm/embedding_model_base.h‎
Lines changed: 2 additions & 2 deletions b/‎xllm/models/llm/embedding_model_base.h‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎xllm/models/llm/glm4_moe.h‎
Lines changed: 8 additions & 6 deletions b/‎xllm/models/llm/glm4_moe.h‎
Lines changed: 8 additions & 6 deletions
diff --git a/‎xllm/models/llm/glm4_moe_mtp.h‎
Lines changed: 8 additions & 6 deletions b/‎xllm/models/llm/glm4_moe_mtp.h‎
Lines changed: 8 additions & 6 deletions
@@ -69,9 +69,9 @@ class CausalLM : public torch::nn::Module {
 #if defined(USE_NPU)
   virtual layer::NpuLmHead get_lm_head() = 0;
   virtual void set_lm_head(layer::NpuLmHead& head) = 0;
-  virtual std::vector<layer::WordEmbedding> get_word_embedding() = 0;
+  virtual std::vector<layer::NpuWordEmbedding> get_word_embedding() = 0;
   virtual void set_word_embedding(
-      std::vector<layer::WordEmbedding>& embedding) = 0;
+      std::vector<layer::NpuWordEmbedding>& embedding) = 0;
 #endif
 };
 
@@ -113,12 +113,12 @@ class CausalLMImpl : public CausalLM {
     model_->set_lm_head(head);
   };
 
-  std::vector<layer::WordEmbedding> get_word_embedding() override {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() override {
     return model_->get_word_embedding();
   };
 
   void set_word_embedding(
-      std::vector<layer::WordEmbedding>& embedding) override {
+      std::vector<layer::NpuWordEmbedding>& embedding) override {
     model_->set_word_embedding(embedding);
   };
 #endif
 
@@ -70,12 +70,12 @@ class CausalVLMImpl : public CausalVLM {
     model_->set_lm_head(head);
   };
 
-  std::vector<layer::WordEmbedding> get_word_embedding() override {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() override {
     return model_->get_word_embedding();
   };
 
   void set_word_embedding(
-      std::vector<layer::WordEmbedding>& embedding) override {
+      std::vector<layer::NpuWordEmbedding>& embedding) override {
     model_->set_word_embedding(embedding);
   };
 #endif
 
@@ -24,35 +24,15 @@ namespace xllm {
 namespace layer {
 
 #if defined(USE_NPU)
-class WordEmbedding : public torch::nn::ModuleHolder<NpuWordEmbeddingImpl> {
+class NpuWordEmbedding : public torch::nn::ModuleHolder<NpuWordEmbeddingImpl> {
  public:
   using torch::nn::ModuleHolder<NpuWordEmbeddingImpl>::ModuleHolder;
   using Impl __attribute__((__unused__)) = NpuWordEmbeddingImpl;
-  WordEmbedding(const ModelContext& context)
+  NpuWordEmbedding(const ModelContext& context)
       : ModuleHolder(std::make_shared<NpuWordEmbeddingImpl>(context)) {}
 };
 
-/**
- * TODO: Rename the original WordEmbedding definition to NpuWordEmbedding,
- * and define the current one as WordEmbedding to unify NPU's WordEmbedding
- * related code with MLU and GPU
- */
-
-class WordEmbeddingNative : public torch::nn::ModuleHolder<WordEmbeddingImpl> {
- public:
-  using torch::nn::ModuleHolder<WordEmbeddingImpl>::ModuleHolder;
-  using Impl __attribute__((__unused__)) = WordEmbeddingImpl;
-  WordEmbeddingNative(int64_t num_embeddings,
-                      int64_t embedding_dim,
-                      const ParallelArgs& parallel_args,
-                      const torch::TensorOptions& options)
-      : ModuleHolder(std::make_shared<WordEmbeddingImpl>(num_embeddings,
-                                                         embedding_dim,
-                                                         parallel_args,
-                                                         options)) {}
-};
-
-#else
+#endif
 
 class WordEmbedding : public torch::nn::ModuleHolder<WordEmbeddingImpl> {
  public:
@@ -68,7 +48,5 @@ class WordEmbedding : public torch::nn::ModuleHolder<WordEmbeddingImpl> {
                                                          options)) {}
 };
 
-#endif
-
 }  // namespace layer
 }  // namespace xllm
@@ -243,13 +243,14 @@ class SimpleCausalLM : public CausalLM {
     // Simple implementation for testing
   }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() override {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() override {
     // Simple implementation for testing
-    return std::vector<layer::WordEmbedding>{layer::WordEmbedding(nullptr)};
+    return std::vector<layer::NpuWordEmbedding>{
+        layer::NpuWordEmbedding(nullptr)};
   }
 
   void set_word_embedding(
-      std::vector<layer::WordEmbedding>& embedding) override {
+      std::vector<layer::NpuWordEmbedding>& embedding) override {
     // Simple implementation for testing
   }
 
 
@@ -49,11 +49,11 @@ class LLMWorkerImpl : public WorkerImpl {
 
   void set_lm_head(layer::NpuLmHead& head) { model_->set_lm_head(head); };
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return model_->get_word_embedding();
   };
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& embedding) {
+  void set_word_embedding(std::vector<layer::NpuWordEmbedding>& embedding) {
     model_->set_word_embedding(embedding);
   };
 #endif
 
@@ -119,7 +119,7 @@ class DeepseekV2ModelImpl : public torch::nn::Module {
         model_args.rope_scaling_original_max_position_embeddings());
     float sm_scale = 1.0f;
     for (auto i = 0; i < FLAGS_micro_batch_num; i++) {
-      embed_tokens_.push_back(layer::WordEmbedding(context));
+      embed_tokens_.push_back(layer::NpuWordEmbedding(context));
       pos_embs_.push_back(create_rotary_embedding(model_args,
                                                   model_args.rotary_dim(),
                                                   inv_freq,
@@ -264,11 +264,12 @@ class DeepseekV2ModelImpl : public torch::nn::Module {
     layers_[layer_id]->update_expert_weight();
   }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return embed_tokens_;
   }
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& word_embedding) {
+  void set_word_embedding(
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     embed_tokens_ = word_embedding;
   }
 
@@ -285,7 +286,7 @@ class DeepseekV2ModelImpl : public torch::nn::Module {
   int32_t num_speculative_tokens_ = 0;
   at::Device device_;
   torch::Dtype dtype_;
-  std::vector<layer::WordEmbedding> embed_tokens_;
+  std::vector<layer::NpuWordEmbedding> embed_tokens_;
   std::vector<std::shared_ptr<RotaryEmbedding>> pos_embs_;
   std::vector<layer::PosEmbedding> atb_pos_embs_;
   layer::AttentionMask attn_mask_;
@@ -347,11 +348,12 @@ class DeepseekV2ForCausalLMImpl : public torch::nn::Module {
 
   void set_lm_head(layer::NpuLmHead& head) { lm_head_ = head; }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return model_->get_word_embedding();
   }
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& word_embedding) {
+  void set_word_embedding(
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     model_->set_word_embedding(word_embedding);
   }
 
 
@@ -218,11 +218,12 @@ class DeepseekV2MtpModelImpl : public torch::nn::Module {
     final_norm_->merge_loaded_weights();
   }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return embed_tokens_;
   }
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& word_embedding) {
+  void set_word_embedding(
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     embed_tokens_ = word_embedding;
   }
 
@@ -237,7 +238,7 @@ class DeepseekV2MtpModelImpl : public torch::nn::Module {
   nlohmann::json mapping_data_;
   int32_t num_experts_per_tok_;
   at::Device device_;
-  std::vector<layer::WordEmbedding> embed_tokens_;
+  std::vector<layer::NpuWordEmbedding> embed_tokens_;
   std::vector<std::shared_ptr<RotaryEmbedding>> pos_embs_;
   std::vector<layer::PosEmbedding> atb_pos_embs_;
   layer::AttentionMask attn_mask_;
@@ -300,11 +301,12 @@ class DeepseekV2MtpForCausalLMImpl : public torch::nn::Module {
 
   void set_lm_head(layer::NpuLmHead& head) { lm_head_ = head; }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return model_->get_word_embedding();
   }
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& word_embedding) {
+  void set_word_embedding(
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     model_->set_word_embedding(word_embedding);
   }
 
 
@@ -78,12 +78,12 @@ class LlmForEmbeddingImplBase : public torch::nn::Module {
 
   virtual void set_lm_head(layer::NpuLmHead& head) { lm_head_ = head; }
 
-  virtual std::vector<layer::WordEmbedding> get_word_embedding() {
+  virtual std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return model_->get_word_embedding();
   }
 
   virtual void set_word_embedding(
-      std::vector<layer::WordEmbedding>& word_embedding) {
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     model_->set_word_embedding(word_embedding);
   }
 
 
@@ -85,7 +85,7 @@ class Glm4MoeModelImpl : public torch::nn::Module {
     dtype_ = options.dtype().toScalarType();
     num_speculative_tokens_ = model_args.num_speculative_tokens();
     embed_tokens_ =
-        register_module("embed_tokens", layer::WordEmbedding(context));
+        register_module("embed_tokens", layer::NpuWordEmbedding(context));
 
     atb_pos_emb_ = layer::PosEmbedding(context);
     cos_sin_ = get_concat_rotary_embedding(64,
@@ -221,11 +221,12 @@ class Glm4MoeModelImpl : public torch::nn::Module {
     norm_->merge_loaded_weights();
   }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return {embed_tokens_};
   }
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& word_embedding) {
+  void set_word_embedding(
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     embed_tokens_ = word_embedding[0];
   }
 
@@ -242,7 +243,7 @@ class Glm4MoeModelImpl : public torch::nn::Module {
   int32_t num_speculative_tokens_ = 0;
   at::Device device_;
   torch::Dtype dtype_;
-  layer::WordEmbedding embed_tokens_{nullptr};
+  layer::NpuWordEmbedding embed_tokens_{nullptr};
   layer::AttentionMask attn_mask_;
   layer::NpuRmsNorm norm_{nullptr};
   torch::Tensor cos_sin_;
@@ -301,11 +302,12 @@ class Glm4MoeForCausalLMImpl : public torch::nn::Module {
 
   void set_lm_head(layer::NpuLmHead& head) { lm_head_ = head; }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return model_->get_word_embedding();
   }
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& word_embedding) {
+  void set_word_embedding(
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     model_->set_word_embedding(word_embedding);
   }
 
 
@@ -41,7 +41,7 @@ class Glm4MoeMtpModelImpl : public torch::nn::Module {
     dtype_ = options.dtype().toScalarType();
     num_speculative_tokens_ = model_args.num_speculative_tokens();
     embed_tokens_ =
-        register_module("embed_tokens", layer::WordEmbedding(context));
+        register_module("embed_tokens", layer::NpuWordEmbedding(context));
 
     atb_pos_emb_ = layer::PosEmbedding(context);
     cos_sin_ = get_concat_rotary_embedding(64,
@@ -206,11 +206,12 @@ class Glm4MoeMtpModelImpl : public torch::nn::Module {
     final_norm_->merge_loaded_weights();
   }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return {embed_tokens_};
   }
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& word_embedding) {
+  void set_word_embedding(
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     embed_tokens_ = word_embedding[0];
   }
 
@@ -226,7 +227,7 @@ class Glm4MoeMtpModelImpl : public torch::nn::Module {
   int32_t num_speculative_tokens_ = 0;
   at::Device device_;
   torch::Dtype dtype_;
-  layer::WordEmbedding embed_tokens_{nullptr};
+  layer::NpuWordEmbedding embed_tokens_{nullptr};
   layer::AttentionMask attn_mask_;
   torch::Tensor cos_sin_;
   layer::PosEmbedding atb_pos_emb_{nullptr};
@@ -289,11 +290,12 @@ class Glm4MoeMtpForCausalLMImpl : public torch::nn::Module {
 
   void set_lm_head(layer::NpuLmHead& head) { lm_head_ = head; }
 
-  std::vector<layer::WordEmbedding> get_word_embedding() {
+  std::vector<layer::NpuWordEmbedding> get_word_embedding() {
     return model_->get_word_embedding();
   }
 
-  void set_word_embedding(std::vector<layer::WordEmbedding>& word_embedding) {
+  void set_word_embedding(
+      std::vector<layer::NpuWordEmbedding>& word_embedding) {
     model_->set_word_embedding(word_embedding);
   }
Original file line number	Diff line number	Diff line change
`@@ -243,13 +243,14 @@ class SimpleCausalLM : public CausalLM {`
`243`	`243`	`// Simple implementation for testing`
`244`	`244`	`}`
`245`	`245`
`246`		`- std::vector<layer::WordEmbedding> get_word_embedding() override {`
	`246`	`+ std::vector<layer::NpuWordEmbedding> get_word_embedding() override {`
`247`	`247`	`// Simple implementation for testing`
`248`		`- return std::vector<layer::WordEmbedding>{layer::WordEmbedding(nullptr)};`
	`248`	`+ return std::vector<layer::NpuWordEmbedding>{`
	`249`	`+ layer::NpuWordEmbedding(nullptr)};`
`249`	`250`	`}`
`250`	`251`
`251`	`252`	`void set_word_embedding(`
`252`		`- std::vector<layer::WordEmbedding>& embedding) override {`
	`253`	`+ std::vector<layer::NpuWordEmbedding>& embedding) override {`
`253`	`254`	`// Simple implementation for testing`
`254`	`255`	`}`
`255`	`256`
Original file line number	Diff line number	Diff line change
`@@ -78,12 +78,12 @@ class LlmForEmbeddingImplBase : public torch::nn::Module {`
`78`	`78`
`79`	`79`	`virtual void set_lm_head(layer::NpuLmHead& head) { lm_head_ = head; }`
`80`	`80`
`81`		`- virtual std::vector<layer::WordEmbedding> get_word_embedding() {`
	`81`	`+ virtual std::vector<layer::NpuWordEmbedding> get_word_embedding() {`
`82`	`82`	`return model_->get_word_embedding();`
`83`	`83`	`}`
`84`	`84`
`85`	`85`	`virtual void set_word_embedding(`
`86`		`- std::vector<layer::WordEmbedding>& word_embedding) {`
	`86`	`+ std::vector<layer::NpuWordEmbedding>& word_embedding) {`
`87`	`87`	`model_->set_word_embedding(word_embedding);`
`88`	`88`	`}`
`89`	`89`