EmbeddedLLM
diff --git a/‎vllm/model_executor/models/adapters.py‎
Lines changed: 3 additions & 2 deletions b/‎vllm/model_executor/models/adapters.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎vllm/model_executor/models/utils.py‎
Lines changed: 7 additions & 0 deletions b/‎vllm/model_executor/models/utils.py‎
Lines changed: 7 additions & 0 deletions
@@ -255,17 +255,18 @@ def as_seq_cls_model(cls: _T) -> _T:
  from vllm.model_executor.models.interfaces import SupportsCrossEncoding
  from vllm.sequence import IntermediateTensors
 
- from .utils import maybe_prefix
+ from .utils import get_model_hidden_size, maybe_prefix
 
  class ModelForSequenceClassification(_create_pooling_model_cls(cls),
  SupportsCrossEncoding):
 
  def _init_pooler(self, vllm_config: "VllmConfig", prefix: str = ""):
  config = vllm_config.model_config.hf_config
  quant_config = vllm_config.quant_config
+ hidden_size = get_model_hidden_size(config)
 
  self.score = ReplicatedLinear(
- config.hidden_size,
+ hidden_size,
  config.num_labels,
  bias=False,
  params_dtype=torch.float32,
 
@@ -761,3 +761,10 @@ def fast_topk(values: torch.Tensor, topk: int,
  else:
  # Use topk for efficiency with larger k values
  return torch.topk(values, topk, dim=dim)
+
+
+def get_model_hidden_size(hf_config: PretrainedConfig) -> int:
+ if hasattr(hf_config, "hidden_size"):
+ return hf_config.hidden_size
+ text_config = hf_config.get_text_config()
+ return text_config.hidden_size