huggingface
diff --git a/‎src/transformers/models/deepseek_v2/modeling_deepseek_v2.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/deepseek_v2/modeling_deepseek_v2.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/deepseek_v2/modular_deepseek_v2.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/deepseek_v2/modular_deepseek_v2.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/dia/modeling_dia.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/dia/modeling_dia.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/dia/modular_dia.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/dia/modular_dia.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/doge/modeling_doge.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/doge/modeling_doge.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/doge/modular_doge.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/doge/modular_doge.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/exaone4/modeling_exaone4.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/exaone4/modeling_exaone4.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/exaone4/modular_exaone4.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/exaone4/modular_exaone4.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/flex_olmo/modeling_flex_olmo.py‎
Lines changed: 0 additions & 1 deletion b/‎src/transformers/models/flex_olmo/modeling_flex_olmo.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/transformers/models/gpt_oss/modeling_gpt_oss.py‎
Lines changed: 0 additions & 2 deletions b/‎src/transformers/models/gpt_oss/modeling_gpt_oss.py‎
Lines changed: 0 additions & 2 deletions
@@ -342,7 +342,6 @@ def forward(
  past_key_values: Optional[Cache] = None,
  cache_position: Optional[torch.LongTensor] = None,
  position_embeddings: Optional[tuple[torch.Tensor, torch.Tensor]] = None,
- position_ids: Optional[torch.Tensor] = None,
  **kwargs,
  ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
  batch_size, seq_length = hidden_states.shape[:-1]
 
@@ -369,7 +369,6 @@ def forward(
  past_key_values: Optional[Cache] = None,
  cache_position: Optional[torch.LongTensor] = None,
  position_embeddings: Optional[tuple[torch.Tensor, torch.Tensor]] = None,
- position_ids: Optional[torch.Tensor] = None,
  **kwargs,
  ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
  batch_size, seq_length = hidden_states.shape[:-1]
 
@@ -525,7 +525,6 @@ def forward(
  encoder_attention_mask: Optional[torch.Tensor] = None,
  past_key_values: Optional[EncoderDecoderCache] = None,
  cache_position: Optional[torch.LongTensor] = None,
- position_ids: Optional[torch.LongTensor] = None,
  **kwargs,
  ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[torch.Tensor]]:
  self_attn_cache = past_key_values
 
@@ -314,7 +314,6 @@ def forward(
  encoder_attention_mask: Optional[torch.Tensor] = None,
  past_key_values: Optional[EncoderDecoderCache] = None,
  cache_position: Optional[torch.LongTensor] = None,
- position_ids: Optional[torch.LongTensor] = None,
  **kwargs,
  ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[torch.Tensor]]:
  self_attn_cache = past_key_values
 
@@ -297,7 +297,6 @@ def forward(
  attention_mask: Optional[torch.Tensor] = None,
  past_key_values: Optional[Cache] = None,
  cache_position: Optional[torch.LongTensor] = None,
- position_ids: Optional[torch.LongTensor] = None,
  **kwargs,
  ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
  input_shape = hidden_states.shape[:-1]
 
@@ -321,7 +321,6 @@ def forward(
  attention_mask: Optional[torch.Tensor] = None,
  past_key_values: Optional[Cache] = None,
  cache_position: Optional[torch.LongTensor] = None,
- position_ids: Optional[torch.LongTensor] = None,
  **kwargs,
  ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
  input_shape = hidden_states.shape[:-1]
 
@@ -240,7 +240,6 @@ def forward(
  attention_mask: Optional[torch.Tensor] = None,
  past_key_values: Optional[Cache] = None,
  cache_position: Optional[torch.LongTensor] = None,
- position_ids: Optional[torch.LongTensor] = None,
  **kwargs: Unpack[TransformersKwargs],
  ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
  input_shape = hidden_states.shape[:-1]
 
@@ -260,7 +260,6 @@ def forward(
  attention_mask: Optional[torch.Tensor] = None,
  past_key_values: Optional[Cache] = None,
  cache_position: Optional[torch.LongTensor] = None,
- position_ids: Optional[torch.LongTensor] = None,
  **kwargs: Unpack[TransformersKwargs],
  ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
  input_shape = hidden_states.shape[:-1]
 
@@ -252,7 +252,6 @@ def forward(
  attention_mask: Optional[torch.Tensor],
  past_key_values: Optional[Cache] = None,
  cache_position: Optional[torch.LongTensor] = None,
- position_ids: Optional[torch.LongTensor] = None,
  **kwargs: Unpack[TransformersKwargs],
  ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
  input_shape = hidden_states.shape[:-1]
 
@@ -344,7 +344,6 @@ def forward(
  attention_mask: Optional[torch.Tensor],
  past_key_values: Optional[Cache] = None,
  cache_position: Optional[torch.LongTensor] = None,
- position_ids: Optional[torch.LongTensor] = None,
  **kwargs: Unpack[TransformersKwargs],
  ) -> tuple[torch.Tensor, torch.Tensor]:
  input_shape = hidden_states.shape[:-1]
@@ -374,7 +373,6 @@ def forward(
  dropout=0.0 if not self.training else self.attention_dropout,
  scaling=self.scaling,
  sliding_window=self.sliding_window,
- position_ids=position_ids,
  s_aux=self.sinks, # diff with Llama
  **kwargs,
  )