e2b-dev · rajkstats · Feb 7, 2025 · Feb 7, 2025 · Feb 7, 2025 · Feb 7, 2025
diff --git a/os_computer_use/config.py b/os_computer_use/config.py
@@ -5,15 +5,19 @@
 grounding_model = providers.OSAtlasProvider()
 # grounding_model = providers.ShowUIProvider()
 
-# vision_model = providers.FireworksProvider("llama3.2")
-# vision_model = providers.OpenAIProvider("gpt-4o")
-# vision_model = providers.AnthropicProvider("claude-3.5-sonnet")
-vision_model = providers.GroqProvider("llama3.2")
-# vision_model = providers.MistralProvider("pixtral") # pixtral-large-latest has vision capabilities
 
+# Vision models using LiteLLM:
+vision_model = providers.LiteLLMProvider("pixtral") # Mistral
+# vision_model = providers.LiteLLMProvider("llama3.2", provider="fireworks") # Fireworks
+# vision_model = providers.LiteLLMProvider("gpt-4-vision") # OpenAI
+# vision_model = providers.LiteLLMProvider("llama3.2", provider="groq") # Groq
+# vision_model = providers.LiteLLMProvider("claude-3-5-sonnet") # Anthropic
+# vision_model = providers.LiteLLMProvider("gemini-2.0-flash", provider="gemini") # Gemini
 
-# action_model = providers.FireworksProvider("llama3.3")
-# action_model = providers.OpenAIProvider("gpt-4o")
-# action_model = providers.AnthropicProvider("claude-3.5-sonnet")
-action_model = providers.GroqProvider("llama3.3")
-# action_model = providers.MistralProvider("large") # mistral-large-latest for non-vision tasks
+# Action models using LiteLLM:
+action_model = providers.LiteLLMProvider("large") # Mistral
+# action_model = providers.LiteLLMProvider("llama3.3", provider="fireworks") # Fireworks
+# action_model = providers.LiteLLMProvider("llama3.3", provider="groq") # Groq
+# action_model = providers.LiteLLMProvider("gpt-4") # OpenAI
+# action_model = providers.LiteLLMProvider("claude-3-5-sonnet") # Anthropic
+# action_model = providers.LiteLLMProvider("gemini-2.0-flash", provider="gemini") # Gemini
diff --git a/os_computer_use/llm_provider.py b/os_computer_use/llm_provider.py
@@ -4,6 +4,7 @@
 import json
 import re
 import base64
+import imghdr
 
 
 def Message(content, role="assistant"):
@@ -22,6 +23,29 @@ def parse_json(s):
  return None
 
 
+def extract_json_objects(s):
+ """Extract all balanced JSON objects from a string."""
+ objects = []
+ brace_level = 0
+ start_index = None
+ for i, char in enumerate(s):
+ if char == "{":
+ if brace_level == 0:
+ start_index = i
+ brace_level += 1
+ elif char == "}":
+ brace_level -= 1
+ if brace_level == 0 and start_index is not None:
+ candidate = s[start_index : i + 1]
+ try:
+ obj = json.loads(candidate)
+ objects.append(obj)
+ except json.JSONDecodeError:
+ pass
+ start_index = None
+ return objects
+
+
 class LLMProvider:
  """
  The LLM provider is used to make calls to an LLM given a provider and model name, with optional tool use support
@@ -52,6 +76,13 @@ def create_function_schema(self, definitions):
  properties[param_name] = {"type": "string", "description": param_desc}
  required.append(param_name)
 
+ # Add a dummy property if no parameters are provided, because providers like Gemini require a non-empty "properties" object.
+ if not properties:
+ properties["noop"] = {
+ "type": "string",
+ "description": "Dummy parameter for function with no parameters.",
+ }
+
  function_def = self.create_function_def(name, details, properties, required)
  functions.append(function_def)
 
@@ -68,8 +99,7 @@ def create_tool_call(self, name, parameters):
  # Wrap a content block in a text or an image object
  def wrap_block(self, block):
  if isinstance(block, bytes):
- encoded_image = base64.b64encode(block).decode("utf-8")
- return self.create_image_block(encoded_image)
+ return self.create_image_block(block)
  else:
  return Text(block)
 
@@ -117,10 +147,17 @@ def create_function_def(self, name, details, properties, required):
  },
  }
 
- def create_image_block(self, base64_image):
+ def create_image_block(self, image_data):
+ # Detect the image type using imghdr.
+ image_type = imghdr.what(None, image_data)
+ if image_type is None:
+ image_type = "png" # fallback if type cannot be detected
+
+ # Base64-encode the raw image bytes.
+ encoded = base64.b64encode(image_data).decode("utf-8")
  return {
  "type": "image_url",
- "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"},
+ "image_url": {"url": f"data:image/{image_type};base64,{encoded}"},
  }
 
  def call(self, messages, functions=None):
@@ -140,18 +177,17 @@ def call(self, messages, functions=None):
  if parse_json(tool_call.function.arguments) is not None
  ]
 
- # Sometimes, function calls are returned unparsed by the inference provider. This code parses them manually.
+ # Sometimes, function calls are returned unparsed by the inference provider.
  if message.content and not tool_calls:
- tool_call_matches = re.search(r"\{.*\}", message.content)
- if tool_call_matches:
- tool_call = parse_json(tool_call_matches.group(0))
- # Some models use "arguments" as the key instead of "parameters"
- parameters = tool_call.get("parameters", tool_call.get("arguments"))
- if tool_call.get("name") and parameters:
+ json_objs = extract_json_objects(message.content)
+ for obj in json_objs:
+ parameters = obj.get("parameters", obj.get("arguments"))
+ if obj.get("name") and parameters is not None:
  combined_tool_calls.append(
- self.create_tool_call(tool_call.get("name"), parameters)
+ self.create_tool_call(obj.get("name"), parameters)
  )
- return None, combined_tool_calls
+ if combined_tool_calls:
+ return None, combined_tool_calls
 
  return message.content, combined_tool_calls
 
@@ -160,75 +196,52 @@ def call(self, messages, functions=None):
  return message.content
 
 
-class AnthropicBaseProvider(LLMProvider):
+class LiteLLMBaseProvider(OpenAIBaseProvider):
+ """Base provider using LiteLLM"""
 
  def create_client(self):
- return Anthropic(api_key=self.api_key).messages
+ from litellm import completion
 
- def create_function_def(self, name, details, properties, required):
- return {
- "name": name,
- "description": details["description"],
- "input_schema": {
- "type": "object",
- "properties": properties,
- "required": required,
- },
- }
+ import litellm
 
- def create_image_block(self, base64_image):
- return {
- "type": "image",
- "source": {
- "type": "base64",
- "media_type": "image/png",
- "data": base64_image,
- },
- }
-
- def call(self, messages, functions=None):
- tools = self.create_function_schema(functions) if functions else None
-
- # Move all messages with the system role to a system parameter
- system = "\n".join(
- msg.get("content") for msg in messages if msg.get("role") == "system"
- )
- messages = [msg for msg in messages if msg.get("role") != "system"]
-
- # Call the Anthropic API
- completion = self.completion(
- messages, system=system, tools=tools, max_tokens=4096
- )
- text = "".join(getattr(block, "text", "") for block in completion.content)
+ # Enable dropping unsupported params globally
+ litellm.drop_params = True
+ litellm.modify_params = True
+ # Enable debug mode for better error messages
+ # litellm._turn_on_debug()
+ return completion
 
- # Return response text and tool calls separately
- if functions:
- tool_calls = [
- self.create_tool_call(block.name, block.input)
- for block in completion.content
- if block.type == "tool_use"
- ]
- return text, tool_calls
+ def completion(self, messages, **kwargs):
+ # Skip the tools parameter if it's None
+ filtered_kwargs = {k: v for k, v in kwargs.items() if v is not None}
 
- # Only return response text
- else:
- return text
+ # No need to remove tools; pass tools so that function calling works with Claude.
 
+ # Wrap content blocks in image or text objects if necessary
+ new_messages = [self.transform_message(message) for message in messages]
 
-class MistralBaseProvider(OpenAIBaseProvider):
- def create_function_def(self, name, details, properties, required):
- # If description is wrapped in a dict, extract the inner string
- if isinstance(details.get("description"), dict):
- details["description"] = details["description"].get("description", "")
- return super().create_function_def(name, details, properties, required)
+ # Call LiteLLM completion
+ completion_response = self.client(
+ model=self.model,
+ messages=new_messages,
+ api_key=self.api_key,
+ **filtered_kwargs,
+ )
+ return completion_response
 
+ # Added method to adjust the final message role for Mistral-based models only
  def call(self, messages, functions=None):
- if messages and messages[-1].get("role") == "assistant":
+ if (
+ "mistral" in self.model.lower()
+ and messages
+ and messages[-1].get("role") == "assistant"
+ ):
  prefix = messages.pop()["content"]
  if messages and messages[-1].get("role") == "user":
  messages[-1]["content"] = (
  prefix + "\n" + messages[-1].get("content", "")
  )
  else:
  messages.append({"role": "user", "content": prefix})
+
  return super().call(messages, functions)