API: Config - mcp-eval

Configuration is the foundation of flexible testing. mcp-eval provides multiple ways to configure your tests, from simple YAML files to sophisticated programmatic control.

Configuration hierarchy

mcp-eval uses a layered configuration system (highest priority first):

Programmatic overrides - Set in code
Environment variables - Set in shell or CI
Config files - mcpeval.yaml and mcpeval.secrets.yaml
Defaults - Built-in sensible defaults

The MCPEvalSettings model

The complete configuration structure:

from mcp_eval.config import MCPEvalSettings  # Full settings structure settings = MCPEvalSettings(  # Judge configuration  judge={  "provider": "anthropic",  "model": "claude-3-5-sonnet-20241022",  "min_score": 0.8,  "system_prompt": "You are a helpful test judge",  "max_tokens": 2000,  "temperature": 0.0  },    # Metrics collection  metrics={  "collect_tool_calls": True,  "collect_tokens": True,  "collect_costs": True,  "collect_timings": True,  "include_thinking": False  },    # Reporting configuration  reporting={  "formats": ["json", "markdown", "html"],  "output_dir": "test-reports",  "include_traces": True,  "include_conversation": True,  "timestamp_format": "%Y%m%d_%H%M%S"  },    # Execution control  execution={  "max_concurrency": 5,  "timeout_seconds": 300,  "max_retries": 3,  "retry_delay_seconds": 5,  "fail_fast": False,  "verbose": True  },    # Default provider settings  provider="anthropic",  model="claude-3-5-sonnet-20241022",    # Default servers  default_servers=["fetch", "filesystem"],    # Default agent  default_agent="default" ) 

Loading configuration

Automatic discovery

from mcp_eval.config import load_config  # Discovers config files from current directory upward settings = load_config()  # Or specify a path settings = load_config("/path/to/project")  # Or pass a dict settings = load_config({  "provider": "openai",  "model": "gpt-4-turbo-preview" }) 

Manual loading

from mcp_eval.config import MCPEvalSettings import yaml  # Load from YAML file with open("custom_config.yaml") as f:  config_dict = yaml.safe_load(f)  settings = MCPEvalSettings(**config_dict)  # Load and merge multiple sources base_config = yaml.safe_load(open("base.yaml")) secrets = yaml.safe_load(open("secrets.yaml")) overrides = {"execution": {"verbose": True}}  # Merge configurations full_config = {**base_config, **secrets, **overrides} settings = MCPEvalSettings(**full_config) 

Updating configuration

Global updates

from mcp_eval.config import update_config, get_settings  # Update specific fields update_config({  "execution": {  "max_concurrency": 10,  "timeout_seconds": 600  },  "reporting": {  "output_dir": "custom-reports"  } })  # Get current settings current = get_settings() print(f"Timeout: {current.execution.timeout_seconds}s") 

Scoped configuration

from mcp_eval.config import use_config import contextlib  # Temporarily use different config with use_config(custom_settings):  # Tests here use custom_settings  await run_tests() # Original config restored  # Or use context manager @contextlib.contextmanager def production_config():  original = get_settings()  try:  update_config({  "provider": "anthropic",  "model": "claude-3-opus-20240229",  "execution": {"max_retries": 5}  })  yield  finally:  use_config(original)  with production_config():  await run_critical_tests() 

Agent configuration

Using named agents

from mcp_eval.config import use_agent  # Use agent defined in mcpeval.yaml use_agent("specialized_agent")  # Agents are defined in config like: # agents: # specialized_agent: # model: claude-3-opus-20240229 # provider: anthropic # instruction: "You are a specialized test agent" # server_names: ["custom_server"] 

Agent factory pattern

from mcp_eval.config import use_agent_factory from mcp_eval.agent import Agent  def create_dynamic_agent():  """Create agent based on runtime conditions."""  if os.getenv("TEST_ENV") == "production":  return Agent(  model="claude-3-opus-20240229",  instruction="Be extremely thorough"  )  else:  return Agent(  model="claude-3-5-sonnet-20241022",  instruction="Standard testing"  )  # Register the factory use_agent_factory(create_dynamic_agent) 

Direct agent objects

from mcp_eval.config import use_agent_object from mcp_eval.agent import Agent  # Create and configure agent my_agent = Agent(  model="claude-3-5-sonnet-20241022",  provider="anthropic",  instruction="""You are a security-focused test agent.  Always check for vulnerabilities and edge cases.""",  server_names=["security_scanner", "filesystem"],  temperature=0.0, # Deterministic  max_tokens=4000 )  # Use this specific agent use_agent_object(my_agent) 

Agent configuration in tests

from mcp_eval.core import task, with_agent from mcp_eval.agent import AgentConfig  # Use different agents for different tests @with_agent("fast_agent") @task("Quick test") async def test_fast(agent):  # Uses fast_agent configuration  pass  @with_agent(AgentConfig(  model="claude-3-opus-20240229",  instruction="Be extremely thorough",  max_iterations=10 )) @task("Thorough test") async def test_thorough(agent):  # Uses inline configuration  pass 

Programmatic defaults

Set global defaults programmatically:

from mcp_eval.config import ProgrammaticDefaults  # Set default agent for all tests ProgrammaticDefaults.set_default_agent(my_agent)  # Set default servers ProgrammaticDefaults.set_default_servers(["fetch", "calculator"])  # Set default provider configuration ProgrammaticDefaults.set_provider_config({  "provider": "openai",  "model": "gpt-4-turbo-preview",  "api_key": os.getenv("OPENAI_API_KEY") })  # Clear all programmatic defaults ProgrammaticDefaults.clear() 

Environment variables

Provider configuration

# API keys export ANTHROPIC_API_KEY="sk-ant-..." export OPENAI_API_KEY="sk-..." export GOOGLE_API_KEY="..."  # Provider selection export MCPEVAL_PROVIDER="anthropic" export MCPEVAL_MODEL="claude-3-5-sonnet-20241022"  # Provider-specific settings export ANTHROPIC_BASE_URL="https://api.anthropic.com" export OPENAI_ORG_ID="org-..." 

Execution control

# Timeouts and retries export MCPEVAL_TIMEOUT_SECONDS="600" export MCPEVAL_MAX_RETRIES="5" export MCPEVAL_RETRY_DELAY="10"  # Concurrency export MCPEVAL_MAX_CONCURRENCY="10"  # Verbosity export MCPEVAL_VERBOSE="true" export MCPEVAL_DEBUG="true" 

Reporting

# Output configuration export MCPEVAL_OUTPUT_DIR="/tmp/test-reports" export MCPEVAL_REPORT_FORMATS="json,html,markdown" export MCPEVAL_INCLUDE_TRACES="true" 

Configuration validation

Validate on load

from mcp_eval.config import load_config, validate_config  try:  settings = load_config()  validate_config(settings) except ValueError as e:  print(f"Invalid configuration: {e}")  # Handle invalid config 

Custom validation

def validate_custom_settings(settings: MCPEvalSettings):  """Add custom validation rules."""    # Ensure API key is set  if settings.provider == "anthropic":  if not os.getenv("ANTHROPIC_API_KEY"):  raise ValueError("Anthropic API key required")    # Validate model compatibility  if settings.judge.provider == "openai":  valid_models = ["gpt-4", "gpt-4-turbo-preview"]  if settings.judge.model not in valid_models:  raise ValueError(f"Judge model must be one of {valid_models}")    # Ensure timeout is reasonable  if settings.execution.timeout_seconds > 3600:  raise ValueError("Timeout cannot exceed 1 hour")    return True  # Use in your test setup settings = load_config() if not validate_custom_settings(settings):  sys.exit(1) 

Advanced patterns

Dynamic configuration based on environment

import os from mcp_eval.config import load_config, update_config  def configure_for_environment():  """Adjust config based on environment."""  base_config = load_config()    env = os.getenv("TEST_ENV", "development")    if env == "production":  update_config({  "provider": "anthropic",  "model": "claude-3-opus-20240229",  "execution": {  "max_retries": 5,  "timeout_seconds": 600,  "fail_fast": True  },  "judge": {  "min_score": 0.9 # Stricter in production  }  })  elif env == "ci":  update_config({  "execution": {  "max_concurrency": 2, # Limited resources in CI  "verbose": True  },  "reporting": {  "formats": ["json"], # Machine-readable only  "output_dir": "/tmp/ci-reports"  }  })  else: # development  update_config({  "execution": {  "verbose": True,  "max_retries": 1  },  "reporting": {  "formats": ["html"], # Interactive reports  }  })  configure_for_environment() 

Configuration inheritance

class BaseTestConfig:  """Base configuration for all tests."""  BASE_SETTINGS = {  "provider": "anthropic",  "model": "claude-3-5-sonnet-20241022",  "execution": {  "timeout_seconds": 300,  "max_retries": 3  }  }  class IntegrationTestConfig(BaseTestConfig):  """Config for integration tests."""  SETTINGS = {  **BaseTestConfig.BASE_SETTINGS,  "execution": {  **BaseTestConfig.BASE_SETTINGS["execution"],  "timeout_seconds": 600, # Longer timeout  },  "default_servers": ["fetch", "database", "cache"]  }  class UnitTestConfig(BaseTestConfig):  """Config for unit tests."""  SETTINGS = {  **BaseTestConfig.BASE_SETTINGS,  "execution": {  **BaseTestConfig.BASE_SETTINGS["execution"],  "timeout_seconds": 60, # Quick tests  },  "default_servers": ["mock_server"]  }  # Use in tests from mcp_eval.config import use_config  if test_type == "integration":  use_config(IntegrationTestConfig.SETTINGS) else:  use_config(UnitTestConfig.SETTINGS) 

Config hot-reloading

import watchdog.observers import watchdog.events  class ConfigReloader(watchdog.events.FileSystemEventHandler):  """Reload config when files change."""    def on_modified(self, event):  if event.src_path.endswith("mcpeval.yaml"):  print("Config changed, reloading...")  try:  new_config = load_config()  use_config(new_config)  print("✅ Config reloaded successfully")  except Exception as e:  print(f"❌ Failed to reload: {e}")  # Watch for changes observer = watchdog.observers.Observer() observer.schedule(ConfigReloader(), ".", recursive=False) observer.start() 

Best practices

Separate secrets: Always keep API keys and sensitive data in mcpeval.secrets.yaml or environment variables, never in your main config file.

Validate early: Validate your configuration at the start of your test runs to catch issues before tests begin executing.

Use environment-specific configs: Different environments (dev, staging, prod) should have different configuration profiles for appropriate testing rigor.

Debugging configuration

from mcp_eval.config import get_settings, print_config  # Print current configuration print_config()  # Or get as dict for inspection settings = get_settings() config_dict = settings.model_dump()  import json print(json.dumps(config_dict, indent=2))  # Check specific values print(f"Provider: {settings.provider}") print(f"Model: {settings.model}") print(f"Timeout: {settings.execution.timeout_seconds}s") print(f"Output dir: {settings.reporting.output_dir}") 

Configuration Guide

Complete configuration reference

Agent Setup

Configuring test agents

Environment Setup

Initial setup and configuration

Best Practices

Configuration best practices

Getting Started

Core Concepts

Writing Tests

Building with LLMs

Evaluation Guides

Configuration

CI/CD & Deployment

Test Reporting

API Reference

CLI Reference

Resources

​Configuration hierarchy

​The MCPEvalSettings model

​Loading configuration

​Automatic discovery

​Manual loading

​Updating configuration

​Global updates

​Scoped configuration

​Agent configuration

​Using named agents

​Agent factory pattern

​Direct agent objects

​Agent configuration in tests

​Programmatic defaults

​Environment variables

​Provider configuration

​Execution control

​Reporting

​Configuration validation

​Validate on load

​Custom validation

​Advanced patterns

​Dynamic configuration based on environment

​Configuration inheritance

​Config hot-reloading

​Best practices

​Debugging configuration

​See also

Configuration Guide

Agent Setup

Environment Setup

Best Practices

Configuration hierarchy

The MCPEvalSettings model

Loading configuration

Automatic discovery

Manual loading

Updating configuration

Global updates

Scoped configuration

Agent configuration

Using named agents

Agent factory pattern

Direct agent objects

Agent configuration in tests

Programmatic defaults

Environment variables

Provider configuration

Execution control

Reporting

Configuration validation

Validate on load

Custom validation

Advanced patterns

Dynamic configuration based on environment

Configuration inheritance

Config hot-reloading

Best practices

Debugging configuration

See also