agents-response

codefromthecrypt · codefromthecrypt · commit 199b86b04f4d · 2025-11-03T16:45:30.000+08:00
Signed-off-by: Adrian Cole &lt;adrian@tetrate.io&gt;
diff --git a/inference-platforms/agent.py b/inference-platforms/agent.py
@@ -1,7 +1,7 @@
 # run like this: uv run --exact -q --env-file .env agent.py
 # /// script
 # dependencies = [
-#     "openai-agents",
+#     "openai-agents @ git+https://github.com/openai/openai-agents-python.git@refs/pull/2034/head",
 #     "httpx",
 #     "mcp",
 #     "elastic-opentelemetry",
@@ -16,23 +16,25 @@
 # This must precede any other imports you want to instrument!
 auto_instrumentation.initialize()
 
+import argparse
 import asyncio
 import os
 from datetime import datetime, timedelta
 
 from agents import (
     Agent,
+    HostedMCPTool,
     OpenAIProvider,
     RunConfig,
     Runner,
     Tool,
 )
 from agents.mcp import MCPServerStreamableHttp, MCPUtil
+from openai.types.responses.tool_param import Mcp
 
 
-async def run_agent(tools: list[Tool]):
-    model_name = os.getenv("AGENT_MODEL", "gpt-5-nano")
-    model = OpenAIProvider(use_responses=False).get_model(model_name)
+async def run_agent(tools: list[Tool], model_name: str, use_responses: bool):
+    model = OpenAIProvider(use_responses=use_responses).get_model(model_name)
     agent = Agent(
         name="flight-search-agent",
         model=model,
@@ -49,18 +51,39 @@ async def run_agent(tools: list[Tool]):
 
 
 async def main():
+    parser = argparse.ArgumentParser(description="MCP-enabled flight search agent")
+    parser.add_argument("--use-responses-api", action="store_true", help="Use Responses API instead of Agents")
+    args = parser.parse_args()
+
+    model_name = os.getenv("AGENT_MODEL", "gpt-5-nano")
+    mcp_url = os.getenv("MCP_URL", "https://mcp.kiwi.com")
+    mcp_headers = dict(h.split("=", 1) for h in os.getenv("MCP_HEADERS", "").split(",") if h)
+
+    if args.use_responses_api:
+        # Server-side MCP via Responses API
+        tools = [
+            HostedMCPTool(
+                tool_config=Mcp(
+                    type="mcp",
+                    server_url=mcp_url,
+                    server_label="kiwi-flights",
+                    headers=mcp_headers,
+                    require_approval="never",
+                )
+            )
+        ]
+        await run_agent(tools, model_name, use_responses=True)
+        return
+
+    # Client-side MCP orchestration
     async with MCPServerStreamableHttp(
-        {
-            "url": os.getenv("MCP_URL", "https://mcp.kiwi.com"),
-            "headers": dict(h.split("=", 1) for h in os.getenv("MCP_HEADERS", "").split(",") if h),
-            "timeout": 30.0,
-        },
+        {"url": mcp_url, "headers": mcp_headers, "timeout": 30.0},
         client_session_timeout_seconds=60.0,
     ) as server:
         tools = await server.list_tools()
         util = MCPUtil()
         tools = [util.to_function_tool(tool, server, False) for tool in tools]
-        await run_agent(tools)
+        await run_agent(tools, model_name, use_responses=False)
 
 
 if __name__ == "__main__":
diff --git a/inference-platforms/llama-stack/README.md b/inference-platforms/llama-stack/README.md
@@ -35,8 +35,19 @@ Or, for the OpenAI Responses API
 uv run --exact -q --env-file env.local ../chat.py --use-responses-api
 ```
 
+### MCP Agent
+
+```bash
+uv run --exact -q --env-file env.local ../agent.py --use-responses-api
+```
+
 ## Notes
 
+* Llama Stack's Responses API connects to MCP servers server-side (unlike aigw
+  which proxies MCP). The agent passes MCP configuration via `HostedMCPTool`.
+* Until [this PR][openai-agents-pr] merges, the agent requires the fix branch
+  for handling providers that don't return token usage details.
+
 * Uses the `starter` distribution with its built-in `remote::openai` provider,
   pointing to Ollama via `OPENAI_BASE_URL` environment variable.
 * Models require `provider_id/` prefix (e.g., `openai/qwen3:0.6b`) as of
@@ -50,3 +61,4 @@ uv run --exact -q --env-file env.local ../chat.py --use-responses-api
 [uv]: https://docs.astral.sh/uv/getting-started/installation/
 [prefix-pr]: https://github.com/meta-llama/llama-stack/pull/3822
 [docker]: https://github.com/llamastack/llama-stack/issues/406
+[openai-agents-pr]: https://github.com/openai/openai-agents-python/pull/2034
diff --git a/inference-platforms/llama-stack/env.local b/inference-platforms/llama-stack/env.local
@@ -1,8 +1,9 @@
 # OpenAI-compatible endpoint configuration
 OPENAI_BASE_URL=http://localhost:8321/v1
+OPENAI_API_KEY=unused
 # Models require `provider_id/` prefix, in this case `openai`
 CHAT_MODEL=openai/qwen3:0.6b
-OPENAI_API_KEY=unused
+AGENT_MODEL=openai/qwen3:1.7b
 
 # OpenTelemetry configuration
 OTEL_SERVICE_NAME=llama-stack