2.2.0

nvms · nvms · commit 27642bd50b34 · 2026-03-20T12:02:18.000-04:00
diff --git a/threads/package.json b/threads/package.json
@@ -1,6 +1,6 @@
 {
   "name": "@threaded/ai",
-  "version": "2.1.0",
+  "version": "2.2.0",
   "description": "Composable LLM inference with multi-provider support, tool execution, streaming, and approval workflows",
   "type": "module",
   "main": "dist/index.js",
diff --git a/threads/src/providers/anthropic.ts b/threads/src/providers/anthropic.ts
@@ -151,12 +151,13 @@ export const callAnthropic = async (
 
   const inputTokens = data.usage?.input_tokens || 0;
   const outputTokens = data.usage?.output_tokens || 0;
+  const cachedTokens = data.usage?.cache_read_input_tokens || 0;
 
   return {
     ...ctx,
     lastResponse: msg,
     history: [...ctx.history, msg],
-    usage: addUsage(ctx.usage, inputTokens, outputTokens, inputTokens + outputTokens),
+    usage: addUsage(ctx.usage, inputTokens, outputTokens, inputTokens + outputTokens, cachedTokens),
   };
 };
 
@@ -172,6 +173,7 @@ const handleAnthropicStream = async (
   let buffer = "";
   let inputTokens = 0;
   let outputTokens = 0;
+  let cachedTokens = 0;
 
   try {
     while (true) {
@@ -197,6 +199,7 @@ const handleAnthropicStream = async (
 
             if (parsed.type === "message_start" && parsed.message?.usage) {
               inputTokens = parsed.message.usage.input_tokens || 0;
+              cachedTokens = parsed.message.usage.cache_read_input_tokens || 0;
             }
 
             if (parsed.type === "message_delta" && parsed.usage) {
@@ -270,7 +273,7 @@ const handleAnthropicStream = async (
     msg.tool_calls = toolCalls.map(({ index, ...tc }) => tc);
   }
 
-  const usage = addUsage(ctx.usage, inputTokens, outputTokens, inputTokens + outputTokens);
+  const usage = addUsage(ctx.usage, inputTokens, outputTokens, inputTokens + outputTokens, cachedTokens);
 
   if (ctx.stream && (inputTokens || outputTokens)) {
     ctx.stream({ type: "usage", usage });
diff --git a/threads/src/providers/google.ts b/threads/src/providers/google.ts
@@ -171,7 +171,7 @@ export const callGoogle = async (
     ...ctx,
     lastResponse: msg,
     history: [...ctx.history, msg],
-    usage: addUsage(ctx.usage, um?.promptTokenCount || 0, um?.candidatesTokenCount || 0, um?.totalTokenCount || 0),
+    usage: addUsage(ctx.usage, um?.promptTokenCount || 0, um?.candidatesTokenCount || 0, um?.totalTokenCount || 0, um?.cachedContentTokenCount || 0),
   };
 };
 
@@ -260,7 +260,7 @@ const handleGoogleStream = async (
   }
 
   const um = usageMetadata;
-  const usage = addUsage(ctx.usage, um?.promptTokenCount || 0, um?.candidatesTokenCount || 0, um?.totalTokenCount || 0);
+  const usage = addUsage(ctx.usage, um?.promptTokenCount || 0, um?.candidatesTokenCount || 0, um?.totalTokenCount || 0, um?.cachedContentTokenCount || 0);
 
   if (ctx.stream && um) {
     ctx.stream({ type: "usage", usage });
diff --git a/threads/src/providers/openai.ts b/threads/src/providers/openai.ts
@@ -107,7 +107,7 @@ export const callOpenAI = async (
     ...ctx,
     lastResponse: msg,
     history: [...ctx.history, msg],
-    usage: addUsage(ctx.usage, data.usage?.prompt_tokens || 0, data.usage?.completion_tokens || 0, data.usage?.total_tokens || 0),
+    usage: addUsage(ctx.usage, data.usage?.prompt_tokens || 0, data.usage?.completion_tokens || 0, data.usage?.total_tokens || 0, data.usage?.prompt_tokens_details?.cached_tokens || 0),
   };
 };
 
@@ -203,7 +203,7 @@ const handleOpenAIStream = async (
     msg.tool_calls = toolCalls;
   }
 
-  const usage = addUsage(ctx.usage, streamUsage?.prompt_tokens || 0, streamUsage?.completion_tokens || 0, streamUsage?.total_tokens || 0);
+  const usage = addUsage(ctx.usage, streamUsage?.prompt_tokens || 0, streamUsage?.completion_tokens || 0, streamUsage?.total_tokens || 0, streamUsage?.prompt_tokens_details?.cached_tokens || 0);
 
   if (ctx.stream && streamUsage) {
     ctx.stream({ type: "usage", usage });
diff --git a/threads/src/providers/xai.ts b/threads/src/providers/xai.ts
@@ -101,7 +101,7 @@ export const callXAI = async (
     ...ctx,
     lastResponse: msg,
     history: [...ctx.history, msg],
-    usage: addUsage(ctx.usage, data.usage?.prompt_tokens || 0, data.usage?.completion_tokens || 0, data.usage?.total_tokens || 0),
+    usage: addUsage(ctx.usage, data.usage?.prompt_tokens || 0, data.usage?.completion_tokens || 0, data.usage?.total_tokens || 0, data.usage?.prompt_tokens_details?.cached_tokens || 0),
   };
 };
 
@@ -175,7 +175,7 @@ const handleXAIStream = async (
     msg.tool_calls = toolCalls;
   }
 
-  const usage = addUsage(ctx.usage, streamUsage?.prompt_tokens || 0, streamUsage?.completion_tokens || 0, streamUsage?.total_tokens || 0);
+  const usage = addUsage(ctx.usage, streamUsage?.prompt_tokens || 0, streamUsage?.completion_tokens || 0, streamUsage?.total_tokens || 0, streamUsage?.prompt_tokens_details?.cached_tokens || 0);
 
   if (ctx.stream && streamUsage) {
     ctx.stream({ type: "usage", usage });
diff --git a/threads/src/types.ts b/threads/src/types.ts
@@ -197,4 +197,5 @@ export interface TokenUsage {
   promptTokens: number;
   completionTokens: number;
   totalTokens: number;
+  cachedTokens?: number;
 }
diff --git a/threads/src/utils.ts b/threads/src/utils.ts
@@ -103,8 +103,10 @@ export const addUsage = (
   promptTokens: number,
   completionTokens: number,
   totalTokens: number,
+  cachedTokens: number = 0,
 ): TokenUsage => ({
   promptTokens: (existing?.promptTokens || 0) + promptTokens,
   completionTokens: (existing?.completionTokens || 0) + completionTokens,
   totalTokens: (existing?.totalTokens || 0) + totalTokens,
+  cachedTokens: (existing?.cachedTokens || 0) + cachedTokens,
 });
diff --git a/threads/tests/usage.test.ts b/threads/tests/usage.test.ts
@@ -40,13 +40,13 @@ const mockGoogleResponse = (usageMetadata?: any) => ({
 describe("addUsage", () => {
   it("accumulates from undefined", () => {
     const result = addUsage(undefined, 10, 20, 30);
-    expect(result).toEqual({ promptTokens: 10, completionTokens: 20, totalTokens: 30 });
+    expect(result).toEqual({ cachedTokens: 0, promptTokens: 10, completionTokens: 20, totalTokens: 30 });
   });
 
   it("accumulates onto existing", () => {
     const existing = { promptTokens: 5, completionTokens: 10, totalTokens: 15 };
     const result = addUsage(existing, 10, 20, 30);
-    expect(result).toEqual({ promptTokens: 15, completionTokens: 30, totalTokens: 45 });
+    expect(result).toEqual({ cachedTokens: 0, promptTokens: 15, completionTokens: 30, totalTokens: 45 });
   });
 });
 
@@ -66,14 +66,14 @@ describe("OpenAI usage tracking", () => {
     );
 
     const result = await callOpenAI({ model: "gpt-4o-mini" }, baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 10, completionTokens: 20, totalTokens: 30 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 10, completionTokens: 20, totalTokens: 30 });
   });
 
   it("handles missing usage gracefully", async () => {
     (fetch as any).mockResolvedValue(mockOpenAIResponse());
 
     const result = await callOpenAI({ model: "gpt-4o-mini" }, baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 0, completionTokens: 0, totalTokens: 0 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 0, completionTokens: 0, totalTokens: 0 });
   });
 
   it("accumulates usage across calls", async () => {
@@ -89,7 +89,7 @@ describe("OpenAI usage tracking", () => {
     );
 
     ctx = await callOpenAI({ model: "gpt-4o-mini" }, ctx);
-    expect(ctx.usage).toEqual({ promptTokens: 25, completionTokens: 45, totalTokens: 70 });
+    expect(ctx.usage).toEqual({ cachedTokens: 0, promptTokens: 25, completionTokens: 45, totalTokens: 70 });
   });
 
   it("extracts usage from streaming response", async () => {
@@ -121,10 +121,10 @@ describe("OpenAI usage tracking", () => {
     const ctx = { ...baseCtx(), stream: (e: StreamEvent) => events.push(e) };
 
     const result = await callOpenAI({ model: "gpt-4o-mini" }, ctx);
-    expect(result.usage).toEqual({ promptTokens: 10, completionTokens: 5, totalTokens: 15 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 10, completionTokens: 5, totalTokens: 15 });
     expect(events.find(e => e.type === "usage")).toEqual({
       type: "usage",
-      usage: { promptTokens: 10, completionTokens: 5, totalTokens: 15 },
+      usage: { cachedTokens: 0, promptTokens: 10, completionTokens: 5, totalTokens: 15 },
     });
   });
 
@@ -164,14 +164,14 @@ describe("Anthropic usage tracking", () => {
     );
 
     const result = await callAnthropic({ model: "claude-sonnet-4-5-20250929" }, baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 25, completionTokens: 15, totalTokens: 40 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 25, completionTokens: 15, totalTokens: 40 });
   });
 
   it("handles missing usage gracefully", async () => {
     (fetch as any).mockResolvedValue(mockAnthropicResponse());
 
     const result = await callAnthropic({ model: "claude-sonnet-4-5-20250929" }, baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 0, completionTokens: 0, totalTokens: 0 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 0, completionTokens: 0, totalTokens: 0 });
   });
 
   it("extracts usage from streaming response", async () => {
@@ -202,7 +202,7 @@ describe("Anthropic usage tracking", () => {
     const ctx = { ...baseCtx(), stream: (e: StreamEvent) => events.push(e) };
 
     const result = await callAnthropic({ model: "claude-sonnet-4-5-20250929" }, ctx);
-    expect(result.usage).toEqual({ promptTokens: 25, completionTokens: 15, totalTokens: 40 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 25, completionTokens: 15, totalTokens: 40 });
 
     const usageEvent = events.find(e => e.type === "usage") as any;
     expect(usageEvent.usage.promptTokens).toBe(25);
@@ -226,14 +226,14 @@ describe("Google usage tracking", () => {
     );
 
     const result = await callGoogle({ model: "gemini-2.0-flash" }, baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 9, completionTokens: 87, totalTokens: 96 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 9, completionTokens: 87, totalTokens: 96 });
   });
 
   it("handles missing usageMetadata gracefully", async () => {
     (fetch as any).mockResolvedValue(mockGoogleResponse());
 
     const result = await callGoogle({ model: "gemini-2.0-flash" }, baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 0, completionTokens: 0, totalTokens: 0 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 0, completionTokens: 0, totalTokens: 0 });
   });
 
   it("extracts usage from streaming response", async () => {
@@ -263,7 +263,7 @@ describe("Google usage tracking", () => {
     const ctx = { ...baseCtx(), stream: (e: StreamEvent) => events.push(e) };
 
     const result = await callGoogle({ model: "gemini-2.0-flash" }, ctx);
-    expect(result.usage).toEqual({ promptTokens: 9, completionTokens: 5, totalTokens: 14 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 9, completionTokens: 5, totalTokens: 14 });
     expect(events.find(e => e.type === "usage")).toBeDefined();
   });
 });
@@ -284,7 +284,7 @@ describe("xAI usage tracking", () => {
     );
 
     const result = await callXAI({ model: "grok-3" }, baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 37, completionTokens: 530, totalTokens: 567 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 37, completionTokens: 530, totalTokens: 567 });
   });
 });
 
@@ -302,7 +302,7 @@ describe("Ollama usage tracking", () => {
     );
 
     const result = await callOpenAI({ model: "llama3", baseUrl: "http://localhost:11434/v1" }, baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 16, completionTokens: 1, totalTokens: 17 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 16, completionTokens: 1, totalTokens: 17 });
   });
 });
 
@@ -323,7 +323,7 @@ describe("scope usage propagation", () => {
 
     const step = scope({}, model({ model: "openai/gpt-4o-mini" }));
     const result = await step(baseCtx());
-    expect(result.usage).toEqual({ promptTokens: 10, completionTokens: 20, totalTokens: 30 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 10, completionTokens: 20, totalTokens: 30 });
   });
 
   it("propagates usage from silent scopes", async () => {
@@ -335,7 +335,7 @@ describe("scope usage propagation", () => {
     const result = await step(baseCtx());
 
     expect(result.history).toHaveLength(1);
-    expect(result.usage).toEqual({ promptTokens: 10, completionTokens: 20, totalTokens: 30 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 10, completionTokens: 20, totalTokens: 30 });
   });
 
   it("accumulates usage across nested scopes", async () => {
@@ -355,7 +355,7 @@ describe("scope usage propagation", () => {
     );
     const result = await step(baseCtx());
 
-    expect(result.usage).toEqual({ promptTokens: 30, completionTokens: 60, totalTokens: 90 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 30, completionTokens: 60, totalTokens: 90 });
   });
 
   it("carries pre-existing usage into scoped context", async () => {
@@ -370,6 +370,6 @@ describe("scope usage propagation", () => {
     const step = scope({}, model({ model: "openai/gpt-4o-mini" }));
     const result = await step(ctx);
 
-    expect(result.usage).toEqual({ promptTokens: 110, completionTokens: 220, totalTokens: 330 });
+    expect(result.usage).toEqual({ cachedTokens: 0, promptTokens: 110, completionTokens: 220, totalTokens: 330 });
   });
 });

Original file line number	Diff line number	Diff line change
`@@ -1,6 +1,6 @@`
`1`	`1`	`{`
`2`	`2`	`"name": "@threaded/ai",`
`3`		`- "version": "2.1.0",`
	`3`	`+ "version": "2.2.0",`
`4`	`4`	`"description": "Composable LLM inference with multi-provider support, tool execution, streaming, and approval workflows",`
`5`	`5`	`"type": "module",`
`6`	`6`	`"main": "dist/index.js",`
Original file line number	Diff line number	Diff line change
`@@ -197,4 +197,5 @@ export interface TokenUsage {`
`197`	`197`	`promptTokens: number;`
`198`	`198`	`completionTokens: number;`
`199`	`199`	`totalTokens: number;`
	`200`	`+ cachedTokens?: number;`
`200`	`201`	`}`