[inference provider] Add wavespeed.ai as an inference provider (#1424)

arabot777 · hanouticelina · SBrandeis · web-flow · commit 17fb3a75697a · 2025-10-14T19:17:04.000+02:00
**What’s in this PR** [WaveSpeedAI](https://wavespeed.ai/) is a high-performance AI image and video generation service platform, offering industry-leading generation speeds. Now, want to be listed as an Inference Provider on the Hugging Face Hub The JS Client Integration was completed based on the inference-providers help documentation and passed the test. I am submitting the pr now and look forward to further communication with you **Test** ``` pnpm --filter @huggingface/inference test "test/InferenceClient.spec.ts" -t "^Wavespeed AI" > @huggingface/inference@3.11.0 test /Users/shanliu/work/huggingface.js/packages/inference > vitest run --config vitest.config.mts "test/InferenceClient.spec.ts" RUN v0.34.6 /Users/shanliu/work/huggingface.js/packages/inference ✓ test/InferenceClient.spec.ts (104) 198160ms ✓ InferenceClient (104) 198160ms ✓ backward compatibility (1) ✓ works with old HfInference name ↓ HF Inference (49) [skipped] ↓ throws error if model does not exist [skipped] ↓ fillMask [skipped] ↓ works without model [skipped] ↓ summarization [skipped] ↓ questionAnswering [skipped] ↓ tableQuestionAnswering [skipped] ↓ documentQuestionAnswering [skipped] ↓ documentQuestionAnswering with non-array output [skipped] ↓ visualQuestionAnswering [skipped] ↓ textClassification [skipped] ↓ textGeneration - gpt2 [skipped] ↓ textGeneration - openai-community/gpt2 [skipped] ↓ textGenerationStream - meta-llama/Llama-3.2-3B [skipped] ↓ textGenerationStream - catch error [skipped] ↓ textGenerationStream - Abort [skipped] ↓ tokenClassification [skipped] ↓ translation [skipped] ↓ zeroShotClassification [skipped] ↓ sentenceSimilarity [skipped] ↓ FeatureExtraction [skipped] ↓ FeatureExtraction - auto-compatibility sentence similarity [skipped] ↓ FeatureExtraction - facebook/bart-base [skipped] ↓ FeatureExtraction - facebook/bart-base, list input [skipped] ↓ automaticSpeechRecognition [skipped] ↓ audioClassification [skipped] ↓ audioToAudio [skipped] ↓ textToSpeech [skipped] ↓ imageClassification [skipped] ↓ zeroShotImageClassification [skipped] ↓ objectDetection [skipped] ↓ imageSegmentation [skipped] ↓ imageToImage [skipped] ↓ imageToImage blob data [skipped] ↓ textToImage [skipped] ↓ textToImage with parameters [skipped] ↓ imageToText [skipped] ↓ request - openai-community/gpt2 [skipped] ↓ tabularRegression [skipped] ↓ tabularClassification [skipped] ↓ endpoint - makes request to specified endpoint [skipped] ↓ endpoint - makes request to specified endpoint - alternative syntax [skipped] ↓ chatCompletion modelId - OpenAI Specs [skipped] ↓ chatCompletionStream modelId - OpenAI Specs [skipped] ↓ chatCompletionStream modelId Fail - OpenAI Specs [skipped] ↓ chatCompletion - OpenAI Specs [skipped] ↓ chatCompletionStream - OpenAI Specs [skipped] ↓ custom mistral - OpenAI Specs [skipped] ↓ custom openai - OpenAI Specs [skipped] ↓ OpenAI client side routing - model should have provider as prefix [skipped] ↓ Fal AI (4) [skipped] ↓ textToImage - black-forest-labs/FLUX.1-schnell [skipped] ↓ textToImage - SD LoRAs [skipped] ↓ textToImage - Flux LoRAs [skipped] ↓ automaticSpeechRecognition - openai/whisper-large-v3 [skipped] ↓ Featherless (3) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ textGeneration [skipped] ↓ Replicate (10) [skipped] ↓ textToImage canonical - black-forest-labs/FLUX.1-schnell [skipped] ↓ textToImage canonical - black-forest-labs/FLUX.1-dev [skipped] ↓ textToImage canonical - stabilityai/stable-diffusion-3.5-large-turbo [skipped] ↓ textToImage versioned - ByteDance/SDXL-Lightning [skipped] ↓ textToImage versioned - ByteDance/Hyper-SD [skipped] ↓ textToImage versioned - playgroundai/playground-v2.5-1024px-aesthetic [skipped] ↓ textToImage versioned - stabilityai/stable-diffusion-xl-base-1.0 [skipped] ↓ textToSpeech versioned [skipped] ↓ textToSpeech OuteTTS - usually Cold [skipped] ↓ textToSpeech Kokoro [skipped] ↓ SambaNova (3) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ featureExtraction [skipped] ↓ Together (4) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ textToImage [skipped] ↓ textGeneration [skipped] ↓ Nebius (3) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ textToImage [skipped] ↓ 3rd party providers (1) [skipped] ↓ chatCompletion - fails with unsupported model [skipped] ↓ Fireworks (2) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ Hyperbolic (4) [skipped] ↓ chatCompletion - hyperbolic [skipped] ↓ chatCompletion stream [skipped] ↓ textToImage [skipped] ↓ textGeneration [skipped] ↓ Novita (2) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ Black Forest Labs (2) [skipped] ↓ textToImage [skipped] ↓ textToImage URL [skipped] ↓ Cohere (2) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ Cerebras (2) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ Nscale (3) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ textToImage [skipped] ↓ Groq (2) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ OVHcloud (4) [skipped] ↓ chatCompletion [skipped] ↓ chatCompletion stream [skipped] ↓ textGeneration [skipped] ↓ textGeneration stream [skipped] ✓ Wavespeed AI (5) 89033ms ✓ textToImage - wavespeed-ai/flux-schnell 89032ms ✓ textToImage - wavespeed-ai/flux-dev-lora 12369ms ✓ textToImage - wavespeed-ai/flux-dev-lora-ultra-fast 17936ms ✓ textToVideo - wavespeed-ai/wan-2.1/t2v-480p 79507ms ✓ imageToImage - wavespeed-ai/hidream-e1-full 74481ms Test Files 1 passed (1) Tests 5 passed | 103 skipped (108) Start at 14:33:17 Duration 89.62s (transform 315ms, setup 14ms, collect 368ms, tests 89.03s, environment 0ms, prepare 74ms) ``` --------- Co-authored-by: célina <hanouticelina@gmail.com> Co-authored-by: Simon Brandeis <33657802+SBrandeis@users.noreply.github.com>
diff --git a/packages/inference/README.md b/packages/inference/README.md
@@ -67,6 +67,7 @@ Currently, we support the following providers:
 - [Cohere](https://cohere.com)
 - [Cerebras](https://cerebras.ai/)
 - [Groq](https://groq.com)
+- [Wavespeed.ai](https://wavespeed.ai/)
 - [Z.ai](https://z.ai/)
 
 To send requests to a third-party provider, you have to pass the `provider` parameter to the inference function. The default value of the `provider` parameter is "auto", which will select the first of the providers available for the model, sorted by your preferred order in https://hf.co/settings/inference-providers.
@@ -105,6 +106,7 @@ Only a subset of models are supported when requesting third-party providers. You
 - [Cerebras supported models](https://huggingface.co/api/partners/cerebras/models)
 - [Groq supported models](https://console.groq.com/docs/models)
 - [Novita AI supported models](https://huggingface.co/api/partners/novita/models)
+- [Wavespeed.ai supported models](https://huggingface.co/api/partners/wavespeed/models)
 - [Z.ai supported models](https://huggingface.co/api/partners/zai-org/models)
 
 ❗**Important note:** To be compatible, the third-party API must adhere to the "standard" shape API we expect on HF model pages for each pipeline task type.
diff --git a/packages/inference/src/lib/getProviderHelper.ts b/packages/inference/src/lib/getProviderHelper.ts
@@ -52,6 +52,7 @@ import * as Replicate from "../providers/replicate.js";
 import * as Sambanova from "../providers/sambanova.js";
 import * as Scaleway from "../providers/scaleway.js";
 import * as Together from "../providers/together.js";
+import * as Wavespeed from "../providers/wavespeed.js";
 import * as Zai from "../providers/zai-org.js";
 import type { InferenceProvider, InferenceProviderOrPolicy, InferenceTask } from "../types.js";
 import { InferenceClientInputError } from "../errors.js";
@@ -173,6 +174,11 @@ export const PROVIDERS: Record<InferenceProvider, Partial<Record<InferenceTask,
 		conversational: new Together.TogetherConversationalTask(),
 		"text-generation": new Together.TogetherTextGenerationTask(),
 	},
+	wavespeed: {
+		"text-to-image": new Wavespeed.WavespeedAITextToImageTask(),
+		"text-to-video": new Wavespeed.WavespeedAITextToVideoTask(),
+		"image-to-image": new Wavespeed.WavespeedAIImageToImageTask(),
+	},
 	"zai-org": {
 		conversational: new Zai.ZaiConversationalTask(),
 	},
diff --git a/packages/inference/src/providers/consts.ts b/packages/inference/src/providers/consts.ts
@@ -39,5 +39,6 @@ export const HARDCODED_MODEL_INFERENCE_MAPPING: Record<
 	sambanova: {},
 	scaleway: {},
 	together: {},
+	wavespeed: {},
 	"zai-org": {},
 };
diff --git a/packages/inference/src/providers/wavespeed.ts b/packages/inference/src/providers/wavespeed.ts
@@ -0,0 +1,185 @@
+import type { TextToImageArgs } from "../tasks/cv/textToImage.js";
+import type { ImageToImageArgs } from "../tasks/cv/imageToImage.js";
+import type { TextToVideoArgs } from "../tasks/cv/textToVideo.js";
+import type { BodyParams, RequestArgs, UrlParams } from "../types.js";
+import { delay } from "../utils/delay.js";
+import { omit } from "../utils/omit.js";
+import { base64FromBytes } from "../utils/base64FromBytes.js";
+import type { TextToImageTaskHelper, TextToVideoTaskHelper, ImageToImageTaskHelper } from "./providerHelper.js";
+import { TaskProviderHelper } from "./providerHelper.js";
+import {
+	InferenceClientInputError,
+	InferenceClientProviderApiError,
+	InferenceClientProviderOutputError,
+} from "../errors.js";
+
+const WAVESPEEDAI_API_BASE_URL = "https://api.wavespeed.ai";
+
+/**
+ * Response structure for task status and results
+ */
+interface WaveSpeedAITaskResponse {
+	id: string;
+	model: string;
+	outputs: string[];
+	urls: {
+		get: string;
+	};
+	has_nsfw_contents: boolean[];
+	status: "created" | "processing" | "completed" | "failed";
+	created_at: string;
+	error: string;
+	executionTime: number;
+	timings: {
+		inference: number;
+	};
+}
+
+/**
+ * Response structure for initial task submission
+ */
+interface WaveSpeedAISubmitResponse {
+	id: string;
+	urls: {
+		get: string;
+	};
+}
+
+/**
+ * Response structure for WaveSpeed AI API
+ */
+interface WaveSpeedAIResponse {
+	code: number;
+	message: string;
+	data: WaveSpeedAITaskResponse;
+}
+
+/**
+ * Response structure for WaveSpeed AI API with submit response data
+ */
+interface WaveSpeedAISubmitTaskResponse {
+	code: number;
+	message: string;
+	data: WaveSpeedAISubmitResponse;
+}
+
+abstract class WavespeedAITask extends TaskProviderHelper {
+	constructor(url?: string) {
+		super("wavespeed", url || WAVESPEEDAI_API_BASE_URL);
+	}
+
+	makeRoute(params: UrlParams): string {
+		return `/api/v3/${params.model}`;
+	}
+
+	preparePayload(params: BodyParams<ImageToImageArgs | TextToImageArgs | TextToVideoArgs>): Record<string, unknown> {
+		const payload: Record<string, unknown> = {
+			...omit(params.args, ["inputs", "parameters"]),
+			...params.args.parameters,
+			prompt: params.args.inputs,
+		};
+		// Add LoRA support if adapter is specified in the mapping
+		if (params.mapping?.adapter === "lora") {
+			payload.loras = [
+				{
+					path: params.mapping.hfModelId,
+					scale: 1, // Default scale value
+				},
+			];
+		}
+		return payload;
+	}
+
+	override async getResponse(
+		response: WaveSpeedAISubmitTaskResponse,
+		url?: string,
+		headers?: Record<string, string>
+	): Promise<Blob> {
+		if (!headers) {
+			throw new InferenceClientInputError("Headers are required for WaveSpeed AI API calls");
+		}
+
+		const resultUrl = response.data.urls.get;
+
+		// Poll for results until completion
+		while (true) {
+			const resultResponse = await fetch(resultUrl, { headers });
+
+			if (!resultResponse.ok) {
+				throw new InferenceClientProviderApiError(
+					"Failed to fetch response status from WaveSpeed AI API",
+					{ url: resultUrl, method: "GET" },
+					{
+						requestId: resultResponse.headers.get("x-request-id") ?? "",
+						status: resultResponse.status,
+						body: await resultResponse.text(),
+					}
+				);
+			}
+
+			const result: WaveSpeedAIResponse = await resultResponse.json();
+			const taskResult = result.data;
+
+			switch (taskResult.status) {
+				case "completed": {
+					// Get the media data from the first output URL
+					if (!taskResult.outputs?.[0]) {
+						throw new InferenceClientProviderOutputError(
+							"Received malformed response from WaveSpeed AI API: No output URL in completed response"
+						);
+					}
+					const mediaResponse = await fetch(taskResult.outputs[0]);
+					if (!mediaResponse.ok) {
+						throw new InferenceClientProviderApiError(
+							"Failed to fetch generation output from WaveSpeed AI API",
+							{ url: taskResult.outputs[0], method: "GET" },
+							{
+								requestId: mediaResponse.headers.get("x-request-id") ?? "",
+								status: mediaResponse.status,
+								body: await mediaResponse.text(),
+							}
+						);
+					}
+					return await mediaResponse.blob();
+				}
+				case "failed": {
+					throw new InferenceClientProviderOutputError(taskResult.error || "Task failed");
+				}
+
+				default: {
+					// Wait before polling again
+					await delay(500);
+					continue;
+				}
+			}
+		}
+	}
+}
+
+export class WavespeedAITextToImageTask extends WavespeedAITask implements TextToImageTaskHelper {
+	constructor() {
+		super(WAVESPEEDAI_API_BASE_URL);
+	}
+}
+
+export class WavespeedAITextToVideoTask extends WavespeedAITask implements TextToVideoTaskHelper {
+	constructor() {
+		super(WAVESPEEDAI_API_BASE_URL);
+	}
+}
+
+export class WavespeedAIImageToImageTask extends WavespeedAITask implements ImageToImageTaskHelper {
+	constructor() {
+		super(WAVESPEEDAI_API_BASE_URL);
+	}
+
+	async preparePayloadAsync(args: ImageToImageArgs): Promise<RequestArgs> {
+		return {
+			...args,
+			inputs: args.parameters?.prompt,
+			image: base64FromBytes(
+				new Uint8Array(args.inputs instanceof ArrayBuffer ? args.inputs : await (args.inputs as Blob).arrayBuffer())
+			),
+		};
+	}
+}
diff --git a/packages/inference/src/types.ts b/packages/inference/src/types.ts
@@ -66,6 +66,7 @@ export const INFERENCE_PROVIDERS = [
 	"sambanova",
 	"scaleway",
 	"together",
+	"wavespeed",
 	"zai-org",
 ] as const;
 
diff --git a/packages/inference/test/InferenceClient.spec.ts b/packages/inference/test/InferenceClient.spec.ts
@@ -2291,6 +2291,119 @@ describe.skip("InferenceClient", () => {
 		TIMEOUT
 	);
 
+	describe.concurrent(
+		"Wavespeed AI",
+		() => {
+			const client = new InferenceClient(env.HF_WAVESPEED_KEY ?? "dummy");
+
+			HARDCODED_MODEL_INFERENCE_MAPPING["wavespeed"] = {
+				"black-forest-labs/FLUX.1-schnell": {
+					provider: "wavespeed",
+					hfModelId: "black-forest-labs/FLUX.1-schnell",
+					providerId: "wavespeed-ai/flux-schnell",
+					status: "live",
+					task: "text-to-image",
+				},
+				"Wan-AI/Wan2.1-T2V-14B": {
+					provider: "wavespeed",
+					hfModelId: "wavespeed-ai/wan-2.1/t2v-480p",
+					providerId: "wavespeed-ai/wan-2.1/t2v-480p",
+					status: "live",
+					task: "text-to-video",
+				},
+				"HiDream-ai/HiDream-E1-Full": {
+					provider: "wavespeed",
+					hfModelId: "wavespeed-ai/hidream-e1-full",
+					providerId: "wavespeed-ai/hidream-e1-full",
+					status: "live",
+					task: "image-to-image",
+				},
+				"openfree/flux-chatgpt-ghibli-lora": {
+					provider: "wavespeed",
+					hfModelId: "openfree/flux-chatgpt-ghibli-lora",
+					providerId: "wavespeed-ai/flux-dev-lora",
+					status: "live",
+					task: "text-to-image",
+					adapter: "lora",
+					adapterWeightsPath: "flux-chatgpt-ghibli-lora.safetensors",
+				},
+				"linoyts/yarn_art_Flux_LoRA": {
+					provider: "wavespeed",
+					hfModelId: "linoyts/yarn_art_Flux_LoRA",
+					providerId: "wavespeed-ai/flux-dev-lora-ultra-fast",
+					status: "live",
+					task: "text-to-image",
+					adapter: "lora",
+					adapterWeightsPath: "pytorch_lora_weights.safetensors",
+				},
+			};
+			it(`textToImage - black-forest-labs/FLUX.1-schnell`, async () => {
+				const res = await client.textToImage({
+					model: "black-forest-labs/FLUX.1-schnell",
+					provider: "wavespeed",
+					inputs:
+						"Cute boy with a hat, exploring nature, holding a telescope, backpack, surrounded by flowers, cartoon style, vibrant colors.",
+				});
+				expect(res).toBeInstanceOf(Blob);
+			});
+
+			it(`textToImage - openfree/flux-chatgpt-ghibli-lora`, async () => {
+				const res = await client.textToImage({
+					model: "openfree/flux-chatgpt-ghibli-lora",
+					provider: "wavespeed",
+					inputs:
+						"Cute boy with a hat, exploring nature, holding a telescope, backpack, surrounded by flowers, cartoon style, vibrant colors.",
+				});
+				expect(res).toBeInstanceOf(Blob);
+			});
+
+			it(`textToImage - linoyts/yarn_art_Flux_LoRA`, async () => {
+				const res = await client.textToImage({
+					model: "linoyts/yarn_art_Flux_LoRA",
+					provider: "wavespeed",
+					inputs:
+						"Cute boy with a hat, exploring nature, holding a telescope, backpack, surrounded by flowers, cartoon style, vibrant colors.",
+				});
+				expect(res).toBeInstanceOf(Blob);
+			});
+
+			it(`textToVideo - Wan-AI/Wan2.1-T2V-14B`, async () => {
+				const res = await client.textToVideo({
+					model: "Wan-AI/Wan2.1-T2V-14B",
+					provider: "wavespeed",
+					inputs:
+						"A cool street dancer, wearing a baggy hoodie and hip-hop pants, dancing in front of a graffiti wall, night neon background, quick camera cuts, urban trends.",
+					parameters: {
+						guidance_scale: 5,
+						num_inference_steps: 30,
+						seed: -1,
+					},
+					duration: 5,
+					enable_safety_checker: true,
+					flow_shift: 2.9,
+					size: "480*832",
+				});
+				expect(res).toBeInstanceOf(Blob);
+			});
+
+			it(`imageToImage - HiDream-ai/HiDream-E1-Full`, async () => {
+				const res = await client.imageToImage({
+					model: "HiDream-ai/HiDream-E1-Full",
+					provider: "wavespeed",
+					inputs: new Blob([readTestFile("cheetah.png")], { type: "image/png" }),
+					parameters: {
+						prompt: "The leopard chases its prey",
+						guidance_scale: 5,
+						num_inference_steps: 30,
+						seed: -1,
+					},
+				});
+				expect(res).toBeInstanceOf(Blob);
+			});
+		},
+		TIMEOUT
+	);
+
 	describe.concurrent(
 		"PublicAI",
 		() => {