Token 概念

在模型服務中，一個核心概念是“token”。當您調用模型進行推理服務時，輸入內容會首先經過分詞處理，轉換成模型能夠識別的token形式。隨后，這些token經過模型的處理，再以token的形式輸出，并最終轉化為您所需的文本。

模型服務費用 = token 使用數量 * token 單價

說明

不同的模型可能采用不同的分詞策略，同一段文本在不同模型上的 tokens 計量會存在差異。

產品價格

按 token 使用量付費

模型名稱		服務類型	計費單位 (元/百萬tokens)	免費額度（tokens）
DeepSeek系列	DeepSeek-R1	輸入	4	每個模型可免費使用2500萬tokens，從第一次使用開始限期兩周。免費額度用完或到期后，可以付費開通服務。
	DeepSeek-R1	輸出	16
	DeepSeek-V3	輸入	2
	DeepSeek-V3	輸出	8
	DeepSeek-R1-Distill-Llama-70B	輸入	4.1
	DeepSeek-R1-Distill-Llama-70B	輸出	4.1
	DeepSeek-R1-Distill-Qwen-32B	輸入	1.3
	DeepSeek-R1-Distill-Qwen-32B	輸出	1.3
Qwen系列	Qwen2.5-72B-instruct	輸入	4.13	每個模型可免費使用100萬tokens，從第一次使用開始限期兩周。免費額度用完或到期后，可以付費開通服務。
	Qwen2.5-72B-instruct	輸出	4.13
	Qwen-VL-Chat	輸入	0.8
	Qwen-VL-Chat	輸出	1.6
	Qwen2.5-VL-72B-Instruct	輸入	4.13
	Qwen2.5-VL-72B-Instruct	輸出	4.13
	Qwen3-14B	輸入	0.8
	Qwen3-14B	輸出	1.6
其他系列	每個模型可免費使用100萬tokens，用盡后不支持tokens計費模式，可以通過按卡時計費模式下單。

模型推理限制

當前對模型設置了 RPM（Requests Per Minute，每分鐘請求數）及 TPM（Tokens Per Minute，每分鐘 token 數量）的調用限制，具體限制可在模型廣場模型詳情頁中查看。