模型 | 模型簡介 | 模型ID |
|---|---|---|
| Qwen3-30B-A3B | Qwen3是Qwen 系列最新一代大型語言模型,提供了一系列密集型和專家混合(MoE)模型。基于廣泛的訓練,Qwen3 在推理、指令執行、代理能力和多語言支持方面實現了突破性進展 | 4efd64f3736d41a08f89db919dbe9c6b |
| BGE-Reranker-Large | BGE-Reranker-Large是北京智源人工智能研究院(BAAI)發布的一款基于深度學習的重排序模型,能夠在中英文兩種語言環境下,對檢索結果進行優化,提高檢索的準確性和相關性。與嵌入模型不同,Reranker使用question和document作為輸入,直接輸出相似度而不是嵌入。 | 0cb4c1ed8f374eadbe8bffe30bd039dc |
| Baichuan-M2-32B | Baichuan-M2-32B是百川 AI 的醫療增強推理模型,是百川發布的第二個醫療模型。該模型專為現實世界的醫療推理任務設計,在 Qwen2.5-32B的基礎上引入了創新的大型驗證系統。通過對真實醫療問題的領域特定微調,它在保持強大通用能力的同時實現了突破性的醫療性能。 | 9488c08cf627421aacdeb44bd9c2f95c |
| DeepSeek-V3.1 | DeepSeek-V3.1是一個支持思考模式和非思考模式的混合模型。是在 DeepSeek-V3.1-Base 的基礎上進行后訓練得到的,后者是通過兩階段長上下文擴展方法在原始 V3 基礎檢查點上構建的,遵循了原始 DeepSeek-V3 報告中概述的方法。通過收集額外的長文檔并大幅擴展兩個訓練階段來擴大的數據集。 | 37d1d0f4183b4800a44a69abf9102dfa |
| DeepSeek-V3-0324 | DeepSeek-V3-0324是DeepSeek團隊于2025年3月24日發布的DeepSeek-V3語言模型的新版本。是一個專家混合(MoE)語言模型,總參數為6710億個,每個Token激活了370億個參數。0324版本開創了一種用于負載均衡的輔助無損策略,并設定了多令牌預測訓練目標以提高性能。該模型版本在幾個關鍵方面比其前身DeepSeek-V3有了顯著改進。 | 11bd888a35434486bf209066c7dad0ee |
| DeepSeek-R1-0528 | DeepSeek-R1-0528是DeepSeek團隊推出的最新版模型。模型基于 DeepSeek-V3-0324 訓練,參數量達660B。該模型通過利用增加的計算資源并在后訓練期間引入算法優化機制,顯著提高了其推理和推理能力的深度。該模型在各種基準測試評估中表現出出色的性能,包括數學、編程和一般邏輯。它的整體性能現在接近 O3 和 Gemini 2.5 Pro 等領先機型。 | ff3f5c450f3b459cbe5d04a5ea9b2511 |
| DeepSeek-R1 | DeepSeek-R1 是一款具有創新性的大語言模型,由杭州深度求索人工智能基礎技術研究有限公司開發。該模型基于 transformer 架構,通過對海量語料數據進行預訓練,結合注意力機制,能夠理解和生成自然語言。它經過監督微調、人類反饋的強化學習等技術進行對齊,具備語義分析、計算推理、問答對話、篇章生成、代碼編寫等多種能力。R1 模型在多個 NLP 基準測試中表現出色,具備較強的泛化能力和適應性。 | 4bd107bff85941239e27b1509eccfe98 |
| DeepSeek-V3 | DeepSeek-V3是DeepSeek團隊開發的新一代專家混合(MoE)語言模型,共有671B參數,在14.8萬億個Tokens上進行預訓練。該模型采用多頭潛在注意力(MLA)和DeepSeekMoE架構,繼承了DeepSeek-V2模型的優勢,并在性能、效率和功能上進行了顯著提升。 | 9dc913a037774fc0b248376905c85da5 |
| DeepSeek-R1-Distill-Llama-70B | DeepSeek-R1-Distill-Llama-70B是基于Llama架構并經過強化學習和蒸餾優化開發的高性能語言模型。該模型融合了DeepSeek-R1的先進知識蒸餾技術與Llama-70B模型的架構優勢。通過知識蒸餾,在保持較小參數規模的同時,具備強大的語言理解和生成能力。 | 515fdba33cc84aa799bbd44b6e00660d |
| DeepSeek-R1-Distill-Qwen-32B | DeepSeek-R1-Distill-Qwen-32B是通過知識蒸餾技術從DeepSeek-R1模型中提煉出來的小型語言模型。它繼承了DeepSeek-R1的推理能力,專注于數學和邏輯推理任務,但體積更小,適合資源受限的環境。 | b383c1eecf2c4b30b4bcca7f019cf90d |
| Baichuan2-Turbo | Baichuan-Turbo系列模型是百川智能推出的大語言模型,采用搜索增強技術實現大模型與領域知識、全網知識的全面鏈接。 | 43ac83747cb34730a00b7cfe590c89ac |
| Qwen2-72B-Instruct | Qwen2 是 Qwen 大型語言模型的新系列。Qwen2發布了5個尺寸的預訓練和指令微調模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。這是指令調整的 72B Qwen2 模型,使用了大量數據對模型進行了預訓練,并使用監督微調和直接偏好優化對模型進行了后訓練。 | 2f05789705a64606a552fc2b30326bba |
| ChatGLM3-6B | ChatGLM3-6B 是 ChatGLM 系列最新一代的開源模型,在保留了前兩代模型對話流暢、部署門檻低等眾多優秀特性的基礎上,ChatGLM3-6B 引入了更強大的基礎模型、更完整的功能支持、更全面的開源序列幾大特性。 | 7450fa195778420393542c7fa13c6640 |
| TeleChat-12B | 星辰語義大模型TeleChat是由中電信人工智能科技有限公司研發訓練的大語言模型,TeleChat-12B模型基座采用3萬億 Tokens中英文高質量語料進行訓練。TeleChat-12B-bot在模型結構、訓練數據、訓練方法等方面進行了改進,在通用問答和知識類、代碼類、數學類榜單上相比TeleChat-7B-bot均有大幅提升。 | fdc31b36028043c48b15131885b148ce |
| Llama3-8B-Instruct | Meta 開發并發布了 Meta Llama 3 系列大型語言模型 (LLM),包含 8B 和 70B 兩種參數大小,Llama3-8B-Instruct 是經過指令微調的版本,針對對話用例進行了優化,在常見的行業基準測試中優于許多可用的開源聊天模型。 | bda59c34e4424598bbd5930eba713fbf |
| Llama3-70B-Instruct | Meta 開發并發布了 Meta Llama 3 系列大型語言模型 (LLM),包含 8B 和 70B 兩種參數大小,Llama3-70B-Instruct 是經過指令微調的版本,針對對話用例進行了優化,在常見的行業基準測試中優于許多可用的開源聊天模型。 | 6192ed0cb6334302a2c32735dbbb6ce3 |
| Qwen-VL-Chat | Qwen-VL-Chat模型是在阿里云研發的大規模視覺語言模型 Qwen-VL 系列的基礎上,使用對齊機制打造的視覺AI助手,該模型有更優秀的中文指令跟隨,支持更靈活的交互方式,包括多圖、多輪問答、創作等能力。 | e8c39004ff804ca699d47b9254039db8 |
| StableDiffusion-V2.1 | StableDiffusion-V2.1是由 Stability AI 公司推出的基于深度學習的文生圖模型,它能夠根據文本描述生成詳細的圖像,同時也可以應用于其他任務,例如圖生圖,生成簡短視頻等。 | 40f9ae16e840417289ad2951f5b2c88f |
| Deepseek-V2-Lite-Chat | Deepseek-V2-Lite-Chat是一款強大的開源專家混合(MoE)語言聊天模型,具有16B參數,2.4B活動參數,使用5.7T令牌從頭開始訓練,其特點是同時具備經濟的訓練和高效的推理。 | 0855b510473e4ec3a029569853f64974 |
| Qwen2.5-72B-Instruct | Qwen2.5系列發布了許多基本語言模型和指令調整語言模型,參數范圍從0.5到720億個參數不等。Qwen2.5-72B-Instruct模型是Qwen2.5系列大型語言模型指令調整版本。 | d9df728b30a346afb74d2099b6c209aa |
| Gemma2-9B-IT | Gemma2-9B-IT是Google最新發布的具有90億參數的開源大型語言模型的指令調優版本。模型在大量文本數據上進行預訓練,并且在性能上相較于前一代有了顯著提升。該版本的性能在同類產品中也處于領先地位,超過了Llama3-8B和其他同規模的開源模型。 | 4dae2b9727db46b7b86e84e8ae6530a9 |
| Llama3.2-3B-Instruct | Meta Llama3.2多語言大型語言模型(LLMs)系列是一系列預訓練及指令微調的生成模型,包含1B和3B參數規模。Llama3.2指令微調的純文本模型專門針對多語言對話應用場景進行了優化,包括代理檢索和摘要任務。它們在通用行業基準測試中超越了許多可用的開源和閉源聊天模型。這是Llama3.2-3B-Instruct版本。 | f7d0baa95fd2480280214bfe505b0e2e |
| ChatGLM3-6B-32K | ChatGLM3-6B-32K模型在ChatGLM3-6B的基礎上進一步強化了對于長文本的理解能力,能夠更好的處理最多32K長度的上下文。具體對位置編碼進行了更新,并設計了更有針對性的長文本訓練方法,在對話階段使用 32K 的上下文長度訓練。 | 98b6d84f6b15421886d64350f2832782 |
| CodeGemma-7B-IT | CodeGemma是構建在Gemma之上的輕量級開放代碼模型的集合。CodeGemma-7B-IT模型是CodeGemma系列模型之一,是一種文本到文本和文本到代碼的解碼器模型的指令調整變體,具有70億參數,可用于代碼聊天和指令跟隨。 | fa8b78d2db034b6798c894e30fba1173 |
| Qwen2.5-Math-7B-Instruct | Qwen2.5-Math系列是數學專項大語言模型Qwen2-Math的升級版。系列包括1.5B、7B、72B三種參數的基礎模型和指令微調模型以及數學獎勵模型Qwen2.5-Math-RM-72B,Qwen2.5-Math-7B-Instruct的性能與Qwen2-Math-72B-Instruct相當。 | ea056b1eedfc479198b49e2ef156e2aa |
| DeepSeek-Coder-V2-Lite-Instruct | DeepSeek-Coder-V2-Lite-Instruct是一款強大的開源專家混合(MoE)語言聊天模型,具有16B參數,2.4B活動參數。該模型基于DeepSeek-V2進一步預訓練,增加了6T Tokens,可在特定的代碼任務中實現與GPT4-Turbo相當的性能。 | f23651e4a8904ea589a6372e0e860b10 |
| BGE-m3 | BGE-m3是智源發布的通用語義向量模型BGE家族新成員,支持超過100種語言,具備領先的多語言、跨語言檢索能力,全面且高質量地支撐“句子”、“段落”、“篇章”、“文檔”等不同粒度的輸入文本,最大輸入長度為8192,并且一站式集成了稠密檢索、稀疏檢索、多向量檢索三種檢索功能,在多個評測基準中達到最優水平。 | 46c1326f63044fbe80443af579466fe3 |
| Qwen2-7B-Instruct | Qwen2-7B-Instruct是 Qwen2大型語言模型系列中覆蓋70億參數的指令調優語言模型,支持高達 131,072 個令牌的上下文長度,能夠處理大量輸入。 | 0e97efbf3aa042ebbaf0b2d358403b94 |
| Qwen3-235B-A22B | Qwen3-235B-A22B是Qwen3系列大型語言模型的旗艦模型。擁有2350多億總參數和220多億激活參數。在代碼、數學、通用能力等基準測試中,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力的結果。 | 35af69e0d4af492ca366cf2df03c3172 |
| Qwen3-32B | Qwen3是Qwen系列中最新一代的大型語言模型,提供一整套密集(Dense)模型和混合專家(MoE)模型。Qwen3基于廣泛的培訓而構建,在推理、指令遵循、代理功能和多語言支持方面取得了突破性的進步。Qwen3-32B是參數量為32.8B的密集(Dense)模型。 | 3836b8d2ec5d46fc94cc7891064940aa |
| Qwen3-14B | Qwen3是Qwen系列中最新一代的大型語言模型,提供一整套密集(Dense)模型和混合專家(MoE)模型。Qwen3基于廣泛的培訓而構建,在推理、指令遵循、代理功能和多語言支持方面取得了突破性的進步。Qwen3-14B是參數量為14.8B的密集(Dense)模型。 | 5873b698960f45c8ae36e72566f7f141 |
| Qwen3-8B | Qwen3是Qwen系列中最新一代的大型語言模型,提供一整套密集(Dense)模型和混合專家(MoE)模型。Qwen3基于廣泛的培訓而構建,在推理、指令遵循、代理功能和多語言支持方面取得了突破性的進步。Qwen3-8B是參數量為82億的密集(Dense)模型。 | dceefe3233794dd385e3c2ab500dc6c8 |
| Qwen3-4B | Qwen3是Qwen 系列最新一代大型語言模型,提供了一系列密集型和專家混合(MoE)模型。基于廣泛的訓練,Qwen3 在推理、指令執行、代理能力和多語言支持方面實現了突破性進展 | 8606056bfe0c49448d92587452d1f2fc |
| QwQ-32B | QwQ-32B是一款擁有 320 億參數的推理模型,其性能可與具備 6710 億參數(其中 370 億被激活)的 DeepSeek-R1 媲美。該模型集成了與Agent相關的能力,使其能夠在使用工具的同時進行批判性思考,并根據環境反饋調整推理過程。 | b9293363bfbf4db2bccb839ff4300d17 |
| Qwen2.5-VL-72B-Instruct | Qwen2.5-VL-72B-Instruct模型是阿里云通義千問開源的全新視覺模型,具有720億參數規模,以滿足高性能計算場景的需求。目前共推出3B、7B、32B和72B四個尺寸的版本。這是旗艦版Qwen2.5-VL-72B的指令微調模型,在13項權威評測中奪得視覺理解冠軍,全面超越GPT-40與Claude3.5。 | 88003ac1ca7a4e4e8efa7caee648323b |
API列表
更新時間 2025-09-10 17:31:07
最近更新時間: 2025-09-10 17:31:07
分享文章
平臺提供了以下大模型API能力。