Qwen-VL-Chat
更新時間 2025-02-13 10:29:02
最近更新時間: 2025-02-13 10:29:02
分享文章
本文為您詳細介紹Qwen-VL-Chat模型。
模型簡介
Qwen-VL-Chat模型是在阿里云研發的大規模視覺語言模型 Qwen-VL系列的基礎上,使用對齊機制打造的視覺AI助手,該模型有更優秀的中文指令跟隨,支持更靈活的交互方式,包括多圖、多輪問答、創作等能力。
使用場景
Qwen-VL-Chat是通用多模態大規模語言模型,可以完成多種視覺語言任務,被應用于視覺問答,文字理解,圖表數學推理,多圖理解和Grounding(根據指令標注圖片中指定區域的包圍框)等多方面。
評測效果
零樣本圖像描述生成(Zero-shot Image Caption)及通用視覺問答(General VQA)
- 在 Zero-shot Captioning 中,Qwen-VL 在 Flickr30K 數據集上取得了 SOTA 的結果,并在 Nocaps 數據集上取得了和 InstructBlip可競爭的結果。
- 在 General VQA 中,Qwen-VL 取得了 LVLM 模型同等量級和設定下 SOTA 的結果。
細粒度視覺定位(Referring Expression Comprehension)
- 在定位任務上,Qwen-VL 全面超過 Shikra-13B,取得了目前 Generalist LVLM 模型上在 Refcoco 上的 SOTA 。
- Qwen-VL 并沒有在任何中文定位數據上訓練過,但通過中文 Caption 數據和 英文 Grounding 數據的訓練,可以 Zero-shot 泛化出中文 Grounding 能力。
對話能力測評
采用TouchStone測評,它是一個基于 GPT4 打分來評測 LVLM 模型的圖文對話能力和人類對齊水平的基準。
測評結果如下:
英語
| Model | Score |
|---|---|
| PandaGPT | 488.5 |
| MiniGPT4 | 531.7 |
| InstructBLIP | 552.4 |
| LLaMA-AdapterV2 | 590.1 |
| LLaVA | 602.7 |
| mPLUG-Owl | 605.4 |
| Qwen-VL-Chat | 645.2 |
| Qwen-VL-Chat-1.1 | 711.6 |
中文
| Model | Score |
|---|---|
| VisualGLM | 247.1 |
| Qwen-VL-Chat | 401.2 |
| Qwen-VL-Chat-1.1 | 481.7 |
Qwen-VL-Chat 模型在中英文的對齊評測中均取得當前 LVLM 模型下的最好結果。
技術亮點
- 強大的性能:在四大類多模態任務的標準英文測評中(Zero-shot Caption/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果。
- 多語言對話模型:天然支持多語言對話,端到端支持圖片里中英雙語的長文本識別。
- 多圖交錯對話:支持多圖輸入和比較,指定圖片問答,多圖文學創作等。
- 首個支持中文開放域定位的通用模型:通過中文開放域語言表達進行檢測框標注。
- 細粒度識別和理解:相比于目前其它開源LVLM使用的224分辨率,Qwen-VL是首個開源的448分辨率的LVLM模型。更高分辨率可以提升細粒度的文字識別、文檔問答和檢測框標注。
版本列表
| 版本列表 | 版本說明 |
|---|---|
| Qwen-VL-Chat | Qwen-VL系列模型提供了Qwen-VL和Qwen-VL-Chat兩個模型,分別為預訓練模型和Chat模型。 |
相關資源及引用
相關資源
- 想了解更多關于模型的信息,請點擊查看技術備忘錄。
- 研究人員與開發者可使用Qwen-VL和Qwen-VL-Chat進行二次開發。
- 允許商業使用,具體細節請查看。如需商用,請填寫申請。
相關引用
如對您有幫助,歡迎引用。
@article{Qwen-VL,
title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2308.12966},
year={2023}
}
免責聲明
Qwen-VL-Chat模型,來源于第三方,本平臺不保證其合規性,請您在使用前慎重考慮,確保合法合規使用并遵守第三方的要求。