ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models

Liu, Shuo; Ying, Kaining; Zhang, Hao; Yang, Yue; Lin, Yuqi; Zhang, Tianle; Li, Chuanhao; Qiao, Yu; Luo, Ping; Shao, Wenqi; Zhang, Kaipeng

Full-text links:

Download:

Current browse context:

cs.MM

< prev | next >

new | recent | 2403

Change to browse by:

Computer Science > Multimedia

Title: ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models

Authors: Shuo Liu, Kaining Ying, Hao Zhang, Yue Yang, Yuqi Lin, Tianle Zhang, Chuanhao Li, Yu Qiao, Ping Luo, Wenqi Shao, Kaipeng Zhang

(Submitted on 29 Mar 2024 (v1), last revised 25 Apr 2024 (this version, v2))

Abstract: This paper presents ConvBench, a novel multi-turn conversation evaluation benchmark tailored for Large Vision-Language Models (LVLMs). Unlike existing benchmarks that assess individual capabilities in single-turn dialogues, ConvBench adopts a three-level multimodal capability hierarchy, mimicking human cognitive processes by stacking up perception, reasoning, and creativity. Each level focuses on a distinct capability, mirroring the cognitive progression from basic perception to logical reasoning and ultimately to advanced creativity. ConvBench comprises 577 meticulously curated multi-turn conversations encompassing 215 tasks reflective of real-world demands. Automatic evaluations quantify response performance at each turn and overall conversation level. Leveraging the capability hierarchy, ConvBench enables precise attribution of conversation mistakes to specific levels. Experimental results reveal a performance gap between multi-modal models, including GPT4-V, and human performance in multi-turn conversations. Additionally, weak fine-grained perception in multi-modal models contributes to reasoning and creation failures. ConvBench serves as a catalyst for further research aimed at enhancing visual dialogues.

Subjects:	Multimedia (cs.MM)
Cite as:	arXiv:2403.20194 [cs.MM]
	(or arXiv:2403.20194v2 [cs.MM] for this version)

Submission history

From: Shuo Liu [view email]
[v1] Fri, 29 Mar 2024 14:15:12 GMT (22310kb,D)
[v2] Thu, 25 Apr 2024 14:13:38 GMT (22310kb,D)

Which authors of this paper are endorsers? | Disable MathJax (What is MathJax?)

Link back to: arXiv, form interface, contact.

> cs > arXiv:2403.20194

Download:

Current browse context:

Change to browse by:

References & Citations

DBLP - CS Bibliography

Bookmark

Computer Science > Multimedia

Title: ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models

Submission history