mPLUG-Owl是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识,并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。
mPLUG-Owl基于mPLUG-2模块化的思想,通过多阶段分别训练模型的视觉底座与语言模型,使其视觉知识能与预训练语言模型紧密协作,达到了显著优于主流多模态语言模型的效果。
ModelScope | Hugging Face |
---|---|
本模型主要接受用户的多模态输入,已支持文本、图像、视频。同时也支持和用户进行多轮对话。具体使用方式参考代码示例。
安装最新版本的Modelscope之后即可使用mPLUG-Owl。
以下为一个图文对话的使用示例:
from modelscope.pipelines import pipeline
chatbot = pipeline('multimodal-dialogue', 'damo/multi-modal_mplug_owl_multimodal-dialogue_7b')
image = 'http://mm-chatgpt.oss-cn-zhangjiakou.aliyuncs.com/mplug_owl_demo/released_checkpoint/portrait_input.png'
system_prompt_1 = 'The following is a conversation between a curious human and AI assistant.'
system_prompt_2 = "The assistant gives helpful, detailed, and polite answers to the user's questions."
messages = {
'messages': [
{
'role': 'system',
'content': system_prompt_1 + ' ' + system_prompt_2
},
{
'role': 'user',
'content': [{
'image': image
}]
},
{
'role': 'user',
'content': 'Describe the facial expression of the man.'
},
]
}
chatbot(messages)
# {
# "text": "he is angry."
# }
我们提出了针对视觉相关指令的测评集 OwlEval,用以评估多模态语言模型的对带有视觉信息上下文的理解能力。
如果我们的工作对你有帮助,可以考虑给我们的仓库点个star & 引用我们的论文。
@misc{ye2023mplugowl,
title={mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality},
author={Qinghao Ye and Haiyang Xu and Guohai Xu and Jiabo Ye and Ming Yan and Yiyang Zhou and Junyang Wang and Anwen Hu and Pengcheng Shi and Yaya Shi and Chaoya Jiang and Chenliang Li and Yuanhong Xu and Hehong Chen and Junfeng Tian and Qian Qi and Ji Zhang and Fei Huang},
year={2023},
eprint={2304.14178},
archivePrefix={arXiv},
primaryClass={cs.CL}
}