您的位置:主页 > 公告动态 > 正大动态 > 正大动态

清华开源图文对话大模子!神色包解读有一手,

什么,最懂神色包的中文开源大模子泛起了??!

就在最近,来自清华的一个叫VisualGLM-6B的大模子在网上传开了来,原由是网友们发现,它连神色包似乎都能解读!

像这个腊肠犬版蒙娜丽莎,它不仅准确明晰了这是腊肠犬与蒙娜丽莎的“合体照”,还点出了这只是一幅虚构作品:

又像是这个正在出租车后熨衣斗的男子,它也一眼看出了“纰谬劲”的地方:

值得一提的是,在此前GPT-4刚公布时,网友们也同样将它用来测了测知识明晰能力:

就犹如弱智吧问题是大模子语言明晰能力的benchmark一样,神色包简直就是大模子图片明晰能力的benchmark。

要是它真能明晰网友们奇新鲜怪的神色包,那AI简直没有什么不能get到的信息点了啊!

我们赶忙测试了一波,看看它事实效果若何。

gif也能看懂,但解读太过正经

现在,VisualGLM-6B已经推出了网页端试玩版。

只需要在Hugging Face的试玩界面上传图片,再与它举行“对话”,它就能天生明晰图片的效果:

先试试低级难度的神色包。

官方给出了几个问题示例,例如“形貌一下这个场景”、“这是什么器械”、“这张图片形貌了什么”,我们就先实验一下这几个问题。

输入一只正在听歌的小猫,让VisualGLM-6B形貌一下神色包中的场景

还不错,VisualGLM-6B准确get了小猫享受音乐或使用电子装备这个历程!

再输入一个章鱼哥神色包,问它“这是什么器械”:

也没问题。看起来能拿给爸妈用了(手动狗头)。

再试试用用饭小狗,让VisualGLM-6B解读一下这张图片形貌了什么

看起来低级神色包都没什么问题,是时刻加鼎力度了。

上传一个gif试试?*眼似乎没有问题:

但再换一个gif试试就会发现,它似乎只明晰了*帧图像,展望是不是“主角在试图捉住或捕捉它”,但现实上只是在扔钞票:

与之前的一些图片明晰AI差异,VisualGLM-6B在解读时会着重先容神色包角色中的面部神色,例如“它看起来不恬静或者主要”:

BUT!当我们再上一点难度,给神色包配上文字之后,它就无法明晰神色包的寄义了:

尤其是这种靠配文转达神色包精髓的,VisualGLM-6B就会最先展现“瞎解读”的功底:

若是图像拼接太多,它还会泛起新鲜的bug,例如把摸鱼狗头人认成大鲨鱼:

而且,它在形貌神色包的时刻整体对照正经,不会解读图像以外的“用意”。

例如,有网友测试了一下经典的“熊猫人显卡”神色包:

以及周星驰的经典“我全都要”神色包:

显然VisualGLM-6B能大致明晰图片的场景,但对于神色包的配文就无法明晰了。

国内首支零碳科技基金完成50亿元募集,IDG资本与香港中华煤气联合打造

总结一下,对于包罗经典作品角色的神色包,或是经由文字加工前的“原始”神色包,VisualGLM-6B能说出这个角色的名字,或是形貌出其中的场景:

虽然也可以让它形貌情绪,不外AI看出来的情绪,可能和最终神色包表达的情绪不太一样:

但一旦神色包加上了文字、或是被P进了新场景,VisualGLM-6B就会由于无法解读图片中文字的意思,而变得“看不懂梗”了。

有时刻还会解读庞杂,例如狗看成猪

那么,拥有一部门解读神色包能力的VisualGLM-6B,事实是什么来头?

多模态对话VisualGLM-6B,*只需8.7G显存

事实上,VisualGLM-6B并非专门为“神色包解读”而开发。

它是由智谱AI和清华大学KEG实验室打造的开源多模态对话模子,主要用于中文图像明晰,解读神色包可以说只是它被开发出来的一个“副业”。

它的正经用法,一样平常是酱婶的:

提起这个团队,人人更熟悉的可能是ChatGLM-6B大模子。

后者此前我们有作先容:

它是“清华系ChatGPT”的一员,2022年8月公布,共62亿规模参数,支持中英双语对话。

上线4天就突破6k star,现在已经近25k。

据先容,VisualGLM-6B正是在ChatGLM-6B的基础上完成:

ChatGLM-6B卖力它的语言模子部门,图像部门则通过训练BLIP2-Qformer构建起视觉模子与语言模子的“桥梁”。

因此,VisualGLM-6B整体模子共78亿参数

详细而言,VisualGLM-6B的预训练在中英文权重相同的情形下,在30M高质量中文图文对和300M经由筛选的英文图文对上完成(来自CogView数据集)。

这一训练方式可以将视觉信息对齐到ChatGLM的语义空间。

微调阶段,VisualGLM-6B又在长视觉问答数据上训练,以天生相符人类偏好的谜底。

与此同时,VisualGLM-6B由SwissArmyTransformer (简称“sat” ) 库训练,这是一个支持Transformer天真修改、训练的工具库,支持Lora、P-tuning等参数高效微调方式。

最终,本项目既提供了HuggingFace接口,也提供了基于sat的接口。

要说VisualGLM-6B*的特点,即是连系模子量化手艺,可以让人人在消费级的显卡上举行内陆部署,INT4量化级别下*只需8.7G显存

详细包罗三种部署工具:

一是下令行Demo。执行下令:python cli_demo.py

然后程序便自动下载sat模子,人人就可以在下令行中举行交互式的对话了。

输入指示并回车即可天生回复,输入clear可以清空对话历史,输入stop终止程序。

二是基于Gradio的网页版Demo。

需要先安装Gradio:pip install gradio,然后下载并进入本客栈运行web_demo.py,最后在浏览器中打开系统输出的地址即可使用。

三是API部署。需要安装分外的依赖:pip install fastapi uvicorn,然后运行客栈中的api.py。

更多细节和推理、量化部门的方式就不赘述了,可戳参考链接[1]查看官方先容。

需要注重的是,如官方所述,VisualGLM-6B正处于V1版本,视觉和语言模子的参数、盘算量都较小,因此会泛起相当多的已知局限性,像图像形貌事实性/模子幻觉问题、图像细节信息捕捉不足,以及一些来自语言模子的局限性等等。

就如下面这张测试,VisualGLM-6B形貌得还挺到位的,能看出是阿根廷和天下杯,但别被蒙了:图上并没有阿圭罗和迪马利亚这两位球星

因此,官方也称将在后续继续针对以上问题举行逐一改善。

不外,拥有图片解读能力的大模子,也并不只有VisualGLM-6B一个。

现在来看,显示对照好的“神色包杀手”照样GPT-4,从网友测试来看,它已经能凭证神色包中的文字解读meme:

开源大模子方面,基于Vicuna-13B开发的MiniGPT-4也能解读图片,同样只需要一张单卡RTX3090就能搞定:

不外在这批大模子中,VisualGLM-6B强调的则是“中文开源”特点,换而言之,它在中文形貌上可能会比其他大模子更准确一些。

你试玩过这些“神色包解读AI”了吗?感受谁更能get人类头脑精髓?(手动狗头)

参考链接:[1]