OpenAI的GPT4已经迎来了多模态输入,而在GPT4还未全部开放之时,不少公司已经在GPT3的基础上开始研究多模态了,其中包括Microsoft。Microsoft在发布Visual ChatGPT后,仅仅数天,就已经收获32K星星了。
Github入口: https://github.com/microsoft/TaskMatrix
Visual ChatGPT是个怎么样的项目呢?看官方介绍如下:
系统架构:
安装:
略
碰到的坑:
1.requirement的torch版本为1.13.1,tiandi笔记本上的显卡CUBA驱动为12.1,对应的torch则为2.1.0,需要手工安装
2.Microsoft Visual C++ 14.0 or greater is required,去官网下载安装桌面开发工具安装
3. CUBA内存不够,tiandi的笔记本独立显卡内存2G,项目模型Text2Image需要3385MB,只能用CPU来跑了,运行命令改成python visual_chatgpt.py –load “ImageCaptioning_cuda:0,Text2Image_cpu”
玩一下:
到这里,安装顺利完成,文档中更新记录提及已经支持中文了,运行一下看看:
真丑,估计是prompt写得不怎么样,好歹是个猫了,试试修改功能。这里说一下,由于显卡问题,无法用GPU跑Text2Image,这里用的是CPU,非常得慢,一张500K的图片大概30分钟。
啥?你个锤子。再试试看ImageCaptioning模型,发个图给它。
问它点问题:
结果可能还有点色弱。tiandi突然想了一个可能,会不会是prompt不对,于是又尝试了一下。
看来还是不行,放弃。
最后再说一下,CPU生成贼慢,要想在本地玩这些AIGC,还必须有块好显卡。
生成图片之前也玩过,还行,你这个效果。。。哈哈。