教 ChatGPT 学会看图的方法来了
消息来源:baojiabao.com 作者: 发布时间:2024-11-18
2022 年流行"文生图"模型,那 2023 年流行什么?
机器学习工程师 Daniel Bourke 的答案是:反过来!
这不,一个最新发布的"图生文"模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。
不仅是基础的"看图说话"功能,写情诗、讲解剧情、给图片中对象设计对话等等,这个 AI 都拿捏得稳稳的!
比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的食材和做菜步骤:
甚至图片中的一些列文虎克的细节也能"看"得清清楚楚。
当被问到如何才能从图片中倒着的房子里离开,AI 的回答是:侧面不是有滑梯嘛!
这只新 AI 名为 BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代码已开源。
最重要的是,和以前的研究不同,BLIP-2 使用的是一种通用的预训练框架,因此可以任意对接自己的语言模型。
有网友已经在畅想把接口换成 ChatGPT 后的强强组合了。
作者之一 Steven Hoi 更是放话:BLIP-2 未来就是"多模态版 ChatGPT"。
那么,BLIP-2 神奇的地方还有哪些?一起往下看。
理解能力一流
BLIP-2 的玩法可以说非常多样了。
只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。
举个例子,BLIP-2 不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:
中国的长城是公元前 221 年秦始皇为了保护帝都不受北方侵略而建造的。
给它一张电影剧照,BLIP-2 不光知道出自哪,还知道故事的结局是 be:泰坦尼克号沉没,男主淹死。
在对人类神态的拿捏上,BLIP-2 同样把握得非常准确。
被问到这张图片中的男人是什么表情,他为什么这样时,BLIP-2 的回答是:他害怕那只鸡,因为它正朝他飞来。
更神奇的是,在许多开放性问题上,BLIP-2 的表现也很出色。
让它根据下面的图片写一句浪漫的话:
它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。
这不光理解能力满分,文学造诣也相当强啊!
让它给图片中的两只动物生成一段对话,BLIP-2 也能轻松拿捏傲娇猫猫 x 蠢萌狗狗的设定:
猫: 嘿,狗狗,我能骑在你背上吗?
狗: 当然,为什么不呢?
猫: 我已经厌倦了在雪地里行走。
那么,如此强大的理解能力背后,BLIP-2 究竟是怎么做到的?
多项视觉语言任务上实现新 SOTA
考虑到大规模模型的端到端训练成本越来越高,BLIP-2 使用的是一种通用且高效的预训练策略:
从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。
这也意味着,每个人都可以选择自己想用的模型接入使用。
而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询 Transformer。
该 Transformer 分两个阶段进行预训练:
第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。
为了测试 BLIP-2 的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。
最终结果显示,BLIP-2 在多项视觉语言任务上都实现了 SOTA。
其中,BLIP-2 在 zero-shot VQAv2 上比 Flamingo 80B 高 8.7%,且训练参数还减少了 54 倍。
而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。
值得一提的是,研究者在论文最后也提到,BLIP-2 还存在一个不足,那就是缺乏上下文学习能力:
每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。
研究团队
BLIP-2 的研究团队来自 Salesforce Research。
第一作者为 Junnan Li,他也是一年前推出的 BLIP 的一作。
目前是 Salesforce 亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。
研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。
以下是 BLIP-2 的论文链接和 GitHub 链接,感兴趣的小伙伴们可以自取~
论文链接:
https://arxiv.org/pdf/2301.12597.pdf
GitHub 链接:
https://github.com/salesforce/LAVIS/tree/main/projects/blip2
参考链接:
[1]https://twitter.com/mrdbourke/status/1620353263651688448
[2]https://twitter.com/LiJunnan0409/status/1620259379223343107
本文来自微信公众号:量子位 (ID:QbitAI),作者:羿阁
2023-02-12 20:11:09相关文章
- 淘宝天猫仅退款属于诈骗吗?淘宝天猫开始部分取消仅退款
2024-10-01 13:01:28
- 哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰
2024-10-01 11:22:38
- 白嫖党|山西大同大学学生网购申请“仅退款”被拒骂客服一小时
2024-09-27 09:10:44
- 北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书 阿里巴巴竞赛受质疑
2024-06-28 10:07:40
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步
2024-06-28 09:27:13
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
- 国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善
2023-12-28 19:14:56
- 印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
- 在国外微信收不到国内信息?微信和WeChat将被拆分
2023-12-15 10:40:15
- 苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月
2023-08-06 23:21:02
- 华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单
2023-08-06 23:17:37
- 整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
- 网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
- 电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?
2023-06-12 17:18:55
- 中国电信广东地区崩了无信号 客服回应已在核实处理
2023-06-08 15:39:04
- 消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元
2023-03-06 12:56:03
- 华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
- OPPO正式发布安第斯智能云,让终端更智能
2023-02-24 16:02:27
- 华为与OPPO签订全球专利交叉许可协议 包括5G蜂窝通信专利
2023-02-24 16:02:26