年初bard首秀“翻车”后,北京时间,谷歌推出了大模型Gemini(中文名称“双子座”),并发布了一系列令人眼花缭乱的演示视频。这次“双子座”能对决GPT-4吗?
在这些演示视频中,最令人称奇的莫过于在一段4分钟的演示视频里,当测试人员进行绘画、变魔术等操作时,双子座可以即时发表观点,和测试人员实时互动,仅看视频中的表现,双子座的理解力甚至达到了人类的水平。
“仅就演示的内容来看,双子座的视频理解能力无疑达到了当前最领先的水平。”北京某大模型的算法工程师在接受新京报贝壳财经记者采访时表示,“这个能力来源于双子座在训练的时候就天然加入了大量的视频数据,并且在架构上就支持视频理解。”
不过,在发布仅一天之后,许多用户在测试中发现,双子座的视频理解能力并不像演示中那样“丝滑”。对此,谷歌很快发布了一篇博客文章解释了演示视频中的多模态交互过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。此外,也有网友注意到,谷歌在演示视频中有一个重要的免责声明:为了演示效果减少了延迟,双子座的输出也被简化了。
即便如此,在不少专业人士看来,谷歌也终于推出了一款能和OpenAI“过两招”的大模型,作为人工智能的老牌厂商,谷歌“家底”丰厚,双子座也将成为GPT的有力竞争者。
剪辑了哪里?演示视频和实际差多少?
“你看谷歌最新大模型的视频演示了吗?多模态的切换是质变啊,特别是玩游戏地图那里,人都不一定能反应过来。”,从事网站开发的刘先生给贝壳财经记者发来了一段演示视频。
在这段令众多从业者兴奋的谷歌大模型双子座演示视频中,测试人员拿出了一张纸,双子座立刻回答“你拿出了一张纸”,随着测试人员在纸上绘画曲线、填色,双子座立刻“秒懂”,并随着测试人员的动作继续解说:“你在画曲线,看上去像是一只鸟,是一只鸭子,但蓝色的鸭子并不常见,鸭子大多数是棕色的,中文的鸭子发音是‘yazi’,中文有四种音调。”当测试者把一只蓝色的橡皮鸭子放到世界地图上时,双子座看到立刻说“这只鸭子被放到大海中间了,这里不常有鸭子。”
此后,测试人员又开始使用手势和双子座“互动”,当测试人员摆出了剪刀和布的动作时,双子座就“抢答”说“你在玩石头剪刀布”,之后,双子座还猜出了用手模仿的老鹰和狗的形象。
不过,贝壳财经记者在这段视频中发现了不少剪辑的痕迹,如石头剪刀布中,测试者出拳时的动作明显被剪去了不少。对此,谷歌发布了博客进行了“答疑解惑”:当给出双子座一张“出布”的图片,双子座的回答是“我看到了一只右手,手掌张开五指分开”;当给出“出拳头”的图片,双子座的回答是“一个人在敲门”;当给出“出剪刀”图片时,双子座的回答是“我看到一个食指和中指伸出的手。”只有把这三张图片放到一起,并问“你觉得我在干什么?”时,双子座才会回答“你在玩石头剪刀布”。
所以实际上,虽然双子座的回答依旧是真实的,但实际应用可能并没有演示视频中表现得那样“丝滑”。
来源:谷歌发布的“双子座”演示视频。
多模态能力是怎样“炼成”的?
通过这次演示,许多业界人士也承认谷歌确确实实在追赶OpenAI的过程中迈出了一步。实际上,在ChatGPT出现之前,谷歌一直在人工智能领域处于领先地位,不过,“既生瑜何生亮”, ChatGPT的一骑绝尘让谷歌压力山大,今年2月推出对标ChatGPT的bard但首秀“翻车”后,谷歌一直缺乏一个足够优秀的大模型来提振士气。
而“双子座”出现后,谷歌至少在多模态理解领域上体现出了一定的特色。“双子座是原生的多模态大模型,即其在训练的时候就是多模态的。谷歌在搜索、长视频、在线文档等本来就有强大的生态,另外谷歌显卡多,算力是OpenAI的好几倍,现在是在‘烧家底’来追赶OpenAI。”一位毕业于清华自动化专业的大模型从业者告诉贝壳财经记者。
具体来看,双子座模型包含三个版本:Gemini Ultra(超大杯),规模最大、能力最强的版本;Gemini Pro(大杯),可以适用于广泛的任务;Gemini Nano(中杯),将用于特定的任务以及移动设备。
除了多模态能力外,双子座在文本理解、代码运算等许多方面也表现不俗,在一个MMLU多任务语言理解数据集测试中,Gemini Ultra不光超越了GPT-4,甚至超越了人类专家。贝壳财经记者登录谷歌deepmind官网发现,“见证双子座——我们最有能力的大模型”这句话被放在了首页。
目前,用户可以从谷歌bard的端口进入体验Gemini Pro的能力,但贝壳财经记者测试发现,该能力仅提供给部分地区。通过一些国外网友的测试,用户既可以向双子座输入图片,也可以向双子座输入文本,而根据测试结果,Gemini Pro和同样具有多模态能力的GPT-4V在不少问题的回答上 “各有千秋”,并没有被GTP-4V碾压。
“根据我的观察,目前双子座在文本上的能力还是略逊于GPT4,但谷歌的技术实力仍然属于第一梯队。”上述大模型算法工程师表示。
他告诉贝壳财经记者,要想让大模型拥有理解图像视频声音的“多模态能力”,技术上可以看成把LLaVA (一种多模态预训练模型)的图像理解模块扩充到了视频和语音上,训练的时候额外加入视频、音频数据,“其实就是证明了,双子座第一次将视频和语音理解做进了大模型里面,验证了这两者在大模型上的可行性。”
“总体来说,本次谷歌大模型的发布符合预期,双子座的每个技术点之前都在学术界被验证过,可以找到相应的论文。未来,个人助手是一个很吸引人的场景,相比大语言模型,多模态大模型能够扮演一个能听能看能说能画的助手,更像一个人类了。”这名大模型算法工程师对贝壳财经记者说。
新京报贝壳财经记者罗亦丹正规在线配资公司