当前位置:主页 > 新城娱乐资讯 >

新城娱乐资讯

NEWS INFORMATION

实测GPT-4V后微软写了份166页的测评报告

时间:2023-10-08 06:49 点击次数:190

  ,作者:克雷西、萧箫,原文标题:《微软写了份GPT-4V说明书:166页讲解又全又详细,提示词demo示例一应俱全 附下载》,头图来自:视觉中国

  • 该报告详细测评了GPT-4V在十大任务上的表现,包括图像识别和逻辑推理等。

  • 报告提供了一整套多模态大模型提示词使用技巧,手把手教读者从0到1学会写提示词。

  • 作者是全华班,7名作者全部是华人,其中领衔作者是一位在微软工作了17年的女性首席研究经理。

  多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。

  不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;

  还传授了一整套多模态大模型提示词使用技巧——手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。

  值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。

  在166页报告发布前,他们还参与了OpenAI最新DALL·E 3的研究,对这个领域了解颇深。

  相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:

  不要只看GPT-4V的回答细节,我真的对AI展现出来的潜在能力感到害怕。

  所以,微软这篇“论文”究竟讲了啥,又展现出了GPT-4V的哪些“潜力”?

  微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。

  随后,他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧,具体包括4大方面:

  提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。

  预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。

  但无论是新的提示词技巧、还是GPT-4V的应用场景,大伙儿最关注的还是GPT-4V的真正实力。

  所以,这份“说明书”随后用了150多页来展示各种demo,详细剧透了GPT-4V在面对不同回答时展现出的能力。

  而且不仅能看出这些人是谁,还能解读他们正在做什么,比如下图中老黄正在介绍英伟达新推出的显卡产品。

  除了人物,地标建筑对于GPT-4V来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。

  不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。

  双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

  这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。

  除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。

  不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。

  这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。

  前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。

  当然难度不在于图形本身,注意图中的第4条文字说明,原题目中图形的排列方式不是图中展示的样子。

  比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。

  除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。

  下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。

  而针对同一系列的图片,可能会有不同的理解方式,这时GPT-4V会结合文本提示进行判断。

  比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。

  然后又把例子展示给GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。

  只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V给出了正确答案。

  GPT-4V的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。

  她本科毕业于华中科技大学,在中国清华大学获得博士学位,于2006年加入微软亚洲研究院,并于2016年加入位于雷德蒙德的微软研究院。

  她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。

  如对本稿件有异议或投诉,请联系文集:杀疯了的ChatGPT频道:前沿科技

Copyright © 2028 新城娱乐注册 TXT地图 HTML地图 XML地图