实测GPT-4V后微软写了份166页的测评报告

时间：2023-10-08 06:49 点击次数：190

　　，作者：克雷西、萧箫，原文标题：《微软写了份GPT-4V说明书：166页讲解又全又详细，提示词demo示例一应俱全附下载》，头图来自：视觉中国

　　• 该报告详细测评了GPT-4V在十大任务上的表现，包括图像识别和逻辑推理等。

　　• 报告提供了一整套多模态大模型提示词使用技巧，手把手教读者从0到1学会写提示词。

　　• 作者是全华班，7名作者全部是华人，其中领衔作者是一位在微软工作了17年的女性首席研究经理。

　　多模态王炸大模型GPT-4V，166页“说明书”重磅发布！而且还是微软团队出品。

　　不仅详细测评了GPT-4V在十大任务上的表现，从基础的图像识别、到复杂的逻辑推理都有展示；

　　还传授了一整套多模态大模型提示词使用技巧——手把手教你从0到1学会写提示词，回答专业程度一看就懂，属实是把GPT-4V的使用门槛打到不存在了。

　　值得一提的是，这篇论文的作者也是“全华班”，7名作者全部是华人，领衔的是一位在微软工作了17年的女性首席研究经理。

　　在166页报告发布前，他们还参与了OpenAI最新DALL·E 3的研究，对这个领域了解颇深。

　　相比OpenAI的18页GPT-4V论文，这篇166页“食用指南”一发布，立刻被奉为GPT-4V用户必读之物：

　　不要只看GPT-4V的回答细节，我真的对AI展现出来的潜在能力感到害怕。

　　所以，微软这篇“论文”究竟讲了啥，又展现出了GPT-4V的哪些“潜力”？

　　微软研究员们设计了涵盖多个领域的一系列输入，将它们喂给GPT-4V，并观察和记录GPT-4V的输出。

　　随后，他们对GPT-4V完成各类任务的能力进行评估，还给出了使用GPT-4V的新提示词技巧，具体包括4大方面：

　　提出了一种新的多模态提示词技巧“视觉参考提示”（visual referring prompting），可以通过直接编辑输入图像来指示感兴趣的任务，并结合其他提示词技巧使用。

　　预测了多模态学习研究人员应该关注的2类领域，包括落地（潜在应用场景）和研究方向。

　　但无论是新的提示词技巧、还是GPT-4V的应用场景，大伙儿最关注的还是GPT-4V的真正实力。

　　所以，这份“说明书”随后用了150多页来展示各种demo，详细剧透了GPT-4V在面对不同回答时展现出的能力。

　　而且不仅能看出这些人是谁，还能解读他们正在做什么，比如下图中老黄正在介绍英伟达新推出的显卡产品。

　　除了人物，地标建筑对于GPT-4V来说同样是小菜一碟，不仅能判断名称和所在地，还能给出详细的介绍。

　　不过越是有名的人和地点，判断起来也就越容易，所以要难度更大的图才能展现GPT-4V的能力。

　　双肺多个区域存在实变和磨玻璃混浊，肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

　　这张图中，GPT-4V成功识别出了这是一张脑部的核磁共振（MRI）影像。

　　除了这些“正经”的内容之外，当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。

　　不仅是解读表情包中的梗，真实世界中人类的表情所表达的情感也能被GPT-4看穿。

　　这方面，GPT-4V除了可以识别拉丁文字拼写的语言之外，中文、日文、希腊文等其他文字也都认识。

　　前面展示的DEMO，无论多么专业或多么难懂，都还停留在识别的范畴，但这只是GPT-4V技能的冰山一角。

　　当然难度不在于图形本身，注意图中的第4条文字说明，原题目中图形的排列方式不是图中展示的样子。

　　比如我们手里有一张四位AI巨头的合影，要GPT-4V框出其中的人物并标注他们的姓名和简介。

　　除了这些静态内容，GPT-4V还能做动态分析，不过不是直接喂给模型一段视频。

　　下面的五张图是从一段制作寿司的教程视频中截取的，GPT-4V的任务是（在理解内容的基础上）推测这些图片出现的顺序。

　　而针对同一系列的图片，可能会有不同的理解方式，这时GPT-4V会结合文本提示进行判断。

　　比如下面的一组图中，人的动作究竟是开门还是关门，会导致排序结果截然相反。

　　然后又把例子展示给GPT-4V，答案倒是有样学样，可惜数字是胡编乱造出来的。

　　只有一个例子的确是有点少，不过随着样本数量的提高（其实只多了一个），终于功夫不负有心人，GPT-4V给出了正确答案。

　　GPT-4V的效果就展示这么多，当然它还支持更多的领域和任务，这里无法一一展示，感兴趣的话可以阅读原始报告。

　　她本科毕业于华中科技大学，在中国清华大学获得博士学位，于2006年加入微软亚洲研究院，并于2016年加入位于雷德蒙德的微软研究院。

　　她的研究领域是基于多模态感知智能的深度学习和机器学习，具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。

　　如对本稿件有异议或投诉，请联系文集：杀疯了的ChatGPT频道：前沿科技