GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

【新智元导读】GPT-4 在默默更新了多个功能之后,早已有了惊艳世人的各种新能力,简直是上体入地无所不能!

最近,GPT-4 一直在默默更新,加入了多模态,语音交互等功能。

但是与年初 OpenAI 每次发布的新功能,都能引得外界一阵惊呼的阵仗相比,现在 GPT-4 的声量似乎小了很多。

不知道是不是担心自己产品发布太过于耀眼,导致监管和官司不断找上门,OpenAI 除了 3 周前更新了文生图模型 DALL-E 3 外,在发布了 GPT-4 之后的 7 个月内,官方没有公开发布任何新的产品和功能。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

但是 OpenAI 总裁 Greg Brockman 自己却在 X(推特)上,不断转发利用新版的 GPT-4 来实现的各种天马行空的功能。

利用 GPT-4V 的多模态能力和代码能力,直接把一个写在书上的数学公式转化成一段 Python 代码。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

而利用 GPT-4 刚更新不久的语音功能,有人开始把它当成商务谈判的教练来进行模拟练习了。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

就在这个帖子下面,这位帝国理工学院商学院的学习设计师留言称,他们已经开始使用 GPT-4 的语音功能为 MBA 设计培训课程了。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

直接用 ChatGPT 集成的的 DALLE 3 来为游戏设计师生成世界观和原画设定图。

只要几行 Prompt,一个飞龙世界的文字描述和原画风格图就出来了。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

直接用 DALLE 3 来生成自己想要的 GIF 文件。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

一颗玉米如何成为爆米花。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

一只跳舞的狗子。

我们就一起来看看如何利用 GPT-4 来完成这一系列的功能。

GPT-4 理综版

网友发现,只要通过截图,可以将几乎任何数学公式,通过 GPT-4 转化为 Python 代码。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

当然,因为模型还是存在出现幻觉的可能,所有的结果不能直接拿过来就用,还是要认真检查其中的错漏。

比如截图中第六行的代码,「d_hat (i, j)」应该是「d_hat (i)」。

虽然有小错误,但是网友们依然对这个功能给与了非常高的评价。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

这位 MIT 博士,AI 初创公司的创始人认为,如果没有额外的上下文,GPT-4 无法识别这个函数,但它确实知道它正在做什么…… 非常酷。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

另一位开发了一个金融 AI 工具的开发人员称,这个用例非常棒!有无穷的想象空间。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

并且他给出了两个具体的用例。

可以截图研究论文中的复杂数学方程并在本地快速运行。

2. 可以截屏(任何内容)并让 GPT 生成代码来实现 UI。

同样,除了数学公式,它还可以直接读取分子式,直接输出制备方法。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

给它投喂一个耳机的电路图,它就能告诉你组装这个设备的大致步骤。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

GPT-4V 对于多模态的良好支持,结合它的编码能力,以及广博的知识面,可以组合出几乎无穷的使用方案。

几句 Prompt 生成龙与魔法的世界

另外一位网友分享了它通过 ChatGPT 创造了一个和龙有关的奇幻世界的过程。

GPT-4 生成了和龙有关的概念、解剖结构,甚至龙的栖息地。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

龙的头部特写。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

龙的骨架和解刨图。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

以及龙的生存环境原画和描述。

首先,需要指定出你想要的图像样式。

作者想要那种技术信息图表风格的美术风格,他使用了这个 Prompt,几乎就是普通的英语描述。

「Can you generate me a technical engineer’s drawing of a dragon, with labels of its various parts? Use a wide aspect ratio:」

就得到了下面的结果:

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

接下来,生成龙头的特写。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

然后让他生成栖息地的环境原画图和介绍。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

如果不满意,就再进一步细化你的要求,让 GPT-4 来满足。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

作为游戏设计师,想要设计一个和龙有关的场景,直接动手就能出可以使用的结果。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

另外一位网友根据这个用例的启发,生成了一个和藏红花相关的介绍。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

「Can you generate me a technical engineer’s drawing of a saffron, with labels of its various parts? Use a wide aspect ratio.」

用这个提示词生成了一个藏红花的结构图。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

再生成了一幅藏红花束的特写。「Can you generate a close up of saffron strand in wide aspect ratio?」

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

藏红花田的远景图片。「Please generate an aerial view of saffron field in wide aspect ratio.」

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

最后生成了藏红花的剖面图。「Anatomy of saffron strand in wide aspect ratio.」

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

一个非常复杂的潜艇结构图!

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

高达的结构示意图。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

头部的详细结构图。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

足部的详细结构图。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

武器的结构图。

面包机的超详细结构图。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

网友纷纷表示,完全停不下来。

GPT-4V 多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,-冯金伟博客园

参考资料:

  • https://twitter.com/gdb/status/1713301320961036466

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。