GPT-Image-2相关
发布时间:
Google了一下相关信息,发现 GPT-Image-2的亮点确实挺吸引人的。
微软员工Naomi Moneypenny在其2026年4月21日的博客中指出GPT-Image-2模型拥有更强的多语言理解能力、更强的指令遵循能力、更高分辨率支持1。其知识截止时间是 2025 年 12 月。

我们看看该员工的测试结果,这是他的Prompt
Interior of an empty subway car (no people).
Wide-angle view looking down the aisle. Clean, modern subway car with seats, poles, route map strip, and ad frames above the windows.
Realistic lighting with a slight cool fluorescent tone, realistic materials (metal poles, vinyl seats, textured floor).
空无一人的地铁车厢内部(无乘客)。广角视角沿过道向前拍摄。整洁、现代的地铁车厢,包含座椅、立柱、线路图条以及车窗上方的广告框。写实光线,略带冷色调荧光感,材质写实(金属立柱、乙烯基座椅、纹理地板)。
其中这个是GPT-image-1创建的结果

GPT-image-1.5创建的结果

这个是GPT-image-2创建的结果

对比图

我们可以看见左图的地板是几乎没有光泽的,中间已经出现了反光。右边的话细节已经做得非常到位了。你可以看看上面的大图,文字细节做得非常好了。
而再来看看GPT-image-2对文字的处理怎样
在输入prompt「生成广州市小学数学试卷」2以后,得出结果如下,说实话在没见过真正的广州市数学试卷的情况下我是分辨不出是真是假的。

不过还是有点瑕疵啊,看密封线左边的文字,应该是纵向文本而不是横向
现在,你来猜一下这张图是真的还是AI制图

除了人体比例还是感觉不太匀称,其他的真的就是以假乱真呗
prompt:一个漂亮的美女主播在抖音直播
其实生成人物并不是它最恐怖的点,因为要做到和真实情况相似的效果你只需要将你的prompt改写成一篇小作文,然后多试几次,总有一次能够得出你想要的结果。然而UI不行,我拿Seedream 5.0 Lite模型进行测试,结果如下


说实话,以前总是有人说「AI取代不了人类」,我对此还深信不疑。之前还在我的回答里面大吐苦水,但这次是真的有点颠覆了我的想象了。
以前总有人说AI的出现不亚于工业革命,这下看来是真的
本文摘自我在知乎的回答
.jpg)