logo
计算机:GPT4o原生图像告别“AI味”,进阶为生产力工具
== 2025-3-30 14:14:58 == 热度 193


(以下内容从德邦证券《计算机:GPT-4o原生图像告别“AI味”,进阶为生产力工具》研报附件原文摘录)投资要点:GPT-4o集成多模态原生图像生成功能,效果良好引爆用户使用热情。北京时间3月26日,OpenAI推出GPT-4o原生图像生成,意味着图像生成不再依赖于单独的DALL-E3模型,而是直接集成到了GPT-4o的核心能力中,这种集成带来了更流畅的用户体验和更强大的图像生成、修改能力。据OpenAI官方说明,GPT-4o在多个方面相较于过去的模型进行了改进,具有如下突出优势:1)更好的文本集成:与过去那些难以生成清晰、恰当位置文字的AI模型不同,GPT-4o现在可以准确地将文字嵌入图像中;2)增强的上下文理解:GPT-4o通过利用聊天历史,允许用户在互动中不断细化图像,并保持多次生成之间的一致性;3)改进的多对象绑定:过去的模型在正确定位场景中的多个不同物体时存在困难,而GPT-4o现在可以一次处理多达10至20个物体;4)多样化风格适应:该模型可以生成或将图像转化为多种风格,支持从手绘草图到高清写实风格的转换。目前,该功能已经作为ChatGPT中的默认图像生成器向Plus、Pro、Team和免费用户陆续推出,企业和教育用户将很快允许访问。得益于超预期的效果,GPT-4o原生图像功能上线不到72小时,OpenAI CEO奥特曼宣布ChatGPT图像生成功能开始暂时受限。GPT-4o基于自回归模型,相较扩散模型显现出更强的连贯性和更精准的编辑能力。与作为扩散模型运行的DALL-E不同,4o图像生成是一种原生嵌入在ChatGPT中的自回归模型。具体来看,OpenAI对整个模型进行了统一训练,使其能够同时理解文本、代码和图像等多种形式,GPT-4o在文本渲染方面进行了优化,并采用自回归方法生成图像,即从左到右、从上至下逐步构建画面,通过先理解整体结构,然后进行细节填充的方式,在处理复杂场景时图像质量和逻辑性更有保障。过往采用的生成式AI图像模型,例如OpenAI的DALL-E3使用的是扩散模型,即通过去除像素噪声来根据文本提示重建图像。这种根本性的差异带来了一些与之前的生成模型截然不同的新能力:1)图像到图像的转换:这项功能使得4o图像生成能够将一张
=*=*=*=*=*=
当前为第1/2页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页