深夜突袭!OpenAI的AI程序员上线,人类仅需点按钮
创始人
2025-05-17 10:21:41
0

智东西

作者 | 李水青

编辑 | 心缘

智东西5月17日报道,刚刚,OpenAI推出一款基于云的软件工程Agent(智能体)——Codex的预览版。

Codex可并行处理多项任务,例如编程、解答代码库相关问题、修复错误以及提交拉取请求以供审核等,在云上运行并预加载用户代码库。

Codex由codex-1模型提供支持。codex-1是OpenAI o3针对软件工程优化后的版本。目前,Codex已面向ChatGPT Pro、Team和Enterprise用户上线,即将面向Plus用户上线。

OpenAI同步推出codex-1的精简版本,基于o4-mini专为轻量级开源编码Agent“Codex CLI”而打造,API定价为1.5美元/100万 tokens输入, 6美元/100万 tokens输出,即时缓存打七五折。

体验地址:https://chatgpt.com/codex

一、自己写代码提交更改,跑一次1-30分钟

现在,用户可以通过ChatGPT的侧边栏访问Codex,通过输入提示并点击“代码(Code)”按钮下达编程任务,也可以点击“Ask(提问)”向Codex询问有关代码库的问题。每个任务都在预加载了用户代码库的独立隔离环境中独立处理。

Codex可以读取和编辑文件,以及运行包括测试工具、类型检查器等在内的命令。任务完成通常需要1-30分钟,具体取决于复杂程度,用户可以实时监控Codex的进度。

Codex完成任务后,会在其环境中提交更改。通过引用终端日志和测试输出,Codex来提供其操作的可验证证据,让用户可以追踪任务完成过程中的每个步骤。

用户可以查看结果、请求进一步修订、提交GitHub拉取请求,或直接将更改集成到本地环境中。在产品中,用户可以配置Codex环境,使其尽可能与实际开发环境匹配。

Codex可以通过放置在用户代码库中的AGENTS.md文件进行引导。这些文本文件类似于README.md,用户可以在其中告知Codex如何导航代码库、运行哪些命令进行测试以及如何最好地遵循项目的标准实践。与人类开发人员一样,Codex在配置好开发环境、可靠的测试设置和清晰的文档后,性能最佳。

在编码评估和内部基准测试中,即使没有AGENTS.md文件或自定义代码生成器,codex-1也表现出强劲的性能。

23个无法在OpenAI内部基础架构上运行的SWE-Bench Verified样本被排除在外。codex-1的测试设置最大上下文长度为192k tokens,推理难度为中等,这也是目前产品中可用的设置。

二、报错自动告知用户,过程可检测

在安全和透明度方面,用户可以通过引用、终端日志和测试结果来检查Codex的工作。

当不确定或面临测试失败时,Codex会明确地告知这些问题,使用户能够就如何继续进行做出正确决策。

训练codex-1的主要目标,是让它的输出与人类的编程偏好和标准更接近。

如下图所示,与OpenAI o3模型相比,codex-1始终能够生成更清晰的补丁,可供立即进行人工审核并集成到标准工作流程中。

为了平衡安全性和实用性,Codex经过了训练,能够识别并精准拒绝旨在开发恶意软件的请求,同时清晰区分并支持合法任务;还增强了政策框架,并纳入了严格的安全评估。

Codex完全在云端安全隔离的容器中运行。

在任务执行期间,互联网访问被禁用,Agent的交互仅限于通过GitHub代码库明确提供的代码以及用户通过安装脚本配置的预安装项。Agent无法访问外部网站、API或其他服务。

三、Pro用户可免费体验,API收费1.5美元/100万 tokens输入

上个月,我们推出了Codex CLI,一款在终端中运行的轻量级开源编码Agent。它将o3和o4-mini等模型功能引入到用户的本地工作流程中。

今天,OpenAI还发布了codex-1的精简版本,这是专为Codex CLI使用而设计的o4-mini版本。

这个新模型支持CLI中更快的工作流程,并针对低延迟代码问答和编辑进行了优化,同时保留了指令遵循和样式方面的相同优势。它现在是Codex CLI中的默认模型,并在API中以codex-mini-latest的形式提供。

使用ChatGPT登录Codex CLI的Plus和Pro用户,今天晚些时候即可开始兑换价值5美元和50美元的免费API积分,有效期为30天。

对于使用codex-mini-latest构建的开发人员,该模型可在Responses API上使用,价格为1.5美元/100万 tokens(输入), 6美元/100万 tokens(输出),享受75%的即时缓存折扣。

OpenAI的技术团队已开始将Codex纳入其日常工具包。

工程师们最常使用它来卸载那些重复且范围明确的任务,例如重构、重命名和编写测试。它同样适用于构建新功能、连接组件、修复错误以及起草文档。

在发布之前,OpenAI还与一小群外部测试人员合作。

比如,思科正在探索Codex如何帮助其工程团队更快地将想法付诸实践,并向OpenAI团队提供反馈;Temporal⁠使用Codex加速功能开发、调试问题、编写和执行测试以及重构大型代码库等。

根据早期经验,OpenAI建议同时将范围明确的任务分配给多个Agent,并尝试不同类型的任务和提示,以有效地探索模型的功能。

结语:Codex仍处早期阶段,未来或成主流

OpenAI坦言,Codex的开发仍处于早期阶段。作为研究预览版,它目前缺少一些功能,例如用于前端工作的图像输入,以及在Agent工作时对其进行方向修正的功能。此外委托给远程Agent比交互式编辑耗时更长,都需要时间改进。

这仅仅是一个开始,可以预测,Codex在ChatGPT中引入的异步多Agent工作流将成为工程师编写高质量代码的主流方式,实时配对和任务委托两种交互模式将逐渐融合。

相关内容

热门资讯

朗坤股份公布“一种兼容型锂电池... 天眼查APP显示,近日,苏州朗坤自动化设备股份有限公司申请的“一种兼容型锂电池磁驱载具”专利公布。 ...
江苏数交所上架首批气象数据产品 近日,我省首批气象公共数据产品在江苏省数据交易所正式上架,标志着江苏省气象数据要素市场化迈出关键一步...
单细胞测序具备“立体洞察”能力 (来源:光明日报) 转自:光明日报 【瞧!我们的前沿科技】 本报深圳8月23日电(记者严圣禾 通讯员...
海口启动防汛防风IV级应急响应 海口市防灾减灾救灾消防和安全生产委员会关于启动防汛防风IV级应急响应的通知 市防安委会相关成员单位:...
广工“固屋古韵”突击队为湛江香... 暑假期间,广东工业大学土木与交通工程学院“固屋古韵”青年大学生“百千万工程”突击队,秉持专业精神,响...
小程序怎么自己制作,低成本创建... 微信小程序成为了企业拓展业务、触达客户的一个重要渠道,那借助于 SaaS 小程序制作平台的话,企业能...
卫健部门“做红娘”,医企“交朋... 广州作为国家重要的中心城市、粤港澳大湾区的核心、全国三大医疗中心之一,各级医疗机构年诊疗人次超过1....
从故乡停电夜到天津实验室:一名... 从故乡停电夜到天津实验室:一名巴基斯坦籍博士生的“光明之约” 中新网 天津8月22日电 题:从故乡...
科技题材最终都需要核聚变,算力... 算力 和 云计算 的未来需求确实与电力密切相关,而电力的未来发展方向指向 可控核聚变 。以下是具体分...
山东友玻取得玻璃加工智能输送装... 金融界2025年8月23日消息,国家知识产权局信息显示,山东友玻节能玻璃有限公司取得一项名为“一种玻...
她观测了1585颗恒星,却连一... 客观地说,安妮·沃克作为天文学家并没有做出特别的发现,只是按部就班地完成了一位普通天文学家的日常工作...
科普进校园 以华罗庚“双法”启... 日前,由中国优选法统筹法与经济数学研究会、东北财经大学科研处及公共管理学院联合主办的“科普进校园”活...
视频生成模型大幅降价,百度为何... 来源:市场资讯 (来源:界面新闻) 百度旗下的视频生成模型蒸汽机完成了一次大幅度升级,这距离该模型上...
华能水电等“一种生态修复用种植... 天眼查APP显示,近日,北京林业大学,华能澜沧江水电股份有限公司,华能澜沧江上游水电有限公司申请的“...
草原智慧与京师创新共建多元医学... 中新网呼和浩特8月23日电 (记者 张玮)“京蒙协作 助力健康北疆——多元医学数智创新发展高峰论坛”...
白皮书:2024年中国农业无人... 中新网北京8月23日电 (记者 陈溯)23日,农民日报社与大疆农业在北京联合举办《农业无人机行业白皮...
华为巴黎9月19日发布新品,含... 2025-08-23 11:20:27 作者:狼叫兽 华为日前宣布,将于9月19日在法国巴黎举行一...
苹果起诉前Apple Watc... IT之家 8 月 23 日消息,科技媒体 AppleInsider 昨日(8 月 22 日)发布博文...
一体化算网建设再提速,七城算力... 8月23日,2025中国算力大会主论坛上,国家超算互联网与七城算力中心举行“算力互联互通接入仪式”。...
苹果手游虚拟化:请推荐个云手机... 作为一名资深手游玩家,我深知手游虚拟化的重要性。随着科技的进步,云手机逐渐成为了游戏玩家的新宠。今天...