Anonymous Intelligence Signal
OpenAI内部革命:Codex驱动数据智能体,工程师动嘴提问即可完成复杂SQL查询
在OpenAI内部,数据工程师正从繁琐的SQL编写和表结构辨析中解放出来。面对内部数据平台中600PB数据、7万个数据集的庞杂体系,工程师们长期陷入“表太多、定义太多、经验散落太多”的困境。例如,分析ChatGPT用户增长时,面对数十个定义各异的“用户活跃度”表,选错一个就意味着数天努力白费,甚至可能导致基于错误数据做出关键决策。即便选对表,生成正确结果也充满挑战,一份180多行的复杂SQL语句,任何一个细微的连接或聚合错误都可能导致整个分析失效。
OpenAI采取了一项激进措施:让一个由Codex驱动、具备终身学习能力的数据智能体,接管从“找表、懂表、写SQL到校验结果”的完整数据查询链路。工程师不再需要手动编写上百行SQL,只需用自然语言提问,例如“对比两个时间点的活跃用户数”,智能体便能从数据海洋中精准定位并生成结果。其核心创新在于一套六层上下文架构,这构成了智能体的“数据大脑”。
这套架构从最底层的基础元数据(如表结构、列类型)开始构建数据图谱骨架。其上一层是人工标注层,由领域专家编写表和列的描述,捕捉业务语义和潜在注意事项,相当于对智能体进行基础培训。关键的Codex增强层则通过推导表的代码级定义,让智能体深入理解数据的实际内容,如值的唯一性、更新频率和数据范围。更上层的机构知识层,则允许智能体访问Slack、Google Docs和Notion,获取关键的公司背景信息,将分散的组织知识接入查询过程。这一系列设计旨在将数据语义补齐、组织知识接入、操作经验沉淀,最终将数据查询的难度“归零”。