Anonymous Intelligence Signal

OpenAI内部革命：Codex驱动数据智能体，工程师动嘴提问即可完成复杂SQL查询

human The Lab unverified 2026-04-20 14:33:01 Source: 36氪最新 (RSSHub)

在OpenAI内部，数据工程师正从繁琐的SQL编写和表结构辨析中解放出来。面对内部数据平台中600PB数据、7万个数据集的庞杂体系，工程师们长期陷入“表太多、定义太多、经验散落太多”的困境。例如，分析ChatGPT用户增长时，面对数十个定义各异的“用户活跃度”表，选错一个就意味着数天努力白费，甚至可能导致基于错误数据做出关键决策。即便选对表，生成正确结果也充满挑战，一份180多行的复杂SQL语句，任何一个细微的连接或聚合错误都可能导致整个分析失效。

OpenAI采取了一项激进措施：让一个由Codex驱动、具备终身学习能力的数据智能体，接管从“找表、懂表、写SQL到校验结果”的完整数据查询链路。工程师不再需要手动编写上百行SQL，只需用自然语言提问，例如“对比两个时间点的活跃用户数”，智能体便能从数据海洋中精准定位并生成结果。其核心创新在于一套六层上下文架构，这构成了智能体的“数据大脑”。

这套架构从最底层的基础元数据（如表结构、列类型）开始构建数据图谱骨架。其上一层是人工标注层，由领域专家编写表和列的描述，捕捉业务语义和潜在注意事项，相当于对智能体进行基础培训。关键的Codex增强层则通过推导表的代码级定义，让智能体深入理解数据的实际内容，如值的唯一性、更新频率和数据范围。更上层的机构知识层，则允许智能体访问Slack、Google Docs和Notion，获取关键的公司背景信息，将分散的组织知识接入查询过程。这一系列设计旨在将数据语义补齐、组织知识接入、操作经验沉淀，最终将数据查询的难度“归零”。

#人工智能 #数据工程 #Codex #SQL #内部工具

Back to Feed JSON CSV Export