Anonymous Intelligence Signal
北大联合Llama-Factory推出DataFlex:将数据从“静态输入”变为“可调度优化对象”
大模型训练的竞争焦点正从参数调优转向一个更根本的难题:如何系统性地控制模型在训练中“看到”什么数据、以何种比例看到、以及哪些样本应被重点学习。这些数据层面的动态决策,正成为决定训练效率、泛化能力与最终模型性能的关键。然而,学术界提出的众多数据选择、混合与加权方法长期分散于不同代码库,接口混乱、复现困难,难以集成到主流训练流程中。
近日,北京大学张文涛教授与鄂维南院士团队,联合LLaMA-Factory、OpenDataLab及上海AI Lab等机构,推出了工业级数据中心动态训练框架DataFlex。它并非零散算法的简单堆叠,而是构建在LLaMA-Factory之上的一套统一训练基础设施。DataFlex的核心突破在于,将动态样本选择、动态数据混合与动态样本加权这三类能力,真正无缝接入训练闭环,使“数据如何参与训练”从一个依赖经验的手动配置过程,升级为可控制、可优化且可复现的系统级能力。
这意味着,数据首次能够像模型参数一样,在训练过程中被持续调度与优化。DataFlex因此具备双重价值:一方面,它作为一个可复现的研究平台,能系统性地比较各类数据中心训练算法,大幅降低研究门槛;另一方面,它也是一个面向真实生产场景的优化系统,可直接服务于大模型的预训练、后训练及领域适配。该框架发布后,迅速在Hugging Face Daily Papers榜单中获得广泛关注并登上月榜首位,这反映了业界对“数据中心动态训练”从理论迈向工程化闭环的里程碑式认可。