专注于深度学习与大规模预训练的前沿研究。致力于探索 Scaling Law 的演进规律,通过数据动力学框架挑战算力瓶颈。
Transformer 梯度冲突检测及多机环境分布式训练优化。
量化数据分布对预训练 Loss 曲线的影响及动态评估。
内核级算子优化与训练流水线构建(A800/H800)。
大规模预训练中的数据清洗与自动化筛选流程设计。
通过量化样本对模型 Loss 的梯度贡献度,实现对预训练数据的实时估值与动态筛选。
随着大模型参数规模的不断扩张,传统的随机数据采样已无法满足高效预训练的需求。TB 级语料库中存在大量对收敛无益甚至有害的冗余数据。Claritas 项目旨在构建一套低开销的评估体系,在训练初期即识别出对模型泛化能力有关键贡献的样本。
提出基于梯度投影的数据估值算法,支持 TB 级语料分钟级分析。
建立数据分布与收敛速度的映射模型,量化 Scaling Law 效率。
在 A800/H800 集群验证分布式扩展性,提升训练效率 30%。