基本信息

职位编号:
WD00061615
工作领域:
Artificial Intelligence
国家/地区:
中国
省:
北京
市:
北京(Beijing)
日期:
星期四, 2 月 22, 2024
工作性质:
Full-time
其他工作城市
* China - Beijing - 北京(Beijing)

为什么选择联想

我们是联想。我们说到做到。我们尽心尽力,成就客户。联想是一家全球收入高达4410亿人民币的科技公司,财富世界500强排行217,全球员工多达77000人,每天为数百万名客户在全球180个市场地区提供服务。我们专注提供崭新科技给所有人,联想已成为全球最大的电脑供应商,在未来我们会专注发展新科技,把我们的成功发展到新领域(客户端科技、边缘计算、云端科技、网络服务和智慧科技等)包括服务器,储存装置,智慧设备、解决方案和服务。联想的创新科技理念和转型将为世界带来更独特,更可靠和更智能的未来、了解更多资讯和最新动态,请浏览www.lenovo.com上的故事中心。

职位描述和要求:

岗位职责:
1. 负责深度学习大模型的分布式训练系统的架构设计与开发,优化模型训练效率和资源利用率;
2. 研究并实现基于GPU等高性能计算平台的大规模深度学习模型并行训练算法;
3. 对现有深度学习框架和分布式训练框架(如PyTorch、TensorFlow、DeepSpeed、Colossal-AI,megatron)进行深度定制和扩展,以满足大规模模型训练的需求;
4. 与算法团队紧密合作,解决在超大规模数据集上模型训练过程中的性能瓶颈问题;
5. 设计并实现模型训练监控系统,包括但不限于训练进度、资源占用情况、训练效果可视化等;
6. 持续跟踪最新的分布式训练技术发展趋势,将前沿研究成果应用于实际项目中。

任职要求:
1. 计算机科学或相关专业硕士及以上学历,具有3年以上深度学习领域工作经验,有大型互联网公司或者AI实验室工作经验者优先;
2. 熟练掌握至少一种深度学习框架和分布式训练框架(如PyTorch、TensorFlow),并具备丰富的模型开发与训练经验;
3. 精通分布式系统原理,熟悉常见的分布式计算框架(如MPI、DeepSpeed、Colossal-AI、OneFlow),有大规模并行计算和分布式训练系统开发经验;
4. 具备良好的算法基础,对深度学习模型训练优化有深入理解和实践经验,包括但不限于梯度压缩、通信优化、异步训练等;
5. 有大模型分布式训练理论和实践经验,熟悉国内外主流基础大模型;
6. 具备优秀的分析和解决问题的能力,能够独立进行复杂问题定位与解决;
7. 对于计算机体系结构、操作系统、网络编程等相关知识有一定理解;
8. 英语读写能力强,能快速阅读英文文献和技术文档,追踪国际最新研究动态和技术趋势。

加分项:
1. 在顶级会议或期刊(如NIPS, ICML, ICLR, JMLR等)发表过关于分布式训练或深度学习相关论文;
2. 参与过开源分布式训练项目,并有显著贡献。

其他工作城市
* China - Beijing - 北京(Beijing)
* China - Beijing - 北京(Beijing)
* China - Beijing
* China