基本信息

职位编号:
WD00066350
工作领域:
Research/Development
国家/地区:
中国
省:
北京
市:
北京(Beijing)
日期:
星期三, 6 月 5, 2024
工作性质:
Full-time
其他工作城市
* China - Beijing - 北京(Beijing)

为什么选择联想

我们是联想。我们说到做到。我们尽心尽力,成就客户。联想是一家全球收入高达4410亿人民币的科技公司,财富世界500强排行217,全球员工多达77000人,每天为数百万名客户在全球180个市场地区提供服务。我们专注提供崭新科技给所有人,联想已成为全球最大的电脑供应商,在未来我们会专注发展新科技,把我们的成功发展到新领域(客户端科技、边缘计算、云端科技、网络服务和智慧科技等)包括服务器,储存装置,智慧设备、解决方案和服务。联想的创新科技理念和转型将为世界带来更独特,更可靠和更智能的未来、了解更多资讯和最新动态,请浏览www.lenovo.com上的故事中心。

职位描述和要求:

岗位职责:

1. 负责设计高可用大模型训练容错系统,支持千亿大模型预训练

2. 负责大模型训练容错checkpoint优化,提升大模型checkpoint读写与恢复性能

3. 负责大模型弹性训练框架的研发

岗位要求:

1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;

2. 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力;

3. 熟悉 AI 领域常见的分布式训练技术,包括但不限于:数据并行、流水线并行和张量并行等,具有相应的项目经验;

4. 至少熟悉一种AI框架(PyTorch/TensorFlow/Paddle/DeepSpeed等),能够熟练使用和调试;

5. 熟悉 GPU 硬件结构和 CUDA 计算原理,有 CUDA 相关算子开发、调试经验,对 NCCL/cuDNN 等有一定了解;

6. 对大规模预训练模型有较好的了解,熟悉常见的预训练模型(如GPT、BERT等)结构、训练方法和优化技巧。

7. 具备出色的问题解决能力和创新思维,能够分析和解决复杂的训练问题,并提出改进和优化的方案;

8. 具有良好的团队合作精神,能够与跨部门的团队紧密合作,共同推动项目的成功。

加分项:

1. 有大模型研发和分布式训练经验

2. 熟悉Kubernetes架构以及大模型训练容错系统

3. 在AI或者HPC领域发表过高水平论文

其他工作城市
* China - Beijing - 北京(Beijing)
* China - Beijing - 北京(Beijing)
* China - Beijing
* China