大模型训练系统优化高级研究员 - - 57472

基本信息

职位编号:

WD00066350

工作领域:

Research/Development

国家/地区:

中国

省:

北京

市:

北京（Beijing）

日期:

星期三, 6 月 5, 2024

工作性质:

Full-time

其他工作城市:

* China - Beijing - 北京（Beijing）

为什么选择联想

联想文化，我们称之为 “We Are Lenovo”（我们，就是联想），其核心是：“说到做到，尽心尽力，成就客户”。

联想集团是一家年收入569亿美元的全球化科技巨头，位列《财富》世界500强第248名，服务遍布全球180个市场数以百万计的客户。为实现“智能，为每一个可能” 的公司愿景，联想在不断夯实全球个人电脑市场冠军地位的基础上，积极构建全栈式的计算能力，现已拥有包括人工智能赋能、人工智能导向和人工智能优化的终端、基础设施、软件、解决方案和服务在内的完整产品路线图，包括个人电脑、工作站、智能手机、平板电脑等终端产品，服务器、存储、边缘计算、高性能计算以及软件定义等基础设施产品。这一变革与联想改变世界的创新一起，共同为世界各地的人们成就一个更加包容、值得信赖的智慧未来。联想集团有限公司在香港交易所上市（港交所：992）（美国预托证券代号：LNVGY）。

欢迎访问联想官方网站 https://www.lenovo.com，并关注“联想集团”微博及微信公众号等社交媒体官方账号，或关注“联想招聘”公众号，获取联想最新动态。

职位描述和要求:

岗位职责：

1. 负责设计高可用大模型训练容错系统，支持千亿大模型预训练

2. 负责大模型训练容错checkpoint优化，提升大模型checkpoint读写与恢复性能

3. 负责大模型弹性训练框架的研发

岗位要求：

1. 全日制硕士以上学历，计算机科学与技术、人工智能等相关专业；

2. 熟练C++/Python语言、数据结构以及计算机系统结构，有AI模型性能调优经验，以及良好的工程实现能力；

3. 熟悉 AI 领域常见的分布式训练技术，包括但不限于：数据并行、流水线并行和张量并行等，具有相应的项目经验；

4. 至少熟悉一种AI框架（PyTorch/TensorFlow/Paddle/DeepSpeed等)，能够熟练使用和调试；

5. 熟悉 GPU 硬件结构和 CUDA 计算原理，有 CUDA 相关算子开发、调试经验，对 NCCL/cuDNN 等有一定了解；

6. 对大规模预训练模型有较好的了解，熟悉常见的预训练模型（如GPT、BERT等）结构、训练方法和优化技巧。

7. 具备出色的问题解决能力和创新思维，能够分析和解决复杂的训练问题，并提出改进和优化的方案；

8. 具有良好的团队合作精神，能够与跨部门的团队紧密合作，共同推动项目的成功。

加分项：

1. 有大模型研发和分布式训练经验

2. 熟悉Kubernetes架构以及大模型训练容错系统

3. 在AI或者HPC领域发表过高水平论文

其他工作城市:

* China - Beijing - 北京（Beijing）

* China - Beijing

* China