基本信息

职位编号:
WD00066350
工作领域:
Research/Development
国家/地区:
中国
省:
北京
市:
北京(Beijing)
日期:
星期三, 6 月 5, 2024
工作性质:
Full-time
其他工作城市
* China - Beijing - 北京(Beijing)

为什么选择联想

联想文化,我们称之为 “We Are Lenovo”(我们,就是联想),其核心是:“说到做到,尽心尽力,成就客户”。

联想集团是一家年收入569亿美元的全球化科技巨头,位列《财富》世界500强第248名,服务遍布全球180个市场数以百万计的客户。为实现“智能,为每一个可能” 的公司愿景,联想在不断夯实全球个人电脑市场冠军地位的基础上,积极构建全栈式的计算能力,现已拥有包括人工智能赋能、人工智能导向和人工智能优化的终端、基础设施、软件、解决方案和服务在内的完整产品路线图,包括个人电脑、工作站、智能手机、平板电脑等终端产品,服务器、存储、边缘计算、高性能计算以及软件定义等基础设施产品。这一变革与联想改变世界的创新一起,共同为世界各地的人们成就一个更加包容、值得信赖的智慧未来。联想集团有限公司在香港交易所上市(港交所:992)(美国预托证券代号:LNVGY)。

欢迎访问联想官方网站 https://www.lenovo.com,并关注“联想集团”微博及微信公众号等社交媒体官方账号,或关注“联想招聘”公众号,获取联想最新动态。

职位描述和要求:

岗位职责:

1. 负责设计高可用大模型训练容错系统,支持千亿大模型预训练

2. 负责大模型训练容错checkpoint优化,提升大模型checkpoint读写与恢复性能

3. 负责大模型弹性训练框架的研发

岗位要求:

1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;

2. 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力;

3. 熟悉 AI 领域常见的分布式训练技术,包括但不限于:数据并行、流水线并行和张量并行等,具有相应的项目经验;

4. 至少熟悉一种AI框架(PyTorch/TensorFlow/Paddle/DeepSpeed等),能够熟练使用和调试;

5. 熟悉 GPU 硬件结构和 CUDA 计算原理,有 CUDA 相关算子开发、调试经验,对 NCCL/cuDNN 等有一定了解;

6. 对大规模预训练模型有较好的了解,熟悉常见的预训练模型(如GPT、BERT等)结构、训练方法和优化技巧。

7. 具备出色的问题解决能力和创新思维,能够分析和解决复杂的训练问题,并提出改进和优化的方案;

8. 具有良好的团队合作精神,能够与跨部门的团队紧密合作,共同推动项目的成功。

加分项:

1. 有大模型研发和分布式训练经验

2. 熟悉Kubernetes架构以及大模型训练容错系统

3. 在AI或者HPC领域发表过高水平论文

其他工作城市
* China - Beijing - 北京(Beijing)
* China - Beijing - 北京(Beijing)
* China - Beijing
* China