集群资源调度优化主管研究员 - - 57476

基本信息

职位编号:

WD00066353

工作领域:

Research/Development

国家/地区:

中国

省:

北京

市:

北京（Beijing）

日期:

星期三, 6 月 5, 2024

工作性质:

Full-time

其他工作城市:

* China - Beijing - 北京（Beijing）

为什么选择联想

联想文化，我们称之为 “We Are Lenovo”（我们，就是联想），其核心是：“说到做到，尽心尽力，成就客户”。

联想集团是一家年收入569亿美元的全球化科技巨头，位列《财富》世界500强第248名，服务遍布全球180个市场数以百万计的客户。为实现“智能，为每一个可能” 的公司愿景，联想在不断夯实全球个人电脑市场冠军地位的基础上，积极构建全栈式的计算能力，现已拥有包括人工智能赋能、人工智能导向和人工智能优化的终端、基础设施、软件、解决方案和服务在内的完整产品路线图，包括个人电脑、工作站、智能手机、平板电脑等终端产品，服务器、存储、边缘计算、高性能计算以及软件定义等基础设施产品。这一变革与联想改变世界的创新一起，共同为世界各地的人们成就一个更加包容、值得信赖的智慧未来。联想集团有限公司在香港交易所上市（港交所：992）（美国预托证券代号：LNVGY）。

欢迎访问联想官方网站 https://www.lenovo.com，并关注“联想集团”微博及微信公众号等社交媒体官方账号，或关注“联想招聘”公众号，获取联想最新动态。

职位描述和要求:

岗位职责：

1. 负责大模型训练资源调度，在异构集群上完成大模型的资源自动配置和自动并行

2. 设计大模型并行策略性能仿真软件，支持混合异构芯片进行大模型训练

岗位要求:

1. 全日制硕士以上学历，计算机科学与技术、人工智能等相关专业；

2. 熟练C++/Python语言、数据结构以及计算机系统结构，有AI模型性能调优经验，以及良好的工程实现能力；

3. 具备基础的GPU编程能力（CUDA / ROCm），熟悉常用的AI加速库，如NCCL/oneAPI/cudnn等；

4. 至少熟悉一种常用的深度学习框架(PyTorch/TensorFlow/Paddle/DeepSpeed等)；

5. 熟悉大模型3D并行策略的原理，以及算子计算和通信开销分析手段；

6. 熟悉深度学习网络和算子底层实现细节，有模型推理或者训练调优经验.

加分项：

1. 有大模型研发和分布式训练经验

2. 熟悉Kubernetes架构以及大模型训练调度系统

3. 有大模型3D并行策略实现或者优化经验

4. 在AI或者HPC领域发表过高水平论文

其他工作城市:

* China - Beijing - 北京（Beijing）

* China - Beijing

* China