职位描述:
1. 模型转换与适配:
12 将多模态大模型(如视觉-语言模型)转换为端侧兼容格式(高通、MTK、Nvidia平台),解决算子不支持、精度损失等问题;
12 针对端侧硬件特性(如低算力、低内存),调整模型结构或引入轻量化组件。
2. 模型端侧优化:
12 与算法团队协作,应用模型压缩技术(量化、剪枝)并验证精度-效率平衡;
12 设计动态推理策略(如条件计算、级联模型),提升端侧实时性。
3. 硬件适配与加速:
12 对接硬件加速单元(NPU/GPU),实现模型关键算子的高效实现;
12 优化模型数据流与内存布局,降低端侧资源占用。
4. 工具与流程建设:
12 开发模型端侧适配的自动化工具(如自动量化校准、异构调度);
12 沉淀模型端侧部署的实践文档与案例库。
职位要求:
61 技术能力:
12 熟悉PyTorch/TensorFlow模型导出与转换工具(ONNX、TorchScript);
12 熟悉高通QNN工具链。
12 掌握模型轻量化技术(量化训练、动态剪枝),了解端侧推理框架限制;
12 具备基础硬件知识(内存带宽、缓存机制),能结合硬件特性优化模型;
61 加分项:
12 有端侧AIGC应用(如Lamma、Stable Diffusion移动端部署)经验;
12 熟悉端侧AI框架或模型加密技术。