支持将训练好的模型或上传的模型部署模型服务，最少支持一种访问协议（http），多种更好;
考虑模型部署的调度合理性
考虑现节点能否做到模型服务器的弹性拓展,相关资源：https://kubernetes.io/zh/docs/tasks/run-application/horizontal-pod-autoscale/

模型部署及平台其他模块调整

1、数据集

1、增加【适配算法】字段，便于分类。

例如，本数据集可用于如下物体检测算法进行训练：

物体检测YOLOv3_ResNet18
物体检测-FasterRCNN_ResNet50
物体检测-RetinaNet_ResNet50
物体检测YOLOv3_Darknet53
物体检测-SSD_VGG
物体检测-物体检测-SSD-MobileNet- v1 PPN

2、卡片式展示-----点开后查看数据集详情

2、算法

1、【适配数据集】字段，做相应的表关联。

增加【适用的数据集】字段。如下：

人车检测数据集
行人检测数据集
口罩检测数据集

2、卡片式展示---点开后产看算法详情

3、增加算法的【模型类别】（例如，目标检测、图像分类、语义分割、人脸识别.......）

4、增加算法支持的【框架引擎】，例如 tf、 pytorch 、caffe 、mindspore等

3、训练

1、规范用户训练保存的模型结构。指定 Tensorflow，Keras 框架按Savedmodel 格式保存模型， Pytorch 支持内置模型 .pth 格式的模型的推理。

2、支持用户提供自定义推理脚本，通过文件上传方式来【上传推理脚本】

4、模型

1、设置模型选择是否支持在线推理，【可选】。

5、在线服务部署

要点：

1、支持TensorFlow，PyTorch，Keras 三种深度学习框架训练的模型部署

2、支持 HTTP、gRPC 两种通信方式；（先支持http）

3、支持多节点部署；

4、支持灰度发布；

5、支持基本的图片预处理（主要是针对服务的输入为图片格式）；

6、支持自定义推理脚本；

7、支持服务编辑、删除、停止、预测、回滚等功能。

8、镜像选择，部署在线服务所需的镜像。

9、支持服务的运行参数的添加

主要工作：原型图设计、数据表设计、约定模型包结构、约定在线推理脚本、后台编码（管理端 + 用户端）。

# 模型部署及平台其他模块调整 ## 1、数据集 **1、增加【适配算法】字段**，便于分类。例如，本数据集可用于如下物体检测算法进行训练： - 物体检测YOLOv3_ResNet18 - 物体检测-FasterRCNN_ResNet50 - 物体检测-RetinaNet_ResNet50 - 物体检测YOLOv3_Darknet53 - 物体检测-SSD_VGG - 物体检测-物体检测-SSD-MobileNet- v1 PPN **2、卡片式展示**-----点开后查看数据集详情 ## 2、算法 **1、【适配数据集】字段，做相应的表关联**。增加【适用的数据集】字段。如下： - 人车检测数据集 - 行人检测数据集 - 口罩检测数据集 **2、卡片式展示**---点开后产看算法详情 **3、增加算法的【模型类别】（例如，目标检测、图像分类、语义分割、人脸识别.......）** **4、增加算法支持的【框架引擎】，例如 tf、 pytorch 、caffe 、mindspore等** ## 3、训练 **1、规范用户训练保存的模型结构**。指定 Tensorflow，Keras 框架按Savedmodel 格式保存模型， Pytorch 支持内置模型 .pth 格式的模型的推理。 **2、支持用户提供自定义推理脚本**，通过文件上传方式来【上传推理脚本】 ## 4、模型 **1、设置模型选择是否支持在线推理，【可选】。** ## 5、在线服务部署 **要点**： 1、支持TensorFlow，PyTorch，Keras 三种深度学习框架训练的模型部署 2、支持 HTTP、gRPC 两种通信方式；（先支持http） 3、支持多节点部署； 4、支持灰度发布； 5、支持基本的图片预处理（主要是针对服务的输入为图片格式）； 6、支持自定义推理脚本； 7、支持服务编辑、删除、停止、预测、回滚等功能。 8、镜像选择，部署在线服务所需的镜像。 9、支持服务的运行参数的添加 **主要工作**：**原型图设计、数据表设计、约定模型包结构、约定在线推理脚本、后台编码（管理端 + 用户端）。**

前后端统一在zhengxx分支开发

基于seldoncore的自定义模型部署

1、设计目标

1、计划支持tensorflow及pytorch框架的模型部署。其中，tensorflow模型使用seldoncore的预置服务实现模型推理能力，pytorch模型基于seldoncore内核自定义开发推理服务端，实现模型推理能力。
2、每个模型部署为一个推理服务，推理服务不对模型的输入和输出做前处理及后处理。
3、目前支持tensor作为服务api接口的请求输入，返回的json中用list中存放推理的tensor信息，作为模型的输出结果。

2、方案设计

这里对自定义服务端设计和开发细节进行说明。tf模型的服务端直接使用seldoncore中的默认服务器。

2.1、服务端开发

【重要信息!】章鱼平台训练好的pytorch及TF模型，如果想要在线部署服务成功，则要求所加载的模型文件名称为model.pth。

a、服务端代码含有三个文件： Dockerfile，PytorchServer.py， requirement.txt。主代码存放于PytorchServer.py。

使用方式：将服务端代码打包成镜像，将容器部署到指定的服务节点；

【必须执行的命令】 使用如下命令，修改集群的配置文件，将自定义的Py Server服务调研对应版本及uri地址填入配置文件:

 kubectl  edit cm seldon-config -n seldon-system

章鱼后端接收前端参数，根据规范组装模型yaml文件，将部署任务提交到k8s集群，完成部署。

b、用户模型yaml文件（由章鱼系统生成）,设计要点：支持模型服务容器通过pvc的方式挂载模型文件。

c、章鱼后端用户端接口开发：模型任务的创建、查找、编辑、重新部署、删除、详情接口、日志接口、服务端调用等。

d、章鱼后端管理端端接口开发：模型任务的列表、查找、删除、详情接口、日志接口等。

e、数据表设计，详见代码文件。

2.2、UI界面的参数适配调整

2.3、测试

# 基于seldoncore的自定义模型部署 ## 1、设计目标 1、计划支持tensorflow及pytorch框架的模型部署。其中，tensorflow模型使用seldoncore的预置服务实现模型推理能力，pytorch模型基于seldoncore内核自定义开发推理服务端，实现模型推理能力。 2、每个模型部署为一个推理服务，推理服务不对模型的输入和输出做前处理及后处理。 3、目前支持tensor作为服务api接口的请求输入，返回的json中用list中存放推理的tensor信息，作为模型的输出结果。 ## 2、方案设计这里对自定义服务端设计和开发细节进行说明。tf模型的服务端直接使用seldoncore中的默认服务器。 ### 2.1、服务端开发 **【重要信息!】章鱼平台训练好的pytorch及TF模型，如果想要在线部署服务成功，则要求所加载的模型文件名称为model.pth。** a、服务端代码含有三个文件： Dockerfile，PytorchServer.py， requirement.txt。主代码存放于PytorchServer.py。使用方式：将服务端代码打包成镜像，将容器部署到指定的服务节点； **【必须执行的命令】** 使用如下命令，修改集群的配置文件，将自定义的Py Server服务调研对应版本及uri地址填入配置文件: ``` kubectl edit cm seldon-config -n seldon-system ``` 章鱼后端接收前端参数，根据规范组装模型yaml文件，将部署任务提交到k8s集群，完成部署。 b、用户模型yaml文件（由章鱼系统生成）,设计要点：**支持模型服务容器通过pvc的方式挂载模型文件。** c、章鱼后端用户端接口开发：模型任务的创建、查找、编辑、重新部署、删除、详情接口、日志接口、服务端调用等。 d、章鱼后端管理端端接口开发：模型任务的列表、查找、删除、详情接口、日志接口等。 e、数据表设计，详见代码文件。 ### 2.2、UI界面的参数适配调整 ### 2.3、测试 ###

Deleting a branch is permanent. It CANNOT be undone. Continue?

Dear OpenI User

Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.

For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》

liwei03 added this to the v4.0.1 milestone 2 years ago

liaowsh was assigned by liwei03 2 years ago

zhengxx was assigned by liaowsh 2 years ago

deng was assigned by liaowsh 2 years ago

liaowsh added the

新建

label 2 years ago

denglei self-assigned this 2 years ago

deng was unassigned by denglei 2 years ago

denglei added the

开发中

shamartor modified the milestone from v4.0.1 to v4.1.0 2 years ago

shamartor added a new dependency 2 years ago

#157 模型能力开放什么时候支持？

hackmong was assigned by liaowsh 2 years ago

liaowsh referenced this issue from a commit 2 years ago

#16

开发完成

denglei removed the

yangxzh1 added the

测试通过

label 1 year ago

yangxzh1 removed the

yangxzh1 closed this issue 1 year ago

#16 支持模型部署