一、硬件架构设计

采用 “私有集群 + 公有云弹性扩展” 的混合架构,平衡算力稳定性、成本可控性与峰值应对能力,适配珠宝设计场景下 “日常低负载 + 研发高峰期高负载” 的算力需求。

(一)私有硬件集群(核心算力层)

硬件模块

配置规格

数量

功能定位

计算服务器

CPU:Intel Xeon Platinum 8480+(80 核);内存:512GB DDR5;硬盘:2TB SSD

3 台

承载模型部署、业务逻辑处理、数据存储等核心任务

AI 加速节点

单节点配置 NVIDIA A100(40GB 显存)×4 张;支持 NVLink 互联

2 台

负责 AI 模型训练(小模型微调)、图片生成计算

存储服务器

架构:分布式存储(Ceph);容量:100TB(可扩展至 500TB);IOPS:≥10 万

1 台

存储用户设计图、训练数据集、生成结果等数据

网络设备

核心交换机:100Gbps SFP + 端口 ×24;接入交换机:10Gbps RJ45 端口 ×48

各 1 台

保障集群内部及外部访问的高速网络传输

安全设备

防火墙(支持 AI 入侵检测)、VPN 网关(支持远程安全访问)

各 1 台

防护硬件集群免受外部攻击,保障数据传输安全

(二)公有云弹性扩展层

选型:对接阿里云 GPU 云服务器(型号:gn7i,搭载 RTX 4090)、腾讯云智服弹性算力池。

触发机制:当私有集群 GPU 使用率≥80%(持续 10 分钟)或用户请求量超阈值(≥500 并发请求)时,自动调用公有云算力,分担图片生成、抠图等计算任务。

数据隔离:公有云节点仅处理计算任务,不存储原始设计数据(通过加密传输临时数据,任务完成后自动销毁),保障数据安全。

二、软件部署架构

采用 “容器化 + 微服务” 部署模式,基于 Kubernetes 实现资源调度与服务编排,确保软件模块独立扩展、故障隔离,同时支持私有化部署要求。

(一)基础软件层(底层支撑)

 

软件类别

选型

功能作用

操作系统

CentOS Stream 9(服务器端);Ubuntu 22.04(AI 加速节点)

提供硬件驱动与基础运行环境

容器引擎

Docker CE 27.0.0

封装应用与依赖,实现环境一致性

编排工具

Kubernetes 1.28(搭配 Helm 3.14)

实现容器调度、服务发现、负载均衡

存储软件

Ceph 18.2.1(分布式存储);Redis 7.2(缓存)

提供分布式存储与高频数据缓存服务

数据库

PostgreSQL 16(关系型,存储用户信息、系统配置);MongoDB 7.0(非关系型,存储图片元数据)

支撑结构化与非结构化数据存储

(二)核心软件模块部署(功能实现层)

 

软件模块

部署方式

依赖组件

部署节点

AI 模型服务(Stable Diffusion 微调版)

容器化部署(1 主 2 从)

NVIDIA CUDA 12.2、TensorRT 10.0

AI 加速节点

以图生文模型(CLIP 衍生版)

容器化部署(单实例)

PyTorch 2.1、Hugging Face Transformers

计算服务器

图像处理工具(抠图、放大)

容器化部署(多实例)

OpenCV 4.8、SuperResolution 库

计算服务器(可弹性扩展)

业务逻辑服务(用户管理、任务调度)

微服务部署(按功能拆分)

Spring Cloud Alibaba 2022.0.0

计算服务器

前端应用(Web 端 / 客户端)

静态资源部署(Nginx 代理)

Vue 3、Element Plus

计算服务器

(三)私有化部署保障

部署包交付:提供离线部署包(含基础软件、核心模块、配置脚本),支持无外网环境下安装。

数据本地化:所有用户数据(设计图、训练数据)存储于私有存储服务器,不与公有云交互。

权限管控:通过 LDAP 协议实现企业内部用户权限管理,支持按部门、角色分配功能访问权限。

三、服务架构设计

采用 “分层微服务” 架构,将平台功能拆分为独立服务,实现 “高内聚、低耦合”,同时通过服务治理保障系统稳定性与可扩展性。

(一)服务分层与模块拆分

 

服务层级

包含服务模块

核心功能

调用关系

接入层

API 网关服务、负载均衡服务、安全认证服务

统一接口入口、请求分发、身份验证、限流熔断

接收用户请求,转发至业务层服务

业务层

用户管理服务、设计任务服务、模型调度服务、数据存储服务

处理用户注册 / 登录、设计任务创建 / 执行、模型调用调度、数据读写

调用数据层与 AI 服务层接口

AI 服务层

文生图服务、图生图服务、以图生文服务、图像处理服务(抠图 / 放大 / 清除)

执行 AI 计算任务(生成图片、关键词、图像处理)

接收业务层调度请求,返回计算结果

数据层

关系型数据库服务、非关系型数据库服务、分布式存储服务、缓存服务

提供数据存储、查询、缓存功能

为业务层与 AI 服务层提供数据支撑

监控运维层

日志服务、监控服务、告警服务、部署服务(CI/CD)

收集系统日志、监控服务状态、触发故障告警、自动化部署

覆盖所有层级,保障系统运维效率

(二)服务治理机制

负载均衡:API 网关层通过 Nginx 实现 HTTP 请求负载均衡,Kubernetes 内部通过 Service 实现容器间负载均衡。

限流熔断:基于 Sentinel 实现接口限流(单用户≤10 并发请求),当服务异常时自动熔断,避免级联故障。

服务监控:通过 Prometheus 采集服务指标(CPU / 内存使用率、请求成功率、响应时间),Grafana 可视化展示,设置阈值告警(如响应时间>30 秒触发告警)。

四、技术架构全景图

(一)架构全景总览

 

(二)核心流程示例(文生款生成)

1. 用户在前端输入提示词(如 “18K 金钻石项链,轻奢风”),选择风格引擎,提交生成请求。

2. 接入层 API 网关验证用户身份,将请求转发至业务层 “设计任务服务”。

3. “设计任务服务” 创建任务记录,调用 “模型调度服务” 分配计算资源。

4. “模型调度服务” 检查私有集群 GPU 负载,若负载≤80%,直接调用 AI 服务层 “文生图服务”;若负载>80%,触发公有云弹性算力,调用云侧 “文生图服务”。

5. “文生图服务” 加载微调后的 Stable Diffusion 模型,执行计算,生成图片结果。

6. 结果通过 “数据存储服务” 保存至 Ceph 分布式存储,同时更新任务状态。

7. 前端通过轮询或 WebSocket 获取任务结果,展示生成的款式图。

(三)架构核心优势

1. 高可用性:私有集群 + 公有云弹性扩展,避免单点故障;服务多实例部署,故障自动转移。

2. 高安全性:私有化部署保障数据本地化,多层安全防护(防火墙、认证、加密传输)防止数据泄露。

3. 高扩展性:微服务拆分支持按需扩展单个模块(如高峰期扩展 “文生图服务” 实例),硬件集群支持横向扩容(新增 AI 加速节点)。

4. 易维护性:容器化部署简化环境配置,CI/CD 实现自动化部署,监控运维层实时把控系统状态,降低运维成本。