Ai 珠宝设计平台技术架构全景方案

一、硬件架构设计

采用 “私有集群 + 公有云弹性扩展” 的混合架构，平衡算力稳定性、成本可控性与峰值应对能力，适配珠宝设计场景下 “日常低负载 + 研发高峰期高负载” 的算力需求。

硬件模块	配置规格	数量	功能定位
计算服务器	CPU：Intel Xeon Platinum 8480+（80 核）；内存：512GB DDR5；硬盘：2TB SSD	3 台	承载模型部署、业务逻辑处理、数据存储等核心任务
AI 加速节点	单节点配置 NVIDIA A100（40GB 显存）×4 张；支持 NVLink 互联	2 台	负责 AI 模型训练（小模型微调）、图片生成计算
存储服务器	架构：分布式存储（Ceph）；容量：100TB（可扩展至 500TB）；IOPS：≥10 万	1 台	存储用户设计图、训练数据集、生成结果等数据
网络设备	核心交换机：100Gbps SFP + 端口 ×24；接入交换机：10Gbps RJ45 端口 ×48	各 1 台	保障集群内部及外部访问的高速网络传输
安全设备	防火墙（支持 AI 入侵检测）、VPN 网关（支持远程安全访问）	各 1 台	防护硬件集群免受外部攻击，保障数据传输安全

• 选型：对接阿里云 GPU 云服务器（型号：gn7i，搭载 RTX 4090）、腾讯云智服弹性算力池。

• 触发机制：当私有集群 GPU 使用率≥80%（持续 10 分钟）或用户请求量超阈值（≥500 并发请求）时，自动调用公有云算力，分担图片生成、抠图等计算任务。

• 数据隔离：公有云节点仅处理计算任务，不存储原始设计数据（通过加密传输临时数据，任务完成后自动销毁），保障数据安全。

采用 “容器化 + 微服务” 部署模式，基于 Kubernetes 实现资源调度与服务编排，确保软件模块独立扩展、故障隔离，同时支持私有化部署要求。

软件类别	选型	功能作用
操作系统	CentOS Stream 9（服务器端）；Ubuntu 22.04（AI 加速节点）	提供硬件驱动与基础运行环境
容器引擎	Docker CE 27.0.0	封装应用与依赖，实现环境一致性
编排工具	Kubernetes 1.28（搭配 Helm 3.14）	实现容器调度、服务发现、负载均衡
存储软件	Ceph 18.2.1（分布式存储）；Redis 7.2（缓存）	提供分布式存储与高频数据缓存服务
数据库	PostgreSQL 16（关系型，存储用户信息、系统配置）；MongoDB 7.0（非关系型，存储图片元数据）	支撑结构化与非结构化数据存储

软件模块	部署方式	依赖组件	部署节点
AI 模型服务（Stable Diffusion 微调版）	容器化部署（1 主 2 从）	NVIDIA CUDA 12.2、TensorRT 10.0	AI 加速节点
以图生文模型（CLIP 衍生版）	容器化部署（单实例）	PyTorch 2.1、Hugging Face Transformers	计算服务器
图像处理工具（抠图、放大）	容器化部署（多实例）	OpenCV 4.8、SuperResolution 库	计算服务器（可弹性扩展）
业务逻辑服务（用户管理、任务调度）	微服务部署（按功能拆分）	Spring Cloud Alibaba 2022.0.0	计算服务器
前端应用（Web 端 / 客户端）	静态资源部署（Nginx 代理）	Vue 3、Element Plus	计算服务器

• 部署包交付：提供离线部署包（含基础软件、核心模块、配置脚本），支持无外网环境下安装。

• 数据本地化：所有用户数据（设计图、训练数据）存储于私有存储服务器，不与公有云交互。

• 权限管控：通过 LDAP 协议实现企业内部用户权限管理，支持按部门、角色分配功能访问权限。

采用 “分层微服务” 架构，将平台功能拆分为独立服务，实现 “高内聚、低耦合”，同时通过服务治理保障系统稳定性与可扩展性。

服务层级	包含服务模块	核心功能	调用关系
接入层	API 网关服务、负载均衡服务、安全认证服务	统一接口入口、请求分发、身份验证、限流熔断	接收用户请求，转发至业务层服务
业务层	用户管理服务、设计任务服务、模型调度服务、数据存储服务	处理用户注册 / 登录、设计任务创建 / 执行、模型调用调度、数据读写	调用数据层与 AI 服务层接口
AI 服务层	文生图服务、图生图服务、以图生文服务、图像处理服务（抠图 / 放大 / 清除）	执行 AI 计算任务（生成图片、关键词、图像处理）	接收业务层调度请求，返回计算结果
数据层	关系型数据库服务、非关系型数据库服务、分布式存储服务、缓存服务	提供数据存储、查询、缓存功能	为业务层与 AI 服务层提供数据支撑
监控运维层	日志服务、监控服务、告警服务、部署服务（CI/CD）	收集系统日志、监控服务状态、触发故障告警、自动化部署	覆盖所有层级，保障系统运维效率

• 负载均衡：API 网关层通过 Nginx 实现 HTTP 请求负载均衡，Kubernetes 内部通过 Service 实现容器间负载均衡。

• 限流熔断：基于 Sentinel 实现接口限流（单用户≤10 并发请求），当服务异常时自动熔断，避免级联故障。

• 服务监控：通过 Prometheus 采集服务指标（CPU / 内存使用率、请求成功率、响应时间），Grafana 可视化展示，设置阈值告警（如响应时间＞30 秒触发告警）。

1. 用户在前端输入提示词（如 “18K 金钻石项链，轻奢风”），选择风格引擎，提交生成请求。

2. 接入层 API 网关验证用户身份，将请求转发至业务层 “设计任务服务”。

3. “设计任务服务” 创建任务记录，调用 “模型调度服务” 分配计算资源。

4. “模型调度服务” 检查私有集群 GPU 负载，若负载≤80%，直接调用 AI 服务层 “文生图服务”；若负载＞80%，触发公有云弹性算力，调用云侧 “文生图服务”。

5. “文生图服务” 加载微调后的 Stable Diffusion 模型，执行计算，生成图片结果。

6. 结果通过 “数据存储服务” 保存至 Ceph 分布式存储，同时更新任务状态。

7. 前端通过轮询或 WebSocket 获取任务结果，展示生成的款式图。

1. 高可用性：私有集群 + 公有云弹性扩展，避免单点故障；服务多实例部署，故障自动转移。

2. 高安全性：私有化部署保障数据本地化，多层安全防护（防火墙、认证、加密传输）防止数据泄露。

3. 高扩展性：微服务拆分支持按需扩展单个模块（如高峰期扩展 “文生图服务” 实例），硬件集群支持横向扩容（新增 AI 加速节点）。

4. 易维护性：容器化部署简化环境配置，CI/CD 实现自动化部署，监控运维层实时把控系统状态，降低运维成本。