
主流 Python 图像抠图模型的介绍、安装、代码示例与适用场景。共计 15 个模型/库。一、rembgU²-Nethttps://github.com/danielgatis/rembghttps://github.com/xuebinqin/U-2-Net介绍rembg 是目前 Python 生态中最流行的背景移除库。底层基于 U²-Net 深度学习模型能自动识别图像主体并移除背景无需手动标记trimap-free。2023 年发布后迅速在 GitHub 斩获 15k stars原因是安装即用、API 极简——两行代码出结果。提供命令行、Python API、HTTP 服务端等多种使用方式是整个抠图生态中社区最繁荣的工具。U²-Net 的核心架构是一个嵌套的 U 形网络nested U-structure在显著目标检测SOD任务上表现优异能捕捉到细节边缘如头发丝。它也是后来许多抠图模型包括 RMBG 早期版本的底层基础。安装pip install rembg首次运行时会自动下载模型文件~176MB存储在~/.u2net/目录。代码from rembg import remove from PIL import Image # 读取输入图像 input_img Image.open(photo.jpg) # 移除背景 —— 一行搞定 output_img remove(input_img) # 保存透明背景结果 output_img.save(photo_no_bg.png)命令行用法rembg i photo.jpg photo_no_bg.png适用场景电商商品图批量去背景证件照背景替换图像预处理为后续模型准备干净的前景注意点默认模型对人像/物体效果好复杂场景如透明物体、密集人群边缘可能残留处理大图时内存占用较高建议先 resize 到 1024px 以内技术上已被 BiRefNet / RMBG-2.0 超越但作为生态入口仍不可替代二、MODNetPortrait Mattinghttps://github.com/ZHKKKe/MODNet介绍MODNet 是商汤科技SenseTime提出的轻量级实时人像抠图模型专为实时应用和移动端部署设计。与 U²-Net 不同MODNet 聚焦于人像领域在头发丝、半透明衣物等细节上表现更优。支持一键导出 ONNX 格式可在移动端和 Web 端部署。核心优势轻量、快速、人像边缘精细。输入 512×512 的图像CPU 上也能在 1 秒内完成推理。模型仅 25MB是移动端和实时视频流的首选方案。安装pip install onnxruntime pillow numpy opencv-python # 下载预训练模型 wget https://github.com/ZHKKKe/MODNet/releases/download/v1.0/modnet_photographic_portrait_matting.onnx代码import onnxruntime import numpy as np from PIL import Image # 加载 ONNX 模型 session onnxruntime.InferenceSession(modnet_photographic_portrait_matting.onnx) def modnet_remove_bg(img_path, output_path, size(512, 512)): MODNet 人像背景移除 img Image.open(img_path).convert(RGB) orig_w, orig_h img.size # 预处理缩放到模型输入尺寸 img_resized img.resize(size, Image.BICUBIC) img_np np.array(img_resized).astype(np.float32) img_np img_np.transpose(2, 0, 1) / 255.0# CHW 格式 归一化 img_np np.expand_dims(img_np, axis0) # 推理输出 alpha 遮罩 inputs {session.get_inputs()[0].name: img_np} alpha session.run(None, inputs)[0][0, 0] # 还原到原始尺寸 alpha Image.fromarray((alpha * 255).astype(np.uint8)) alpha alpha.resize((orig_w, orig_h), Image.BICUBIC) # 合成透明背景 img img.resize((orig_w, orig_h)) img.putalpha(alpha) img.save(output_path) modnet_remove_bg(portrait.jpg, portrait_no_bg.png)适用场景人像证件照处理视频会议虚拟背景实时抠像移动端人像美颜/换背景 App三、SAMSegment Anything Modelhttps://github.com/facebookresearch/segment-anything介绍Meta 在 2023 年发布的通用分割基础模型在 1100 万张图像的 10 亿个掩码上训练。SAM 不是专门的抠图模型但它能分割图像中的任何物体——给定一个点、框或文本提示就能精确分割出目标。这使得它在抠图任务上有极高的灵活性你不需要它自动找到前景而是可以告诉它前景是什么。需要安装官方segment-anything库并下载模型ViT-H 版本 ~2.4GB。安装pip install githttps://github.com/facebookresearch/segment-anything.git pip install opencv-python pillow torch torchvision # 下载模型https://github.com/facebookresearch/segment-anything#model-checkpoints代码import cv2 import torch import numpy as np from PIL import Image from segment_anything import sam_model_registry, SamAutomaticMaskGenerator # 加载模型 sam sam_model_registry[vit_h](checkpointsam_vit_h_4b8939.pth) sam.to(cudaif torch.cuda.is_available() elsecpu) # 自动生成所有掩码 mask_generator SamAutomaticMaskGenerator(sam) image cv2.imread(photo.jpg) image_rgb cv2.cvtColor(image, cv2.COLOR_BGR2RGB) masks mask_generator.generate(image_rgb) # 取面积最大的掩码作为主体 largest_mask max(masks, keylambda x: x[area]) # 应用到原图 result Image.fromarray(image_rgb).convert(RGBA) alpha Image.fromarray((largest_mask[segmentation] * 255).astype(np.uint8)) result.putalpha(alpha) result.save(photo_sam_bg.png)带提示点的精确分割更实用from segment_anything import SamPredictor predictor SamPredictor(sam) predictor.set_image(image_rgb) h, w image_rgb.shape[:2] input_point np.array([[w // 2, h // 2]]) input_label np.array([1]) # 1 前景 masks, scores, _ predictor.predict( point_coordsinput_point, point_labelsinput_label, multimask_outputFalse ) result Image.fromarray(image_rgb).convert(RGBA) result.putalpha(Image.fromarray((masks[0] * 255).astype(np.uint8))) result.save(photo_sam_prompt_bg.png)适用场景复杂场景多人合照、杂物背景、非标准物体批量图片需要同一类物体的分割学术研究、数据集标注四、BRIA RMBG-2.0https://huggingface.co/briaai/RMBG-2.0https://huggingface.co/briaai/RMBG-1.4介绍BRIA AI 在 2024 年发布的 RMBG-2.0在多个抠图基准上达到 SOTA。它是一个全能型背景移除模型底层基于 BiRefNet 架构见下一节针对电商商品图、人像、动植物等数十个类别做了专门优化。与 rembg 1.x 相比RMBG-2.0 在边缘精度和复杂背景场景下有显著提升。部分版本可商用需确认 License。支持 HuggingFace 直接加载。安装pip install torch torchvision pillow huggingface_hub transformers代码import torch import numpy as np from PIL import Image from torchvision import transforms class RMBG2: def __init__(self): from transformers import AutoModelForImageSegmentation self.model AutoModelForImageSegmentation.from_pretrained( briaai/RMBG-2.0, trust_remote_codeTrue ) self.model.to(cudaif torch.cuda.is_available() elsecpu) self.model.eval() def remove_bg(self, img_path, output_path): img Image.open(img_path).convert(RGB) transform transforms.Compose([ transforms.Resize((1024, 1024)), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) input_tensor transform(img).unsqueeze(0) input_tensor input_tensor.to(self.model.device) with torch.no_grad(): preds self.model(input_tensor)[-1].sigmoid().cpu() mask preds.squeeze().numpy() mask Image.fromarray((mask * 255).astype(np.uint8)) mask mask.resize(img.size, Image.LANCZOS) img.putalpha(mask) img.save(output_path) rmbg2 RMBG2() rmbg2.remove_bg(product.jpg, product_no_bg.png)适用场景电商商品图白底图需求高质量人像抠图需要比 rembg 更精细边缘的场景五、BiRefNetRMBG-2.0 的基石https://github.com/ZhengPeng7/BiRefNet介绍BiRefNet 是 RMBG-2.0 的底层架构但它本身是一个更庞大的模型家族——提供10 种不同变体覆盖从极致精度到极致速度的全部需求。官方提供了多个专用微调版本变体定位BiRefNet(通用)全能型平衡精度与速度BiRefNet-portrait人像专用抠图BiRefNet-matting通用抠图高精度 alpha 遮罩BiRefNet-lite轻量版适合 CPU / 移动端BiRefNet-DIS二分图像分割极致边缘精度BiRefNet 的核心创新是双边参考网络Bilateral Reference Network——将图像的局部细节和全局上下文分别编码后再融合从而在细节保持和语义理解之间取得平衡。如果你需要为特定场景微调抠图模型BiRefNet 是目前最灵活的基座。安装pip install torch torchvision pillow opencv-python timm git clone https://github.com/ZhengPeng7/BiRefNet.git cd BiRefNet代码import torch import numpy as np from PIL import Image from torchvision import transforms import sys sys.path.append(./BiRefNet) def birefnet_remove_bg(img_path, output_path, model_typegeneral): BiRefNet 通用背景移除 model_type: general | portrait | matting | lite # 根据类型加载对应权重 ckpt_paths { general: BiRefNet/ckpt/BiRefNet.pth, portrait: BiRefNet/ckpt/BiRefNet-portrait.pth, matting: BiRefNet/ckpt/BiRefNet-matting.pth, } from models.birefnet import BiRefNet model BiRefNet(bb_pretrainedFalse) state_dict torch.load(ckpt_paths[model_type], map_locationcpu) model.load_state_dict(state_dict, strictTrue) model.eval() img Image.open(img_path).convert(RGB) orig_size img.size transform transforms.Compose([ transforms.Resize((1024, 1024)), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) input_tensor transform(img).unsqueeze(0) with torch.no_grad(): pred model(input_tensor)[-1].sigmoid().cpu() mask pred.squeeze().numpy() mask Image.fromarray((mask * 255).astype(np.uint8)) mask mask.resize(orig_size, Image.LANCZOS) img.putalpha(mask) img.save(output_path) birefnet_remove_bg(photo.jpg, photo_birefnet.png, model_typeportrait)适用场景需要微调自有数据的企业级方案需要根据场景切换专用模型人像/物体/轻量作为 RMBG-2.0 的替代追求更细粒度控制六、InSPyReNetTransformer 架构、CPU 可用https://github.com/plemeri/InSPyReNet介绍InSPyReNet 基于 Transformer 架构最大的特点是模型小巧轻便——即使在 CPU 上也能运行速度很快。它专为本地资源有限但追求高效率的场景设计特别适合没有 GPU 的个人用户。与大多数基于 CNN 的抠图模型不同InSPyReNet 使用 Transformer 的自注意力机制来捕获全局上下文这使它在处理复杂背景中的主体分离时有一定优势。在 ComfyUI 社区中有活跃的集成和使用。安装pip install torch torchvision pillow opencv-python git clone https://github.com/plemeri/InSPyReNet.git cd InSPyReNet pip install -r requirements.txt代码import torch import numpy as np from PIL import Image from torchvision import transforms def inspyrenet_remove_bg(img_path, output_path): InSPyReNet 背景移除 —— CPU 友好 # 加载模型可通过 torch.hub 或克隆仓库后本地加载 from inspyrenet import InSPyReNet_S model InSPyReNet_S(pretrainedTrue) device cudaif torch.cuda.is_available() elsecpu model.to(device) model.eval() img Image.open(img_path).convert(RGB) orig_size img.size transform transforms.Compose([ transforms.Resize((1024, 1024)), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) input_tensor transform(img).unsqueeze(0).to(device) with torch.no_grad(): pred model(input_tensor) if isinstance(pred, (list, tuple)): pred pred[-1] mask pred.sigmoid().cpu().squeeze().numpy() mask Image.fromarray((mask * 255).astype(np.uint8)) mask mask.resize(orig_size, Image.LANCZOS) img.putalpha(mask) img.save(output_path) inspyrenet_remove_bg(photo.jpg, photo_inspyrenet.png)适用场景无 GPU 环境下的抠图需求本地笔记本快速批量处理作为 ComfyUI 工作流中的抠图节点七、BEN24K 高清 视频抠图https://github.com/PramaLLC/BEN2介绍BEN2Background Erase Network v2是一个优先保证前景主体完整的背景擦除模型。与其他模型追求极致边缘精度不同BEN2 的设计理念是宁可留一点背景也不能切掉前景——这对电商产品图至关重要你不能把产品的边角给切没了。BEN2 的另一大亮点是能处理4K 超高清图像和视频在同类模型中非常少见。如果你需要批量处理高清商品图或视频抠图BEN2 是目前最合适的选择之一。安装pip install torch torchvision pillow opencv-python git clone https://github.com/PramaLLC/BEN2.git cd BEN2 pip install -r requirements.txt代码import torch import numpy as np from PIL import Image from torchvision import transforms def ben2_remove_bg(img_path, output_path): BEN2 背景移除 —— 优先保留前景完整性 # 加载模型具体加载方式参见官方仓库 # 此处给出调用框架实际权重文件从 releases 下载 from ben2 import BEN2Model model BEN2Model.from_pretrained(ben2_weights.pth) device cudaif torch.cuda.is_available() elsecpu model.to(device) model.eval() img Image.open(img_path).convert(RGB) orig_size img.size # BEN2 支持高分辨率输入 transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5]) ]) input_tensor transform(img).unsqueeze(0).to(device) with torch.no_grad(): mask model(input_tensor).sigmoid().cpu().squeeze().numpy() mask Image.fromarray((mask * 255).astype(np.uint8)) mask mask.resize(orig_size, Image.LANCZOS) img.putalpha(mask) img.save(output_path) ben2_remove_bg(product_4k.jpg, product_4k_bg.png)适用场景电商产品图必须保证主体完整4K 高清商业摄影视频背景擦除八、PP-MattingPaddlePaddle、发丝级精度https://github.com/PaddlePaddle/PaddleSeg https://openi.pcl.ac.cn/PaddlePaddle/PaddleSeg/modelart介绍PP-Matting 是百度飞桨PaddlePaddle生态下的高精度人像抠图模型以出色的发丝级精细分割能力闻名。它在 PaddleSeg 框架下提供了多种场景和分辨率变体覆盖从移动端到服务端的完整部署需求。PP-Matting 的核心优势在于其基于 PaddlePaddle 的训练和推理优化——如果你已经在使用百度飞桨生态如 PaddleOCR、PaddleDetectionPP-Matting 可以无缝集成。对中文开发者友好文档和社区支持完善。安装pip install paddlepaddle paddleseg代码import paddle from paddleseg.models import PPMatting from paddleseg.utils import predict import cv2 from PIL import Image import numpy as np def ppmatting_remove_bg(img_path, output_path): PP-Matting 人像背景移除 model PPMatting(backbonePP-Matting) # 加载预训练权重 model_path ppmatting_pretrained.pdparams model.set_state_dict(paddle.load(model_path)) model.eval() img cv2.imread(img_path) img_rgb cv2.cvtColor(img, cv2.COLOR_BGR2RGB) img_tensor paddle.to_tensor(img_rgb.transpose(2, 0, 1)[None, ...].astype(np.float32)) with paddle.no_grad(): alpha model(img_tensor)[0].numpy()[0, 0] # 后处理 alpha (alpha * 255).clip(0, 255).astype(np.uint8) result Image.fromarray(img_rgb).convert(RGBA) result.putalpha(Image.fromarray(alpha)) result.save(output_path) ppmatting_remove_bg(portrait.jpg, portrait_ppmatting.png)适用场景发丝级精度的证件照/形象照PaddlePaddle 生态用户需要多种分辨率变体的服务端部署九、Background Mattinghttps://github.com/hyHy-1990/hy_bgmatting介绍Background Matting 是一种需要额外纯背景图辅助计算的高精度抠图模型。它的核心创新在于如果你能提供一张没有人物的纯背景照片作为参考模型就可以非常精确地将前景人物从当前帧中分离出来。在 RGB-D 摄像头辅助下可以做到4K 分辨率 30fps 的实时抠像效果多用于专业影视制作和虚拟演播室。虽然使用门槛比 trimap-free 模型高需要背景图但精度也更高。安装git clone https://github.com/hyHy-1990/hy_bgmatting.git cd hy_bgmatting pip install -r requirements.txt代码import torch import cv2 import numpy as np from PIL import Image def bg_matting_remove(img_path, bg_path, output_path): Background Matting —— 需要参考背景图 # 加载原图和背景参考图 img cv2.imread(img_path) bg cv2.imread(bg_path) # 转为 RGB img_rgb cv2.cvtColor(img, cv2.COLOR_BGR2RGB) bg_rgb cv2.cvtColor(bg, cv2.COLOR_BGR2RGB) # 模型推理此处为框架性示例实际需加载具体权重 # 核心思路比较 img 和 bg 的差异 → 生成 alpha 遮罩 diff cv2.absdiff(img_rgb.astype(np.float32), bg_rgb.astype(np.float32)) alpha_approx np.clip(diff.mean(axis2) / 50.0, 0, 1) # 简化版示意 result Image.fromarray(img_rgb).convert(RGBA) result.putalpha(Image.fromarray((alpha_approx * 255).astype(np.uint8))) result.save(output_path) bg_matting_remove(person.jpg, empty_room.jpg, person_matted.png)适用场景专业影视制作、虚拟演播室固定摄像头场景如直播带货RGB-D 摄像头辅助的实时抠像十、ToonOut动漫/插画专用https://github.com/MatteoKartoon/BiRefNet介绍ToonOut 是 BiRefNet 针对动漫和插画风格微调的专用模型。普通抠图模型处理动漫图像时常见的涂抹头发丝线条艺术断裂和半透明效果丢失问题ToonOut 都能完美处理。它是二次元创作的首选——无论是提取角色立绘、处理漫画扫描件还是为插画配透明背景ToonOut 都能保持线条的锐利和色彩的准确。如果你用的是 Stable Diffusion / ComfyUI 工作流ToonOut 作为抠图预处理步骤可以大幅提升后续效果。安装# ToonOut 是 BiRefNet 的衍生安装方式类似 git clone https://github.com/MatteoKartoon/BiRefNet.git cd BiRefNet pip install -r requirements.txt代码# ToonOut 的调用方式与 BiRefNet 相同区别在于权重文件 # 参见第五节 BiRefNet 代码将 model_type 替换为 toonout def toonout_remove_bg(img_path, output_path): ToonOut 动漫图像背景移除 # 方式一直接使用 ComfyUI 的 Inspyrenet-Rembg 节点 # 方式二通过 BiRefNet 框架加载 ToonOut 权重 from models.birefnet import BiRefNet model BiRefNet(bb_pretrainedFalse) # 加载 ToonOut 专用权重 ckpt torch.load(toonout_weights.pth, map_locationcpu) model.load_state_dict(ckpt, strictTrue) model.eval() # 预处理和推理流程与 BiRefNet 相同见第五节 # ... toonout_remove_bg(anime_art.png, anime_art_transparent.png)适用场景动漫角色立绘提取漫画/插画透明背景输出Stable Diffusion / ComfyUI 工作流的预处理步骤十一、DeepLabV3经典语义分割https://github.com/tensorflow/models/tree/master/research/deeplab介绍DeepLabV3 是谷歌开源的经典语义分割模型在计算机视觉领域有深远影响。它本身不是专门的抠图模型而是作为底层的语义分割技术被大量集成在其他模型中。通过 atrous spatial pyramid poolingASPP和解码器结构DeepLabV3 能捕获多尺度的上下文信息。虽然现在有更新的模型超越了它但 DeepLabV3 仍然是微调自定义抠图任务的一个可靠基座——特别是当你需要用较小的数据集做迁移学习时。特点生态成熟TensorFlow / PyTorch / ONNX 均有实现可通过微调适配特定抠图场景如医学图像、卫星图社区庞大文档齐全十二、DISHighly Accurate Dichotomous Image Segmentationhttps://github.com/xuebinqin/DIS介绍DIS二分图像分割是中科院发布的高精度分割模型在 DIS5K 数据集上训练专门针对物体从背景中分离这个二分问题做了架构优化。与 U²-Net 相比DIS 在精细边缘如毛发、蕾丝、半透明物体上表现更好。安装pip install torch torchvision pillow opencv-python代码import torch import numpy as np from PIL import Image from torchvision import transforms model torch.hub.load(xuebinqin/U-2-Net, u2net, pretrainedTrue) model.eval() def dis_remove_bg(img_path, output_path): img Image.open(img_path).convert(RGB) orig_size img.size transform transforms.Compose([ transforms.Resize((320, 320)), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) input_tensor transform(img).unsqueeze(0) with torch.no_grad(): mask model(input_tensor)[0][0, 0].numpy() mask (mask - mask.min()) / (mask.max() - mask.min()) mask_img Image.fromarray((mask * 255).astype(np.uint8)) mask_img mask_img.resize(orig_size, Image.LANCZOS) img.putalpha(mask_img) img.save(output_path) dis_remove_bg(fine_detail.jpg, fine_detail_bg.png)适用场景需要极高边缘精度的图像婚纱摄影蕾丝、薄纱半透明材质艺术品数字化十三、选型指南先看你有什么硬件再选你能跑什么模型最后看场景匹配。按资源先看硬件资源条件推荐单张预估1024px高端 GPU ≥8GBRTX 3080SAM / BiRefNet / RMBG-2.0 / DIS1s中端 GPU 4-8GBRTX 3050/3060BiRefNet / RMBG-2.0 / BEN2 / rembg1-3s入门 GPU 2-4GBGTX 1060rembg / InSPyReNet / MODNet2-5s无 GPU强 CPU8核/16GBInSPyReNet / rembg(慢)5-15s无 GPU普通电脑4核/8GBInSPyReNet / MODNet3-10s无 GPU低配笔记本2核/4GBMODNet推 512px5s移动端 / WebMODNetONNX 导出1sMacBook M1/M2/M3rembg(CoreML) / InSPyReNet / MODNet2-5s按场景再看用途场景首选备选上手最快、通用场景rembgInSPyReNet无 GPU人像证件照 / 实时处理MODNetPP-Matting发丝精度优先电商商品图、高质量BRIA RMBG-2.0BEN24K 高清复杂场景、需要精确控制SAM带提示点BiRefNet微调专业影视 / 固定摄像头Background Matting—动漫/插画ToonOut—批量处理 GPUrembg 多进程BiRefNet-lite无 GPU / CPU 环境InSPyReNetMODNet小模型视频抠图BEN2MODNet实时流需要微调自有数据BiRefNetDeepLabV3按场景| PaddlePaddle 生态 | PP-Matting |十四、快速上手脚本rembg 批量处理批量抠图脚本 —— 一个文件夹全部搞定 import os from pathlib import Path from rembg import remove from PIL import Image INPUT_DIR ./input_photos OUTPUT_DIR ./output_photos Path(OUTPUT_DIR).mkdir(exist_okTrue) for filename in os.listdir(INPUT_DIR): if filename.lower().endswith((.png, .jpg, .jpeg, .webp)): input_path os.path.join(INPUT_DIR, filename) output_path os.path.join(OUTPUT_DIR, f{Path(filename).stem}.png) img Image.open(input_path) result remove(img) result.save(output_path) print(f✅ {filename} → {output_path}) print(f\n全部完成处理了 {len(os.listdir(OUTPUT_DIR))} 张图片。)