巨人网络 AI Lab 工作内容展示

聚焦计算机视觉算法与工程落地:数字人、图像生成与编辑、视频生成与控制,表情驱动。

4 个核心项目 G-avatar | 巨人摹境 | 如愿 | vibeme
40+ 算法 API 覆盖数字人、图像生成与编辑、壁纸推荐、表情驱动、视频生成,供后端调用
算法与工程兼修 调研论文,设计模型与架构,开发生产级算法服务端
推理优化与部署 算法落地全生命周期经验,降低显存与耗时,本地部署,云部署

G-avatar

实时通话数字人App

G-avatar是一款数字人app,不同于其他数字人产品,它更追求推理速度快,要求实时性,以便用户能够与数字人实时视频通话。用户上传一张照片或者一段视频后,算法会用它生成数字人,之后用户就可以跟数字人实时视频通话或者生成口播视频。

主要工作成果

  • 训练出轻量化、可实时推理的视频改口型模型,相比原版wav2lip有以下改进:
    • 输出分辨率从96增大到256
    • 增加full face和face component的VGG loss训练损失项
    • 增加嘴巴区域的GAN loss
    • 将全脸的GAN loss的discriminator替换成multi-scale
  • 推理加速与降本
    • 使用tensorRT推理框架部署,显存从3.75GB降到1.58GB,推理耗时从每帧15毫秒降低到11毫秒
    • 多线程并行处理,后处理耗时降低到原来的53%
  • 搭建了算法服务端,实现数字人实时通话架构

App界面

创建数字人
创建数字人
实时通话
数字人实时通话
口播视频
口播视频

数字人实时通话架构图

G-avatar架构

算法效果演示

实时通话demo
口播视频
PyTorch TensorRT Wav2Lip GAN 数字人 口型对齐 RTC即时通讯 实时音视频推流

巨人摹境

一站式AI美术绘画生产平台

巨人摹境是一个一站式AI美术绘画生产平台,类似liblibAI,融合了sdwebui与PhotoShop的功能。

主要工作成果

本人基于ComfyUI内核开发了以下API,供后端调用:

文生图(SD、FLUX、Kolors) 图生图(Controlnet、IPAdapter) Lora训练 局部重绘 提示词反推 实时骨骼预览 超分高清 一键扩图 一键去背景 三视图生成 换脸 深度估计 法线估计 以图搜图 替换物品 保存元数据 推理加速(First Block Cache) ...

主操作界面

操作界面

功能演示

局部重绘与图层功能演示
骨骼控制预览功能演示
更多教程视频: Bilibili 主页链接
图像生成 图像编辑 ComfyUI Stable Diffusion FLUX LoRA ControlNet IP-Adapter

如愿

一款AI星座运势与日程规划App

如愿是一款结合AI星座运势与日程规划的陪伴型APP。它通过运势预测作为免费切入口,引导用户授权日历数据,基于真实生活场景生成个性化行动建议和心理支持。

主要工作成果

  • 设计并实现开运壁纸推荐系统
  • 根据每日运势文本从壁纸库中检索出最适合的壁纸
  • 基于wan2.1开发动态壁纸生成功能

壁纸推荐App界面

第一版

壁纸推荐系统架构

如愿壁纸推荐架构

动态壁纸生成流程演示

静态输入图
步骤 1:静态输入图
步骤 2:wan2.1 I2V 生成视频
动态照片输出
步骤 3:视频嵌入图片后生成动态照片
LLM 推荐系统 Redis MySQL Wan2.1 视频生成

vibeme

一款视频生成App

vibeme是一款视频生成app,内置了各种唱歌、跳舞、表演、网红同款、恶搞的模板,用户只需上传自己的图片或者声音,即可生成自己的有趣视频。全球下载量约70万+,日活1万+。

产品官网: www.vibemeai.net

主要工作成果

  • 面部驱动算法研发:
    • 基于LivePortrait二次研发,添加很多新特性和解决很多bad/corner case
    • 支持多人脸驱动,并解决了多个人脸比较近时互相干扰的问题
    • 优化表情歪的问题
    • 自适应裁剪提升输出分辨率
    • 重新训练宠物脸驱动模型,解决宠物耳朵消失问题
    • 增加嘴巴区域的GAN loss
    • 将全脸的GAN loss的discriminator替换成multi-scale
  • ComfyUI自定义节点开发
  • 唱歌lip-sync模型训练
  • 搭建上述算法的算法服务端,异步架构,支持生产级高并发

算法服务端架构

vibeme系统架构

vibeme架构

Lip-sync模型结构

Lip-sync模型结构

模板类型展示

和朋友合唱模板
和朋友合唱
庆祝生日模板
庆祝生日
超现实模板
超现实
圣诞主题模板
圣诞节主题
宠物唱歌模板
宠物唱歌
火辣风格模板
火辣性感

生成样例展示

图生图 + 面部驱动(单人、卡通)

图生图 + 多对多面部驱动(唱歌、双人)

图生图 + 一对多面部驱动(唱歌、双人)

图生图 + 图生视频(多片段)

图生图 + 多对多面部驱动(唱歌、双人)

用户上传照片 + 多对多面部驱动(恶搞、双人)

用户上传照片 + 多对多面部驱动(恶搞、三人)

图生图 + 图生视频(动作参考)

图生图 + 图生视频(动作参考)

图生图 + 图生视频

图生图 + 图生视频 + Lip-sync

图生图 + 图生视频(自带 Lip-sync)

LivePortrait 优化对比

支持多人脸驱动
原先:多人场景仅能驱动单人脸。
优化后:多人场景可驱动多个任意人脸。
相邻人脸互相干扰
原先:两张人脸较近时易互相干扰。
优化后:近距离多人脸保持稳定。
表情歪斜问题
原先:嘴巴与表情存在歪斜。
优化后:嘴巴与表情方向校正。
输出分辨率提升
原先:输出分辨率较低。
优化后:输出分辨率明显提升。
宠物耳朵消失问题
官方版本:部分宠物场景耳朵消失。
优化后:宠物耳朵区域保持稳定。

Lip-sync 换口型演示

输入视频(换口型前)

输入音频

输出视频(换口型后)

Video Generation Image Generation Face Reenactment LivePortrait lip-sync ComfyUI FastAPI RocketMQ

预研

图像编辑

基于FlowEdit等免训练图像编辑算法,提出了流轨迹矫正、自适应掩码等创新点,使图像编辑既能成功编辑想编辑的区域,也能避开不想编辑的区域,评测指标优于FLowEdit。

算法示意图

FlowEdit
FlowEdit算法示意图
我们的算法1 我们的算法2
我们的算法

根据梯度和投票的自适应速度场掩码生成过程

自适应掩码生成过程

算法效果对比

对比1
对比2
对比3
对比4
对比5

相机控制的数字人视频生成

基于realestate10K微调了wan2.1,使其输入显式相机运动轨迹并进行Plücker编码,输出带相机运动的视频,替换掉infinitetalk里的基模,实现相机控制的数字人视频生成。

模型结构

相机控制数字人视频生成结构图

输出对比与运镜样例

InfiniteTalk 原始输出
InfiniteTalk + Pan Left
InfiniteTalk + Pan Right
InfiniteTalk + Zoom In
InfiniteTalk + Zoom Out

专利