巨人网络 AI Lab 工作内容展示

聚焦计算机视觉算法与工程落地:数字人、图像生成与编辑、视频生成与控制,表情驱动。

4 个核心项目 G-avatar | 巨人摹境 | 如愿 | vibeme
40+ 算法 API 覆盖数字人、图像生成与编辑、壁纸推荐、表情驱动、视频生成,供后端调用
算法与工程兼修 调研论文,设计模型与架构,开发算法服务端,算法落地全链路交付经验
新技术探索 涉猎大语言模型、多模态模型、强化学习、智能体等前沿技术,技术栈广

G-avatar

实时通话数字人App

G-avatar是一款数字人app,不同于其他数字人产品,它更追求推理速度快,要求实时性,以便用户能够与数字人实时视频通话。用户上传一张照片或者一段视频后,算法会用它生成数字人,之后用户就可以跟数字人实时视频通话或者生成口播视频。

主要工作成果

  • 训练出轻量化、可实时推理的视频改口型模型,相比原版wav2lip有以下改进:
    • 输出分辨率从96增大到256
    • 增加full face和face component的VGG loss训练损失项
    • 增加嘴巴区域的GAN loss
    • 将全脸的GAN loss的discriminator替换成multi-scale
  • 推理加速与降本
    • 使用tensorRT推理框架部署,显存从3.75GB降到1.58GB,推理耗时从每帧15毫秒降低到11毫秒
    • 多线程并行处理,后处理耗时降低到原来的53%
  • 基于WebSocket和Agora RTC搭建了算法服务端架构
  • 设计基于VAD的即时开麦机制,优化端到端延迟
  • 调研了视频插帧、人像超分、co-speech相关算法,复现cyberhost的code attention。

App界面

创建数字人
创建数字人
实时通话
数字人实时通话
口播视频
口播视频

数字人实时通话架构图

G-avatar架构

算法效果演示

实时通话demo
口播视频
PyTorch TensorRT Talking Head GAN 数字人 口型对齐 RTC即时通讯 实时音视频推流

巨人摹境

一站式AI美术绘画生产平台

巨人摹境是一个一站式AI美术绘画生产平台,类似liblibAI,融合了sdwebui与PhotoShop的功能。

主要工作成果

本人基于ComfyUI内核和生态开发了多个API和功能,供后端调用,包括但不限于:

文生图(SD、FLUX、Kolors) 图生图(Controlnet、IPAdapter) LoRA训练 局部重绘 提示词反推 实时骨骼预览 超分高清 一键扩图 一键去背景 三视图生成 换脸 深度估计 法线估计 以图搜图 替换物品 保存元数据 推理加速(First Block Cache) ...

主操作界面

操作界面

功能演示

局部重绘与图层功能演示
骨骼控制预览功能演示
更多教程视频: Bilibili 主页链接
图像生成 图像编辑 ComfyUI Stable Diffusion FLUX LoRA ControlNet IP-Adapter

如愿

一款AI星座运势与日程规划App

如愿是一款结合AI星座运势与日程规划的陪伴型APP。它通过运势预测作为免费切入口,引导用户授权日历数据,基于真实生活场景生成个性化行动建议和心理支持。

主要工作成果

  • 从0到1搭建基于大语言模型的开运壁纸推荐系统
    • 通过 LLM 提取用户每日运势文本里的预定义标签
    • 结合 Redis与 MySQL,从壁纸库中检索出匹配的壁纸,且7天内不重复推荐
  • 基于wan2.1视频生成模型开发了动态壁纸生成功能

壁纸推荐App界面

第一版

壁纸推荐系统架构

如愿壁纸推荐架构

动态壁纸生成流程演示

静态输入图
步骤 1:静态输入图
步骤 2:wan2.1 I2V 生成视频
动态照片输出
步骤 3:视频嵌入图片后生成动态照片
LLM 推荐系统 Redis MySQL Wan2.1 视频生成

vibeme

一款视频生成App

vibeme是一款视频生成app,内置了各种唱歌、跳舞、表演、网红同款、恶搞的模板,用户只需上传自己的图片或者声音,即可生成自己的有趣视频。全球用户量约70万+,日活1万+。

产品官网: www.vibemeai.net

主要工作成果

  • 面部驱动算法研发:
    • 基于LivePortrait进行深度二次研发和算法优化,添加了很多新特性和解决了落地场景遇到的各种bad/corner case
    • 支持多人脸驱动,并解决了多个人脸比较近时互相干扰的问题
    • 优化表情歪的问题
    • 自适应裁剪提升输出分辨率
    • 训练了宠物脸检测模型
    • 重新训练宠物脸驱动模型,解决宠物耳朵消失问题
  • ComfyUI自定义节点开发,接入了各大厂商的API
  • 针对唱歌对口型任务,重新设计和训练了一版lip-sync模型
  • 基于 FastAPI 和 RocketMQ 搭建上述算法的算法服务端,异步架构,支持生产级高并发请求

算法服务端架构

vibeme系统架构

vibeme架构

Lip-sync模型结构

Lip-sync模型结构

模板类型展示

和朋友合唱模板
和朋友合唱
庆祝生日模板
庆祝生日
超现实模板
超现实
圣诞主题模板
圣诞节主题
宠物唱歌模板
宠物唱歌
火辣风格模板
火辣性感

生成样例展示

图生图 + 面部驱动(单人、卡通)

图生图 + 多对多面部驱动(唱歌、双人)

图生图 + 一对多面部驱动(唱歌、双人)

图生图 + 图生视频(多片段)

图生图 + 多对多面部驱动(唱歌、双人)

用户上传照片 + 多对多面部驱动(恶搞、双人)

用户上传照片 + 多对多面部驱动(恶搞、三人)

图生图 + 图生视频(动作参考)

图生图 + 图生视频(动作参考)

图生图 + 图生视频

图生图 + 图生视频 + Lip-sync

图生图 + 图生视频(自带 Lip-sync)

LivePortrait 优化对比

支持多人脸驱动
原先:多人场景仅能驱动单人脸。
优化后:多人场景可驱动多个任意人脸。
相邻人脸互相干扰
原先:两张人脸较近时易互相干扰。
优化后:近距离多人脸保持稳定。
表情歪斜问题
原先:嘴巴与表情存在歪斜。
优化后:嘴巴与表情方向校正。
输出分辨率提升
原先:输出分辨率较低。
优化后:输出分辨率明显提升。
宠物耳朵消失问题
官方版本:部分宠物场景耳朵消失。
优化后:宠物耳朵区域保持稳定。

Lip-sync 换口型演示

输入视频(换口型前)

输入音频

输出视频(换口型后)

Video Generation Image Generation Face Reenactment LivePortrait lip-sync ComfyUI FastAPI RocketMQ

预研

图像编辑

基于FlowEdit等免训练图像编辑算法,提出了流轨迹矫正、自适应掩码等创新点,使图像编辑算法既能成功编辑想编辑的区域,也能避开不想编辑的区域,评测指标优于FlowEdit。

算法示意图

FlowEdit
FlowEdit算法示意图
我们的算法1 我们的算法2
我们的算法

根据梯度和投票的自适应速度场掩码生成过程

自适应掩码生成过程

算法效果对比

对比1
对比2
对比3
对比4
对比5

相机控制的数字人视频生成

基于RealEstate10K微调了Wan2.1,使其输入显式相机运动轨迹并进行Plücker编码,输出带相机运动的视频,替换掉InfiniteTalk里的基模,实现相机控制的数字人视频生成。

模型结构

相机控制数字人视频生成结构图

输出对比与运镜样例

InfiniteTalk 原始输出
InfiniteTalk + Pan Left
InfiniteTalk + Pan Right
InfiniteTalk + Zoom In
InfiniteTalk + Zoom Out

专利