巨人网络 AI Lab · WWD工作内容

G-avatar

实时通话数字人App

G-avatar是一款数字人app，不同于其他数字人产品，它更追求推理速度快，要求实时性，以便用户能够与数字人实时视频通话。用户上传一张照片或者一段视频后，算法会用它生成数字人，之后用户就可以跟数字人实时视频通话或者生成口播视频。

训练出轻量化、可实时推理的视频改口型模型，相比原版wav2lip有以下改进：
- 输出分辨率从96增大到256
- 增加full face和face component的VGG loss训练损失项
- 增加嘴巴区域的GAN loss
- 将全脸的GAN loss的discriminator替换成multi-scale
推理加速与降本
- 使用tensorRT推理框架部署，显存从3.75GB降到1.58GB，推理耗时从每帧15毫秒降低到11毫秒
- 多线程并行处理，后处理耗时降低到原来的53%
基于WebSocket和Agora RTC搭建了算法服务端架构
设计基于VAD的即时开麦机制，优化端到端延迟
调研了视频插帧、人像超分、co-speech相关算法，复现cyberhost的codebook attention。

创建数字人

数字人实时通话

口播视频

实时通话demo

口播视频

PyTorch TensorRT Talking Head GAN 数字人口型对齐 RTC即时通讯实时音视频推流

一站式AI美术绘画生产平台

巨人摹境是一个一站式AI美术绘画生产平台，用于提高公司内部美术资产生产效率，类似liblibAI，融合了sdwebui与PhotoShop的功能。

本人基于ComfyUI内核和生态开发了多个API和功能，供后端调用，包括但不限于：

文生图（SD、FLUX、Kolors）图生图（Controlnet、IPAdapter） LoRA训练局部重绘提示词反推实时骨骼预览超分高清一键扩图一键去背景三视图生成换脸深度估计（支持四方连续）法线估计以图搜图替换物品保存元数据推理加速（First Block Cache） ...

局部重绘与图层功能演示

骨骼控制预览功能演示

更多教程视频: Bilibili 主页链接

图像生成图像编辑 ComfyUI Stable Diffusion FLUX LoRA ControlNet IP-Adapter

一款AI星座运势与日程规划App

如愿是一款结合AI星座运势与日程规划的陪伴型APP。它通过运势预测作为免费切入口，引导用户授权日历数据，基于真实生活场景生成个性化行动建议和心理支持。

从0到1搭建基于大语言模型的开运壁纸推荐系统
- 使用Qwen-VL多模态模型生成壁纸图片描述
- 通过 LLM 提取用户每日运势文本里的预定义标签
- 结合 Redis与 MySQL，从壁纸库中检索出匹配的壁纸，且7天内不重复推荐
使用midjourney生成的图片对FLUX进行LoRA风格训练，用于批量生成精美壁纸
基于wan2.1视频生成模型开发了动态壁纸生成功能

步骤 1：静态输入图

步骤 2：wan2.1 I2V 生成视频

步骤 3：视频嵌入图片后生成动态照片

LLM 推荐系统 Redis MySQL Wan2.1 视频生成

一款视频生成App

vibeme是一款视频生成app，内置了各种唱歌、跳舞、表演、网红同款、恶搞的模板，用户只需上传自己的图片或者声音，即可生成自己的有趣视频。全球用户量约120万+，日活1万+。

产品官网： www.vibemeai.net