Yazhou Xing

邢亚洲

PhD Candidate

Department of Computer Science and Engineering

Hong Kong University of Science and Technology

: CYT Building Room 2014,; HKUST, Clear Water Bay, Kowloon; Hong Kong, China
: yxingag AT connect DOT ust DOT hk
: Github
: Google Scholar

About Me

I am a Ph.D. candidate at HKUST, supervised by Prof. Qifeng Chen. I received my bachelor degree from Wuhan University. During my PhD, I have been fortunate to do long research internships at Google Research, NVIDIA Research, and Tencent.

I do research in computer vision and deep learning. In particular, my research focuses on computational photography, video generation, multimodal generation, and editing.

I’m open to collaborations and discussions on research and other inspiring topics. Feel free to reach out! :)

Open-source Project

VideoTuna: A Powerful Toolkit for Video Generation with Model Fine-Tuning and Post-Training.

Project lead & core contributor.

[code] [webpage] [technical report]

Selected Publications [Google Scholar]

(^* joint first authors; ^† coresponding authors)

VideoVAE+: Large Motion Video Autoencoding with Cross-modal Video VAE.

Yazhou Xing^*, Yang Fei^*, Yingqing He^*†, Jingye Chen, Jiaxin Xie, Xiaowei Chi, Qifeng Chen^†

ICCV, 2025.

[paper] [project page] [code] [demo video]
LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models.

Qiang Wen, Zhefan Rao, Yazhou Xing^†, Qifeng Chen^†

ICRA, 2025.

[paper] [project page] [code]
ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement.

Zhefan Rao, Liya Ji, Yazhou Xing, Runtao Liu, Zhaoyang Liu, Jiaxin Xie, Ziqiao Peng, Yingqing He, Qifeng Chen

arXiv, 2024.

[paper] [project page]
LLMs Meet Multimodal Generation and Editing: A Survey.

Yingqing He, Zhaoyang Liu, Jingye Chen, Zeyue Tian, Hongyu Liu, Xiaowei Chi, Runtao Liu, Ruibin Yuan, Yazhou Xing, Wenhai Wang, Jifeng Dai, Yong Zhang, Wei Xue, Qifeng Liu, Yike Guo, Qifeng Chen

arXiv, 2024.

[paper] [project page]
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners.

Yazhou Xing^*, Yingqing He^*, Zeyue Tian^*, Xintao Wang, Qifeng Chen

CVPR, 2024.

[paper] [project page] [code]
Online Overexposed Pixels Hallucination in Videos with Adaptive Reference Frame Selection.

Yazhou Xing, Amrita Mazumdar, Anjul Patney, Chao Liu, Hongxu Yin, Qifeng Chen, Jan Kautz, Iuri Frosio

arXiv, 2023.

[paper] [project page] [demo video]
Invertible Image Signal Processing.

Yazhou Xing^*, Zian Qian^*, Qifeng Chen

CVPR, 2021.

[paper] [project page] [code] [extended paper]
Blind Video Temporal Consistency via Deep Video Prior.

Chenyang Lei^*, Yazhou Xing^*, Qifeng Chen

NeurIPS, 2020.

[paper] [project page] [code (TensorFlow)] [code (PyTorch)]

Experiences

- Research Intern, ARML Team, Google Research
- 2024
- Host: Hao Peng, Yingwei Li, Yasamin Jafarian
- Research Intern, Learning and Perception Research Team, NVIDIA Research
- 2023
- Host: Iuri Frosio, Anjul Patney, Amrita Mazumdar, Chao Liu, Hongxu Yin
- Research Intern, Applied Research Center, Tencent
- 2022
- Host: Xintao Wang, Yu Li

Academic Service

Reviewer/Program Committee: CVPR, ICCV, ECCV, ICLR, Siggraph Asia, IJCV, AAAI, IJCAI, etc.

Teaching

COMP 4901Q: High Performance Computing, Spring 2021
COMP 6211D: Special Topics in Deep Learning, Fall 2019
COMP 4901J: Deep Learning in Computer Vision, Spring 2019