publications

Conference

CVPR 2026 Main

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, and Hiroki Furuta

In the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026

arXiv Code Hugging Face
NeurIPS 2025

Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search

Yuta Oshima, Masahiro Suzuki, Yutaka Matsuo, and Hiroki Furuta

In Neural Information Processing Systems (NeurIPS), 2025

arXiv Code Website
NeurIPS 2024

ADOPT: Modified Adam Can Converge with Any \beta_2 with the Optimal Rate

Shohei Taniguchi, Keno Harada, Gouki Minegishi, Yuta Oshima, Seong Cheol Jeong, Go Nagahara, Tomoshi Iiyama, Masahiro Suzuki, Yusuke Iwasawa, and Yutaka Matsuo

In Neural Information Processing Systems (NeurIPS), 2024

arXiv Code

Journal

Journal

SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces

Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, and Yutaka Matsuo

In New Generation Computing, 2026

DOI arXiv Code
Journal

Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference

Yuta Oshima, Masahiro Suzuki, and Yutaka Matsuo

In New Generation Computing, 2026

DOI arXiv

Workshop

CVPR 2026 WS

WorldPack: Dynamic Frame Compression for Long-context Video World Modeling

Yuta Oshima, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, and Hiroki Furuta

In 1st Workshop on Video World Models (CVPR Workshop), 2026

arXiv
MMAsia 2025 WS

AKITalk: Audio-Implicit Keypoints for Identity-Preserving Talking-Head Video Synthesis

Riku Takahashi, Rongzhi Li, Yuta Oshima, Sho Kuno, Ryugo Morita, and Issey Sukeda

In the 7th ACM International Conference on Multimedia in Asia, 2025

Awarded DOI

3rd Place in The ACM Multimedia Asia 2025 Grand Challenge: Multimodal Multiethnic Talking-Head Video Generation
ICLR 2024 WS

SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces

Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, and Yutaka Matsuo

In 5th Workshop on Practical ML for Limited/Low Resource Settings (ICLR Workshop), 2024

arXiv Code
IROS 2023 WS

Tactile In-Hand Pose Estimation through Perceptual Inference

Tatsuya Kamijo, Tomoshi Iiyama, Yuta Oshima, Gentiane Venture, Tatsuya Matsushima, Yutaka Matsuo, and Yusuke Iwasawa

In IROS 2023 Workshop on World Models and Predictive Coding in Cognitive Robotics, 2023

Awarded Website

Spotlight Presentation