video-SALMONN 2 - a tsinghua-ee Collection

tsinghua-ee 's Collections

updated 2 days ago

video-SALMONN 2 is a powerful audio-visual large language model (LLM) that generates high-quality audio-visual video captions.