2025-07-19

最近の研究で、情報豊富なフレーム選択がVideo-LLMsの性能向上に寄与することが判明。VideoITGは、指示に基づくフレーム選択を行い、VidThinkerを用いて人間の注釈プロセスを模倣します。