この研究は、Chain-of-Thought推論を用いて複数画像間の視覚的手がかりを結びつける方法を探求します。自己教師あり学習を活用し、画像三つ組を用いてモデルを訓練し、視覚的比較と論理推論を行います。人間の