ロボットのマルチモーダル学習は困難ですが、MultiGenフレームワークにより、物理シミュレーターと生成モデルを統合し、視覚と音声のシミュレーションを実現。これにより、実データなしで効果的なゼロショット転移が可