Wu, P. Y. and Mebane, W. R. (2022) “MARMOT: A Deep Learning Framework for Constructing Multimodal Representations for Vision-and-Language Tasks”, Computational Communication Research (old website), 4(1), pp. 275–322. Available at: http://bubble.labs.vu.nl/ccr/article/view/102 (Accessed: 14 December 2025).