让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了!来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下的指代分割),让AI..