Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation<br>本地视觉语言模型能否超越视觉Transformer提升活动识别能力？——以新生儿复苏为例的研究<br>[摘要](abstracts/2602.12002.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

准确记录新生儿复苏过程对于质量改进和遵循临床指南至关重要，但在实践中仍未得到充分利用。先前使用3D-CNN和视觉Transformer（ViT）的研究在从新生儿复苏视频中检测关键活动方面已显示出有希望的结果，但也凸显了识别此类细粒度活动所面临的挑战。本研究探讨了生成式人工智能（GenAI）方法在提升此类视频活动识别能力方面的潜力。具体而言，我们探索了本地视觉语言模型（VLM）与大型语言模型（LLM）的结合使用，并将其与监督式TimeSFormer基线模型进行比较。利用包含13.26小时新生儿复苏视频的模拟数据集，我们评估了多种基于零样本VLM的策略以及带有分类头（包括低秩适应LoRA）的微调VLM。结果表明，小型（本地）VLM存在幻觉问题，但通过LoRA微调后，其F1分数达到0.91，超越了TimeSformer的0.70结果。

← Back