@AI学者 吴恩达
现在随着各个平台进入稳定期,被称为“全厂希望”的视频号成为无数品牌寻找新增量的重点平台,希望成为下一个“视品牌”。
2024年,品牌们还有硬仗要打。
在实验中,VCoder与开源的多模态LLMs(如MiniGPT-4、InstructBLIP、LLaVA-1.5和CogVLM)进行了比较,并在COST验证集上进行了测试。实验结果表明,VCoder在对象识别任务中表现最佳,特别是在对象计数和识别方面优于基线模型。在处理复杂场景中的对象计数和识别任务时,VCoder展现出更高的准确性,尤其是在场景中有许多实体时。
图源备注:图片由AI生成,图片授权服务商Midjourney