在2024年,我们将看到具有高分辨率和长期连贯性的视频生成。这将需要更多的“思考” ,即系统2的推理和长远规划。
虽然现在相关研究还处于早期阶段,但机器学习方法可以揭示隐藏的结构和因果关系,让数据看起来不再是杂乱无章的一堆数字。
论文网址:https://arxiv.org/pdf/2401.00431.pdf
它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。
科技就是这样,你往前领先一步、有了一段时间的优势,别人跟进太正常不过了,荣耀要做的就是快速地奔跑。