著作转自公众号老刘说NLP开云集团「中国」Kaiyun·官方网站 先看一个道理的话题。特定大模子的输出是有一个「信息量」的上限的,即使输出的token可以很长,关联词其包含的信息量并莫得本色各异,只不外是车轱辘话往返说落幕,不详即是一些无关痛痒的话来填充,信息密度现实上是下落的。 这是一个很道理的额问题,咱们可以从PPL、词汇丰富度、主题数来看,也有社区一又友说,可以适用信息熵来作念,但这个其实是用来预计不细目性的,是以人人怎么看这个事情呢? 今天,咱们来望望几个问题。一个是工业大模子行业落地的三个不雅点,讲的还可以。 另一个对于视频剖析多模态发挥综述,对于剖析多模态视频这块的工夫、完了范式和数据有匡助。 一、对于工业大模子行业落地的三个不雅点 最近看到一个很可以的工业大模子行业证明,2024年中国工业大模子行业发展琢磨证明:https://www.idigital.com.cn/report/4385?chk=1&type=0,其中有个三个不雅点,转头的比拟好,供人人所有参考。 不雅点1:大模子落地工业愚弄的几种念念路 纯正prompt提醒词法、RAG(检索增强)、主动发问与函数调用、微调四种念念路,其中RAG和微调为当今工业鸿沟较为常见的愚弄念念路
不雅点2:大模子落地工业愚弄平淡见的几种架构 对于大模子落地工业愚弄时代,常见的可以分为以下几种架构: 路由分发架构格式、大模子代理架构格式、基于缓存的微调架构格式、面向遐想的Agent架构格式、智能体组合架构格式架构,每个具体次序和优污点如下:
不雅点3:对于大模子和小模子的别离 在进行工业愚弄时,大小模子各有长处,其智商齐不成漠视,现时也不存在谁替代谁的情况。 大模子落地工业愚弄时,主要依托于庞杂的生成智商和针对复杂信息的捕捉与构建智商,因此在常识问答、文本/图片生成等以创造见长的场景愚弄比拟多。
而小模子则凭借高性价比、展望服从相瞄准确等上风,在工业质检、建树珍爱等场景高度熟识。 二、对于视频剖析多模态发挥综述 最近的职责《From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding》(https://arxiv.org/abs/2409.18938),这个职责综述长视频理衔命务,重心分析其专有挑战并转头模子与训诫工夫发挥,咱们可以望望。 可以望望几个中枢的点: 1、视频剖析大模子的演化
2、图像-、短视频-和长视频-多模态大型话语模子(MM-LLMs)之间的比拟
3、图像、短视频和长视频的视觉剖析经过
4、图像、短视频和长视频的视觉剖析的多模态模子
5、主流训诫范式和代表模子对比
"PT" 和 "IT" 鉴别代表模子训诫过程中的预训诫和指示蜿蜒两个阶段。字母 "Y"(是)和 "N"(否)示意在这些阶段是否使用了图像、短视频和长视频话语数据集。"E2E" 代表端到端的训诫经过。 6、Long video长视频的预训诫阶段和微调阶段的数据样本
参考文件 1、https://www.idigital.com.cn/report/4385?chk=1&type=0 2、https://arxiv.org/abs/2409.18938开云集团「中国」Kaiyun·官方网站
|