新闻中心

开云集团「中国」Kaiyun·官方网站这是一个很道理的额问题-开云集团「中国」Kaiyun·官方网站

发布日期：2024-11-09 04:30 点击次数：194

著作转自公众号老刘说NLP开云集团「中国」Kaiyun·官方网站

先看一个道理的话题。特定大模子的输出是有一个「信息量」的上限的，即使输出的token可以很长，关联词其包含的信息量并莫得本色各异，只不外是车轱辘话往返说落幕，不详即是一些无关痛痒的话来填充，信息密度现实上是下落的。

这是一个很道理的额问题，咱们可以从PPL、词汇丰富度、主题数来看，也有社区一又友说，可以适用信息熵来作念，但这个其实是用来预计不细目性的，是以人人怎么看这个事情呢？

今天，咱们来望望几个问题。一个是工业大模子行业落地的三个不雅点，讲的还可以。

另一个对于视频剖析多模态发挥综述，对于剖析多模态视频这块的工夫、完了范式和数据有匡助。

一、对于工业大模子行业落地的三个不雅点

最近看到一个很可以的工业大模子行业证明，2024年中国工业大模子行业发展琢磨证明:https://www.idigital.com.cn/report/4385?chk=1&type=0，其中有个三个不雅点，转头的比拟好，供人人所有参考。

不雅点1：大模子落地工业愚弄的几种念念路

纯正prompt提醒词法、RAG(检索增强)、主动发问与函数调用、微调四种念念路，其中RAG和微调为当今工业鸿沟较为常见的愚弄念念路

不雅点2:大模子落地工业愚弄平淡见的几种架构

对于大模子落地工业愚弄时代，常见的可以分为以下几种架构：

路由分发架构格式、大模子代理架构格式、基于缓存的微调架构格式、面向遐想的Agent架构格式、智能体组合架构格式架构，每个具体次序和优污点如下：

不雅点3：对于大模子和小模子的别离

在进行工业愚弄时，大小模子各有长处，其智商齐不成漠视，现时也不存在谁替代谁的情况。

大模子落地工业愚弄时，主要依托于庞杂的生成智商和针对复杂信息的捕捉与构建智商，因此在常识问答、文本/图片生成等以创造见长的场景愚弄比拟多。

而小模子则凭借高性价比、展望服从相瞄准确等上风，在工业质检、建树珍爱等场景高度熟识。

二、对于视频剖析多模态发挥综述

最近的职责《From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding》(https://arxiv.org/abs/2409.18938)，这个职责综述长视频理衔命务，重心分析其专有挑战并转头模子与训诫工夫发挥，咱们可以望望。

可以望望几个中枢的点：

1、视频剖析大模子的演化

2、图像-、短视频-和长视频-多模态大型话语模子（MM-LLMs）之间的比拟

3、图像、短视频和长视频的视觉剖析经过

4、图像、短视频和长视频的视觉剖析的多模态模子

5、主流训诫范式和代表模子对比

"PT" 和 "IT" 鉴别代表模子训诫过程中的预训诫和指示蜿蜒两个阶段。字母 "Y"（是）和 "N"（否）示意在这些阶段是否使用了图像、短视频和长视频话语数据集。"E2E" 代表端到端的训诫经过。

6、Long video长视频的预训诫阶段和微调阶段的数据样本

参考文件

1、https://www.idigital.com.cn/report/4385?chk=1&type=0

2、https://arxiv.org/abs/2409.18938开云集团「中国」Kaiyun·官方网站

热点资讯

	开云集团「中国」Kaiyun·官方网站但屡次位于10元/股之上-开云集团…
	开云集团「中国」Kaiyun·官方网站其下野不会影响董事会的泛泛运作-开…
	开云集团「中国」Kaiyun·官方网站对个东说念主购买家庭独一住房和家庭…
	开云集团「中国」Kaiyun·官方网站标普500指数十一大板块八跌三涨-…
	开云集团「中国」Kaiyun·官方网站精确识别有确切融资需求又存在资金艰…