全网最细节的科普！专为小白写的大语言模型百科！速速收藏

2024-07-08码农

大模型这个概念已经深入到我们的生活中，成为人类进步发展的最主要动力！

无论是不懂AI技术的小白还是科班出身的大佬，都不得不在这个巨大的AI漩涡下，努力跟随世界前沿发展的脚步，防止自己掉队。

所以，无论是从业者亦或者非从业者，了解与大模型相关的知识是百利而无一害的。

今天小编就带大家了解一下与大模型相关的各种术语知识，帮助大家以后更轻松地了解世界前沿技术的发展！速速转发收藏起来吧！

扫码加入AI交流群

获得更多技术支持和交流

大模型

大模型是一种结构复杂且参数数量很多的深度学习模型，通过大量数据的预训练，能够完成多种复杂任务。

举个栗子🌰，被大众熟知的OpenAI公司的产品ChatGPT就是一个典型的大模型，能够生成语言、回答问题、撰写文章等。

在大模型这个宽泛的定义下，衍生出多种实现功能不同的定义。

LLM——大语言模型

有人经常将大语言模型与大模型搞混，觉得两者是一个概念， 但并非如此 。

大语言模型是大模型中的一种，专注处理自然语言任务，LLM的设计和训练目标是理解和生成自然语言文本，所以它的训练数据是文本。

但大模型涵盖更广泛的领域，除了自然语言处理，还包括计算机视觉、语音处理等，所以其训练数据类型多样，包括图像、音频、视频等。

典型的LLM模型有GPT、Google开发的BERT和T5等。

T2I——Text-to-Image文生图模型

文生图就是由文本生成图像，这类模型结合自然语言处理和计算机视觉两大领域的技术，能够根据给定的文字描述生成与之匹配的图像。代表性T2I模型有OpenAI的DALL-E，stabilityai的SD3模型等。

Text-to-3D——文生3D模型

这类模型可以根据文本描述生成三维模型。设计师和游戏开发者等可以通过这样的模型生成需要的3d资产，简化三维内容的制作流程。代表模型有：Google的DreamFusion，OpenAI的CLIP-Forge等。

Image-to-3D——图生3D模型

这类模型能够将二维图像转换为三维模型，主要是从给定的二维图像中提取空间信息和细节，然后生成对应的三维模型。典型模型为stabilityai的TripoSR，腾讯的InstantMesh等。

T2V——Text-to-Video文生视频模型

顾名思义，该模型可以根据文本描述生成对应视频，大部分此类模型处于发展阶段，但部分也已经表现出一定的潜力和实际应用价值，如OpenAI的Sora,runway的Gen-3等。

TTS——Text-to-Speech 文生语音模型

这类模型能够将输入的文本信息通过合成的语音形式输出，代表有谷歌的Tacotron 2。

多模态模型

与上面所科普的单一模态模型不同，多模态的模型能够解决更复杂和全面的理解和生成任务，因为它可以能够处理和融合多种不同类型的数据。

常见的四种模态为文本、图像、音频和视频，模型可以结合不同模态的信息整合到一个统一的表示中，进行模态融合；同时也可以在不同模态的数据之间找到对应关系，称为「对齐」，比如将视频中的音频与画面对齐。代表性模型有OpenAI的CLIP以及谷歌的VATT。

向量表示

在NLP（自然语言处理）中，向量是最基本的数据表示形式。 向量表示 就是将文本、图像、音频等信息转换为计算机能够理解和处理的数值形式，向量形式的数据可以利用线性代数进行高效的计算和操作。

向量表示有多种分类：

词向量 能够捕捉单词之间的语义和语法关系，是NLP中的一个核心概念。

嵌入向量 可以将句子、图像特征等高维数据映射到低维空间，通常用于提高词向量的质量和表现力。

特征向量 可以是原始数据的直接表示来描述数据点的属性，比如颜色，频率，音高等。

向量数据库

向量数据库专为存储和检索由机器学习模型生成的高维向量数据而设计，是构建现代AI系统的关键组成部分。

向量数据库通过使用特殊的索引结构来优化向量检索的速度，实现 高效的向量索引 ；同时支持基于内容的搜索，能够通过计算向量之间的距离来快速找到最相似的向量，实现 相似度搜索 ；而且具有 灵活性和可扩展性 ，能实现从小到大规模的数据集的向量存储和检索

RAG

RAG全称为检索增强生成，主要是让LLM在响应之前从训练集以外的知识库中得到更好的依据，来优化LLM的输出。

像GPT这样庞大的模型本身就能够由上亿的参数生成原始答案，如果再通过RAG得到外部特定知识库中的内容，那不就相当于顶级学霸开卷考试.....😳

具体RAG的工作原理是：通过信息检索组件由用户输入从新数据知识库提取信息，然后将这些信息连同用户输入一起给LLM（相当于将问题和答案一并交给大模型）🤔，于是LLM 就可以创建更好的响应。

知识库

知识库为大模型提供丰富的背景知识，帮助模型在处理特定领域问题时，能够有更加深入和准确的理解。比如说在医疗领域，模型可以通过访问知识库中的医学信息来提供更准确的诊断建议。

在需要回答复杂问题或进行信息检索时，模型也可以直接查询知识库获取答案，向量数据库一般被作为知识库的存储载体。

函数调用

程序执行中函数调用是必不可少的，调用函数就是在程序中引用一个函数名称并执行该函数的功能。函数的封装有助于对代码整体更好的维护和修改，保证了代码的健壮性。

例如，如果要实现一个较复杂的功能，通常要通过多个算法相互配合来实现，而算法的代码量通常是冗长的，于是将一个个算法分别封装成函数就可以在不同的代码语句中多次使用这个算法。🧐

函数调用过程为：当代码语句调用一个函数时，程序的执行流会跳转到该函数定义的位置，执行完函数代码后返回到原来的位置继续执行后续代码。💻

在AI系统中，函数调用是实现模型功能、数据处理和任务执行的基础。模型的交互、数据预处理、后处理以及与外部资源的集成等都离不开函数调用。

大模型内部主要函数包括：将输入数据进行预处理，转换成模型能够处理的格式；特征提取、特征选择和特征编码的函数；计算模型输出和实际标签间差异的损失函数；更新模型权重以最小化损失函数值的优化函数等等。

模型微调

Fine-tuning （微调）是应用大模型的重要技术，是在一个 已经预训练 的大模型的基础上，通过少量目标任务数据来调整优化模型参数，使模型更好地适应特定任务的过程。

微调的过程主要有：首先选择要使用的目标领域的微调数据集；根据任务需要调整模型的层次架构；训练模型；调整学习率。

通过微调可以在有限的资源下获得针对特定应用优化的模型性能并且在特定任务上达到或超过专门从头训练模型的效果。

Agent

在AI领域，agent被称为「智能体」。一切能够根据特定情形决策并执行的系统或者实体都可以被称为agent，如软件程序、机器人或具备感知和行动能力的系统。

举几个栗子🌰，现在发展如火如荼的自动驾驶中的自动驾驶系统，就是一个高级的agent；亦或者现在常见的服务机器人就是一个实体agent。

一个模型能够执行「从【发如雪】和【红尘客栈】两首歌选一个更好听的，并把它下载到桌面」，这样的它也是agent。

AIGC与AGI

可能大家有时候会将这两个名称混淆，但这两个是完全不同的概念，AIGC代表人工智能生成内容；AGI代表人工通用智能。

AIGC可以理解为我们使用上文所提及的如GPT,SD3等模型进行内容创作的过程，而AGI则指能够达到人类水平的AI系统，是能够自主思考、解决广泛问题的AI系统。

AGI是我们AI发展的最终实现目标，AIGC则是实现过程中不可缺少的推动力，越加成熟强大的AIGC会为未来AGI的实现打下更加牢固的地基。

虽然AGI实现还很漫长，但小编相信道阻且长行则将至！

关注「向量光年」公众号

加速全行业向AI的改变

关注「开源AI项目落地」公众号

与AI时代更靠近一点

关注「 AGI光年」公众号

获取每日最新咨询