人工智能gpt3(gpt4人工智能)_养成游戏

2023年被称为GPT模式元年。自2016年AlphaGo击败李世石和柯洁以来，GPT成为又一项引爆全球社交媒体的新技术。虽然大家都在谈论GPT的应用，但GPT作为一项技术本身的前世今生却很少被提及。本文继续回顾GPT时代是如何诞生的。

人工智能gpt3(gpt4人工智能)

【/br/】

GPT

2018年图灵奖颁给了人工智能深度学习领域的三巨头，——yoshuabengio、GeoffreyHinton和YannLeCun。从20世纪80年代的BP算法到LeCun的梯度下降算法，历史上第一个卷积神经网络LeNet5被训练来识别手写图像数据，标志着深度学习时代的开始。

受计算资源限制，AlexNet于2012年诞生，并赢得了ImageNet竞赛。12日以来，CVPR、ICCV、ECCV等顶级期刊成为学术界关注的焦点。在一年一度的ILSVRC竞赛中，VGGNet和GoogLeNet逐渐让卷积神经网络变得更长更宽。在老黄的帮助下，深度学习进入了快车道。

在深度学习的支持下，计算机视觉中的CV领域正在快速发展。2014年，RossGirshick等人提出了经典的R-CNN算法，自动驾驶领域获得了大量投资。基于深度学习的算法已经成为目标检测的主流，YOLO也不断刷新。当时，小楼、小马、文远智行、韩旭等创始人都成为著名的AI独角兽。

成立较早的商汤、世旷、依图、从云，已成为中国足球的四小虎。商汤科技巅峰时期，论文分布广泛，市值突破2000亿。国家和资金主要集中在计算机视觉领域；与热门的CV领域相比，人工智能的另一个大方向NLP自然语言处理显得相对孤独。

传统的自然语言处理实际上是计算机科学和语言学之间的交叉学科。按照一个非常基本的思路，自然语言处理要求我们首先用计算机来理解“自然语言”，然后根据理解生成“自然语言”，也就是自然语言处理的两个核心任务，NLU和NLG。早期NLP领域最大的应用是机器翻译，即将一种语言的文本翻译成另一种语言。

在人们不需要深度学习的时代，统计模型更多地用于处理自然语言。经典模型是隐马尔可夫模型（HMM），用于描述具有隐藏未知参数的马尔可夫过程。马尔可夫链可以理解为一个随机过程，下一个状态的概率只取决于当前状态。用人类的话来说，用于预测股票的马尔可夫链是一个ARMA时间序列，它模拟随机游走过程，并在NLP上构建语言模型来预测下一个单词的出现。【/br/】

【/br/】

语言模型

嗯，GPT经常提到大规模语言模型（LLM）。这里的语言模型已经出现了。上面的隐马尔可夫模型HMM是最经典的概率图模型，还有条件随机场模型CRF、最大熵模型ME等，这些都是概率图模型PGM，可以非常直观地用来构建语言模型。

概率图模型PGM主要由一系列节点和边组成，每个节点代表一个随机变量，边代表随机变量之间的依赖关系。例如上图中，ABC可以被视为一种自然语言，每条边代表单词之间的依赖关系。许多点和边形成一个图。例如，HMM是有向图模型，CRF是无向图模型。由于篇幅限制，我在这里不再进一步讨论。

传统的NLP领域依靠统计概率模型来处理自然语言，主要是因为统计方法具有鲁棒性，能够适应语言的变化；在深度学习时代，CV领域的一些传统算法如支持向量机（SVM）正在逐渐衰落（当然这种说法并不严谨，很多人认为Transformer也是SVM的一种），卷积神经网络网络CNN已经登上历史舞台，NLP也进入了新的篇章。

首先进入大家视野的就是RNN，它类似于BP反向传播和梯度下降算法。RNN也在20世纪80年代开始发展。1986年，机器学习领域的大师迈克尔·乔丹（注：这个MJ是ng的老师，不是篮球之神乔丹）提出了分布式并行处理中的乔丹网络。每个隐藏层节点都连接一个状态单元以实现延迟输入。BP算法提出后，就被应用在物流中。

后来，在1990年，JeffreyElman提出了第一个全连接的RNN，这就是著名的Elman网络。与Jordan网络和Elman网络相比，它多了一层接收层。例如，在前向传播过程中，在时间T，输入层将输入信息传输到隐藏层，隐藏层根据当前输入信息和来自接收层的历史信息计算输出，并将其传输到输出层。与HMM隐马尔可夫模型相比，RNN具有记住过去信息、预测未来输出、处理更复杂序列数据、学习复杂非线性关系的优点。

RNN循环神经网络虽然可以处理无限序列数据，但无法避免梯度下降算法带来的梯度消失和梯度爆炸问题。1992年，又一位不逊色于图灵奖的大人物尤尔根·施密特·胡贝尔出现。1992年，他提出了神经历史压缩器。

1997年，LeNet5诞生，Schmidhuber推出了改写NLP历史的LSTM，GRU门控循环单元成为天才之举。首先，看一下下面的结构。是不是很像数字模拟电气中的门电路？Schmidhuber改进了RNN。LSTM主要由四个“门”——个输入门、输出门、状态向量和遗忘门组成。状态向量也形象地称为“记忆单元”。

在接下来的四个步骤中，遗忘门将根据当前输入信息和隐藏层的状态计算遗忘向量；输入门会根据前一个隐藏层的状态和当前的输入信息计算输入向量和候选状态向量；然后根据遗忘向量，输入向量和当前输入信息更新状态向量。输出门会根据前一个隐藏层的状态和当前的状态向量得到最终的输出。

LSTM的优点在于，它进一步强化了记忆能力，使得下一个输出能够“记住”上一个向量的特征输入。与RNN相比，LSTM具有更强的处理长序列数据的能力，形成长期记忆依赖，克服了梯度消失和梯度爆炸的问题。与HMM概率图模型相比，我们可以看到LSTM模型现在使用了向量。如果是图像，我们可以理解矢量数据，但毕竟计算机无法识别“字符串”，或者说计算机无法理解字符串的语义，那么计算机如何捕捉英语的语义呢？

【/br/】

文本数据

答案很简单。单词直接映射到真实向量，因此可以使用循环神经网络很好地训练模型。接下来，终于由三大AI巨头介绍的Bengio登场了。2003年，他发表了一篇关于神经概率语言模型的论文，但当时并未受到广泛关注。在这篇文章中，Bengio提出了词向量/词嵌入的概念，它可以捕获单词的语义和句法信息，可用于各种NLP任务。

然而老黄在2000年并没有努力，这篇论文还得等到2013年Google提出的Word2Vec模型；Word2Vec模型基于学习词向量，包括连续词袋架构（CBOW）和Skip-gram架构。CBOW的思想是根据单词的上下文来预测目标单词。例如，给定句子“我喜欢吃苹果”，CBOW会根据“我喜欢吃”来预测“苹果”。Tab结构主要预测目标词的上下文。例如，给定单词“apple”，Skip-gram模型将预测“Iliketoeat”。【/br/】

此外，OpenAI首席科学家IlyaSutskever于2014年在Google发表了一篇论文《Sequence-to-SequenceLearningwithNeuralNetworks》，其中首次提出了Seq2Seq模型，而Word2Vec是学习到的词向量。Seq2seque可以将一个序列转换为另一种序列。它不是基于词向量，而是基于序列。Seq2seque通常包括编码器和解码器。编码器负责将输入序列转换为能够表示输入序列语义信息的向量，通常使用循环神经网络（RNN）来实现。【/br/】

解码器负责根据编码器输出的向量生成输出序列，也是由RNN实现的。Seq2Seq模型的训练目标是最大化输出序列与目标序列之间的相似度。通常使用交叉熵损失函数来衡量相似度。这也使得Seq2Seq模型广泛应用于机器翻译、语音识别、文本摘要、问答系统等任务中，从传统的NLP任务发展到Seq2Seq。可以说它改进了很多，包括很多经典的模型架构，并且持续推动着NLP的发展。时间已经到了2016年，整个NLP领域最重要的论文来了。——关注就是你所需要的一切！【/br/】

由于篇幅限制，本文只能暂时介绍到这里来讨论GPT的诞生过程。作者预计会在10篇左右的文章中慢慢介绍。以上近三千字就是作者反复凝练精简的NLP-GPT发展史。很多人选择直接从2016年甚至23年版本的GPT-3.5-Trubo开始，但如果没有NLP领域的发展，GPT也不会凭空诞生。如果你想了解Bert、GPT以及目前流行的MoE架构，以上内容也是必不可少的。下一篇要介绍的Transformer，也是整个GPT时代的开始。

【/br/】