Click HERE to read the original article in English.
“GPT代表生成预训练Transformer,新的文本生成模型通过海量数据进行预训练。”它们可以针对特定任务进行微调,彻底改变了AI的局面。
引言
探索生成预训练Transformer或GPT
的旅程,是深入神经网络世界的旅程,揭示这些模型如何生成新的文本等。在这些突破的核心是Transformer模型
——一种推动AI从普通自动化工具到革命性力量的神经网络,塑造了机器如何理解和产生类似人类的文本。
Transformers的崛起
由Google
在2017年引入,原始的Transformer最初只是为了改善文本翻译。然而,其影响如今已经爆炸性增长,如今是从语言处理
到图像生成
等各种任务的基础技术,通过诸如DALL·E和Midjourney等工具。
这些Transformer的魔力在于它们的架构,一种精巧的token
、向量和神经层交互,模仿人类般的理解和创造力。
打破Transformer机制
要掌握GPT模型的概念,我们必须通过Transformer框架来追踪数据:
- 标记化:输入数据被分为
tokens
——代表单词、子串或字符的基本单元。例如,文本、声音或图像片段这样的不同媒体输入会被转化成这些基本成分。 - 嵌入:tokens被转化为向量——多维空间中的数值表示。这些向量捕捉固有的语义意义,建立起诸如“国王”和“王后”及“德国”和“意大利”之间的相似性。
- 注意力和情境化:当向量穿过
注意力块
,它们进行“交流”,分享上下文信息以精炼其意义。这在辨别同一词在不同语境中细微含义方面至关重要。 - 预测和迭代:经过最终层,Transformers输出可能后续tokens的概率分布。这促进了连贯且上下文相关文本的生成。
注意力机制
使Transformer稳健的是它们的注意力机制——一形式的tokens间上下文共享,使模型能够评估某些tokens的相对重要性。例如,在“model 'machine' learning”与“'fashion' model”中,‘注意力’保证能清晰解释词“model”。
训练过程
尽管Transformer可能显得神秘,它们的训练是基于实际数据——大量的tokens和结果——调整一个权重
矩阵,推动文本生成的学习与精炼。这些模型依赖于广泛的数据集,以理解不同上下文。
多层感知器
的角色
注意力块之外,另有多层感知器,向每个向量提出大量“问题”或神经查询,令其精炼而不需相互交流,允许独立转变。
应用与未来前景
GPT及其Transformer兄弟姐妹已涉足多模态
领域。它们管理音视频数据综合,开辟了从合成语音
转换到上下文丰富的聊天机器人和创新新兴AI工具的多样化应用。
创意工具的扩展
这些技术赋予创意过程新能力——艺术家构想的想法现在可以用AI以视觉呈现,或攻克挑战性任务,如Midjourney和DALL·E的进步所见。这些工具将‘AI辅助创意’的科幻场景变为现实,应用远不止文本。
理解Softmax
概率
在这些过程结束时,Transformers使用softmax函数
将任意评分转为规范化的概率集,强调在预测中选择合适下文词的重要性。
通过调整此softmax公式内的温度设置,Transformers允许在响应中实现动态创造力——平衡可预测性与原创性。
结论
Transformers体现了机器学习的范式转变,是现代AI繁荣的基石,将重新定义机器与人类互动的范式。随着这些技术的快速发展,它们有重新塑造行业、重定义创意过程、拓宽机器学习应用领域到现有局限以外的巨大潜力。
加入不断扩展的冒险,这项几十年前种下的技术如今成为在机器中养成人类般理解力的先锋,引领我们进入一个AI不仅仅是人工,而是真正智能的世界。
Midjourney prompt for the cover image: An abstract illustration of a neural network transformer in action, with data flowing through colorful vector pathways, showcasing concepts of tokens and attention, rendered in Sketch Cartoon Style, evoking a sense of innovation and complexity.
TOKENS, GPT, MACHINE LEARNING, ATTENTION MECHANISM, NEURAL NETWORKS, TRANSFORMERS, AI人工智能, YOUTUBE, 文本生成, SOFTMAX, 创意应用, 神经网络, TRANSFORMER