三分钟看懂ChatGPT--688IT编程网

技术•是什么

ChatGPT 是一个基于语言模型GPT-3.5 的聊天机器人，ChatGPT模型是Instruct GPT的姊妹模型（sibling model），使用强化学习和人类反馈来更好地使语言模型与人类指令保持一致。

•GPT起源Generative Pre-Trained Transformer (GPT) 是一系列基于Transformer 的深度学习语言模型。OpenAI于2018 年6 月在题为《Improving Language Understanding by Generative Pre-Training》的论文中提出了第一个GPT 模型GPT-1。从这篇论文中得出的关键结论是，Transformer 架构与无监督预训练的结合产生了

可喜的结果。GPT-1 以无监督预训练+有监督微调的方式——针对特定任务进行训练——以实现“强大的自然语言理解”。2019 年2 月，OpenAI发表了第二篇论文“Language Models are Unsupervised Multitask Learners”，其中介

绍了由GPT-1演变的GPT-2。尽管GPT-2 大了一个数量级，但它们在其他方面非常相似。两者之间只有一个区别：GPT-2 可以完成多任务处理。OpenAI成功地证明了半监督语言模型可以在“无需特定任务训练”的情况下，在多项任务上表现出。该模型在零样本任务转移设置中取得了显著效果。随后，2020年5月，OpenAI发表《Language Models are Few-Shot Learners》，呈现GPT-3。GPT-3 比GPT-2 大100 倍，它拥有1750 亿个参数。然而，它与其他GPT 并没有本质不同，基本原则大体一致。尽管GPT 模型之

间的相似性很高，但GPT-3 的性能仍超出了所有可能的预期。

2022年11月底，围绕ChatGPT机器人，OpenAI进行了两次更新。11月29日，OpenAI发布了一个命名为“text-davinci-003”（文本-达芬奇-003”）的新模式。在11月30日发布它的第二个新功能：“对话”模式。它以对话方式进行交互，既能够做到回答问题，也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。

工作原理•概述

使用机器学习算法来分析和理解文本输入的含义，然后根据该输入生成响应。该模型在大量文本数据上进行训练，使其能够学习自然语言的模式和结构。

•细节ChatGPT 模型使用一种称为人类反馈强化学习(RLHF) 的机器学习进行训练，可以模拟对话、回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。为了创建强化学习的奖励模型，OpenAI收集了比较数据，其中包含两个或多个按质量排序的响应模型。为了使生成的文本更容易被人理解，OpenAI招募了人类训练师，在训练过程中，人类训练师扮演了用户和人工智能助手的角。模型在Microsoft Azure的超算设施上进行训练。ChatGPT模型的训练过程与其前身RLHF非常相似：1. 使用有监督的微调训练初始模型：人类训练师之间提供对话，其中一个扮演用户，另一个扮演ChatGPT 中的AI 助手。为了创建强化学习的奖励模型，需要收集比较数据，并使用收集到的数据调整GPT-3.5 模型；量

子位智库

谁出的ChatGPT由OpenAI开发，采用基于GPT-3.5架构的大型语言模型。OpenAI 是一家位于旧金山的研究实验室，成立于2015 年，由其首席执行官Sam Altman、Elon Musk以及风险投资家Peter Thiel等人共同出资10亿美元建立。OpenAI的诞生旨在开发通用人工智能（AGI），并确保其成为一种高度自主、且在大多数具有经济价值的工作上超越人类的系统。而GPT正是OpenAI通过文字模态来探索通用人工智能的一种方式。

•OpenAI研究方向

训练生成模型（Training Generative Models）

从数据中推断算法（algorithms for inferring algorithms from data）强化学习的新方法（new approaches to reinforcement learning）

大致代表了以下三个研究主题：Deep Generative Model 深度生成模型Neural Turing Machine 神经图灵机

Deep Reinforcement Learning 深度强化学习

•OpenAI近况

研究进展2022 年11 月，OpenAI 向公众开放了使用对话进行交互的ChatGPT；2022年9月，OpenAI发布了一个名为Whisper 的神经网络，称其在英语语音识别方面能够接近人类水平的鲁棒性和准确性。Whisper 是一种自动语音识别(ASR) 系统，使用从网络收集的68万小时、多语言和多任务监督数据进行训练；2021年，OpenAI 宣布将通过API 向企业和开发者提供访问其Codex 程序的机会。Codex是一种基于GPT-3的自然语言代码系统，有助于将简单的英语指令转换为十几种流行的编码语言；

2021 年1 月，OpenAI 推出了DALL-E。一年后，他们的最新系统DALL·E 2 生成了更逼真、更准确的图像，分辨率提高了4倍。

投融资OpenAI最近一次融资在2019年，获得微软10亿美元的投资。此外，OpenAI也在进行对外投资，去年推出Start Fund，与合作伙伴（包括微软）一同投资处于早期阶段的专注于能使AI在领域内（如气候变化、医疗、教育等）产生变革性影响的公司。目前，Start Fund已投资4家公司，分别是Descript、Harvey AI、Mem和Speak，它们在大规模重塑创造力、辅助律师工作、提高知识工作者的生产力和教育方面具有巨大潜力。2. 模型会根据提示生成多个输出，训练师将ChatGPT 编写的回复与人类的回答进行比较，并对它们的质量进行排名，以帮助强化机器的类人对话风格。奖励模型将自动执行最后一个训练阶段，使用排名后的数据训练；

3. 在最后一步使用近端策略优化进一步调整，这是OpenAI 广泛使用的强化学习技术。

量子位智库

•

可以与用户交谈并以与主题和情况相关的方式进行响应

•能够响应用户输入并生成类似人类的文本

能做什么量子位智库

•

可以生成多种格式和样式的文本，例如段落、列表和要点

•可以提供时事（实时性较弱）、历史、科学等各种主题的信息

•可以嵌入到广泛的应用程序中，包括聊天机器人和虚拟助手，以对用户查询提供智能的自然语言响应量子位智库

•可以帮助程序员调试代码或给出建议

为什么火据OpenAI 总裁格雷格·布罗克曼称，在五天内，超过一百万人报名参加了ChatGPT测试。

这是第一次，任何人都可以在OpenAI 的网站上轻松地使用聊天机器人，能够满足更多元的用户需求。此外，它的回答与其他聊天机器人相比，有更丰富的细节和更长的篇幅，对于一些学术性问题它甚至可以直接作为考试中开放性问题的答案，或生成一篇小论文。通过与ChatGPT互动，你可以像使用搜索引擎一样使用ChatGPT，有推特网友称“它比谷歌还好用”，比如它能够解释为什么某个笑话更有趣，或就如何解决特定的编程错误提出建议；你可以像使用文本生成器一样使用它，它能够创建大量清晰、合理但略显中规中矩的文本；对于创作者来说，ChatGPT还可以帮助他们突破创作瓶颈，用户可以从中汲取灵感，请求重新措辞、总结或扩展，然后完善到自己的内容中。按照ChatGPT自己的回答，“它是适用于任何任务的工具，智能且快速；从写笑话到写文章，它可以非常灵活。”应用•

问题解答（解释任何事情的作用例如，解释代码块的作用）量子位智库

价值通过允许用户以更像人类的方式与AI 进行交流，ChatGPT 可以帮助使AI 更易于访问和用于更广泛的应用程序。这有助于依赖自然语言处理的任务的效率和准确性，例如语言翻译、文本摘要和信息检索。

此外，通过为AI 提供更直观、更人性化的界面，ChatGPT 可以帮助拉近AI与用户的距离，降低对技术不熟悉的用户的学习成本。总的来说，ChatGPT 旨在通过提高人工智能的可用性和有效性来帮助人类。

•来自ChatGPT自己的回答1.大型语言模型很可能会继续在社会的许多不同领域发挥越来越重要的作用。例如，它们可用于改进客户服务、

语言翻译和内容审核等领域的自然语言处理。它们还可用于生成个性化内容和推荐，例如个性化新闻文章或个性化产品推荐。2.在政治治理方面，大型语言模型可用于帮助自动分析大量文本数据，例如立法或政策文件。这可能有助于提高决策过程的效率和有效性。ChatGPT利弊分析利增强的用户体验ChatGPT能够输出更加类人的回答，概括来讲，类人的表达体现在能够对用户的问题做出质疑；能够撰写看起来逻辑缜密的长篇幅回答（准确度有待提升）；更加温和的回答等。同时，由于ChatGPT具有记忆能力，可实现连续对话，提升了用户在聊天过程中的体验。

弊

成本过高•开发成本GPT到GPT-2 到GPT-3，在算法模型并没有太大改变，但参数量从1.17 亿增加到1750 亿，预训练数据量从5GB 增加到45TB，其中GPT-3 训练一次的费用是460 万美元，总训练成本达1200 万美元。对于想要复刻的公司来讲，开发成本是主要的门槛。•企业使用成本根据OpenAI创始人Sam Altman描述，ChatGPT单轮对话平均费用在0.01-0.2 美元，我们将不得不在某个时候以某种方式将其货币化，计算成本太大。据悉，小冰公司大致计算过使用ChatGPT的成本，按照小冰公司所用框架当前的对话交互量，如果使用ChatGPT 方法每天的成本将高达3亿元，一年成本则超过1000亿元。对于应用侧的企业来讲，在商业化的过程中必须在人工•

写作文本（基础学术文章、文学文本、电影剧本等）•

没有基础学编程好学吗调试和修复（例如，检测并更正任何代码块中的错误）•

语际翻译•

总结文本并检测文本中的关键词•

分类•提出建议

量子位智库

688IT编程网

三分钟看懂ChatGPT

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

三分钟看懂ChatGPT

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式