我想,最近许多朋友的生活中,可能或多或少都被 ChatGPT 刷屏了。
你或许已经看过了许多相关的文章。它们或许从商业角度出发,告诉你 ChatGPT 引发了怎样的商业浪潮;或许从技术角度出发,告诉你 ChatGPT 的原理和技术有多厉害;又或者,直接向你推销各种各样的类似产品,告诉你这些产品多么有前途……
但这些,离我们的生活都有些遥远。你可能看了很多文章,依然没有搞明白,ChatGPT 究竟是什么,它跟我有什么关系?
因此,今天,我想简单聊聊这个话题。
如果你对 ChatGPT 从未听闻,那希望能告诉你一些新信息;如果你对此感兴趣但不熟悉,那希望能为你提供一点指引。
因为今天的文章较长,所以做了一个简单的大纲:
o1)ChatGPT 是什么?
o2)ChatGPT 能做什么?
o3)ChatGPT 的缺点和问题
o4)ChatGPT 的未来前景
o5)微调:训练你自己的人工智能
o6)ChatGPT 会替代什么岗位?
o7)结语
ChatGPT 是什么?
ChatGPT 实际上不是一个新事物。它是2022年11月推出的,刚推出的时候我就使用了,还在知乎发了一条想法吐槽了一下。
没想到,时隔两个月之后,随着微软及一票商业公司的入场,它又开始火了,火得家喻户晓。
那么,ChatGPT 究竟是什么?
从原理上来讲,ChatGPT 其实也不是新事物,它背后的基础,是母公司 OpenAI 在几年前发布的自然语言模型 GPT。对人工智能有所了解的朋友一定知道,OpenAI 于 2018 年发布了 GPT-1,首次让人工智能能够让人类一样「理解文字」、写出文字。
随后几年里,OpenAI 陆续推出了 GPT-2、GPT-3,用更庞大的参数实现了更精细的学习。通俗来说,就是让人工智能更「像人」了。
目前 GPT-3 已经用在了很多场合。像国外已经有用 GPT-3 来写新闻的应用,至于用 GPT-3 写小说、生成游戏台词、生成代码,也都在探索中了。
而 ChatGPT,就是在 GPT-3 的升级版 GPT-3.5 的基础上,进行一定的包装、微调、优化,所做出来的产品。过往的 GPT-3 只是一个底层引擎,必须接入到一个软件中才能使用。而 ChatGPT,可以理解为 OpenAI 自己为 GPT 做了这么一个软件,让用户可以直接使用它。
所以它才叫 ChatGPT,也就是「可以聊天的 GPT」。
那么,GPT 又是什么呢?它的全称是 Generative Pre-trained Transformer,生成式预训练转换器。简单来说,它的原理是:先给它提供一个庞大的语料库(通常是直接从互联网上抓来的),让模型通过上千亿个参数对这些文本进行打散、标记、学习,构建起一个复杂的预测模型。
然后再依据这个预测模型,判断一个单词在这个情境下应该接哪一个单词。就这样一个一个单词串起来,形成一段话,或者一篇文章。
这种预测的模式,其实跟我们大脑的学习和加工模式是非常相似的(详见《打开心智》第一章)。因此,这也是它能够更「像人」的一个重要原因。
我们可以用三层模型来理解:
∙这个模型背后无需人工参与的「无监督」式预训练自学习原理,或者说让模型像大脑「自由生长」的过程,就是它的动力层;
∙借由这个原理所完成的 GPT-3.5,就是一个结构层,是 ChatGPT 起作用的主要基础;
∙而对这个 GPT-3.5 进行包装、优化所形成的 ChatGPT,就是一个交互层,它的本质就是加了一层更友好的用户界面和交互方式,让个人用户能够更容易地应用它。
ChatGPT 能做什么?
了解完 ChatGPT 的原理,我们自然会关心一个问题:就目前而言,ChatGPT 究竟能做什么?
1)回答问题。
这可能是 ChatGPT 最简单的应用。你在聊天界面里向它提问,比如「波粒二象性是什么意思」,它就会用流畅的语言向你解释,把这个概念讲解得非常清楚。就我试用的体验而言,效果非常好,简洁晓畅,表达能力胜过许多人。
2)撰写文章。
你可以向它提要求,让它按照你的要求撰写一篇文章。这是我去年做的一个实例,大家可以
看看:
质量还是挺像模像样的。
在这个基础上,可以有非常多针对性的应用。比如:
你可以让它撰写一封邮件,告诉客户你的报价,并且用礼貌、恳切的语言去表述。它写出来的作品保证用词精确,句子流畅 ,比一般人写的要好;
chatgpt在哪里你可以给它一个主题,再给一些背景和指引,让它撰写一份策划方案,甚至让它帮你想创意、提供各种不同方向的点子和灵感。这可以帮你节省大量时间精力;
你可以给它一些数据,让它根据这些材料撰写一份报告。它会非常智能地组合这些材料,生成一份文质兼美、结构清晰的报告,省去你斟酌文字的大量功夫;
你可以给它一个选题,让它生成大量内容、风格和行文都截然不同的文章,发布在各个平台上。据说已经有一些营销号开始这么干了;
你甚至可以让它按照老师的要求写一篇论文。实际上,国外已经有许多学生开始用 ChatGPT 完成作业了,也开始有大学教授跟 ChatGPT 「斗智斗勇」,比如要求学生现场写作,要求学生解释每段话的意思,等等。
所以有一个笑话是这样的:老师对 ChatGPT 说:请帮我想一个题目;学生对 ChatGPT 说:请按照这个题目帮我写一篇文章;助教对 ChatGPT 说:请帮我给这些文章写评语并打分。
3)总结提炼。
ChatGPT 还有一个非常强的能力,就是对输入的材料进行总结提炼。比如:你可以给它输入一篇文章,让它概括文章大意;或者给它输入一段讨论,让它总结主要观点和论证。
现在也已经出现了一些产品,利用 ChatGPT 背后的 GPT 构建,能够实现这样的效果:你输入一个视频、一个播客,AI帮你收听,听完用简洁的语言总结出视频或播客的要点,呈现给你。
4)生成代码。
许多程序员朋友盛赞 ChatGPT 的一点,在于它的代码能力非常强。你提一个要求,比如「如何实现XXXX效果」,ChatGPT 会告诉你几种可行的方案,并提供这些方案的主要函数和算法;你向它提问,比如「在XXXX情况下出现了一个bug,为什么」,ChatGPT 会告诉
你几种可能的原因,并告诉你如何处理每一种可能性。
我自己试了一下,我觉得它写代码的能力比我强多了,大概有100倍吧。
之所以 ChatGPT 能够掀起这么大的热潮,一大原因是因为它太「像人」了。你会感觉,跟你对话的似乎不是一台机器,而是一个非常聪明,几乎无所不知、无所不能,并且能满足你任何要求的人。这一点,令许多人欲罢不能。
这表现在几个地方:
1)每一次跟 ChatGPT 聊天时,只要你不关闭窗口,你说的每一句话都会成为它的「上下文」。
换言之,你可以像跟真人对话一样,不断问它「然后呢?」「还有吗?」,或者表达你的态度,它会给出像真人一样的回应,无需你不断重复、补充、完善问题。
举个例子:你抛出一个话题,它回答,你对它的回答里有个地方不太满意,可以直接指出来,它会道歉,然后给出一个更好的、满足你要求的回答。这个过程非常自然、流畅,你就像在跟一个真人对话,它能完全理解你的每一句话,并给出合乎逻辑的回应。
2)得益于海量的训练参数(GPT-3 有 1750 亿个参数),ChatGPT 的文字生成能力非常精细,质量极佳。
它写的文章,表达能力甚至强于许多不擅长写作的普通人。我有时向它提几个问题,它给出的回答会让我感到「有启发」,或者是一个新的角度,或者是一个完善的框架,这已经非常有价值了。
ChatGPT 的缺点和问题
但是,ChatGPT 也并非绝对完美。实际上,就目前而言,ChatGPT 依然存在好几个亟待解决的问题。
最严重的问题,就是 ChatGPT 的错误率实在是太高了。举一个简单的例子,这是我去年用 ChatGPT 测出来的实例:
为了模仿一个外行人,我刻意把问题写得不太准确,可以看到,答案非常离谱。这可能跟 ChatGPT 的训练语料库主要是英文材料有关。用英语提问的话,答案的正确率会提升,但依然会出错。
并且,ChatGPT 往往会用非常自信、言之凿凿的语气来回答问题。这就导致了,如果你是一个外行人,很多时候你可能压根没办法分辨它给出答案的准确性。哪怕是内行,对于一些较为琐碎的细节,也很难去验证。
去年 ChatGPT 刚发布时,知名的程序开发交流论坛 Stack Overflow 就很快将其封禁。官方的解释是:这是因为 ChatGPT 给出的答案经常有错误,但我们很难看出错误在哪里。
从我的角度来说,如果一款人工智能工具,100次回答里面有3-5次是错误的,那我可能就不会用它。因为我很难判断它会不会某一次突然犯一个大错误,给我造成严重损失。
实际上,我可能希望等它的错误率达到千分之一以下时才会去使用。但就目前来看,可能还需要很长一段时间,才能达到这个水平。
另一个问题是道德伦理问题。
ChatGPT 是一个人工智能程序,它只会忠实地按照内在的预测模型回答问题。因此,如果你向它进行诱导性提问,那可能会得到一些偏离道德伦理的答案。这可能会引起不必要的负面反应。
尽管官方已经在不断修复漏洞了,但毕竟防不胜防。再者,你修复得越多,也就意味着这个工具能够发挥作用的场景越少。这可能是一个需要考虑的平衡。
最后一个非常重要的问题,是摄入信息的水准问题。
ChatGPT 不能凭空生成信息,它所有的知识,都只能来自于它被喂养的语料。那么,显而
易见,它所能够提供的答案,能够输出的内容,也不会超过这些语料的平均水平。你不可能指望它摄入一大堆插科打诨的帖子,要求它写出《三体》。
而由于互联网上存在大量的劣质信息,这就导致了:ChatGPT 摄入的信息越多,它整体的水平可能也就越低下。
遗憾的是,我们至今还没有一套可靠的方法,能够客观地判断内容质量的优劣。高引用的论文也可能是错的,名气颇大的学者也可能是灌水出来的,关注者颇多的 KOL 也可能是营销号。
而如果依赖于用户的点赞或转发等数据去判断内容质量,常识和经验告诉我们:这样带来的势必是大量、吸引眼球的劣质内容,只会更严重地污染这个池子。
并且,随着大量工具和服务开始使用 ChatGPT 等工具,大量由人工智能生成的文章会充斥互联网。这就会造成「自产自销」。一旦人工智能只能喂养由其他人工智能产出的语料,它的水准就将会遭遇一面难以打破的障壁。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论