返回首页
2023.12.24 03:32 约 51 分钟 全球动态商业洞察AI

如何将ChatGPT用作学习的副驾驶

Nathan Labenz通过人工智能节省时间,消除繁琐工作,并卸载任务

我与AI视频创作工具Waymark的创始人、认知革命播客的主持人以及GPT-4红队成员(OpenAI选中的测试新ChatGPT模型的人之一)Nathan Labenz进行了深入讨论。在X、YouTube或Spotify上观看,或在Apple Podcasts上收听。

有时候,ChatGPT是你的副驾驶,坐在你旁边,接受指令,并在你工作时引导你。而在其他时候,它是完全不同的——一种下级。它不仅仅是一个助手或伴侣,而是一个值得信赖的副手,你可以花一点时间向它解释你想要的具体内容,然后它会为你处理。

这就是本周播客中的嘉宾Nathan Labenz对ChatGPT在我们工作生活中所扮演的双重角色的看法。在这一集中,Labenz是AI视频公司Waymark的创始人,也是他自己的播客节目《认知革命》的主持人,该节目也将播出这次对话的版本。他使用ChatGPT来编写他不熟悉的语言中的复杂代码。在向我解释他的过程时,他说他能够在两到三个小时内完成一个项目,而不是两到三天。

当ChatGPT只是充当副驾驶时,我们能够节省很多时间。但当我们能够将任务委托给它时,我们离AI的最终承诺更近了一步:就像机器在工业革命中取代了肌肉一样,AI将有一天取代脑力。这并不是说,有了AI在我们的指尖,我们一定会变得懒惰,但如果AI能处理一些日常工作的枯燥乏味,也许我们可以找到更多时间从事更有创造力、思考性的工作,敢于说,更人性化的工作。

这是我们讨论的一小部分内容。请继续阅读,底部有更多我的分析。

  • 委派和共同驾驶。我们讨论了人工智能现在和未来可以帮助我们的各种方式。纳森认为,仍然缺少的是共同驾驶和委派任务之间的中间地带。他称之为临时委派。“理想情况下,我希望能够即时将更多和更大的子任务委派给人工智能,”他告诉我。“但我们还没有完全达到那个阶段。”
  • 建立一个提示教练。Nathan正在为他的一个项目建立一个程序,以帮助培训人类助手直接与人工智能合作。进入提示教练,这是一个指导LLM驱动的聊天机器人高效使用的工具。他说:“我们仍然看到助手有时需要指导如何有效地提示语言模型”,然后他向我们展示了他是如何构建他的应用程序的。
  • 保留指示。人工智能与人类互动的一个陷阱是,有时我们作为人类过于具体,Nathan说。这种精确性可能会阻碍ChatGPT所需的分析。什么更好?Nathan解释了他的三A方法:“始终先分析再回答。”
  • 减轻工作的繁琐。有时候,Nathan知道自己想要什么,但并不知道如何去做。这就是ChatGPT的用武之地。他向聊天机器人解释自己的需求,聊天机器人会实时指导他如何去做。他说这让他从沮丧和繁琐中“解放”出来。
  • AI的知识时间范围。我们讨论ChatGPT默认设置的好处和不足,它作为一个无上下文的代理,在每个聊天会话中都从零开始。我分享了我对自定义指令的偏好,Nathan提供了一些缺乏上下文时更可取的例子。
  • 购买二手车。虽然我们主要讨论ChatGPT,但Nathan介绍了他更喜欢的工具Perplexity,他发现在寻找事实问题的答案时比ChatGPT更可靠。他说,可以将其视为接近但不完美的Google搜索替代品。通过这个助手,Nathan向我们展示了他在人类所知最令人畏惧的任务之一上的过程:在互联网上购买二手车。

 时间戳:

  1.  简介 1:03
  2. 副驾驶模式和委托模式 1:46
  3. ChatGPT用于编码 8:53
  4. 建立一个“即时教练” 12:21
  5. 与ChatGPT交流的最佳实践24:32
  6. 你和AI之间的“舞蹈” 38:47
  7. AI了解你40:41
  8. ChatGPT作为一个“思维伙伴”45:17
  9. 使用Perplexity AI而不是搜索引擎 56:27
  10. AI的未来是什么?1:05:00

你使用ChatGPT做什么?你发现了哪些有趣或令人惊讶的用例?我们想听听你的想法,甚至可能会采访你。在这里回复与我交谈!

错过了一集?赶紧看看我最近与Notion工程师Linus Lee、作家Nat Eliason和Gumroad CEO Sahil Lavingia的对话,了解他们如何使用ChatGPT。

我对这个节目和剧集的观点以及剧集的文字记录如下,仅供付费订阅者阅读。

AI在人工智能领域最大的争议之一是关于像ChatGPT这样的工具是否能够并且应该增强或取代人类思维。我认为这一情节是一个非常有趣的例子,展示了当今人工智能是一个强大的增强者的方式 – 人类和人工智能共同合作可以实现双方无法独自实现的事情。

在这一集中,Nathan向我展示了他如何利用ChatGPT帮助他为一家他一直在提供咨询的公司构建一个Web应用程序。通过与ChatGPT合作,他能够在几个小时内构建一个通常需要几天才能完成的应用程序。而且,他和ChatGPT在这个过程中都扮演了重要的角色。

他的工作是向ChatGPT提供关于他正在构建的内容、他想要的内容以及什么有效和什么无效的背景信息。ChatGPT的工作是教他关于他不熟悉的编程语言和概念,为他输出代码片段以供构建,并在遇到问题时帮助他解决困难。

他们一起跳了一支舞,相互填补彼此的空白,直到最终的项目完成。我认为这是一种美妙的方式,来理解如何在我们的生活中使用ChatGPT – 希望你也同意。

 成绩单

 内森·拉本茨(00:00:01)

这可能花了我两到三个小时。它写了所有的代码。因为再说一遍,我从未在生活中写过一行React代码。所以一点一点地,我们在完善这个体验。我们在找到界面。我猜在ChatGPT之前的时代,这个过程很可能会花费我更长的时间。

如果这需要两到三个小时,那么弄清楚所有这些东西可能需要两到三天的工作。

丹尼尔·希珀(00:00:39)

Nathan,欢迎来到节目。

 内森·拉本茨(00:00:42)

谢谢,丹。很高兴来到这里。我对此感到兴奋。

丹尼尔·希珀(00:00:43)

我也很兴奋。对于不了解的人来说,你是Waymark的创始人。你是出色播客《认知革命》的主持人,也是GPT-4红队成员。所以在GPT-4发布之前,你负责或者是团队中的一员,试图找出如何让GPT-4做坏事情,你在推特上发表了一系列非常有趣的推文,大概是一周或两周前,类似这样的时间。

所以我们非常高兴能有你的加入。我认为你会有很多见解,我很期待与大家分享。在思考你的工作时,我觉得你特别强调了认知革命,以及你主持的那个播客。我认为你有这样一个想法,即人工智能的价值之一在于帮助我们减轻认知负担。

所以就像在工业革命中,我们通过机器减轻了人们的体力劳动一样,人工智能将会增强或减轻人类的许多认知劳动。我希望你能谈谈这个问题。告诉我更多关于这意味着什么的信息。然后告诉我,这是一件好事吗?在哪些方面是好事?

内森·拉本茨(00:01:46)

嗯,这是一个很大的问题。我会说……我谈论的是人工智能在工作中以及在几种不同模式下帮助我们。首先,我们今天可能会花大部分时间处于我所称的副驾驶模式。也就是说,你作为一个人类,过着你的生活,进行你的工作,并在遇到情况时意识到,尤其是当你逐渐习惯时,哦,人工智能可以在这里帮助我。

所以你在实时中做出有意识的决定,转而与人工智能进行交互,无论是一秒钟还是一分钟,以获取你所需的帮助,然后继续进行,但你是主导者,对吗?在这种情况下,你会四处走动,追求你的目标。相比之下,我认为另一种模式也非常有趣,那就是委托模式,你真正地将任务转交给他人。

我总是说委派模式的目标是使输出足够一致,以至于您不必审查每个输出。如果您能够达到这个目标,那么您就可以真正开始将工作转移到人工智能上。这样您就不再需要自己去做了。这在不同的方面都是有用的,对吧?

副驾驶模式是为了帮助你变得更好。这是经典的共生或智能增强。而委托模式更像是,我们可以节省大量时间和金钱,解决过去让我们头疼的问题,或者扩展目前无法扩展的事物。世界上有很多这样的情况,对吧?

我认为几乎每个人都有这样的事情,如果你只是问一个问题,你会说,有没有一些事情你本可以做,但是你没有时间去做。这些事情很多时候都能产生很大的变革。在中间,目前还缺少的是在副驾驶模式和委托模式之间的即兴委托,也就是说,我在进行某项任务,但理想情况下,我希望能够即时将更多和更大的子任务委托给人工智能。但我们还没有完全达到这个目标。代理人可能无法完成重要任务。因此,你仍然只能在两种情况下与它进行实时互动并获得帮助,或者经过设置、验证和工作流程的过程,才能真正进行委托。我认为,在未来一年内,这种中间状态可能会被填补,代理人将开始工作,我们可以开始即时委托更多的工作任务。

下一个问题是,它好吗?我不知道是否有一个很好的答案。我认为它在很大程度上是好的。我认为只要人类保持对整体动态的控制,它就是好的。我绝对是那种认为未来一切都有可能的人,无论是积极的一面,我认为想象一个后稀缺世界并不是疯狂的,还是消极的一面,引用Sam Altman的话,我不会排除我们所有人都会灭亡的可能性。我认为我们在这里确实在玩弄一种具有完全转变潜力的力量,无论是好的还是坏的,可能是一种综合的方式。

我对自己能够更加高效地工作感到非常兴奋,这是我们将会详细讨论的一些内容。我对能够无限地获取专业知识的前景感到兴奋,尤其是对那些比我条件更差的人能够获得这种专业知识的机会感到兴奋。我是一个相当有特权的人,可以毫不犹豫地去看医生,不用担心请假会带来什么后果或者会花费多少钱。

显然,很多人没有那种奢侈条件。我认为人工智能在很大程度上可以填补这些差距,虽然还不完全,但已经有了显著的进展。而且随着时间的推移,会越来越多。我认为这种事情可能会带来潜在的颠覆性。它可能成为很多政治辩论和挑战的源头,但无论如何,它有很多好处,但我认为也存在非常真实的风险。同时保持这两种观点非常容易,既对能力感到兴奋,又时刻保持一种健康的恐惧。

丹尼尔·希珀(00:06:20)

我喜欢那个。我认为这是一种罕见的观点,作为人类,我们往往只会倒向一方,要么是可怕的,要么是伟大的。然后我们就会分成不同的阵营。我认为,显然,明智的观点是,这方面会有一些非常了不起的东西,但也存在危险,比如当技术改变社会时,它会改变我们的大脑。我们将以与它适应的方式来适应这一点,这将改变事物,我们需要应对它带来的危险。

我认为这是一个非常明智的观点。我问了这个问题,认为认知工作被卸载是一件好事吗?因为我认为有好有坏,但我觉得恐惧的情景对很多人来说是相当主导的,而且我认为那些反对恐惧或者提出希望的人有点太过于乐观。我认为找到真正的方法和真实的应用场景,展示卸载一些认知工作如何实际帮助人们,是创造一个人工智能成为善良力量或创造力的世界的一个非常重要的部分,而不是一个取代人类、带来危险或者其他所有不好情景的世界。

AI揭示给我一个感受,即使在高价值、高创造力的知识工作中,也存在着很多枯燥乏味的工作。我们常常对这些工作的枯燥程度有所掩饰,因为相比于在工厂工作或其他任何工作,这些工作更具浪漫色彩。很容易看到一个律师,然后说,嗯,律师的工作充满了枯燥乏味。但我写作,经营一家公司,有一个YouTube节目,现在还有一个播客。有很多事情只是纯粹的苦差事。

我觉得这非常有趣,因为使用人工智能工具更广泛地让我意识到,在互联网上写一些聪明的东西时,我需要做多少重复或者整体上有点愚蠢的事情。一旦它可见,我就会使用人工智能来处理,然后我就不再需要那么多思考了。我认为这是一件非常酷的事情。

内森·拉本茨(00:08:53)

完全正确。对我来说,当你谈到高价值和相当特权的工作时,编码是我首先想到的。但我不是一个全职的编码人员,在生活中只有几个短暂的时期是这样,更多时候我是一个时而涉足其中的人,而且不得不通过谷歌来查找一切真是让人痛苦。显然,不同的人有不同的优势和劣势。我不太记得语法。有时候,如果有一段时间没有接触,我会想,等一下,我是在记JavaScript还是Python?到底发生了什么?所以,对我来说,能够让这个工具为我输入甚至相对简单的东西,通常可以提高多倍的速度,不仅在提高生产力方面,而且在严格的质量方面也有所提高,与我自己所做的相比,更容易进入工作状态。

有这样一种——我甚至不会称之为苦差事——但它正在酝酿中… 人们在观鸟时谈论这个,把眼睛放在上面:真正专注于你看到的东西,并试图调整那个探测器。对我来说,在进入代码模式时也有类似的感觉。

而且这也大大简化了流程,因为接下来它就会写代码,而我只需要阅读代码,阅读代码比写代码要容易得多。所以我发现,看到这些东西以超人的速度为我输出,质量比我更好,也许不是超人的质量,但是是超级的Nathan质量,这让我感到非常满意和愉快。太棒了。

丹尼尔·希珀(00:10:35)

你让我想到的是…因为我认为在很大程度上,尽管不是全部,但目前的文本模型,特别是各种形式的总结。在创造性工作中,无论是编程、写作还是决策,都涉及到多少总结。在编程中,你总结了在谷歌上找到的内容。你必须决定要总结什么,并以适合你特定用例的准确方式进行总结。但这很多时候就是你所做的事情。写作也是一样。我文章中的很多内容都是我读过的书籍、我进行过的对话或我在其他地方找到的想法的总结,我以一种独特的方式将它们串联在一起。

显然,我仍然需要完成整体管理任务,决定将摘要放在哪个顺序中,以及它们的工作方式或其他方面,但其中很大一部分是摘要。我认为这是一种使用这些工具,让你开始以稍微不同的方式看待世界的方式。你会想,哦,是的,有一整类我正在做的摘要工作,我不再需要做了。我真的觉得这很酷。

内森·拉本茨(00:11:47)

在重新利用内容方面,我可能没有像应该那样广泛采用人工智能。我希望能够更好地利用播客的内容,因为我发布了很多集,其中有很多有价值的内容。我们确实在工作流程中使用人工智能,例如创建不同时间段内讨论主题的时间戳大纲。这是最经典的总结方式,我不需要太多的评论。只需要准确记录每个时间点的主题。所以我们经常使用类似的工具。但是我可能没有做得足够多,或者应该做得更多——也许这将成为新年的决心——将这一切带到所有不同的平台上。

我认为这部分是个人的怪癖,也是当前语言模型的局限性,我从来没有完全觉得它们能像我一样写作。我非常想听听你在写作过程中如何与之相关的想法。

当我以自己的名义发布某些东西时,基本上我根本不使用chatGPT。我发现,如果我想要做时间戳大纲或者创建一个快速摘要,可以使用它来表达节目的声音,这是一种中立的声音,不是以我的名字签署,也不代表我的观点,但我还没有找到一个很好的综合方法来帮助我用自己的声音和名字表达想要说的东西。

所以如果你对此有什么建议,那将是我希望能得到更好攻略的东西,因为我还没有完全掌握。

丹尼尔·希珀(00:13:29)

我是的。我绝对是的。我喜欢它。我认为这又回到了当你谈论成为副驾驶时,我认为失败的模式通常是在委派模式下使用它时——就是去完成整个任务。那时它并不真正起作用,但作为副驾驶,它在写作中的特定微任务中确实非常有效。所以,第一个例子,就像我刚才提到的,一切都是一个摘要。我经常需要解释一个观点。几个月前,我写了一篇文章,我需要解释一个观点,我知道这个观点是关于SBF和FTX的崩溃以及功利主义和有效利他主义是否对崩溃有所贡献的。

为了写那篇文章,我不得不总结功利主义的主要原则。我在大学学习哲学,读了很多彼得·辛格的作品,对此有一定了解,但我已经有一段时间没有写过相关内容了。通常情况下,我需要花三个小时回顾所有不同的内容,才能形成我需要的三到四句总结,但我只是问了ChatGPT,它就给了我在我需要的背景下的总结,大致符合我的需求,我没有完全采用它,而是用它作为基础进行修改,以符合我的风格。所以这只是一个非常简单的例子,但我认为你可以在写作过程的各个不同阶段使用它,从一开始,我经常在散步时录下自己的声音,随意表达思想和随机的想法,然后将其转录、总结并提取出主要内容,这将帮助我找到一些小文章的创作点子。

当我有一个文章的想法时,我通常会从一个非常凌乱的文件开始,里面充满了引用、句子和可能用于文章的小细节,然后我会想,我甚至不知道从哪里开始。这太疯狂了。然后我会说,你能把这个整理成大纲吗?然后我会把整个文件粘贴到ChatGPT中,它通常会找到一个大纲。

而且,就像它所提出的轮廓一样,它们非常基本,但有时候…我认为它真正擅长的一件事就是指出那些因为你太过接近问题而忽略的显而易见的解决方案。

哦,当然。就像这篇文章的大纲一样,先提出问题,然后讨论你提出的问题的解决方案,或者其他什么,这是一种常见的文章格式。但是如果你对此过于纠结,过于珍视,可能很难接受这样的事实,即这篇特殊的文章实际上只是你以前写过一千次的基本内容,具有相同的基本结构。

然后我觉得其中一个非常好的事情是,它非常有助于帮助你弄清楚你想要表达的内容,用言辞表达你的意图,然后通过不同的选项来表达你想要表达的内容,直到找到完全符合你意图的东西,例如,试图找到恰到好处的隐喻。

好的。你想找什么样的隐喻?你想要表达的是什么意思?这里有50种不同的方式来用隐喻表达,其中49种是垃圾,而其中一种将是令人惊叹的,或者会引导你朝着你最终想到的那个隐喻的方向前进。

我有无数个例子。所以我发现ChatGPT无处不在我的写作中,但我发布的作品中没有一篇是完全来自ChatGPT的。它就像一直在为我做一些微任务。

内森·拉本兹(00:17:02)

是的,那很有趣。你提到的一些方法,我在某些情况下也有一些成功:在散步时与它交谈在某些情况下确实很有帮助。我尝试过几次起草信件,并像你说的那样,通过口头表达来进行。我想说的是这样的。我写信给这个人。这是一些背景信息。这是我想要传达的关键点。你能起草一下,然后通过口头反复修改,很多时候我会跟进并给出非常详细的反馈。应用程序中的转录非常好。再次强调,它非常了解我。所以我可以直接滚动它的第一稿,并说,在第一段我不想这样说,更像是这样,在第二段更强调这个,添加这个细节,给它八个要点。但你可能希望它在修订方面做得更好一些。

我有过几次这样的时刻,在那个过程结束时,我会有一些东西,当我回到桌子前,离实际使用的版本并不远。是的,对我来说可能还没有充分利用。老实说,我应该多散步,多离开屏幕,让血液流动起来,使用不同的方式。

微任务,我应该做更多。我认为这是我在这里得到的提示,而且有一种分离……有时候我觉得这会伤害我,如果我没有,甚至现在在Gmail或任何地方都会开始出现这种自动完成……有时候我觉得,我正处于一个真正想要表达的思想的边缘,然后这个自动完成出现了,就像是,那不对,但有时候它会让你偏离轨道,你会想,现在不要替我猜测。让我先把核心思想写下来。

如果你没有那些核心思想,对我来说,要得到任何好的东西都是一场真正的挣扎,但我想我可能在写作过程中没有做足够的实验,好吧,我确实有一些核心思想。你能帮我整理它们,构建它们,对它们进行迭代吗?

有趣的是,我也经常在另一方面使用它。批评一下这个。这是一封电子邮件,这是一个什么东西,这是一个播客的介绍。批评一下这个。如果它的批评通常值得考虑,那将非常有用,至少我会这么说。

丹尼尔·希珀(00:19:29)

它确实擅长这个。在Every,我们有一个编辑——我们有多个高技能的编辑——我仍然使用它来询问,你觉得这个引言怎么样?因为它会在截止日期前的凌晨2点发布。

内森·拉本茨(00:19:41)

很难击败可用性。对此,响应速度明显超乎人类能力。

丹尼尔·希珀(00:19:48)

我觉得写作听起来很有趣。如果你准备好了,我很愿意开始深入了解如何实际使用ChatGPT。

你给我发了一份包含一堆历史聊天记录的文档,这是第一条。给我们介绍一下背景。你当时在做什么?在什么时候你意识到,哦,我需要进入ChatGPT,然后从那里开始。

内森·拉本兹(00:20:03)

所以我在一家名为Athena的公司担任AI顾问,这家公司是由我的朋友Jonathan创立的。

丹尼尔·希珀(00:20:18)

这是虚拟助手公司——Thumbtack吗?

内森·拉本茨(00:20:21)

是的。他是Thumbtack的创始人之一,这是一家不同的公司,但是在Thumbtack的经验基础上创立的。他传奇般地建立了一个由菲律宾承包商驱动的非常出色的运营。

这包括为自己和在Thumbtack的角色上雇佣一名助手,这位助手成为他生活中的另一个重要伙伴。然后,Athena的建立实际上是为了尝试将这种魔力扩展到创业者和高管们身上。他们在菲律宾雇佣高管助理,支付高薪。他们非常注重招聘高素质的人才。这个想法是通过赋予他们与助手进行转变性委托的能力,来赋予最有雄心和最有影响力的人们更大的权力。好的。现在我们正在研究“AI对我们意味着什么”,对吧?我们如何将其引入助手的工作中?所以我做的一件事就是训练助手使用AI。这是一次非常有趣的经历,整理内容,提供示例等等。我还做的另一件事就是构建了一些原型演示,展示未来技术可能会是什么样子。

这个聊天工具,我们称之为Athena Chat,基本上是我们自己定制的内部ChatGPT。它是基于一个开源项目构建的,所以我不需要编写每一行代码。但是,只要有一点点专业知识,你就会惊讶地发现今天你可以很快地构建出这样的东西。所以,我和另外一个人一起建立了许多这样的原型。

在这种情况下,我们想要做的是创建一个长期存在的客户档案,可以在各种方式上帮助企业架构师。所以本质上是一个插件,但是,使用插件时我们会遇到一些限制,当我们自己进行实验时。我们希望实现的一个重要目标是向客户档案添加信息,更新已有的信息。希望这个档案可以成为一个中心,随着时间的推移,客户的偏好、历史甚至背景文档都可以逐渐添加进来。这样,助手就可以查询任何他们需要的内容,但同时也应该在理论上随着时间的推移而不断发展,对吗?

所以我们有这个类似ChatGPT的界面。我们注意到的一件事是,尽管我们努力进行教育,但仍然存在问题。我们仍然看到助手有时需要指导如何有效地提示语言模型。这就是我参与这个小项目的动机。

我已经有了这个React应用程序,它只是一个类似ChatGPT的小应用程序。我想要添加一个模块。我想要添加的模块是一个提示教练。所以我想要添加另一个小层,它会查看人类助手在聊天应用程序中输入的内容,并将其发送到自己的提示中,以询问是否应用了所有最佳实践。

你是否告诉AI你希望它扮演什么角色?你希望它做什么工作?你是否指定了你希望得到回复的格式?现在通常我们会默认这样做,但你是否设置了一种方式,让它在给出最终答案之前进行一些思考、思考过程、逐步推理的链式思维。实际上,这是我经常看到人们在使用AI时最常犯的错误之一,他们以一种阻止了现在已经成为默认行为的解释、分析、稍微思考一下再得出最终答案的方式来引导AI的表现。

所以你只是有一些最佳实践-

丹尼尔·希珀(00:24:24)

让我稍微打断一下。人们在做什么事情会阻止模型进行连贯思考和最佳实践,从而使其达到最佳推理?

内森·拉本兹(00:24:32)

任何只是以这样的方式设定它,让它必须立即回答而没有能力解决问题的情况都是不好的。

我经常看到这种情况。这是很常见的。甚至在学术出版物中也经常发生。这往往是多次提示的早期时代的遗留问题。显然,这一切正在迅速改变。但是如果回顾一下,第一个面向公众的指令模型是在2022年1月发布的OpenAI的text-davinci-002。

所以我们已经过去了将近两年,但实际上还不到两年,自从你第一次告诉AI“给我写一首俳句”,它就会尝试为你写一首俳句。那时候,它不一定能准确地把握音节。早期的版本中,你需要说出作者的名字,然后加上冒号,希望它能继续这个模式。

这是经典的提示。现在有了指令,你可以告诉它你想做什么。显然,这方面已经越来越好,但在学术环境中进行基准测试时,这种指令变化之前就已经开发出来了,通常会有“问题,答案,问题,答案,问题,答案,问题”的形式。AI的任务是给出答案。因此,它们通常会根据五个提示或其他方式进行评估。但在人们甚至还没有弄清楚思维链之前,所有这些支撑结构都已经建立起来了。因此,现在如果你将这个确切的结构带到GPT-4,你通常最好只给出一个没有结构的问题,让它详细说明其推理,因为现在它会默认这样做,然后给你一个答案,而不是设置问题,“答案,问题,答案,问题,答案”,它会尊重你所建立的隐含结构,并直接跳到一个答案。

通常这些问题是多项选择题,或者可能是一个数字或其他内容,它会直接给出答案,但与默认行为相比,答案的质量要大大降低。如果你让它自己思考一下的话。我甚至在巴德中也见过这种情况。我希望这个问题现在已经修复了,但不久之前,巴德默认会先给出答案,然后再解释。

再说一遍,这只是一个问题,你会遇到麻烦。有时候人们会不小心这样做。他们会说:“给出一个答案,然后解释你的推理。”你只是在伤害自己,对吧?因为它会为一个错误的答案解释推理。一旦错误答案确立,就会有问题。所以在EA教育中,我的原则是AAA,即“始终先分析再回答”。

丹尼尔·希珀(00:27:14)

我以前从未听说过这个。我喜欢那个。总结一下,我认为你基本上是在说,之前的提示方式鼓励在提示中给出多个问题和答案的示例,然后设置最后一个示例,以便模型下一步能直接回答你。

但是我们随着时间的推移发现,另一个非常有效的做法是,与其让模型直接回答问题或解决问题,不如让模型“大声思考”,通过推理解决问题,就像人类解决文字问题一样。然后在回答的最后给出一个答案,这样可以提高模型的结果质量。

发生的情况是OpenAI和其他模型提供商已经将这种行为更多地作为默认行为,所以它几乎总是会这样做,但是使用之前的提示技术,一些示例提示或多次提示,可能会导致它直接回答,你应该注意并尽量避免这种情况。

内森·拉本茨(00:28:25)

这是一个很好的总结。是的。如果直接跳到答案,那么肯定会在所有任务中留下性能问题,尽管对于一些最简单的任务可能不会有太大影响。

丹尼尔·希珀(00:28:40)

而且顺便说一句,看看多少创造性的工作只是在总结?

内森·拉本茨(00:28:25)

重要。因为我倾向于默认给出一个很长很长的版本。这是我的风格。

 默认行为。

丹尼尔·希珀(00:28:46)

这是我将在某个时候交给我的AI化身处理的微任务之一。好的。那么让我们回到这个问题:你正在开发一个应用程序,想要添加一个模块来解释一些提示技巧。看起来这个应用程序本身不是你从头开始构建的,你正在试图了解情况,以便知道该怎么做。

内森·拉本茨(00:29:05)

没错。是的。问题是,我大致知道如何编码,甚至在JavaScript中也写过很多代码,但React是一个JavaScript框架,它有一套最佳实践的层级结构,如果你了解并能轻松应用它们,那么你就能快速地使用这个框架,对吧?这就是所有这些框架的价值所在,但如果你不了解它们,像我一样完全陌生,那我该去哪里呢?有这么多不同的文件夹和文件结构,我应该去哪里找到我想要做的事情?我应该把新的模块放在哪里?

所以这就是这次聊天的起点。我有一个可用的应用程序。我有这个应用程序的代码,但我以前从未亲自动手处理过React应用程序。所以我只是简单地设置了场景。在我的助手模式工作中,我不会使用太多自定义指令或超级复杂的提示。

在委托模式下,你会遇到更多详细的提示,包括“如果这样,那么那样”的情况,结构化格式等等。但我通常发现对于这种情况,采用一种相当天真的方法是有效的。所以我就直接告诉它:“我正在开发这个React应用项目,我有点迷茫。你能解释一下这个应用的结构吗?”我给它一些更多的信息,它就开始给我提供关于我所看到的内容的教程。然后你会涉及到React,Redux,以及这些额外的Slice JS工具包和Sagas以及这些框架,在某些情况下,它们会变得非常复杂,有整个会议、公司,就像你可能会深入这个兔子洞。而我要修改的这个开源项目,它使用了一堆不一定是标准的但是常见的东西。所以这里有五个我完全不了解的东西。

没有这种教程,我会去搜索,“好的,Saga JS是什么?它到底有什么作用?”它能够让我非常快速地了解整个情况。然后,我认为这是一个非常有趣的时刻,因为我从这样的事情中获得了很多价值,我觉得它在提示我,虽然这里并不完全是这样,但它给了我这个一般的结构。

然后我就像,哦。我发现这是一个普遍的模式。如果你能以它本来展示给你的格式给它一些东西,那可能会很好用。所以有时候,即使我处于委派模式,有时候我会说,我不确定这个结构应该是什么样的,但也许如果我让它建议结构,那么我们就会得到一个它可以自然地很好地处理的结构,在这种情况下,结构是由世界决定的,但众所周知,好吧,这将是你在这个React框架中的项目结构。好的,但这让我想到,我应该给它我的实际结构。我想打印出这个项目的东西,因为我没有制作它。我不知道它是什么。我不想让它帮我解释那个完整的东西。但另一方面,我又想,我怎么打印这样的东西?我甚至不知道怎么做。所以我下一个问题是,“你能给我写一个打印文件结构的命令吗?”这时你可能会说,好吧,这就是魔法,对吧?因为现在我又不知道怎么做了。 这个tree命令,我不知道它是否已经为我安装了,但没关系,它告诉我如何操作。接下来,哦,这里还有一个安装某个需要安装的包的步骤。好的,它帮我处理了这个。所以我遇到了所有这些问题——这就是典型的开发者体验。从概念上讲,我对自己想要做的事情有一个清晰的想法,但是现在我已经陷入了三个层次、三个嵌套的问题中,对吧,我需要理解这个框架。哦,好的,我需要打印出结构以更好地理解我在这个框架中使用的版本。哦,现在我需要安装一些东西,这样我才能进行打印。这就是人们浪费时间的地方,对吧?就像你和程序员交谈一样,你会说,是的,你今天在那上面什么都没做,但是,发生的是我在去市场准备我的应用程序的路上,然后我不得不安装这个东西,然后我无法安装,但是每个这样的事情,都在帮助我克服……现在我终于能够说,好的,这是我的应用程序。这就是我实际正在使用的应用程序。 现在我们真的进入了一些很好的东西,因为它现在可以分解它。而且这些东西的名称非常语义化。

我注意到,我甚至没有在这里给出任何代码。我只是给出了文件名,但文件名中有一种指示,可以从中得出应用程序的实际含义。所以让我们转到,我想我刚刚得到了一个可工作版本的应用程序的链接。

这很简单。这是一个类似ChatGPT的环境,我们可以创建这些客户端配置文件。我们有我们的聊天记录,有我们的历史记录,几个不同的模型,背后有函数调用将聊天体验与客户端配置文件连接起来。我正在尝试添加的是一个模块在右下角,我实际上不确定这个版本是否有,但它的目的是通过我们讨论过的元提示将我的提示运行一遍,然后显示反馈警告,告诉你可能或可能没有做得很正确。所以回到我给他们提供文件结构的事情,现在它能够理解文件结构。现在我在说,好的,这就是我想做的。我试图创建这个提示教练。我忘记了我当时是如何处理的。是的,这是一个不同的文件。让我看看我在这里具体在做什么。

丹尼尔·希珀(00:34:42)

似乎你可能有一些示例代码或者你写的东西或者——

内森·拉本茨(00:34:45)

是的,我做过。我猜我自己试了一次,但没有成功。我看的是人类版本,它和我看的文件结构是一样的,我看到有这个模块,这里有一个侧边栏,因为你看到这些名字,对吧?所以你有一个侧边栏和搜索,还会有聊天记录在这里的某个地方。

我看着这个,我就像,好吧,我看到了所有这些不同的元素和所有这些东西。让我试着复制一个并稍微改动一下,希望能有所进展。但是我一无所获。它没有显示在我想要显示的地方。我看不到它。所以我就在这里说,好吧,现在我试过了。为什么它不起作用呢?我在这里解释了我的问题:我的问题是它显示在错误的地方。

丹尼尔·希珀(00:35:30)

然后它解释了答案。

内森·拉本茨(00:35:32)

是的。接下来,它给我提供了带有代码的指示,修改这个,放到这里。这也很酷。不幸的是,我们不能分享旧的截图。我不知道我当时具体使用了什么,但这正好是在ChatGPT引入视觉功能时。所以,我能够说,这是我的截图。它显示在这里,我希望它显示在这里。你能帮我解决这个问题吗?所以,从截图和HTML结构中,我们基本上就是按部就班地进行工作。

我继续遇到问题。我们只完成了整个过程的25%。这可能花了我大约两到三个小时来获取这些建议,实施它们,看看出了什么问题,等等。它基本上写了所有的代码,因为我从来没有写过一行React代码,所以我对这个语法一无所知。当你完全不知道自己在做什么时,有一百种方法可以做得不太对。所以它正在逐步编写所有的代码。我们正在完善体验。我们正在找到界面。在这里,我们正在创建一些CSS。我们已经内置了一个特定的样式包。所以,这又是我完全不熟悉的另一件事。这是找出如何使用那个样式包的语法。祝你好运,自己摸索吧。然后,经过几个小时,我得到了一个工作模块,其中提示教练会拦截你的呼叫,进行元提示,解析响应,识别-

我对它提出建议以及建议的紧迫性有了了解。因此,我们将这些建议进行颜色编码。如果是严重的,那么你会看到红色。如果不是,你会看到黄色或者只是一个通知。我猜在ChatGPT之前,这个过程会花费我更长的时间。

如果这需要两到三个小时,那么弄清楚所有这些东西可能需要两到三天的工作。而且还会有更多的挫折。因为我不是一个超级耐心的人。感觉好像已经有无数人做过几乎完全相同的事情。我所做的没有什么独特或特别之处。我只是处于不知道自己在做什么的阶段,不断陷入困境,不断跌倒,不断遇到阻力。我真的不喜欢这样。我想大多数人也不喜欢。这一点都不或几乎没有。即使只是回到安装或打印结构的命令,天啊,这太愚蠢了。我清楚地知道我想要什么。我知道它是可行的。我知道它已经在无数次、无数地方完成过,但我不知道如何做。然后解脱我这种挫折感。这就是你所说的枯燥点,对吧?

那大概是我一个人独自完成的时间的80-90%。现在我们只需要两到三个小时,真正关注于定义我想要的东西。如果我真的熟悉React的话,可能只需要一个小时,但这让我学到了一些基础知识,并且相比没有帮助的版本,节省了大概80-90%的时间。

丹尼尔·希珀(00:38:47)

我喜欢这个。我认为这是一个很酷的例子。我真的很感激你带来这个。因为首先,很明显这种事情,如果你不是一个程序员的话——作为一个程序员看到这个,我就觉得,是的,这就是你作为一个程序员所做的很多事情,尤其是如果你是一个从事初创公司工作的程序员,就是这种事情。

就像这样,这是可行的。以前已经实现过。我只需要在我的特定环境中做到这一点。很明显,从头开始完成这个任务可能需要你几天时间,或者任何人几天时间。但是有了ChatGPT,它使得整个过程更快,减少了很多枯燥乏味的工作。但我认为真正酷和美妙的是,在这个对话中发生了一种舞蹈。起初,你显然是在请求它帮助你,但你也在提供它所需要的信息,填补它需要的空白,以便帮助你。它也在为你填补空白。所以它向你解释React,而你解释了我有一个项目,这是我想要完成的具体细节。然后,你们之间就会有来回的交流,互相填补彼此无法单独填补的空白。我觉得这真的很酷,只是看着这个过程演变,一开始你不了解React,不知道在哪里放置你的代码,也不知道为什么它不起作用。

在开始时,它不知道你是谁,也不知道你想要实现什么,以及你的项目的具体细节是什么。但是随着你建立这个对话,你自己开始更加了解事情。你没有要求它为你做这件事,而是问了一个问题:React项目是如何工作的?它的结构是什么?

所以你了解了更多关于React,它也了解了更多关于你。随着你们相互理解的增加,你们都能够一起完成这件事。我觉得这真的很酷。

内森·拉本茨(00:40:41)

是的,太棒了。下一代是分集的。我已经滚动了一半的屏幕,但还没有看完。

我刚刚突出了这个。好的,很酷。这个工作正常,因为我现在开始进行细化。好的。现在我想调整样式。基本上,在这一点上,核心问题已经解决。现在,又要做一些繁琐的工作,确保有填充和居中等等。

我尽可能地对我的AI保持礼貌和鼓励,但你可以想象一个未来,我认为这个未来已经开始在迷雾中变得有些可见,因为越来越多的研究成果被发布出来。在这种情况下,我开始一个新的聊天,它现在对此一无所知,对吗?

我可以继续这个聊天,直到达到一个限制,显然具备超人般的广博背景知识,但没有上下文知识。它无法从一个情节中保留下来,但我认为这也即将到来,而且有几种不同的方式可以塑造它,但我认为在一年内,肯定不会比那更久,我无法想象,我们将开始看到所有这些历史积累或者可能分成不同的线索或其他方式,但这种方式也可以在一个有历史意识的方式下跟随你进入不同的任务,我认为这将是另一个解锁的层次。

丹尼尔·希珀(00:42:12)

我认为你完全正确。这就是自定义指令的意义所在——它是朝着这个方向迈出的一步。不幸的是,设置自定义指令非常困难,但如果你设置好了,效果非常好。它能够了解你的背景真的很好,但我确实认为你是对的。ChatGPT肯定会有一个可以引用这些内容和你所需上下文的记忆。

即使具有相同的智能水平,该模型将使得获取正确答案的速度提高10倍,且更加有用。

内森·拉本茨(00:42:39)

你会在自定义说明中投入多少?因为对于像这样的事情,可能是我的个人资料,我的写作样本,或者其他什么,但我可能不会——顺便说一下,Nathan是一个React新手,他不知道如何安装任何东西。

那么,你有没有关于一种自定义指令的设想或建议,可以帮助我处理这类事情?

丹尼尔·希珀(00:43:01)

你找对人了。我有非常丰富的定制指导经验,并且对此有很多意见。如果你愿意,我可以分享给你。我可以立即与你分享,并且我们可以讨论。

内森·拉本茨(00:43:10)

好的,是的。让我们去看看。

丹尼尔·希珀(00:43:12)

好的。定制指令的第一部分是你希望ChatGPT了解你的哪些信息?实际上,我很喜欢让它了解一些关于我的信息,因为在互联网上有足够多的关于我自己的信息,它知道我的名字。这实际上很有帮助,Every也是一样。在互联网上有足够多关于Every的信息,它知道我的名字。

有时候,不必解释我是谁或者我经营的公司是什么,真的很有用。例如,几周前我在考虑开设一门课程,我正在与ChatGPT合作决定如何进行这门课程等等。第一个提示是:“我想开设一门课程,你能帮我考虑一下吗?”有了自定义指令,它知道我是一名作家和企业家。“好的,我会帮你构建一门课程。以下是考虑的方法。”因为它知道我可能会开设一门课程。但如果我关闭自定义指令,它会说:“好的,你想学习哪门课程?”

这些小事情对我来说真的很重要。但基本上,我在这里拥有一些重要的人际关系。我的姐姐、她的丈夫和她的儿子。我在上面有我的女朋友,人们在那里,每次提到他们的名字时,对我来说更容易,不必每次都解释她是谁,这真的很有帮助。

我认为另一个非常有趣的事情是将自定义指示添加进去,你知道自己有哪些方面需要努力改进?例如,我觉得我害怕拒绝别人,这导致我过于随和。我有点过于机会主义,希望能更加策略性一些。

这样的东西真的很有帮助,可以放在自定义指示中。因为每天都会有这些小小的领悟。你会想:“哇,是的,我确实有点过于机会主义。”我认为ChatGPT非常适合作为你日常生活中的帮助工具,帮助你记住要收敛一些,并融入你和每个人都对自己有的这些见解。

对于目标也是一样的,知道你的目标是什么,并且在使用过程中一直回到这些目标上,这真的很有帮助。

内森·拉本兹(00:45:17)

很酷。好的,谢谢分享。我觉得我更多地用它来处理非常陌生的话题。只是看看我们排队准备的这些例子,嗯,有一个我从未接触过且一无所知的应用程序框架,还有一个正在处理专利申请并为专利申请创建图表的应用程序,而我对此一点也不了解。

再次,我从这些非常基础的问题开始。有什么好的语法可以用来为专利申请创建图表?我对此一无所知。但它确实表明你正在对你的核心内容进行更多的思考伙伴头脑风暴,这很有趣。

我更喜欢这些像是我的历史一样的分集式事物,这在很多情况下几乎没有重叠,但这只是表明了使用这些工具的方式有多种多样,这也可以成为另一个新年的决心,试图将它更接近我所做的核心。

这并不是说它不是我所做的核心,但与Waymark之类的东西不是以这种副驾驶的方式。我正在与语言模型密切合作,使应用程序能够良好运行。我感觉我对它的工作细节有着亲密的了解,这对我来说是一个大项目,但它与你描述的互动舞蹈的方式不同。令人着迷。

丹尼尔·希珀(00:46:49)

是的,这很有道理。我肯定也会用它来进行一些知识探索,但对我来说,它完全是一种思维伙伴,但我很愿意继续浏览你带来的其他聊天记录。

内森·拉本兹(00:47:00)

酷。下面是关于制作图表的内容。这是我为Waymark做的一项工作,我们有一种集成方法来为小型企业创建广告视频。基本上,用户进入网站后,他们可以输入一个网址,通常是他们小型企业网站的首页,我们有一些代码可以从该网站上获取内容,然后我们在我们的应用程序中创建一个合成的配置文件,根据您的自定义指令,所以说,您作为用户是谁?您的企业是什么?您的业务是什么?您需要什么样的图片?然后,为了实际创建视频,您需要给出一个非常具体的,尽管是非常简短的指令,比如“我想制作一个本周六的促销视频”或者“我要开设一个新的门店,这是地址”等等。

就像这样非常明确,“这是我在此刻的目的”提示。然后我们有一个相当复杂的机制,它接收所有这些输入,并与语言模型一起编写脚本。然后它有计算机视觉组件,决定从您的库中应该使用哪些图像来补充整个过程中的脚本。

现在的体验非常酷,与之前相比,你可以想象一下在AI出现之前,我们只有一个易于使用的模板库,而现在我们真正拥有的是AI帮助我们生成内容。这是一个使用起来非常简单、体验非常快速、可以轻松浏览各种想法的阶段性变化。

如果你不喜欢第一件事,你只需要求它做另一件。而且从质量上来说,更有趣。人们过去必须坐在那里输入东西,他们会说,哦,好吧,我有什么?我说了什么?我不确定该说什么。很多人不是内容创作者,但每个人都是——我总是提到很久以前《辛普森一家》中的Mr. Burns的一集,他去了一个艺术博物馆,揭示了一件艺术品,他说:“我不是艺术评论家,但我知道我讨厌什么”,我觉得这正是我们的用户操作方式。他们要求某样东西,等待30秒。现在他们可以观看一个展示他们业务的视频。如果他们喜欢,他们可以继续。如果他们不喜欢,对他们来说很明显。他们可以很快地说:“不,不是这个。给我另一个。”这是一个替代的指示。

所以无论如何,这是我们建立的应用程序,现在我们在考虑是否应该申请一项临时专利。像大多数软件公司一样,我们永远不会起诉我们的专利,但我们只是想确保没有人会给我们带来麻烦。那么我该如何撰写一份专利,如何制作图表呢?

我希望能够更新它。我希望有一个不像一团糟的东西。所以这是一系列不同的互动最终导致了这些图表。但最初我提供的基本上就是我刚才对你说的那样,一种啰嗦的指示,关于我的应用程序以及它的功能、工作原理和背后的一些部分,语言模型编写脚本,代码从网站上抓取,然后还有计算机视觉部分,它能够弄清楚我刚才对它说的整个事情,并说:“现在,你能用一些语法来给我制作一个显示该应用程序结构的图表吗?”

所以有很多不同的结构存在。这也是对话的第一部分。你可以使用美人鱼语法,也可以使用Graphviz,或者使用其他一些东西,但是它们的优缺点是什么?它们能表示不同类型的结构吗?

我们在美人鱼或Graphviz上调试它,它开始让我感到有趣,然后你也可以在这里看到——这很有趣,因为我发现在这个过程中它有些困惑。我给了它这个东西,它生成了这个语法,并要求对语法进行改进。顺便说一下,因为我正在将这个语法转移到另一个应用程序。

语法的酷之处在于你只需插入纯文本语法,它就会为你渲染应用程序,对吧?所以你有这样的东西,Graphviz,有向图——什么是有向图?我甚至不知道它叫什么。这个有向图是G,它有这些元素和属性,并且它们以这种图结构相互连接,等等。

你加载它,半秒钟,它渲染出来,然后你会说,“哦不,这不太对。这个点应该连接到这个点。”然后它跳过了一个,所以无所谓。所以你给它这些迭代。它会取得进展,但在经过一些轮次后似乎会变得困惑,因为可能有太多的语法。

所以在某个时候,我确实说过,好吧,利用情节记忆来发挥我的优势,或者通过清除并重新开始来解决工作记忆的弱点。我就像,好吧,这是那次聊天中最接近我想要表达的内容的最佳选择。我们只需再次进行一次聊天,这次我们将跳过关于使用哪种格式的部分,跳过所有的废话,我只需说:“这是一个图表。我想对它进行一些修改”,然后它就可以为我进行更局部的编辑。再次强调,这里有很多细节,很多微妙之处,但它很乐意这样做。我们进行了多轮的合作。我相信我已经给你附上了那个东西。

在几次交谈之后,我最终得到的结果是,你甚至会开始进行颜色编码,并真正开始理解它。就像这个图表中的绿色部分现在代表用户的操作。所以用户告诉我们他们的商业网站是什么。然后有代码去抓取。然后有这个分叉点,我们必须获取所有的图片并以各种方式处理它们。其中一个重要的挑战是这些部分中哪些可以并行进行,哪些部分依赖于哪些部分?

这实际上是我们在我做这件事之前没有的东西,即使对于技术团队也是如此。我也不确定技术团队的所有成员能否画出这个。所以现在我们内部实际上有了一个更好的参考,可以说:“嘿,什么取决于图像美学步骤?”

现在我们可以去看一下,然后就像是,哦,好的。是的,你不能选择最好的图像。在你完成审美评分之前,你知道,只是有这种清晰度也是操作上有用的,但这是你可以附加到临时专利申请上的东西,至少可以开始保护自己免受未来专利流氓的侵害。

你知道,再说一遍,这需要多长时间?如果我是随手画的,也许我可以在与交流所花费的时间相当的时间内画出来,但是现在有了语法,以及以结构化语言的方式呈现,这使得它更易于维护,可以适应其他事物,甚至可以更方便地在语言模型中使用。

视觉理解能力越来越好,但我认为它可能仍然更擅长理解图表的语法,而不是这种视觉呈现。

丹尼尔·希珀(00:53:57)

是的,我认为这很棒。显然,ChatGPT具有DALL-E集成,所以我对此很熟悉,但我一直在思考——有时我想创建一个看起来像这样的图形,带有文本和框等等,我甚至没有想到可以让它只写出“Graphviz标记”之类的东西,然后粘贴到其他地方。

所以我认为这是一个非常酷的事情,它可以做到这一点,而且非常清晰,我不知道,也许在一年内,它可能只会为您渲染Graphviz的内容,您将能够像移动它和做所有那种事情一样,甚至在第一轮之后也不一定需要来回聊天。我认为ChatGPT的一个非常酷的下一步是进入这样的编辑模式。

Nathan Labenz(00:54:35)

到目前为止,我见过的最接近的东西是DiagramGPT。这是一种稍微不同的符号表示法,但基本上你可以用自然语言进行提示,然后它会生成相应的Mermaid语法。

然后它将立即呈现您的图像。然后您可以编辑语法,但在界面内部无法完全拖放。但我认为这引出了一个非常有趣的问题,即ChatGPT中应该包含哪些内容,而哪些内容应该有自己独特的体验,即使其中仍然有非常智能助手的组成部分。

这实际上是我预期的一种情况,它存在于ChatGPT之外。谁知道呢,对吧?随着时间的推移,也许会有动态的用户界面即时生成。我们已经开始看到这种情况了,但我不认为OpenAI会说:“我们需要创建一个用户界面,让人们可以编辑这些图形。”

它可能可以做到这一点。GPT目前还不能提供自定义编辑体验的能力。所以目前如果你想要类似的功能,你需要将其带到另一个应用程序中,但是现在这样的应用程序越来越多了,对吧?它们只是使用ChatGPT和一个渲染器。

所以我让AI处理所有的语法,然后渲染器展示给我实际的内容,然后回过头继续与ChatGPT对话。

丹尼尔·希珀(00:56:03)

我认为你是对的。我可以想象一个世界,在这个世界里,他们允许开发者在ChatGPT内部构建自己的渲染器。不是为了非常严肃的事情。我认为尝试一次图形或制作一个小视频之类的东西,就像在界面上有一个东西,让你可以在那里完成它。粗略的东西确实非常有帮助。但是,是的,我认为你是对的。对于那些整天都在制作不在ChatGPT内部的图形的人来说,还必须有其他的专业工具。

Nathan Labenz(00:56:27)

所以这是另一个故事。这是我生活中的最近一段经历,在这段时间里,我不得不承认失败,因为我曾发誓在自动驾驶汽车出现之前不会更换我的车辆,而我们还没有达到那个阶段。所以最终,我不得不妥协,买了一辆面包车,期间我还生了三个孩子。

像许多有小孩的父母一样,我觉得我的孩子们对东西的价值很快就会贬值。所以我想,我应该买一辆二手的小型货车,因为如果我买一辆新车,它很快就会被用旧了。所以让我看看市场上有什么选择。现在,任何曾经购买过二手车的人都知道,这是一个完全的丛林,对吧?汽车经销商的网站很糟糕。它们有哪些功能是一个很大的问题。而你很快就会遇到的是这些装饰级别,如果你不是汽车迷,你可能甚至不知道那是什么,但那是一种——你有你的品牌,也就是汽车的品牌,雪佛兰或者丰田或者其他的,你有你的型号,也就是汽车的种类——道奇卡拉万就是品牌和型号——然后你有这个装饰级别,通常只是几个字母或者其他的。就像XRT或者SRT或者L limited之类的。它们只是有不同的——这些都是套装级别,对吧?

有哪些功能,有哪些附加销售?它有天窗吗?它的后部有一个从天花板上放下来给孩子们看的屏幕吗?而且要弄清楚有哪些级别和这些东西是什么,简直就像进入了一个丛林。所以这就是Perplexity,它是ChatGPT的一个很好的补充。它更专注于回答问题。

现在我至少知道这是几个不同配置级别中的第二个,或者其他什么。所以SE是最高级的,SXT是你可以想象的,对吧,你自己试着弄清楚这个?然后你会得到AVP/SE。 现在我至少知道这是几个不同配置级别中的第二个,或者其他什么。所以SE是最高级的,SXT是你可以想象的,对吧,你自己试着弄清楚这个?然后你会得到AVP/SE。

是谁想出这些东西的?太荒谬了。但如果你不想开车穿越底特律地铁去看这辆小型货车,而它又没有我真正关心的东西,那它就非常有用。我关注的东西基本上是一些基本的安全功能。我想要盲点检测和倒车摄像头。

那么还有其他问题,比如USB充电是什么时候普及到汽车中的?我不知道答案。我已经老到记得以前必须把东西插入点烟器。我不想要那样的车了。我不想再使用点烟器插座了。我想要一辆至少配备USB充电器的车。但是汽车的USB充电器时代是从什么时候开始的呢?这是另一个Perplexity能够回答的问题。而且它非常好。如果我猜的话,我认为这将成为一个巨大的趋势,因为我一直是这个应用的忠实粉丝。我曾两次在《认知革命》节目中采访过首席执行官Aarvind。

他们的发货速度非常快。他们在回答准确性方面赢得了一对一的比较。产品本身非常快。它具有出色的用户界面,并且开始变得更加多模态,包括图像,这是相对较新的,整体上是一种很棒的体验。我认为它正在为回答设立新的标准——我开始使用“困惑度”这个术语。

我不确定这是否是绝对可靠的真实情况。就像困惑度并不总是正确的,但它是最准确的人工智能工具。根据我的经验,它通常是正确的,你可能会找到一些错误的地方,但我最后核实的一切都是真实的。所以我认为有这种非常有趣的、足够实用的标准,我不一定需要它百分之百准确,它仍然非常有用。我会根据它做出决策。例如,我是否足够相信它,确信我去看的那辆车上确实有一个USB充电器?是的。事实上,它是正确的。

所以我有这种验证的困惑标准。在我现在的想法中,我觉得,在许多情况下,这已经足够行动了。我不会在没有更多事实核实的情况下做生死决定,但在大多数情况下,我甚至不需要点击这些链接。对于像这样的事情,我会相信它。

而且这也是家庭中的一种新兴标准。我妻子问道:“我们真的需要买一辆那么旧的车吗?它们有这个吗?有那个吗?”我可以向Perplexity询问并回答她,是的,根据Perplexity的说法,它应该有倒车摄像头,应该有USB充电器,应该有盲点检测,这真是节省了大量时间。

一个值得推荐的替代品,甚至可以与像Wirecutter这样长期以来被我妻子所使用的标准产品相媲美。但显然,那是一种编辑的方法,你不能随意提出任何问题。在这里,你可以提出任何你想问的问题,我认为你通常会得到一个值得竞争的东西,即使是与更加编辑化的产品相比也不例外。

丹尼尔·希珀(01:03:05)

不,这完全有道理。它让我想起了Wirecutter。它让我想起了——有很多类似Quora的网站,但针对的是这一代人,他们在提出这个特定问题之前不需要思考,它可以立即收集并回答问题。我觉得这非常强大。我开始明白了何时何地可以使用它。我有很多问题,基本上我只想得到基于事实的最佳答案。而且我很懒,真的不想做所有的研究,ChatGPT只需要进行一次搜索,然后参考第一篇文章。这感觉比那要好得多。

内森·拉本兹(01:03:49)

是的。真的很好。在浏览方面比ChatGPT更快。所以你能够更快地得到答案,而且稍微更准确——就是我很多时候想要的那种答案。我有几次尝试用ChatGPT做同样的事情,虽然最后也能得到答案,但浏览速度较慢,第一次没有给我完整的答案。我就觉得,“不行,我需要更多一点。”

然后我能够克服困难并到达那里,但这绝对只是一个更快、更干净的体验,我相信也更准确一些。这表明了你希望AI扮演不同角色的需求,我认为这很有趣,有力量在两个方向上推动,对吧?

人工智能之所以如此引人注目,是因为它们非常通用,似乎存在一种基本的现实,它们在规模上变得非常强大,而要实现规模化,它们必须是通用的。因此,这种特性是作为一个整体出现的,但在这里,范围已经被缩小。

而且ChatGPT为人们做了很多事情,而这个不是为人们尝试做的。在它的专业领域中,它似乎在努力成为最好的方面取得了更高的成就。所以我非常推荐Perplexity。而且我刚好记得人们第一次说他们在谷歌搜索它的时候。

这对我来说有一种类似的氛围,我认为人们可以在这个标准上舒适地进行社交交流,并感觉自己站在相当稳固的基础上。

丹尼尔·希珀(01:05:30)

我喜欢这个。你用它来构建东西,同时也真正利用它来满足你的好奇心。在我们结束之前,我很好奇,你现在对什么感到兴奋?你现在在思考什么?在接下来的几年里,你认为人们应该特别关注ChatGPT和广义的人工智能领域中的哪些事物?

内森·拉本兹(01:05:51)

在未来的几年里,我认为在人工智能领域几乎任何事情都有可能发生。我相信该领域的领导者们对他们的期望非常诚实。

你听听Sam Altman认为未来几年可能发生的事情。你听听Anthropic的Dario Amodei认为未来几年可能发生的事情。我们可能会看到一些在非常重要和有意义的方面超越人类的东西。我认为当人们试图分析这个问题时,很容易混淆和互相对话。

我确实认为重要的是要说,你可以在非常重要的方面成为超人,而不必是全能或无误的。而且我认为,在人类表现和全能或无误之间实际上有相当大的空间。我预计在接下来的几年里,人工智能将在许多不同的领域达到这个水平。

所以我认为我们将要参与的事物的价值只会通过谷歌DeepMind最近在使用他们最好的语言模型进行差异诊断方面的结果而不断提高,这是一个非常引人注目的结果。这个团队一直在不断取得突破。也许只是一年前,他们第一次让一个语言模型在医疗许可考试中达到及格水平,这太疯狂了。但你可以说,“嗯,那只是一个测试。它更有结构性。现实世界是混乱的,他们只是及格。你不会想要一个只是勉强及格的医生。”好吧。猜猜怎么样?我们并没有停在那里。接下来,它在测试中达到了专家级的表现水平。

接下来你会发现他们加入了多模态功能,现在它可以很好地读取你的X光和其他组织切片。再次强调,它是否完美?不,它可能只能达到实际人类放射科医生的较低水平。尽管如此,我认为人类放射科医生胜过AI放射科医生的概率大约是60-40。

所以没关系。这是一个相当狭窄的差距。显然我们还没有完成。目前的事情是从医学期刊中提取病例研究,病例研究就像是极难解决的案例,对吧?当一个病例在医学期刊中被报道,那是因为这个病例被认为具有很高的教育意义,对吧?这是一个令人困惑的情况。它是一种不熟悉的症状组合,或者其他什么情况。所以他们不会在期刊上发表普通的感冒病例,对吧?所以他们从期刊中提取这些病例研究,并进行了一项研究,比较了人工智能在进行鉴别诊断方面的有效性与有接触人工智能的人类的能力。

AI在很大程度上是最好的。人类独自一人排在最后。所以,在他们的演示中,他们非常谦虚,几乎像是故意掩盖重点,有时候看起来有点过分谦虚。而这篇论文的一个主要结论是我们需要更好的界面,以便医生能更好地利用这一点,但对我来说,是的,这是我从这篇论文中得出的一个教训,但另一个教训是AI的正确率是医生的两倍,大约是60%对30%。这也是我从很多这类事情中得出的另一个重要教训,我们往往不去衡量人类的表现。我们认为,因为我们在这个世界上生活了很长时间,我们知道一些医生比其他医生更好,但他们在这方面有多少次得出正确的诊断呢?结果在这个特定的数据集中,大约是30%左右。

所以还有很大的改进空间,你可以说,世界上最好的医生会做什么?世界上最好的医生肯定比他们的语言模型能做到的60%还要好,但你可能无法接触到那个人。显然,我们正朝着能够接触到那种人工智能医生的世界前进。

如果在诊断差异这样具有挑战性的任务上,性能提高了2倍,我认为我们将迎来一个极具专业知识的世界,而且价格将非常低廉,这将对社会产生深远的影响,对机会平等和获取平等产生重大推动作用。它也将改变许多市场动态,改变不同类型服务所能获得的工资。我对此感到兴奋。我也认为它可能会带来相当大的颠覆,并且可能会越来越具有政治性。

我认为,我认为这一点的好处非常明显,而且非常有说服力。所以我希望我们能够真正享受到那个未来的成果。还有一件事我想说的是,变形金刚不是历史的终结。ChatGPT也不是历史的终结。

这种没有记忆的人工智能,在过去的一两周里,我们看到了状态空间模型架构的一系列活动。而且,据报道——如果你在Twitter上看到这些东西,就像是,嘿,有一种新东西,甚至可能比transformer更好。它可能是transformer的继任者,也可能是transformer的替代品,甚至可能是transformer的替代品。它具有一些transformer没有的优点:更好的长期记忆,更好的扩展性,更快的速度,更高的吞吐量。也许我们只是从一个转向另一个,噢,transformer是旧的东西,这是新的东西。

但我强烈怀疑我们将会看到的是这些架构的混合体,就像大脑一样,我们显然不只有一个单一的大脑单元一次又一次地重复。我们有很多不同的模块,包括一些会被重复使用的模块。看起来,我们几乎可以肯定地说,我们将会迎来不同种类架构的人工智能的组合体,它们各自在信息处理方面都有自己的优势和劣势,就像从四年前的GPT-2到现在的GPT-4,这已经是惊人的进展了,但我必须说,我认为接下来的几年将会带来至少同样多的变化。这将是一段疯狂的旅程。

丹尼尔·希珀(01:12:28)

这令人兴奋。这令人振奋。我对未来感到兴奋。非常感谢您抽出时间分享您的想法,并向我们展示您如何使用ChatGPT。我很愿意再次邀请您,看看我们的进展,看看未来会有什么新的东西出现。

内森·拉本兹(01:12:42)

是的,谢谢。我很感激这个机会,丹。这真的很有趣,我确实学到了一些东西,并且受到了一些启发,也打算追寻更多的用例。希望下次我能有一些更好的自定义指令,并在头脑风暴部分有更好的记录。我认为这是一个很好的交流。所以这就是。

丹尼尔·希珀(01:12:57)

听起来很棒。非常感谢。

 

 

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读