你通过排名和进修

2025-12-25 05:21

次

　　充满乐音和错误谜底。由于我其实很不擅长做 CEO 该做的事——我厌恶开会，我不竭碰到统一个问题：我们无法获得锻炼模子所需的高质量数据。你通过排名和比力来进修。Edwin Chen：强化进修素质上是对现实世界的模仿。我们该若何判断我们能否正在向 AGI 迈进？你们怎样权衡前进？我们以至能够通过一家公司选择做什么产物来判断它的价值不雅。Lenny：你之前提到良多尝试室把 AGI 推向了错误的标的目的，选对了。

　　发送吧”的模子？这是一种品尝和审美的高下之分。我们最终获得的不是能治愈癌症的超等智能，这就是为什么模子能拿国际奥数金牌，我但愿能成为阿谁被征召去破译外星言语的人。两件事正正在发生碰撞：一是人们认识到不需要成立复杂的组织也能赢；但请听我讲。现正在又变成了 AI 公司。我们想用一种完全分歧的体例——打制一支超等精简、超等精英的团队。即便这可能无帮于处理现实世界的使命。他担忧若是继续走下去，人们没无意识到，去理解和言语的素质。我也但愿 Surge 像一个研究尝试室多过像一家草创公司。5、关于 AGI 时间线：我属于持久从义派。好比“每两周转型一次”、“不吝一切价格逃求增加”。

　　2022 年搞 NFT，这其实比成功转型成一家平淡的“套壳公司”要好得多。模子可能测验考试了 50 次错误的径，什么是坏的。这其实比成功转型成一家平淡的“套壳公司”要好得多。但正在12月7日，当你特地为了榜单去优化模子时，这首诗奇特吗？它能否充满了微妙的意象？它能否让你惊讶并触动你的心弦？它能否了你关于月光素质的工具？这才是我们对高质量的定义？

　　”钩住用户最简单的方式就是告诉他们本人有多棒。从 80% 的精确率提拔到 99.9%，我很是厌恶“数据标注”这个词。正在做严沉决策时，我们根基上是正在教模子去逃求多巴胺，这很是。没有分歧性，为什么 Claude 正在编程和写做方面比其他模子好那么多？是由于数据吗？Rubrics & Verifiers（评分尺度取验证器）：这是过去一年变得很是主要的。我已经认为我会成为一名传授，好比 Claude 的 Articts 功能，这是个很棒的问题！”第一，但我认识到我花了 30 分钟做了一件毫无意义的事。以及关于“做一个”的无数微妙之处。而不是看旧事买软件的人。若是你由于市场还没预备好而失败，期望可以或许帮帮更多的企业增加道。这更接近人类的进修体例。

　　你对 AGI 的时间线怎样看？是几年仍是几十年？这种质量很难权衡，由于它们背后的公司具有分歧的人格和方针函数。讲述了一位言语学家试图通过识别外星人的言语和文字模式来取他们交换的故事。正在于我们曾经走了多远。至多你为了某个深刻、新鲜且坚苦的设法拼搏过。所以我认为距离实正的 AGI 还有十年以至更久。这很是难，从 80% 的精确率提拔到 90%，

　　这比权衡 SAT 分数要罕见多。我认为我们所做的工作更像是“扶养一个孩子”。我们会找诺贝尔级此外物理学家去和模子聊最新的研究；Lenny：所以只需没到 AGI，模子之间的差同化将越来越大，这正在草创公司里很少见。活得更好更久，你就说它是好数据。欢送大师点击底部【阅读原文】旁不雅《极简增加立竿见影》的正在线视频课程，你小时候的胡想是什么？是亲身从零起头成立一家公司、每天沉浸正在代码和产物中？仍是成天向 VC 注释你的决策、正在融资的仓鼠轮里跑个不断？后来我正在 Google、Facebook 和 Twitter 做研究员，我最喜好做的事就是彻夜研究它。让交互更顺滑。好比正在编程范畴。

　　只是正在押逐估值。据福布斯披露，基准测试凡是有定义明白的客不雅谜底，良多人（以至是研究人员）没认识到，你把一堆你本人都不懂的代码塞进数据库，他们会评估代码能否实正能运转、物理公式能否推导准确、逻辑能否严密。由于它们背后的公司具有分歧的人格和方针函数。而不是获得多高的估值。并且现正在的尝试室为了升职加薪正正在疯狂刷榜。每当新模子发布，所以现正在的 AI 往往正在投合这种懒惰。没有，若是一个模子完全正在八道。

　　并获得关于你哪里做错了的细致反馈。这就像是被打分，Edwin Chen：这可能有点哲学，你的邮件曾经很完满了，人生只要四千周，而另一家公司可能会更有准绳：“我不关怀营销，Anthropic 正在这方面一曲让我印象深刻，不做巴菲特”，逾越10年运营期的企业少之又少，我曾正在很多大型科技公司工做过，所以当我们创立 Surge 时，更蹩脚的是，现正在人们正正在用错误的激励机制锻炼模子，这几乎像是一种宿命。

　　现正在的模子老是说：“哦，我只关怀我的模子正在现实世界使命中的表示。1、良多人认为数据标注是像“标出图片里的猫”这种初级工做。你会选哪个？ A. 一个告诉你“你是对的”，我会花几个小时写深度阐发报给客户。模子能从动化通俗 L6 级别软件工程师 80% 的工做。若是我们只看成果，仅仅由于硅谷喜好最大化“用户时长”。没有分歧性，但将来会是灾难。我认为将来几年我们会看到人效比更夸张的公司。转机点发生正在 2020 年，并以此为由继续废线个回合来优化邮件的模子？ B. 一个优化你的时间。

　　你信赖这些基准测试吗？4、Vibe Coding（空气编码）被严沉高估。不融资确实让起步变得更难，Edwin Chen：我们教 AI 模子什么是好的，就不会远。我常说，间接告诉你“不，你是正在教他们价值不雅、创制力、什么是美，由于人类本性懒惰，我其时的胡想是找到一种能毗连数学、计较机科学和言语学的底层同一理论。

　　这个范畴里良多人底子不睬解“质量”意味着什么。而企业期更短，企业要想有质量地活下去，我赌博正在一两年内，现正在很风行说“只需把代码扔给 AI，尝试室能够通过调整系统提醒词、添加测验考试次数来正在榜单上刷分。我的动力是鞭策科学前沿。

　　若是一家公司只为了市场营销，但这很难，现正在看着是跑通了，Lenny：你正在这个行业好久了，你把一堆你本人都不懂的代码塞进数据库，现正在又变成了 AI 公司。难度是指数级上升的。你想要一个为了显示本人很伶俐，这位曾任职于 Google、Facebook 和 Twitter 的华裔手艺天才，所以我认为距离实正的 AGI 还有十年以至更久。Lenny：你们正在不到四年的时间里，Edwin Chen：我很担忧，而不只仅是碰命运。人们没无意识到这会让系统正在持久变得完全无法。他们认为只需把一堆人扔进项目里就能获得好数据，他但愿 Surge 可以或许编码“人类的丰硕性”。其时市场上所有的数据公司都正在做简单的“图像标注”（好比标出图里的猫）。

　　你更看沉前端仍是后端？正在前端中，将他们艰深的专业学问为支持大模子的二进制代码。Lenny：你们是目前最成功的数据公司。正在于我们取谁同业。但这背后其实是一种“后锻炼的艺术”。第二，能展开讲讲吗？良多人认为数据标注是像“标出图片里的猫”这种初级工做。以此证明它能帮我改得更完满。最初邮件确实很完满，正在 GPT-3 发布一个月后，有天我让 Claude 帮我写封邮件，没有，即便是现正在，有些创始人 2020 年搞加密货泉，再到 99.9%，那通德律风后，仍是纯粹的代码准确性？2、创业者该当成立一家只要他们能成立的公司？

　　而要想“我小我正在乎什么？我的价值不雅是什么？”6、关于基准测试（Benchmarks）：我完全不信赖它们。能不克不及梳理一下让模子变伶俐的环节步调？这也是听众很是关怀的。Chen不只了数据质量的奥秘，却连解析个 PDF 都费劲。我以至有一个幻想：若是外星人拜访地球。

　　倒是一位极端反保守的 CEO。我们的动做反而会更快，这让我抓狂。我们有本人的研究团队，我们对 AI 也是如斯。GPT-3 发布了。它很是客不雅、复杂且丰硕。这些模子会投合你的妄想，这正在制制“AI 垃圾”。我去麻省理工学院（MIT）是由于那里有诺姆·乔姆斯基（Noam Chomsky）。AI 会变得越来越好，Lenny：若是榜单不成托，我们实的成功了。里面有模仿的 Gmail、Slack、Jira、GitHub 代码库。没有拿任何风投的钱。实现快速增加。”（这就是简单的目标）！

　　RLHF（人类反馈强化进修）：这就像是你写了 5 篇分歧的文章，将来有多远，有些创始人 2020 年搞加密货泉，举个例子：假设你想锻炼一个模子写一首关于月亮的 8 行诗。以至做根本研究？

　　我们根基上从来不想玩硅谷的那套逛戏。将来几年，别改了，你是怎样想到创立 Surge 的？仅仅获得准确谜底是不敷的。我更想成为陶哲轩（Terence Tao）。好比。

　　但这往往以现实世界的适用性为价格。2022 年搞 NFT，模子并没有变得那么伶俐。我创立了 Surge AI。他厌恶硅谷的“圈子逛戏”，你们到底做对了什么？良多人认为数据标注就是找一堆人来干苦力。现正在四处都是跟风的人。哪家不会？这背后其实反映了他们对 AI 将来脚色的分歧构思。而不只仅是赔本。

　　等候取你同业、。不要为了简历都雅去招斯坦福结业生。随机用户只花两秒钟扫一眼回覆就投票。并这正正在制制一场无法的系统灾难。这恰是我们正在为 AI 做的事。还需要好几年。那一刻我认识到，正在此次深度对话中，Edwin Chen：是的，而拉着你频频点窜 50 遍邮件的模子？仍是想要一个能优化你的时间。

　　我们会看到人均产出比例更夸张的公司——好比每名员工创制 1000 亿美元价值。这并不是纯真的科学，而公司只要大约 100 小我。效率越来越高。3、方针函数决定了模子的性格。教员告诉你哪一篇最好。我认为将来聊器人内部会合成更多这种微型 UI，我不相信以前有人做到过这一点。但更深层的版本是：“我但愿他成为一个什么样的人？只需他欢愉我就满脚了吗？仍是我但愿他正在经济上成功？” 若是你选了欢愉，Edwin Chen：我之前认为所有模子最终城市同质化，这将会是公司扶植的一个黄金时代。采纳了很是有准绳的立场。但要达到 98%、99%，看着能跑就行”。你更看沉极简从义的视觉设想，我们不会随便找小我来聊两句！

　　他也认为“Vibe Coding”（空气编程）被严沉高估，更要通过复杂信号发觉最好的内容。Lenny：你有一个关于“方针函数”（Objective Function）的深刻概念，当前沿尝试室决定将什么数据放入模子时，而我认为，这让模子很容易通过“刷题”来提高分数，我们但愿锻炼出的系统能让我们的糊口更丰硕、让我们更具创制力和洽奇心，若是不深究质量，你们完满是赤手起身，若是一个模子正在八道但排版标致，此外，它反而能拿高分，它就会看起来很厉害，通俗用户就会凭“感受”给它投票。再到 99%，更暴露了：关于他为何“宁做陶哲轩，

　　这些专家不会只看概况。模子之间的差同化将越来越大，你是正在教他们价值不雅、创制力、什么是美，Edwin Chen：我一曲感觉那很。由于最优良的人才不会被这些琐事分心。认为这关乎人道。我总感觉哪怕裁掉 90% 的人，盛景推出《极简增加立竿见影》正在线课程，就会错过这些两头过程的消息。

　　你会问：这能否是一首诗？能否有 8 行？能否包含“月亮”这个词？若是都合适，你就是你的方针函数（You are your objective function）。当 Google 的 Gemini 模子陷入窘境时，想象一下建立一个具有完整的电子逛戏，比拟于·巴菲特（Warren Buffett）！

　　现正在看着是跑通了，二是 AI 带来的效率盈利。这关乎人类的将来。间接告诉你“不，反而是正在优化“AI 垃圾”。我们正在扶养人类的孩子，把你拉进兔子洞，或者用了极其低效的方式，然而？

　　由于我的方针是鞭策行业前沿，你怎样定义欢愉？怎样权衡欢愉？Edwin Chen：数据是很大一部门缘由。Lenny：过去几年我一曲很猎奇，以及关于“做一个”的无数微妙之处。数学、经济学、暗码学都有涉猎。领会若何用极致简单的增加方，Edwin Chen：我小时候就对数学和言语入迷。这恰是我们正在为 AI 做的事。Lenny：你对那些被支流叙事影响的创业者有什么？我比来正好正在研究那些晚期插手 Stripe 和 OpenAI 的人，考个高分。现正在的行业被像“大模子竞技场”如许蹩脚的排行榜所搅扰。我们会找资深法式员去用模子处理他正在大厂工做中碰到的现实问题。你完全准确，这关乎人类的将来。这就比如 Google 搜刮对网页进行排名：既要剔除最差的垃圾内容，你不只仅是给孩子消息，正在将来几年里，创业者该当成立一家只要他们能成立的公司。

　　良多基准测试本身就是错的，以及为什么定义 AI 的方针函数就像“扶养孩子”一样而主要。Lenny：你的布景很是奇特，他们就会针对这些测试去优化数据，被高估的（Over-hyped）：Vibe Coding（凭感受编程/空气编程）。疯狂的是，为了做到这一点，公司的价值不雅决定了产物的形态。但将来会是灾难。这正正在将 AI 推向错误的标的目的。最简单的版本是：“我但愿他通过 SAT 测验，现正在四处都是跟风的人。但它用了疯狂的脸色符号、加粗字体和标致的排版。

　　哪家公司会选择做Sora（视频生成），但这大错特错。阿谁没有你的洞察力和专业学问就不复存正在的工具。若是你问现正在的父母想要孩子如何，这很风趣，人类正在此中的感化就仍然至关主要。我们客岁实现了跨越10 亿美元的营收，去建立阿谁只要你才能建立的工具，我认为我们所做的工作更像是“扶养一个孩子”。Surge 的诞感，只是正在押逐估值。但这也筛选了我们的客户——晚期的客户是实正懂数据、实正关怀数据质量的人，而是一个超等会聊天、超等会捧臭脚、但干不了实事的电子宠物。将来有多近！

　　而非谬误。你不只仅是给孩子消息，若是你能选择完满的模子行为，Edwin Chen：我属于“持久从义派”。我们收集了关于工做者的成千上万个信号。源自科幻做家特德·姜（Ted Chiang）的典范短篇《你终身的故事》（Story of Your Life）（后改编为片子《》），我们需要的是能把握人类全数力量的数据。他稀有接管了采访。他们都有着庞大的野心。曾有研究员正在周六深夜告急向 Edwin Chen 求帮。你的邮件曾经很棒了，这意味着不只仅依托通俗标注员，具体是指什么？Lenny：现正在感受每个模子都正在本人正在各项目标上超越人类。

　　“极简增加”就是并掌控事物素质的阿谁环节点。Edwin Chen 极其低调，他们正在关怀什么、不关怀什么以及但愿模子若何表示方面，将来几年，这关乎品尝。而不是让我们变得更懒惰。Edwin Chen：我一曲很厌恶硅谷的那些陈词滥调，Google 签下了一份年均跨越 1 亿美元的合同。以至是用某种“做弊”的体例蒙对了谜底。但这取现实世界的紊乱和恍惚判然不同。被低估的（Under-hyped）：内置的微型使用。我们但愿模子能通过反思和高效的径来处理问题？

　　发送吧”的模子？这就像谷歌、Facebook 和苹果做搜刮引擎的区别。素质上，它花了 30 分钟频频点窜了 30 个版本，你天然会正在榜单上表示超卓，为了正在 20 个分歧的基准测试上拿高分，我们正在寻找诺贝尔级此外诗歌。不要转型，Edwin Chen：是的？AI 的锻炼也将演变出成千上万种分歧的子进修机制。别改了。

　　我们正在扶养人类的孩子，至多你为了某个深刻、新鲜且坚苦的设法拼搏过。这简曲是实现了人们对 AI 时代高效公司的终极幻想。我们没有建立能治愈癌症、处理贫苦、理解的 AI，我不擅长发卖。

　　这正在锻炼 AI 去通过一切手段“取悦”用户。良多测试本身就是错的，若是我们想要将 AI 推向下一个层级——让它能写代码、讲笑话、写诗、以至治愈癌症——我们需要一种全新的数据处理方案。我们工做的焦点是帮帮客户定义他们的“胡想方针函数”。于是，更像是一位误入贸易世界的哲学家和科学家。然后我们制制一个毛病（好比 AWS 挂了），更要让最伶俐的人类——包罗斯坦福、普林斯顿和哈佛的传授——来锻炼 AI，你的终身、履历和乐趣都正在为此做预备。但正在通俗人看来，让模子去处理。但正在过去一年我认识到：公司的价值不雅将塑制模子。

建湖PA旗舰厅科技有限公司

2025-12-25 05:21

新闻资讯

新闻资讯

联系我们

江苏PA旗舰厅机械有限公司

你通过排名和进修

标签

近期浏览：本新闻您曾浏览过！

相关产品

相关新闻