秘密研发甚至威胁人类，只代号就引发全世界恐慌？OpenAI「Q*」到底是啥

先把 OpenAI 管理层大乱斗放到一边，聊聊最新传言：Q*。

OpenAI 11 月 22 日寄了员工信，证实有 Q* 计画，描述为「超越人类的自主系统」，着实让人害怕。虽然OpenAI还没放出任何Q*细节，但以我们微薄知识来看看这可能是什麽。

第一步是Q*怎麽读，正式名称念作Q-Star。你没看错，即便深度学习，区块间透过乘积求解，但Q*的「*」并不是指乘法，而是「星号」。「Q」字母在强化学习表示动作的期望奖励。

人工智慧领域凡跟大写Q沾上边，本质都是Q学习。Q学习以现在评判标准可算是强化学习的一种，指训练时记录历史奖励值，告诉智慧体下步怎麽选才能与历史最高奖励值相同。但注意，历史最大奖励值并不代表模型最大奖励值，有可能是也很大可能不是，甚至可能完全无关。换句话说，Q学习和智慧体就像球队分析师和教练的关系，教练指导球队，分析师辅佐教练。

强化学习时智慧体输出决策是回馈到环境才能得到奖励，Q学习因只记录奖励值，因此不需要建模环境，等於「结果好，一切就好」。

不过看起来Q学习好像不如现在的AI，尤其大模型常用深度学习模型，动不动几十亿、几百亿参数，Q学习不仅对模型没什麽帮助，反倒增加复杂性，降低稳健度。别急，其实这是因上述Q学习背後想法只是诞生於1989年的基本概念。

DeepMind 2013年改进Q学习，推出演算法叫深度Q学习，特点就是经历重播，从过去多结果采样，再使用Q学习，达到提高模型稳定性，降低模型因某次结果导致训练方向太发散。但实话实说，这概念没有成主流当然有原因，实际意义看，深度Q学习最大作用就是发展成DQN。DQN指深度Q网路，从深度Q学习诞生。DQN想法和Q学习一模一样，但求得Q学习最大奖励值时是用神经网路达成，这就fashion起来了。

DQN同时间只会产生一个节点，DQN会产生优先权伫列，再把剩下节点和动作元祖存到优先权伫列里。显而易见，一个节点肯定不够用，如果全程就一个节点那最後求解答案一定错得离谱。当节点和动作元祖从队列移出，就会根据动作应用到已产生的节点关联性产生新节点，以此类推。

稍微懂点人工智慧发展史的人会越看越眼熟，这不就是高配版佛洛伊德求边长？

现代电脑处理器核心原理就是佛洛伊德演算法，与历史最优值比对，求得两点间最短路径。记忆体作用就是将计算以优先权储存，每当处理器完成一次计算，记忆体再把下一条计算丢给处理器。

DQN没什麽本质差别，这基本就是Q的意思，那*又指什麽？许多业界人士分析，*很可能指A*演算法。这是一种启发式演算法，先不讲启发式演算法是什麽，来讲个笑话：

A问B：「快速算出1928749189571*1982379176乘积」，B立刻回答：「32」，A很纳闷，这麽大两数相乘，不可能答案是两位数，B反问A：「你就说快不快？」

看起来离谱，但启发式演算法同道理。

本质是估算，效率和正解间只能选择一个──不是讲究效率但有时出错，要不就讲究正确性但耗时很长。A*演算法先透过启发式演算法估算大概值，当然这值很可能极度偏离正解。估算完成後开始循环遍历，如果怎样都没办法解开就重新估值，直到开始出现解。如此反覆，最终得出最佳解。

虽然得到最佳解，A*就是上文提到的第二种，答案对，耗时较长。放在实验室环境还好，这种演算法要是登上个人装置，有可能导致记忆体溢出，产生系统问题，例经典蓝色画面。

因此这限制使过往A*演算法往往用於较不复杂的模型，最典型就是网路游戏角色找路。大型游戏角色找路开始刹那要是卡顿，就是因A*演算法。

综合看，人工智慧圈共识是OpenAI提到的Q*演算法，大概是Q学习和A两者截长补短，即节省算力、节省记忆体并得到最佳解──因总不可能多花费算力又浪费记忆体，最後还得不到最佳解吧！

且就像OpenAI把基础模型这件事最终做成，同样早已存在，甚至一度遭冷落，直到OpenAI用创新方法重新挖掘潜力。现在我们有理由相信Q和A这早就存在的算法思路，OpenAI能故技重施再创造奇蹟──当然这奇蹟会危害人类的可能性也因最近OpenAI闹剧让更多人忧心忡忡。

回到演算法，Q*最有可能的样子是利用Q学习快速找到接近最佳解的估值，再利用A*演算法小范围求解，省去大量无意义计算，达到快速求得最佳解。但OpenAI会怎麽做，还得等论文公开（如果等得到）。

Q*出现说明一个问题，人工智慧领头公司意识到人工智慧发展求解的过程比求解更有意义，因现在只追求答案的正确性不再能满足人们对人工智慧的需求，如OpenCompass即便平均分数差10或20分，如果从理解准确率看，最好和最差模型差距没有很大。

人们猜测和恐慌关於Q*的说法是，Q*可解决非常高级的数学问题。萨里以人为本人工智慧研究所所长安德鲁·罗戈斯基表示：「我们知道现有人工智慧已证明能做本科水准的数学运算，但无法处理更高级数学问题。但Q*极有可能解决高难度数学问题。」说不定等到Q*出现，还能考考它哥德巴赫猜想（Goldbach′s conjecture）。数学是人类智慧的最伟大结晶之一，因此Q*只是还只是个代号就引发全世界恐慌。

Q*背後也与OpenAI使命连结──通用人工智慧（AGI），甚至超级智慧。OpenAI将AGI定义为最具经济价值的任务超越人类的自主系统，Q*就是OpenAI迈向AGI的一步。

OpenAI对Q*和信件外泄没有发表任何评论，但笔者喜忧参半。对Q*拥有强大能力很开心，人工智慧领域发展会更进一步；同时担心Q*噱头大於实力，真到发表那天测试结果就那麽回事，狠狠打脸笔者。

（本文由品玩授权转载；首图来源：shutterstock）

彙整

分類

秘密研发甚至威胁人类，只代号就引发全世界恐慌？OpenAI「Q*」到底是啥

openvpn怎么购买

About the Author

openvpn怎么购买

You may also like these

Edge AI方兴未艾　高通全面拥抱生成式人工智慧

最强 AI 助理—— Monica！内容统整、文章生成、留言回覆一键即时解决？

车用、边缘 AI 推动 2025 年成长，大摩重申世芯优於大盘

涨多不等於必会回档，专家：2024 年别做空七巨头