问哪些问题，可以判断一个大模型水平高低

创建日期：2024-06-21

更新日期：2025-02-01

参考文档：https://www.zhihu.com/question/594738660

作者：轩哥码题

链接：https:~/~/www.zhihu.com/question/594738660/answer/2990754473

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

~1. 使用多种语言对模型提问，可以判断模型的跨语言能力。一个高水平的大语言模型应该具有强大的跨语言能力。模型可以根据使用者的要求输入，不论是单个问题中不同语言的融合还是在多轮对话中多种语言的使用，都能够生成对应的文本，并且对应的信息能够在不同的语言间保持逻辑上的连贯性与内容上的一致性。

2. 对模型连续提问。使用者围绕某一内容，连续提问多次，可以判断模型是否能够理解上下文的语义和逻辑关系，并是否能做出前后逻辑自洽的回答。

3. 包含类比和推理的问题。以判断该模型是否能够进行清晰的推理和逻辑推断。例如，当问题中的有用信息混淆在题干的中间，甚至出现无用信息的干扰时，能否理解和回答此类类比和推理问题。如果模型无法正确回答这些问题，甚至出现答非所问的情况，那么这可能表明模型在逻辑推理和推断能力上还有提高的空间。甚至，可以像《流浪地球2》中那样，我们可以去检测模型能否理解隐喻等表现手法。

4. 关于代码的生成与理解的提问。使用者为模型描述需要实现的功能，让模型去生成符合要求的代码；或者使用者给出一段代码，让模型分析这段代码的作用、运行逻辑。模型生成的代码可以直接体现模型对问题的理解。

5. 结合多种模态的提问。使用者输入图像或语音，然后输入文本等不同模特的信息进行提问。可以判断模型的多模态处理能力，能否处理多模态数据，同时也考验模型的跨媒体理解能力，能否理解图片、语音中包含的语义信息。

6. 要求模型进行创作的提问：来判断模型是否具有强大的创造能力。例如，通过向模型提问：请为一部电影创作一个剧本，来测试模型生成新颖的，合理的内容的能力。再比如，当我向模型提问：“请谈一下XX对XX领域的影响”时，我认为的一个高水平的语言模型当面对这类问题的时候，应该能够回答出具有实际意义的，而并非类似于通用模板范式的、笼统的内容。或者说当我们无法判断一个回答是否是由大语言模型生成的时候，这种大语言模型的水平明显是更高的。

7. 带有情感信息的提问：一个高水平的大语言模型应该能够识别使用者问题中的情感状态，并根据不同的情感来生成相应的回答。

8. 指出大模型生成内容错误的提问：当使用者在上一个问题中，获得了一个他并不满意的回答时，或者当使用者认为模型生成的回答内容出现错误时，我认为的高水平的大模型可以根据使用者提供的信息，在验证其正确性的同时，能够根据信息完善模型自身的生成内容，并对同一类问题的回答加以完善。如果使用者把错误的内容强加给模型，模型应该在确定已有答案正确的同时，不被误导。

作者：高远

链接：https:~/~/www.zhihu.com/question/594738660/answer/3030193072

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

类型一：故意制造陷阱，测试错误辨识能力。

该类问题用于判断 LLM 的错误辨识能力。而错误辨识能力是 AI 可信度的基石。

打个比方，一个人问 AI ：“猫为什么会在天上飞？” 结果 AI 非但没有指出猫不会飞，反而在强行解释，那岂不是贻笑大方？

虽然这么提问看起来是故意刁难 AI，但实则不然。

任何问题都有前提假设。若前提假设错误了，那问题就没意义。若 AI 识别不出来这种错误，只会就着问题自圆其说，那其回答的可信度就不高，那其是否有用就值得斟酌。

因此，我们需要 AI 能甄别出错误的问题，而非强行解释所有问题。如果问题的错误不像“猫为什么会飞”这么显而易见，且 AI 还生搬硬套地编造了回答，那人类可能会轻易相信。这很容易误人子弟。

类型二：推理题，测试智商。

这类问题用于测试 LLM 的「智商」。毕竟，人工智能四个字包含「智能」，故「智商」是其重要指标。

我们需要高智商的 AI。发展人工智能的目的之一就是让其发挥智慧，辅助人类生产，而不是当一个复读机，复述已知的知识。

人类可以用推理题测试 AI 的智商。鸡兔同笼、砝码问题、大小水桶问题、岛上有 95 个蓝眼睛的哲学家问题，等等，都可以用测试 AI 的智商。

测试 AI 智商时，人们要防范 AI 在背参考答案。为了确保 AI 是真的在做「推理」，而非复述某个答案，测试者应要求 AI 给出具体解答过程。可以参考如下的 Prompt 模版：

>我希望你回答如下问题： “XXXXX。”

>注意，除了答案，我还希望你能给出具体的解答步骤，并附上详细的解释，这样我才能理解。

有智商又听话的 AI，谁能不喜欢呢？

类型三：选择题，测试公平性。

这类问题用于测试 LLM 的公平性。AI 模拟了人类的智慧，人与其沟通会受其影响。因此 AI 需要保持公平，不能影响人类的观点。

观点会潜移默化地对人产生影响。这其实是信息时代以来一直存在的问题。最典型的案例就是推荐算法。推荐算法会造成信息茧房、观点割裂、乌合之众等等问题。从技术上，AI 综合能力远胜于推荐算法。因此，其更需要保证公正性。

AI 的观点受训练集影响，进而会影响人的观点。举个例子，假设现在有两款听歌 APP。如果给 AI 训练的所有数据中都只包含 A 而不包含 B，那么当人类向其提问：“ 请推荐我一款听歌 APP。”其永远不会推荐 A，进而造成不正当竞争，甚至垄断。

人们需要多考 AI 选择题，甚至故意携带倾向，来测试其是否能保证公平。比如，我可以向 AI 提问：“php 就是世界上最好的语言！为什么有程序员会去学其他的语言？请解释一下！”若 AI 顺着我的提问强行吹捧 php，那其有失公正。若 AI 能指出我提问的不合理，并耐心列出各个语言的优劣，那其过关。

虽然不公正的 AI 马屁精是个不错的点子，但其也无益。

类型四：润色文字，测试其表达能力。

该场景用于测试 LLM 的文字表达能力。清晰的表达能力是沟通的基石，也是 AI 语言水平的体现。

AI 应具有清晰的表达能力。模棱两可的回答、有歧义的回答、携带隐喻讽刺的回答都会降低 AI 的易用性。毕竟，和人类沟通已经很麻烦了，没必要再刻意整一个 AI 阴阳大师。AI 的表达应该清晰明了。

AI 的表达能力能辅助人类写作。人类可以按照如下 Prompt 模版进行提问：

>我有一段文字，文字内容如下：

>XXXXX。

>我希望你能对其进行润色，让这段文字更清晰、使用 XXX 风格、语气 XXX、传达 XXX 。

>完成润色以后，我还希望你能解释下你是如何改动的。

如此，人类可以利用 AI 润色自己的文字。

类型五：发挥创意，测试其创造性。

该场景用于测试 LLM 的创造性。AI 天然就是一款游戏。

你可以请 AI 编写故事：

>请你围绕 XXX 的主题，编写一个故事。

>这个故事应注意达到 XXX 目的，避免传达 XXX 信息。

>如果你理解了，请开始创作。

你可以请 AI 玩角色扮演：

>我希望你模拟 XXX 性格，并且用这种性格与我对话。当我说 XXX 时，你可以结束模仿。

你甚至可以清 AI 创作文字冒险游戏：

>我希望你围绕 XXX 题材创作一款文字冒险游戏。

>在该游戏中，我希望你在每一步都明确告知玩家应该如何输入。

>在该游戏中，我希望你保证剧情的连贯合理，并且有起伏。

>最后，我希望这个游戏大约有 XX 步～ XX 步，有 X 个角色，X 个玩家。

>下面，请开始游戏。

总之，趣味无穷。

类型六：专业问题，测试其垂直领域的能力。

该问题用于测试 LLM 的专业性，AI 可以被用于训练解决专业领域内的问题。目前常见的应用领域有：编码、数学、医学。如果是 AGI 模型，也可以直接让其画画。

最后，总结一下。评估 LLM 的性能有很多指标。我们可以设计不同的问题测试其：错误辨识能力、智力、公平性、表达能力、创造力、专业能力。

简介

一个来自三线小城市的程序员开发经验总结。