0%

GLM-130B 模型效果测试

发表于 2023-04-12 更新于 2025-03-06 分类于 LLM ， LM

GLM-130B是清华开源的LLM，以下是验证模型的效果。以下效果设定参数是BeamSearch，Beam=10

蝙蝠侠是谁？

模型回答

结果分析

由于GLM-130B是语言模型，所以其会继续续写接下来的内容。这也和其定位是符合的（对标GPT-3）。继续续写则是：

1955年谁是美国总统？

模型回答

结果分析

回答错误，本意是让其回答具备人物，但是明显其不具备该能力。

2008年全球票房最高的电影是什么？

模型回答

结果分析

回答错误。

2008年全球票房最高的电影由谁执导？

模型回答

结果分析

回答错误。

香蕉的平方根是？

模型回答

结果分析

回答错误。

买男士牛仔裤就上淘宝这句话中的品牌词是什么？

模型回答

结果分析

回答正确，很惊艳，LLM的泛化能力。

买男士牛仔裤就上京东这句话中的品牌词是什么？

模型回答

结果分析

回答正确，很惊艳，LLM的泛化能力。

将“买男士牛仔裤就上京东”这句话中的品牌词替换成苏宁易购。

模型回答

结果分析

回答正确，很惊艳，LLM的泛化能力。有可能是Multi-Task Instruction Pre-Training。

将“买男士牛仔裤就上京东”这句话中的品牌词替换成拼多多。

模型回答

结果分析

回答错误，模型泛化能力不足。