0%

GLM-130B 模型效果测试

GLM-130B是清华开源的LLM,以下是验证模型的效果。以下效果设定参数是BeamSearchBeam=10

蝙蝠侠是谁?

模型回答

130B-1.png

结果分析

由于GLM-130B是语言模型,所以其会继续续写接下来的内容。这也和其定位是符合的(对标GPT-3)。继续续写则是:
130B-1-1.png

1955年谁是美国总统?

模型回答

130B-2.png

结果分析

回答错误,本意是让其回答具备人物,但是明显其不具备该能力。

2008年全球票房最高的电影是什么?

模型回答

130B-3.png

结果分析

回答错误。

2008年全球票房最高的电影由谁执导?

模型回答

130B-4.png

结果分析

回答错误。

香蕉的平方根是?

模型回答

130B-5.png

结果分析

回答错误。

买男士牛仔裤就上淘宝 这句话中的品牌词是什么?

模型回答

130B-6.png

结果分析

回答正确,很惊艳,LLM的泛化能力。

买男士牛仔裤就上京东 这句话中的品牌词是什么?

模型回答

130B-7.png

结果分析

回答正确,很惊艳,LLM的泛化能力。

将“买男士牛仔裤就上京东”这句话中的品牌词替换成苏宁易购。

模型回答

130B-8.png

结果分析

回答正确,很惊艳,LLM的泛化能力。有可能是Multi-Task Instruction Pre-Training

将“买男士牛仔裤就上京东”这句话中的品牌词替换成拼多多。

模型回答

130B-9.png

结果分析

回答错误,模型泛化能力不足。