GLM-130B是清华开源的LLM
,以下是验证模型的效果。以下效果设定参数是BeamSearch
,Beam=10
蝙蝠侠是谁?
模型回答
结果分析
由于GLM-130B
是语言模型,所以其会继续续写接下来的内容。这也和其定位是符合的(对标GPT-3
)。继续续写则是:
1955年谁是美国总统?
模型回答
结果分析
回答错误,本意是让其回答具备人物,但是明显其不具备该能力。
2008年全球票房最高的电影是什么?
模型回答
结果分析
回答错误。
2008年全球票房最高的电影由谁执导?
模型回答
结果分析
回答错误。
香蕉的平方根是?
模型回答
结果分析
回答错误。
买男士牛仔裤就上淘宝 这句话中的品牌词是什么?
模型回答
结果分析
回答正确,很惊艳,LLM
的泛化能力。
买男士牛仔裤就上京东 这句话中的品牌词是什么?
模型回答
结果分析
回答正确,很惊艳,LLM
的泛化能力。
将“买男士牛仔裤就上京东”这句话中的品牌词替换成苏宁易购。
模型回答
结果分析
回答正确,很惊艳,LLM
的泛化能力。有可能是Multi-Task Instruction Pre-Training
。
将“买男士牛仔裤就上京东”这句话中的品牌词替换成拼多多。
模型回答
结果分析
回答错误,模型泛化能力不足。