sd

${num_stars} Modify
简单来说,perplexity值刻画的是语言模型预测一个语言样本的能力。比如已经知道 这句话会出现在语料库之中,那么通过语言模型计算得到的这句话的概率越高,说明语言模型对这个语料库拟合的越好。(对于多个句子构成的测试集T,可以通过计算T中所有句子概率的乘积来计算困惑度,相应地,m将替换为测试集中所有词的数量) 从上面的定义中可以看出,perplexity实际是计算每一个词得到的概率倒数的几何平均,因此perplexity可以理解为平均分支系数(average branching factor),即模型预测下一个词时的平均可选择数量。例如,考虑一个由0~9这10个数字随机组成的长度为m的序列,由于这10个数字出现的概率是随机的,所以每个数字出现的概率是 。因此,在任意时刻,模型都有10个等概率的候选答案可选,于是perplexity就是10,计算过程如下:
File Name
Size
Available Clusters
Status
Creator
Upload Time
Operate
18 KiB
CPU/GPU
Private Public
2023-06-13 15:36:16
43 KiB
CPU/GPU
Private Public
2023-06-13 15:36:16
19 KiB
CPU/GPU
Private Public
2023-06-13 15:36:15