最近,ChatGPT 风靡全球,重新点燃了人们对大型语言模型的热情。虽然ChatGPT 作为演示是免费的,但其常规使用的模型(比如 GPT-3)是收费的,使用量根据 token(token 或叫词语,大型语言模型将文本中的句子、段落切分成字符串序列,而其中的元素通常称为 token)来计算。输入一个短语时,你可以通过分词器页面预览该短语中包含多少 token。
下面,我们来输入一个英文短语,看看它使用了多少个 token。
下面来试试法语。
下面是简体中文。
还有韩文。
同一句话,英语的 token 为 4 个,法语为 7 个,中文为 15 个,而韩文为 23 个——为什么同一个句子的 token,数量差异会如此巨大?
分词,将语言解析为字节大小的片段
分词(Tokenization)是一种将字符和单词组合成通用模式的方法。实现技术有很多种,而且每种技术都有其优点和缺点。不同模型可以使用同一种分词器,但研究人员通常会根据希望优化的任务选择特殊的分词器。
如开头所示,我们看到了一个句子中包含 token 数量的例子,下面我们尝试将其应用于更全面的数据集。此处,我们将使用一个亚马逊发布的数据集 MASSIVE(https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding),其中包含 100 多万个短语,更准确来说是话语(utterance)。MASSIVE 将相同的话语翻译成了 51 种语言,因此非常适合我们的这个实验。
图:MASSIVE 数据集朝着多语言自然语言理解模型迈出了一步,这种模型可以轻松推广到新语言。(亚马逊,2022 年)
下面,我们使用 8 个不同的分词器(都来自通用语言模型)来可视化 MASSIVE 数据集包含多少个 token。
图 1:每个模型分析出的 MASSIVE 数据集中英语以及其他 50 种语言包含的 token 数量
我们来看看这张图:X 轴是分词器的名称,Y 轴是 token 数量。我们可以看到,GPT 和 Facebook 的 OPT 模型在 token 数量上的方差最大,它们似乎对英语进行了优化,其他模型在 token 数量上相对更加平衡。
图 2:语言样本的 token 分布
我们来看看最大 token 数与最小 token 数之间的比率,这样就可以大致了解成本因素的影响。
图 3:最佳分词与最差分词之间的比率
可以看到,GPT 是排名最低的分词器的 15.77 倍。
测试提示
接下来,我们来看看完成一项任务所需的成本。在没有提示的情况下,直接通过 GPT-3 运行这些话语,每种语言的成本是多少?GPT-3 的定价是公开的,最常见的 GPT-3 版本是 DaVinci。
这个单价乘以上述统计的 token 数,最终我们得到的结果是:token 数量最多的语言成本为 27.98 美元,而最便宜的语言只有 1.76 美元——这个差异未免太大了。
下面,假设我们为每个话语添加一个提示,例如“rewrite the following sentence into a nicer tone”(将下面这句话的语气改得更柔和一些)。另外,我们还需要考虑响应,因为这是 token 数量统计的一部分。
在这个实验中,我们使用了大量英语和马拉雅拉姆语(印度南部喀拉拉邦通行的语言)来测试前 51 个话语。最终的结果如下图所示,二者相差 15.69 倍,与我们最初的分词实验一致。
图 4:英语与马拉雅拉姆语的Token使用量之比
成本之外的影响
随着大型语言模型的应用越来越广泛,英语和非英语之间的差距只会越来越大。准确性一直是一个标准问题,因为我们使用的文本语料库比较小,且大多数基准测量的都是英语的性能,很少有母语人士阅读训练数据确认其使用有效性。
姑且先将准确性放在一边,单纯看 token 用量增加的影响,可能会有四个方面:更高的成本、更长的等待时间、更少表达的提示和更有限的响应。
▶ 更高的成本:许多小语种主要是南半球在使用,token 的使用量却与美元挂钩,所以全球很多地区都负担不起大型语言模型 API 的使用费用。这似乎意味着,在成本下降之前,该领域的发展将很艰难。出于这个原因,相较于使用英语、法语、西班牙语或中文提示的公司,使用小语种提示的创业公司,成本会更高。
▶ 更长的等待时间:由于生成 token 需要很多时间,因此某些任务将无法执行。基于 GPT 的模型一次只能预测下一个 token,这意味着如果需要生成许多 token,响应会非常慢。使用这些语言实现的实时搜索或聊天机器人支持等某些任务速度会太慢,本来只需要 200 毫秒的应用程序可能需要 3 秒。
▶ 更少表达的提示:考虑到 token 的生成限制,一些提示可能无法使用。目前 GPT-3 的限制为 2048 个 token,即目前基于 GPT 模型的提示长度受到限制,因此需要更长提示的任务(比如汇总摘要)会受到很大影响。
▶ 更有限的响应:响应限制也是一个需要考虑到因素。GPT-3 最多只能返回 4000 个 token,大致相当于用某种语言生成一条推文或是用其他语言生成博客文章的长度。
总结:为什么 token 针对英语进行了优化?
那么,为什么分词如此侧重于英语呢?原因是互联网上的大部分内容都是用英语书写的,而这些模型就是以这些内容为基础训练的。
分词器的目标是为模型创建表达模式,将文本压缩成小块,并提高模型的准确性。既然大多数基准测试和训练数据都是英文的,那么针对英语进行优化也就不足为奇了。然而,有些模型拥有更具代表性的分词器,因此更适合处理多语言任务。通过上述实验,我们看到的 8 个模型中,有 5 个模型的分词器价差相对较小。
目前研究人员和工程师还在努力获取更准确更平等的结果,上面列出的模型之一 NLLB(No Language Left Behind)是 Facebook 开源的项目,可翻译 200 种语言。因此,如图 3 所示,该模型的分词比率最佳。
好在,目前语言模型的成本已大幅下降,今年 Open AI 的成本下降了 66%。商业及开源模型在处理长文本方面的能力在持续提升,单独运行的难度也越来越低。另一方面,运行这些模型的硬件速度也在不断提升,价格也随之越来越便宜,我们应该齐心协力创建更易于使用的各种语言模型。
原文来自「CSDN」|侵删
●
●
●
●
●
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...