告别“令牌”与“代币”:Token 正式定名“词元”,AI 话语权步入“中文纪元”
发表时间:2026-03-27
浏览次数:次
当你在使用 ChatGPT、文心一言等大语言模型时,背后有一个几乎每秒钟都在运转的核心概念——Token。长久以来,这个计算机行业的“多面手”术语在国内技术文档和大众认知中处于“各自为政”的混乱状态:开发者称其为“令牌”,区块链用户叫它“代币”,而在大模型语境下,更多人无奈地直接使用英文“Token”。
近日,这一局面终于迎来了根本性转变。经全国信息技术标准化技术委员会(以下简称“全国信标委”)审议通过,并报请国家标准化管理委员会备案,Token 的中文译名正式确定为 “词元” 。该术语将作为强制性国家标准《人工智能 术语》(计划编号:20241014-T-469)的核心条目之一,自 2026 年 4 月 1 日起正式生效实施。
这意味着,从学术论文到技术文档,从大模型定价体系到开发者的代码注释,“词元”将成为 Token 唯一规范的中文表述。这不仅是翻译层面的定名,更是中国在人工智能基础术语标准化进程中迈出的关键一步。
一、一个“词元”的诞生:从混乱到统一
要理解“词元”这一命名的分量,首先需要回溯 Token 一词在中文语境下的漫长漂泊。
在计算机科学领域,Token 堪称“跨界之王”。上世纪 70 年代,它在编译原理中代表词法分析的最小单元,被译为“标记”或“记号”;90 年代,随着身份认证技术普及,Token 成了硬件“令牌”;进入本世纪,区块链浪潮又赋予其“代币”的金融属性。
然而,随着 2022 年以来大语言模型的爆发式增长,Token 在人工智能领域的使用频率呈指数级上升。它成为了计费单位(如 GPT-4 按每千 Token 收费)、模型能力的衡量标尺(上下文长度从 4K 到 1M Token),更是理解大模型工作原理的核心钥匙。
“但问题随之而来。”全国信标委人工智能分技术委员会副主任委员、清华大学计算机系教授王向东在接受采访时指出,“在同一个技术会议上,做区块链的专家说‘代币’,做编译的老师讲‘标记’,做大模型的团队直接说英文‘Token’。概念的混淆严重阻碍了技术交流与产业协作。”
2024 年初,全国信标委启动了《人工智能 术语》国家标准的修订工作。在术语征集阶段,“Token 如何翻译”成为讨论最激烈、反馈意见最多的议题之一。工作组共收到来自高校、科研院所、头部互联网企业及用户单位的有效意见 217 条,其中超过 60% 的反馈集中在对“Token”中文译名的争议上。
“我们收到的提案五花八门。”标准起草组核心成员、中国电子技术标准化研究院高级工程师张琦回忆道,“有建议沿用‘令牌’的,有主张音译‘托肯’的,还有根据其在模型中的功能提出‘语义碎片’的。大家意识到,这个名词的定名已经不仅仅是语言学问题,而是关系到我国人工智能产业底座是否稳固的战略性问题。”
二、“词元”二字,何以服众?
在长达 18 个月的论证过程中,“词元”二字为何能从众多候选者中脱颖而出?
据标准起草组披露的《术语定名原则报告》,评审专家委员会最终确立了三条核心标准:准确性、单义性、可扩展性。
首先是准确性。“词元”精准捕捉了 Token 在自然语言处理中的双重属性。“词”指明了其语言学归属——它是文本处理的基本单元,可以是一个词、一个字,也可以是词的一部分;“元”则强调了其原子性、基础性与不可再分性,体现了其在计算系统中的底层地位。
“在中文语境下,‘词元’让人联想到‘元素’、‘单元’,既保留了技术严谨性,又符合汉语的构词习惯。”北京大学计算语言学研究所所长王厚峰教授分析道,“相比之下,‘令牌’侧重身份验证,‘代币’强调价值流通,都无法涵盖 Token 在大模型中作为‘语义基元’的核心功能。”
其次是单义性。术语的生命在于精确。一个术语对应一个概念,是信息产业标准化的基石。“词元”的确立,有望终结 Token 一词在不同技术领域中“一名多义”的混乱局面。标准明确界定:“词元是文本处理过程中的基本语义单元,是模型进行概率预测与计算的最小独立单位。”这一界定,将“词元”与区块链领域的“代币”、安全领域的“令牌”彻底区隔开来。
第三是可扩展性。随着多模态大模型的发展,Token 的概念已开始向图像、视频、音频领域延伸,出现了“Image Token”“Audio Token”等衍生概念。“词元”中的“词”字是否会造成局限性?起草组对此进行了反复推演。
“我们考虑过‘智元’、‘数元’等更宏大的表述,但最终认为,在当前及可预见的未来,语言模型仍是大模型技术的基座,‘词’作为符号系统的基本载体,具有强大的泛化能力。”张琦解释说,“在标准文本中,我们增加了注释:在图像、音频等多模态场景下,可依据上下文扩展为‘图像词元’、‘音频词元’。‘词元’作为根术语,具备良好的构词能力。”
三、定名背后的产业逻辑:从“跟随”到“定义”
为 Token 定中文名,绝不仅仅是咬文嚼字。
从产业应用层面看, 统一术语是规模化应用的前提。当前,国内主流大模型厂商均采用“Token”作为计费单元。无论是百度文心一言的“千字约 1.5 Token”,还是阿里通义千问的“每百万 Token 定价”,普通用户面对这个陌生的英文单词往往一头雾水。术语专家指出,用户认知门槛直接影响了国产大模型的普及效率。
“当我们在产品界面上把‘消耗了多少 Token’改为‘消耗了多少词元’,用户的理解成本会大幅降低。”百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜表示,“‘词元’这个名称让用户能够直观联想到文字处理,拉近了技术与大众的距离。”
从技术自主层面看, 术语标准是国家技术主权的重要组成部分。长期以来,中文信息技术领域充斥着“借词”与“译而不统”的现象。从早期的“Bit”(比特/位元)到“Cache”(缓存/快取),两岸三地的术语差异至今仍未完全弥合。而在人工智能这一战略领域,尽早确立统一、科学、符合汉语规律的核心术语,有助于构建自主可控的技术话语体系。
“拥有自己的术语体系,意味着我们不再是被动的技术接受者,而是标准的定义者。”王向东教授强调,“当国际同行来华交流,我们需要告诉他们,在中国,Token 被称为‘Ciyuan’(词元),这个词背后承载的是我们对语言单元的本土化理解。”
四、落地与展望:“词元”之后,路向何方?
根据国家标准实施计划,自 2026 年 4 月 1 日起,所有由国家财政资助的人工智能项目、学术论文、技术标准文件,均应采用“词元”作为规范术语。同时,工信部已向国内主流大模型厂商、云服务商发文,建议在 2026 年底前完成产品界面、技术文档及计费体系的术语更新工作。
不过,从“推荐性标准”到“全行业普及”,仍有很长一段路要走。开发者社区的习惯转变、存量代码与文档的术语更新、中英文技术文献的表述统一,都将是未来两年的攻坚重点。
“我们理解开发者习惯了用 Token,不会强制要求他们在代码变量名里也改成‘ciyuan’。”张琦笑着表示,“但在正式的技术文档、学术论文、产品说明书中,我们希望大家能够遵守国家标准,使用‘词元’。这是对中文作为科技语言的尊重,也是对行业规范化的贡献。”
“词元”的确立,是中国人工智能标准化进程中的一个缩影。近年来,全国信标委已陆续发布了《人工智能 深度学习框架功能要求》《人工智能 大规模预训练模型总体技术要求》等一系列关键标准。在术语领域,除了“词元”,此次《人工智能 术语》标准还一并明确了“提示词”(Prompt)、“对齐”(Alignment)、“幻觉”(Hallucination)等 300 余条核心术语的中文表述。
回望历史,从 1899 年严复在《英文汉诂》中首创“名学”翻译 Logic,到 21 世纪“软件”“硬件”等术语的广泛接受,再到今天“词元”的正式确立,中文始终在吸收、转化、定义着西方科技概念。在全球人工智能竞争进入“深水区”的当下,一个“词元”的确立,或许正是中国从技术大国迈向技术强国的微观注脚。
正如标准编制说明中的那句话所言:“术语是思想的容器。统一术语,就是为人工智能的中国实践铸造统一的思想容器。”
当“词元”一词被写入国家标准,写入教材,写入亿万行代码的注释,写进每一个 AI 产品的中文界面,我们见证的不只是一个单词的翻译定稿,更是一个古老语言在智能时代重新掌握定义权的开始。





