根据您的经验,到目前为止,哪些 Unicode 字符、代码点、BMP(基本多语言平面)之外的范围最常见?这些是在 UTF-8 中需要 4 个字节或在 UTF-16 中需要代理的那些。
我本来希望答案是名称中使用的中文和日文字符,但不包括在最普遍的 CJK 多字节字符集中,但在我做最多的项目,英文维基词典中,我们发现哥特字母是到目前为止更常见。
更新
我编写了几个软件工具来扫描整个维基百科中的非 BMP 字符,令我惊讶的是,即使在日语维基百科中哥特字母也是最常见的。中文维基百科也是如此,但它也有许多汉字被使用多达 50 或 70 次,包括“𨭎”、“𠬠”和“𩷶”。
表情符号现在是迄今为止最常见的非 BMP 字符。😂,也被称为 U+1F602 FACE WITH TEARS OF JOY,是 Twitter 公共流中最常见的一个。它比波浪号更频繁地出现!