ChatGPT解决这个技术问题 Extra ChatGPT

为什么 Java 允许在源代码中使用转义的 unicode 字符?

recently learned在 Java 源代码中允许 Unicode 不仅作为 Unicode 字符(例如 double π = Math.PI; )而且作为转义序列(例如 double \u03C0 = Math.PI; )。

第一个变体对我来说很有意义——它允许程序员用他们选择的国际语言命名变量和方法。但是,我没有看到第二种方法的任何实际应用。

下面是几段代码来说明用法,并使用 Java SE 6 和 NetBeans 6.9.1 进行了测试:

此代码将打印出 3.141592653589793

public static void main(String[] args) {
    double π = Math.PI;
    System.out.println(\u03C0);
}

解释: π 和 \u03C0 是同一个 Unicode 字符

此代码不会打印出任何内容

public static void main(String[] args) {
    double π = Math.PI; /\u002A
    System.out.println(π);

    /* a comment */
}

解释:上面的代码实际上编码:

public static void main(String[] args) {
    double π = Math.PI; /*
    System.out.println(π);

    /* a comment */
}

其中注释掉了打印语句。

仅从我的示例中,我就注意到此语言功能存在许多潜在问题。

首先,一个糟糕的程序员可能会使用它来秘密地注释掉一些代码,或者创建多种方法来识别同一个变量。也许还有其他我没有想到的可怕的事情可以做。

其次,IDE 之间似乎缺乏支持。 NetBeans 和 Eclipse 都没有为示例提供正确的代码突出显示。事实上,NetBeans 甚至标记了一个语法错误(尽管编译不是问题)。

最后,这个特性没有得到很好的记录,也没有被普遍接受。为什么程序员会在他的代码中使用其他程序员无法识别和理解的东西?事实上,我什至在 Hidden Java Features question 上都找不到这方面的内容。

我的问题是这样的:

为什么 Java 允许在语法中使用转义的 Unicode 序列?尽管有许多“缺点”,但该功能有哪些“优点”使其成为 Java 的一部分?

“首先,一个糟糕的程序员可以用它来......”一个糟糕的程序员会找到另一种让代码变得更糟的方法,即使没有 unicode 转义。
毫无疑问,一个糟糕的程序员总会想办法让代码变得更糟。我想说的是,Java 设计者做出了深思熟虑的决定,以尽量减少滥用。例如,多重继承、指针、宏和运算符重载是 C++ 中的常见做法,但具体未包含在 Java 中。
为了获得更多乐趣,请将 /\u002A 移到 IDE 视口之外的最右侧。
@TiborBlenessy因为那棵树不在Unicode的BMP(基本多语言平面)中。 Java 允许在 Java 源代码中使用 BMP 中的任何字符。
@vurp0,那是完全错误的。也接受非 BMP。但是树被拒绝了,因为它的 unicode category 不是 LETTER_NUMBER。请参阅 docs.oracle.com/javase/7/docs/api/java/lang/…stackoverflow.com/a/65490/632951

N
Nayuki

Unicode 转义序列允许您以纯 ASCII 存储和传输源代码,并且仍然使用整个 Unicode 字符范围。这有两个优点:

没有非 ASCII 字符被无法处理的工具破坏的风险。这在 1990 年代初设计 Java 时是一个真正的问题。发送包含非 ASCII 字符的电子邮件并使其完好无损地到达是例外而不是常态。

无需告诉编译器和编辑器/IDE 使用哪种编码来解释源代码。这仍然是一个非常有效的担忧。当然,更好的解决方案是将编码作为文件头中的元数据(如在 XML 中),但这在当时还没有成为最佳实践。

第一个变体对我来说很有意义——它允许程序员用他们选择的国际语言命名变量和方法。但是,我没有看到第二种方法的任何实际应用。

两者都将产生完全相同的字节码,并具有与语言功能相同的功能。唯一的区别在于源代码。

首先,一个糟糕的程序员可能会使用它来秘密地注释掉一些代码,或者创建多种方法来识别同一个变量。

如果您担心程序员故意破坏代码的可读性,那么这种语言功能是您遇到的最小问题。

其次,IDE 之间似乎缺乏支持。

这几乎不是功能或其设计者的错。但是,我不认为它曾经打算“手动”使用。理想情况下,IDE 可以选择让您正常输入字符并正常显示,但会自动将它们保存为 Unicode 转义序列。甚至可能已经存在使 IDE 以这种方式运行的插件或配置选项。

但总的来说,这个功能似乎很少使用,因此可能得不到很好的支持。但是 1993 年左右设计 Java 的人怎么会知道呢?


No need to tell the compiler and editor/IDE which encoding to use for interpreting the source code:你确定吗?在 US-ASCIIUTF-8 中编码的字符串 System.out.println(\\u03C0); 为 27 个字节,但例如 UTF-16 将输出 56 个字节。大多数字符集将为此字符串返回相同的 27 个字节,但不是全部。所以我猜源文件的编码仍然是一个问题。
@Michael Konietzka:他显然意味着它允许人们使用纯ASCII文件,这不会混淆任何像样的IDE,编译器或编辑器......
7 位安全也适用于电子邮件
不要忘记通常版本控制系统还不支持 Unicode,让 IDE 选择应该使用的字符集。使用纯 ASCII + 转义,任何兼容的选择都可以(但当然,UTF16 仍然不是)。
S
Steven Schlansker

\u03C0 编码的好处是它不太可能被具有错误编码设置的文本编辑器修改。例如,我的软件中的一个错误是由错误配置的文本编辑器从 UTF-8 é 意外转换为 MacRoman é 引起的。通过指定 Unicode 代码点,您的意思完全明确。


T
Thorbjørn Ravn Andersen

\uXXXX 语法允许 Unicode 字符在文件中以无法直接表达它们的编码明确表示,或者如果您希望即使在最低公分母(即 7 位 ASCII 编码)中也能保证可用的表示。

你可以用 \uXXXX 来表示你的所有字符,甚至是空格和字母,但很少需要这样做。


A
AlexR

首先,谢谢你的提问。我认为这很有趣。其次,原因是java源文件是一个可以使用自身各种字符集的文本。例如,Eclipse 中的默认字符集是 Cp1255。这种结束不支持像 π 这样的字符。我认为他们考虑了必须在不支持 unicode 的系统上工作的程序员,并希望允许这些程序员创建支持 unicode 的软件。这就是支持 \u 符号的原因。


Eclipse 中的默认字符集是平台的默认字符集。在您的计算机上它可能是 CP1255,在我的计算机上它是 UTF-8。
A
Andy Turner

语言规范 says why this is permitted。可能还有其他未说明的原因,以及意想不到的好处和后果;但这提供了对问题的直接答案(强调我的):

使用以下三个词汇转换步骤将原始 Unicode 字符流转换为标记序列,依次应用: 将原始 Unicode 字符流中的 Unicode 转义(第 3.3 节)转换为相应的 Unicode 字符。 \uxxxx 形式的 Unicode 转义,其中 xxxx 是十六进制值,表示编码为 xxxx 的 UTF-16 代码单元。此转换步骤允许任何程序仅使用 ASCII 字符来表示。 ...