说我有一个网址
http://example.com/query?q=
我有一个用户输入的查询,例如:
随机词 £500 银行 $
我希望结果是正确编码的 URL:
http://example.com/query?q=random%20word%20%A3500%20bank%20%24
实现这一目标的最佳方法是什么?我尝试了 URLEncoder
并创建了 URI/URL 对象,但没有一个是完全正确的。
URLEncoder
是要走的路。您只需要记住编码 only 单个查询字符串参数名称和/或值,而不是整个 URL,确保不是查询字符串参数分隔符 &
也不是参数名称 -值分隔符 =
。
String q = "random word £500 bank $";
String url = "https://example.com?q=" + URLEncoder.encode(q, StandardCharsets.UTF_8);
如果您仍未使用 Java 10 或更高版本,则使用 StandardCharsets.UTF_8.toString()
作为字符集参数,或者当您仍未使用 Java 7 或更高版本时,请使用 "UTF-8"
。
请注意,查询参数中的空格由 +
表示,而不是 %20
,这是合法有效的。 %20
通常用于表示 URI 本身中的空格(URI 查询字符串分隔符 ?
之前的部分),而不是查询字符串(?
之后的部分)。
另请注意,共有三种 encode()
方法。一个没有 Charset
作为第二个参数,另一个没有 String
作为第二个参数,这会引发检查异常。不推荐使用没有 Charset
参数的那个。永远不要使用它并始终指定 Charset
参数。 javadoc 甚至明确建议使用 RFC3986 和 W3C 规定的 UTF-8 编码。
所有其他字符都是不安全的,并且首先使用某种编码方案将其转换为一个或多个字节。然后每个字节由 3 个字符的字符串“%xy”表示,其中 xy 是字节的两位十六进制表示。推荐使用的编码方案是 UTF-8。但是,出于兼容性原因,如果未指定编码,则使用平台的默认编码。
也可以看看:
每个 Web 开发人员必须了解的有关 URL 编码的知识
我不会使用 URLEncoder
。除了名称不正确(URLEncoder
与 URL 无关)之外,效率低下(它使用 StringBuffer
而不是 Builder 并且执行其他一些很慢的事情)它也太容易搞砸了。
相反,我会使用 URIBuilder
或 Spring's org.springframework.web.util.UriUtils.encodeQuery
or Commons Apache HttpClient
。原因是您必须以不同于参数值的方式转义查询参数名称(即 BalusC 的答案 q
)。
上述唯一的缺点(我痛苦地发现)是URL's are not a true subset of URI's。
示例代码:
import org.apache.http.client.utils.URIBuilder;
URIBuilder ub = new URIBuilder("http://example.com/query");
ub.addParameter("q", "random word £500 bank \$");
String url = ub.toString();
// Result: http://example.com/query?q=random+word+%C2%A3500+bank+%24
由于我只是链接到其他答案,因此我将其标记为社区 wiki。随意编辑。
URLEncoder
正如其 javadoc 所说,旨在编码查询字符串参数符合 application/x-www-form-urlencoded
,如 HTML 规范中所述:w3.org/TR/html4/interact/…。一些用户确实混淆/滥用它来编码整个 URI,就像当前的回答者显然所做的那样。
您需要首先创建一个 URI,例如:
String urlStr = "http://www.example.com/CEREC® Materials & Accessories/IPS Empress® CAD.pdf"
URL url= new URL(urlStr);
URI uri = new URI(url.getProtocol(), url.getUserInfo(), url.getHost(), url.getPort(), url.getPath(), url.getQuery(), url.getRef());
然后将该 Uri 转换为 ASCII 字符串:
urlStr=uri.toASCIIString();
现在您的 url 字符串已完全编码,首先我们进行了简单的 url 编码,然后我们将其转换为 ASCII 字符串,以确保字符串中没有 US-ASCII 以外的字符。这正是浏览器的工作方式。
URL.toURI()
无效,这很愚蠢。
+
替换空格,但接受 %20 所以这个解决方案比 BalusC 效果更好,谢谢!
Guava 15 现在添加了 a set of straightforward URL escapers。
URLEncoder
相同的愚蠢转义规则。
URLEncoder
没有。
URL url= new URL("http://example.com/query?q=random word £500 bank $");
URI uri = new URI(url.getProtocol(), url.getUserInfo(), IDN.toASCII(url.getHost()), url.getPort(), url.getPath(), url.getQuery(), url.getRef());
String correctEncodedURL=uri.toASCIIString();
System.out.println(correctEncodedURL);
印刷
http://example.com/query?q=random%20word%20%C2%A3500%20bank%20$
这里发生了什么?
1. 将 URL 拆分为结构部分。使用 java.net.URL
。
2.正确编码每个结构部分!
3. 使用 IDN.toASCII(putDomainNameHere)
来 Punycode 编码主机名!
4. 使用 java.net.URI.toASCIIString()
进行百分比编码,NFC 编码的 unicode -(最好是 NFKC!)。有关详细信息,请参阅:How to encode properly this URL
在某些情况下,建议使用 check if the url is already encoded。还要用 '%20' 编码空格替换 '+' 编码空格。
以下是一些也可以正常工作的示例
{
"in" : "http://نامهای.com/",
"out" : "http://xn--mgba3gch31f.com/"
},{
"in" : "http://www.example.com/‥/foo",
"out" : "http://www.example.com/%E2%80%A5/foo"
},{
"in" : "http://search.barnesandnoble.com/booksearch/first book.pdf",
"out" : "http://search.barnesandnoble.com/booksearch/first%20book.pdf"
}, {
"in" : "http://example.com/query?q=random word £500 bank $",
"out" : "http://example.com/query?q=random%20word%20%C2%A3500%20bank%20$"
}
该解决方案通过了 Web Plattform Tests 提供的大约 100 个测试用例。
Apache Http 组件库为构建和编码查询参数提供了一个简洁的选项 -
使用 HttpComponents 4.x - URLEncodedUtils
对于 HttpClient 3.x 使用 - EncodingUtil
您可以在代码中使用以下方法将 url 字符串和参数映射转换为包含查询参数的有效编码 url 字符串。
String addQueryStringToUrlString(String url, final Map<Object, Object> parameters) throws UnsupportedEncodingException {
if (parameters == null) {
return url;
}
for (Map.Entry<Object, Object> parameter : parameters.entrySet()) {
final String encodedKey = URLEncoder.encode(parameter.getKey().toString(), "UTF-8");
final String encodedValue = URLEncoder.encode(parameter.getValue().toString(), "UTF-8");
if (!url.contains("?")) {
url += "?" + encodedKey + "=" + encodedValue;
} else {
url += "&" + encodedKey + "=" + encodedValue;
}
}
return url;
}
使用 Spring 的 UriComponentsBuilder:
UriComponentsBuilder
.fromUriString(url)
.build()
.encode()
.toUri()
在android中我会使用这个代码:
Uri myUI = Uri.parse ("http://example.com/query").buildUpon().appendQueryParameter("q","random word A3500 bank 24").build();
其中 Uri
是 android.net.Uri
在我的情况下,我只需要传递整个 url 并只编码每个参数的值。我没有找到这样做的通用代码(!!)所以我创建了这个小方法来完成这项工作:
public static String encodeUrl(String url) throws Exception {
if (url == null || !url.contains("?")) {
return url;
}
List<String> list = new ArrayList<>();
String rootUrl = url.split("\\?")[0] + "?";
String paramsUrl = url.replace(rootUrl, "");
List<String> paramsUrlList = Arrays.asList(paramsUrl.split("&"));
for (String param : paramsUrlList) {
if (param.contains("=")) {
String key = param.split("=")[0];
String value = param.replace(key + "=", "");
list.add(key + "=" + URLEncoder.encode(value, "UTF-8"));
}
else {
list.add(param);
}
}
return rootUrl + StringUtils.join(list, "&");
}
public static String decodeUrl(String url) throws Exception {
return URLDecoder.decode(url, "UTF-8");
}
它使用 org.apache.commons.lang3.StringUtils
使用这个: URLEncoder.encode(query, StandardCharsets.UTF_8.displayName());或者这个:URLEncoder.encode(query, "UTF-8");您可以使用以下代码。 String encodedUrl1 = UriUtils.encodeQuery(query, "UTF-8");//不改变 String encodedUrl2 = URLEncoder.encode(query, "UTF-8");//改变 String encodedUrl3 = URLEncoder.encode(query, StandardCharsets. UTF_8.displayName());//改变 System.out.println("url1 " + encodedUrl1 + "\n" + "url2=" + encodedUrl2 + "\n" + "url3=" + encodedUrl3);
=
和 &
分隔符,这是不正确的。
不定期副业成功案例分享
URLEncoder
用于 URL 编码的查询参数符合application/x-www-form-urlencoded
规则。路径参数不属于此类别。您需要一个 URI 编码器。