在Java中,要计算UTF字符串的长度,不能直接使用length()
方法,因为该方法返回的是字符数,而不是字节数。对于UTF-8编码的字符串,一个字符可能占用1到4个字节。为了准确计算UTF字符串的字节长度,可以使用以下方法:
public static int utf8Length(String str) { int length = 0; for (int i = 0; i < str.length(); i++) { char ch = str.charAt(i); if ((ch & 0xC0) != 0x80) { // 判断是否为ASCII字符 length++; } else if ((ch & 0xE0) != 0xC0) { // 判断是否为3字节字符 length += 2; } else if ((ch & 0xF0) != 0xE0) { // 判断是否为4字节字符 length += 3; } else { // 判断是否为5字节字符(实际上UTF-8中不存在5字节字符) length += 4; } } return length; }
这个方法会遍历字符串中的每个字符,检查其前几位以确定它是一个单字节字符、双字节字符、三字节字符还是四字节字符。然后,根据字符的字节数累加长度计数器。最后,返回累加后的长度。