java按字节截取带有汉字的字符串的解法--688IT编程网

java按字节截取带有汉字的字符串的解法由于接⼝使⽤的oracle字段长度为固定字节数，然后传进来的字符串估计⽐数据库字段的总字节数要⼤，那么截取⼩于数据库字节数的字符串。

⾃⼰参考⽹上的例⼦，整了个递归调⽤就可以了，因为截取的字符字节长度必须⼩与数据库的字节长度，即如果最后⼀个字符为汉字，那么只能去掉往前截取。 /**

* 判断传进来的字符串，是否

* ⼤于指定的字节，如果⼤于递归调⽤

* 直到⼩于指定字节数，⼀定要指定字符编码，因为各个系统字符编码都不⼀样，字节数也不⼀样

* @param s

* 原始字符串

* @param num

* 传进来指定字节数

* @return String 截取后的字符串

* @throws UnsupportedEncodingException

public static String idgui(String s,int num)throws Exception{

int changdu = s.getBytes("UTF-8").length;

if(changdu > num){

s = s.substring(0, s.length() - 1);

s = idgui(s,num);

}

return s;

}

java⾯试题：

编写⼀个截取字符串的函数，输⼊为⼀个字符串和字节数，输出为按字节截取的字符串。但是要保证汉字不被截半个，如"我ABC"4，应该截为"我AB"，输⼊"我ABC汉DEF"，6，应该输出为"我ABC"⽽不是"我ABC+汉的半个"。

⽬前很多流⾏的语⾔，如C#、Java内部采⽤的都是 Unicode 16（UCS2）编码，在这种编码中所有的字符都是两个字符，因此，如果要截取的字符串是中、英⽂、数字混合的，就会产⽣问题，如下⾯的字符串：

String s = "a加b等于c，如果a等1、b等于2，那么c等3";

上⾯的字符串既有汉字，⼜有英⽂字符和数字。如果要截取前6个字节的字符，应该是”a加b等"，但如果⽤substring⽅法截取前6个字符就成了"a 加b等于c"。产⽣这个问题的原因是将substring⽅法将双字节的汉字当成⼀个字节的字符（UCS2字符）处理了。

英⽂字母和中⽂汉字在不同的编码格式下，所占⽤的字节数也是不同的，我们可以通过下⾯的例⼦来看看在⼀些常见的编码格式下，⼀个英⽂字母和⼀个中⽂汉字分别占⽤多少字节。

Java代码

1. import java.io.UnsupportedEncodingException;

3. public class EncodeTest {

4. /**

5. * 打印字符串在指定编码下的字节数和编码名称到控制台

6. *

7. * @param s

8. * 字符串

9. * @param encodingName

10. * 编码格式

11. */

12. public static void printByteLength(String s, String encodingName) {

13. System.out.print("字节数：");

14. try {

15. System.out.Bytes(encodingName).length);

16. } catch (UnsupportedEncodingException e) {

17. e.printStackTrace();

18. }

19. System.out.println("；编码：" + encodingName);

20. }

21.

22. public static void main(String[] args) {

23. String en = "A";

24. String ch = "⼈";

25.

26. // 计算⼀个英⽂字母在各种编码下的字节数

27. System.out.println("英⽂字母：" + en);

28. EncodeTest.printByteLength(en, "GB2312");

29. EncodeTest.printByteLength(en, "GBK");

30. EncodeTest.printByteLength(en, "GB18030");

31. EncodeTest.printByteLength(en, "ISO-8859-1");

32. EncodeTest.printByteLength(en, "UTF-8");

33. EncodeTest.printByteLength(en, "UTF-16");

34. EncodeTest.printByteLength(en, "UTF-16BE");

35. EncodeTest.printByteLength(en, "UTF-16LE");

36.

37. System.out.println();

38.

39. // 计算⼀个中⽂汉字在各种编码下的字节数

40. System.out.println("中⽂汉字：" + ch);

41. EncodeTest.printByteLength(ch, "GB2312");

42. EncodeTest.printByteLength(ch, "GBK");

43. EncodeTest.printByteLength(ch, "GB18030");

44. EncodeTest.printByteLength(ch, "ISO-8859-1");

45. EncodeTest.printByteLength(ch, "UTF-8");

46. EncodeTest.printByteLength(ch, "UTF-16");

47. EncodeTest.printByteLength(ch, "UTF-16BE");

48. EncodeTest.printByteLength(ch, "UTF-16LE");

49. }

50. }

运⾏结果如下：

1. 英⽂字母：A

2. 字节数：1；编码：GB2312

3. 字节数：1；编码：GBK

4. 字节数：1；编码：GB18030

5. 字节数：1；编码：ISO-8859-1

6. 字节数：1；编码：UTF-8

7. 字节数：4；编码：UTF-16

8. 字节数：2；编码：UTF-16BE

9. 字节数：2；编码：UTF-16LE

10. 中⽂汉字：⼈

11. 字节数：2；编码：GB2312

12. 字节数：2；编码：GBK

13. 字节数：2；编码：GB18030

14. 字节数：1；编码：ISO-8859-1

15. 字节数：3；编码：UTF-8

16. 字节数：4；编码：UTF-16

17. 字节数：2；编码：UTF-16BE

18. 字节数：2；编码：UTF-16LE

UTF-16BE和UTF-16LE是UNICODE编码家族的两个成员。UNICODE标准定义了UTF-8、UTF-16、UTF-32三种编码格式，共有UTF-8、UTF-16、UTF-16BE、UTF-16LE、UTF-32、UTF-32BE、UTF-32LE七种编码⽅案。JAVA所采⽤的编码⽅案是UTF-16BE。从上例的运⾏结果中我们可以看出，GB2312、GBK、GB18030三种编码格式都可以满⾜题⽬的要求。下⾯我们就以GBK编码为例来进⾏解答。

我们不能直接使⽤String类的substring(int beginIndex, int endIndex)⽅法，因为它是按字符截取的。'我'和'Z'都被作为⼀个字符来看

待，length都是1。实际上我们只要能区分开中⽂汉字和英⽂字母，这个问题就迎刃⽽解了，⽽它们的区别就是，中⽂汉字是两个字节，英⽂字母是⼀个字节。

wyulong.iptv.billing.ftpupload;

import java.io.UnsupportedEncodingException;

public class CutString {

/**

* 判断是否是⼀个中⽂汉字

* @param c

* 字符

* @return true表⽰是中⽂汉字，false表⽰是英⽂字母

* @throws UnsupportedEncodingException

* 使⽤了JAVA不⽀持的编码格式

public static boolean isChineseChar(char c)

throws UnsupportedEncodingException {

/ 如果字节数⼤于1，是汉字

// 以这种⽅式区别英⽂字母和中⽂汉字并不是⼗分严谨，但在这个题⽬中，这样判断已经⾜够了 return String.valueOf(c).getBytes("UTF-8").length > 1;

}

/**

* 按字节截取字符串

* @param orignal

* 原始字符串

* @param count

* 截取位数

* @return 截取后的字符串

* @throws UnsupportedEncodingException

* 使⽤了JAVA不⽀持的编码格式

public static String substring(String orignal, int count)

throws UnsupportedEncodingException {

// 原始字符不为null，也不是空字符串

if (orignal != null && !"".equals(orignal)) {

// 将原始字符串转换为GBK编码格式

orignal = new Bytes(), "UTF-8");//

// System.out.println(orignal);

//System.out.Bytes().length);

/ 要截取的字节数⼤于0，且⼩于原始字符串的字节数

if (count > 0 && count < Bytes("UTF-8").length) {

StringBuffer buff = new StringBuffer();

char c;

for (int i = 0; i < count; i++) {

System.out.println(count);

c = orignal.charAt(i);

buff.append(c);

if (CutString.isChineseChar(c)) {

// 遇到中⽂汉字，截取字节总数减1

--count;

}

// System.out.println(new String().getBytes("GBK"),"UTF-8"));

return new String().getBytes(),"UTF-8");

}

return orignal;

}

/**

* 按字节截取字符串

* @param orignal

* 原始字符串

* @param count

* 截取位数

* @return 截取后的字符串

* @throws UnsupportedEncodingException

* 使⽤了JAVA不⽀持的编码格式

public static String gsubstring(String orignal, int count)

throws UnsupportedEncodingException {

// 原始字符不为null，也不是空字符串

if (orignal != null && !"".equals(orignal)) {

// 将原始字符串转换为GBK编码格式

orignal = new Bytes(), "GBK");

// 要截取的字节数⼤于0，且⼩于原始字符串的字节数

if (count > 0 && count < Bytes("GBK").length) {

StringBuffer buff = new StringBuffer();

char c;

for (int i = 0; i < count; i++) {字符串截取几个字符

c = orignal.charAt(i);

buff.append(c);

if (CutString.isChineseChar(c)) {

/ 遇到中⽂汉字，截取字节总数减1

--count;

}

String();

}

return orignal;

}

/**

* 判断传进来的字符串，是否

* ⼤于指定的字节，如果⼤于递归调⽤

* 直到⼩于指定字节数

* @param s

* 原始字符串

* @param num

* 传进来指定字节数

* @return String 截取后的字符串

public static String idgui(String s,int num){

int changdu = s.getBytes().length;

if(changdu > num){

s = s.substring(0, s.length() - 1);

s = idgui(s,num);

}

return s;

}

public static void main(String[] args) throws Exception{

// 原始字符串

String s = "我ZWR爱你们JAVA";

System.out.println("原始字符串：" + s + " : 字节数是: " + s.getBytes().length); /* System.out.println("截取前1位：" + CutString.substring(s, 1));

System.out.println("截取前2位：" + CutString.substring(s, 2));

System.out.println("截取前4位：" + CutString.substring(s, 4)); */

//System.out.println("截取前12位：" + CutString.substring(s, 12));

System.out.println("截取前12字节：" + CutString.idgui(s, 11));

}

688IT编程网

java按字节截取带有汉字的字符串的解法

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

java按字节截取带有汉字的字符串的解法

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性