登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

AP计算机众里寻他千百度,名师成就满分路

AP计算机

 
 
 

日志

 
 
关于我

大学讲师,中国首批AP计算机教师,著有中国第一套,历经五年实践证明深受学生欢迎的成功的AP计算机双语教材,2013年以93%的满分率开创了中国AP计算机成功的先河,远远超出全美26.6%的满分率,为中国AP计算机教学树立了典范,并在同年加拿大计算机竞赛中勇夺桂冠,任教学生获哥伦比亚大学,麻省理工学院,卡耐基梅隆大学,宾夕法尼亚大学,康奈尔大学,西北大学等学校录取,远程学生遍及北京、长春、南京、重庆、广州、济南, 深圳、成都、费城,洛杉矶,加州,宾州,新罕布什尔州等地,希望借此平台为信息技术的发展做出贡献!

Java输入汉字的编码问题(转载)  

2015-02-25 17:28:12|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

这个简单的Java程序竟然有问题,如果我们输入的是中文,程序不会正常输出。

  1. import java.util.Scanner;  
  2. public class Test {  
  3.     public static void main(String[] args) {  
  4.         Scanner scanner = new Scanner(System.in);  
  5.         String s = scanner.next();  
  6.         System.out.println("你输入了 = "+ s);  
  7.     }  
  8. }  

  1. 结果:  
  2. run:  
  3. 陶   // 用户输入  
  4. 你输入了 = ??  
  5. 成功生成(总时间:7 秒)  

这究竟是为什么呢?
先了解一下Java的输入文件流机制,System.in是字节流。系统是按照每个字节读入,最后组成字节组作为读入的。

Scanner是套在System.in外面的字符流。下面我们直接显示System.in读入的字节

  1. public class Bianma {  
  2.     private static void printBytes(byte[] bytes) {  
  3.         for (byte b : bytes) {  
  4.             printByte(b);  
  5.         }  
  6.         System.out.println();  
  7.     }  
  8.     private static void printByte(byte abyte) {  
  9.         String hex = "00"+Integer.toHexString((int)abyte);  
  10.         System.out.print(hex.substring(hex.length() - 2) + "\t");  
  11.     }  
  12.     public static void main(String[] args) throws IOException {  
  13.         String s = "陶";  
  14.         printBytes(s.getBytes("GBK"));  
  15.         printBytes(s.getBytes("UTF-8"));  
  16.         byte b = (byte) System.in.read();  
  17.         while (true) {  
  18.             printByte(b);  
  19.             b = (byte) System.in.read();  
  20.         }  
  21.     }  
  22. }  

我们可以看到System.in读入的字节流是默认以GBK编码的。

  1. run:  
  2. cc        d5      // 陶的GBK编码      
  3. e9        99        b6        // 陶的UTF8编码  
  4. 陶  
  5. cc        d5        0a    // 0a是回车生成的   

对比,可以知道Scanner的字符套默认是以GBK编码转化的。
下面这个输出可以验证

  1. byte[] b = new byte[]{new Byte((byte0xcc), new Byte((byte0xd5)};  
  2. System.out.println(new String(b, "GBK"));  

这个输出可以准确输出为:陶。
因此,我们有两个方法解决这个问题:

一、使用以下方式读入

  1. Scanner scanner = new Scanner(System.in, "GBK");  

二、更改默认编码

  1. String encoding = System.getProperty("file.encoding");  
  2. System.out.println(encoding);  

这个输出为UTF8。如果输出为GBK则不会又开头所提的问题。可以认为file.encoding的值是Java程序main入口函数的默认编码。

NetBeans修改方法如下:


附注:
可以看到陶的UTF8编码为
e9 99 b6 
ef bb bf e9 99 b6(带有BOM头,其中BOM头为ef bb bf)
Unicode的编码为fe ff 76 96,其中fffe是控制高位和低位的发送顺序的。
其中变化方法如下:


  评论这张
 
阅读(357)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018