>> Java入門トップに戻る
Javaで文字コードを変換してファイルを読み込む方法を説明します。
Javaは内部的に文字エンコーディングとしてUTF-16を利用しているため、読み込むファイルの文字コードが別の文字コードだと読み込んだ時に文字化けしてしまいます。
なので変換して読み込んでやる必要があります。
私が知ってる方法としては2つあります。
以下のコードを見てください。
次に「InputStreamReaderクラス」のコンストラクタの第1引数にFileInputStreamのインスタンスを、第2引数に「読み込むファイルの文字コード」を指定します。
上記の例では文字コードがSHIFT_JISのファイルなので「SHIFT_JIS」と書いていますが、UTF-8なら「UTF-8」等と指定します。
表記としては「SJIS」や「utf8」みたいに幾つか色々な表記が可能なようですので、そちらはググッて調べてください。
最後にこのInputStreamReaderクラスのインスタンスをBufferedReaderクラスのコンストラクタの引数に指定し、BufferedReaderのインスタンスを生成します。
このようにInputStreamReaderで橋渡しすることによって、SHIFT_JISのファイルをJavaの内部文字コードのUTF-16に変換しながら読み込んでくれるというわけです。
次に実際の読み込み部分です。
文字コードを変換しながら読み込んでくれてるので、「readLineメソッド」で1行ずつ読み込むだけです。
「null」を返すとファイルの末尾まで読み込んだことになるのでその時にループを拔ける仕組みです。
以上が「InputStreamReaderクラス」を使った文字コードの変換&読み込みの方法でした。
「ByteArrayOutputStreamクラス」や「Stringクラスのコンストラクタ」を利用する方法です。
以下のコードを見てください。
また、「ByteArrayOutputStreamクラス」というクラスのインスタンスも生成しておきます。
これはバイト配列に書き込まれるバイト配列出力ストリームを作成してくれます。
要は読み込んだデータを「byte型の配列として」バッファを自動的に拡張しながら保持してくれるクラスです。
このバイト配列出力ストリームに書き込まれたデータは「byte型の配列として」後で取り出すことが出来ます。
データ読み込み部分です。
ByteArrayOutputStreamには「writeメソッド」が用意されており、このメソッドを使うことでバイト配列出力ストリームに書き込むことが出来ます。
イメージとしては配列をちょっとずつ拡張しながら読み込んだデータを配列に入れていくイメージです。
次に文字コード変換部分です。
このメソッドを実行することで、Javaの内部文字コードであるUTF-16に変換してString型の文字列を取得できるというわけです。
また、さらに下のコードには「Stringクラスのコンストラクタ」を利用して文字コードを変換する方法も記載しています。
その後、このbyte配列を「Stringクラスのコンストラクタ」の第一引数に指定し、第二引数に「読み込んだファイルの文字コード」指定しています。
このようにStringクラスのコンストラクタを実行してインスタンスを生成することで、文字コードを変換して文字列を取得することもできます。
以上、読み込んだデータの文字コードを変換する方法を説明しました。
>> 【文字コードを変換してファイル書き込み】に進む
>> Java入門トップに戻る
文字コードを変換してファイル読み込み
Javaは内部的に文字エンコーディングとしてUTF-16を利用しているため、読み込むファイルの文字コードが別の文字コードだと読み込んだ時に文字化けしてしまいます。
なので変換して読み込んでやる必要があります。
私が知ってる方法としては2つあります。
InputStreamReaderを使う
一つ目の方法は「InputStreamReaderクラス」を使う方法です。以下のコードを見てください。
package file; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; public class FileTest{ public static void main(String[] args){ FileInputStream fi = null; InputStreamReader is = null; BufferedReader br = null; try { //インスタンス生成 fi = new FileInputStream("SHIFT_JIS.txt"); is = new InputStreamReader(fi,"SHIFT_JIS"); br = new BufferedReader(is); String tmp; //1行ずつ読み込み while((tmp=br.readLine())!=null){ System.out.println(tmp); } } catch (Exception e){ e.printStackTrace(); }finally{ try { br.close(); } catch (Exception e) { e.printStackTrace(); } } } }インスタンス生成部分を見てください。
//インスタンス生成 fi = new FileInputStream("SHIFT_JIS.txt"); is = new InputStreamReader(fi,"SHIFT_JIS"); br = new BufferedReader(is);まず、FileInputStreamのコンストラクタの引数にファイル名を指定してFileInputStreamインスタンスを生成します。
次に「InputStreamReaderクラス」のコンストラクタの第1引数にFileInputStreamのインスタンスを、第2引数に「読み込むファイルの文字コード」を指定します。
上記の例では文字コードがSHIFT_JISのファイルなので「SHIFT_JIS」と書いていますが、UTF-8なら「UTF-8」等と指定します。
表記としては「SJIS」や「utf8」みたいに幾つか色々な表記が可能なようですので、そちらはググッて調べてください。
最後にこのInputStreamReaderクラスのインスタンスをBufferedReaderクラスのコンストラクタの引数に指定し、BufferedReaderのインスタンスを生成します。
このようにInputStreamReaderで橋渡しすることによって、SHIFT_JISのファイルをJavaの内部文字コードのUTF-16に変換しながら読み込んでくれるというわけです。
次に実際の読み込み部分です。
//1行ずつ読み込み while((tmp=br.readLine())!=null){ System.out.println(tmp); }後は普通のテキストファイルの読み込みと同じですね。
文字コードを変換しながら読み込んでくれてるので、「readLineメソッド」で1行ずつ読み込むだけです。
「null」を返すとファイルの末尾まで読み込んだことになるのでその時にループを拔ける仕組みです。
以上が「InputStreamReaderクラス」を使った文字コードの変換&読み込みの方法でした。
ByteArrayOutputStreamやStringクラスのコンストラクタを利用して文字コード変換
もう一つの文字コードを変換して読み込む方法です。「ByteArrayOutputStreamクラス」や「Stringクラスのコンストラクタ」を利用する方法です。
以下のコードを見てください。
package file; import java.io.BufferedInputStream; import java.io.ByteArrayOutputStream; import java.io.FileInputStream; public class FileTest{ public static void main(String[] args){ FileInputStream fi = null; BufferedInputStream bi = null; ByteArrayOutputStream bos = null; try { //インスタンス生成 fi = new FileInputStream("SHIFT_JIS.txt"); bi = new BufferedInputStream(fi); bos = new ByteArrayOutputStream(); int tmp; //1バイトずつ読み込み while((tmp=bi.read())!=-1){ //読み込んだデータをバイト配列に溜める。 bos.write(tmp); } //ByteArrayOutputStreamのtoStringメソッドで変換 String test = bos.toString("SHIFT_JIS"); //表示 System.out.println(test); //ここからはStringクラスのコンストラクタを利用した方法 //バイト配列を書き出し byte bytetmp[] = bos.toByteArray(); //Stringクラスのコンストラクタを利用して文字コード変換 String test2 = new String(bytetmp,"SHIFT_JIS"); //表示 System.out.println(test2); } catch (Exception e){ e.printStackTrace(); }finally{ try { bi.close(); bos.close(); } catch (Exception e) { e.printStackTrace(); } } } }インスタンス生成部分です。
//インスタンス生成 fi = new FileInputStream("SHIFT_JIS.txt"); bi = new BufferedInputStream(fi); bos = new ByteArrayOutputStream();ファイル自体はBufferedInputStreamでバイナリデータとして読み込むため、BufferedInputStreamのインスタンスを生成しておきます。
また、「ByteArrayOutputStreamクラス」というクラスのインスタンスも生成しておきます。
これはバイト配列に書き込まれるバイト配列出力ストリームを作成してくれます。
要は読み込んだデータを「byte型の配列として」バッファを自動的に拡張しながら保持してくれるクラスです。
このバイト配列出力ストリームに書き込まれたデータは「byte型の配列として」後で取り出すことが出来ます。
データ読み込み部分です。
//1バイトずつ読み込み while((tmp=bi.read())!=-1){ //読み込んだデータをバイト配列出力ストリームに書き込む。 bos.write(tmp); }データを1バイトずつ読み込んで、その読みこんだデータをバイト配列出力ストリームに書き込んでいます。
ByteArrayOutputStreamには「writeメソッド」が用意されており、このメソッドを使うことでバイト配列出力ストリームに書き込むことが出来ます。
イメージとしては配列をちょっとずつ拡張しながら読み込んだデータを配列に入れていくイメージです。
次に文字コード変換部分です。
//ByteArrayOutputStreamのtoStringメソッドで変換 String test = bos.toString("SHIFT_JIS"); //表示 System.out.println(test);ByteArrayOutputStreamには「toStringメソッド」が用意されており、この引数に「読み込んだファイルの文字コード」を指定します。
このメソッドを実行することで、Javaの内部文字コードであるUTF-16に変換してString型の文字列を取得できるというわけです。
また、さらに下のコードには「Stringクラスのコンストラクタ」を利用して文字コードを変換する方法も記載しています。
//ここからはStringクラスのコンストラクタを利用した方法 //バイト配列を書き出し byte bytetmp[] = bos.toByteArray(); //Stringクラスのコンストラクタを利用して文字コード変換 String test2 = new String(bytetmp,"SHIFT_JIS"); //表示 System.out.println(test2);まず、ByteArrayOutputStreamの「toByteArrayメソッド」を使って、バイト配列出力ストリームに書き込まれたデータを「byte型の配列」として取り出しています。
その後、このbyte配列を「Stringクラスのコンストラクタ」の第一引数に指定し、第二引数に「読み込んだファイルの文字コード」指定しています。
このようにStringクラスのコンストラクタを実行してインスタンスを生成することで、文字コードを変換して文字列を取得することもできます。
以上、読み込んだデータの文字コードを変換する方法を説明しました。
>> 【文字コードを変換してファイル書き込み】に進む
>> Java入門トップに戻る