【Java】 漢字からカタカナを取得する [2] ~ kuromoji編 ~

はじめに

http://blogs.yahoo.co.jp/dk521123/36627267.html
のつづき。[1] kuromoji を使用する。

準備

http://www.atilika.com/ja/downloads/
でJARファイル(今回は「kuromoji-0.7.7.jar」)をダウンロードし、インポートするだけ。
使いやすい!

サンプル

import java.util.List;

import org.atilika.kuromoji.Token;
import org.atilika.kuromoji.Tokenizer;
import org.atilika.kuromoji.Tokenizer.Builder;
import org.atilika.kuromoji.Tokenizer.Mode;

public class Main {
  public static void main(String[] args) {
    System.out.println(toKana("山田 孝雄"));
    System.out.println(toKana("鈴木 崇"));
    System.out.println(toKana("斎藤 孝之"));
    System.out.println(toKana("渡辺 麻子"));
  }

  public static String toKana(String targetValue) {
    Builder builder = Tokenizer.builder();
    builder.mode(Mode.NORMAL);
    Tokenizer tokenizer = builder.build();
    List<Token> tokens = tokenizer.tokenize(targetValue);

    StringBuilder returnValue = new StringBuilder();
    for (Token token : tokens) {
      returnValue.append(token.getReading());
    }
    return returnValue.toString();
  }
}

出力結果

ヤマダ タカオ
スズキ タカシ
サイトウ タカユキ
ワタナベ アサコ


関連記事

漢字からカタカナを取得する [1] ~ 日本語形態素解析ライブラリ 基本編 ~

http://blogs.yahoo.co.jp/dk521123/36627267.html

漢字からカタカナを取得する [2] ~ kuromoji編 ~

http://blogs.yahoo.co.jp/dk521123/36627316.html

漢字からカタカナを取得する [3] ~ lucene-gosen編 ~

http://blogs.yahoo.co.jp/dk521123/36627324.html

Java】 文字列の類似度・レーベンシュタイン距離/ジャロ・ウィンクラー距離 ~ Apache Lucene

http://blogs.yahoo.co.jp/dk521123/36655532.html