Skip to content

tkng/im-corpus-builder

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Japanese input method corpus builder

これはなに?

日本語のふりがな付きのコーパスを作るためのスクリプトです。

download.shでダウンロードを行い、prepare_dataset.pyで使いやすい形式に変換処理等を行います。

bash download.sh
uv run python prepare_dataset.py

prepare_dataset.pyは、ルールベースである程度の振り仮名の修正を行います。

ライセンス

本ソースコードはMITライセンスです。元データのライセンスについては元データのサイトで確認してください。

元データ

About

Japanese input method corpus builder

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published