※この記事は「将棋 Advent Calendar 2016 – Adventar」の19日目です。
将棋連盟の棋士データベースを使って色々と遊んでみるシリーズ、今回は棋士名に使われている文字を分解してワードクラウド(タグクラウド)を作ってみたいと思います。
棋士名でワードクラウド
出来上がったワードクラウドがこちら。
棋士名に使われている文字を一文字ずつに分解して集計し、その文字が使われている数が多ければ大きく、少なければ小さく表示されるようになっています。
本当は姓名を分けて名前だけでやりたかったのですが、棋士データベースは姓名の区切りが分かるようになっていなかったので断念。そのせいか、やはり大きな文字は名字によく使われる漢字がほとんどを占めたようです。
ちなみにこちらが多かった文字のトップ10。「田」の圧倒的勝利でしたね。
文字 | 回数 |
---|---|
田 | 54回 |
藤 | 31回 |
一 | 31回 |
村 | 26回 |
野 | 23回 |
山 | 22回 |
中 | 19回 |
雄 | 18回 |
佐 | 17回 |
大 | 17回 |
作り方
ワードクラウドの作成にはこちらのライブラリを使わせてもらいました。
こんな php スクリプトを走らせて、棋士データ全部入りの kishi_all.json からどの文字が何回使われているかというワードクラウド用のリストを作りました。
この記事で作ったコードは全てこちらに上げてありますので、ご自由にご覧ください。