形態素解析システム茶筌とデータマイニング用コマンド群Musashiを使ってmaruiblog内に出てくる名詞の出現回数を調べてみました。参考記事はYet Another 仕事のツール 第46回 茶筌とMUSASHIで純和風テキストマイニング。
アルファベットはうまく単語として認識されなかったので省いてあります。これを見ると、もちろん投稿者名の「時間+蠅」が大量に出てきますが、接続詞の「の」を名詞だと勘違いしているところもあります。あとは投稿日を表す「年/月/日」も大量に出ています。
自分が書いた文章の中には「人」「僕/自分」「日本」「円」「研究」「仕事」「音」「開発」「必要」「家」「メール」などがたくさん入っています。だから何だというわけじゃないんですが、自分の考え方の一端が見えてくるような気がして、ちょっと気味悪いですね。
単語 | 品詞 | 出現回数 | 順位 |
---|---|---|---|
の | 名詞 | 1303 | 1 |
時間 | 名詞 | 781 | 2 |
ん | 名詞 | 670 | 3 |
こと | 名詞 | 658 | 4 |
蠅 | 名詞 | 640 | 5 |
よう | 名詞 | 395 | 6 |
人 | 名詞 | 338 | 7 |
もの | 名詞 | 299 | 8 |
僕 | 名詞 | 222 | 9 |
自分 | 名詞 | 211 | 10 |
そう | 名詞 | 205 | 11 |
それ | 名詞 | 175 | 12 |
年 | 名詞 | 155 | 13 |
とき | 名詞 | 141 | 14 |
中 | 名詞 | 140 | 15 |
日 | 名詞 | 122 | 16 |
的 | 名詞 | 120 | 17 |
ところ | 名詞 | 114 | 18 |
これ | 名詞 | 112 | 19 |
一 | 名詞 | 112 | 20 |
日本 | 名詞 | 108 | 21 |
さ | 名詞 | 92 | 22 |
者 | 名詞 | 90 | 23 |
気 | 名詞 | 89 | 24 |
円 | 名詞 | 80 | 25 |
研究 | 名詞 | 77 | 26 |
ため | 名詞 | 76 | 27 |
何 | 名詞 | 71 | 28 |
版 | 名詞 | 69 | 29 |
数 | 名詞 | 68 | 30 |
仕事 | 名詞 | 67 | 31 |
音 | 名詞 | 67 | 32 |
前 | 名詞 | 66 | 33 |
本 | 名詞 | 66 | 34 |
方 | 名詞 | 66 | 35 |
開発 | 名詞 | 65 | 36 |
話 | 名詞 | 65 | 37 |
わけ | 名詞 | 64 | 38 |
月 | 名詞 | 63 | 39 |
上 | 名詞 | 60 | 40 |
必要 | 名詞 | 60 | 41 |
家 | 名詞 | 59 | 42 |
たち | 名詞 | 58 | 43 |
メール | 名詞 | 57 | 44 |
个ア | 名詞 | 54 | 45 |
みたい | 名詞 | 54 | 46 |
用 | 名詞 | 53 | 47 |
二 | 名詞 | 53 | 48 |
日記 | 名詞 | 53 | 49 |
今 | 名詞 | 52 | 50 |