Wikipediaの概要を50000行読み込んで作ったデータベースで適当にマルコフ連鎖してみた
とはいっても、区切りが文節ではなくMeCabで取得したIPA品詞体系のもの。
データベースの形式は、
[前のワード,前の品詞Type1,前の品詞Type2,ワード,品詞Type1,品詞Type2,次のワード,次の品詞Type1,次の品詞Type2]
といったもの。
品詞のタイプは容量削減のためハッシュで圧縮した。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
public static Dictionary<string, int> Type1 = new Dictionary<string,int>() { {"*", 0}, {"連体詞", 1}, {"接頭詞", 2}, {"名詞", 3}, {"動詞", 4}, {"形容詞", 5}, {"副詞", 6}, {"接続詞", 7}, {"助詞", 8}, {"助動詞", 9}, {"感動詞", 10}, {"記号", 11}, {"フィラー", 12}, {"その他", 13}, {"未知語", 14}, }; |
■単純Markov
・トマトや新田義重
・トマト、や赤色、し信仰のなど並行在来線たれ行わでグレゴリオ暦あるで東武鉄道
■品詞縛りMarkov1
・トマトで市内たかれ、で実験滴定の車両また、は暦法の各種など合わせるを事項扱うを種
子する意味この
・トマトで線型関数が見方捉えるとポテンシャルエネルギーのゲームファーストパーソン・シューティング
■品詞縛りMarkov2
・トマト.p、または軽巡洋艦の制限厳しくはツー・ムーンズ?ないは真田幸隆
・トマトと色に対しシンボルの販売現在
品詞縛りMarkov1は次のType1を縛る。
品詞縛りMarkov2は次のType2を縛る。
品詞で区切ってしまっているので、「と」などの助詞や「、」などの記号の前後でぜんぜん違う文章になってしまう。
また、概要の整形が不完全なため余分な記号が入ってしまう。
データベースを作り直す必要がある。
面倒くさい。
それと、マルコフテーブルはあまり大きくないほうがいいようだ。