マルコフ連鎖のテスト：改良の余地がたくさん無気力ラボ

Wikipediaの概要を50000行読み込んで作ったデータベースで適当にマルコフ連鎖してみた
とはいっても、区切りが文節ではなくMeCabで取得したIPA品詞体系のもの。
データベースの形式は、
[前のワード,前の品詞Type1,前の品詞Type2,ワード,品詞Type1,品詞Type2,次のワード,次の品詞Type1,次の品詞Type2]
といったもの。
品詞のタイプは容量削減のためハッシュで圧縮した。

public static Dictionary<string, int> Type1 = new　Dictionary<string,int>()
{
      {"*", 0},
      {"連体詞", 1},
      {"接頭詞", 2},
      {"名詞", 3},
      {"動詞", 4},
      {"形容詞", 5},
      {"副詞", 6},
      {"接続詞", 7},
      {"助詞", 8},
      {"助動詞", 9},
      {"感動詞", 10},
      {"記号", 11},
      {"フィラー", 12},
      {"その他", 13},
      {"未知語", 14},
};

public static Dictionary<string, int> Type1 = new　Dictionary<string,int>()

{

{"*", 0},

{"連体詞", 1},

{"接頭詞", 2},

{"名詞", 3},

{"動詞", 4},

{"形容詞", 5},

{"副詞", 6},

{"接続詞", 7},

{"助詞", 8},

{"助動詞", 9},

{"感動詞", 10},

{"記号", 11},

{"フィラー", 12},

{"その他", 13},

{"未知語", 14},

};

■単純Markov
・トマトや新田義重
・トマト、や赤色、し信仰のなど並行在来線たれ行わでグレゴリオ暦あるで東武鉄道
■品詞縛りMarkov１
・トマトで市内たかれ、で実験滴定の車両また、は暦法の各種など合わせるを事項扱うを種
子する意味この
・トマトで線型関数が見方捉えるとポテンシャルエネルギーのゲームファーストパーソン・シューティング
■品詞縛りMarkov２
・トマト.p、または軽巡洋艦の制限厳しくはツー・ムーンズ?ないは真田幸隆
・トマトと色に対しシンボルの販売現在

品詞縛りMarkov１は次のType1を縛る。
品詞縛りMarkov２は次のType2を縛る。
品詞で区切ってしまっているので、「と」などの助詞や「、」などの記号の前後でぜんぜん違う文章になってしまう。
また、概要の整形が不完全なため余分な記号が入ってしまう。
データベースを作り直す必要がある。
面倒くさい。

それと、マルコフテーブルはあまり大きくないほうがいいようだ。

月	火	水	木	金	土	日
« 4月
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

マルコフ連鎖のテスト：改良の余地がたくさん

コメントを残すコメントをキャンセル

プロフィール

Ainocce

最近の投稿

アーカイブ

カテゴリー

最近のコメント

メタ情報