Wikipediaの概要を50000行読み込んで作ったデータベースで適当にマルコフ連鎖してみた
とはいっても、区切りが文節ではなくMeCabで取得したIPA品詞体系のもの。
データベースの形式は、
[前のワード,前の品詞Type1,前の品詞Type2,ワード,品詞Type1,品詞Type2,次のワード,次の品詞Type1,次の品詞Type2]
といったもの。
品詞のタイプは容量削減のためハッシュで圧縮した。

■単純Markov
・トマトや新田義重
・トマト、や赤色、し信仰のなど並行在来線たれ行わでグレゴリオ暦あるで東武鉄道
■品詞縛りMarkov1
・トマトで市内たかれ、で実験滴定の車両また、は暦法の各種など合わせるを事項扱うを種
子する意味この
・トマトで線型関数が見方捉えるとポテンシャルエネルギーのゲームファーストパーソン・シューティング
■品詞縛りMarkov2
・トマト.p、または軽巡洋艦の制限厳しくはツー・ムーンズ?ないは真田幸隆
・トマトと色に対しシンボルの販売現在

品詞縛りMarkov1は次のType1を縛る。
品詞縛りMarkov2は次のType2を縛る。
品詞で区切ってしまっているので、「と」などの助詞や「、」などの記号の前後でぜんぜん違う文章になってしまう。
また、概要の整形が不完全なため余分な記号が入ってしまう。
データベースを作り直す必要がある。
面倒くさい。

それと、マルコフテーブルはあまり大きくないほうがいいようだ。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

  プロフィール  PR:無料HP  安い 合宿免許  給与滞納  職業実践専門課程  カー用品の専門店  スタッドレスタイヤ 激安  タイヤ ストリーム 激安  東京 専門学校 就職  エンジンパーツ 中古部品  民泊 収入  業務用食材  株プロフェット 評判  タイヤ取付予約  シアリス 効果