[Python]Wikipediaの概要取得(改):ただのテキスト処理とも言う
先日[Python3.x]lxml 3.1.0を用いて巨大なxmlファイルの処理をゴリ押すでWikipediaの概要を取得するためにxmlで頑張ったのだが、記事で最後に述べたようにParser使わずに普通にテキスト処理し [...]
先日[Python3.x]lxml 3.1.0を用いて巨大なxmlファイルの処理をゴリ押すでWikipediaの概要を取得するためにxmlで頑張ったのだが、記事で最後に述べたようにParser使わずに普通にテキスト処理し [...]
さて、形態要素解析の準備が整っても例文がなければ話にならない。 ということで、Wikipediaのabstract(概要)をコーパスに利用しようと思った。 Wikipediaデータベースダウンロードから jawiki-2 [...]