文化人ブログ

文化人になりた~い!

喫茶店でコーディング

固有表現抽出のコードを書いた

20万形態素の文から固有表現を抽出するコードを書いた

固有表現辞書とのパターンマッチによる手法を使ってるけど、20万形態素を一つずつずらしながらパターンマッチをしてるので、多分一番効率が悪い。

ループ数が20万×130になってしまった。

末尾の表記揺れも考慮してないしなあ。

試しに動かしてるけど一時間ぐらいかかりそう。

もっと早いやり方があるはずなので調べなくては。

ググるなり本を探すなりしよう。

githubとかあんまり使ったことないけど、そういうとこに載ってたりするのかな。