固有表現抽出のコードを書いた
20万形態素の文から固有表現を抽出するコードを書いた
固有表現辞書とのパターンマッチによる手法を使ってるけど、20万形態素を一つずつずらしながらパターンマッチをしてるので、多分一番効率が悪い。
ループ数が20万×130になってしまった。
末尾の表記揺れも考慮してないしなあ。
試しに動かしてるけど一時間ぐらいかかりそう。
もっと早いやり方があるはずなので調べなくては。
ググるなり本を探すなりしよう。
githubとかあんまり使ったことないけど、そういうとこに載ってたりするのかな。