文化人ブログ

文化人になりた~い!

【日記】固有表現抽出うんぬんかんぬん

固有表現抽出に関する覚え書き。

大したことは書きませんし、正確でない表現があるかも。

 

テキストデータから特定の語ないしそれを指す表現を自動で特定し抽出することを固有表現抽出と呼ぶ。

特定の語ってのは例えば人名や地名だったりポジティブな言葉だったり。

例えば連載小説から人名を自動で特定できると、登場人物の行動をもとに人物相関図を作れたり、何話から何話にかけて登場したのか解析できたりしてうれしい。

 

人名を自動で抽出するにはどうするか。

簡単な方法は、人名辞典のような人名を網羅したデータを用意して、載っている語を片っ端から抽出する方法(専門用語でパターンマッチングと呼ばれる)がある。

辞書がどれだけ網羅しているかにもよるけど、調整するなり頑張れば抜けなく抽出することが出来る。

ただし、弱点がある。例えば「松本」は人名と地名の両方で出てきて区別できない。

あと、人物相関図作ろうとするなら、「彼」とか「彼女」みたいな三人称が誰を指しているのかを明らかにする必要があったりする(これもパターンマッチではできない)。

 

なので、三人称を特定しようとしたり、人名と地名をちゃんと区別しようと考えるなら、固有表現抽出をパターンマッチでやるのには限界がある。

結局、パターンマッチの性能じゃ満足できない場合は前後の文脈を機械学習あるいは深層学習で学習する手法を使ったりする(このへんはまだちゃんと調べられてない)。

 

覚え書きここまで。