「単語の意味関連付けに関する調査

   - 関連語辞書強化と分野オントロジー抽出に向けて」

 

知識工学部 多田将志

20081010

目次

要旨... 1

目的... 2

単語の意味関連付け... 2

名詞連結版... 9

意味関係データベース... 18

まとめと課題... 25

 

要旨

昨年NIMS(独立行政法人 物質・材料研究機構)の物質・材料に特化したポータルサイト開発プロジェクト(http://e-materials.org/homeにて公開中)において関連語辞書を生成した。そこでは同じ文書に出てきた単語どうしには関係があるとしたが、どのような意味関係があるかまでは抽出してこなかった。意味関係まで含んで単語どうしを整理できれば、より効率的な検索機能を提供できると考えられる。また、セマンティックWEBにおいても、ある分野の知識を表す分野オントロジーの構築が求められるが、一から人手でオントロジーを構築するのは非常に困難な作業である。そこで特許文書などの文書群から、機械的に重要単語を選び、かつある程度意味関係を付けられれば、その分野のオントロジーの構築の手助けになると考えられる。本レポートでは、単語の意味関連付けについて調査したことをまとめる。本レポートではNIMSの関連語辞書生成の時と同じく名詞を対象とし、それら名詞どうしの意味関係を係り受けの定型に着目して探る方法を用いた。連続する名詞は連結して複合語とした方が意味がはっきりする場合が多いと考えられたので、名詞を連結する版でも調査を行った。さらに、名詞連結版で得られた単語の意味関連情報をデータベース化し、それに問い合わせを行ってどのような結果が得られるのか試してみた。

目的

NIMSのプロジェクトで生成した関連語辞書では、特許文書やHTMLから抽出したテキストを形態素解析し、単語(名詞)を抽出し、同じ文書に含まれる単語どうしは関係があるとして関連語を抽出していた。この方法により、例えば、電子という単語に対し、原子という単語が関連語と判断されていた。物理的には電子は原子に含まれており、これらの単語どうしにはPart-ofの意味関係があると考えられる。”Aを含むB”というのはPart-ofの定型的な表現であるので、文節の係り受けを解析することで、電子を含む原子という表現を頻繁に抽出されることが期待される。このように文節の係り受けを解析し、定型的な表現に着目することで単語どうしの意味関係を抽出することができるかもしれない。もし、このような事が可能であれば関連語辞書の強化や分野オントロジー抽出支援システムにつなげることができると思われる。セマンティックWEBにおいて、ある分野のオントロジーを構築する際、その分野に精通した人に上位オントロジーの単語を選定してもらい、それらの単語間の意味関係を逐一定義してもらうという考えもあるが、実際問題として対象となる分野の情報は膨大であり困難である。ある程度自動で機械的にそのような事が出来る方が望ましい。そこで、ある分野の膨大な文書群から重要単語を抽出し、それらの単語どうしの意味関係をある程度の精度で自動抽出することができれば、分野オントロジーの構築を支援する手助けになると思われる。また、単語どうしの意味関係まで含んだ関連語辞書を生成できれば、より効率的な検索機能を提供することができると思われる。

 

単語の意味関連付け

ここでは本レポートで試みた単語どうしの意味関連付けの方法について述べる。

おおまかな流れとして以下のようなものである。

 

1.        対象となる特許文書選び

2.        関連抽出対象となる単語を選定

3.        係り受け解析(cabocha)

4.        木構造(S)生成

5.        頻出するサブ木構造を抽出(freqt)

6.        定型表現に着目

 

対象となる特許文書選び

本レポートの調査では、NIMSから提供された数十万の特許文書の中から、IPC(国際特許分類)のG21(核物理、核工学)のものを使った。

IPC分類については、特許庁のサイトを参照。

http://www.jpo.go.jp/cgi/link.cgi?url=/shiryou/s_sonota/kokusai_t/ipc8wk.htm

 

NIMSから提供された特許文書のうち、IPC分類G21の特許文書は全部で715個あった。

これら715個の特許文書を今後の調査として用いることにした。

 

関連抽出対象となる単語を選定

関連抽出対象となる単語は、NIMSの関連語辞書生成のときと同じく、形態素解析して名詞と判断されたものとした。まずIPC分類G21715個の特許文書に含まれる文章を形態素解析した。日本語形態素解析エンジンとしてフリーで最もポピュラーなものとして知られている奈良先端科学技術大学院大学の松本研究室で開発されたchasenのバージョン2.3.3を用いた。chasenについてはhttp://chasen-legacy.sourceforge.jp/を参照。日本語テキストをchasenで形態素に分け(トークン化)、そのトークンの品詞を判定して名詞を抽出した。その際、chasenのデフォルト定義の品詞に加えて、独自の品詞を加えた。chasenでは設定ファイル(chasenrc)と品詞定義ファイル(grammar.cha)を変更することで、独自の品詞を結果として出力することが可能になる。ここでは、英語アルファベット、記号、数字が連続した場合は、連結して「複合アルファベット」という独自の品詞に解釈するようにした。例えば、炭素クラスターの一種で、炭素がサッカーボール型に結合した分子であるフラーレンはC60と表記される。初期設定のままのchasenの場合、Cをアルファベット、6を数字、0を数字と分解するためC60で一つの意味のある単語として抽出することができなかった。そこで、前述のような複合アルファベットという新しい品詞を定義することで、C60という塊で抽出できるように拡張した。chasenによって名詞、もしくは複合アルファベットと判断されたものを関連抽出対象の第一の候補とした。この段階で13955個の単語が抽出された。

 

去年の技術レポート(タイトル:関連語辞書)で、辞書サイズのスリム化の試みとして関連を計算する単語をTF-IDFの上位15%に絞りこんでも関連上位と判断された単語にほとんど影響がなかったので、本レポートの調査ではTF-IDFの上位15%の単語だけを対象とする。TF-IDF(Term Frequency-Inverse Document Frequency)は、単語の重要度の指標としてよく用いられている。TF-IDFの概念は何度も出てきた単語(TFが大きい)は重要であるが、どの文書にも出てくるような単語(IDFが小さい)は重要ではないという考え方に基づいており、論文などによって定義式は微妙に異なる。ここでは、ある文書に出てきた単語について以下のようにTF-IDFを定義した。

 

TF(Term Frequency):: ある単語がその文書に出てきた回数

IDF(Inverse Document Frequency)::  log(全文書数/その単語が出現した文書数)

TF-IDF = TF * IDF

 

13955個の単語のうちTF-IDFの上位15%1897-を対象単語とした。

 

係り受け解析(cabocha)

日本語の係り受け解析器として、サポートベクターマシンに基づく日本語係り受け解析器で、フリーで使うことができるcabochaを用いた。

cabochaについての詳細はhttp://chasen.org/~taku/software/cabocha/を参照。

 

cabochaでは標準入力から入力された1文をchasenまたはmecabの形態素解析エンジンで解析し、文節の係り受け解析結果を出力する。本レポートではchasenを使った。

以下がcabochaの実行例である。

 

[tada@makebashira ~]$ /usr/local/bin/cabocha

部屋が急に明るくなった。

        部屋が---D

            急に-D

    明るくなった。

EOS

 

上記は標準入力から「部屋が急に明るくなった。」という一文を入力し、cabochaによって係り受け解析をした結果が標準出力されたものである。デフォルトではツリー状に係り受け解析結果が出力される。ここでは「部屋が」が「明るくなった。」に係り、「急に」も「明るくなった。」に係っている。最後のEOSは文末(End of sentence)である。しかし、ツリー状の出力結果は、人間の目で結果を確認するには便利であるが、機械的に処理するには不便である。そこでcabochaではf1オプションを指定して、京都大学フォーマットで出力することができるようになっている。以下がf1オプションをつけて実行した例である。

 

[tada@makebashira ~]$ /usr/local/bin/cabocha -f1

部屋が急に明るくなった。

* 0 2D 0/1 6.18550333

部屋       ヘヤ       部屋       名詞-一般                                         0

                                 助詞-格助詞-一般                             0

* 1 2D 0/1 0.00000000

           キュウ               名詞-形容動詞語幹                                         0

                                 助詞-副詞化                                     0

* 2 -1O 1/2 0.00000000

明るく    アカルク              明るい    形容詞-自立         形容詞・アウオ段              連用テ接続           0

なっ       ナッ       なる       動詞-自立             五段・ラ行           連用タ接続           0

                                 助動詞    特殊・タ              基本形    0

                                 記号-句点                                         0

EOS

 

ここでは*で始まっている行が係り受けの情報を示している。*の後の数字がその文節のIDである。ここでは「部屋が」という文節にID 0、「急に」という文節にID 1、「明るくなった」という文節にID 2がついている。その次の数字とアルファベットのうち数字の部分が係り先のIDを示している。例えば「2D」というのはID2に係っていることを意味している。

 

木構造(S式)生成

cabochaによる京都大学フォーマットでの係り受け構造の解析結果から、以下の2つのルールにもとづき木構造(S)を生成した。

l         文節内は線形結合。

l         係り元の最右単語は係り先の最左単語に連結。

たとえば、上記の例では、

(~EOS(((なる(明るい(())((部屋(~BOS))))))))

というS式となる。ここでは文節内の単語として基本形を用いた。1つの文につき、1つのS式が生成される。ここで~BOSは文頭(Begin of sentence)~EOSは文末(End of sentence)を意味する。

 

頻出するサブ木構造抽出(freqt)

最後にS式の集合から頻出パターンを抽出した。ここでは、freqtというS式の木構造から頻出するサブ木構造を抽出するフリーのプログラムを用いた。freqtについては、

http://www.chasen.org/~taku/software/freqt/

を参照。

 

freqtを使用した例を以下に示す。

[tada@makebashira bin]$ /usr/local/bin/freqt -m 50 -M 3 –L 4< s-exp-dep > freqt-result

 

freqtでは、S式が書かれたファイルを入力する。ここではs-exp-depというファイルを指定している。s-exp-depの中身は1行につき1つのS式が書かれているようにする。

mオプションで指定している数字はサブ木構造について全体でどれだけの回数出てきたら結果として出力するか、さらにMオプションで指定している数字はサブ木構造の最小のノード数、Lオプションで指定している数字はサブ木構造の最大のノード数である。この例では、s-exp-depに書かれている木構造(S式)のうち、ノード数最小3、最大4のサブ木構造のうち50回以上出てきたサブ木構造を取りだしている。さらにその結果をfreqt-resultに保存している。

 

以下がfreqtの出力例である。

1番左の数字がサブ木構造の出現文数、真ん中の数字が全体での出現回数、右の数字がサブ木構造のノード数である。たとえば、「ヘリウムの漏洩」という表現のノード数は3であり、26文で計48度出てきたことを意味する。

 

11 11 3 (漏洩((キャニスタ)))

26 48 3 (漏洩((ヘリウム)))

35 36 3 (漏洩((中性子)))

12 13 3 (漏洩((放射線)))

 

ここでの調査では、freqtのオプションとして、

l         m 10  M 3  L 3

l         m 10  M 4  L 4

l         m 10  M 5  L 5

3パターンを指定した。

 

定型表現に着目

ここまでの流れで抽出されたサブ木構造のうち、を含むからなるからのという表現に着目した。

具体的には

(B (含む((A))))

(B(なる(から(A)))

(B((から(A))))

という抽出結果になっており、かつABが重要単語(全体の名詞のうちTF-IDFで上位15%)になっているものを選んだ。以下がその結果である。

 

○を含む

※左から出現文数、出現回数、ノード数、サブ木構造

11 11 4 (化合(含む((元素))))

13 13 4 (化合(含む((窒素))))

20 20 4 (気体(含む((重水素))))

14 14 4 (気体(含む((物質))))

30 82 4 (固体(含む((物質))))

12 12 4 (後部(含む((ファイバ))))

10 10 4 (混合(含む((物質))))

10 10 4 (重金属(含む((核種))))

18 18 4 (蒸気(含む((タービン))))

16 16 4 (多孔(含む((核種))))

24 24 4 (炭酸(含む((炭素))))

18 18 4 (窒素(含む((ガス))))

10 10 4 (廃液(含む((物質))))

41 77 4 (廃棄(含む((硝酸塩))))

30 38 4 (排水(含む((核種))))

17 17 4 (物質(含む((シリコン))))

10 10 4 (物質(含む((モリブデン))))

14 25 4 (放射(含む((合金))))

14 14 4 (放射線(含む((工程))))

10 15 4 (溶液(含む((スラッジ))))

10 15 4 (溶出(含む((核種))))

10 10 5 (圧力(含む(((集合)))))

11 12 5 (貴金属(れる(含む((燃料)))))

10 10 5 (初期(れる(含む((材料)))))

10 10 5 (水溶液((含む((物質)))))

10 10 5 (排水(洗濯(含む((核種)))))

13 18 5 (放射((含む((金属)))))

 

○からなる

※左から出現文数、出現回数、ノード数、サブ木構造

12 12 4 (構造(なる(から(合金))))

10 10 4 (電解(なる(から(水溶液))))

14 14 4 (燃料(なる(から(ウラン))))

14 17 4 (被覆(なる(から(合金))))

10 10 4 (保護(なる(から(フィルム))))

12 12 4 (放射(なる(から(水酸化物))))

10 10 4 (陽極(なる(から(白金))))

10 10 5 (金属(なる(から(など(クロム)))))

26 28 5 (蛍光(なる(から((蛍光)))))

15 15 5 (冷却(なる(から((樹脂)))))

 

○からの

※左から出現文数、出現回数、ノード数、サブ木構造

10 10 4 (距離((から(下面))))

11 12 4 (距離((から(中心))))

11 12 4 (元素((から(廃液))))

10 10 4 (時間((から(開始))))

20 23 4 (中性子((から(核種))))

11 11 4 (中性子((から(炉心))))

29 37 4 (排気((から(建屋))))

10 10 5 (経過(時間((から(開始)))))

20 20 5 (中性子((から((集合)))))

20 23 5 (放出(中性子((から(核種))))

 

(気体(含む((重水素))))

(炭酸(含む((炭素))))

(燃料(なる(から(ウラン))))

といったものが頻出しており、「重水素」と「気体」、「炭素」と「炭酸」、「ウラン」と「燃料」といった単語間にはpart-ofの関係がありそうなことがわかる。

また、

(中性子((から(核種))))

(中性子((から(炉心))))

(中性子((から((集合)))))

というものが頻出しており、「核種」と「中性子」、「炉心」と「中性子」、「集合」と「中性子」には起点・起源の関係がありそうである。

 

ここではTF-IDFで上位15%1897個の単語(名詞)ABとして、

(B (含む((A))))

(B(なる(から(A)))

(B((から(A))))

という表現になっているものを抽出しているが、ABを関連語辞書に登録されている単語に限定することによって、関連語辞書に登録されている単語どうしの意味関係を抽出することができると考えられる。上記の結果を見ると、「下面」、「構造」、「後部」といったわりと一般的な単語も含まれてしまっている。これは機械的に選んだ1897個の単語の中にこのような一般的な単語も残ってしまっているためである。機械的な処理だけでなく、人手でこのようなノイズ的な単語を取り除いた方が良いと思われるが、できるだけ人手を患わずに自動で調整することは大きな課題である。それとここまでの解析結果を見ると、重要単語としての名詞が細かく分割されすぎていると思われる。((集合))は集合体という1つの複合語としてまとめることができる。さらに化合という単語についても本来は化合物といった複合語であった可能性も考えられる。分野オントロジーの重要単語(上位オントロジー単語)などでは、名詞を連結して複合語とした方が意味がより正確に定まるので良いと考えられる。そこで次に名詞を連結する版で調査を行った。

 

名詞連結版

まず、以下のように名詞を連結する規則をchasenの設定ファイル(chasenrc)に加えた。ここで複合名詞というのは独自に定義した品詞であり、IPADICの品詞定義ファイルgrammar.chaに追加しておく。

 

(連結品詞 ((複合名詞)(名詞 一般)))

(連結品詞 ((複合名詞)(名詞 サ変接続)))

(連結品詞 ((複合名詞)(名詞 接尾)(名詞 一般)))

(連結品詞 ((複合名詞)(名詞 サ変接続)(名詞 接尾)))

 

このようにchasenの設定をカスタマイズしてから、これまでの調査と同じくcabochaで係り受け解析をし、その係り受け解析結果をS(木構造)にし、freqtで頻出するサブ木構造を抽出した。

 

ここでの調査では、freqtのオプションとして、

l         m 3  M 3  L 3

l         m 3  M 4  L 4

l         m 3  M 5  L 5

3パターンを指定した。名詞を連結しない版ではm10としていたが、名詞連結版ではm3にした。なぜなら名詞を連結することによって出現数が減ってしまうことが考えられるからである。例えば、原子という単語が10回出現していたとする。その出現の内訳として、実際の文章中で、原子と単独で5回、原子数という形で3回、原子番号という形で2回、出現していたとする。名詞を連結しない版では、原子が10回、数が3回、番号が2回出現したという扱いになるが、名詞を連結した版では、原子で5回、原子数で3回、原子番号で2回とそれぞれ別単語としてカウントされる。このように名詞連結版では名詞を連結しない版よりカウント数が少なくなる場合があるので、freqtmオプションは名詞を連結しない版より小さくすることにした。

 

 

 

以下は名詞連結版での抽出結果である。

○を含む

※左から出現文数、出現回数、ノード数、サブ木構造

4 4 4 (Pu(含む((使用済原子燃料))))

4 4 4 (Pu(含む((使用済燃料))))

3 3 4 (Pu(含む((燃料))))

3 3 4 (イオン結合性物質(含む((価金属イオン))))

4 4 4 (エーテル(含む((フッ素原子))))

4 4 4 (ガス(含む((酸素))))

4 4 4 (シリコンオイル(含む((融点金属))))

12 16 4 (ジルコニウム合金(含む((Fe))))

3 3 4 (スペーサ(含む((元素))))

3 3 4 (ポロイダル(含む((電流中心))))

4 4 4 (ユーグレナ(含む((前記放射性核種))))

10 10 4 (圧力管(含む((燃料集合体))))

6 6 4 (化合物(含む((重量元素))))

13 13 4 (化合物(含む((窒素))))

4 4 4 (化合物(含む((付活剤元素))))

3 3 4 (化合物(含む((陽イオン))))

6 6 4 (可能(含む((放射能))))

3 3 4 (花崗岩ペグマ(含む((放射性元素))))

3 3 4 (還元性窒素化合物(含む((窒素))))

4 4 4 (間隔測定(含む((センサ))))

8 8 4 (関連(含む((分子化合物))))

20 20 4 (気体(含む((重水素))))

14 14 4 (気体(含む((物質))))

5 6 4 (距離測定(含む((センサ))))

4 4 4 (共重合体(含む((フィン))))

3 3 4 (金属(含む((以上))))

3 4 4 (金属(含む((元素))))

4 4 4 (金属(含む((放射性核種))))

3 3 4 (金属廃棄物(含む((ジルコニウム))))

6 9 4 (原子炉燃料(含む((Pu))))

8 8 4 (蛍光体(含む((添加物))))

4 4 4 (顕微鏡写真(含む((柱状結晶))))

7 8 4 (原水(含む((帯電性不純物))))

3 3 4 (原料粉末(含む((ベントナイト))))

3 3 4 (固体状(含む((テクネチウム))))

3 3 4 (固体状(含む((パラジウム))))

6 6 4 (固体状(含む((モリブデン))))

3 3 4 (固体状(含む((ルテニウム))))

3 3 4 (固体状(含む((ロジウム))))

30 79 4 (固体廃棄物(含む((放射性物質))))

12 12 4 (後部構造(含む((光ファイバ))))

9 9 4 (光源(含む((励起波長))))

5 5 4 (構造体(含む((混合層))))

6 6 4 (合金(含む((重量元素))))

8 9 4 (刻印撮影装置(含む((照明装置一式))))

5 5 4 (混合ガス(含む((水素ガス))))

10 10 4 (混合層(含む((物質))))

4 4 4 (材料(含む((トリチウム))))

8 8 4 (酸化液(含む((酸化鉄))))

6 6 4 (使用済核燃料(含む((プルトニウム))))

7 7 4 (遮断部(含む((中性子吸収材))))

10 10 4 (重金属イオン(含む((放射性核種))))

18 18 4 (弱酸化性雰囲気(含む((酸素ガス))))

4 4 4 (硝酸(含む((塩酸))))

18 18 4 (蒸気系(含む((低圧タービン))))

4 4 4 (蒸発源(含む((蛍光体母体成分))))

9 9 4 (蒸発源(含む((原料))))

3 3 4 ((含む((イオン交換基))))

3 3 4 ((含む((マンガン))))

3 3 4 ((含む((ラジウム))))

3 3 4 ((含む((塵埃))))

9 9 4 ((含む((前記金属イオン))))

4 4 4 ((含む(())))

5 5 4 (積層保護フィルム(含む((フタレート樹脂層))))

10 10 4 (洗濯排水(含む((放射性核種))))

4 4 4 (廃棄物(含む((放射性物質))))

25 26 4 (廃棄物処理装置(含む((硝酸塩))))

30 34 4 (排水(含む((放射性核種))))

17 17 4 (物質(含む((シリコン))))

10 10 4 (物質(含む((モリブデン))))

7 7 4 (物質(含む((ルテニウム))))

5 5 4 (物質(含む((一つ))))

3 3 4 (炭酸カルシウム(含む((放射性炭素))))

18 18 4 (窒素ガス雰囲気(含む((水素ガス))))

5 5 4 (窒素雰囲気(含む((硫黄))))

3 3 4 (沈殿物(含む((ウラン元素))))

6 6 4 (電解溶液(含む((重水素))))

4 4 4 (放射性廃液(含む((硫酸ナトリウム))))

4 4 4 (放射性廃棄物(含む((ジルコニウム合金))))

14 21 4 (放射性金属廃棄物(含む((ジルコニウム合金))))

4 4 4 (放射性不燃性固体廃棄物(含む((有機物))))

4 4 4 (放射線像変換パネル(含む((工程))))

6 6 4 (無機防食剤(含む((価クロム))))

3 3 4 (薬液(含む((ヒドラジン))))

7 11 4 (薬液(含む((ヒドラジン化合物))))

19 19 4 (薬液(含む((一方))))

3 3 4 (有機溶媒(含む((トリブチル))))

3 3 4 (有機溶媒中(含む((トリブチル))))

7 8 4 (溶液(含む((アクチノイド元素))))

3 3 4 (溶液(含む((金属イオン))))

8 11 4 (溶液(含む((酸化鉄スラッジ))))

3 3 4 (溶出液(含む((当該娘核種))))

8 10 4 (溶出液(含む((娘核種))))

4 4 4 (溶媒(含む((トリブチル))))

4 4 4 (溶媒(含む((プルトニウム))))

3 3 4 (冷却材(含む((破片))))

4 4 4 (炉心構造(含む((燃料))))

3 3 4 (濾過液(含む(())))

3 3 4 (二酸化炭素(含む((放射性元素))))

3 4 4 (燃料(含む((可燃性毒物))))

5 5 4 (燃料棒(含む((可燃性毒物))))

6 6 4 (燃料棒(含む((前記使用済み酸化物燃料))))

23 38 4 (廃棄物(含む((硝酸塩))))

8 8 4 (廃棄物(含む((前記硝酸塩))))

5 8 4 (薄膜(含む((酸化物))))

4 5 4 (複合ケーブル(含む((光ファイバ))))

 

○からなる

※左から出現文数、出現回数、ノード数、サブ木構造

5 5 4 (アルカリハライド(なる(から(Eu))))

8 8 4 (アルカリ土類金属(なる(から(Be))))

3 4 4 (シート(なる(から(活性炭素繊維))))

3 3 4 (シート(なる(から(繊維状活性炭))))

3 3 4 (シート(なる(から(着繊維状活性炭))))

6 6 4 (ヒータ(なる(から(融点金属))))

3 3 4 (フィラメント(なる(から(タングステン等))))

8 8 4 (プラットフォーム開口(なる(から(燃料交換機マスト通過用開口部))))

12 12 4 (ヘキサフルオロ(なる(から())))

4 4 4 (マスク(なる(から(材料))))

4 4 4 (滑り軸受(なる(から(フッ素樹脂))))

5 5 4 (真空容器(なる(から(ステンレス等))))

5 5 4 (端栓(なる(から(ジルコニウム合金))))

5 5 4 (陰極(なる(から(合金等))))

3 3 4 (液体標的(なる(から(核融合物質))))

3 3 4 (外殻層(なる(から(黒鉛材))))

3 3 4 (隔壁(なる(から(金属板))))

6 6 4 (基材(なる(から(蔵合金))))

3 3 4 (基材(なる(から(熱膨張ガラス))))

5 5 4 (基板(なる(から(材料))))

10 10 4 (蛍光体層(なる(から(蛍光体))))

14 14 4 (蛍光体層(なる(から(性蛍光体))))

9 9 4 (光吸収層(なる(から(光吸収性物質))))

9 9 4 (光反射層(なる(から(光反射性物質))))

4 4 4 (構成(なる(から(柱状結晶構造))))

12 12 4 (構造体(なる(から(蔵合金))))

3 3 4 (支持基板(なる(から(硬質材料))))

3 3 4 (支持体(なる(から(炭素繊維強化樹脂シート))))

6 6 4 (蒸着膜(なる(から(蛍光体母体化合物のみ))))

4 4 4 (蒸発源(なる(から(原料))))

5 7 4 (組成(なる(から(不可避不純物))))

3 3 4 (低速中性子(なる(から(熱外中性子))))

3 3 4 (伝達系(なる(から(歯車))))

5 5 4 (電解セル(なる(から(樹脂等))))

10 10 4 (電解溶液(なる(から(水溶液))))

4 4 4 (二重蓋(なる(から(次蓋))))

14 14 4 (燃料粒子(なる(から(セラミックス状二酸化ウラン))))

3 3 4 (反射膜(なる(から(多層膜))))

14 15 4 (被覆管(なる(から(ジルコニウム合金))))

6 6 4 (表面層(なる(から(蔵合金))))

3 3 4 (編物状シート(なる(から(繊維状活性炭))))

4 4 4 (保護層(なる(から(ナノ構造制御フィルム))))

5 5 4 (保護層形成用シート(なる(から(有機高分子フィルム))))

4 4 4 (保護層周縁部(なる(から(珪酸ガラス))))

9 9 4 (放射性元素含有廃棄物(なる(から(球状金属水酸化物))))

4 4 4 (放射線画像記録再生システム(なる(から(装置等))))

10 10 4 (陽極電極(なる(から(白金))))

15 15 4 (冷却管(なる(から(樹脂等))))

5 6 4 (冷却材(なる(から(重水))))

 

○からの

※左から出現文数、出現回数、ノード数、サブ木構造

3 3 4 (Zr((から(被覆管材))))

3 3 4 (X線((から(X線源))))

4 4 4 (エアー((から(外部))))

3 3 4 (ガス((から(結合装置))))

8 8 4 (ガス放出((から(管壁))))

3 3 4 (ガンマ線((から(炉心))))

4 4 4 (ジルコニウム溶出量((から(前記炉心構造材))))

4 4 4 (ダウンロード要求指令((から(前記制御棒制御装置))))

4 4 4 (データ((から(運転年数記憶手段))))

4 4 4 (データ((から(材料化学成分記憶手段))))

3 3 4 (データ((から(装置制御盤))))

4 5 4 (ヘリウム((から(キャニスタ))))

3 3 4 (意思決定者((から(記入力装置))))

4 4 4 (印刷指令((から(前記入出力装置))))

4 4 4 (汚染物質((から(配管))))

6 8 4 (温度検出信号((から(温度計))))

4 4 4 (距離((から(集合体境界))))

3 3 4 (距離((から(前記底面))))

10 10 4 (距離((から(中心))))

3 5 4 (距離((から(底面))))

6 8 4 (検出信号((から(風量検出器))))

3 3 4 (元素((から(レベル放射性廃液))))

9 9 4 (元素((から(放射性廃液))))

5 5 4 (残熱((から(炉心))))

3 3 4 (紫外線((から(前記半導体素子))))

3 3 4 (紫外線((から(半導体素子))))

3 3 4 (紫外線((から(放電ランプ))))

10 10 4 (時間((から(実験開始))))

4 6 4 (出力((から(光電子増倍管))))

4 4 4 (出力信号((から(プリアンプ))))

6 6 4 (循環液((から(下記母液分流槽))))

3 3 4 (除熱量((から(炉心溶融物上面))))

3 3 4 (衝撃((から(外部))))

8 8 4 (上記電子ビーム((から(上記電子ビーム照射装置本体))))

3 3 4 (蒸気流((から(蒸発源))))

7 7 4 (蒸気流((から(蒸発源容器))))

3 3 4 (蒸発源蒸気流((から(蒸発源容器))))

5 7 4 (信号((から(検出器))))

5 5 4 (吹上げ((から(排気筒))))

4 4 4 (水リーク((から(伝熱管))))

7 7 4 (水分進入((から(外周部))))

7 7 4 (操作((から(外部))))

14 14 4 (中性子((から(前記燃料集合体))))

5 5 4 (中性子((から(燃料集合体))))

10 10 4 (中性子((から(炉心))))

19 22 4 (中性子放出率((から(核種))))

6 6 4 (電気信号((から(フォトマル))))

3 3 4 (電気信号分布((から(フォトマル))))

3 3 4 (入力((から(外界))))

3 3 4 (((から(交換ガス))))

11 12 4 (排気((から(建屋))))

4 4 4 (排気((から(排気側空調設備))))

4 6 4 (排気ダクト((から(建屋))))

10 11 4 (排気風量((から(建屋))))

4 4 4 (排気風量如何((から(建屋))))

4 4 4 (排気風量如何((から(前記放射性区域))))

5 6 4 (排気路((から(前記排気側空調設備))))

5 5 4 (剥離((から(支持体))))

3 3 4 (剥離力((から(薄膜フィルム))))

3 3 4 (発光光((から(蛍光体層深部))))

6 6 4 (搬出((から(建屋))))

4 4 4 (被ばく((から(炉心域))))

3 3 4 (被曝((から(娘核種))))

4 4 4 (復水((から(水器))))

5 5 4 (崩壊熱((から(使用済み燃料集合体))))

7 7 4 (放射線((から(原子炉))))

3 3 4 (放射線((から(使用済燃料))))

5 5 4 (放射線((から(燃料集合体))))

3 3 4 (放射線((から(放射性物質))))

3 3 4 (放出電子量((から(前記電子源))))

4 4 4 (冷却材((から(プレナム))))

3 3 4 (冷却材((から(ポンプ))))

4 4 4 (冷却材((から(開口部))))

4 4 4 (冷却速度((から(熱処理温度))))

4 8 4 (連続測定データ((から(水素計))))

3 3 4 (炉心流((から(原子炉炉底部))))

5 5 4 (漏えい監視((から(シール部))))

3 3 4 (輻射熱((から(蒸発源))))

 

名詞非連結版と名詞連結版では以下のように対応していそうである。

 

名詞非連結版 → 名詞連結版

13 13 4 (化合(含む((窒素)))) 3 3 4 (還元性窒素化合物(含む((窒素))))

30 82 4 (固体(含む((物質)))) 30 79 4 (固体廃棄物(含む((放射性物質)))))

10 10 4 (混合(含む((物質)))) 10 10 4 (混合層(含む((物質))))

10 10 4 (重金属(含む((核種)))) 10 10 4 (重金属イオン(含む((放射性核種))))

18 18 4 (蒸気(含む((タービン)))) 18 18 4 (蒸気系(含む((低圧タービン))))

30 38 4 (排水(含む((核種))))10 10 4 (洗濯排水(含む((放射性核種))))

                            30 34 4 (排水(含む((放射性核種))))

41 77 4 (廃棄(含む((硝酸塩)))) 25 26 4 (廃棄物処理装置(含む((硝酸塩))))

14 25 4 (放射(含む((合金)))) 4 4 4 (放射性廃棄物(含む((ジルコニウム合金))))

                              14 21 4 (放射性金属廃棄物(含む((ジルコニウム合金))))

14 14 4 (放射線(含む((工程)))) 4 4 4 (放射線像変換パネル(含む((工程))))

10 15 4 (溶液(含む((スラッジ)))) 8 11 4 (溶液(含む((酸化鉄スラッジ))))

10 15 4 (溶出(含む((核種)))) 3 3 4 (溶出液(含む((当該娘核種))))

                              8 10 4 (溶出液(含む((娘核種))))

10 10 5 (圧力(含む(((集合))))) 10 10 4 (圧力管(含む((燃料集合体))))

10 10 4 (電解(なる(から(水溶液)))) 10 10 4 (電解溶液(なる(から(水溶液))))

14 14 4 (燃料(なる(から(ウラン)))) 14 14 4 (燃料粒子(なる(から(セラミックス状二酸化ウラン))))

14 17 4 (被覆(なる(から(合金)))) 14 15 4 (被覆管(なる(から(ジルコニウム合金))))

10 10 4 (保護(なる(から(フィルム)))) 4 4 4 (保護層(なる(から(ナノ構造制御フィルム))))

                                    5 5 4 (保護層形成用シート(なる(から(有機高分子フィルム))))

12 12 4 (放射(なる(から(水酸化物))))9 9 4 (放射性元素含有廃棄物(なる(から(球状金属水酸化物))))

10 10 4 (陽極(なる(から(白金)))) 10 10 4 (陽極電極(なる(から(白金))))

15 15 5 (冷却(なる(から((樹脂))))) 15 15 4 (冷却管(なる(から(樹脂等))))

11 12 4 (元素((から(廃液))))   3 3 4 (元素((から(レベル放射性廃液))))

                                9 9 4 (元素((から(放射性廃液))))

20 23 4 (中性子((から(核種)))) 19 22 4 (中性子放出率((から(核種))))

20 20 5 (中性子((から((集合))))) 14 14 4 (中性子((から(前記燃料集合体))))

                                    5 5 4 (中性子((から(燃料集合体))))

29 37 4 (排気((から(建屋)))) 11 12 4 (排気((から(建屋))))

                                4 6 4 (排気ダクト((から(建屋))))

                               10 11 4 (排気風量((から(建屋))))

                                4 4 4 (排気風量如何((から(建屋))))

 

名詞複合版では前記燃料集合体、前記電子源といった複合語(連結名詞)が見られるが、この前期という部分は除去した方が良いと考えられる。排気風量如何の如何も同様である。

 

名詞連結版と比較すると、名詞非連結版の化合という単語は還元性窒素化合物の一部、合金という単語はジルコニウム合金の一部、フィルムという単語はナノ構造制御フィルムあるいは有機高分子フィルムの一部として用いられているケースが多いようである。連結された単語の方がはっきりとした意味を持つ専門的な単語であると思われる。分野オントロジーの重要単語などの用途では、連結名詞の方が適していると思われる。現在のNIMSの関連語辞書では連結されていない名詞を辞書に登録しており(例えばフィルムという単語で登録されている)、複合語(連結名詞)の情報は持たせていない。関連語辞書にフィルムという単語の複合語として、ナノ構造制御フィルム、有機高分子フィルム、積層保護フィルムといったものを与えておけば、検索条件にフィルムという単語を入力したユーザに対し、これらの複合語を提示することで検索の効率化を測ることができると考えられる。さらに、ここでの解析結果からナノ構造制御フィルムと保護層、有機高分子フィルムと保護層形成用シート、積層保護フィルムとフタレート樹脂層にはpart-ofの関係がありそうである。関連語辞書に複合語や意味関係も持たせておくことで、ユーザに意味付きの関連語リスト(ワードネット)を提示することができるようになると思われる。

 

意味関係データベース

これまで「〜を含む」や「〜からなる」「〜からの」という表現に着目してpart-ofや起源・起点の関係がありそうな単語のペアを探した。本章では前章の名詞連結版で得られた単語間の関係をデータベースに格納して、具体的に問い合わせしてどのような結果になるか試してみる。ここでは「〜を含む」「〜からなる」「〜からの」に加えて「〜などの」という表現にも着目した。「AなどのB」という場合、ABの一種(a kind of)であると考えられる。前章と同様の方法で「などの」に着目した結果を以下に示す。

 

○などの

※左から出現文数、出現回数、ノード数、サブ木構造

3 4 4 (アルコール((など(メタノール))))

4 4 4 (イオン((など(電子))))

4 4 4 (イオン流パワー変換装置((など(電磁流体パワー変換装置))))

4 4 4 (エーテル((など(エチレングリコールモノメチルエーテル))))

6 6 4 (エーテル((など(テトラヒドロフラン))))

4 4 4 (ガラス板((など(フタレート))))

3 4 4 (ギャップ((など(管間))))

5 5 4 (グリコール((など(ブチルフタリルブチル))))

6 6 4 (ケトン((など(メチルイソブチルケトン))))

4 7 4 (スペーサー((など(アルミナ長繊維複合材))))

15 15 4 (ハロゲン化アルカリ((など(CsBr))))

4 4 4 (ハロゲン化炭化水素((など(エチレンクロライド))))

3 3 4 (プラスチック((など(ポリエステルカーボネート))))

3 3 4 (プラスチックフィルム((など(ポリカーボネートフィルム))))

5 5 4 (ポリエチレングリコール((など(ポリエステル))))

6 6 4 (圧縮処理((など(カレンダー処理))))

3 3 4 (液体媒体内((など())))

7 7 4 (円筒部材((など(配管))))

6 6 4 (塩素原子含有炭化水素((など(エチレンクロライド))))

6 6 4 (画質((など(粒状性))))

5 5 4 (各種樹脂材料((など(樹脂))))

3 3 4 (各種薬品((など(アルカリ))))

4 4 4 (還元性窒素化合物((など(ヒドラジン))))

3 3 4 (還元力((など(ヒドラジン))))

3 3 4 (顔料((など(二酸化チタン))))

5 9 4 (基板上((など(ガラス))))

3 3 4 (基板表面((など(金属シート))))

6 6 4 (記録材料((など(ハロゲン化銀写真感光材料))))

5 5 4 (記録材料等((など(写真感光材料))))

3 3 4 (貴金属((など(プラチナ))))

3 4 4 (金属イオン((など(亜鉛))))

3 3 4 (金属シート((など(アルミニウム合金箔))))

3 3 4 (金属酸化物((など(酸化ジルコニウム))))

3 3 4 (欠陥((など(クラック))))

3 3 4 (固形化材((など(セメント))))

12 12 4 (((など(日光))))

9 9 4 (光吸収性物質((など(カーボンブラック))))

7 7 4 (光反射性物質((など(二酸化チタン))))

6 6 4 (工具((など(ドライバー))))

5 5 4 (高分子物質((など(ゼラチン))))

3 3 4 (材料((など(インコネル))))

4 4 4 (酸化剤((など(過酸化水素))))

3 3 4 (酸化数((など(ヒドラジン))))

3 3 4 (残滓((など(核分裂生成物))))

4 4 4 (集合体核特性変化量((など(因子分布))))

6 6 4 (水分((など(窒素ガス雰囲気))))

9 9 4 (遷移金属((など(Ni))))

4 4 4 (遷移金属((など(チタン))))

3 3 4 (貯蔵部分((など())))

3 3 4 (長物部材((など(配管))))

57 57 4 (点検((など(表面改質作業))))

25 25 4 (電磁波((など(赤外線))))

3 3 4 (粘着剤((など(コロナ処理))))

4 4 4 (白色顔料((など(ケイ酸アルミニウム))))

3 3 4 (薄膜((など(IZO))))

3 3 4 (薄膜((など(化珪素))))

13 13 4 (板ガラス((など(化学的強化ガラス))))

6 6 4 (板ガラス((など(結晶化ガラス))))

5 5 4 (被写体((など(人体))))

5 5 4 (表示装置((など(CRT))))

4 4 4 (不純物((など(金属片))))

4 4 4 (腐食((など(原子炉内機器))))

3 3 4 (分散剤((など(シランカップリング剤))))

4 4 4 (分散装置((など(音波分散機))))

4 4 4 (保護層形成用シート((など(ガラス板))))

3 3 4 (補助層((など(光吸収層))))

3 3 4 (放射性炭素質廃棄物((など(廃活性炭))))

3 3 4 (放射性物質取扱施設((など(原子力発電所))))

20 20 4 (放射線((など(X線))))

3 3 4 (放射線((など(γ線))))

4 4 4 (放射線((など(中性子))))

3 3 4 (有機高分子((など(ビニル))))

8 8 4 (有機高分子フィルム((など(フタレート))))

3 3 4 (有機溶媒((など(トリブチル))))

9 11 4 (両性金属((など(アルミニウム))))

5 5 4 (燐酸エステル((など(ジフェニル))))

3 4 4 (冷却材((など(配管))))

13 13 4 (励起光((など(レーザ光))))

3 3 4 (炉内機器((など(CRガイドチューブ))))

3 3 4 (夾雑物((など(蛋白))))

 

放射線((など(X線)))) (放射線((など(γ線))))(放射線((など(中性子))))という結果からX線やγ線や中性子は放射線の一種(a kind of)として抽出されている。

 

次に名詞連結版で「Aを含むB」「AからなるB」「AからのB」「AなどのB」という表現から得られた単語間関係をデータベースに格納し、問い合わせをしてみる。

 

関係をデータベース化するにあたって、単語間関係をRDF形式で表した。

RDFは、リソース(ここでは単語)間の関係をコンピュータが認識できる形で表現するフレームワークである。RDFではリソース間の関係を主語(Subject)、述語(Predicate)、目的語(Object)3つの要素(トリプル)で表す。

それらRDFトリプルの集合(グラフ)を格納するデータベースとしてFranz社が開発した

AllegroGraph v3.1 (http://agraph.franz.com/allegrograph/)を使用した。

AllegroGraphは大量のRDFトリプルをストアし、高速に問い合わせをすることができる。

 

ここではごく単純に

Aを含むB」→ 主語: A  述語:を含む 目的語:B

AからなるB」→ 主語:A  述語:からなる 目的語:B

AからのB」→ 主語:A  述語:からの 目的語:B

AなどのB」→ 主語:A  述語:などの 目的語:B

という形でRDFトリプルに変換してAllegroGraphに格納した。

例えば、(エーテル((など(テトラヒドロフラン))))という結果の場合、

主語「エーテル」、述語「などの」、目的語「テトラヒドロフラン」である。

 

AllegroGraphへの問い合わせにはAllegro Prologを使った。以下における問い合わせ結果の正否の検証については対象とした分野(IPC:G21(核物理・核工学)の知識も必要であるが、私はこの分野の専門家でないので誤りもあるかもしれない。

 

問い合わせ例1:

 (?- (q- ?x !ex:を含む ?y)

(q- ?y !ex:からなる ?z))

Xを含むYYからなるZ」を満たすXYZにはどのようなものがあるか

 

結果1:

?X = {FE}

?Y = {ジルコニウム合金}

?Z = {端栓}

 

結果2:

?X = {FE}

?Y = {ジルコニウム合金}

?Z = {被覆管}

 

結果3:

?X = {トリチウム}

?Y = {材料}

?Z = {マスク}

 

結果4:

?X = {トリチウム}

?Y = {材料}

?Z = {基板}

 

結果5:

?X = {添加物}

?Y = {蛍光体}

?Z = {蛍光体層}

 

結果12については鉄を含むジルコニウム合金から出来ている端栓や被覆管は実在するので期待される正しい結果と言える。結果4についてもトリチウムを含む材料から出来ている基板というのも存在するので正しいと言えそうである。結果3のトリチウムを含む材料から出来ているマスクというのは存在しないと思われるので、これはおかしな結果の可能性が高い。そもそも材料という単語は一般的すぎるので、関連を探る単語から除外した方が良いかもしれない。結果5の「添加物を含む蛍光体からなる蛍光体層」という結果も添加物という単語は一般的すぎるが、実際のところ誤った結果ではないと思われる。

 

問い合わせ例2:

(?- (q- ?x !ex:を含む ?y)

(q- ?z !ex:などの ?y))

Xを含むYZなどのY」を満たすXYZにはどのようなものがあるか

 

結果1:

?X = {トリブチル}

?Z = {トリブチル}

?Y = {有機溶媒}

 

結果2:

?X = {フッ素原子}

?Z = {テトラヒドロフラン}

?Y = {エーテル}

 

結果3:

?X = {フッ素原子}

?Z = {エチレングリコールモノメチルエーテル}

?Y = {エーテル}

 

結果4:

?X = {窒素}

?Z = {ヒドラジン}

?Y = {還元性窒素化合物}

 

結果5:

?X = {破片}

?Z = {配管}

?Y = {冷却材}

 

結果6:

?X = {トリチウム}

?Z = {インコネル}

?Y = {材料}

 

結果7:

?X = {酸化物}

?Z = {化珪素}

?Y = {薄膜}

 

結果8:

?X = {酸化物}

?Z = {IZO}

?Y = {薄膜}

 

 

結果1の「トリブチルを含む有機溶媒、トリブチルなどの有機溶媒」という結果は、トリブチルは有機溶媒の構成要素なのか、有機溶媒の一種なのか混同しているように思われる。リン酸トリブチルなどトリブチルという単語は物質の名前に関係するのでトリブチルを含む有機溶媒という言い方は正しいように思われるが、トリブチルが有機溶媒の一種というのは正確ではないように思われる。ただ、ある溶媒で最も重要なものがトリブチルなのであれば、それで代表して一種の有機溶媒のように表現することもあると思われる。

結果4で窒素を含む還元性窒素化合物の一種としてヒドラジンが返っている。これは実際に正しい結果である。しかし、似たような感じでフッ素原子を含んでいるエーテルとして、結果23でテトラヒドロフランやエチレングリコールモノメチルエーテルが返っている。実際にエーテルの一種としてテトラヒドロフランやエチレングリコールモノメチルエーテルは存在するが、これらはフッ素原子を含んでいない。エーテルにはフッ素原子を含むものもあるし、含まないものもある。「エーテル」という表現ではなく、より厳密な「含フッ素エーテル」といった表現になっていればこのような誤りは生じないと思われる。このレポートでは特許文書から抽出した文章を解析しているが、「フッ素を含んだエーテルは、含フッ素エーテルである」という暗黙の了解が文章の根本にあると思われる。より精度を高めるためにいずれこのような暗黙の了解の知識を導入する仕組みが必要になってくると考えている。対象文書数を増やすことでも精度を高めることができるはずである。ここで対象とした715個の特許文書には含フッ素エーテルという単語は登場しなかったが、もっと文書数を増やせば、含フッ素エーテルという単語が登場し、ただのエーテルという単語と関係づけることができ、このような誤りの確率を下げる方向につなげることができるのではないかと考えている。

結果5の「破片を含む冷却材、配管などの冷却材」であるが、「配管などの冷却材」の解釈として冷却材の一種として配管というのは意味的におかしい。おそらく「配管などに含まれる冷却材」という意味であると思われる。このように「AなどのB」といった表現における「などの」には一種(a kind of)以外の意味にも使われることがある。このような誤りを減らすにはもっと全体的に意味をとらえるしかないと思われる。意味付けで着目する表現もできるだけ一意に意味が定まるものを用いるべきである。

結果6の「トリチウムを含む材料、インコネルなどの材料」も(材料という単語が一般的すぎるが)インコネルは材料の一種というより、「インコネルなどでできた材料」という意味であると思われる。ここでの「などの」も一種(a kind of)以外の意味で使われている例である。

結果7の「酸化物を含む薄膜、化珪素などの薄膜」という結果の化珪素は意味がわからなかったので、もともとの文章で確認したところ窒化珪素であった。窒化珪素が形態素解析で窒+化珪素と分割されてしまっていた。硫化水素などこのような表現はこの分野で特徴的な表現であるので、このような単語は形態素解析をカスタマイズして正しく抽出できるようにすべきである。ここも結果6と同じく「窒化珪素でできた薄膜」という意味であると思われる。

結果8の「酸化物を含む薄膜、IZOなどの薄膜」は期待される結果である。薄膜の一種としてIZO薄膜というものが存在し、それは酸化物薄膜である。

まとめと課題

本レポートでは、IPC分類G21(核物理、核工学)の715個の特許文書に対し、chasenで形態素解析をして単語(名詞)を抽出し、TF-IDF上位の15%に入った1897単語について意味関連を抽出する試みをした。意味関連付けは、対象の単語が出てきた文をcabochaで係り受け解析し、その解析結果から木構造(S式)を生成し、その木構造からfreqtで頻出するサブ木構造を抽出した。サブ木構造群の中から、意味関連付けをしたい単語が含まれており、かつ意味関連付けがはっきりと定まりそうな定型表現(”を含むからなるからの”)を含んでいて頻出するものを抽出した。意味付けをするには単語の分け方が細かすぎるように思われたので、さらに名詞を連結する版を試みた。複合語(連結名詞)の方が単語の意味がはっきりしているので、意味付けもより正確なものになると考えられる。名詞連結版においては、を含むからなるからのに加えてなどのという表現で単語を意味づけした。それらの意味関係をRDFトリプルの形にしてデータベース(AllegroGraph)に格納して、問い合わせをしてどのような結果が得られるか試した。まず、「Xを含むYYからなるZ」という問い合わせで、Xを含むYから出来ているものにどういうZがあるか見たが、明らかに誤っていそうな結果は5件中1件だった。その誤りと思われる「トリチウムを含む材料、材料からなるマスク」という結果については、材料という単語は一般的すぎるところに要因があると思われる。次に「Xを含むYZなどのY」という問い合わせをして、Xを含むYの一種としてどのようなZがあるかを見た。この結果には幾つか誤ったものがあった。誤った結果を検証したところ、「~などの」には期待していた一種(a kind of)の意味以外でも「〜などでできた」や「〜などに含まれている」という意味で使われていた。他に文章に暗黙の了解が入っていることが誤った結果につながっている例もあった。

本レポートでの例にあったエーテルにはフッ素原子を含むものと含まないものがある。意味としてはフッ素を含んだエーテル(含フッ素エーテル)というところでも単にエーテルとしている文章があった。その文書を読んでいる人ならその点を暗黙のうちに了解すると思うが、単に機械的にその文の字面から解釈すると正確でない結果になってしまうことがあることがわかった。できるだけ意味が一意に定まるような表現を探すこと、その分野で特徴的な表現を探すこと、暗黙の了解のようなものをうまく取り込むことなど課題として挙げられる。他にも形態素解析による単語抽出の課題として、その分野の特徴的な表現をうまく抽出することが挙げられる。ここでの調査において窒化珪素は窒+化珪素と形態素解析で分割されてしまったが、窒化といった表現はこの分野の特徴的表現なので正しく抽出できるようにカスタマイズすべきである。

 

ここで試したような意味付けの方法で、関連語辞書に複合語や意味付けを持たせれば、ユーザにより効率的な検索の機能を提供できると思われる。また、分野オントロジーを抽出する手助けとなるシステムにもつなげることができると思われる。本レポートでは「Aを含むB」、「AからなるB」、「AからのB」、「AなどのB」の4つの定型表現だけに着目したが、意味が一意に定まりやすい定型表現を探すことで、他の意味づけをすることができると思われる。ここでは特許文書を用いたが、特許文書で特徴的な言いまわしの表現というのもあるかもしれない。そのような表現がないか探すことも課題である。根幹となる重要な課題として抽出する単語の精度向上がある。先の窒化珪素などはその一つである。ある膨大な文書群から出来るだけ自動的に精度良く(ゴミ単語が少なくなるように)単語を抽出し、意味関係を抽出することが大きな目標である。最終的には人手によってゴミ単語を除去したり、おかしな意味関係を除去したりという事は必要になってくると思われるが、それ以前にできるだけ人手を少なくするような努力が求められる。