このエントリーをはてなブックマークに追加
ID 47728
フルテキストURL
タイトル(別表記)
Term Extraction based on the Forward and Backward Connectivities of Candidates
著者
小山 照夫 国立情報学研究所
竹内 孔一 岡山大学大学院自然科学研究科
抄録
テキストコーパスからの複合語用語抽出においては、抽出精度を低下させることなく、出現頻度の低い候補まで抽出することが重要である。従来主として用いられてきた統計的手法では、特に低頻度の用語候補の抽出に問題があった。我々はこれまでに用語候補となる複合語を構成する形態素の細分類に応じた位置制約を設定することにより、低頻度の候補まで抽出する方法を提案して来た。今回の発表では、この手法を改善し、多くの用語は文書中に少なくとも一回は提題的な形で出現するという予測の下に、候補となる形態素並びの前後接続関係に制約を設ける方法を提案する。実際にこの方法を適用することによりさらに低頻度の候補まで、抽出精度を落とすことなく取り出せることを確認した。
抄録(別表記)
In composite term extraction problems, it is important to extract candidates of relatively low occurrences in the corpora, with enough precision. In previous works, we have developed a method which can extract term candidates of low occurrences, using the revised classification of Japanese morphemes. In this paper, we propose a improved method considering forward and backward connective relations of candidates. Using the method, composite term candidates of less occurrences can be extracted with high precision.
発行日
2009-09-21
出版物タイトル
情報処理学会研究報告. 自然言語処理研究会報告
出版物タイトル(別表記)
IPSJ SIG Technical Report
2009-NL-193巻
13号
出版者
情報処理学会
出版者(別表記)
Information Processing Society of Japan
開始ページ
1
終了ページ
6
ISSN
09196072
NCID
AN10115061
資料タイプ
テクニカルレポート
オフィシャル URL
http://www.bookpark.ne.jp/cm/ipsj/search.asp?flag=6&keyword=IPSJ-NL09193013&mode=PDF
言語
Japanese
著作権者
ここに掲載した著作物の利用に関する注意 本著作物の著作権は情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。Notice for the use of this material The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. All Rights Reserved, © 2009 Information Processing Society of Japan.
論文のバージョン
publisher
査読
有り