【Research Report】テキストマイニングによる有価証券報告書の因果関係文の抽出
サマリー
近年、テキストマイニングなどの人工知能分野の技術を、金融市場における分析に導入する研究が盛んに行われている。例えば、決算短信等のテキストデータから投資判断に有益な情報として業績等の因果関係文を抽出する手法の研究がされている。同様の手法で、有価証券報告書の「業績等の概要」の他、決算短信にはない、「対処すべき課題」や「事業等のリスク」などの項目から因果関係文を抽出することで、業績のみならずリスク対策や企業の施策などを把握するための有力情報が取得できると考えられる。しかし、有価証券報告書から因果関係文を抽出した報告はない。そこで、本稿では、坂地ら[坂地, 増山 2011]の手法を参考に、有価証券報告書から因果関係文を抽出する判別モデルを機械学習により作成し、因果関係文を抽出した。また、有価証券報告書の項目ごとに含まれる因果関係文の数や、坂地ら[坂地他 2015]を参考に原因表現と結果表現の抽出を行い、それぞれの表現に含まれる単語に違いがあるかを確認した。その結果、精度の高い判別モデルが作成できた。また、リスクに関する因果関係文が年々増えていること、「対処すべき課題」では企業の存続に関わる課題に関して企業ごとに認識している様々な要因が記載される傾向などが示唆された。これらは、有価証券報告書独自の投資判断に有益な情報の効率的な抽出や、テキストデータの定量評価手法を構築する上で有力な情報として役立つだろう。