1.背景:Data Deluge(データの大洪水)時代の情報収集
日々、様々なデータが生まれているData Deluge時代では、様々な情報の活用が企業の発展には欠かせないと言われています。しかし、日々発生している情報を業務へ活用出来ている企業はまだ多くはないのではないでしょうか。多くの企業では、活用したい情報や活用すべき情報は、決まった形式に統一化されず、様々な形で社内に散在していることが多いためです。
更に、社内情報に加え、インターネット上の情報も活用したいという声も伺います。時々刻々と最新情報が公開されるインターネット上の情報を業務へ取り入れたいというのは当然の流れでしょう。
しかし、それらを上手く取り入れて業務へ活用するとなると、まずは社内外に散在している情報を目的に応じて効率よく集めてくる必要がありますが、ほとんどの企業がマンパワーに頼って対応しているのが現状です。
2.マンパワーの限界
人は、情報を集める際には読み取った情報をきちんと理解して、必要なものだけを抽出します。例えば、「今期NTTデータの業績が上がった」という文章を読めばすぐに「NTTデータ」は企業名を指しているのが分かります。また、以下のようなWEB上の記載の場合も「企業名:NTTデータ」であれば、NTTデータが企業名を指していることは人が見れば分かります。
企業名 | NTTデータ |
---|---|
名前 | 出田 太郎 |
電話番号 | 03-XXXX-XXXX |
人であれば柔軟に情報収集出来るのは確かですが、膨大な情報収集を人で実施するには限界があります。企業にとって情報収集コストも当然大きなコストとなり、データの業務への活用面を増やす度に新しく人を雇うことはできません。仮に雇った場合も育成に手間と時間もかかりますし、人が無意識的に感覚で実施していると、対応者の精度にバラツキも出てしまいます。
3.私達のアプローチ
私達は自然言語解析やAIといった最新技術を活用することにより、ただ情報を闇雲に収集するのではなく、意味解釈をした上で目的に合った情報を収集する自動的なクローリングを実現しました。(※1)ルールベースの解析だけでなく、人が文脈や文字列を見て内容を理解するように、機械にも人間と同じ様に自然言語の内容を理解させるのです。この自動クローリングにより、社内にある情報だけでなくインターネット上の大量の情報を適切に抽出できるようになるため効率的な情報収集を実現し、情報収集の精度を平準化できるようになります。
図1:多様な情報の自動収集
4.業務への活用
自動クローリングに関しては、情報を解析することが目的であり、著作権をはじめとした法律およびそのサイトの利用規約に則り実施しています。
Not only SQLの略で、形式の異なる多種多様なデータの扱いを得意とするデータベース
実データにメタデータの関係(主語・述語・目的語)を紐づけ、意味を持つデータとしたもので、モノとモノとの関連を表現するのに適したデータの持ち方
「NTT DATA REAL INTELLIGENCE with Agility」サイト:https://abler.nttdata.com/