自然言語処理技術を活用し、複雑な特許文書を読みやすくする技術を開発 〜『特許文構造解析技術』の開発について〜
ニュースリリース/NTTデータ
2005年10月11日
株式会社NTTデータ
(株)NTTデータは、これまで研究を進めてきた人間が普段話をしている言語をコンピュータで解析する『自然言語処理技術』を活用し、既に出願・登録されている特許文書について、その特許がどのような内容なのかを構造化し視覚的にわかりやすく表示したり、類似特許を検索するためのキーワードを抽出したりできる技術『特許文構造解析技術』を開発しました。この技術は、これまで困難であった複雑な特許文書の文構造解析を実用レベルで可能とするものです。
【背 景】
近年、知的財産の重要性が高まってきています。これに伴い、特許出願件数は増加の傾向にあり、最近では年間に40万件以上が出願されています。
また、他社権利の侵害の回避や研究開発の重複投資の防止などのために、既に出願された特許の調査は重要な業務となっています。企業の知的財産部門や研究開発部門の担当者は、特許調査業務で特許文書を読み、内容を理解します。しかし、特許文書は、契約書や法律と同様に、あいまい性を排除するために、発明の内容が独特の形式で記述されています。特に、特許文書内で特許を受けたい発明が記載された請求項には、発明を構成する要素が複数記載され、すべての要素の説明が一文の中に表現されているため、文が長く、係り受け関係が複雑になりやすいという特徴があります。そのため、特許文書を理解するために、発明を構成する要素の図式化作業が必要となり、内容を正確に理解するために長い時間が必要となります。これらから、特許調査業務を効率化するニーズが高まっており、特許文書の内容理解を支援するための特許文構造解析技術が必要となっていますが、従来の一般的な文構造解析技術では、特許文書の文構造が複雑であるため、精度良く解析することはできませんでした。
【特許文構造解析技術について】
当社は、解析する文書の特徴を解析ルールに加えることにより、複雑な文構造の文書を高精度に解析するパターンマッチング技術の研究開発に取り組んできました。
この技術は、特定の品詞、表記、文字種等など、形態素(意味を有する最小の言語単位)の特徴の組み合わせをパターン化し、このパターンに適合する文字列を文書から抽出したり、文字列に属性情報を付与したりするものです。
このたび、このパターンマッチング技術を特許文書に適用し、特許文書の文構造解析を高精度に行う技術の開発を行いました。
特許文書には、独特の表現形式があり、この表現形式をパターン化することで、特許文構造解析を実現しています。本パターンマッチング技術は、形態素の様々な特徴を指定できる強力なパターン表現力を持っており、多様なパターン記述が可能であるという特徴があります。また、一度目のパターンマッチングの結果に対して二度目のパターンマッチングを行うといった、多段階のパターンマッチングを実施することで、高精度な特許文構造の解析を実現しています。一般的な文構造解析技術では、文字列同士の係り受け関係の付与しか行えませんでしたが、特許文構造解析技術を用いることにより、発明を構成する要素の名前や、その要素の特徴の説明といった属性情報を、各文字列に付与することが可能になりました。これにより、発明の構成を視覚的に理解しやすく表示することや、発明を特徴付ける語句を抽出して類似特許の検索に有効なキーワードを提示することが可能になり、特許調査業務を飛躍的に向上させることができます。
【今後について】
10月12日(水)から開催される「2005特許・情報フェア&コンファレンス」において、特許文書における請求項の構造を視覚化する機能と、請求項に関連する説明文を提示する機能を中心とした、特許調査支援システムを展示します。また、今後この技術をベースとした製品化について半年後を目標に取り組んでいきます。
別紙
【背 景】
近年、知的財産の重要性が高まってきています。これに伴い、特許出願件数は増加の傾向にあり、最近では年間に40万件以上が出願されています。
また、他社権利の侵害の回避や研究開発の重複投資の防止などのために、既に出願された特許の調査は重要な業務となっています。企業の知的財産部門や研究開発部門の担当者は、特許調査業務で特許文書を読み、内容を理解します。しかし、特許文書は、契約書や法律と同様に、あいまい性を排除するために、発明の内容が独特の形式で記述されています。特に、特許文書内で特許を受けたい発明が記載された請求項には、発明を構成する要素が複数記載され、すべての要素の説明が一文の中に表現されているため、文が長く、係り受け関係が複雑になりやすいという特徴があります。そのため、特許文書を理解するために、発明を構成する要素の図式化作業が必要となり、内容を正確に理解するために長い時間が必要となります。これらから、特許調査業務を効率化するニーズが高まっており、特許文書の内容理解を支援するための特許文構造解析技術が必要となっていますが、従来の一般的な文構造解析技術では、特許文書の文構造が複雑であるため、精度良く解析することはできませんでした。
【特許文構造解析技術について】
当社は、解析する文書の特徴を解析ルールに加えることにより、複雑な文構造の文書を高精度に解析するパターンマッチング技術の研究開発に取り組んできました。
この技術は、特定の品詞、表記、文字種等など、形態素(意味を有する最小の言語単位)の特徴の組み合わせをパターン化し、このパターンに適合する文字列を文書から抽出したり、文字列に属性情報を付与したりするものです。
このたび、このパターンマッチング技術を特許文書に適用し、特許文書の文構造解析を高精度に行う技術の開発を行いました。
特許文書には、独特の表現形式があり、この表現形式をパターン化することで、特許文構造解析を実現しています。本パターンマッチング技術は、形態素の様々な特徴を指定できる強力なパターン表現力を持っており、多様なパターン記述が可能であるという特徴があります。また、一度目のパターンマッチングの結果に対して二度目のパターンマッチングを行うといった、多段階のパターンマッチングを実施することで、高精度な特許文構造の解析を実現しています。一般的な文構造解析技術では、文字列同士の係り受け関係の付与しか行えませんでしたが、特許文構造解析技術を用いることにより、発明を構成する要素の名前や、その要素の特徴の説明といった属性情報を、各文字列に付与することが可能になりました。これにより、発明の構成を視覚的に理解しやすく表示することや、発明を特徴付ける語句を抽出して類似特許の検索に有効なキーワードを提示することが可能になり、特許調査業務を飛躍的に向上させることができます。
【今後について】
10月12日(水)から開催される「2005特許・情報フェア&コンファレンス」において、特許文書における請求項の構造を視覚化する機能と、請求項に関連する説明文を提示する機能を中心とした、特許調査支援システムを展示します。また、今後この技術をベースとした製品化について半年後を目標に取り組んでいきます。
別紙