2014.2.13.

多言語テキスト関連度判定サーバのご紹介

辞書不要!で素早く現地語の連想検索サーバを構築可能

1. 背景

 ビッグデータがビジネスを制する時代といわれ、大量の顧客の声、ソーシャルメディアの書き込みを前にしながら、現場ではそれらを読みこなしきれず、活用しきれていない、といわれます。特にそれが英語以外の外国語で記述されている場合、現地語を母国語とする人々に、分析ノウハウや日本流のレポーティングを1から教え込む莫大な教育コストがかかり、なかなかビジネスを海外展開できない、という悩みがありました。

2. 内容

多言語テキスト関連度判定サーバの活用により、収集した外国語ビッグデータ(テキスト)をデータベースに取り込むだけで、高精度で、関連性・類似性を自動判定することができるようになります。

例えば、上図は、ブラウザ操作で読み込んだ8カ国語のツイート(ツイッターへの書き込み)を自動的に解析しつつデータベースに取り込んだものに、最上位にランクされたベトナム語のツイートとの関連性・類似性を自動判定させた画面です。関連性を比較する基準となるベトナム語のツイート自身が最上位にランクされ、以下、関連した表現を多く含み、且つそれがデータベースの中でユニークな度合いに応じてランキングされていきます。

 このデータベースには、アラビア語、ヒンズー語、インドネシア語、韓国語、ロシア語、タイ語、フィリピン語(タガログ語)、ベトナム語の8カ国語を混在させています。特定言語の基準記事(文書)であれば、その言語の記事が上位にならび、言語混在した基準記事については、各言語の記述の関連の強さ、ユニークさ総合点の順に、言語混在した上位ランキングとなります。これらの母国語話者人口の多い言語への対応を済ませ、また、既に弊社製品アンケート分析Proで対応した日本語、英語、中国語にも対応しています。さらに新規言語を追加するのに、原則1日以内で対応可能です。


また、下図の利用例2のように翻訳APIを組み合わせた実装により、ひとつの言語で書かれたテキストとの関連度を、多言語にわたり判定しランキングすることも可能です。


本多言語テキスト関連度判定サーバは、ソーシャル関連サービスの提供企業、利用企業とも、海外展開で言語の壁に阻まれていた企業にとって福音となります。今後、本技術をアライドアーキテクツ社のプラットフォームに適用し、海外対応のソーシャル×ビッグデータ活用の市場開拓を支援していく予定です。


メタデータ株式会社

  • 〒113-0033 東京都文京区
    本郷3-25-4 津久井21ビル4F
  • Tel. 03-3813-5447
    (平日 9:30 - 18:30)

企業情報

個人情報について

お問い合わせ