オブジェクトの広場はオージス総研グループのエンジニアによる技術発表サイトです

AI

はじめての自然言語処理

株式会社オージス総研
鵜野 和也

自然言語処理とは、人間が自然に使っている英語や日本語などの言語をコンピュータで処理する技術です。

ウェブ、メール、SNS 等、私たちの周りには自然言語で記述された文章が溢れていて、様々な情報や価値が含まれています。 しかし、その量は膨れあがり、人間が目視で内容を確認し対応することは困難になってきています。 自然言語処理技術で、これら膨大な文章を人手によらず判断、抽出、検索、変換し、適切なアクションにつなげることができます。そして深層学習の登場により、その性能が飛躍的に向上していることはウェブの翻訳サイトなどを通じ皆さんも体感していることでしょう。

本連載は手を動かしながら自然言語処理技術を学びたい人、システムに組み込んで役立てたい人を対象にしています。 BoW、TF-IDF のような基礎から BERT をはじめとした深層学習を用いた最新手法まで、日本語で動作させるサンプルコードを交えながら紹介していきます。

以下はこれまでの連載でカバーされている内容を俯瞰したイメージです。図中の丸数字が該当する内容を含む連載回です。

content-map

紹介した手法をきちんと系統立てて整理したかったのですが、どうにも綺麗に収まりません。それよりも、この連載を読む人視点では「何が出来るのか」「教師データが必要なのか」といったことに関心がある気がしたので、ゆるふわな絵になりました。手法、モデル、OSS がごちゃまぜになっていますが、そのあたりも気にしないということで。

③⑦⑧: BERT や T5 が固有表現抽出等に使えないという意味ではないです。連載で扱ったのはこの辺りですよ、ということです。
④: わかりにくいですが、GiNZA の学習済みモデルをそのまま使う分には教師データなしで依存関係なり固有表現抽出なりできますが、文章分類をしたいなら教師データが要りますよ、ということです。

連載記事一覧