Webマガジン
「<オージス総研をとりまく>人工知能技術の過去と現在(3)」
株式会社オージス総研

2017年06月号
  • 「<オージス総研をとりまく>人工知能技術の過去と現在(3)」
株式会社オージス総研   乾 昌弘

1.はじめに

前月の続きで、1990年代の活動についてお話をしたいと思います。具体的には、AIの一つの領域である音声認識(英語、日本語)関連テーマ「音声認識を利用した英会話教育システム」「ビデオ要約システム」に絞って説明いたします。

2.音声認識装置(英語、日本語)

(1)Phonetic Engine(音韻認識装置、後にソフトウェア化)から出力された音韻コード列は、SUNワークステーションに送られる。ワークステーション上では、(A)音韻コードブック (B)各単語を音素レベル記号列で記述した音韻辞書 (C)単語間の接続を記述した文法があり、もっとも確からしい文字列を出力する。
(2)米国の技術を導入しており、日本語化はオージス総研で行った。
(3)英語はアメリカ人によるスピーカモデルであるので、ネイティブスピーカに近い発音をしないと認識しなかった。そこで、初心者向けに日本人英語によるスピーカモデルも作成し、学習を始めるハードルを低くした。
ユーザはこの2つのモデルを選択することができる。(教育的には、いろいろ意見があるかもしれないが、音声認識しないと話にならないため)

音声認識の基本構成
図1.音声認識の基本構成

3.音声認識を利用した英会話教育システム

3-1.システムの構成

(1)リスニングとスピーキングについて臨場感あふれる学習ができるようにマルチメディアを駆使している。(テキスト、グラフィック、ウィンドウ、動画、静止画、音声認識、音声出力)
(2)会話教材は、学習者とその相手をするパートナーとの会話を中心に、(当時普及し始めた)ハイパーテキストにメディアがリンクしたハイパーメディアの構成になっている。

英会話教育システムの構成
図2.英会話教育システムの構成

ハイパーメディア型教材
図3.ハイパーメディア型教材

 

3-2.教育方法

(1)発音練習
 会話練習に必要な典型的な単語と文の発音練習をおこなう。学習者は発音だけでなく、文や単語の抑揚や強弱も音声認識を通して練習する。
 結果は、ネイティブスピーカとの比較をグラフィックスによって示される。また、各文や単語の発音練習のポイントも表示される。
(2)会話練習
 学習者は、実用英会話を主に音声認識とインターラクティブビデオでシミュレーションしながら学習する。
 誤りが検出された時は、学習者の入力文をテキスト表示して、誤りの部分を点滅させる。
 学習者が、会話の目的からはずれたことをするとシミュレーションがうまく続かないようにする。(例:電話をかけて学習者が名乗らないと、相手は電話を切ってしまう)

3-3.Authoring System

教材作成は、ハイパーテキストを用いておこなった。カードの種類には、パートナーカード、学習者カード、指導カードの3種類がある。

各カードの内容
図4.各カードの内容

3-4.教材例

(1)課題は「電話をかけて、ビジネスマンと食事の予約をする」に設定した。直接相手と話をするよりも、電話での会話の方が、英語力が必要なためである。
(2)さらに4つのサブストーリーを設定した。(A)予約がうまくとれる (B)相手が不在なので、メッセージを残す (C)相手が不在で連絡先を訊ねる (D)まちがい電話をかける。
(3)大阪駅前に現在もあるホテルの一室を借りて、ビデオ撮影を行った。主役は英検1級を持っているタレント。プロダクションは、大阪ガス関連会社が担った。

3-5.結果

国内企業が、英会話教材を販売する時にオージス総研の音声認識(ソフトウェア版)を組み込んだ。

4.音声認識、画像認識を応用したビデオ要約システム

4-1.目的

(1)今日においては、ビデオ画像から指定されたキーワードに該当する部分を自動的に取りだすことは容易になったが、20年前はそうではなかった。
(2)ここでいう「ビデオ要約」とは、デジタルビデオコンテンツから重要部分をピックアップすることで、英語では「Video Skim」と呼ばれる。
(3)これにより、2時間の番組を10分で観たい場合、20分で観たい場合など、要約を観ることができる。

4-2.システムの構成

(1)「動画像の特徴付け機能」では、(A)シーンごとに分割して (B)カメラモーションの検出と (C)オブジェクトモーションの検出を行う。(A)では、CMかどうかも認識される。
(2)「音声の特徴付け機能」では、音声認識と単語優先度解析により、キーワードを検出する。
(3)「ルールに基づく要約生成機能」で、ルールに基づいて要約情報データを生成する。簡単な例では、ズームされているシーンの優先度が高い。などである。

基本構成
図5.基本構成

4-3.考察

このテーマに関しては、20年ほど前のプロジェクトで(私の記憶が薄れている上に)「参考文献」4しか記録が残っていない。それによると、
(1)1時間以内のドラマの場合、10分程度で内容がわかる要約になる。
(2)パターンの決まったドラマなどには、視聴者が期待するシーンがあるが、このシーンがあると満足度があがるようである。逆にストーリーが概ね理解できるようであっても、このシーンが無ければ不満が残るようである。(例えば水戸黄門)
(3)ニュースは、短くても特に内容の理解がしやすいようである。
(4)3分の要約にはなかったニュースが、5分で表示されることがある。短く要約してしまうと、あるニュースが完全に削除されてしまっていることに、気が付かないという心配がある。 などなど。

5.オージス総研の状況

(1)AIセンターがなくなり、アドバンストプロダクト事業部などの名称になった。AIからAdvancedへ衣替えである。紹介したテーマは、この事業部で行われた。
(2)主にエキスパートシステムを構築していたグループを中心に、その後オブジェクト指向技術の開発に移行。この分野で日本を牽引することになった。

「参考文献」

1. 平山、平島「不特定話者、連続音声認識システムの開発とその応用」コンピュータワールド91(1991年)
2. M. Inui, et al,: "Simulation Based ICAI with Multimedia" World Conference on Educational Multimedia and Hypermedia, ED-MEDIA, June 1993, Florida USA
3. 乾昌弘、他「音声認識を利用した英会話教育システム」音声認識研究会 SPREC-93, 93-SPL-3-4、1993年10月
4. 乾昌弘、他「ビデオ要約システムの開発」IPA次世代デジタル応用基盤技術開発事業成果報告会、2001年5月

(謝辞)「音声認識を利用した英会話教育システム」の開発に協力していただいたオージス総研南港オフィス関係者及び教材作成に協力していただいたネイティブスピーカの先生、「ビデオ要約システム」の開発に協力していただいた米国Carnegie Mellon Universityの関係者のみなさまに感謝いたします。

「余談」

(1) 米国において「参考文献」2の発表で(Halloweenで日本の高校生が射殺された件について)「日本ではなぜ、freezeを教えないのだ?」という、内容と全然関係のない質問をされた。「これからは教えるようになると思います」旨答えておいた。
(2) 英会話教育システムの開発をしていた頃、当時、教育システムに関して日本の第1人者は女性の大学教授でした。ある時、身の上話をして下さいました。
~四国の高校から京大理学部物理学科に進学、湯川秀樹研究室に入りました。卒業時に同じ研究室の男子学生との結婚が決まり、湯川先生は「2人とも素粒子論の研究をするのは難しいから、あなたはソフトウェアをやりなさい」と言われました。~
その女性は1955年卒。当時は計算機がやっと世の中に出た頃。しかも物理学研究者に「ハードではなくソフトをやりなさい」と言われたことに感心しました。

*本Webマガジンの内容は執筆者個人の見解に基づいており、株式会社オージス総研およびさくら情報システム株式会社、株式会社宇部情報システムのいずれの見解を示すものでもありません。

同一テーマ 記事一覧
乾 昌弘  記事一覧



2017年06月号のコンテンツ



『Webマガジン』に関しては 弊社の「個人情報の取り扱いについて」に同意の上、
下記よりお気軽にお問い合わせください。

ページトップへ戻る