次世代AIは動画で学習させるべき!(ビジネスマン向け)

AI技術紹介

AI≒機械学習のエンジニアとして
ビジネスマンに向けて次世代AIはこうなる!
という知見を述べたいと思います。

「次世代AIは動画で学習すべき」ということを
現段階では、ほぼ確信しています。

AIの動画学習によって現在では未実現の
本当に人間のように会話をしたり、思考ができる
革新的な人工知能アルゴリズムが登場するのではないかと考えています。

現在の会話・文章の理解技術は?

「あれ、動画の話しじゃないの?」と思った人もいるかもしれませんが
実は今、言語と画像の境界が無くなりつつある、という話しを含めて
説明したいと思います。

AIと聞いて思い浮かべるものの一つに
ソフトバンクのペッパーやiPhoneのSiriがあると思います。

では聞きたいのですが
彼らと会話しているときに
「本当に人間と話しているようだ!」と思うでしょうか。
上記の2つはとてもハイレベルな現代技術の粋でありながらも
まだその水準には達していないと思います。

例えば、仕事のお悩み相談であれば
「〜で部長がさー、〜で、だから、〜で、どうすればいい?」
といっても答えられる水準ではないと思います。

また、現代技術の挑戦の一つとして
AIが東大に入れるか、という「東ロボ」プロジェクトがありましたが
文章の意味理解ができないことが短所の一つとなっていました。
https://www.dailyshincho.jp/article/2017/02080800/?all=1

なぜ、一定の壁を超えられないのか
その中身を簡単に説明します。

現在の言葉を理解する技術(≒自然言語処理)の仕組み

現在はbag of wordsと呼ばれる考え方で、つまり言葉の出現回数などを手がかりに
文章を分類したり意味理解する手法が主流です。
上の図のように、「この言葉はこういうカテゴリっぽい」のような判断の仕方を機械は行います。

厳密にはもう少し凝ったアルゴリズムもあるのですが
基本は「文章を学習して、文章を理解させる」です。

動画から学ぼう、AIを育てよう

そこで!動画という実世界のコンテキスト(=文脈)を理解しうる材料を使って
機械に学習させれば良いのではないかというのが私の主張であり
近年徐々に代表的な国際学会もそのような方向にシフトしていると感じます。

細かい技術的な話しは無しなので
少しずつAIが進化していてその方向に向かっている一助は
画像にコメントを自動でつける=キャプション生成などから見て取れます。


(引用元:”Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”
http://proceedings.mlr.press/v37/xuc15.pdf)

これは何年か前の論文なので現在はもっと進歩していると思いますが
絵を見て理解する、ということは着々と進みつつあるということです。
これは単純に「解説文をつける」ということ以上の意味を持っていて
実世界を機械でも理解できるようになる重要なヒントとなる結果だと感じています。

その他のヒントとなる進歩

近年GANという技術で絵を書く技術がかなり進歩していることも
着々と実世界のアルゴリズムによる理解が進んでいる証拠だと考えています。


(引用元:”PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION”
https://arxiv.org/pdf/1710.10196.pdf)

これは普通の画像ではなくAIが描いたものです。
エンジニア目線では「ちょっと前までノイズだらけだったのにもうこのクオリティ!」と感じるとともに

これが「単に絵を書ける」以上の意味を持つ日もそう遠くないのではと感じさせます。
それは、絵を書く上での創造性が機械に生まれると同時に
実世界を画像を介してコンピュータ独自の方法で
理解ができるヒントとなるためです。

以上、質問やコメントがあればお気軽にどうぞ〜

この記事をシェアする:

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA