関連するソリューション
業務改革
AI
先端技術部
フェロー
玉越 元啓
Cutting-Edge Technology Department / Motohiro Tamakoshi
先端技術部の玉越です。
今回は、下のテーマでお送りします。
「ディープラーニングに対する誤解」
ニューラルネットワークはディープラーニングを構成する技術の一つ。
ディープラーニングとは複数の層を繋げて、各層の結果を合成し、徐々に抽象度を上げていく仕組みのことである。
AI
の資格と基礎知識の学び方(研修の紹介)
・ディープラーニングに対する誤解
それは「ディープラーニング(DL:
Deep Learning
)=ディープニューラルネットワーク(DNN:
Deep Neural Network
)」という誤解です。
日本語で書かれた初学者向けの書籍・
YouTube
等の解説動画においても同様の誤解がされているのを非常によく見かけます。日本語の
wiki
(
2020/9/7 9:00
現在)におけるディープラーニングの冒頭の説明も間違っています。
日本語の
wiki
の説明
“ディープラーニング(英
: Deep learning
)または深層学習(しんそうがくしゅう)とは、(狭義には
4
層以上の)多層の人工ニューラルネットワーク(ディープニューラルネットワーク、英
: deep neural network; DNN
)による機械学習手法である。”
※外部サイト:
出典
見事にDLはDNNだと説明されています。DLの説明で、下のような図を見られた方も多いのではないでしょうか。この図はDNNの説明をする際に用いられるものです。
図1:ディープニューラルネットワークのイメージ図
※外部サイト: 出典
・ディープラーニングの仕組み
ここで、他言語の
wiki
を確認してみます。
英語版
wiki
の説明
“Deep learning is a class of
machine learning
algorithms
that uses multiple layers to progressively extract higher level features from the raw input. For example, in
image processing
, lower layers may identify edges, while higher layers may identify the concepts relevant to a human such as digits or letters or faces.”
(深層学習は、機械学習アルゴリズムのクラスであり、複数の層を使用することで、生の入力から、より高いレベルの特徴を段階的に抽出します。例えば、画像処理では、下位層では境界線を識別し、上位層では数字や文字、顔などの人間に関連する概念を識別します。:筆者抄訳)
“ In deep learning, each level learns to transform its input data into a slightly more abstract and composite representation. In an image recognition application, the raw input may be a matrix of pixels; the first representational layer may abstract the pixels and encode edges; the second layer may compose and encode arrangements of edges; the third layer may encode a nose and eyes; and the fourth layer may recognize that the image contains a face. Importantly, a deep learning process can learn which features to optimally place in which level on its own. (Of course, this does not completely eliminate the need for hand-tuning; for example, varying numbers of layers and layer sizes can provide different degrees of abstraction.) “
(ディープラーニングでは、各レベルは、入力データをもう少し抽象的な複合的な表現に変換することを学習します。画像認識アプリケーションでは、生の入力はピクセルの行列である場合があります。最初の表現層は、ピクセルを抽象化し、境界線に変換します。第2層は、境界線の配置を符号化します。 第3層では、鼻と目に変換します。そして、第4層では、画像が顔を含むことを認識できるかもしれません。重要なのは、ディープラーニングの学習の過程で、どの機能をどのレベルに
配置するのか最適に独自に決定できることです。 (もちろん、これは手動調整の必要性を完全に排
除するものではありません。たとえば、レイヤーの数とレイヤーのサイズを変更すると、抽象化の度合いが異なる場合があります。):筆者抄訳)
※外部サイト:
出典
ご覧いただいたとおり、ニューラルネットワークという表現は出てきません。ディープラーニングにおける層(ここでの「層」は、機能や関数と言い換えてよいでしょう。)とニューラルネットワークにおける層(ニューロンのまとまり)を混同して説明されがちなのです。
ディープラーニングとは、複数の層を連結し、各層の結果を合成し、徐々に抽象度を上げていく、AIの仕組みをさしています。各層では、DNNを使うことも可能ですし、他の手法を使うことも勿論可能です。
図2:ディープラーニングのイメージ図
DLの利点は、大きく二つあると考えています。
一つはAIとしての性能が上がった点にあります。
各層に持たせたい機能に応じて、最適な手法を選択できることが大きな理由です。
もう一つは、説明可能なAIにできることです。
DNNでは、ニューラルネットワークの構造を複雑にすることで目的のAIを作ることができるようになりましたが、結果、AIがブラックボックス化することが課題でした
(*1)
。
上にあげた「図1:ディープニューラルネットワークのイメージ図」を思い出してください。
「
Input layer
(入力層、データを受け取る役割)」や「
Output layer
(出力層、最終的な結論を出す役割)」はわかりやすいですが、「
Hidden Layer
(隠れ層)」で何が行われているのか理解(ないし説明)することは難しいのではないでしょうか。
ディープラーニングでは、各層の役割が分かれていることで、AIの中で何が行われているのかが人にとって分かりやすいものにできます。
「図2:ディープラーニングのイメージ図」でも、元の画像の色調を変化させ・特長を抽出して判断しようとしていることがわかると思います。
DLにおける、徐々に抽象度を上げていく仕組みや、細かく分けた層に持たせる機能によって最適な手法を選択できること、は人が持つ認知の仕組みや現実世界の成り立ちに非常に近いものです。例えば、人は、本を読むとき、文字がみて、単語の意味を思い出し、文の意味を理解し、段落の趣旨を捉え、本に書かれている文章を認識しています。
DLにおいても、文字を認識する層、文字から単語を認識する層、単語から文を認識する層、・・・このように役割が分かれており順番に認識していることによって、どこで何が起きているのかが人にとって理解しやすくできるのです。
人も、最初は文字を習い、単語と紐づけ、文を書けるようになり、文章を書けるようになります。AIも人と同じように学習する仕組みになっているのです。
・AIの資格と基礎知識の学び方
AIの資格のひとつに
EXIN AI Foundation
があります。ベンダに依存しない資格とスキルアセスメントを提供している国際的な試験機関の
EXIN
が、
EXIN BCS
Artificial Intelligence(AI) Foundation
資格を日本でも展開し、日本語試験を
2020
年
9
月
1
日よりリリースすることを発表しました。
これに合わせ、DXコンサルティング社で、日本初のEXIN BCS Artificial Intelligence Foundation認定プログラムを実施することになりました。ここでは、
AI
の基礎知識や研究者間で共有されている文化・倫理などについて知ることができます。AIを学ぶ最初こそ間違った知識を覚えて間違った道に進まないような注意が必要だと思います。
※外部サイト:
EXIN AI Foundation資格試験の紹介
認定研修の案内URL
*1:DNNだけで解決できる課題も多く DNN の判断内容を説明する研究もされています。
当サイトの内容、テキスト、画像等の転載・転記・使用する場合は問い合わせよりご連絡下さい。
エバンジェリストによるコラムやセミナー情報、
IDグループからのお知らせなどをメルマガでお届けしています。