ディープラーニングはニューラルネットの発展型です。
ニューラルネットワークについては、こちらで詳しく記載していますが、要するに人間の脳が持つ学習のメカニズムを数学的に模倣し、コンピュータ上で実現したものです。
それでは、ディープラーニングのディープとは、いったい何がディープ(深い)のでしょうか?
答えは、層の深さです。
人間の脳は、ニューロンが幾重にも重なった構造になっています。
ニューラルネットワークは人間の脳を模倣しているので、この層の構造も模倣しています。
しかし、層が増えると計算が膨大になるため、従来のコンピュータでは時間が掛かりすぎるのと、時間を掛けたとしても、それほど成績が向上しなかったことから、実質的に3階層で頭打ちになっていました。
無論、多くの場合は3層でも十分まかなえるため、今でも一般的な方法として使われてはいます。
ディープラーニングは、層を4層以上重ねたニューラルネットワークのことであり、層が深い=ディープという意味です。
2012年、世界的な人工知能の競技会において、トロント大学のジェフリー・ヒントン教授が率いるチームが、ディープラーニングを使って勝利したことで注目を浴びました。
この競技会では、AIで画像の認識率を競うのですが、他のチームは軒並み認識率が73%台だったのに対し、ジェフリー・フリントンのチームは84%という好成績でした。
従来は4層以上重ねることは困難とされていましたが、コンピュータ性能の著しい向上と、効率良く層を重ねられるアルゴリズムの開発によって実用可能になりました。
単に層の数を増やせば良いというものではなく、層を増やすとデータに含まれるノイズも学習してしまうという弊害もあります。
従って、学習させる対象によって最適な層の数を決める必要はあるのですが、今では数十層は当たり前となっていて、最先端の研究では数百や数千の層を重ねるという試みもされているようです。
ディープラーニングは画像認識で脚光を浴びたため、当初は画像認識に特化したようなイメージが持たれていましたが、今は音声認識や自然言語処理、センサーの信号を使った故障予測や異常検知など、さまざまな分野で活用され始めています。
ディーラーニングで学習を行う上での問題は、学習データを用意することでしょう。
例えば猫を識別させるためには、猫に関する様々な写真と、猫以外の様々な写真を何万枚も用意し、それぞれに猫か猫で無いかのラベルを付ける作業が必要となります。
人間はなんとなく見分けがつくけど、何に着目して区別しているのかが自分自身で説明できないような場合、ディープラーニングは威力を発揮します。
しかし、どのポイントを見れば区別できるかが、あかじめ分かっている場合は、すんなりと他の機械学習の手法を使った方が労力も少なく早道で、精度が高い結果が得られます。
ディープラーニングは万能の手法ではなく、あくまでも1選択肢の1つに過ぎないということは意識しておく必要があります。