
近年は幅広い場所で機械学習が利用されるようになってきました。AIも似た意味合いを持つ言葉となっていて、どちらも活用される場面が増えています。
この機械学習にはいくつかの方法があり、その中に教師あり学習と呼ばれるものがあります。これから機械学習について学びたいならば、避けては通れない概念です。今回は教師あり学習とは何かと教師なし学習との違い、具体的に使われている場面などを解説します。
教師あり学習とは
教師あり学習とは、教師となるデータ(≒正解といえるデータ)を与えて学習させる手法です。事前に正解となるデータが与えられているため、正解と不正解が明確な状態で学習できます。同様に正解と不正解が明確な問題を解決できるようになるのです。例えば、システムの予期せぬ動作やウェブサイトのリコメンドなどに利用されます。
教師あり学習には大きく分けて回帰と分類のアルゴリズムが存在しています。これらについては後ほど解説しますが、2種類のアルゴリズムを理解する必要があると認識しておきましょう。
なお、教師あり学習は正解と不正解が明確であるため学習精度が高いと考えられています。そのため、機械学習においては可能な限り教師あり学習が用いられます。
教師なし学習・強化学習・半教師あり学習との違い
機械学習には教師あり学習の他にも教師なし学習や強化学習などがあります。これについても解説します。
教師なし学習
教師なし学習は、その名のとおり教師となるデータが存在しない学習方法です。上記で解説した教師あり学習は、正解である教師データが与えられますが、教師なし学習ではこれがありません。
そもそも、教師なし学習は膨大なデータから学習する方法ではなく、データの構造や特徴を分析する方法です。グルーピングやデータの簡略化などが中心であり、教師データのように正解は必要とされません。
強化学習
強化学習はAIが「報酬」を獲得するために能動的に学ぶ方法です。正解を導き出した場合にのみ報酬を与えることで、報酬を得られるようにAIが進化します。ペットなどのしつけに餌を与えるイメージを持てば良いでしょう。
試行錯誤を繰り返して正解を見つけるため、教師あり学習のように正解のデータを提供しにくい際に活躍します。AIの利用者は「報酬を与えるか」「どの程度の報酬を与えるか」だけを決定し、あとはAIが様々な方法を試してくれるのです。
半教師あり学習
教師あり学習と教師なし学習を組み合わせた「半教師あり学習」と呼ばれる方法も生み出されています。これは学習させるデータに、正解が設定されているものとされていないものが存在する方法です。教師あり学習と教師なし学習は正解の有無が違いますが、半教師あり学習では混在します。
半教師あり学習では、最初に正解が与えられているデータだけで学習します。それを元に基本的な方向性を理解して、正解が与えられていないデータも分析する流れです。最終的にこれらの情報を統合して、機械学習の結果を出します。
教師あり学習の種類
教師あり学習には回帰と分類があると解説しました。続いてはこれらについて具体的に解説します。
回帰
回帰はデータの連続性に注目した学習方法です。大量のデータに隠されるルールを見つけ出します。例えば「AデータとBデータが一致する日にはCデータが発生しやすい」というルールを見つけ出すことが回帰です。
学習にあたっては複数の教師データを同時に処理できます。上記で示した例のように相関関係を活用して学習できるのです。また、単一でも大量のデータを処理して学習させることが可能です。
分類
分類はデータの特徴を学習し、特徴ごとにグルーピングする方法です。人間では気づかないような特徴からデータを仕訳したい時に利用されます。
例えば、迷惑メールとそうではないメールを学習して分類します。こうすることによって、届いたメールの本文から迷惑メールに該当するか仕分けできるようになるのです。
教師あり学習の具体例
教師あり学習は多くの場面で活用されているため、具体的にどのような事例があるのか紹介します。
画像認識
画像認識は指定された画像に「何が写っているのか」を分析する技術です。画像データは数値の羅列であるため、「この数値が並んでいる場合は●●が写っている」ということを機械学習で理解させます。
例えば、文字認識や顔認識は教師あり学習の賜物だといえるでしょう。画像に写った文字を数値の羅列に変換し、それがどの文字であるのか学習させることで認識できるようになります。また、顔認識もデータが顔のどのパーツに該当するか学習させることで認識できるようになるのです。
音声認識
音声認識は入力された音声を分析して文字起こしをしたり、感情を汲み取ったりする技術です。音声データも数値の羅列であるため、発音している音や感情を教師あり学習で理解させます。
例えば、音声入力は音声認識を活用した代表的な技術です。教師あり学習で音声のパターンを理解させ、入力された音を文字に変換しています。また、コールセンターなどでは音声の起伏などから感情を読み取るために、教師あり学習で感情を理解したAIが導入されています。
故障品の検出
故障品の検出は工場などにおいて品質に問題のある製品を自動的にピックアップする技術です。今までに製造されてしまった故障品の特徴をピックアップして、教師あり学習の学習データとすることで自動的に検知できるようになります。
例えば、製品の塗装に同じような問題が起こってしまうとします。このような状況を教師あり学習のデータとして学ばせることで、同じような問題を検知できるようになります。また、今までに発生した故障の内容を機械学習させて「どのようなテストを追加すれば品質を担保できるか」を検討することも可能です。
スパムメールの判定
スパムメールの本文から機械学習させることで、スパムメールの判定ができるようになります。各種メールサービスで「迷惑メール」に分類されるかどうかは、教師あり学習の結果が使われているといえるでしょう。
例えば、大量のメールを教師あり学習させることで「ABCという文言が入っているメールはスパムメールの可能性が高い」などと判断できるようになります。また、受信したメールの本文を機械的に解析して、今まで学習した結果と照らし合わせ、スパムメールと思われるならばフォルダを移動させるなどの対処が可能です。
教師あり学習を活用する際のポイント
教師あり学習を活用する際には3つのポイントがあるためそれぞれ解説します。
大量のデータを確保する
教師あり学習では、幅広いパターンを学習させるために、大量のデータを確保することがポイントです。データが少ないと、学習結果に偏りが生じ、思うような効果を発揮してくれません。
ただ、「自分たちが必要とするデータはまとめられておらず自力で集めてくるしかない」と考えている人も多いかもしれません。そのような場合は、PigDataのスクレイピング代行サービスをご利用ください。特定の条件に沿って、Webサイトから大量の情報を収集することが可能です。大量のデータを確保できれば、それだけ教師学習の質を高められます。
なお、注意点としてそれぞれのデータの「特徴量」を意識しなければなりません。これは機械学習の手がかりとなる情報であるため、これが少ないと思うような教師あり学習を実現できないのです。
教師データの品質を高める
教師データには、正解となるラベルやクラスが付与されるため、もし間違っていたり、不足していたりすると、学習精度に影響します。そのため、教師データを作成する際は、正確さや一貫性を意識することがポイントです。
品質を高める方法としては「既存のデータを教師データに変換する」「作業のルールを統一する」「外部からデータを収集する」などがあるでしょう。予算に応じて適切な方法を選択することが重要です。データを収集する際にある程度整形できているとこれに対する作業効率があがるでしょう。
何度も教師データを理解させる
教師データを何度も理解させることは、教師あり学習の重要なポイントです。教師あり学習では、AIに教師データを与えて、正解となるデータを学習させます。また、教師データを何度も繰り返し提示することで、AIの学習効果を高めることが可能です。
ただし、過剰に学習させると、過学習(overfitting)という現象が起こりかねません。これは未知のデータに対応できなくなる現象です。そのため、適切な回数や方法で学習させることが重要です。
まとめ
教師あり学習は事前に正解である「教師データ」を用意して、その内容を機械学習させる方法です。AIに学習させる方法は3種類あり、その中でも教師有学習は特に精度が高いものと考えられています。
ただ、教師あり学習には質の高い教師データが大量に必要であり、このデータの収集には負担が掛かってしまうこともあるでしょう。大量のデータを収集したいと考える際には誰でも手に入れることができるWebデータの活用が効率的です。もしWebから大量のデータを収集したいならば、PigDataのスクレイピング代行サービスがおすすめです。教師データのためにWebデータを必要とする際はぜひご相談ください。