
データの分析を主に扱う職業として「データサイエンティスト」が注目されています。近年は多くの企業や団体がデータ活用に取り組み始めたことから、特に重視されている職業です。ただ、名前こそ耳にしたことがあるものの、具体的な役割について理解できていない人は多いでしょう。今回は、データサイエンティストとはどのような役割を担い、具体的にどのようなスキルや資格が必要となるかを解説します。
目次
データサイエンティストとは
データサイエンティストとは、テクノロジーを活用し大量のデータを分析することで人間だけでは気付けないような有益な情報を見つけ出す職業です。統計学やプログラミング、データ解析などのスキルを活用して、大量のデータから特徴や傾向を導きます。見つけ出したパターンや傾向を活用することによって、データに基づいた意思決定を実現できるのです。
例えば、顧客の購入履歴を分析すれば、どの商品が人気であるかを把握したり、購入履歴に加えて季節や天候も分析することで、これからどの商品が売れるか予想ができます。一例ですが、直感ではなくデータから人気商品を予想することによって、最適な受発注を行うなどよりリスクを抑えたビジネス展開ができるのです。
なお、主な担当業務は上記のような分析作業ですが、分析に向けて機械学習モデルを構築したりデータを分析する環境を整えたりすることもあります。一般的には、データサイエンティスト以外が担当する分野ではあるものの、対応する可能性があることも理解しておきましょう。
データサイエンティストという職業が誕生した背景
データサイエンティストが登場した背景には、テクノロジーの進化やデータの増加が深く関係しています。
まず、インターネットの普及や様々なシステムの登場によって、企業も個人も大量のデータを生成するようになりました。皆さんは意識していないかもしれませんが、日常生活や企業活動において、大量のデータが生み出される時代です。このデータを「無駄にしてはいけない」という考え方が普及し、データを活用するポジションとして、データサイエンティストが登場しました。実際、データサイエンティストがデータを分析・活用してビジネスを成功させた企業はいくつもあり、そのような成功事例に追従するためにデータサイエンティストが求められているという側面もあります。
加えて、コンピューターの性能が非常に高まり、大量のデータでもスムーズに処理できるようになっています。以前はスペック的にデータ解析を行うのが難しいことが多かったのですが、現在は市販されているコンピューターでも、簡単にデータ解析できるようになりました。データ分析や解析、そして活用が当たり前の世の中となってきているため、これらを専門的に扱うデータサイエンティストが成り立つようになっています。
なぜ今データサイエンティストが注目されるのか
データサイエンティストが注目される理由は、データの価値が今まで以上に重要視されているからです。企業は競争力を維持したり成長したりするためには、一般的に「データドリブン経営」として知られるように、データを活用が不可欠です。今までのように経験や勘に依存するのではなく、客観的な証拠に基づいた意思決定が求められています。
しかし、データ分析には専門的な知識が必要であり、素人がチャレンジしても期待通りの結果を得らることは難しいです。そのため、専門家としてのデータサイエンティストという役割が注目されています。
データサイエンティストの仕事内容
データサイエンティストの仕事内容は多岐にわたりますが、代表的なものを紹介します。
データ収集と整理
データサイエンティストは、様々なデータソースから必要な情報を収集しなければなりません。例えば、企業内のデータベースや活用しているクラウドストレージから、業務データを収集します。また、SNSやWebサイトから外部データと呼ばれるものを収集し、社会の動向を分析することもあるでしょう。目的に応じて、様々なデータを適切に収集しなければなりません。
ただ、収集したデータはそのままでは分析に適していないことが多く、事前に分析できる形式に整理する作業が必要です。例えば、データのフォーマットを整えたり、不足している情報を補完したりします。データクレンジングとも呼ばれる作業で、この作業品質がデータ分析の結果を大きく左右しかねません。
機械学習モデルの構築
データ分析のために機械学習モデルが必要ならば、これの構築を担当します。例えば、予測分析やデータの分類に関する学習モデルが必要ならば、それらをデータサイエンティストが用意するのです。
なお、機械学習モデルの構築作業は非常に複雑であるため、その詳細については割愛します。AWSなどのクラウドサービスが提供する、機械学習モデルのベースと学習データを組み合わせて、処理すると考えましょう。データサイエンティストの中でも、機械学習モデルの構築を専門に扱う人がいるぐらい難易度の高い業務です。
データ分析
収集したデータを各種アルゴリズムを利用して分析します。データ解析は、データサイエンティストが担う業務の中心であると考えましょう。統計分析やデータマイニングなどの手法を用いて、データを詳しく分析します。大量・複雑なデータからパターンや相関関係、トレンドなどを見つけ出すのです。
なお、このような分析作業ではコンピューターで、専用の解析ツールやプログラミング言語を用いなければなりません。例えば「Tableau」などのツールやPythonなどのプログラミング言語で、データ解析の仕組みを構築し、データを取り込みます。
ここで得られる分析結果は、後続の作業に繋がる重要なものです。そのため、どのようなアルゴリズムを採用し、どのような結果を得られるかはデータサイエンティストとしてのスキルを示せる部分といえます。
データの可視化
データの解析結果は複雑な数値などの集まりであるため、、理解しやすくするために可視化するべきです。手法は様々ありますが、グラフやチャートを作成するケースが一般的でしょう。可視化の手法は多岐にわたり、数値データをExcelやRなどの機能でプロットすることもあれば、上記で言及した「Tableau」など解析ツールに付随する機能を利用することもあります。分析ツールと一体化している場合は気にする必要がないものの、ツールに機能がない場合は別の可視化ツールを用意する必要があるのです。
レポートの提供
データ分析の結果をグラフやチャートだけで提供されても、意思決定者がその意味を理解できないことが多いです。そのため、分析内容を含むレポートを作成し、どのような分析が行われたを伝える必要があります。例えば、仮説に基づいてどのようなデータを収集し、その分析結果がどのようなものかをストーリー形式で説明します。複数の仮説を立てたならば、それぞれを対比できるような資料にまとめる必要があります。
データサイエンティストが最終的に提供すべきものは「経営層がビジネスインサイトを得るための資料」です。この点を意識したレポーティングが、データサイエンティストに求められる重要な仕事です。
データアナリスト、データエンジニア、AIエンジニアとの違い
データサイエンティストと混同されやすい職業に、データアナリストやデータエンジニア、AIエンジニアが挙げられます。これらとの違いについても理解しておきましょう。
データアナリストとの違い
データサイエンティストもデータアナリストも同じくデータの解析を担当します。ただし、データサイエンティストは機械学習や各種モデルを利用して、データを分析する作業が中心です。一方で、データアナリストは、分析されたデータからインサイトを得る作業を主に担います。データサイエンティストの一部業務だけを切り出した役割が、データアナリストであると考えても差し支えないでしょう。また、両社は保有するデータ分析スキルの幅や熟練度合いが異なる職業ともいえます。
データエンジニアとの違い
データエンジニアは、データの収集や保存、処理などのインフラを設計、構築するエンジニアです。例えば、データ分析のためにデータパイプラインやデータベースの構築、運用を支援します。それに対して、データサイエンティストは構築されたインフラを活用して、収集されたデータを分析し、ビジネスインサイトを引き出す役割を担います。データエンジニアはデータ分析における環境づくりなどテクニカルな部分を担当し、データサイエンティストはその環境をビジネスに活かすという違いがあります。
AIエンジニアとの違い
AIエンジニアは、人工知能の設計や開発、実装などを担当するエンジニアです。一般的には機械学習モデルやディープラーニングのアルゴリズムを開発し、実際のアプリケーションに組み込みます。データサイエンティストも、これらのモデルやアルゴリズムを開発することはありますが、主な業務は分析です。AIエンジニアのように、開発作業を専門としているわけではありません。開発スキルの面では、AIエンジニアの方が遥かに優れており、場合によってはデータサイエンティストがAIエンジニアに支援を依頼することもあります。
データサイエンティストの平均年収
データサイエンティストとして働く場合、どの程度の年収が期待できるのか、平均で紹介します。
日本の平均年収
日本でデータサイエンティストとして働く場合、平均年収は約700万円から900万円の間です。今までに、どのような経験を積んでいるかや勤務する企業の規模によって左右されます。この点は、一般的なエンジニアと似た仕組みであると考えてよいでしょう。なお、経験豊富なデータサイエンティストや大手企業で働く場合、年収が1,000万円を超える可能性もある職業です。
アメリカの平均年収
アメリカで働くデータサイエンティストの平均年収は約12万ドルから15万ドル(約1,700万円から2,100万円)と日本より高い水準です。シリコンバレーやニューヨークなどの技術とビジネスが集中するエリアでは、さらに高い年収が見込まれます。世界でも名だたる企業であれば、さらに年収が高いこともあるでしょう。
ただ、日本とアメリカは物価の差があり、例えば日本の生活費はアメリカよりも30%程度低いと考えられます。また、ニューヨークの家賃は東京23区の2倍以上です。そのため、日本の平均年収が低いような印象を受けますが、物価を踏まえると日本のデータサイエンティストが特別低い年収というわけではありません。
データサイエンティストに必要なスキル
データサイエンティストにはどのようなスキルが必要であるか解説します。
数学や確率・統計の知識
データを分析・解析するスキルの根底には、数学や確率・統計の知識が必要です。データの関連性を論理的に導くためのスキルであると言い換えても良いでしょう。
例えば、統計学のスキルはデータの解析やデータの関連性を明らかにする際に必要です。データの分布や相関、回帰などを理解するために数学の知識とともに習得しなければなりません。また、データの出現頻度を算出する際に統計の知識が必要になることも考えられます。
プログラミングやデータベースのスキル
データの収集や加工、分析のためにプログラミングスキルが必要です。自分自身でアプリケーションを開発して、処理する可能性があります。一般的に、PythonやRなどのプログラミング言語が利用されるため、これらを中心に習得しておくと良いでしょう。
また、プログラミング言語に応じたライブラリ活用のスキルも必要です。例えば、Pythonならば「Polars」「Vaex」と呼ばれるデータ分析向けのライブラリが存在します。ライブラリを理解していないと実装に時間を要する可能性があるため、こちらも非常に重要です。
加えて、データを保存するためのデータベースに関するスキルも求められます。データベースの扱いを間違えると、処理の時間が大幅に伸びてしまうなど、業務効率の悪化に繋がりかねません。
AIや機械学習のスキル
近年は、データから新しい価値を導き出すために、AIや機械学習が活用されています。そのため、データサイエンティストには、これらを活用できるスキルが必要です。また、場合によってはモデルを教育したり実装したりするスキルも求められます。
最低限、AIや機械学習を活用して、データからパターンや傾向を導き出せるだけのスキルが必要です。また、回帰やクラスタリング、ディープラーニングなどを理解して、機械学習を使いこなすことも求められます。
データ分析ツールのスキル
現在は、データ分析のツールを活用して業務をこなすことが増えています。そのため、これらのツールを使いこなすためのスキルが必要です。
例えば、データ分析ツールとして「Tableau」「Power BI」がありますが、これらの見た目や操作性は大きく異なっています。そのため、自身が業務で利用するソフトウェアについて「どこにどの機能のボタンがあり、どうすれば結果を得られるのか」などの使い方を習得する必要があるのです。このようなツールの表面的な部分はもちろん、データ分析ツールであればツールを使いこなすためにデータ分析自体の知識も必要となるため、各種ツールを使いこなすために複合的な知識が必要といえるでしょう。
業界や業務に関する知見
データサイエンティストは業界や業務などビジネスに関する知識を保有しなければなりません。ビジネスの目標を達成したり、課題を解決したりするためのデータ分析を担当するため、ビジネスへの理解は必須です。これが理解できていなければ、求められるアウトプットを提供できません。
例えば、マーケティングに関するデータ分析を担当するならば、以下は理解しておく必要があるでしょう。
- 現状どのような商品を販売しているか
- それぞれの販売個数やいくらの売上・利益を得ているか
- 販売手法は店舗・訪問・オンラインなど何を採用しているか
- 競合他社の売上や販売方法はどういったものか
その企業だけではなく、競合他社の情報や業界全体のトレンドなどについても理解しなければなりません。
これは一例ですが、ビジネスを理解できていなければ、収集すべきデータや分析のアルゴリズム、最終的に生み出すアウトプットのいずれも決定できません。ビジネスの理解がスタートであると言っても過言ではないでしょう。
データサイエンティストに必要な資格
データサイエンティストが取得しておきたい資格を紹介します。
データサイエンティスト検定(DS検定)
データサイエンティスト検定(DS検定)は、一般社団法人データサイエンティスト協会が提供する資格です。2021年9月からスタートした新しいものではありますが、データ活用が注目されていることにより、資格としての人気が高まっています。
データサイエンティストに必要なスキルが幅広く問われ「データサイエンスの基礎」「データエンジニアリングのスキル」「ビジネスを理解する力」が必要です。データサイエンスについては入門レベルですが、それらを下支えする数学の計算能力やAIのスキルも必要とされます。言い換えると、取得することで、これらのスキルをすべて有しているという証明になります。
統計検定
統計検定は、統計学に関するスキルを証明する資格です。4級から1級まで存在し、高校生が学ぶレベルから大学で統計学を専攻する人が学ぶレベルまで設けられています。データサイエンティストならば、大学基礎課程で学ぶレベルである2級以上を取得することでスキルの証明に役立てられるでしょう。これを取得することで、複数のデータから関連性を確率で予測したり、大量のデータから傾向を導き出したりできるようになります。
Pythonエンジニア認定試験
データサイエンティストはPythonを利用してデータ分析する場面が多々あります。そのため、Pythonに関する資格を取得しておくと良いでしょう。特に、Pythonエンジニア認定試験には「データ分析試験」と呼ばれる分類があり、データサイエンティストに求められるPythonのスキルをピンポイントで証明できます。実装の基礎となる数学のスキルや、分析に必要な各種ライブラリのスキルも問われるため、より実践的な試験といえるでしょう。
データサイエンティストになる方法
データサイエンティストになるためには、以下のステップを踏むとよいでしょう。
基礎知識の習得
解説したとおり、データサイエンティストには、数学や統計学、プログラミング、データベースの基本的な知識などが不可欠です。そのため、数学など基礎的な教養とPythonやRなどのプログラミング言語を学ぶことからスタートしましょう。加えて、統計学の基礎を習得し、解析をPythonなどのプログラミング言語で実装できるようになることを目指します。
実践的なスキルアップ
実際にデータを扱う経験を積み、実践的なスキルアップに励むことが重要です。例えば、無料で公開されているビッグデータを活用して、さまざまな分析手法を適用する練習をします。また、一般社団法人データサイエンティスト協会が開催するシンポジウムに参加して、最新の分析手法を習得してみるのも良いでしょう。
資格の取得
データサイエンティストとしてのスキルを証明できる資格が存在すると紹介しました。自己研鑽に励むならば、これらの資格を取得してスキルの証明とすることをおすすめします。特に、スキルアップしてから就職、転職、フリーランスとして活躍したいならば、アピールポイントとして取得すべきです。
ポートフォリオの作成
自身のスキルや経験を示すために、ポートフォリオを作成すべきです。個人での活動や参画したプロジェクトの成果を詳細に記載し、GitHubなどで公開します。データサイエンティストなどのエンジニアは、ポートフォリオで実力を示すことが多いため、作成時には内容を十分に検討しましょう。
データサイエンス企業である(株)インディゴデータが大切にしていること
データサイエンス企業である株式会社インディゴデータは「データを生き物としてとらえる」ということを大切にしています。数字や記号の羅列であり、データは一見すると「無機質なもの」と見られがちです。しかし、その本質は「まるで生を受けたもの」かと思われるほど、非常に有機的なものだと考えています。
インディゴデータは、データを愛するデータサイエンス集団として、有機的な情報の本質を見つめる解析力と、柔軟な対応力を大切にしているのです。
まとめ
データサイエンティストは、大量のデータを分析して新しい知見を導き出し、それを経営などに活かせるようにサポートします。大量のデータをプログラムなどで解析するため、データ処理に興味がある人やデータと経営の関係性などに興味がある人に向いている職業です。これから、データサイエンティストの需要はさらに高まり、多くの人が活躍できる環境になるでしょう。
実際、インディゴデータもデータサイエンス企業として「データサイエンス力」「データエンジニア力」「ビジネス力」を持っている人材を求めています。しかし、3つのスキルすべてが圧倒的である人材は、市場には数えるほどしかいません。また、ひとつのスキルだけが飛び抜けていたとしても、ビジネスで活用する上では、足りない部分を補完できる人材が必要です。
そのように考えると、今、ビジネスで一番求められるのは、3つのスキルが使えるレベルでバランスよく備わっている人材といえます。データサイエンティストとして経験を積みたい場合は、この3つのスキルを伸ばせそうな企業を選ぶとよいでしょう。