データサイエンティストはどのようにデータを見ているのだろう?
「データサイエンティストの仮説思考」を読みながら問題を解くと良いでしょう。
どのような人にお勧めか
・データサイエンティストを目指す人で、どのようにデータを見ていけばいいかわからない人。
・データサイエンティストになるために必要となることが把握できていない人。
要旨
現役データサイエンティストが紙と鉛筆で解ける問題を通して、データサイエンティストはどのようにデータをみていき、処理し、分類していけばよいか教えてくれる。基本的な分類方法や考え方が学べる良書。
学んだこと・気づき
・データサイエンティストに求められることはデータを読む力、データを説明する力、データを扱う力、データを分類する力、データから法則を見つける力、データから予測する力の6つの力。
・データサイエンティストに必要なスキルは「ビジネス力」「データサイエンス力」「データエンジニアリング力」。
・データの全体的な傾向を把握するために、平均値や最頻値、中央値といった指標がよく使われる。
・2つのデータの関係性を確認する際、散布図をよく使用する。
・データサイエンティストはこの問題を解決するために、「データの標準化」(平均値を0、分散を1にする処理)を行い、各指標を同じように扱えるように変換する。
・統計解析ツールや機械学習ライブラリなどを用いて、機械的にデータを分類しています。そこでよく使われている「k-means法」という方法。
・データをグループに分ける際、まず分類する目的を明確にすることから始めます。データが大量にある場合、いくつかのグループに分けて考えたほうがシンプルになり、データを把握・比較しやすくなるからです。
・多くのデータから根拠を持って推測できるように「決定木モデル」を作成します。
・データ分析の手順
手順1:データ項目を確認し、ざっくりと仮説を立ててみよう
手順2:データを観察し、イレギュラーデータがないかチェックしよう
手順3:データから法則を見つけ出そう
手順4:データから見つけ出した法則に当てはめて推測しよう
・事前に仮説を立てておくことで、データを確認する際のポイントを明確にできます。事前に仮説を立てておかないと、膨大なデータに直面した際、どこを確認すれば良いのか迷子になってしまい、不必要に時間を浪費することになる。
・与えられた数字の中から関係性を見つけ出し、見つけ出した関係性を適用することで未知の数値を予測します。
・目的に合わせたグラフ表現を採用することで、説得力のある報告書や提案書を作成します。
・品質管理(QC:QualityControl)では、「QC7つ道具」が活用されています。QC7つ道具とは、製造現場における課題を見える化するための手法
今後にどう活かすか
データサイエンティストを目指すうえで、必要となるスキルや考え方、分析の方法を学ぶことができたので、今後はこの知見を活かして実践の場で経験を積み、データサイエンティストの業務を遂行できるように準備していく。
コメント