「Python3エンジニア認定データ分析試験」対策(第1回)

データエンジニアの役割

データサイエンティストとは

データサイエンティストは、データ分析・データ解析の一連の処理、理解・評価を行う職種である。データサイエンティストの役割は以下のとおり。

  • モデルやアルゴリズム構築
  • 新たな解法や新技術への取り組み
  • 解決したい課題に向き合う実務
  • データとの向き合い方の提示
  • 分析結果の評価

データ分析エンジニアとは

データ分析エンジニアは、データ工学を実践する職種である。データ分析エンジニアが持つべき技術は以下のとおり。

  • データの入手や加工などのハンドリング(前処理)
  • データの可視化
  • プログラミング
  • インフラレイヤー

データ分析とPython

データ分析の分野において、Pythonはデファクトスタンダードになっている。Pythonの特徴は以下のとおり。

  • 言語としての仕様がわかりやすい
  • コンパイル不要の動的スクリプト言語
  • 豊富な標準ライブラリと外部パッケージ
  • データ分析以外にも応用範囲が広い
  • オープンソース

Pythonでデータ分析に使われるツール

データ分析に使われる主なパッケージは以下のとおり。

パッケージ機能
1Jupyter NotebookWebブラウザ上でPythonのコードを実行可能とする
2NumPy数値計算を扱うパッケージ
3pandas表形式の2次元データの変換や加工を行うためのパッケージ
4Matplotlibデータの可視化を行うパッケージ
5scikit-learn機械学習のアルゴリズムや評価用のツール
6SciPy科学技術計算をサポートするパッケージ

機械学習の位置づけと流れ

機械学習とは

機械学習は、大量のデータから、機械学習アルゴリズムによってデータの特性を見つけて予測などを行う。機械学習以外の選択肢を含めて分類や予測を行う方法としては以下がある。

  • ルールベース
  • 統計的な手法
  • 機械学習

機械学習の種類

  • 教師あり学習
  • 教師なし学習
  • 強化学習

機械学習の処理の手順

  1. データ入手
  2. データ加工
  3. データ可視化
  4. アルゴリズム選択
  5. 学習プロセス
  6. 精度評価
  7. 試験運用
  8. 結果利用

コメント

タイトルとURLをコピーしました