データエンジニアの役割
データサイエンティストとは
データサイエンティストは、データ分析・データ解析の一連の処理、理解・評価を行う職種である。データサイエンティストの役割は以下のとおり。
- モデルやアルゴリズム構築
- 新たな解法や新技術への取り組み
- 解決したい課題に向き合う実務
- データとの向き合い方の提示
- 分析結果の評価
データ分析エンジニアとは
データ分析エンジニアは、データ工学を実践する職種である。データ分析エンジニアが持つべき技術は以下のとおり。
- データの入手や加工などのハンドリング(前処理)
- データの可視化
- プログラミング
- インフラレイヤー
データ分析とPython
データ分析の分野において、Pythonはデファクトスタンダードになっている。Pythonの特徴は以下のとおり。
- 言語としての仕様がわかりやすい
- コンパイル不要の動的スクリプト言語
- 豊富な標準ライブラリと外部パッケージ
- データ分析以外にも応用範囲が広い
- オープンソース
Pythonでデータ分析に使われるツール
データ分析に使われる主なパッケージは以下のとおり。
パッケージ | 機能 | |
1 | Jupyter Notebook | Webブラウザ上でPythonのコードを実行可能とする |
2 | NumPy | 数値計算を扱うパッケージ |
3 | pandas | 表形式の2次元データの変換や加工を行うためのパッケージ |
4 | Matplotlib | データの可視化を行うパッケージ |
5 | scikit-learn | 機械学習のアルゴリズムや評価用のツール |
6 | SciPy | 科学技術計算をサポートするパッケージ |
機械学習の位置づけと流れ
機械学習とは
機械学習は、大量のデータから、機械学習アルゴリズムによってデータの特性を見つけて予測などを行う。機械学習以外の選択肢を含めて分類や予測を行う方法としては以下がある。
- ルールベース
- 統計的な手法
- 機械学習
機械学習の種類
- 教師あり学習
- 教師なし学習
- 強化学習
機械学習の処理の手順
- データ入手
- データ加工
- データ可視化
- アルゴリズム選択
- 学習プロセス
- 精度評価
- 試験運用
- 結果利用
コメント