【雑談】データサイエンティストとして取得してもよさそうな資格まとめ

将来、アフリカでデータサイエンティストとして活躍することを目標としている。

 

その中で、国内、海外で取得できる資格のうち、将来のapplyの際に使用できそうな資格、勉強してもよさそうな資格をまとめた。

(全体を通して参考にした記事は最後に記載)

 

【国内】

・E資格

受験料:

受験資格:一般社団法人日本ディープラーニング協会認定のプログラムを修了

受験方法:

E資格とは、AI人材の能力を認定するための試験で、機械学習や深層学習の適切な手法を選択し、実装する能力があるか問う試験とのこと。

実装能力がとわれるため、データサイエンティストよりかはエンジニア向けとのことだけれども、データサイエンティストも実装までできたほうがいいと思うから受けてもいいと思った。

E資格を受験するためには、試験日の過去2年以内に一般社団法人日本ディープラーニング協会が認定したプログラムを修了していることが必要

プログラムを修了するのに、だいたい10万円ほどかかるみたいだから、そこだけネック。検討中。

参照:

datamix.co.jp

 

・CBAS

受験料:8800円

受験資格:特になし

受験方法:IBT方式またはCBT方式(通年)

Excelを用いるテストで、Excelでのデータハンドリング等の証明になるとのこと。

cbas-exam.jp

【海外】

・Certified Analytics Professional (CAP)

データ分析の専門家としての知識を持っていることを証明するための資格。

受験料:$640

参考:

www.certifiedanalytics.org

 

【最後に】

全体的に、「これだ!」みたいな資格はまだない印象。データサイエンティストという職業が比較的新しいからか。

あと、なぜに受験料がこんなにも高いんだ。。。そのお金で美味しいご飯食べれるぞ。。。受験料が高いので、しっかり準備して試験に挑みたい。

 

【参考】

www.dga.co.jp

【機械学習(4/28更新)】「Python-機械学習プログラミング-第3版」(随時更新)

私の積読本のなかでも、最古参で異彩な色を放つ「Python-機械学習プログラミング-第3版」をついに手に取ることができた!!

 

そこで、勉強したことを、理解を深めるためにもここにまとめていこうと思う。

第18章くらいまであるので、随時更新していく。

 

【第一章:機械学習の種類と】

機械学習には大きく3つの種類がある。

教師あり学習

教師なし学習

強化学習

 

教師あり学習

学習データ(訓練データ、教師データ)と呼ばれる、モデルを作成する際にあてるべきデータがすでに存在する際、有効な機械学習方法。学習データで予測するものとしては、あてるべきデータが0か1の2値分類のものもあれば、3以上のものもある。

 

教師なし学習

学習データがなく、どれが正解のデータかがわからない状況において有効な機械学習

(e.g.)クラスタリング(大量の情報をクラスに分類して構造化すること)によるグループの発見

 

強化学習

環境とのやり取りに基づき性能を改善するプログラム。

(e.g.)チェスエンジン、将棋AI等

 

【第2章:Irisデータを読み込もう!】

パーセプトロンとADALINEについての紹介があったが、あんまり使われる場面を見たことがないため、スキップして、今後使用するであろうIrisデータの取得を行う。

 

Iris(アヤメ)データとは、教師あり学習を学習する際、例題としてよく使われるデータで、scikit-learn(a.k.a. sklearn)のdatasetsモジュールに含まれている。

まずは、sklearnのインポートから

 

conda install skearn

import sklearn

 

 

 

【第3章】

 

 

【本のまとめ】「世界一流エンジニアの思考法」

牛尾剛さん著

牛尾さん…1971年大阪生まれ。米マイクロソフトのシニアソフトエンジニア。関大卒で一番今乗ってる人。

 

「世界一流エンジニアの思考法」

https://www.amazon.co.jp/%E4%B8%96%E7%95%8C%E4%B8%80%E6%B5%81%E3%82%A8%E3%83%B3%E3%82%B8%E3%83%8B%E3%82%A2%E3%81%AE%E6%80%9D%E8%80%83%E6%B3%95-%E6%96%87%E6%98%A5e-book-%E7%89%9B%E5%B0%BE-%E5%89%9B-ebook/dp/B0CKSZV5DQ?ref_=ast_author_mpb

 

自分も普段プログラムを書いて機械学習を行っているため、海外でエンジニアとして仕事をしている人の話は、共通点も多く、上司によくダメだしされることの解決方法もたくさん書いていたので、購入した。

非常にためになる話が多かったので、自分用に簡単にまとめる。(ネタばれにならない程度に)

1.エラーがでたとき、いきなり手を動かさず、どこで問題が起きているのか仮説を立てて、それを検証するようにエラーを解決すべき。

僕もエラーが出たら、その瞬間から問題を考えてわからなかったらググって、またエラーがでて、という悪循環を平然とやってた。

しかし、よく考えたら、先輩に「ここでエラーが起きちゃって」ていうと、「エラーを見せて」「ああ、たぶんこれが問題だと思うから変えてみたら」

といったような方法でさっとエラーを解決してた。

プログラムを回すという事実があるなか、おそらく仮説を立てて検証するという方法が一番効率がいい気が確かにする

 

2.物事を理解するのには時間がかかる

その通りだけど、普段なにげなく理解したと思っていた自分を改めなおす言葉やった。

今までの理解は理解ではなかったな。

理解したかどうかの定義は

●ほかの人に説明できるかどうか

●応用可能かどうか

なので、ほかの人に説明するように、このブログを始めたといっても過言ではない。

 

3.小さなドキュメントをコードを書きだす前に書く

俺はいままでコードを書き終えてから、ドキュメントを他人向けに書いてて、確かにドキュメント書くのは復習にはなるけど、、、て感じやった。

しかも、コードを書く中で、「これもいる」「あれはいらん」が大量発生するから、

これからはコードを書く前に、ドキュメントを書くようにします。。

 

4.マルチタスクをやめる

本書にも記述されていたのだが、人間の脳はマルチタスクに向かない。これは様々な場所で言われていることだが、実際は、同僚からチャットが来たり、メールが来たり、仕事現場では、様々な場面でマルチタスクにならざるを得ない場面がある。今までは「マルチタスクをしない」ことを特に考えてなかったので、そのような突発的な仕事ができれば(その仕事がすぐ終わる場合は)今までの仕事をちょっと中断して、対応していた。

しかし、1時間~数時間「決まった時間はこれをする!」と決めることで、各段に仕事の効率が上がった気がするので、おススメだ。

 

その他にも、エンジニアとしての働き方の参考となる考え方が多く載っていたので、「世界一流エンジニアの思考法」おすすめです!!

 

 

 

 

 

 

 

【機械学習】モデルの精度を確認するための指標について(Indices as a measure of the model accuracy)

When I explain the rogit model which I made recently, I often use some indecies to explain how my model is perfect (or dreadful).

We can understand easily but difficult to explain to my boss or coleagues, therefore, I would like to summarize some indices I often use.

 

1.AR (Accuracy Ratio) score

AR is used as a index to check how the model can predict answer collectly.

AR is also known as CAP curve as well.

AR is calculated by below.

1.The model calculates that the probability of 1(black) or 0(white) for each data.

After that, we sort the data in descending order regarding calcurated score.

Then, we plot with x-axis and y-axis, x-axis is accumurated by data, y-axis is accumurated by predicted score.

Then , we calcurated the area between the plotted line and 45 degree line.

The score created in these steps are AR score.

 

2.AUC

AUC is an avvribation of the area under the curve.

AUC is calculated as below.

1.The model calculates that the probability of 1(black) or 0(white) for each data.

After that, the true positive rate and the false postive rate is calicurated.

the true positive rate is predicted true data/predicted true + real true

the false positive rate is predicted false/predicted false + real false.

Then,

 

 

最初の投稿_本ブログを開設する理由

本ブログを私が勉強したことなどのアウトプットの場とする。

仕事上誰かに教える立場ではないため、アウトプットの場が少ない私。

たまたま本屋で手に取った「世界一流のエンジニア(著:牛尾剛)」に

「私はブログをアウトプットの場にしている」という内容を読んだから、真似してみようと思う。

 

基本的には、下記3点について投稿しようと思う。

機械学習について

②プログラミングについて

③小説や自己啓発本など最近読んだ本について

 

それぞれ、各タイトルの前に【】でどれに当てはまるか記載する。