So-net無料ブログ作成
検索選択

勇気を出して初めてのデータ分析 - データサイエンティストを目指して(1) - [データサイエンティスト]

今日は社会人がデータ分析をどのように独学で身に着けていけばいいかということを考えます。

ビッグデータがバズワードとなって以来、花形の学問のひとつとなったのが「統計学」です。統計学が重要なのは今も昔も変わらないわけですが、かつてはデータの分析になんて興味がなかった会社や部門がデータ分析を業務に役立てようとした結果、需要が増しています。

さて、私は社会人になってから統計学の素晴らしさを体感して勉強を始めました。筑波大学のビジネススクール(GSSM)で椿広計先生という大家の講義を受けて開眼しました。そういう意味では実に幸運だったと思います。

スクールに通って統計学を身に着けるというのも一つの手なのでしょうが、万人がスクーリングできるわけではありません。独学で身に着けて行かないといけない人が大半ではないでしょうか。大丈夫です。独学でも統計学を使いこなせるようになります。「数学」なんて・・・。という文系の人も躊躇する必要はありません。データ分析は車の運転と同じで、慣れると自然にやれてしまうもんです。

さて、もったいぶってもしょうがないので本論に入りましょう。データ分析をスムーズに身に着けるコツは「初めに理論を学ばないことです」。つまり、最初に「統計学」を勉強するとダメなのです。

どういうことでしょうか?大学の講義で使われる統計学の教科書は伝統な確率論から入り、平均・分散などの統計量の説明、そして仮説検定という推測統計学を経てようやく実務でもよく使われる回帰分析に到達します。それまで数式のオンパレードという教科書も少なくありません。今でこそ「マンガでわかる統計学」みたいなイメージが掴める入門書がありますが、このような入門書でも実データを分析しようとするとどうやって使いこなしていいか分からなくなるのです。

社会人は身近なデータをいじってみることから始めることが重要です。実践からスタートするのです。RやSPSSなどの専門のツールを曲がりなりにもいじってみる。回帰分析をやってみることです。理論が分からなくても気にする必要はありません。データをツールにつっこんで分析機能(関数)を駆使して予測して精度を確認する。又はいろいろな方法で可視化してみて仮説を考えてみる。まずはコレです。理屈ぬきでやれることをやってみるのです。

ツールを使っているうちに統計的分析で出来ることが体感できてきます。どのようにデータを使えば予測が上手くいくのかとかどのような変数が重要なのかということが分かってくるのです。これだけでも実務を回すことができるようになります。今のツールは優秀なのでなんとなく上手くいってしまうのです。

料理に例えて言うならば、素材や機材についてあれこれ知るよりも先ずははレシピを覚えてしまって、ほどほど上手い料理を作れるようになることが大切です。それなりに上手い料理を作ることができれば、人を喜ばせることができます。素材や機材などに凝るのは後回しでよろしいわけです。

さて、ここまでが初めの一歩。このレベルでは理論はとりあえず置いておいて、ツールに慣れ親しんでそれなりの結果を出せればそれでいいのです。では、それから先に進にはどうすればいいか。それは「基礎を知って合理的に応用できるようになること」です。

つまり、理屈を深く知る必要がありますので、世の中にごまんとある数式だらけの入門書を読み解きましょう。怖がる必要はありません。今までにデータ分析の経験を積んできたあなたならいくつもの発見があるはずです。経験的に知っていたことの舞台裏について好奇心を持って読み進めることができるでしょう。統計学を始めようとして手に取った数式だらけで無味乾燥だと思われた本の印象ががらりと変わるはずです。その美しい仕組みに惚れるようになることでしょう。このように感じられれば、あなたは次のステージに進んだということになります。

■初めに手元に置いておくべき本
・Rによるデータサイエンス - データ解析の基礎から最新手法まで

Rによるデータサイエンス - データ解析の基礎から最新手法まで

Rによるデータサイエンス - データ解析の基礎から最新手法まで

  • 作者: 金 明哲
  • 出版社/メーカー: 森北出版
  • 発売日: 2007/10/13
  • メディア: 単行本(ソフトカバー)


手法の宝庫です。データサイエンス(統計学+機械学習)という分野には多くの手法があります。視野を広げるために有用な本です。私は特許情報の分析から分析屋としてのキャリアをスタートしたのですが、統計的手法で何ができるのか?ということをこの本から学びました。

ビジネスへの統計モデルアプローチ

ビジネスへの統計モデルアプローチ (シリーズ〈ビジネスの数理〉)

ビジネスへの統計モデルアプローチ (シリーズ〈ビジネスの数理〉)

  • 作者: 椿 広計
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2006/07/01
  • メディア: 単行本(ソフトカバー)


恩師である椿先生の本です。財務諸表を材料に回帰分析の進め方が分かりやすく解説してあります。テキストにあるデータが入手できないところが難点ですが、統計モデルの使い方が理解できます。

・その数学が戦略を決める

その数学が戦略を決める (文春文庫)

その数学が戦略を決める (文春文庫)

  • 作者: イアン エアーズ
  • 出版社/メーカー: 文藝春秋
  • 発売日: 2010/06/10
  • メディア: 文庫


データ分析を駆使してビジネスを成功に導いた事例が物語として解説されています。最初は理論よりもこのような物語を読む方がイメージしやすいと思います。

■初めに読もうとしてはいけない本
・統計学入門

統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

  • 作者:
  • 出版社/メーカー: 東京大学出版会
  • 発売日: 1991/07/09
  • メディア: 単行本


理屈を知る上での入門書です。良書です。が、ある程度、データ分析を経験してからの方が吸収できます。買っておいて積読しておくのもいいでしょうが、未経験の社会人が最初に読み解こうとしてはいけない本です。





nice!(0)  コメント(0)  トラックバック(0) 

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

トラックバックの受付は締め切りました
メッセージを送る

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。

×

この広告は1年以上新しい記事の更新がないブログに表示されております。