宿と観光のデータサイエンス実践録

40代プログラミング初心者がPythonデータ分析とAIを学ぶブログ

統計学の学習に役立つ無料教材

データサイエンスの学習で、統計学や数学の勉強を後回しにしたのは、参考にした方からの助言がきっかけでした。「まずはデータサイエンス全体の流れを体験し、その後で必要に応じて学ぶのがおすすめ」というアドバイスを受けたからです。

現在はPythonを使ってデータサイエンスの概要を一通り体験し、実務での活用を始めています。その中で、matplotlibやseabornといったツールを使ってグラフを作成する機会が増え、正しいグラフの読み取り方を学びたいと感じています。

また、学習中には専門用語が分からず、そのたびに調べることも多く、一度しっかりまとめて勉強したいと思うようになりました。

このページでは、中学から高校レベルの統計学を無料で学べる教材をまとめます。

総務省統計局「統計学習の指導のために(先生向け)」補助教材

中学校のための統計 社会が、自然が、生活がみえる統計

高校生のための統計学習教材

高等学校における「情報II」のためのデータサイエンス・データ解析入門

まずは、この辺から一通り読んでみようと思います。他にも有益な教材があれば教えて頂けると幸いです!

じゃらんの予約データをcsvでダウンロードしてpandasで読み込む方法

PythonやSQLの基礎を学んだ後、データサイエンスを宿泊施設で実装するためOTAの予約データをPythonで分析し始めました。

データのダウンロード自体は簡単なので、csvファイルをpandasで読み込むまでの流れも合わせて紹介します。

じゃらんの予約データをcsvでダウンロードする方法

じゃらんの管理画面にログインした後、「お客様管理」をクリック。

右下の「分析用元データダウンロード」で期間を選択し、「宿泊実績ベース」をクリックしてダウンロード。

次回のダウンロードで情報の更新が無いように宿泊実績ベースの予約データを選択しています。

1ヶ月未満単位でしかダウンロードできません。今後、WEBスクレイピングなど自動化する方法を模索したいと思います。

Google Colaboratoryで読み込む方法

一番簡単にPythonを使い始めるならGoogle Colaboratory(グーグルコラボ)がオススメです。Googleアカウントがあれば誰でも無料で使い始めることができます。

Googleコラボの起動方法はGoogleドライブで「+新規」をクリックし「その他」の中にあるGoogle Colaboratoryを選択するだけ。

# Google Colaboratoryにドライブをマウント
from google.colab import drive
drive.mount('/content/drive')

# Pandasのインポート
import pandas as pd
from pandas import Series, DataFrame

# CSVファイルを読み込む
path = "/content/drive/①データを保存した場所のパス"
df = pd.read_csv(path + '②ファイル名', encoding='shift_jis')

Googleコラボを開いたらGoogleドライブをマウントします。コードを記載するのでコピペしてご利用ください。

①データを保存した場所のパスと②ファイル名をご自身の環境に書き換えることでGoogle Colaboratoryにじゃらんのデータを読み込めます。

pandasでデータの概要を表示する方法

# csvデータを表示
df.head()

次にpandasのデータフレームとして読み込み表示します。

データフレームって何?って方は無料で学べる東京大学のPython講座サイトで学びましょう。

hoteldata.hateblo.jp

以上がじゃらんの予約データをcsvでダウンロードする方法とpandasで読み込む方法です。

ここまでできたらpandasやnumpy、matplotlibなどで加工&グラフを作成して分析を始めることができます。

独学データサイエンス!2ヶ月の実践記録と無料教材まとめ

文系出身・経理部40代が流行りのリスキリングとしてデータサイエンスを学び始めて2ヶ月目。これまでに学んだことと使った学習サイトや本など紹介します。

2ヶ月で学んだこと

データサイエンスといえば、統計学や数学(線形代数、微分積分など)を思い浮かべますが今の時点で全く学んでいません。プログラミング学習と機械学習モデルに時間を使いました。

プログラミング学習と機械学習モデルで実践したこと(無料教材)

以下がデータサイエンスにためにプログラミング学習で学んだことです。

  1. Googleコラボの使い方
  2. Python基礎
  3. numpy
  4. pandas
  5. scikit-learn
  6. matplotlib
  7. 機械学習モデル
  8. sql

1~7までは東京大学の「Pythonプログラミング入門」という無料サイトで学ぶことができます。

→ Pythonプログラミング入門 — Pythonプログラミング入門 documentation

8のsqlは「SQL攻略」という無料サイトで学べます。

→ SQL攻略 - Web上でSQLを実行しながらマスターするサイト

Kaggleコンペティションに参加(予定)

基礎学習の最後にKaggleコンペティションへの参加を予定しています。

Kaggleコンペティションは、データサイエンスや機械学習のスキルを競うプラットフォームです。参加者は企業や政府からの課題に取り組み、モデルの精度を競います。コンペには初心者向けから賞金があるものまで多様な形式があり、成績に応じてメダルや称号が授与されます。Kaggleは実践的なスキルを磨くための優れた場です。

以降のデータサイエンス学習&実践予定

2ヶ月で学んだことを実践で使っていきます。プログラミングや機械学習モデルはすべて覚えていないのでその都度調べ直しながら実践していきます。

まずは現在経理を担当している宿泊施設のデータ収集とEDAから始めていこうと思います。

今後は以下に実践した作業の記事をまとめていく予定です。

hoteldata.hateblo.jp