PythonやSQLの基礎を学んだ後、データサイエンスを宿泊施設で実装するためOTAの予約データをPythonで分析し始めました。
データのダウンロード自体は簡単なので、csvファイルをpandasで読み込むまでの流れも合わせて紹介します。
じゃらんの予約データをcsvでダウンロードする方法
じゃらんの管理画面にログインした後、「お客様管理」をクリック。
右下の「分析用元データダウンロード」で期間を選択し、「宿泊実績ベース」をクリックしてダウンロード。
次回のダウンロードで情報の更新が無いように宿泊実績ベースの予約データを選択しています。
1ヶ月未満単位でしかダウンロードできません。今後、WEBスクレイピングなど自動化する方法を模索したいと思います。
Google Colaboratoryで読み込む方法
一番簡単にPythonを使い始めるならGoogle Colaboratory(グーグルコラボ)がオススメです。Googleアカウントがあれば誰でも無料で使い始めることができます。
Googleコラボの起動方法はGoogleドライブで「+新規」をクリックし「その他」の中にあるGoogle Colaboratoryを選択するだけ。
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd
from pandas import Series, DataFrame
path = "/content/drive/①データを保存した場所のパス"
df = pd.read_csv(path + '②ファイル名', encoding='shift_jis')
Googleコラボを開いたらGoogleドライブをマウントします。コードを記載するのでコピペしてご利用ください。
①データを保存した場所のパスと②ファイル名をご自身の環境に書き換えることでGoogle Colaboratoryにじゃらんのデータを読み込めます。
pandasでデータの概要を表示する方法
df.head()
次にpandasのデータフレームとして読み込み表示します。
データフレームって何?って方は無料で学べる東京大学のPython講座サイトで学びましょう。
hoteldata.hateblo.jp
以上がじゃらんの予約データをcsvでダウンロードする方法とpandasで読み込む方法です。
ここまでできたらpandasやnumpy、matplotlibなどで加工&グラフを作成して分析を始めることができます。