ただのペンギンぶろぐ

データサイエンティストを目指す方に金融界隈のデータサイエンスに関わるお仕事の状況をなるべくわかりやすく整理した情報をお伝えするブログ

Kaggleデータ分析_HomeLoan編(EDAはじめ回)

さて、今回もKaggleの実際に開かれたコンペを例に金融系データサイエンスをこなしていきたいと思います。

まずはデータを見る。

以下のURLに飛ぶとコンペで使用するデータが見られます。

https://www.kaggle.com/c/home-credit-default-risk/data



※赤字は追記です。

一番最初に書かれているのはデータの詳細です。

[Data Description画面]
f:id:findatas:20200209115727p:plain

ここには各ファイルの中のデータ詳細がかかれているのですが、まずはどんなファイルがあるのか見ていきましょう。


[Data Source画面]
f:id:findatas:20200205223818p:plain

①全ファイルの概要を説明したファイル(”HomeCredit_columns_description.csv ”)
②提出形式を説明したファイル(”sample_submission.csv”)
③学習用データ(”application_{train|test}.csv”)
④テスト用データ(”application_{train|test}.csv”)
を含む10ファイルが確認できます。

<実際に使用するデータファイル>

以下では、各ファイルの説明文と翻訳を載せておきます。英語はつらつらと読むのが面倒なので、一旦Google翻訳にかけたものを見ていきましょう。

bureau.csv

[説明文]

All client's previous credits provided by other financial institutions that were reported to Credit Bureau (for clients who have a loan in our sample).
For every loan in our sample, there are as many rows as number of credits the client had in Credit Bureau before the application date.

[Google翻訳]

他の金融機関から提供されたすべてのクライアントの以前のクレジットは、Credit Bureauに報告されました(サンプルにローンがあるクライアントの場合)。
サンプルのすべてのローンについて、申請日までにクライアントがCredit Bureauで保有していたクレジットの数と同じ数の行があります。

[解説]

Credit Bureauは邦訳するとしたら信用調査機関というところでしょうか。つまりはちゃんと払っているか支払いで事故を起こしていないかを記録する機関だと思えば良いと思います。

bureau_balance.csv

[説明文]

Monthly balances of previous credits in Credit Bureau.
This table has one row for each month of history of every previous credit reported to Credit Bureau – i.e the table has (#loans in sample * # of relative previous credits * # of months where we have some history observable for the previous credits) rows.

[Google翻訳]

Credit Bureauの以前のクレジットの月次残高。
このテーブルには、Credit Bureauに報告された以前のクレジットの履歴の月ごとに1つの行があります。つまり、テーブルには(サンプルの#loans *相対以前のクレジットの数*過去のクレジットで観察可能な履歴がある月の数)行があります。

[解説]

今回の申し込み以前のクレジットに関わる月次残高ですね。

POS_CASH_balance.csv

[説明文]

Monthly balance snapshots of previous POS (point of sales) and cash loans that the applicant had with Home Credit.
This table has one row for each month of history of every previous credit in Home Credit (consumer credit and cash loans) related to loans in our sample – i.e. the table has (#loans in sample * # of relative previous credits * # of months in which we have some history observable for the previous credits) rows.

[Google翻訳]

以前のPOS(販売時点)と申請者がホームクレジットで保有していた現金ローンの月間残高スナップショット。
このテーブルには、サンプルのローンに関連するホームクレジット(消費者クレジットおよび現金ローン)の以前のクレジットの履歴の各月に1行があります。つまり、テーブルには(サンプルの#loans *相対的な前のクレジットの数ここでは、以前のクレジット)行について観察可能な履歴があります。

[解説]

POSはもうPOSで良いと思います(笑)

Point Of Salesの略で、「販売時点情報管理」の意味。POSシステムのことで、物品販売の売上実績を単品単位で記録し集計するシステムを指す。
引用:POS | IT用語辞典 | 大塚商会

つまり何をどこでいつ買ったかの情報がわかるということになると思います。

credit_card_balance.csv

[説明文]

Monthly balance snapshots of previous credit cards that the applicant has with Home Credit.
This table has one row for each month of history of every previous credit in Home Credit (consumer credit and cash loans) related to loans in our sample – i.e. the table has (#loans in sample * # of relative previous credit cards * # of months where we have some history observable for the previous credit card) rows.

[Google翻訳]


申請者がホームクレジットで保有している以前のクレジットカードの月次残高スナップショット。
このテーブルには、サンプルのローンに関連するホームクレジット(消費者クレジットおよび現金ローン)のすべての以前のクレジットの履歴の月ごとに1つの行があります。つまり、テーブルには(#loans in sample過去のクレジットカードの行で観測可能な履歴がある月。

[解説]

今回のケースでは”ホームクレジット”という単語が固有名詞であるのにカタカナに変換されてて紛らわしいパターンですね。自社であるHome Credit社のクレジットカードの残高があればそちらの月次のスナップショットがデータとして連携されるということになります。

previous_application.csv


[説明文]

All previous applications for Home Credit loans of clients who have loans in our sample.
There is one row for each previous application related to loans in our data sample.

[Google翻訳]

サンプルにローンがあるクライアントのホームクレジットローンの以前のすべてのアプリケーション。
データサンプルには、ローンに関連する以前のアプリケーションごとに1つの行があります。

[解説]

今回の申し込み以前に申し込み履歴がある場合にそのデータを表示するようです。

installments_payments.csv


[説明文]

Repayment history for the previously disbursed credits in Home Credit related to the loans in our sample.
There is a) one row for every payment that was made plus b) one row each for missed payment.
One row is equivalent to one payment of one installment OR one installment corresponding to one payment of one previous Home Credit credit related to loans in our sample.

[Google翻訳]

サンプルのローンに関連する、以前にホームクレジットで支払われたクレジットの返済履歴。
a)行われた支払いごとに1つの行があり、b)支払いを逃した場合はそれぞれ1つの行があります。
1行は、サンプルのローンに関連する以前のホームクレジットクレジットの1回の支払いに対応する1回の分割払いの1回の支払いに相当します。

[解説]

Home Credit社のクレジット返済履歴のレコードですね。ここで気になるのは”支払いを逃した場合はそれぞれ1つの行があります。”ですね。後々見ていきましょう。

最後に

最初に紹介したData Description 画面で書かれているのですが、各ファイルの関係は主Keyを介して以下のようなER図で表現されます。

[ER図]
f:id:findatas:20200209120319p:plain


今回はちょっとデータをまとめるだけで時間がかかってしまったので、分析を始めるのは次回に回すとしてその方法(と呼べるのかわかりませんが)データを見ながら分析手法を決めることをEDA(exploratory data analysis)と呼ぶそうです。
次回はEDAをして、中身のデータの性質を見ながら統計的に処理していきたいと思います。

以上です。