ただのペンギンぶろぐ

データサイエンティストを目指す方に金融界隈のデータサイエンスに関わるお仕事の状況をなるべくわかりやすく整理した情報をお伝えするブログ

ソフトバンクの格付けと社債利回り

お疲れさまです。

昨日、S&Pによるソフトバンクの格付けのアウトルックが安定的からネガティブに引き下げられました。(格付け自体はBBプラスのママ)

https://www.bloomberg.co.jp/news/articles/2020-03-17/Q7BYAUDWRGG001

 

そんでもってどの程度、利回り変化しているのかなー(BB端末持っていない)と思って売買参考統計値を見てみると、40bpから60bpほど上昇しています。※ヘッダーは翌営業日表示なのでこのブログを書いている2020/03/18の結果は0319の列です。

 

銘柄名 利率(Coupon) 償還日 20200317 20200318 20200319
ソフトバンクG 48 2.13 20221209 1.608 1.76 2.088
ソフトバンクG 49 1.94 20230420 1.733 1.816 2.195
ソフトバンクG 52 2.03 20240308 1.784 1.953 2.284
ソフトバンクG 51 2.03 20240315 1.806 1.941 2.282
ソフトバンクG 54 1.569 20240612 1.842 2.029 2.395
ソフトバンクG 53 1.57 20240614 1.823 1.982 2.337
ソフトバンクG 55 1.64 20250425 1.958 2.094 2.47
ソフトバンクG 50 2.48 20260420 2.083 2.276 2.59
ソフトバンクG 57 1.38 20260911 2.083 2.23 2.644
ソフトバンクG 56 1.38 20260917 2.032 2.195 2.643
ソフトバンクG劣1 99.999 20410913 999.999 999.999 999.999
ソフトバンクG劣3 99.999 20410930 999.999 999.999 999.999
ソフトバンクG劣2 99.999 20430916 999.999 999.999 999.999

 

一方、SBI証券で購入できる小口の参考利回りは51回債で1.8%、56回債で2.0%。一昨日の水準とは同程度なのですが、急激な変化なので本日の結果に即していないですね。はい。

f:id:findatas:20200318211535p:plain

2012年来の金融緩和で投資にマネーがじゃぶじゃぶになったため、債券バブルと呼ばれるほどクレジットスプレッドが圧縮されていましたが、その巻き返しが来ているのかなという気がします。

 

今日はこの辺で・・・

 

 

【更新しなくてすみません】債券マーケットの様子2020年3月の1時点

皆様

更新がだいぶ遅れて申し訳ございません。

本業が色々忙しいと同時に、しっかりとした記事を書こうと思うと本腰入れて書かないとなぁとか考えていたらなかなかブログを更新できずにいました。

 せっかく作成したブログなので、自分の気になったことから書いて投稿癖をつけていこうと思います。

3月はマーケットが急落して色々な資産価格が下落しています。そんな中、流動性の一点でミスプライスが出ているものとして、Shenさんが債券ETF流動性の記事を上げていたのが気になりました。

http://www.shenmacro.com/archives/22251028.html 

 自分は現在仕事であまりマーケットデータを見ていないのですが、どれくらい債券価格が下がっているのかというのを確認したく、売買参考統計値(http://market.jsda.or.jp/shijyo/saiken/baibai/baisanchi/index.html)から3月16日のデータを引っ張ってきました。

 

date 銘柄名 償還日 利率(Coupon) 平均値複利 平均値(単価) 社数 Mdays
20200316 三井造船 17 20200914 0.62 12.023 94.55 6 183
20200316 三井造船 19 20210915 0.46 8.954 88.25 6 549
20200316 三井造船 16 20211210 1.03 8.579 88.0 6 635
20200316 三井造船 18 20220914 1.01 7.195 86.04 6 913
20200316 三井造船 21 20221215 0.62 6.786 84.72 5 1005
20200316 三井造船 20 20230915 0.7 6.067 83.26 6 1279
20200316 光通信 26 20491108 2.5 2.551 98.93 6 10830
20200316 光通信 20 20380921 2.12 2.05 101.07 6 6764
20200316 光通信 25 20391108 1.7 2.022 94.79 6 7177
20200316 ソフトバンクG 57 20260911 1.38 1.983 96.34 6 2371
20200316 ソフトバンクG 50 20260420 2.48 1.98 102.86 6 2227
20200316 ソフトバンクG 56 20260917 1.38 1.931 96.64 7 2377
20200316 ソフトバンクG 55 20250425 1.64 1.835 99.05 7 1867
20200316 ソフトバンクG 54 20240612 1.569 1.713 99.41 6 1550
20200316 ソフトバンクG 53 20240614 1.57 1.697 99.48 7 1552
20200316 ソフトバンクG 51 20240315 2.03 1.687 101.32 7 1461
20200316 ソフトバンクG 52 20240308 2.03 1.665 101.4 7 1454
20200316 光通信 23 20340808 1.38 1.622 96.89 6 5259
20200316 光通信 18 20330323 1.79 1.585 102.4 6 4756
20200316 ソフトバンクG 49 20230420 1.94 1.542 101.2 6 1131
20200316 ソフトバンクG 48 20221209 2.13 1.517 101.64 7 999
20200316 ユニゾHD9 20270528 1.2 1.496 97.98 6 2630
20200316 ユニゾHD12 20271126 1.5 1.484 100.11 5 2812
20200316 ユニゾHD6 20261127 0.99 1.421 97.25 5 2448
20200316 サンケン電気 13 20250919 0.81 1.307 97.36 6 2014
20200316 ジャパンエクセレント 15 20390909 1.07 1.27 96.54 5 7117
20200316 日本郵船 32 20310909 2.13 1.251 109.38 6 4195
20200316 イオンリ-ト投資法人 3 20361020 1.2 1.221 99.68 7 6063
20200316 福岡リ-ト 3 20380730 1.2 1.208 99.86 5 6711
20200316 東電パワ-グリッド32 20341006 1.28 1.208 100.95 5 5318
20200316 東電パワ-グリッド26 20340424 1.31 1.201 101.4 6 5153
20200316 東電パワ-グリッド29 20340710 1.3 1.197 101.34 6 5230
20200316 ユニゾHD11 20241128 1.1 1.194 99.57 5 1719
20200316 東電パワ-グリッド23 20340127 1.2 1.181 100.23 6 5066
20200316 東電パワ-グリッド20 20331213 1.16 1.172 99.84 6 5021
20200316 楽天 14 20340623 0.9 1.142 96.81 5 5213
20200316 野村不動産MF投 3 20380521 1.03 1.122 98.49 6 6641
20200316 日本ビルファンド 14 20460608 1.0 1.116 97.36 6 9581
20200316 アクティビア投資法人 9 20380212 1.05 1.108 99.05 7 6543
20200316 ユニゾHD8 20240529 0.89 1.104 99.12 6 1536
20200316 コンフォリア・レジ投 7 20340718 0.9 1.084 97.56 5 5238
20200316 大和ハウスリ-ト投 8 20380730 1.03 1.079 99.17 5 6711
20200316 東急リアル・エステ-ト 7 20391024 1.0 1.073 98.7 5 7162
20200316 三菱ケミカルHD 31 20490528 1.214 1.069 103.61 6 10666
20200316 野村不動産MF投 5 20390920 0.9 1.064 97.11 5 7128
20200316 フロンティア不動産投 4 20380709 1.0 1.06 99.0 6 6690
20200316 大栄不動産 5 20291213 1.0 1.055 99.49 5 3560
20200316 東京建物 30 20380222 1.08 1.044 100.58 6 6553
20200316 福岡リ-ト 2 20320730 1.0 1.041 99.52 5 4520
20200316 イオンモ-ル 18 20380702 1.05 1.03 100.32 5 6683
20200316 三菱ケミカルHD 28 20481218 1.388 1.027 108.96 7 10505
20200316 ダイビル 19 20390719 0.96 1.023 98.88 5 7065
20200316 日本原子力発電 4 20210225 1.477 1.023 100.43 6 347
20200316 森トラスト総合リ-ト 9 20370223 1.084 1.022 100.96 5 6189
20200316 イオンモ-ル 10 20361107 1.1 1.018 101.25 6 6081
20200316 森ビル 23 20380517 0.97 1.017 99.21 6 6637
20200316 インヴィンシブル投 5 20291026 0.9 1.009 99.0 5 3512
20200316 コンフォリア・レジ投 5 20330614 0.95 1.008 99.27 5 4839
20200316 ジャパンエクセレント 13 20330420 0.95 1.005 99.32 5 4784
20200316 イオンモ-ル 23 20390701 0.9 1.001 98.22 6 7047
20200316 インヴィンシブル投 6 20300313 0.85 0.997 98.6 5 3650
20200316 日本原子力発電 3 20200925 1.278 0.997 100.15 6 194
20200316 京阪神ビルディング12 20391017 0.92 0.995 98.65 6 7155
20200316 大和証券オフィス投 6 20310912 0.66 0.993 96.38 5 4198
20200316 いちごオフィス投 4 20290726 0.89 0.971 99.27 5 3420
20200316 ユニゾHD5 20231129 0.8 0.97 99.38 5 1354
20200316 クレディセゾン 68 20380430 0.99 0.97 100.33 6 6620
20200316 日本郵船 42 20290829 0.65 0.969 97.12 5 3454
20200316 日本ビルファンド 17 20380521 0.888 0.964 98.73 6 6641
20200316 東急不動産HD 17 20380301 0.98 0.961 100.3 7 6560
20200316 オリックス不動産投 14 20341030 0.77 0.959 97.42 5 5342
20200316 日本ビルファンド 15 20370522 0.914 0.958 99.29 6 6277
20200316 ダイビル 18 20340719 0.78 0.954 97.66 5 5239
20200316 東急不動産HD 21 20390711 0.88 0.953 98.71 5 7057
20200316 クレディセゾン 74 20390419 1.0 0.952 100.82 6 6974
20200316 阪急リ-ト投資法人3 20311110 0.9 0.949 99.46 5 4257
20200316 森ビル 19 20360711 0.83 0.947 98.23 5 5962
20200316 野村不動産HD 11 20370911 0.99 0.943 100.75 5 6389
20200316 第一三共 6 20460725 1.2 0.943 105.98 5 9628
20200316 電源開発 66 20490420 1.146 0.939 105.26 6 10628
20200316 野村不動産HD 9 20360602 0.99 0.938 100.77 5 5923
20200316 クレディセゾン 64 20370615 1.0 0.936 101.01 6 6301
20200316 アイフル 61 20201214 0.99 0.936 100.04 5 274
20200316 ジャパン・ホテル・リ-ト 11 20290614 0.854 0.935 99.28 5 3378
20200316 神戸製鋼所 65 20250827 0.815 0.935 99.36 6 1991
20200316 アドバンスレジデンス25 20310620 0.9 0.934 99.63 6 4114
20200316 東電パワ-グリッド15 20300724 0.89 0.928 99.62 6 3783
20200316 神戸製鋼所 63 20250521 0.924 0.927 99.98 6 1893
20200316 日本リ-ト投資法人4 20290424 0.9 0.924 99.79 5 3327
20200316 アクティビア投資法人 7 20320202 0.81 0.922 98.73 5 4341
20200316 Oneリ-ト投資法人 2 20290803 0.82 0.913 99.16 5 3428
20200316 ANAホ-ルディングス 35 20380524 0.82 0.911 98.47 6 6644
20200316 三井不動産 53 20561206 1.179 0.91 108.36 5 13415
20200316 ANAホ-ルディングス 38 20390520 0.84 0.91 98.77 6 7005
20200316 ANAホ-ルディングス 34 20370608 0.88 0.905 99.59 6 6294
20200316 日本リ-ト投資法人3 20281130 0.88 0.902 99.81 6 3182
20200316 ANAホ-ルディングス 32 20360609 0.99 0.893 101.46 6 5930
20200316 平和不動産リ-ト 5 20290531 0.82 0.892 99.36 6 3364
20200316 光通信 24 20291108 0.6 0.891 97.31 6 3525
20200316 フロンティア不動産投 2 20311125 0.708 0.889 97.99 6 4272

三井造船、ピカツー、ソフバンは安定の上位陣ですが、リート軍団が入ってきました。

あとは運輸(空運)などがちらほらという感じでしょうか。これが、この3月の状況なのか、それとも前月からの傾向なのかということも次回見てみたいと思います。

 

今回の投稿はこのへんで。 以上です。

Kaggleデータ分析_HomeLoan編(EDAはじめ回)

さて、今回もKaggleの実際に開かれたコンペを例に金融系データサイエンスをこなしていきたいと思います。

まずはデータを見る。

以下のURLに飛ぶとコンペで使用するデータが見られます。

https://www.kaggle.com/c/home-credit-default-risk/data



※赤字は追記です。

一番最初に書かれているのはデータの詳細です。

[Data Description画面]
f:id:findatas:20200209115727p:plain

ここには各ファイルの中のデータ詳細がかかれているのですが、まずはどんなファイルがあるのか見ていきましょう。


[Data Source画面]
f:id:findatas:20200205223818p:plain

①全ファイルの概要を説明したファイル(”HomeCredit_columns_description.csv ”)
②提出形式を説明したファイル(”sample_submission.csv”)
③学習用データ(”application_{train|test}.csv”)
④テスト用データ(”application_{train|test}.csv”)
を含む10ファイルが確認できます。

<実際に使用するデータファイル>

以下では、各ファイルの説明文と翻訳を載せておきます。英語はつらつらと読むのが面倒なので、一旦Google翻訳にかけたものを見ていきましょう。

bureau.csv

[説明文]

All client's previous credits provided by other financial institutions that were reported to Credit Bureau (for clients who have a loan in our sample).
For every loan in our sample, there are as many rows as number of credits the client had in Credit Bureau before the application date.

[Google翻訳]

他の金融機関から提供されたすべてのクライアントの以前のクレジットは、Credit Bureauに報告されました(サンプルにローンがあるクライアントの場合)。
サンプルのすべてのローンについて、申請日までにクライアントがCredit Bureauで保有していたクレジットの数と同じ数の行があります。

[解説]

Credit Bureauは邦訳するとしたら信用調査機関というところでしょうか。つまりはちゃんと払っているか支払いで事故を起こしていないかを記録する機関だと思えば良いと思います。

bureau_balance.csv

[説明文]

Monthly balances of previous credits in Credit Bureau.
This table has one row for each month of history of every previous credit reported to Credit Bureau – i.e the table has (#loans in sample * # of relative previous credits * # of months where we have some history observable for the previous credits) rows.

[Google翻訳]

Credit Bureauの以前のクレジットの月次残高。
このテーブルには、Credit Bureauに報告された以前のクレジットの履歴の月ごとに1つの行があります。つまり、テーブルには(サンプルの#loans *相対以前のクレジットの数*過去のクレジットで観察可能な履歴がある月の数)行があります。

[解説]

今回の申し込み以前のクレジットに関わる月次残高ですね。

POS_CASH_balance.csv

[説明文]

Monthly balance snapshots of previous POS (point of sales) and cash loans that the applicant had with Home Credit.
This table has one row for each month of history of every previous credit in Home Credit (consumer credit and cash loans) related to loans in our sample – i.e. the table has (#loans in sample * # of relative previous credits * # of months in which we have some history observable for the previous credits) rows.

[Google翻訳]

以前のPOS(販売時点)と申請者がホームクレジットで保有していた現金ローンの月間残高スナップショット。
このテーブルには、サンプルのローンに関連するホームクレジット(消費者クレジットおよび現金ローン)の以前のクレジットの履歴の各月に1行があります。つまり、テーブルには(サンプルの#loans *相対的な前のクレジットの数ここでは、以前のクレジット)行について観察可能な履歴があります。

[解説]

POSはもうPOSで良いと思います(笑)

Point Of Salesの略で、「販売時点情報管理」の意味。POSシステムのことで、物品販売の売上実績を単品単位で記録し集計するシステムを指す。
引用:POS | IT用語辞典 | 大塚商会

つまり何をどこでいつ買ったかの情報がわかるということになると思います。

credit_card_balance.csv

[説明文]

Monthly balance snapshots of previous credit cards that the applicant has with Home Credit.
This table has one row for each month of history of every previous credit in Home Credit (consumer credit and cash loans) related to loans in our sample – i.e. the table has (#loans in sample * # of relative previous credit cards * # of months where we have some history observable for the previous credit card) rows.

[Google翻訳]


申請者がホームクレジットで保有している以前のクレジットカードの月次残高スナップショット。
このテーブルには、サンプルのローンに関連するホームクレジット(消費者クレジットおよび現金ローン)のすべての以前のクレジットの履歴の月ごとに1つの行があります。つまり、テーブルには(#loans in sample過去のクレジットカードの行で観測可能な履歴がある月。

[解説]

今回のケースでは”ホームクレジット”という単語が固有名詞であるのにカタカナに変換されてて紛らわしいパターンですね。自社であるHome Credit社のクレジットカードの残高があればそちらの月次のスナップショットがデータとして連携されるということになります。

previous_application.csv


[説明文]

All previous applications for Home Credit loans of clients who have loans in our sample.
There is one row for each previous application related to loans in our data sample.

[Google翻訳]

サンプルにローンがあるクライアントのホームクレジットローンの以前のすべてのアプリケーション。
データサンプルには、ローンに関連する以前のアプリケーションごとに1つの行があります。

[解説]

今回の申し込み以前に申し込み履歴がある場合にそのデータを表示するようです。

installments_payments.csv


[説明文]

Repayment history for the previously disbursed credits in Home Credit related to the loans in our sample.
There is a) one row for every payment that was made plus b) one row each for missed payment.
One row is equivalent to one payment of one installment OR one installment corresponding to one payment of one previous Home Credit credit related to loans in our sample.

[Google翻訳]

サンプルのローンに関連する、以前にホームクレジットで支払われたクレジットの返済履歴。
a)行われた支払いごとに1つの行があり、b)支払いを逃した場合はそれぞれ1つの行があります。
1行は、サンプルのローンに関連する以前のホームクレジットクレジットの1回の支払いに対応する1回の分割払いの1回の支払いに相当します。

[解説]

Home Credit社のクレジット返済履歴のレコードですね。ここで気になるのは”支払いを逃した場合はそれぞれ1つの行があります。”ですね。後々見ていきましょう。

最後に

最初に紹介したData Description 画面で書かれているのですが、各ファイルの関係は主Keyを介して以下のようなER図で表現されます。

[ER図]
f:id:findatas:20200209120319p:plain


今回はちょっとデータをまとめるだけで時間がかかってしまったので、分析を始めるのは次回に回すとしてその方法(と呼べるのかわかりませんが)データを見ながら分析手法を決めることをEDA(exploratory data analysis)と呼ぶそうです。
次回はEDAをして、中身のデータの性質を見ながら統計的に処理していきたいと思います。

以上です。

HomeLoan環境構築編

今回も引き続き住宅ローンの与信分析を具体例として見ていきましょう。

環境構築

なんでも良いのですが、私は昔Rを使っていましたが今はPythonで分析を行っています。使っているソフトウェアはanacondaというパッケージマネージャーと分析環境ライブラリのjupyterです。どちらもメジャーなのであまり私から書くこともないのですが、Pythonは3系を選んで下さい(2系と3系があります。)
そして分析に使用するためのパッケージとしては以下のものをインストールしておいてください。

  • numpy
  • pandas
  • scikit-learn

前回のおさらいと補足

さて環境構築をすごく簡単に紹介した上で、前回求めようとしていたものをおさらいしたいと思います。前回は最適化する値が Area under ROCという数値であり、どのような数字で構成されるか簡単に触れましたが説明が丁寧でなかったので補足します。Area under ROCは以下の図の緑の部分の面積を指します。(最大値1で最小値は0)

[Area Under ROC]の概念図

f:id:findatas:20200202130143p:plain


ここで書かれているTPR、FPRの定義は以下の通りです。


求めるべき指標 \begin{aligned}
TPR &= \frac{TP}{(TP+FN)} \\
FPR &= \frac{FP}{(FP+TN)}
\end{aligned}



用語解説FP(False Positive)
モデルでは陽性(つまりデフォルトする債務者)と判定していて、
実際にはデフォルトしないケース

TP(True Positive)
モデルでは陽性(つまりデフォルトする債務者)と判定していたが、
実際にはデフォルトしたケース

FN(False Negative)
モデルでは陰性(つまりデフォルトしない債務者)と判定していて、
実際にはデフォルトしたケース

TN(True Negative)
モデルでは陰性(つまりデフォルトしない債務者)と判定していたが、
実際にデフォルトしないケース

つまり前回も書きましたが、如何にFP(優良な借り手を誤って審査で落とすこと)を発生さぜず、TP(不良な借りてを審査で落とすこと)の精度を挙げられるかという指標です。

具体例

とは言うものの具体例がないとわかりづらいと思います。如何に15人の申込者に対して適当にモデルで判定した例を作りました。Model列はモデルが申込者に対して付与したデフォルト確率で、RESULT列は実際に貸した場合のデフォルトの有無(1はデフォルト)を表現しています。
f:id:findatas:20200202131249p:plain

このデータセットの場合、modelの数値が57%(この数値は適当です。)以上であれば陽性(デフォルトする借りて)と判定した場合、前節の各指標のデータセットは下記のとおりになります。

f:id:findatas:20200202133212p:plain

場合の数としてはFP=1,TP=4,FN=2,TN=8となり、この時ののTPR,FPRは以下の通り。


計算結果 \begin{aligned}
TPR &= \frac{TP}{(TP+FN)}= \frac{4}{(4+2)}= \frac{2}{3}\\
FPR &= \frac{FP}{(FP+TN)}=\frac{1}{(1+8)}= \frac{1}{9}
\end{aligned}

さきほど、57%を閾値として設定しましたがこれを0%に近づけると誤って不良な貸し手に貸す確率が0に近づくためTPRは1に近づきますが、同時に優良な借りても必ず審査で落としてしまうようになるためFPRも1に近づいてしまいます。逆に誰でも審査を通してしまうと優良な借り手には必ずかせるためFPRは0に近づいていきますが、不良な借りてを判別できなくなってしまうためこちらも同様に0に近づいていきます。閾値の値を少しづつ変えて行くと上記の例では以下のようなグラフが出来上がります。

プロット結果
f:id:findatas:20200202142454p:plain

上記のプロット結果から分かる通り、この場合はAUROCは0.796程度になります。

まとめ

まとめとしては以下の通り右上に行けば行くほど厳しい審査になり、左下に行けば甘い審査になるということを示します。精度のいいモデルは左上の領域が高くなることからこの面積の大きさを持ってコンペの優劣をつけることを意味しています。
f:id:findatas:20200202143355p:plain


次回は実際にコンペで公開されているデータの解説を中心にデータサイエンスしていきたいと思います。

今回は以上です。

金融系データサイエンスカオスマップ2020年版

今回のエントリでは金融系におけるデータサイエンス案件のカオスマップです。2020年版における以下の4分野における取り組みをまとめてご紹介いたします。

  • 銀行
  • 証券
  • 資産運用
  • 保険




①銀行向けデータサイエンス案件

与信分析系

銀行の本業は預金者からの預金を融資して、その利子で利益を出すことです。ただし、貸し出す先はのべつ幕なしに誰でも良いというわけではありません。そのためしっかりとした融資先を見極める必要があるのですが、昨今の金融緩和から貸し出す先が銀行間で奪い合いになり与信がしっかりしたとすぐに判断できる債務者は減ってしまいました。そこで、今までよくわからないし融資金返済してくれるのかな?と疑問だった融資先候補をデータサイエンスの力で、「疑問だったけどしっかり返すと思われる融資先」と「そうでない怪しい融資先」に分類する取り組みが始められます。この取組に関してはこの投稿でデータを用いながら解説しています。
※余談ですが、昨今〇〇PayというPayアプリが流行っておりますが、それらはプラットフォーム化することでそのアプリを通じた支払いの手数料で儲ける他、支払いの状況から与信の推測をたてるためのデータ収集の目的を兼ねていて最終的に銀行の機能を代替したいと考えていると思われます。


②証券会社向けデータサイエンス案件

証券会社のデータサイエンスおよびデータアナリティクス案件としては、①顧客営業に対する最適銘柄推奨や②自己勘定やブローキングによる取引執行の最適化が挙げられます。

対面証券における営業効率最適化系

昨今、フィデューシャリー・デューティー(Fiduciary duty)、いわゆる顧客本位の営業が叫ばれている中、証券会社が一方的に売りたい商品だけを考えて営業すればよいというわけではなくなっております。そのため、

  • 証券会社として売りたい商品
  • 本当に推奨すべき顧客でニーズがある

という制約を満たす取引機会を過去のデータから判定して営業するということが求められます。凄まじく大雑把に言うとリスク許容度の高い富裕層に対してはリスク性の高い仕組債や私募ファンドなどを、資産形成層には前述のものより流動性の高いリターンも限定的な商品(株・債券など)を顧客の相場観と合致するように商品の紹介をするといったことを達成するためにデータサイエンスで分析をすることが求められます。

[参考]
今村証券、ビッグデータをAI解析 営業強化 :日本経済新聞

統計的な取引執行最適化

証券会社はバイサイド(運用会社)から執行の依頼を受けて、注文を取引所に流します。その執行方法の例としてザラバにおける取引量に応じた加重平均(Volume Weighted Average Price=VWAP)になるべく近くなるように取引を依頼されることがあります。ただし、当日のある時点の取引量はその時にならないとわからないため、どうしても誤差は生じてしまいますが統計的に予測をすることで、その誤差を少なくすることが挙げられます。この分野は執行系アルゴリズム取引と言って、データサイエンスの勃興以前からあるものですが、昔は執行職人がいてオーダーを出していたということを聞いています。クライアントに対する説明もあり、この分野にもデータサイエンスが活用されております。

[参考]
野村資本市場研究所|人工知能ビッグデータを活用した資産運用への期待と課題
URL:http://www.nicmr.com/nicmr/report/repo/2017/2017spr06.pdf

③資産運用会社向けデータサイエンス案件

資産運用会社向けはすでに整理されたものを参照しながら解説していきます。以下は野村総合研究所が2018/2019年にまとめた資産運用会社におけるAI(いわゆる機械学習)の適用分野です。

f:id:findatas:20200121072405p:plain
野村総合研究所(2018)

[参考]
www.nri.com

こう見ると、活用領域が大きい順に以下のようになるかと思います。

  1. 投資判断
  2. データ収集・アグリゲーション・分析
  3. リスク管理
  4. トレーディング戦略の立案・評価・執行

投資判断系

こちらはAIと記載されていますが、ベースになっているのは機械学習の技術と思われます。
それを実装するのはやはりデータサイエンティスト兼クオンツになると思うのでまだまだドメイン知識が問われる領域ではないかと個人的には思います。

投資判断、AI vs 人の時代 運用成績には改善余地 :日本経済新聞

データ収集・アグリゲーション・分析系

こちらは泥臭い作業でますますデータサイエンティストが担う仕事の部分が大きいと考えています。
衛星画像を利用したTELSAの出荷台数予測による投資判断などもこちらの領域にあたるのではないでしょうか。
他にはどれだけ効果があるのかわかりませんが、SNSによる口コミで投資対象の企業に与える影響を測ることなどが研究されています。

リスク管理

こちらはプロアクティブリスク管理という分野で使われていると聞きます。私は実測度の世界でVaRなどによる最大損失額のマネジメントなどのプロジェクトに関わっていたことがありますが、どちらかというとそのような静的なリスク管理ではなくポジションに対する事前のリスク評価(統計情報を利用した)に活用されている認識です。

トレーディング戦略系

前述のVWAPの注文の例で言えば、VWAPは1つの戦略にすぎないので、引けで買う・寄り付きで買う(単純な例です)といったバイサイド側トレーダーの取るべき戦略の統計分析などがこちらに該当すると思われます。

④保険会社向けデータサイエンス案件

[損害保険]クレームが生じる要因分析

保険会社で数理的なプロフェッショナル資格といえばアクチュアリーでしょう。

少々余談ですが、自分もアクチュアリー試験の1次試験のいくつかを受験して合格していますが、統計学における分布の種類を覚えるのに適した試験だなぁと感じました。
そんなアクチュアリーの業務の一つに、対象の契約に対して、クレーム(保険金請求)がかかる確率とその規模をモデル化して保険商品のプライシングがあります。
損害保険の分野では自動車事故を起こしやすい人・起こしにくい人の特徴をアクセルやブレーキの使用状況に加えて、走行ルートなどを組み合わせることで事故発生確率をより正確に推計して現在の等級制度より精緻なプライシングで、事故を起こしにくい人には安価に、起こしやすい人にはより負担がかかる仕組みするといった取り組みが挙げられます。少々古いですが、以下のURLが参考になります。

ビッグデータで保険料や与信枠が個別に変わる (2ページ目):日経ビジネス電子版

[損害保険]営業効率最適化系

また、証券会社の取り組みと同様に保険商品のレコメンドに活用されている事例もあります。

自動車保険にビッグデータ生かせ|ニュースイッチ by 日刊工業新聞社

[生命保険]デジタル診断系

一方生命保険では、寿命表(※年々更新され日本の表だと長寿化の傾向があります。)をもとに保険料を計算したりするのですが、あまりデータサイエンス案件の事例を聞きません。こちらは根ざしているのが寿命と病気への罹患率であることから医師よりもデータサイエンティストがパフォーマンスできる部分が限られているためと考えています。ただ、一方でレントゲン写真などをデジタルデータで取り込んで病気の特定に利用するケースなどがありますので、そちら方面が生命保険会社としての取り組みに該当するかもしれません。(やや強引ですみません。)
CTやレントゲン画像からの症状検出を人間医師/技術者より正確に行う機械学習ソフトウェアBehold.ai | TechCrunch Japan


以上です。

データサイエンティストの素養とKaggle

前回のテーマは金融系データサイエンス案件としてどのようなものがあるかということをご紹介しました。今回のテーマはじゃあどのようにデータサイエンティストの素養を身につけるかということをご紹介したいと思います。ただ一点ご認識していただきたいのは私の考えだけが正解というわけではなく、こういう考え方もあるんだなと思って頂ければ幸いです。新卒の学生さんは最近データサイエンス専門の専攻が出てくる*1などのデータサイエンス特化型の教育の他、統計・情報系の学部を出ていれば、専門の企業や事業会社のデータ分析系部署に配属されることが想定されますが、現在働いている方は今の仕事からの派生・職種転換になります。




データサイエンティストの登竜門

そのような場合にどのようなスキルがあるかを示す必要があるのですが、大学での専攻などのバックグラウンドの他、現時点でどれくらい通用するのかということを示すことが最も大切ではないかと思います。(もちろん学生でも実践スキルを試す場があれば嬉しいと思います。)
データサイエンティストを目指す方は一度は聞いたことがあるかもしれませんが、データサイエンティストとしての力量を示したり、ブラッシュアップするためのプラットフォームとしてKaggleというものがあります。

Kaggleとは?

f:id:findatas:20200129000111p:plain
Kaggleとはデータ分析のコンペティションサイトです。と言ってもあくまで私の認識の上での話ですので、ウィキペディア先生の解説を見てみましょう(丸投げ)

Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。
(中略)
課題投稿者はデータ及び当該課題の説明が必須である。Kaggle社は、課題作成の支援、課題構成作成、データの匿名化、当該課題への最適モデルの運用などのコンサルティングを担当する。
参加する回答者は多様な手法を試し、最適モデル構築を目指し競い合う。大抵は投稿結果が即座に(秘匿化した課題に対する提出モデルの予測精度に基づき)採点され、上位順に掲載される。
期限後、課題投稿者が提出モデルの使用にあたり永続的に取消不能である無償利用権(その中には、開発したアルゴリズム、ソフトウェア及び関連知的財産権が含まれ、"特に断りのない限り包括的"に有効。[3])に同意した回答者に賞金を支払う。
公開課題の他、ヘビーユーザーや大学団体[4]など参加者を限定した課題も提供している。

(引用元:Kaggle - Wikipedia)

つまり、データサイエンティストは自分の腕試しや能力を示す場であり、企業としてはそのような才能を見つける場でもあるのです。
私個人としても、腕試しや金融がどのような課題を方向性として持っているのか知るための場として活用しております。

位置づけ

とは言っても、このコンペを開催する企業はあくまでも出しやすい、かつ出しても機密上問題のない課題を出すため実務の現場で行われる内容とは微妙に異なることが予想されます。たとえば「実務では機密情報をマスキングするための前処理が必要でもっと煩雑な処理をしなくてはいけない」であったり、「自社外のデータで有効なものは契約の関係で出していないため限られたデータでコンペに挑まなければならない」といった具合です。次節では、前回のカオスマップ*2で予告した銀行系テーマの例として住宅ローンのデフォルトに関する予測モデルのコンペを引き合いに出して、簡単な流れを説明します。

簡単な入門事例(Homeloan)

Home Credit Groupという金融機関がKaggle上で提供しているコンペを実際に見てみましょう。以下のKaggleのURLにアクセスしてください。



www.kaggle.com



以下のような画面が出てくると思います。
f:id:findatas:20200129000957p:plain

デフォルトでは左のDescriptionタブが選択されていると思います。このタブはコンペの概要を示すタブですが、このコンペの概要は前回のエントリの中における銀行系案件の貸付対象を住宅ローンに限定した内容です。(参照:金融系データサイエンティストのインデックス

その下のEvaluationタブはどのようにコンペの評価をするかということを示しています。
f:id:findatas:20200129081136p:plain

ここでは、[SK_ID_CURR]という債務者IDに対して、[TARGET]という債務不履行(デフォルト)する可能性のあるを提出して、area under the ROC curveという評価方法で評価することを示しています。

"area under the ROC curve"とは

Kaggleのこのページもウィキペディアにリンクしているため、下にリンクを載せていますが"area under the ROC curve" a.k.a AUROCとはFPRとTPRという指標の関係から精度を面積で評価する指標です。この指標を解説する前に、モデルの精度を測るための基本的な指標をご紹介します。

[引用]:Receiver operating characteristic - Wikipedia



基本的な指標FP(False Positive)
モデルでは陽性(つまりデフォルトする債務者)と判定していて、
実際にはデフォルトしないケース

TP(True Positive)
モデルでは陽性(つまりデフォルトする債務者)と判定していたが、
実際にはデフォルトしたケース

FN(False Negative)
モデルでは陰性(つまりデフォルトしない債務者)と判定していて、
実際にはデフォルトしたケース

TN(True Negative)
モデルでは陰性(つまりデフォルトしない債務者)と判定していたが、
実際にデフォルトしないケース

そして今回のコンペで精度として扱われる数値は上記の指標を用いた以下の値となります。


求めるべき指標 \begin{aligned}
TPR &= \frac{TP}{(TP+FN)} \\
FPR &= \frac{FP}{(FP+TN)}
\end{aligned}






つまり、如何にFP(優良な借り手を誤って審査で落とすこと)を発生さぜず、TP(不良な借りてを審査で落とすこと)の精度を高められるかということになります。今日のエントリは少々長くなったので、一旦ここで終わりにして、次回は実際にコンペに挑戦するための環境構築の例を踏まえて、この指標の図の解説などを紹介できればと思います。

以上です。