教師あり学習 - 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）

時系列分析

遠藤彩 — Sun, 15 Oct 2023 06:08:11 +0000

時系列分析とは回帰分析の手法の一つで、時系列順に並んだデータを用い将来の値を予測する手法です。時系列推移が”季節変動” “長期変動” “不規則変動”のいずれの要因によるものかを読み解き、要因ごとの分析が必要となります。商品の売上や株価予測、気温の変化など多くの分野で活用されています。

手法について

時系列分析とは、時間の経過によって変化するデータを経過順に並べて将来の値を予測する手法です。扱うデータは下記の３つの要因に分けることができます。

(1)季節変動：年・月・週別など季節ごとに繰り返される変動のこと
(2)長期変動：長期にわたる持続的な変動や、一定ではない長期的な周期で繰り返される変動のこと
(3)不規則変動：突発的や誤差的な変動のこと
これらの要因ごとにモデルを適用することで、予測値を得ることができます。

代表的なモデル

代表的な時系列分析のモデルとして、下記の5つが挙げられます。

①AR（自己回帰）モデル

過去のデータに対して回帰を行うことで、現在の値を予測するモデルで、現在（将来）の値は過去の値のみの影響を受けているという考え方です。

②MA（移動平均）モデル

ある時刻のデータを同じ時刻での誤差項を用いて表現するモデルで、現在の時刻は1つ前の時刻での誤差の影響を受けるという考え方です。

③ARNA（自己回帰移動平均）モデル

ARモデルとMAモデルを組み合わせたモデルで、ある時点の出力を、過去の出力と過去から現在までの入力に対する和で表現するモデルです。

④ARIMA（自己回帰和分移動平均）モデル

ARモデルとMAモデル、Iモデルを組み合わせ、ある時点と直近時点の値の関係が将来も保存されると仮定したモデルです。

⑤状態空間モデル

ほとんどの時系列モデルを表現できる汎用性の高い時系列分析のモデルで、観測できない”状態”とその状態から観測される”観測値”を分解してモデル化する手法です。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post 時系列分析 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

リッジ回帰

遠藤彩 — Sun, 15 Oct 2023 06:02:24 +0000

リッジ回帰とは線形回帰の一つで、線形回帰の式に重みの二乗の合計であるL2正則化項を加えたものです。L2正則化項を加えることで、モデルの過学習を抑えることができます。

手法について

リッジ回帰とは、線形化モデルの一種でL2正則化を適用し、罰則をつけながらなるべく多くの変数を用い、多重共線性の影響が少なくなるようパラーメータの推定を行う正則化手法です。
L2正則化とは目的変数に重みの二乗和を加えることで、ほかのデータとは異なる傾向のデータの重みを0に近づけ、モデルを滑らかにします。
そのため回帰係数が大きくなることを防ぎ、過学習を抑えることができます。

手順・式

リッジ回帰では、予測値の誤差の二乗とL2正則化項の合計で予測値が算出されます。

L2正則化項は、ハイパラメータとパラメータ(重み)の二乗和の掛け算で算出されます。L2正則化項では、なるべくパラメータwの絶対値を小さくするような働きをします。ハイパラメータのλはクロスバリデーションもしくは定数の設定により決定します。

【回帰式】

メリット・デメリット

【メリット】

①過学習を抑えることができる

②多重共線性の問題を解決
　正則化することで、多重共線性の問題を解決することができます。

【デメリット】

①モデルが複雑化する可能性がある
　正則化で完全に重みが0になるわけではないため、説明変数が非常に多い場合はモデルの解釈が複雑になります。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post リッジ回帰 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

ロジスティック回帰

遠藤彩 — Sat, 14 Oct 2023 21:51:37 +0000

教師あり学習の代表的な手法の一つがロジスティック回帰分析です。ある事象が発生するか否かの2値の結果が起こる確率を0~1の範囲で予測することができます。

手法について

ロジスティック回帰分析とは多変量解析の一つであり、目的変数がカテゴリー値の際に複数の説明変数を用いて質的確率を予測するモデルです。
発生するかしないか等の予測したいことを数値化したものを目的変数とし、目的変数に影響を与える変数を説明変数をもとに目的変数の発生確率を算出します。
発生確率は0~1の値で算出され、1に近いほど発生確率が高いことを示します。
説明変数を選択する際には、データの値が全て同じでないことや数値以外のデータの場合は数値に置き換えるといったルールがあることに注意が必要です。

手順・式

ロジスティック回帰の回帰式を適用することで、予測値を得ることができます。
回帰式をグラフで表すと、以下の図表のようなS字カーブとなります。

【回帰式】

※exp{ }　:指数関数
　a :定数
　b1~k :回帰係数
　x1~k :説明変数の値

メリット・デメリット

【メリット】

①結果を理解しやすい
　使用する説明変数がどの程度、目的変数に影響しているかが明確であるため、解釈がしやすいです。

②予測対象の数が少なくてもモデル構築が可能

【デメリット】

①外れ値の影響を受けやすい
　外れ値の影響を受けやすいモデルのため、外れ値を含む変数を利用する際には変数加工を行ったり、使用する変数の再検討を行う必要があります。

②数値変数もしくは2値で表せる変数しか使用できない

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post ロジスティック回帰 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

重回帰分析

遠藤彩 — Sat, 14 Oct 2023 21:46:25 +0000

重回帰分析とは、教師あり学習の回帰分析の一つで複数の説明変数を用いて目的変数との関係を推定する手法です。結果に対して各説明変数がどの程度の影響を持つか知りたい時や、説明変数をもとに将来の結果を予測したい際に活用されています。

手法について

重回帰分析とは、説明変数と目的変数の因果関係を見ることで、結果を表す目的変数に対して要因を表す説明変数がどの程度影響しているかを明らかにする回帰分析の手法の一つであり、2つ以上の説明変数と目的変数の相関関係を数式化したものです。
目的変数と、目的変数に影響を与えそうな複数の説明変数を選択し、それぞれの回帰係数や定数を算出します。それらを回帰式に当てはめることで目的変数を算出することができます。説明変数の選択方法として、投入変数の中から予測値が最も高い説明変数の組み合わせを選択するステップワイズ法や、投入変数のすべてをモデルに投入する強制投入法などがあります。

手順・式

重回帰モデルの回帰式を適用することで、予測値を得ることができます。
予測値と回帰係数のデータの単位は統一する必要があります。

【回帰式】

※a :定数
　b₁～b_n :回帰係数
　x₁～x_n :説明変数の値

メリット・デメリット

【メリット】

①理解がしやすい
　それぞれの説明変数の影響力がわかりやすいです。

【デメリット】

①多重共線性の問題があると結果の解釈がしにくい
　説明変数間の相関関係が強い場合は多重共線性になりやすく、回帰係数の異常値や精度の低下につながります。

②説明変数は数値化する必要がある
　使用する説明変数の値は全て数値である必要があるため、文字型のデータは数値型にダミー変数で置き換える必要があります。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post 重回帰分析 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

XGBoost

遠藤彩 — Sat, 14 Oct 2023 21:41:34 +0000

XGBoostは機械学習で用いられるアンサンブル学習の一つであり、ブースティングと決定木を組み合わせた手法です。非常に高い精度を誇っており、ビジネスやコンペでよく活用されている手法ですが、他の手法に比べ学習に時間がかかることもあります。

手法について

XGBoostとは、ブースティングと決定木を組み合わせたアンサンブル学習の一つです。
ブースティングとは、作成したモデルでうまく予測できなかった箇所を学習データに重みをつけてさらにモデル学習することを繰り返し、作成した複数のモデルを組み合わせて予測することで性能を向上させる手法です。
勾配ブースティング回帰木では、浅い決定木を複数作成しブースティングを行うことで、モデルの性能を向上させることができます。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post XGBoost first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

LightGBM

遠藤彩 — Sat, 14 Oct 2023 21:40:20 +0000

LightGBMとは勾配ブースティング決定木を基にした機械学習手法で、2016年に米マイクロソフト社が開発した手法です。
勾配ブースティング決定木のデメリットである処理時間がかかる点を解決し、高速に処理ができることが特徴です。

手法について

LightGBMは勾配ブースティング決定木の特徴である高い精度を保持したまま、処理時間を大きく削減できる手法として近年注目されている手法です。処理時間短縮のため、勾配ブースティング決定木と比較し下記の点が改善されました。

(1)分岐点の探索にヒストグラムを採用

全てのデータから分岐点を探索していましたが、ヒストグラム化して分岐点を探索するようになったため、探索時間が大きく減少されました。

(2)Leef-wise

決定木分析や勾配ブースティング決定木分析では、各層ごとに計算を行っていたが、分岐の必要がないクラスについては計算しない処理に変更されたことで決定木の作成時間が大きく減少されました。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post LightGBM first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

勾配ブースティング決定木

遠藤彩 — Sat, 14 Oct 2023 20:54:32 +0000

勾配ブースティング（GBDT）とは、決定木をベースにしたアンサンブル学習法の一つです。ひとつ前の決定木が間違えた部分を補足するように新しい決定木の作成を繰り返し、予測モデルの精度を高めていく手法です。実際の値と予測値の誤差が小さくなるように決定木を繰り返し作成していくため、従来の決定木分析と比べて高精度な予測を行うことができます。

手法について

目的変数とそれまでに作成した決定木による予測値の差を学習し、誤差少なくなるよう決定木を直列に追加することで、それまでに作成した決定木の予測値より誤差が小さなっていきます。
決定木を作成していくうちに予測値が目的変数と近づいてくるため、作成される決定木の重みは徐々に小さく、精度が高い手法です。
勾配ブースティング決定木では、勾配降下法と決定木、ブースティングの3つの手法が使用されます。

※勾配降下法：関数の傾きの最小を求めること
※ブースティング：アンサンブル学習の一つであり、弱学習器の誤差を順番に学習し最終的に高精度の強学習器を作ること

手順・式

勾配ブースティング決定木では、決定木分析と同様に目的変数と複数の特徴量を用意する必要があります。
勾配ブースティング決定木の作成手順は以下の通りです。

(1)ランダムデータの抽出

用意したデータセットからランダムにサンプルを選択し、新たなデータセットを作成します。

(2)決定木の作成

(3)誤差の算出

(2)で作成した決定木の予測値と実際の値の誤差を算出します。

(4)決定木の再作成

(3)で算出した誤差をより小さくする決定木を作成し、アンサンブル学習を用いて新しい予測値を算出します。

(5)繰り返し行う

(2)~(4)までの工程を複数回行い、複数の決定木を作成します。

(6)最終的な予測値の算出

作成した複数の決定木の予測値をもとに最終的な予測値を算出します。

メリット・デメリット

【メリット】

①精度が高い
パラメータのチューニングを実施しなくても、一定の精度を出すことができます。

【デメリット】

①処理時間が長い
複数の決定木を作成するため、処理に時間がかかります。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post 勾配ブースティング決定木 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

ランダムフォレスト

遠藤彩 — Sat, 14 Oct 2023 20:46:30 +0000

ランダムフォレストとは、複数の決定木を組み合わせたアンサンブル学習法の一つです。多数の決定木を用いて分類や回帰、クラスタリングを行うことができます。決定木の過学習しやすいという問題を解決したより精度が高い手法と言われています。

手法について

ランダムフォレストは教師あり学習の一つであり、決定木の持つ過学習しやすいという問題を解決するアンサンブル学習法です。
ランダムに抽出したデータを用いて決定木を作成するといった工程を繰り返し、作成された複数の決定木を集約することで最終的な分析結果を決定する手法です。
ランダムにデータを抽出することで、決定木のデメリットとして挙げられている過学習が抑制され、また各決定木の精度は高くないが複数の決定木を組み合わせることで高精度のモデルとなります。

手順・式

ランダムフォレスト分析では、決定木分析と同様に目的変数と複数の特徴量を用意する必要があります。ランダムフォレスト分析の作成手順は以下の通りです。

(1)ランダムデータの抽出

用意したデータセットからランダムにサンプルを選択し、新たなデータセットを作成します。

(2)ランダムな特徴量を作成

(1)のデータセットから特徴量をランダムに選択し、新しい特徴量セットを作成します。

(3)決定木の作成

(1)のデータセットと(2)の特徴量セットを使用し、決定木を作成します。

(4)複数の決定木を作成

(1)~(3)までの工程を複数回行い、複数の決定木を作成します。

(5)最終的な予測値の算出

作成した複数の決定木の予測値をもとに最終的な予測値を算出します。回帰や予測問題では平均値を、分類や判別問題では多数決を取ることが多いです。

メリット・デメリット

【メリット】

①過学習になりにくい
　ランダムに抽出したデータで作成した決定木のアンサンブル学習を行うことで、分散を抑え過学習を防ぐことができます。

②説明変数の重要度を測定可能
　各説明変数が分類にどの程度寄与しているか、重要度が高い説明変数かを評価することができます。

【デメリット】

①予測結果の説明が難しい
　複数の決定木をもとに予測値が算出されるため、結果の解釈が難しい場合があります。

②処理に時間がかかる
　多数の決定木を作成するため計算量が多く、また大量なデータを処理する場合は高速な計算が行える環境が必要となります。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post ランダムフォレスト first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

決定木

遠藤彩 — Fri, 13 Oct 2023 02:08:46 +0000

教師あり学習の代表的な手法の一つが決定木分析です。決定木と呼ばれる樹形図を作成し、条件に「該当する」or「該当しない」で分割を繰り返し、目的変数の予測モデルを作成する方法です。分析結果は決定木で可視化されているためモデルの理解がしやすく、マーケティングや意思決定などの多くの場面で使用されています。

手法について

決定木分析は教師あり学習の一つであり、指定した目的変数に影響を与える複数の説明変数を分析し、決定木を作成することで目的変数の予測モデルを作成する手法です。
決定木分析は、準備したデータをノード（節点）とエッジ（枝）で構成された木構造に分類することで、データの特徴や関係を分析することが可能です。
決定木は複雑なデータ構造をわかりやすく可視化することができるため、医療や金融・製造業など様々なビジネス分野で使用されています。

手順・式

決定木分析では、目的変数と複数の説明変数を用意する必要があります。
決定木の作成手順は以下の通りです。

(1)データ分割

準備した全てのデータを一つのノード（根ノード）とします。その後、データを分割する条件を決定します。

(2)ノード分割

分割の条件をもとに、二つのノード（ノード1,ノード2）に分割します。

(3)クラスの決定

(1)と(2)をクラスができるまで繰り返し行います。クラスとは分割が終了したノードのことを指し、そのクラスに属するデータに対して同一の予測値が与えられます。

(4)モデルの評価

決定木の予測精度を評価します。

メリット・デメリット

【メリット】

①可視化されているため理解しやすい
結果までの過程がツリー図で可視化されてわかりやすくホワイトボックスなモデルであるため、結果を理解しやすく、分析とは馴染みのない第三者からの理解も得られやすい手法です。

②前処理が少ない
データを二分化していく手法のため外れ値の影響を受けにくく、データの準備が最小限で済みます。

【デメリット】

①過学習をしやすい
木が深くなりすぎると、学習データに対して過剰に適合し、結果の理解が難しくなってしまうことや実際のデータにあてはめた際に想定した結果より精度が低い可能性があります。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post 決定木 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

教師あり学習 - 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）

時系列分析

手法について

代表的なモデル

①AR（自己回帰）モデル

②MA（移動平均）モデル

③ARNA（自己回帰移動平均）モデル

④ARIMA（自己回帰和分移動平均）モデル

⑤状態空間モデル

関連分析技術

関連サービス

採用情報

リッジ回帰

手法について

手順・式

メリット・デメリット

【メリット】

【デメリット】

関連分析技術

関連サービス

採用情報

ロジスティック回帰

手法について

手順・式

【回帰式】

メリット・デメリット

【メリット】

【デメリット】

関連分析技術

関連サービス

採用情報

重回帰分析

手法について

手順・式

【回帰式】

メリット・デメリット

【メリット】

【デメリット】

関連分析技術

関連サービス

採用情報

XGBoost

手法について

関連分析技術

関連サービス

採用情報

LightGBM

手法について

(1)分岐点の探索にヒストグラムを採用

(2)Leef-wise

関連分析技術

関連サービス

採用情報

勾配ブースティング決定木

手法について

手順・式

(1)ランダムデータの抽出

(2)決定木の作成

(3)誤差の算出

(4)決定木の再作成

(5)繰り返し行う

(6)最終的な予測値の算出

メリット・デメリット

【メリット】

【デメリット】

関連分析技術

関連サービス

採用情報

ランダムフォレスト

手法について

手順・式

(1)ランダムデータの抽出

(2)ランダムな特徴量を作成

(3)決定木の作成

(4)複数の決定木を作成

(5)最終的な予測値の算出

メリット・デメリット

【メリット】

【デメリット】

関連分析技術