教師なし学習 - 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）

敵対的生成ネットワーク

遠藤彩 — Sun, 15 Oct 2023 06:58:39 +0000

敵対的生成ネットワーク（GAN）とは、用意されたデータから繰り返しデータ生成を行い、本物のようなデータを生成することができる生成モデルです。GANを利用することで元画像に近い画像を生成することや、低画質の画像から高画質の画像へ復元することなどが可能です。

手法について

敵対的生成ネットワーク（GAN）とは生成モデルの一種であり、GereratorとDiscriminatorと呼ばれる2種類のネットワークを戦わせることで本物と見分けがつかないような新しい画像を生成していきます。Generatorは潜在空間のランダムベクトルを受け取りDiscriminatorが間違えるような新しい画像を作成するよう学習し、DiscriminatorはGeneratorが作成した画像を受け取り偽物の新しい画像を見抜けるよう学習していきます。
GANを使うことで高画質の画像生成やリアルタイムでの画像変換、ディープフェイクを用いて本人が話しているような動画を作成することが可能です。

手順・式

GANの構造として一般に、Generatorと呼ばれる画像を生成する部分とDiscriminatorと呼ばれる画像を判別する部分に分かれています。
Discriminatorは入力された画像がGeneratorから生成された偽物の画像か、実際に採取されたの本物の画像かどうかを判別します。その後、画像が偽物かどうかの判別がうまくできるように学習を行います。
一方、Generatorは乱数を入力として画像を生成し、Discriminatorに画像を渡します。
GeneratorはDiscriminatorが行う偽物かどうかの判別を誤らせるように画像の生成を改善していきます。
敵対するGeneratorとDiscriminatorを交互に学習させることで、Generatorはより本物に近い画像を生成することが可能となります。

メリット・デメリット

【メリット】

①新規のデータや情報を生成可能
　既存のデータをもとに新規のデータや情報を生成することができます。
　少ないデータから多くのデータを作成することができるため、豊富なデータを揃えることができます。

②ほかの技術と併用可能
　GANはほかの技術と組み合わせて使用することができます。
　例として、word2vecとGANを組み合わせることで画像ラベルから演算までを行うことが可能です。

【デメリット】

①判断基準がわかりにくい
　画像が似ているかの判別が不透明であり、コンピュータの判断基準が人間の判断基準と異なる場合もあります。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post 敵対的生成ネットワーク first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

アソシエーション分析

遠藤彩 — Sun, 15 Oct 2023 06:53:00 +0000

アソシエーション分析とは、大量データの中から自社にとって有益な情報を見つけ出すデータマイニングの一種です。POSレジデータやECサイトなどの購買データなどが用いられます。

手法について

データマイニングの一種で、事象間の関連性を探る分析手法です。
蓄積された顧客ごとの取引データを分析し、関係性が強い事象の組み合わせやその割合、統計的に見て強い関係を持つ事象間のルールを抽出します。
アソシエーション分析は行動の記録を観測データとしており、Webサイトの問い合わせ増加施策や商品販売の売上向上施策などマーケティングの分野で広く活用されています。

手順・式

支持度や確信度、リフト値が評価指標として挙げられます。

①支持度

全体の中で事象Aと事象Bを含むトランザクションの比率で、事象A→事象Bとなる出現率を示す。

②確信度

事象Aを含むトランザクションのうち、事象Bを含む確率。
確信度が高いほど、事象Aと事象Bの結びつきが強いことを示す。

③リフト値

確信度を前提確率で割ったもの。１以上あれば有効なルールとみなされる。
※前提確率：全体の中で事象Aを含むトランザクションの比率

※トランザクション：一連の処理をまとめて一つの処理として管理すること

アソシエーション分析の活用場面

①ECサイトの検索履歴

ECサイトの検索履歴を分析することで、顧客の購買履歴から一緒に購入される可能性が高い商品をレコメンドすることができ、売上増加が期待できます。

②商品の陳列やレイアウト

アソシエーションの活用例として「おむつとビール」が挙げられます。これは、おむつの購入者はビールも併せて購入するという分析結果をもとに、おむつとビールを近い位置に陳列したところ売上が増加したというものです。
一見、関連がなさそうな商品であってもアソシエーション分析により商品同士の関連性を見つけることで、マーケティング施策に役立てることができます。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post アソシエーション分析 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

自己組織化マップ

遠藤彩 — Sun, 15 Oct 2023 06:48:04 +0000

自己組織化マップとはフィンランドの研究者T. Kohonenが開発したクラスタリング手法であり、複雑なデータを理解しやすいように可視化することができます。

手法について

自己組織化マップ(SelfOrganizingMaps)とは、人間の脳の仕組みをモデル化した手法です。
様々なデータを入力し続けることで、徐々に類似性の高い集団ができ、それらの類似度によってマップ上の距離によりデータを配置し、データを視覚的に理解できるようになります。
煩雑で膨大な情報を人間が理解することができるよう傾向や変数間の相関関係を自動で判別できるため、複雑なデータを整理したい際に活用されます。

手順・式

①２次元マップのサイズを決定する
②2次元の各グリッドにニューロンを配置する
③データセットのサンプルごとに最もユークリッド距離の近いニューロンを見つけ、見つけ出したニューロンをサンプルに少し近づける
④見つけ出したニューロンに近いニューロンも、サンプルに少し近づける
⑤ ③と④を繰り返し行う

メリット・デメリット

【メリット】

①高次元のデータを教師なし学習でクラスタリング可能
②サンプルごとの勝者ニューロンを見ることで、二次元マップ上でデータの可視化が可能

【デメリット】

①学習回数を増やしても二次元マップは収束せず、最適な学習回数・学習率を決めなければならない

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post 自己組織化マップ first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

クラスター分析

遠藤彩 — Sun, 15 Oct 2023 06:20:24 +0000

クラスター分析とは機械学習の教師なし学習の一つであり、様々な性質をもつデータが大量に集まった中から、特徴が似ているデータを集めていくつかのグループに分類する手法です。
データの特性や共通項を把握したり、大量のデータを扱いやすくすることができます。

手法について

クラスター分析とは機械学習の教師なし学習における代表的な手法の一つであり、分類されていないデータの特徴を表す属性値からデータ間の類似性を探しだし、それを評価することでグループ分けを行う分析手法です。
クラスター分析を行うことで、個々のデータがそれぞれの特徴に基づき複数のグループの何れかに分類され、結果として類似度が高いデータごとにグループ化され1つのクラスータのデータが同質になり、またそれぞれのクラスターが異質になるように分類することができ、大量のデータが単純化され理解しやすくなります。
アンケート結果や顧客属性をいくつかのグループに分け、それぞれのグループの傾向を把握したい際などに利用されます。

手順・式

クラスター分析は(1)階層的クラスター分析と(2)非階層的クラスター分析の２種類の手法に分けることができます。

(1)階層的クラスター分析

類似したデータを順に結合し、クラスター間の関係を階層構造で表現した手法です。近い階層のデータは特徴が類似しており、ユークリッド距離法を用いてデータ間の距離を計算します。

(2)非階層的クラスター分析

階層構造を持たず、事前に定めたクラスターの分割数にデータを分割する手法です。すべてのデータ間の距離を計算する必要がないため処理時間が少なく済むため、処理件数が膨大な際に使用されることが多いです。

メリット・デメリット

【メリット】

①データを理解しやすい
　類似するデータを集約して1つのクラスターとするため、各クラスターやデータ全体の大まかなな特徴を把握しやすいです。

【デメリット】

①解釈が難しい
　各主成分が持つ意味は分析者が考察する必要があるため、主観的な考察となってしまいます。

②処理時間がかかる
　階層的クラスター分析の場合、全データを総当たりで計算するためデータ量が膨大すぎると計算ができないことがあります。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post クラスター分析 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

主成分分析

遠藤彩 — Sun, 15 Oct 2023 06:13:36 +0000

主成分分析とは、多数の変数を少ない変数に置き換え要約することでデータを理解しやすくする手法です。

手法について

機械学習の教師なし学習における代表的な手法の一つです。
分類されていないデータの特徴を表す属性値から、データ間の類似性を探しだし評価することでグループ分けを行い第１主成分を作成します。
情報量をさらに残す場合は、第２主成分・第３主成分と順に設定していきます。
主成分分析を行うことで、本来の要素数より少ない要素数（各主成分）に次元削減をし、できるだけ元の特徴を失わずにグラフ化できます。

手順・式

(1)データの平均値を算出する
(2)重心から最も大きく分散している主成分を第１主成分とする
(3)次に大きく分散している主成分を第２主成分とする
(4)データの次元分（主成分の数）繰り返す
(5)寄与率や主成分負荷量など分析結果を確認し、主成分を選択する
(6)選択した主成分を軸とした散布図から、データの特徴を見つける

メリット・デメリット

【メリット】

①処理時間を短縮
変数をまとめることで使用するデータが少なくなり、処理時間を短縮することができます。

【デメリット】

①取りこぼす情報がある
データを要約し分析をしているため、元の情報を全て反映することはできません。

②解釈が難しい
各主成分が持つ意味は分析者が考察する必要があるため、主観的な考察となってしまいます。

採用情報

機械学習・分析技術で顧客の課題解決に貢献するデータサイエンティストとして働いてみませんか。
ぜひ採用ページもご覧ください。

The post 主成分分析 first appeared on 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）.

教師なし学習 - 金融エンジニアリング・グループ（FEG：フェグ｜日鉄ソリューションズグループのデータ分析・コンサルティング会社）

敵対的生成ネットワーク

手法について

手順・式

メリット・デメリット

【メリット】

【デメリット】

関連分析技術

関連サービス

採用情報

アソシエーション分析

手法について

手順・式

①支持度

②確信度

③リフト値

アソシエーション分析の活用場面

①ECサイトの検索履歴

②商品の陳列やレイアウト

関連分析技術

関連サービス

採用情報

自己組織化マップ

手法について

手順・式

メリット・デメリット

【メリット】

【デメリット】

関連分析技術

関連サービス

採用情報

クラスター分析

手法について

手順・式

(1)階層的クラスター分析

(2)非階層的クラスター分析

メリット・デメリット

【メリット】

【デメリット】

関連分析技術

関連サービス

採用情報

主成分分析

手法について

手順・式

メリット・デメリット

【メリット】

【デメリット】

関連分析技術

関連サービス

採用情報