G検定カンペ用語集

自分用G検定用チートシート。

2022年09月


ニューラルネットワーク機械学習アルゴリズムを最適化する方法のひとつ。
ニューラル ネットワークの重み(パラメーター)の一部を取り除く手法。
パラメーターの数を減らして計算を高速化する。
「枝刈り」とも。




データに関する研究を行う学問全体を指す。
数学、統計学、機械学習、プログラミングなどの理論を活用して、莫大なデータの分析や解析を行い、有益な洞察を導き出す学問のこと。
機械学習は「データサイエンスのための一手法」として用いられる。



ランダム化されたプロパティを使用して様々な学習用のシミュレーション環境を作成する手法。
これらすべての環境で機能するようにモデルを学習していく。
環境乱択化とも。



ほとんどが0(ゼロ)、まれに0以外が並ぶデータをスパースなデータという。



レコメンデーションの手法のひとつ。
ユーザの購買履歴をもとに、おすすめを提示する。
内容ベースフィルタリングとの違いは、「何を基準としてレコメンド商品を選んでいるか」。
協調フィルタリングは、ユーザー同士の購買履歴を分析する。
内容ベースフィルタリングは、あくまでもタグを基準にしている。
購入履歴の少ない商品を提案したいなら内容ベースフィルタリングが、ユーザーの消費傾向を細かく踏まえたいなら協調フィルタリングが適している。

協調フィルタリングには、「メモリーベース」「モデルベース」「ハイブリッド」の3種類がある。

トランザクションデータ(顧客との取引で発生した情報)をもとにレコメンデーションを行う協調フィルタリングが「メモリーベース」。
「メモリーベース」は、ユーザをベクトル化する「ユーザベース協調フィルタリング」と、アイテムをベクトル化する「アイテムベース協調フィルタリング」に分かれる。
「メモリーベース」では、未評価の商品も、ユーザがどのように評価するか予測することができる。
ただし、レコメンデーションの正確性はトランザクションデータの量に左右される。

ユーザによる商品の評価データを抽象化して活用するのが「モデルベース」。
評価データが圧縮された状態で保管され、システムが統計的なアルゴリズムによって、消費活動のモデルを作り上げる。
システムが変わったとしても、モデルさえ取り出して流用すれば同じレコメンデーションを続けられる(再利用できる)というメリットがある。
デメリットは、メモリーベースより開発の工程が多いこと。

協調フィルタリングとコンテンツベースフィルタリングの長所を組み合わせたものが「ハイブリッド」。
「ハイブリッド」が主流になりつつあるが、複数の手法を組み合わせなければならないため、開発に手間がかかる。


↑このページのトップヘ