経済学書専門出版 エコノミスト社
Top書籍情報統計学大系・シリーズ > 不完全データの統計解析
ファイナンス大系
リアルオプション
Excelとその応用
統計学大系
経済学大系
e-ビジネス
計量経済学
ゲーム理論
経済数学
環境問題・環境経済学
人口学講座
ナレッジマネジメント
ビジネス書
NLP理論
複雑系経済学
経営学・商学大系
マーケティング
心理学・行動科学大系
金融工学・数理ファイナンス
マクロ経済学
法情報学
企業法学講座
経営工学大系
計量経済・統計ソフトウェア
オペレーションズ・リサーチ
会計学・簿記・税務
楽しい数学
不完全データの統計解析
岩崎 学 著

A5判 368頁
\5,040


本書の概要と目的


 研究者の当初の計画あるいは意図に反してデータが完全な形では得られないとき「不完全」 (incomplete) であるといわれる.不完全データの例としては,欠測 (missing),打ち切り (censoring),精度不足 (coarse data),連続データのグループ化 (grouped data) 等がある.また,商業統計表等における秘匿 (nondisclosure) も不完全データの範疇に入る.
 不完全データは,実際のデータ解析のあらゆる場面で遭遇する問題ではあるが,それへの対処法が必ずしも確立しているとは言い難く,分析者のその場しのぎの対応に委ねられているのが現状である.その理由の一つとして,不完全データを真正面から扱った日本語の成書がないことがあげられよう.

 本書は,実際問題でよく表われる不完全データの例をあげ,理論的な整合性を保ちながらも実際家にとって有益な情報を提供することを目的とする.




対象とする読者層

実際のデータ解析に携わる実務家,および,基礎的な確率・統計を学んだ大学生および大学院生.




本書の構成とその特徴


以下,各章の内容とその特徴を述べる.

第1章:不完全データの概要を述べ,解析にあたっての注意点などを概説する.特に,欠測メカニズム,欠測パターンが以後の解析において重要であることを強調する.また,実際のデータ解析で頻用される MS EXCEL の出力を示し,それらの問題点を列挙する.

第2章:ここでは,以後の論旨の展開で必要とされる通常の確率・統計の基礎事項を述べている.特に,尤度関数と最尤推定法は重要であるので詳しく述べる.また,最尤推定値を数値的に求めるEMアルゴリズムについても触れておく(後に詳述).

第3章:最も簡単な1変量の場合の議論であり,一般理論を述べた後,特に実際問題でよく現れる指数分布と正規分布を取り上げ,完全データの解析,種々の欠測メカニズムの基での推測法を詳しく議論する.

第4章:多変量データ解析の第一歩である2変量の場合を扱う.2変量では,欠測メカニズムとして「完全にランダムな欠測」(MCAR = Missing Completely At Random),「ランダムな欠測」(MAR = Missing At Random),「無視できない欠測」(nonignorable) の区別が生じるので,2変量正規分布の場合につきそれらのメカニズムの下での解析法を詳説する.計算過程が追跡できるように数値例を多く取り上げている.

第5章:実際の多変量データ解析で最もよく用いられる分散分析と重回帰分析を取り上げ,主に応答変数に欠測がある場合を扱う.この場合の欠測パターンは単調であるので,推定は比較的簡単であるが,実際よく使われる統計手法であるので,結果の解釈を含め詳しく述べる.

第6章:一般の多変量データ解析の場合を議論する.平均値と分散共分散行列に情報を要約できる場合にはそれらの推定をEMアルゴリズムによって行なう.また,欠測箇所に何らかの値を代入する必要がある場合には,代入値の選択の問題を議論する.そして,各種多変量解析技法における欠測への対処法を述べる.取り上げる手法は,主成分分析,判別分析,因子分析,構造方程式モデル(共分散構造分析)である.

第7章:最も欠測が生じ易い多時点での経時測定データを取り上げる.まず初めに「処置前,処置後」の2時点データを議論し,欠測への対処法の違いを議論する.次に,実用上最も重要な多時点の測定を扱う.経時測定データのモデリングの仕方を述べ,完全データの解析法ならびに欠測がある場合の対処法を議論する.さらに,区間打ち切りデータも取り上げ,区間打ち切りのモデルならびに統計的解析を示す.
 
第8章:EMアルゴリズムとその拡張に関してやや詳しく述べる.以前の章では具体的な計算法のみを述べたが,ここではその理論的背景を議論する.EMアルゴリズムは統計のみならず情報理論の分野でも注目されている.

第9章:多重代入法 (multiple imputation) の考え方および理論を述べる.近年のコンピュータの発展に即発された統計手法で,日本語で解説した書物がないため,ここでやや詳しく取り上げる.

第10章:商用ソフトウェアの使い方の紹介である.最近の実務家は,自分で専用のプログラムを書くことをせず市販のソフトウェアを使うので,その使い方は重要である.SAS/MI,SOLAS,SPSS/Missing Data Analysisを取り上げ,使い方とその特徴を述べる.
 
最後に参考文献を多く載せている.




目  次


1.不完全データ解析の基礎
 1.1. 不完全データとは
 1.2. 欠測のパターン
 1.3. 欠測のメカニズム
 1.4. 欠測への対処法
 1.5. MS EXCELの出力
2.確率・統計の基礎事項
 2.1. 事象と確率
 2.2. 確率分布とその特性値
  2.2.1. 1変量確率分布
  2.2.2. 2変量確率分布
  2.2.3. 多変量確率分布
 2.3. 統計的推測
  2.3.1. 推定
  2.3.2. 検定
 2.4. 尤度関数と最尤推定
  2.4.1. 尤度関数と対数尤度関数
  2.4.2. 最尤推定量とその性質
  2.4.3. EMアルゴリズム
3.1変量データの解析
 3.1. 一般理論
  3.1.1. 欠測メカニズム
  3.1.2. 確率分布
  3.1.3. 統計的推測
 3.2. 指数分布
  3.2.1. 指数分布の定義と性質
  3.2.2. 完全データによる統計的推測
  3.2.3. トランケートされた分布
  3.2.4. 時間打ち切り
  3.2.5. 個数打ち切り
 3.3. 正規分布
  3.3.1. 正規分布の定義と性質
  3.3.2. 完全データによる統計的推測
  3.3.3. トランケートされた分布
  3.3.4. 値打ち切り
4.2変量データの解析
 4.1. 一般理論
  4.1.1. 欠測メカニズム
  4.1.2. 確率分布
  4.1.3. 統計的推測
 4.2. 2変量正規分布
  4.2.1. 2変量正規分布の定義と性質
  4.2.2. 完全データによる統計的推測
  4.2.3. 片方の変量のみが欠測 (MAR)
  4.2.4. 片方の変量のみが欠測 (non-ignorable)
  4.2.5. 一般の欠測
5.線形モデル(分散分析と重回帰分析)
 5.1. 分散分析
  5.1.1. 実験の計画とデータ解析
  5.1.2. 欠測のある一元配置分散分析
  5.1.3. 欠測のある二元配置分散分析
 5.2. 重回帰分析
  5.2.1. 重回帰モデル
  5.2.2. 応答変数の欠測
  5.2.3. 説明変数の欠測
6.多変量データの解析
 6.1. 特性値の推定
  6.1.1. 単調な欠測パターン
  6.1.2. 一般の欠測パターン
 6.2. 代入法
  6.2.1. 種々の代入法
  6.2.2. 多重代入法
 6.3. 種々の多変量解析法
  6.3.1. 主成分分析
  6.3.2. 判別分析
  6.3.3. 因子分析
  6.3.4. 構造方程式モデル
7.経時測定データの解析
 7.1. 対応のあるデータ
  7.1.1. 処置前後の値の比較
  7.1.2. 欠測がある場合の解析法の比較
 7.2. 多時点の測定
  7.2.1. 経時測定データのモデリング
  7.2.2. 完全データでの解析
  7.2.3. 欠測がある場合の対処
 7.3. 区間打ち切り
  7.3.1. 区間打ち切りのモデル
  7.3.2. 統計的解析
8.EMアルゴリズムとマルコフチェーン・モンテカルロ
 8.1. EMアルゴリズム
  8.1.1. EMアルゴリズムの基礎
  8.1.2. EMアルゴリズムの理論
  8.1.3. EMアルゴリズムの拡張
 8.2. Data Augmentation
  8.2.1. Data Augmentation の理論
  8.2.2. Data Augmentation の実際
 8.3. マルコフチェーン・モンテカルロ
  8.3.1. マルコフチェーンの基礎事項
  8.3.2. マルコフチェーン・モンテカルロの方法
  8.3.3. 各種アルゴリズム
  8.3.4. ギブス・サンプリング
9.多重代入法
 9.1. 多重代入法の基礎
 9.2. 代入値の選択
  9.2.1. パラメトリック法
  9.2.2. ノンパラメトリック法
 9.3. 統計的推測
  9.3.1. 推定値の標本分布
  9.3.2. 推定と検定
10.コンピュータ・ソフトウェア
 10.1. SAS/MI
 10.2. SOLAS
 10.3. SPSS/Missing Data Analysis
参考文献