|
|
|
|
|
|
データ解析言語 S
坪田信孝 著
A5判 450頁
\6,000
【発売予定】 |
|
内容の概説
「データ解析言語S」は、AT&Tで開発されたデータ解析のためのプログラミング言語である。1984年に最初の版が出され、その後 1988年と1991年の2回大きな改訂・機能拡張をしている。すでに13年間生き続けた言語である。データ解析の道具であると同時にプログラミング言語として完璧な仕様を持っている。まさに、コンピュータ技術と統計学の両面からの成果として生み出された言語である。文系・理系を問わず広い分野でデータを解析しその結果を応用しようとしている人たちのために開発された言語である。
しかしながらSのこの性質が難解なものと感じさせる理由にもなっている。ある程度の統計学的な理解がなければなかなかSの価値は理解できない。また逆に、データ処理の流れを自由自在にあやつることができるという言語としての特性はコンピュータ技術を理解しようとする姿勢がなければならない。などがその原因と考えられる。
残念ながらわが国では統計学を実際の分野で応用しようとする多くの人が面倒な処理はできれば他人に任せようとしている。しかし、データの実世界での意味を知らない他分野の統計学だけが分かっている人に解析を任せることができるだろうか。応用統計学を学ぶ多くの学生が数学的な解説だけをされ、なぜ応用する価値があるかを知ることなく時間を無駄にしている。応用統計学を修得するには実データによる訓練が必要と言われているがブラックボックス化したプログラムパッケージの操作法だけをいくら繰り返しても実りはない。
Sを用いれば、統計学的手法をステップバイステップで確認しながら学ぶことができる。完成された関数を用意して一挙に処理することもできるが、およそデータ解析とは、途中の解析結果を見ながら次の作戦を練りながら進めるものである。このように、実のあるデータ解析の学習のためにも実践のためにもSは最適のツールであり、言語である。
本書には2つの狙いがある。1つは S を利用して統計学を納得感を持って理解してもらうことである。もう1つは S 言語の仕様を分かりやすく解説し S 言語を操れるようになってもらうことである。
前者の為の章では数学的な理屈は最小限にしているが、原理的なことは充分説明した。実際にSでデータを操作し、検定や推定の原理を経験し、納得感をもって理解できるように構成している。本書は解析手法をそれほど多くは紹介していない。
本書の記述は、ごくありふれた従来型の手法に限定していると言ってもよい。しかし、そのなかで「分かって使える統計学」をマスターすることができればと考えた。基本が分かってしまえば、必要に応じて統計学の書物を読んで応用することは難しいことではない。逆に、何も分かっていなくてただ解析結果だけ出せてもしかたない、むしろ害である、と考えられるからである。
後者の為の章では、将来種々の統計学の書物を参考に自らその処理ができるようになるために必要なことはすべて網羅した。プログラミング言語は人が理詰めで開発したものであり、構成と機能は理由があって作られているものである。
本書は、これまでのSの書物と異なり、「Sプログラミング」の章では統計学的な解説を最小限にとどめ、言語としてのSの修得を重視した解説を行っている。Sは実は言語としても特筆すべきものを有しており、統計処理用の関数に惑わされることなく言語として理解を進めれば極めて単純で明解な言語であり修得も容易である。そして、少ない記述で極めて大きな成果の得られる非常にすぐれた言語であることがわかる。
本書の内容
第1章: 本書による学習法
本書は必ずしも前の章から読む必要はない。本書の構成を説明し、読者の特性によりどのように学習すればよいか、などについて述べている。また提供ソフトを使うための準備について解説している。
第2章: Sの特徴
Sを統計処理用のツールとして見た場合と言語として見た場合の特徴を解説している。また市販されているSの種類と特徴を紹介している。UNIX版のみならず、Windows版のSについても紹介している。
第3章: Sで学ぶ応用統計学
従来からよく使われている統計手法を解説し、それらを通じて推定と検定の原理を学習するように構成している。すべての解説はSで実際にデータを処理し数値ならびにグラフィカルな結果を出して確認できるようにしている。
実用例として提供ソフトによりアンケート集計と作表、グラフ化までを連続して実施する方法について解説している。
第4章: Sによる多変量解析
多変量解析について道筋を解説し、S を利用した解析のいくつかを紹介する。Sがアメリカで開発された為か、他書では紹介されていない数量化理論?類と?類の提供ソフトの使い方を解説している。
第5章: Sプログラミング
S言語の操作法から、言語仕様のすべてを理解しやすい順序で解説している。マスターしなければならない事項については豊富な例題で修得できるようにしている。1991年に追加された機能についても分かりやすく解説している。
付録1: Simple Graph
市販のSにはGUIをもったSアプリケーションを開発するための強力なツール(SToolkit)がついている。この概要を紹介し、種々のグラフをマウスで操作して描くことのできるプログラム(Simple Graph)を提供しこれを改良・拡張する際に必要な事項を説明している。
付録2: Simple Statistics
基本的処理、アンケートの集計、自動作表、数量化理論?類、?類など提供ソフトのリファレンス・マニュアル。
本書の特徴
Sに関する書物は非常に少ない。AT&Tのマニュアル(訳書があり全3冊)の他には2冊程度である。これらは共通してS言語の解説にデータ解析が織り混ぜてある。Sの特性から当然と言えばそのとおりだが、真新しい言語を学ぶときに充分修得できていない統計学の式がこうだからSではこうなるというような例を上げられるとSの言語としての全貌がなかなか見えてこない。
本書では、言語を修得する際には統計学は知らなくてもよいことを前提に解説した。そのため簡潔で理解しやすく、Sの全貌を短期間で修得できるよう工夫されており、他のSの解説書比べて本書の大きな特徴となっている。また、他書にはないGUIを開発できる関数についても解説し、実用価値のあるソフトを添付した。
統計学の解説では言語の解説は最小限にとどめ、徹底して理解して使う統計学を目指した。したがって、これから統計学を学ぼうとする学生にも安心して読めよう構成されている。
本書の読者対象
本書は、データがあり解析しようというあらゆる分野の人が読者になりうる。数学的素養もほとんどいらない。コンピュータプログラミングの経験も不用である。データがあるか、これからデータを収集して解析しようという人で、「分かってなくても統計学を使ったという重み付けさえできればよい」というよこしまな考えさえなければ、あらゆる人が対象となりうるよう本書の記述と構成に工夫が凝らされている。
統計学的素養のある人あるいはコンピュータプログラミングの経験豊かな人でも、S言語をどんなものか見てみたい人には本書を読んでいただきたい。統計学的素養のある人ならSを使えばいかに速くあたらしい統計手法を応用でき、広めることが可能か、感動に似たもを覚えるだろう。応用統計の教育者なら学生に充分な演習時間を与え、本書はそのときSがよいパートナーとなることに気が付くだろう。
データベース・アプリケーションの開発者は、本書によりデータの年次集計や利用統計などでデータベース・アプリケーションからSを駆動して目的を達成できるソフトを効率的に開発できることに気が付くだろう。
Webの管理者やシステム管理者は、本書を学ぶことにより種々の利用者統計をSを使えば他の言語よりはるかに少ない行数で、短期間に、維持しやすい形で開発できることに気付であろう。
|
|
|
|