統 計情報の評価 − データに惑わされないために
Smoke Stinks
統計結果 から、喫煙は癌の原因になっているとか、いないとか、そういう議論を目にすることは多い。しかし、こうした統計による議論には多少なりとも罠があ り、結局は読者が自分で正当性を判断しなければならないことが多いと思う。ここでは、そのような統計による議論を読むときに知っておくべき基本事項を整理 してお伝えする。

予備知識だけなので、興味のある方は、成書をお読みください。

項目
日付
時間にずれのあるデータ及び 過渡特性のあるデータの取扱について 2005/04/10
最適化について
2004/06/16
デー タに基いた数式モデル
2003/07/26
相関係数と決定係数
2004/01/18


統計情報の評価−1 データに基いた数式モデル
2003/07/26

統計結果は必ずしも因果関係を説明するものではない。統計的に相関があったからといってどちらかがもう片方の原因になっていると は限らない。例えば、ビールの売上が多いときには酎ハイの売上も多いものとする(多分間違っていないだろう)。しかし、これは統計的に見れば相関があると いう結果が得られても、だからといって、原因と結果の関係にはなっていないことは明らかである。これらの関係を統計的に解析したとしてもそれだけで、これ らの売上のメカニズムが分かる訳ではない。

しかしながら、統計をとってみないと、因果関係の推定もできない場合少なくくないだろう。煙草の健康被害の問題についても、煙草が、即効で人を死亡させる 特性を持っているわけではないので、数十年前までは煙草の毒性については不明なままであった。しかし、統計的な手法などを用いて、煙草と健康被害の関係に ついて徐々に解明されるに至ってきた。現在でもその評価は進行中であるが、煙草を廃止して数十年程度経たなければ精密な評価は出ないであろう。

そこで統計的に因果関係を推し量るにはどのような方法を用いるかについて論じる。
これはあくまでも因果関係を推定する方法であって、因果関係を説明する方法にはならないことに注意する必要がある。
統計的に見て、関係を評価するためには、まず、できるだけ科学的に考えて(英語では"use educational guess"のような表現を用いるので、このほうが分かりやすいと思うが日本語ではどうも上手い表現が見つからなかった)、結果を推定するための因子を列 挙する。そして、推定因子と結果との間に何らかの関係式を発見できれば、第一段階としては成功である。
以上を数式で表現するには、推定したい変数(出力変数)をyとし、それを推定するための入力変数をxとする。これらを数式で 関係付ければ良い。ここで夫々の変数をベクトルとして書いたのは、推定したい変数も原因として扱う因子も複数あるのが普通だからである。これを一般式で、 次のように表現する。
y=Fx
但し、
definition of x and y
m: 因子の数
n: 推定したい結果
このとき、入力変数が変化すると出力変数のうち一つ以上がが変化する。一つも変化しない場合は、その入力変数は出力変数のどれとも無関係ということになる ので、その場合は、不要な変数ということになり、それは、入力変数リストから削除しても良い。しかし、出力変数のどれか一つが変化するのであれば、その数 式モデルの入力として扱うことができる。

以上のように簡単に書いてみたが、この数式から入出力変数間の"関係"を得るには、不可欠な前提注 1がある。その前提とは、

(1)入力変数間に、 何らかの関係(依存性)があってはならない
(2)入力変数が全てなければならない

にということである。(1)は、各入力変数は完全に独立して変化させることができるという前提であり、特に重要である。(2)は、それらの入力変数で全て の出力変数の挙動が説明できるということである。(2)は現実には完全に満たすことができないので、主要な因子だけ挙げ、その他は、未知の(モデルに入っ ていない)外乱として扱うのが普通である。未知の外乱が多ければ、それだけモデルの誤差が大きくなる。

言葉で書いても分かりにくいので、肺癌の発症率の例を考える。よく上げられるのは下記のような例である。
入力変数
出力変数
本人の喫煙率
配偶者の喫煙率
本人の1日当りの喫煙本数
配偶者の1日当りの喫煙本数
喫煙期間
肺癌の発生率

これまでの説明を読んだ後に、このモデルを見ると何か違っていることに気付くと思う。何が違っているかというと、入力変数が独立していないということであ る。例えば、本人の喫煙率と配偶者の喫煙率には相関があるはずであるが、それがモデルに入っていない。また、喫煙本数と喫煙期間にも相関があるはずである が、それが考慮されていない。
また、家庭以外での受動喫煙の要素が全く考慮されていないということが挙げられる。
上記の例だと、入力変数が5、出力変数が1である。しかし、実質の入力変数は、1つしかないだろう。それは、吸い込んだ煙の積算量である。

筆者は医師ではないので断言できないが、肺癌の発生メカニズムについては完全に解明できていないと思う。従って、入力変数を全て列挙するのは難しい。仮説 として、肺癌は、肺に取り込まれる空気が原因として発生するものと、血液などの体液に混入した異物によって発生することが主要因であるとする。その他も重 要な因子があるかもしれないが、ここでは無視できるほど些細なものとして考える。
すると、入力変数としては、肺の表面から摂取する化学物質、経口摂取される化学物質および、それらの摂取量が入力変数となる。更に詰めれば、夫々の物質の 摂取履歴が影響するであろうと考えられるが、そこまでのモデルは現実的ではないので、各化学物質の摂取総量を入力変数と考える。どのような化学物質も過剰 に摂取すると死に至ったり、別の重大な病気を発症したりするのでここでは、緩やかに摂取したものとして考える。
そして、各物質の摂取総量を、x1...xmとし、肺癌の発症率をyとすると、数式モデルは下記のようにな る。
y = f(x1,...,xm)
ここで、入出力を結びつける函数fは、どのような形であるかは分からないが、データがあればこのような関係を数式化する方法は複数提唱されている注 2ので、取り敢えず何らかの形で求められたとする。すると、各物質の影響度は、各入力変数軸での傾き(偏微分係数)で評価することができる。 この傾きが一定であれば、それらは線形(比例)関係にあり、一定でなければ、非線形の関係である。そして、この数式は、肺癌発症の可能性を評価するとな る。
このような関係を見つけることができれば、肺癌の発症に相関のある物質が特定できるので、喫煙率がどうのというよりもずっと確かな評価ができるのである。

以上は統計の話に入る前の、予備知識として必要なことである。ここまでを踏まえた上で、次回から統計の話に入る。

注1
結果を推定するモデルを作るだけであれば、前提(1)、(2)のどちらも満たされている必要はな い。これらの前提条件が満たされていなくても、十分な精度のモデルを作成できる可能性は十分ある。
但し、十分な精度で推定できることと因果関係が説明できることとは、全く別のことである。これは、”AならばBである”が真であるときに、その逆の”Bな らばAである”が、必ずしも真ではないというのと同じことである。

注2
代表的なのは、回帰(regression)である。例えば、全て線形の関係があると仮定すると、
y = a1x1+a2x2+...+amxm+b
という関係式で表し、誤差を最小とするように係数を求める。
勿論、因子とする変数の対数をとったり2乗したりすることも可能であるがこの場合も基本的には同じことである。
その他、ニューラルネットワークを使う方法もあるが、使いこなしが難しいため、もっともらしい結果を導けないこともある。ニューラルネットワークは専門的 なので、ここでは詳細を説明しないが、数式の形が推定できない場合の擬似回帰式と考えれば十分であると思う。

ショートコラム−統計情報を利用して故意に誤解させる

例えば、喫煙率と肺癌の発生率を関係付けようとして、肺癌の発生と喫煙率には関係が無いという結論を導きたい人々が居る。彼らの論調は、"喫煙率が下がり つづけているのに肺癌の発生率は逆に増えている。だから、喫煙と肺癌とは関係がない。"という単純なものが殆どである。この議論のおかしい点は、入力変数 をただ一つに限定しているところである。このように一つだけを取り出して、結論を導くのはいわゆる詭弁であって物事の本質を捉えていない。
この例で云えば、最重要因子と考えられる、煙草に含まれる化学物質の総摂取量が抜けている。即ち、未成年喫煙率が増加していることと、煙草の販売本数が増 えていることは、意図的に隠して論じているのである。未成年喫煙率が上がれば それだけ喫煙者本人の総摂取量は増え、また、販売本数が増えればそれだけ、受動喫煙による、本人の意図しない摂取が増えてしまうというようなことを隠した いときにこのような方法を用いる。

こういった、騙しには、日頃から気をつけたいものである。


統 計情報の評価−2   相関係数と決定係数

2004/01/18

あるページを拝見したら、喫煙期間と発癌率のデータを用いて、それらの相関係数が大きいので、これらには因果関係があるという説明をしていた。既に述べた よう に、相関は因果関係を説明しない。現実には、因果関係を説明する場合もあるのだが、数学的には、全てが説明できない場合は、説明できないということにな る。だから、このような手法を用いるのは、煙草会社が煙草の害は証明されていないと言い逃れをするのと同じレベルになってしまう(このような言い訳が成り 立つのなら、科学事象の殆どは証明不能になる)。

では、相関係数について、簡単に説明する。
ある変数とある変数との関連を見るときに、しばしば相関係数を用いる。相関係数は、数式で定義するものであり、データがあれば一義的に決定される。相関係 数は次式 で定義される。
相関係数定義式
ここで、Nは、データ対の数、x、yの上に傍線を引いたものは、各変数の平均値、分母のσ、σは、夫々変数x、yの標準偏差である。ここでは定義式そのも のはあまり重要ではない。相関係数は、変数xとyがどの程度の比例関係にあるかを示すものであり、完全に比例する場合は、1、全く比例しない場合は0とな り、相関係数は必ず、0以上1以下の実数値をとる。相関係数の値が0.9くらいあれば、相当な相関があると考えて良い。しかし、既に述べたように、相関は あくまでも相関であって、原因と結果の因果関係を示すものではない。

相関係数もデータの関連を示すものであるが、もっと良いのは、データからモデル式を作ることである。そしてそのモデル式がどの程度一致しているかを評価す ることにより、単なる相関から、因果関係の推定へと昇格させることができる。ここで云うモデル式は単なる推定モデルではなく、既に述べた条件を 満たす式であること必要がある。厳密にそれらの条件を全て満たすのは不可能に近いので、概ね満たされていれば、実用的には問題がないものとして扱うことが できる。

モデル式がどの程度実態と一致しているかを評価するには、一般に、決定係数を用いて評価する。決定係数は、これだけで完全に評価できる指標ではないが、よ く用いられている。また、上記の相関係数では、線形の比例関係しか評価できないが、決定係数を使用すれば、非線形のモデル式を評価 することができる。また、モデル式の説明変数は複数あっても良い。
決定係数の定義式を下記に示す。
決定係数定義式
ここで右辺第2項の分母のeはモデルの各点での予測残差を表す。これによってモデル式結果のの一致度を評価することができる。但し、これはあくまでも結果 の一致度であってモデル式の妥当性の指標にはならないことに注意する必要がある。何故なら、予測モデル式が正しかったからと云って、出力変数から入力変数 を評価することができるとは限らないためである。このモデル式の妥当性を評価するのであれば、既述の前提が成立する必要がある。

さて、相関係数の話に戻ると、相関係数が相関の大小を正しく評価しない例を簡単に示すことができる。以下にその例を示す。

相関があるのに相関係数が小さい例
上記は、函数 y = -x(x-1) に乱数でノイズを与えた例である。
xとyとの関係は、数式で表されるので、相関は存在する。しかし、この場合相関係数を計算すると、 たったの0.000359であった。相関係数の範囲は、0以上1以下であるので、0.000359は、相関が何もないと云っているのに等しい。このこと は、 相関係数で相関を評価することの限界を示したものである。

さてこの場合、xとyとの関係を、2次式で回帰することが可能なので、2次式で回帰すると、回帰式は、ほぼ、y = -x(x-1) となる。係数は、多少違うはずであるが、標本数が、無限大に近付けば、この回帰式に収束する。このモデル式を使用して決定係数を求めると、0.967とな る。決定係数の範囲も、相関係数と同様、0以上1以下であるので、この値は上限に近く、モデル式の一致度が極めて高いということになる。

この例から、相関係数は必ずしも相関の高さを意味しないことが示される。以上のように反例を示すだけで、数学的には、"相関係数で相関を正しく評価できる "という命題が間違っていることが証明されたのである。

このことから、相関係数を用いて、相関を説明することは正しくないことが分かる。このことを逆に見ると、相関係数が小さいことを以って、または、モデ ル式の結果に例外があることを以って、相関を否定することもまた間違っていることがわかる。

具体的に書くと、前者は、煙草の害を説明するときに誤って用いる方法であり、後者は、煙草に害はないと言い逃れをするときに用いる方法であり、どちらも適 切ではない。
因果関係を説明するなら、モデル式を作成して、それを評価することにより始めて因果関係に関する仮説を議論できるようになるのである。

では、煙草に害があるのか無いのかという議論をするのであれば、煙草に害があることの証明は、"煙草が発癌物質やその他の毒物を含む"という客観的事実を 以って足りるのであり、相関などのデータは、その証明の補強証拠であるにすぎない。すなわち、データは、決して主役になる必要はないのである。

逆に、煙草会社のように、害が無いと言いたいのであれば、毒物であると云われている物が、"実は毒物ではなかった"とか、被害が発生しない程度に微量であ ることを証明する必要がある。



最適化について

2004/06/16

煙草販売に関する議論を見ていると、いつも、最適化についての視点が抜けていると思う。煙草事業は国策として実施しているのであるから、国全体で考えて 最適化しなければならないはずだ。しかし、一昔前の民営化の波に乗って、専売公社が民営化されたのに伴い、日本たばこ産業の範囲内の最適化に変わってきて しまった。
今回は、今後の議論の前提としてこの最適化の基本的な考え方を整理する。

数学の世界で最適化というとある目的を定量的に評価指標を定め、この指標を最小(または最大)にすることを云う。この指標を目的函数と呼んでいる。通常、 最適化と云えば、金銭評価を行う指標としてコストを正の値、利益を負の値にして目的函数を定義し、これ最小化するものだ。目的函数を操作するのは云うまで もなく政策である。政策には、課税方策や公共投資、補助金等が含まれる。

ここまで読まれた方は、"では健康や命はどう評価するんだ?"と思われた に違いない。これは重要なポイントである。しかしながら、地球より重いと云われる 命を評価対象にしてしまうと、何を計算することもなく、煙草販売を廃止する以外の解は出なくなるのだ。こういった矛盾のうえに最適化を考えるのだから、不 要といえば不要な議論になるが、一応考え方を整理するのは重要なことだと思う。結論から云えば、命の評価を行わないという矛盾を抜きしにしても、現状の最 適化には問題があるのだ。

最適化には、大雑把に言うと、全体最適化と部分最適化の2種類がある。

全体最適化の極限は宇宙の最適化であり、人間の手に負えるものではないので、ここでは、国家単位の最適化を全体最適化と考えることにする。勿論世 界単位での最適化のほうが望ましいが、現在の統治システムでは不可能なので、精精国家単位で考えるのが限界だろう。

部分最適化は全体を構成する一組織の中での最適化のことであり、例えば、省庁レベル、地方自治レベル、その下の部署レベル、会社レベルでの部分最適化があ り、更に下には個人レベルでの最適化、また、個人のその一瞬での最適化など様々なレベルがある。

最適化の議論を行うとどうしても個人単位の最適化の議論に堕落してしまう ので、賢明な人は、個人単位の最適化を抜きにして考えたうえで、それから個 人単位で最適化しているのだと思う。自分は、どうしても個人単位で最適化して考えてしまう情けない人間の一人だ。

さて、ここまでを大前提としたうえで、更に議論を進めてゆく。

国家レベルでの最適化の指標を考えるとすると、目的函数は"国家の支出額-税収"だろうか。税収が高く、国家の支出が少ないというのが一応の理想状態では あるだろう。但し、国家が黒字になっても大きな意味はないかもしれないので、この目的函数の目標値は、負の数でかつ最もゼロに近い値ということになるだろ う。現在は、国債の発行額が膨大で、なおかつ、郵貯の預かり分を、財政投融資に流用しているという異常事態なので、これを正常に戻すには、過渡的な状態と しては、負の数でかつゼロに近い数値よりも、限りなくマイナスのほうが良いのかも知れない。いずれにしても、国家単位で考えればこれが目的函数であるとし ても良いと思う

注:
経済的な繁栄が、最適であるという考え方には、筆者は、反対である。地球レベルで見れば、経済的な繁栄は、世界の破滅を促進していると考えることもでき る。だから、何でも経済的に繁栄すれば良いというのではなく、地球に優しい生き方も重視すべきだと考えている。

税収が高いということは、納税している個人や法人がそれなりの利益を上げているということなので、税収が高いということは、社会全体が潤っているのだと考 えても不自然なものではない。ここで注意しなければならないのは、目的函数を為すのは税の総額である。例えば、煙草税が増えてもその他の税が減って しまうのであればそういった分を考慮して目的函数を定めなければならない。

また、既に何度も述べたように、煙草に消費されている分をその他の消費に 回した場合を想定して評価しなければ税収自体も算定できない。また、医療費や、火災の損 失、排煙場や清掃の費用等、煙草のために余分に支出されている費用も評価しなければ目的函数は定義できない。但し、個人や私企業が任意で支出した経費は、 国の支出ではないから、マイナスということにはならないだろう。かように、目的函数の算定は難しい。

国家として、以上のような目的函数を考えることは一応可能だろう。勿論、各要素を別々に操作しても、相互の干渉が起こるので、目的函数を定義するのは容易 ではない。しかし、このような検討には意義があると思う。

これに対して、国家単位での最適化が行われないと、もっと下のレベルでの部分最適化が起こる。例えば、厚生労働省では、健康保険の支出を抑えるために、煙 草の販売を減らせと云っているのに対し、徴税担当は煙草による税収を増やすために販売を促進せよ、と云うかもしれない。国家の運用が適切に為されない場合 は、こういった、矛盾が必ず発生する。その結果として、最適化とは程遠い状態になってしまうのだ。

部分最適化のレベルに落ち込むと次は必ず、個人単位での最適化まで堕落する。個人単位での最適化の目的函数は、個人での支出額と収入額との差だろう。だか ら、組織内で高く評価されて収入が上がるというのは望ましいし、賄賂を貰えば嬉しい、また、脱税すれば支出が減って嬉しい、とい うように国家単位の最適化とは全く別な方向に進んでゆく。更に、目的函数に入らないような、社会的地位向上による満足感とか、他人に対する優越感とか、別 な要素が大きく作用するようになる。
こうした、個人的な最適化を良い方向に持ってゆくには、例えば公務員の場合を考えると、組織の評価は、組織内で行わず、全体の中で、貢献したことを評価す るシステムに変える、賄賂や脱税等の不正行為には、厳罰を課す、といったシステムが必要だ。

注:
例えば、地方公共団体で最適化を行うと、国からの補助金のような、泡銭を稼ぐというのが評価の対象になってしまう。これが全体最適化からほど遠いのは、自 明のことだ。

今回の、最適化についての話題は、技術的な説明からは程遠いですが、今後の議論に必要になるので敢えて書いてみました。煙草の問題とは直接関係無いのです が、煙草の問題を評価するのには、今後避けては通れない考え方だと思います。


時 間にずれのあるデー タ及び過渡特性のあるデータの取扱について

2005/04/10

ウェブ講座の久しぶりの更新です。

暫く前のことだが、このサイトでも紹介しているあるサイトの掲示板を読んでいて、興味深い意見を見つけた。その意見を書かれた方は、このサイトの読者でも あり、煙草の問題に取組んでおられる方でもある。そのサイトは、ページの更新は殆どなく、掲示板が盛り上がるというスタイルを とっている。こちらのサイトとは対照的である

さて、どのような意見が目に留まったかというと、”発煙者率と平均寿命には関係が無い”という煙草擁護論者の主張についてであった。具体例として、沖縄県 は発煙者率が高いのに平均寿命が長い、という例を用いて煙草を擁護する主張を批判したものだった。その方の指摘事項は、実は沖縄の発煙者率が高いのは若い 世代であって、平均寿命に関係が無いであろうという内容であった。これはまさしく正論であってこういう例を指摘されると煙草擁護論者はさぞかし困るだろ う。

さてここでは、上記の論理を、一般的に説明する方法について説明する。

このコーナーでは、数式を用いたモデル化の手法について、ごく簡単に紹介している。今回紹介する内容は、その部分と切り離すことができないものである。

モデル化で書いたことを簡単にまとめると、モデル式は、

Y=F(X1,X2,...,Xn)

但し、Y:予測したい変数、X1,...,Nn:説明変数

のように予測したい変数を説明変数の函数で表すというものである。

ここで注意しなければならないのは、普通、これは”定常”特性を 予測する式ということである。定常特性とは、ある 条件が変わったら、その効果が徐々にしか 現れないとしても、最終的に行き着くところを表現する特性である。

そして、定常特性とは別に過渡特性というものもあ る。過渡特性とは、定常特性とは逆に、最終的に行き着く前の途中の特性を現している。モデルを表現するの には、この2つの特性は、欠かすことのできない重要な特性である。
すでにお気づきになった方もおられると思うが、先の沖縄県の例 は、過渡特性を無視して定常特性として論じようとしたものである。これは意図的な騙しなの かもしれないが、そうではなく、単に無知なのではないかと思うようになった。何故なら、タバコを擁護する意見で、筋が通ったものは一度も見たことがないか らである。そういうものを見ているうちに、タバコ擁護論者は、知性が足りないのではないかと思うようになってきた。或いは、さような人間だけ騙せればそれ でよいと考えているのかもしれない。

さて、話を元に戻すと、ややこしい話にはなるが紹介したモデルでは、説明変数として消費したタバコの総本数のようなものが必要であろう、というように書い ている。実は、消費したタバコの総本数というような変数は、数学的には積分変数と呼ばれるものであり、その一瞬の値ではなく、過去 からの蓄積された効果を 表すものである。こういう変数を上手に使用すれば、定常特性の式を使っても過渡特性をある程度表現できるようになる。前回の話では、そこまでは書かなかっ たし、書く予定もなかったのだが、例の意見を読んで、必要があると考えるようになった。

さて、では、過渡特性をどのように表現するかというと、簡単に表現できる方法がある。それは、応答を記述する方法である。応答というのは、制御の世界で使 用される用語であり、英語ではresponseと表現している。応答などと書けばピンとこないが、英語で書けばそのままである。応答とは、条件が変わった 後に、状態がどのように変わり、どのような形で安定するかという特性であり、過渡特性だけではなく定常特性も同時に表現するのが普通である。

このように文章だけで書くと分かりにくいので、図を用いて説明する。
まず、説明するのに適当なフローを考える。図1は、タンクに注がれる水に、塩を加えたもので、タンクの中の塩分濃度を出力とするモデルを示す。簡単のため に、タンクに注がれる水の量を固定し、加える塩の量だけを操作するものと考える。タンクの水は、オーバーフローし、タンクの水の保有量は変化しないものと する。また、タンクは強力に撹拌されており、水と塩は瞬時に混合されるものと仮定する。但し、塩を投入する位置は、タンクに流入するより少し前の位置なの で、塩が投入されてからタンクに到達するまでに、暫く時間がかかるものとする。

Continuously Stirred Tank Reactor
図1 連続撹拌槽
Step Response
図2 ステップ応答曲線

ここで、タンクに注がれる水の量を毎秒1立方メートル、タンク内の水の量を100立方メートルとし、初期状態として、そこに注がれる塩の量を毎秒0.1キ ログラムとする。この状態のままで十分な時間経過したものとすると、タンクの中の水の塩分濃度は、0.1[kg/s]/1[m3/s]= [0.1kg/m3] となっている。

時刻t0において、加える塩の量をいきなり、0.2[kg/s]に増加させると、最初はタンクの中の塩分濃度は殆ど変わらないが、時刻t1から徐々に塩分 濃度が上がってゆき、時刻t2付近で0.2[kg/s]/1[m3/s]=0.2[kg/m3] となる。その後は塩分濃度は一定になる。

ここで、塩の流入量を0.1[kg/s]増加させたときに、定常的にタンクの塩分濃度が0.2[kg/m3]増加するということを、定常ゲインが、0.2 [kg/m3]/0.1[kg/s]=2[s/m3]であると表現する。


この関係を図2に示す。この図から過渡状態というものがイメージできると思う。まず、暫くは、塩の投入量を増やしても、タンクにその影響が出始めるのに時 間がかかる。 そして、塩分濃度は徐々に上がり始め、暫く経過した後に、一定の値になる。この一定の値に到達することを定常状態に達すると表現する。これをステップ応答 曲線という。

ここで、操作を行ってから応答がはじまるまでの時間td(=t1-t0)を無駄時間と呼び、応答が始まってからほぼ定常に達するまでの時間tr(=t2− t1)を立ち上り時間と呼ぶ。

この例を発煙者率と平均寿命に置き換えてみると分かりやすい。仮に発煙者率がある値だけ上昇した場合、平均寿命はすぐには下がらないが徐々に下がり、適当 なとこ ろに落ち着くだろう。但し、発煙者率だけが、平均寿命に影響する訳ではなく、平均寿命を説明する変数を全て固定することは不可能なので多少の誤差は出る。 しかしながら、正しいデータがあれば、こういった大雑把なモデルでもそれなりの精度を出すことは可能である。

十分な分析ではないが、超大雑把に評価して発煙者は、平均寿命が10年位短いと仮定しよう。この 10年が妥当かどうかを議論する気はないが、平均的な感覚からすると妥当な線ではないかと思うので、そこで発煙者の平均寿命を70歳、非発煙者の平均寿命 を80 歳と仮定し、発煙者率を40%とすると、発煙者率が1%増加して41%になった場合、定常状態での平均寿命は、(80*0.6+70*0.4)- (80*0.59+70*0.41)=76-75.9=0.1 となり0.1才短くなるものと推定できる。
ここで重要なのは、これが”定常状態で”という部分である。定常状態というのは、発煙者率がそのまま変化無く十分な時間が経過した場合のことである。十分 な時間とは、この場合、少なくとも50年位だろう。少なくともこれくらいのタイムスパンでものを見ないと正確なことは見えてこないということである。

ところが先の議論の場合、現在の発煙者率と現在の平均寿命という実質的に50年くらい離れた時間の状態を比較している。こんなのは、理屈として成り立たな いし、これで議論しようとするのは、己の無知を公表するものなのである。

では、このように時間のずれのあるデータを使用することはできないのか、というとその方法は存在する。それを以下に説明する。

先ず、図2をもう一度見直してみる。
まず無駄時間の間は、出力変数には何も変化が起こらない。元の例で云うと、塩を加えた水がタンクに流れ込むまでの間である。この間は、 何も効果が無いのだから、何も起こらないということである。そのご徐々に効果が発揮されて定常に達する。

これを発煙者の平均寿命の議論に置き換えてみる。発煙者の平均寿命の標準偏差を5歳とする と50歳から90歳までの間に死亡する発煙者が全体の約95%になる。このように考えると

発煙者の平均寿命−現在の発煙者の平均年齢−発煙者の寿命の標準偏差×2

が、無駄時間の目安となる。
その後、発煙者率増加の効果が徐々に現れ、その後

発煙者の寿命の標準偏差×2

位経過すると概ね定常に達すると考えられる。

このことから、過渡応答モデルの、無駄時間と立ち上り時間が推定できたので、過渡応答モデルは完成する。
このように、応答は、かなり合理的に推測できるのである。

以上を、プロセスの動的応答(Dynamic Response)というように呼んでいる。この動的応答をモデル化できれば、現在の状態から定常状態を予測できるのである。無論、条件も徐々に変わって ゆくので、この予測は、現在の条件が持続するということを前提とはしている。しかしながら過去のデータがあれば、現在の状態については、かなり良く一致さ せることができる。

このあたりの議論については、残念ながら日本の教科書的なものにはあまり記述されていないようなので、殆どは、米国の資料を読むしかないようだ。

以上





目次
HOME PAGE
日本語メインページ
その他の主張集
禁煙スポットを応援しよう
伝言版



inserted by FC2 system