【仕事で学問】いきなり統計の世界へ放り出された方へのメモ【品質管理・異常検知】

この記事は前回の記事の関連です(次のリンク)。
私のように突然統計の世界に放り込まれた方が、少しでも状況をマシにしてもらえればと思い、つたないですが内容を残すことにしました。

内容は次のとおりです。

私が実際に業務で使うためにネットで回った、良かった＆ためになったと思えた、統計の各ジャンルのリンク集
リンク集の内容を実際にやってみて、感じた感想や反省
→　実務ではもうこれでもかというぐらい失敗しまくったので、そのうえでの感想とか、特にここを気を付けなきゃいけなかったのかとかをまとめています

私事なので記事の後ろに回しましたが、量産の製品に異常が発生して常に対応に追われていたため、市販の本のリンクはありません。
基礎からじっくりコトコト煮込むようなことはできず、まず欲しい情報(実際の活きた結果、要は文献)→その後で基礎に立ち返りを高速で回さざるをえなかったからです。

また、サンプル数やサンプルサイズといった、似た言葉だけれども意味が全く違う用語は気を付けて使い分けて書いたつもりですが、間違いありましたらご容赦ください。
貴重なお時間を割いてしまいますが、可能であれば間違いなどコメント頂きますと、とても嬉しいです。

なお、記事に記載している製品が何かといったことや何の検査装置を作っているかといった質問には、身バレが怖いのでお答えできません(ものづくり業界、広いようで狭いのです)。ご承知おきください。

目次です

1 とりあえずまとめ
2 各ジャンルの文献リンクと気をつけることまとめ
3 身の丈話：統計 in the world
4 おわりに

とりあえずまとめ

今回の記事も内容長いので、特に私が言いたいことをこの章にまとめました。
私カワッターの独断と偏見です。

品質管理や異常検知における統計で特に言いたい事まとめ

結論から言えば、極値統計学が一番良かった。理由は以下2点。
- 社内の関係者に対して説明が凄く楽なため
  [詳細]
  平均・分散はまだしも、各種検定のP値などの統計量は製品の値に直結しない情報のため、イメージの共有が大変である。
  一方、極値統計学で用いる値は製品の生産に関わる値(寸法, 荷重や電圧・電流)が「予想される上限値はここまでです」と言った具合にダイレクトに落とし込むため、会議のリスナーの人たちが期待している結論を作りやすい。
- 品質管理の議論でやり玉にあげられがちな最大値を推定できるため
  [詳細]
  ものづくりの現場における品質管理は大抵が正規分布を前提としており、その場合は正規分布の最大値のサンプルサイズ(≒生産する製品1ロットの数、最大値のn数)が分かれば、最大値の最頻値(最大値の確率密度の凸の頂点)を推定することができる。
  さらに、なるべく根拠をもったポリシー(いわゆる腹をくくる)を決めれば、最大値の最頻値以外にも、どこまでの確率でどこまでの最大値がでてくるか、推定ができる。
統計に関わるとよく見る各種検定(パラメトリック・ノンパラメトリックを含めて)は、次の事を特に意識してほしい
- 製品の品質管理や異常検知において、統計の各種検定は万能じゃない
  [詳細]
  各種検定は様々な前提(分布の形, 検定の適用条件)をクリアしたら使ってよいが、実際の製品は、時間と共に色々な種類の異常が入り込み、異常の程度も時間と共に変化する。このことから、実際のすべての製品は”使うための前提”をクリアできるものはほぼないと言って良いと考える。
  色々な異常があるなら色々な検定を組み合わせて、検定のいいとこ取りして異常を検知しようすることが考えられるが、検定には多重性の問題があり、検討のいいとこ取りをすればするほど、品質管理や異常検知においても効力を失うと考える。
  つまり、製品において何の要素(≒物理的な現象、科学的根拠)が製品の品質管理や異常の比率に影響しているか、見極める必要がある。そのうえで検定を使う。
  検定を用いて製品の異常を検知したいのであれば、○○検定、キミに決めた！と言わんばかりの魂をこめた検定により一撃で仕留めるくらいの気概が必要である。検定を用いることは難易度が高い行為であると考える。
- 製品の良否の判断は検定結果が出すP値だけでしない
  [詳細]
  後述する文献で述べているが、検定を”使うための前提”を満たしたとしても、出したP値は実験の再現性と関係がある旨の文献は確認できるが、実際の製品において文献と同じ確率で再現できるかは不明であるため、P値のみで製品の異常・正常を判断しないこと。実際に有意性があるとかでても製品を見ると「有意性あるといえるのかこれ？」とか普通にある。
  なので、製品において何の要素(≒物理的な現象、科学的根拠)が製品の品質管理や異常の比率に影響しているかを把握した上で検定を行う(2度目)。

各ジャンルの文献リンクと気をつけることまとめ

ここからは私が統計について調べた内容のまとめになっています。内容はネットで見つかるリンク集で、基本はJ-STAGEで公開されているものがメインです。
他、大学や研究所でオフィシャルに公開頂いている情報(レポジトリ系やオープンな文献系、ブログライクな記事)、他のサイトでは既に引用がされている文献や個人ブログの内容などです。
また、節の内容で記載のない統計の手法は実施していません(ベイズ統計など)。

著作権の懸念があるため、ノンオフィシャルと見受けられる大学の講義資料は引用していません。実際に探せばたくさん出てくると思いますが、仮に見つけてしまったとしても、取り扱いには十分に注意しましょう。

文献の内容をより深く理解したい方は、文献の参考文献もあわせてチェックすると良いでしょう。

文献のタイトルに番号がついているものはシリーズものになってます。タイトルは同じためネットで検索すれば連番のタイトルが見つかるはずです。

統計の基礎

統計の基礎統計学の時間, 統計WEB, 社会情報サービス
https://bellcurve.jp/statistics/course/
杉原哲朗, データサイエンス, 環境と品質のためのデータサイエンス
http://data-science.tokyo/ed/edj1.html
東大TV
https://tv.he.u-tokyo.ac.jp/course_11814/

文献[1][2]は統計の基礎の項目としてのリンクとしましたが、次節以降の関連する内容も網羅しています。私も都度、文献[1][2]に戻っていました。
ある種のホームポジション的なところになります。

文献[3]の東大TVは本記事で記載した内容以外の統計のジャンルもありますが、そもそも統計とは何か、統計で何ができるか、の全容を端的に知るとっかかりとして非常に良いです。動画ですので、私のような電車通勤の方はおあつらえ向きなのではないかと思います。利用は東大TVの利用規約を遵守しましょう。

実務としては、平均や分散からはじまり、散布図・ヒストグラム・確率密度の考えまでおさえておくと良いと思います。

平均や分散は色々な統計手法で使います(パラメトリックな検定など)。
私の解釈的には、散布図やヒストグラムは"人間が分布の特性の大枠をつかむ"ための立ち位置になります。一方、以降で述べる各種統計の手法はいわば"ピンポイントな評価"の立ち位置になります。"ピンポイントな評価"は、そればっかりやっていると、そもそも自分が何を目的に統計の手法を使っているのか忘れてしまいます。

私は上記の失敗をしましたので、今は散布図やヒストグラムとセットで統計の各種手法を必ず使うようになりました。

確率密度に関する基礎

積分の歴史～ルベーグ積分までの道のり～, マスログ, 和から株式会社
https://wakara.co.jp/mathlog/20200904_2
光崎龍子(1978), 正規確率紙による方法, 獣医科学と統計利用, 1978 巻 2 号 p. 1-4
https://doi.org/10.2743/jve1977.1978.1

文献[1]のルベーグ積分は仕事で統計をする上では正直、直接関係ない内容です。ただ、理論の成り立ち(計算の前提)はおさえるべきと考えリンクを掲載しました。業務上、おさえるポイントは2つだと思います。

確率は取ったデータの範囲内で密度で表され、その密度は積分することで確率となる(超乱暴表現)
積分はルベーグ積分(分布を横方向で積分)する(超乱暴表現)

業務ではいろいろな確率密度を使って必要に応じて積分し確率を算出するわけですが、その時にルベーグ積分(横方向で積分)してるんだな、という認識が持てたらよいと思います。

文献[2]は実用に近い内容です。実務では確率紙ではなくQQplotを使うと思いますが、いきなりQQplotだと確率密度の発想(特に、確率密度関数・累積分布関数)が飛んでしまうと考え、まずは正規確率紙の内容を掲載しました。文献[2]は確率密度の分布の形と確率紙のplotの形の対応が記載されており、QQplotに入る前の準備としてはとても良い資料でした。トータル的に見て以降の内容の理解が早くなると考えます(私の実感です)。

とはいえ、とにかく結果を求められる状況の場合はQQplotから入らざるをえないのですが。そんな時はあと追いでも良いので確率紙の考えにに立ち返ってほしいと思います。応用の範囲が広がりますので。

仮説検定

※この節は私が間違いを犯しまくった部分でもあるため、特段に長い内容になっています。

金長正彦(2020), 評価に用いる統計学入門, 物理教育 68巻 3号https://doi.org/10.20653/pesj.68.3_191
林知己夫(1989), データ解析の考え方, 科学基礎論研究9 巻 2 号 p. 81-87
https://doi.org/10.4288/kisoron1954.19.2_81
池田郁男(2013), 統計検定を理解せずに使っている人のために I, 科学と生物 51 巻 5 号 p. 318-325
https://doi.org/10.1271/kagakutoseibutsu.51.318
佐藤俊哉(2017), 統計的有意性と P 値に関する ASA 声明, 日本計量生物学会
http://biometrics.gr.jp/news/all/ASA.pdf
Five Guidelines for Using P values, Minitab Blog Editor, Minitab, 2014
https://blog.minitab.com/en/adventures-in-statistics-2/five-guidelines-for-using-p-values
P Values and the Replication of Experiments, Minitab Blog Editor, Minitab, 2014
https://blog.minitab.com/en/adventures-in-statistics-2/p-values-and-the-replication-of-experiments
井口豊(2022), 分散分析の正規性は残差を調べる：検定の多重性問題, 生物科学研究所井口研究室
https://biolab.sakura.ne.jp/normality-test-for-anova.html

上記以外にも調べたリンクはたくさんありますが、選ぶとするならこの7つです。ぜひ文献[1]～[7]、全部目を通してほしいなぁと思っています。
実際の検定の内容(考え方や計算式)については割愛します。色々なサイトで見つかりますし、統計に入学して1年生の私が説明するよりもよっぽど詳しく分かりやすいからです。

まず、文献[1],[2]で検定を道具として使うための準備として、ある程度の全体像を把握ができるかと思います。文献[3]～[7]は検定における気をつけて集であり、是非読んでほしいと思います。というのも、これらの文献を読む前、私は検定に対して誤った過剰な期待と解釈を持っており、誤った検定の使用を何度もしてしまったからです。他の方も同じような目に合ってほしくないと思います。

過剰な期待として、私は”検定”を何かしらハッキリとした結論を出してくれるような感じと、帰無仮説の棄却・採択という考えが、1 / 0 のようにデジタル的なイメージでハッキリと分けてくれる、という安易な考えがありました。
しかしながら、答えはNOでした。というのも、そもそも検定で設定する帰無仮説や対立仮説は採択や棄却をされたところで 1 / 0をハッキリと示してくれるものではないからです。私は検定の前提の正しい理解ができていなかったです(今でも微妙)。

誤った解釈は沢山あるのですが、例としてあげるなら、P値の解釈でした。
P値の解釈は文献[4]より『おおざっぱにいうと、P 値とは特定の統計モデルのもとで、データの統計的要約（たとえば、2 グループ比較での標本平均の差）が観察された値と等しいか、それよりも極端な値をとる確率である。』とあります。おおざっぱでもこの説明です。はじめは何回読んでも私には正しく理解ができなかったです。
もうちょい具体的に言えば、## 観察された値と等しい ##ところです。ここにしっかりと目を通し、意味を自分で確実に理解しなければ、検定で求めたP値の解釈が大きく変わります(解釈を誤ります)。
私の場合、色々な検定をして(両側検定・片側検定で)P値が有意水準5%未満となった時、やった、これで製品の異常を明確に定義できたZE！品質を数値に落とし込めたZE！これで進捗会議で報告できるZEee！とかいって喜んじゃってたわけです。#### 観察された値と等しい #### ということを理解せずに。その後はお察しです。

実際のP値を用いるガイドラインとしては、文献[5]を参照すると良いと考えます。実際の使い方や認識、重点とする仮説など、検定を行う上での全体像が網羅されています。
また、文献[6]にP 値と実験結果の再現性の関係の記事のリンクがあります。この再現性の記事に目を通すと、心理学の分野において、P値が0.001未満の場合、実験の再現率は60%を超えるという内容がグラフで確認できます。つまり、P値は実験の再現性と関係がある、ということになります。
しかし、この話は心理学における内容であり、我々のようなものづくりにおける製品において、検定によって求められたP値が文献と同じ確率の実験結果、すなわち製品が同じ品質になったり、異常・正常を同じ程度で判定できるといった再現性を持つかは不明です。記事の中でも『It’s　important to note that while the replication rate in psychology is probably different than other fields of study, the general principles should apply elsewhere.』と記載があり、他の分野でも一般論として再現性はあるはずと言及しつつも、あくまで心理学の分野のみに再現性の範囲をとどめています。

で、なのですが、そのP値による再現性を実際にものづくりにおける製品に対しても適用できるか、と言った議論になると思います。そのためには検定で求めたP値を実際の製品で調べてみるしかありません。私は実際の業務の中では、再現性を調べる必要性を上長や会議の場で説明することを考えれば、相当にアグレッシブな発想持った上長や組織でない限り、難しいと考えます。
なぜなら、検定1つに対して、再現性を確認するためのn数が相当数となり調査する工数が膨大になるためです。さらに検定の候補が複数あれば、労力が水増し的に増大することから、会社においてはその時点で費用対効果が合わないという判断をされる可能性が高いと考えます。今後の専門の機関の続報に期待、となると考えています。

P値だけでこれだけ長くなってしまいました。
他、帰無仮説や対立仮説の解釈も同様に正しく理解をして、はじめて検定は有用になる、と言うことを学びました。私はやらかしていたのですが、特に”有意水準は帰無仮説が○%でおこる確率”とか”帰無仮説が棄却されたから対立仮説が正しい”といった、誤った解釈はしないようにしましょう。つまり、色々大変で涙目ということです。

また、実際の製品は、時間と共に色々な種類の異常が入り込み、異常の程度も時間と共に変化します。このことから、実際のすべての製品は”使うための前提”をクリアできるものはほぼないと言って良いと考えます。
では、色々な異常があるのであれば、色々な検定を組み合わせて検定のいいとこ取りして異常を検知しようすることが考えられます。検定には多重性の問題があることから、検討のいいとこ取りをすればするほど、品質管理や異常検知の効力を失うと考えます。
つまり、ある検定で苦手な部分を補うように他の検定を使うことで、異常検知のモレが発生しやすくなる、ということになると考えます。

他、文献[6]の内容も私にとっては有益でした。分散分析やt検定の正規性の検定を確認するとき、取った群のデータをそのまま使って正規性の検定(Shapiro-Wilk検定など)を実施するのではなく、残差の正規性の検定をするべき、と言う内容は統計をはじめた方には中々伝わっていない内容なんじゃないかと思います。
私自身、検定後の実際の製品を確認してみたのですが、あれ？？コレ異常の判定のはずだけど全然良品じゃね？となっていました。

そんなこんなで、私はP値におけるサンプルサイズの影響・効果量・検出力・一種の過誤と第二種の過誤といったことを知っていくこととなり、検定は「何も考えなくても目的さえ合えば後はよしなにイイ感じの結果を出してくれる神ツール」では全くないことを身に染みて理解した次第です。

当たり前っちゃ当たり前ですが、実際の製品の品質管理や異常検知においては、製品特有のメカニズム(電気・機械・化学やらの各分野がもつ物理現象)の裏付けをしたうえで検定を行わなければいけない、ということを頭だけじゃなく体で理解できました。
つまるところ、ただ良品をかき集めました、基準データ作りました。そいつと比べました、結果OKでした。そんなのでは今がいいだけでこれから先もOKということはなく、なんの根拠もなしです。後述するマハラノビス・タグチメソッド(MT法)についても同じです。

効果量(検知力はやらず)

城戸楓・池田めぐみ, 教育工学研究における帰無仮説有意性検定と効果量, 日本教育工学会論文誌 2022 年 46 巻 3 号 p. 579-587
https://doi.org/10.15077/jjet.46013
Christopher R Brydges, PhD(2019), Effect Size Guidelines, Sample Size Calculations, and Statistical Power in Gerontology, Innovation in Aging, Volume 3, Issue 4,
https://doi.org/10.1093/geroni/igz036

先ほどの検定の節で、検定における検定量そのものやP値の解釈を踏まえた(つもりの)上で、他人(特に上司)に簡潔に説明するのが、私の語彙力ではメチャクチャ辛いと感じるようになりました。何かないかと探したものが、効果量でした。

ただ、効果量は前節の検定とは解釈が異なり、比較する群の統計的な観点による”距離”や”関係性”を定量的に表現しているのみであるため、検定の結果の説得力を上げるものとして使います。上記文献[2]でも冒頭で『It is recommended that researchers report effect sizes (Wilkinson & the Task Force on Statistical Inference, 1999) as they can provide valuable additional information regarding a test result that traditional null hypothesis significance testing cannot, such as the magnitude of a difference or association.』と記載されています。

結果としては、 Cohen’s d, Hedges’ g, Pearson’s r で落ち着きました。とにかくシンプルで分かりやすく定量化しないと会議や上司とのコミュニケーションがうまくいかなかったからです。要は私の説明力不足なのですが。

文献としては、特に文献[2]の文献が効果量と実際のエラー量の関係が図示されており、イメージがしやすかったです。製品の品質管理や異常検知に関係しそう、と言う意味では私が欲しかった情報でした。

マハラノビス・タグチメソッド(MT法)

救仁郷誠(2001), マハラノビスの距離入門－MTS法を理解するために－, 品質工学 9 巻 1 号 p. 13-21
https://doi.org/10.18890/qes.9.1_13
杉原哲朗, マハラノビスの距離, 環境と品質のためのデータサイエンス
http://data-science.tokyo/ed/edj1-2-2-4-2.html
安部将成・松田眞一(2013), MT法におけるしきい値設定法の提案と比較, アカデミア. 情報理工学編 : 南山大学紀要
https://doi.org/10.15119/00000108
永田靖(2013), MTシステムの諸性質と改良手法, 応用統計学 Vol. 42, No. 3, 93–119
https://doi.org/10.5023/jappstat.42.93

検査装置マンになってからしょっちゅう聞いたのがマハラノビス距離とタグチメソッドをあわせたMT法でした。

この手法は品質管理と異常検知の両方で使用しました。
結果は次の通りです。
品質管理はできるようになったと感じます。単純にタグチメソッドで求めたSN比よりも各条件における結果の差が出やすくなったかな、と感じました。
異常検知においては製品の異常・正常を明確に分けることが叶わずでした。

MT法の入り口は文献[1][2]が非常に分かりやすかったです。ページ数も少ないため、マハラノビス距離に携わる方は是非見てほしいです。
文献[3][4]は文献[1][2]を読み終えたあとで読み進めると良いです。SN比・MT法の改良まで記載されています。SN比の事を知りたかったり、さらにMT法についてもう少し深堀したい時に読むと良いです。特に、文献[3]にて3.1節の『マハラノビス距離の2乗が項目数を自由度とするΧ²分布に従う』については、色々と応用が利く内容なのではと考えます。

マハラノビス距離は色々な文献や教育専門の業者がだす有償プログラムで必ずと言っていいほど紹介される内容で、”あるべき姿”を定義しそこから外れた値を異常とする、という非常にシンプルで分かりやすい発想です。さらに必ず例で目にする確率楕円という~~なんか融通が利きそうでインテリジェンスな見た目な~~内容が万能さをかもし出します。
ただ、万能そうに見えるだけでした。マハラノビス距離を求める事前の条件決めが難しかったです。

前述の各種検定で同じようなことを述べましたが、実際の製品は異常品と正常品が混ざったような状態、つまり大学でいうギリギリ60点(単位は取れる)ようなものがほとんどなため、マハラノビス距離で明確に異常・正常の閾値を出すには至らなかったです。教育とかでよく見るMT法の例のように、ズバッと異常・正常の分布が分かれていれば良かったのですが。

実際に使ってみた実感としては、マハラノビス距離の算出アプローチ(あるべき姿の定義)が非常に難しかったです。あるべき姿は正常品の群のデータを取ることではなく、設計検証で物理現象に従ったうえで推定した母集団の平均や分散(つまり机上計算の値、分散は分野によりできるできないがあると思います)を求めることが必要であると感じました。
また、私自身まだ確証を得ていないのですが、物理現象に従ったうえで推定した母集団の平均や分散でマハラノビス距離を計算は、分散の扱いが不偏分散となる(と考えている)ため、文献[2]のような、マハラノビス距離の二乗の平均値が変数の数や1とならなくなるんじゃないかと考えています。実際、私の場合は平均値がおかしな値になってしまいました。この記事ではどんな物理現象なのか、計算方法は何なのか、明記していないので、本記事を読んで頂いている方は「条件示さんか！！」と思っていると思います。冒頭述べた通り、この辺は身バレが怖いため、問い合わせフォームやらTwitterのDMやらで個別に有識者の方のご助力賜われたらなぁと思っております。

また、私は物理現象に従ったうえで推定した母集団の平均値を算出しましたが、基準が明確になっただけでした。あるべき姿からどれだけ外れた状態か、製品の良品をかき集めたデータを使ったよりも解像度が上がったことを確認しただけでした。つまり、製品の品質管理には使えましたが、製品の異常を検知とする根拠にはなりませんでした。

そんな状態で直交表で実験計画をつくり、タグチメソッドてSN比を算出しても、ロットの中のワースト品とチャンピョン品を決めるだけにとどまってしまいました。

もう少し言えば、製品歩留を何も考えなければ・・・・・・・・・・・・・正常品のみを残すことができます。が、そんなことしても「チャンピョン品ばかりを作ることが目標じゃないんだぞ！！」と言われてヨシです。

とはいえ、製品の品質管理ができたことは一歩前進でした。

共分散構造分析

星野崇宏・岡田謙介・前田忠彦(2005), 構造方程式モデリングにおける適合度指標とモデル改善について :展望とシミュレーション研究による新たな知見, 行動計量学第32巻第2号 (通巻63号), 209～235
https://doi.org/10.2333/jbhmk.32.209

MT法の次にたどりついた内容です。これについては文献[1]のみです。

ものづくりと言えば製品のばらつき、ばらつきといえば分散、分散と言えば相関、相関といえば共分散ということで、共分散構造分析を調べていました。製品はバラツキの塊であるため、バラツキに特化した分析があるか、という観点で調べたらいきつきました。

色々な手法がありましたが、実感としては、製造の品質の定量化においてはAIC(赤池情報量基準)を使った、『「関心のあるモデルでの AIC 」－「飽和モデルでの AIC 」のように，飽和モデルとの差』とSRMR(Standardized Root MeanSquare Residual)が実用的に感じました。

情報工学でかじったことがあったのですが、確率密度を情報量で表すという考えをみて統計と情報工学が紐づいたことは自分ながら「ああ～」となりました。また、共分散行列(標準偏差と相関係数、座標を正規化したなら相関係数のみ)をあるべき姿の共分散行列(いってみれば基準)と比較するという考え方は今までありませんでした。

自由度を式に含めるCFI(Comparative Fit Index)などの手法は、電気のノイズデータなどサンプルサイズ(データ取得点数)が5千点を超えるようなものは、ほとんどのCFI値が 0 となってしまうため、使いどころが難しいと感じました。

結果としては成果はなかったのですが、私にとっての評価の引き出しが増えたため、とても良い文献に出会えたと感じます。

線形回帰(最小二乗法)

線形回帰についてはここでリンクをつける必要もないくらい、たくさんの情報がありますので、そちらを参照してみてください。
しいて言うのであれば、相関係数と回帰直線の違いがピンと来なかったのですが、”相関係数回帰直線”で検索するだけでドンドン情報がでてくるため、やっぱりリンクをつける必要がないと判断しました。

線形回帰は製品の異常検知を目的にしようしました。
目的は回帰直線の傾きのみを使用した、通常の微分よりも鈍感な微分の作成でした。数点ごとのグループの回帰直線を移動平均のイメージでずらしながら作り、その傾きの傾向を把握したいというものでした。
結果は用途が用途でしたので、私が期待する鈍感な微分が出す内容にはならず、イマイチでした。

しいて言えばですが、電気信号のようなn：5000以上といった具合のサンプルサイズがとても大きい、かつ同じ値が何個もあるようなサンプルに対しては、計算量が多くなるため、適度にデータの間引きをしたほうが良いと思いました。この辺はググればたくさん出てくるかと思います。

また、時間が許す限りでいいので、めんどくさくても一回は回帰の(微分)方程式を自力で解いてみてください。理解が違います。

極値統計学

唐沢好男(2019), 極値統計学へのいざない～想定外の出来事を想定外としないために～, Technical Report YK-020, 唐沢研究室, 電気通信大学
http://www.radio3.ee.uec.ac.jp/ronbun/YK-020_KyokuchiToukei.pdf
※pdf直リンクです
鹿沼陽次(1997), Excelによる確率紙の書き方 : パソコンによるデータ解析実践講座(2), 日本信頼性学会誌　信頼性/19 巻 (1997) 3 号
https://doi.org/10.11348/reajshinrai.19.3_211
柘植宏之(1987), 装置材料の寿命予測　局部腐食損傷への極値統計の適用, 材料 36 巻 400 号 p. 35-46
https://doi.org/10.2472/jsms.36.35

私にとっての、収穫ナンバー1でした。文献[1][2]で全体像の把握(まずは極値統計学を使えるようにする)、文献[3]で詳しい内容の把握となります。文献[3]は文献[1][2]を統括したような内容ですので、時間に余裕のある方は文献[3]だけでも良いかと思います。

極値統計学は文献[1]より『最悪事態の発生、すなわち観測量の最大値を扱う学問が極値統計学である。想定外の出来事を想定外としないための心積もりを与える学問とも言える。』と記載のある通り、最大値"のみ"の分布に着目した統計です。データを取った標本に対して最大値はどのくらいの確率でどのくらいの値で存在しうるかを推定します。
私が調べた文献では、極値統計学は腐食・自然災害・経済の予測に携わる方が使用するような印象を受け、ものづくりで極値統計学を使った例は見かけることができませんでした。もちろん私の調査不足はありますので、この文献にあるぞ！と言う方は是非とも連絡頂きたいです。

冒頭の章「とりあえずまとめ」で述べていますが、極値統計学は報告としても使い勝手が良かったです。扱う値が平均・分散や統計量といった2次情報的なものではなく、ダイレクトに製品の生産に関わる値(寸法, 荷重や電圧・電流)で「想定されうる最大値はここまでです」と言った具合に落とし込むことで、会議のリスナーの人たちが期待している結論を作りやすかったからです。
品質のやり玉にあげられる「で、どこまでがギリギリのラインなの？」を論理だてて説明できることも、大きなポイントでした。

極値統計学において、標本が取りうる分布の最大値の最頻値(最大値の分布の確率密度の上側凸の頂点)は最大値のサンプルサイズ(最大値のn数)によって決まる、というところが目からウロコでした。
前程となる取得するデータの分布によってとりうる最大値の分布も決まりますが(3種類)、会社の業務はたいてい取得するデータの分布は正規分布を前提にするので、最大値の分布はグンメル分布(3種類のうちの1つの分布)となり、あとは取った最大値のデータのサンプルサイズ(最大値のn数)に応じて最大値の最頻値が求まり、基準になってくれます(取得するデータが正規分布の場合、√[2ln(n)]がグンメル分布における最大値の最頻値)。

この手法が簡便な方法で実用的であったため、異常検知の面でも助けられました。データのサンプルサイズ(最大値のn数)の決め方は、製品の1ロットが群となるため、1ロットの製品の個数で最大値の最頻値が机上で求まります。

累積確率分布を求めたい場合は吸引係数(位置パラメータ, 尺度パラメータ)を求める必要があります。その場合は、文献[2]に従って、取得した最大値のデータ群から確率紙を作成していきます。位置パラメータについては、最大値のデータのサンプルサイズ(最大値のn数)に応じた最大値の最頻値が位置パラメータに該当しますので、確率紙で求めたパラメータの妥当性のチェックに使用していました。

最後に、求めた累積確率分布から、なるべく根拠をもったポリシー(いわゆる腹をくくる)で想定した確率で最大値を決定。

MIC：Maximal Information Coefficient

Nico Güttler, Andreas Ströhlein and Matt Huska, MIC - Detecting Novel Associations in Large Data Sets
http://lectures.molgen.mpg.de/algsysbio12/MINEPresentation.pdf
※pdf直リンクです
佐久間太志, 廣垣俊樹, 青山栄一, 久保健吾, 児玉紘幸(2019), 最大情報係数MICを応用したラジアスエンドミルのカタログマイニング, 精密工学会誌 85 巻 3 号 p. 260-266
https://doi.org/10.2493/jjspe.85.260
DAVID N. RESHEF , YAKIR A. RESHEF , HILARY K. FINUCANE, SHARON R. GROSSMAN, GILEAN MCVEAN, PETER J. TURNBAUGH, ERIC S. LANDER, MICHAEL MITZENMACHER, AND PARDIS C. SABETI(2011), Detecting Novel Associations in Large Data Sets, SCIENCE, Vol 334, Issue 6062
https://doi.org/10.1126/science.1205438

最後にMICです。文献[1][2]はMICの内容を理解するために、文献[3]はフリーアクセスではありませんのでご注意ください。

MICは製品の異常検知として、前述したマハラノビス距離の分布と組み合わせて使おうとしました。考え方は、あるべき姿と測定したデータの分布を一緒に散布図にプロットし、お互いの分布が一致した場合は相関係数が高くなり、測定したデータの分布があるべき分布からバラついた場合は相関係数が低くなるはず、というものです。

結果はうまくいかずでした。製品異常であるが外れ値のデータがごく少数の場合、測定したデータの分布があるべき姿とほぼ重なっているため、相関係数が高くでてしまい、正常品の判定となってしました。
非線形に対応しているから効果が期待できるかも！？と期待したのですが、線形だろうが非線形だろうが相関係数は相関係数であることに変わりないため、使い方を誤った感がありました。

ついでな話なのですが、MICはHSIC(Hilbert-Schmidt Independence Criteria：ヒルベルト・シュミット独立性基準)と一緒に”21世紀の相関係数”と呼ばれており、y=x²のような凸形状をもった分布や×形状のような、非線形な分布に対しても相関係数を出すことができます。よくMICとHSICは比較記事でよく見かけます。

HSICは本記事で言及しません。ここ(HSIC著者のGitHub)でHSIC検定を試みたのですが、当時のサンプルサイズがn=5000と大きかったため、私のショボPCではメモリが足りず使用できませんでした。データを間引きしたらいけたかもしれませんが、回帰とは解釈が異なるため、判断に迷ったためやっていません。

身の丈話：統計 in the world

(IT企業所属だけど)生産技術から検査装置マンに転生したのち、統計の世界に放り込まれました。生産技術の時はいきなり塑性加工 in the worldでしたが、今度は統計 in the worldでした。

検査装置マンに転生はしましたが、いきなり最強！チート！とはいきませんでした。

統計は前職で触ったぐらいでした。検定は訳も分からず、平均と分散のみでやりくりしていました。

しかしながら、検査装置マンとなったからには、製品の品質を担保する側の立場として、統計を使いこなせなければいけません。なぜなら明確な理由をもって、開発された製品やその後の製品に対する設計変更の評価(良くなったか悪くなったか？の判断)を行わなければいけないからです。

私が検査装置マンになってからすぐに、生産中の製品に問題が発生という状況になってしまい、悠長に基礎からしっかりと、と言ったことはできませんでした。

おわりに

統計としてやったことは、内容をつまんでは次、つまんでは次、というやり方で進めていました。
基礎は必須なことを前提に(最低限に)、かけられる工数の塩梅をみて必要なことのみに焦点を当てています。

この記事では触れませんでしたが、実務ではPythonを使って統計処理をしました。ライブラリはscipyやscikit-learnなどのよくあるものです。基本PyPlにあるライブラリで足りました(HSICは除く)。
プログラムのコード実装については、既に公式のライブラリや有志の方がQiitaや個人ブログなどでとても詳しくかつ簡潔にまとめて頂いているため、この記事では割愛しました。

私は学問の構成は、基本積み上げ式と考えています。統計も同じという認識です。

また、統計だけの話ではないと思うのですが、専門分野は内容の土台となる基本があり、次に基本と基本が組み合わさって様々なケースに対応する応用がある、と常々考えています。つまり、どれだけ時間がない、急いでいるとしても、基本は必ず理解し、そのうえで対応を応用(ここでは実務に相当)となるわけです。抑えるべき手順は押さえなければいけない、というわけです。

最後に、この記事で私のような統計ワールドに放り出された方の状況が少しでもマシになってくれれば嬉しく思います。

変更履歴

2023/7/5

記事UP