結局ボランティアは5本になっちゃった。
いろいろとみつけちゃったからなんだけど、
みつけたいちばんやばいことは、
この分野がちょっと科学として程度が低いってことだ。
だもんでこんなレビューをかいてみた。
たのむから勉強してくれ。
レビュー:Rを用いた探索的データ分析:地震データへの新たなアプローチ
この分野では、長年にわたり、
いくつかの誤った理論が基本法則や公式として受け入れられてきました。
近年、これらの誤解は探索的データ分析(EDA)の適用によって修正されるようになりました。
本稿では、EDAがこれらの画期的な進歩にどのように貢献したかを概説し、
EDAを実際に使い始めたいと考えている人のための簡単なガイドを提供します。
はじめに
私たちはブラックホールを見つめ、宇宙の起源について議論し、
深宇宙から恒星間物体を追跡しています。
しかし、膨大なデータがあるにもかかわらず、
私たちの足元で何が起こっているのか、驚くほど認識できていないのです。
このパラドックスは、
この分野に蔓延する権威主義に起因しているのではないかと私は考えています。
私は独立して研究を進め、この1年間で5本の論文を執筆しました。
ほぼ1世紀にわたって信じられてきた法則の改訂(Konishi, 2025a)、
1世紀以上信じられてきた公式の修正(Konishi, 2025b)、
日本近海のプレート位置データの更新、懸念されていた大地震の発生確率の反証、
そしてかつては不可能と思われていた地震予測の実現(Konishi, 2025c, d, e)です。
少なくとも、予測できたはずの地震の前兆現象を明らかにしました。
これは革命的に聞こえるかもしれませんが、誰かをギロチンに送りたいわけではありません。
むしろ、多くの研究者がこの革命に加わってくれることを願っています。
なぜなら、これは科学を前進させる革命だからです。
ここで、私はその方法を紹介します。
それは、自分自身のデータを独立して分析するというシンプルでありながら強力な原則です。
マグニチュード分布
長年信じられてきたグーテンベルク・リヒター(GR)の法則(Gutenberg and Richter, 1944)は根本的な誤りです。
正しい分布は実際には正規分布です(Konishi, 2025a)。
頻度の対数をヒストグラムにプロットすると直線部分が現れます。
これがGRの法則の本質です。
しかし、これは単なるグラフ上の産物であって、数学的・物理的な意味を欠いています。
したがって、GRの法則から地震のメカニズムを推測しようとする試みはすべて根本的に間違っています。
マグニチュードは地震エネルギーの対数表現です。
したがって、マグニチュードの正規分布は、エネルギーが対数正規分布に従うことを意味します。
これは、複数の要因が相乗的に作用して結果を決定する際に自然に生じる分布です。
私は、これこそが地震の本質であると考えます。
Rについて
効果的なデータ分析には、統計学の基礎知識と適切な計算ツールへのアクセスが必要です。
Excelは広く使用されていますが、統計分析には適していません。
やってできないわけではないのですが、かなり面倒なことになります。
幸いなことに、多くの統計パッケージが利用可能です。
私は、活気に満ちた親切なコミュニティによって支えられている
無料のオープンソース環境であるRをお勧めします。
最新バージョンは、CRANのウェブサイト(R Core Team、2025)からいつでもダウンロードできます。
Rを使用するにはある程度のプログラミングが必要ですが、
私は統計学と並行して学習することを推奨しています。
実際これは、私が学生に教えている方法です。
統計研究には面倒な計算が含まれることがよくありますが、
Rはそれらを効率的に処理できるため、学習者は計算ではなく解釈に集中できます。
行き詰まったら、オンラインで質問してみてください。
ほぼ確実に誰かが助けてくれるでしょう。
これが、協力的なコミュニティの力です。
とはいえ、Excelはデータ処理に便利です。
Excelでデータセットを準備し、テキストベースのファイルとしてエクスポートして、次のコマンドでRにインポートできます。
data <- read.table(file = "xxx.txt", sep = "\t", header = TRUE)
このコマンドは、ファイルの内容をdataというオブジェクトに保存します。
Rでは、代入は通常<-または->で、方向を指定して示されます。
イコール記号(=)も使用できますが、矢印をつかうほうがRらしいです。
データを行列として扱うには、次のように記述します。
data <- as.matrix(data)
探索的データ分析(EDA)について
ここでは、統計的アプローチとしてEDAを推奨します(Methods, 2012)。
これは、先入観にとらわれずにデータの特性を検証することで、
その起源を理解しようとする試みであり、
科学と非常によく一致する統計学の一分野です(Methods, 2012; Tukey, 1977)。
EDAでは、まずデータの特性に関する事前知識がないことを認めます。
そして、いかなる数学モデルにも懐疑的な姿勢を保ちながら、
データに適した分析手法を探ります。
だから、データの分布状態が最初の関心事となります。
ここに中心極限定理と呼ばれる数学的定理があります。
これは、複数の乱数の合計は正規分布に従うというものです。
このような現象はとてもおおいです、試験の成績や、身長、体重など。
したがって、EDAを用いる人はまず、データが正規分布しているかどうかを調べます。
Rはこの目的のために非常に簡単なソリューションを提供します。
qqnorm(data)
たったこの1行です。
このデータをマグニチュードに設定すると、結果はほぼ必ず直線になります(図1A)。
これはQQplotを実現する最も簡単な方法です(Konishi, 2025d; Tukey, 1977)。
これをもう少し丁寧に行うには、
ideal <- qnorm(ppoints(length(data)))
これは、データの長さに等しい確率点(ppoints)を用意し、
正規分布(qnorm)から対応する分位点を求め、
idealというオブジェクトに格納することを意味します。
これをソート済みのデータと比較してプロットすることで、
データの分位点と正規分布の分位点を比較できます。
plot(ideal, sort(data))
これに
z<- line(sort(data)~ideal)
abline(coef(z))
を追加すると、最適な近似直線(abline)が描画されます。
coef(z) を使用して係数を抽出すると、傾きがデータのスケールσ の推定値として、
切片がロケーション μ の推定値として得られます。
R関数を忘れた場合は、`?line` を実行してください。
すぐにチュートリアルが表示されます。
データの正規分布の性質を利用して、
緯度と経度の両方に1度間隔のグリッドを構築し、
各セル内のスケールを見積もることで、
異常な挙動を示す場所を特定することができます(図1B)(Konishi, 2025e)。
これだけでも、マグニチュードがどのように分布しているかが分かります。
ぜひご自身で試してみてください。
あなたはどちらを信じますか?
グーテンベルク-リヒター法則? それともこれ?
この分野の研究に取り組むという私の決意は、
まさに`qqnorm(data)`を実行した時に固まりました。
データ操作
論文を提出するたびに、査読者が必ず同じ質問をしました。
「データがどのようにフィルタリングされたのか説明されていません。実際にはどのように行われたのですか?」
そこでわたしは方法論のセクションで、
データポイントを一つも破棄していないことを明示的に記載する必要がありました。
これは、極めて異常な状況を浮き彫りにしていると私は考えています。
健全な科学においては、分析者の都合に合わせてデータを選択的にフィルタリングすることはありません。
これはチェリーピッキングという、データの改ざんの一形態です。
しかし、この慣行は依然として続いているようです。
おそらく、グーテンベルク-リヒターの法則が、
低レベルのデータを破棄しなければ維持できないためでしょう。
いかなる科学法則も、このような極端な措置を遵守することを義務付けるべきではありません。
この慣行を続けている人々には、その影響について熟考し、それを放棄するよう強く求めます。
科学はドグマを守ることによってではなく、データ、
それもあらゆるデータと向き合うことによって進歩するのです。
余震回数
余震頻度の時間的減衰は、大森の式によって長らく説明されてきました。
この式は後に宇津によって修正されました(大森, 1895; 宇津, 1957)。
これらのモデルは、時間に反比例すると提唱しています。
しかし、この仮定は精査すると成り立ちません。
これはご自身で検証できます。
各時点tにおける余震回数をプロットするだけで、以下のようになります。
plot(t, number, log = "y")
これにより片対数プロットが生成されます。
データが線形関係に従う場合、結果は直線になるはずです。
地震頻度は対数正規分布に従う傾向があることを知っていたので、
片対数スケールでデータをプロットしたところ、明確な線形減少が観察されました(図2A)。
大森–宇津のように反比例項を導入すると、プロットは線形から外れます(小西, 2025b)。
片対数プロットにおける線形減少は、特徴的な半減期を持つ一次反応を示唆しています。
これは、放射性崩壊やバネ振動など、変化率が残存量に比例するシステムの典型的な例です。
地震もこのように収束するように見えます。
統計的特性が明らかになると、根底にあるメカニズムが明らかになり始めます。
これにより、簡潔なモデルの構築が可能になり、まさに探索的データ解析(EDA)(Tukey, 1977)における解析の目標となります。
地震発生直後、図1Aに示すQ-Qプロットの位置パラメータが増加します(図2B)。
この増加も、半減期パターンに従って時間の経過とともに減少します。
注目すべきは、この半減期の持続時間は、地震発生頻度の減衰で観測される持続時間よりも大幅に短いことです。
インターフェースの位置
震源深度は日常的に測定されているにもかかわらず、気象庁(JMA)は、
過去の提出資料に基づく、日本周辺のプレート構造に関する時代遅れのモデルに依存し続けています(Barnes, 2003; JMA, 2025b)。
この現状は、現在の三次元的な地殻構造に対する理解が不足していることを浮き彫りにしています。
幸いなことに、この問題はRを用いることで比較的容易に解決できます。
Rのコア機能は多くの種類の解析をサポートしているだけでなく、
より高度なタスクのためのライブラリと呼ばれる専用パッケージの豊富なエコシステムも提供しています。
3D可視化に特に役立つパッケージの一つがrglです(Murdoch et al., 2025)。
rglをインストールするには、次のコマンドを実行するだけです。
install.packages("rgl")
これにより、CRANミラーからパッケージがダウンロードされ、R環境に統合されます。
このようなパッケージの維持には多大な労力が必要となるため、これはコミュニティの寛大さの証です。
インストールが完了したら、以下のコマンドでライブラリをロードします。
library(rgl)
3次元データ(例えば、x、y、z座標を表す3つの列ベクトルを持つ行列)を可視化するには、以下のコマンドを使用します。
plot3d(data)
これにより、Rコンソールに3Dプロットが表示されます。
インタラクティブなHTMLウィジェットとしてエクスポートするには、以下のコマンドを使用します。
rglwidget()
これにより、可視化結果を保存して他のユーザーと共有できます。
このアプローチを用いることで、地震の震源分布を可視化し、
プレート境界面の実際の位置を明らかにすることができました。
この構造は、長い間誤って表現されてきました(Konishi, 2025b)。
傾斜面としての単一の境界面
プレート境界面は、3次元空間において単一の傾斜面として表現することができ、
標準的な平面方程式で自然に記述されます。
この面に位置する地震の震源も可視化できます。
これを実現するために、主成分分析(PCA)(Jolliffe, 2002; Konishi, 2015)を採用しました。
PCAは、次元削減に広く用いられる多変量解析手法です。
その強みは客観性にあり、分析者を問わず一貫した結果が得られるため、
特に科学的な応用に適しています。
この手法の詳細な紹介は(Konishi, 2025b)の付録に掲載されていますので、ぜひ一読ください。
他の多くの状況でも役立つ可能性があります。
Rでの実装は非常に簡潔で、わずか数行のコードで済みます。
結論
私は情報学者である前に化学者であり、やや古風なタイプの科学者です。
そのため、ポパーの科学哲学(Thornton, 2023)に共感し、
探索的データ分析(EDA)(Tukey, 1977)を導入したTukeyに深く感謝しています。
彼らは権威ではないのでしょうか?
もしかしたらそうかもしれません。
しかし、もしそうなら、新しい枠組みを用意しましょう。
少なくとも、地球物理学という分野が宿痾として慢性的な問題を抱えていることを認識し、
それらを克服するための措置を講じることを願っています。
権威への盲信は知性の墓場です。科学的思考とは正反対です。
ほとんどの科学者は、心の奥底では権威に抵抗しているのではないでしょうか。
彼らは熱力学第二法則を尊重しながらも、必要であれば修正しようとします。
そして、おそらく自ら修正する側になりたいと願っているのでしょう。
科学者は本質的に、そうした矛盾を抱えた存在です。私自身もそうですが。
上記で述べたことは、バイオインフォマティクスなど、
他の分野のデータアナリストにとっては日常的な作業です。
理由は定かではありませんが、このような視点は長らくこの分野には存在していませんでした。
だからこそ、この革命が起こったのです。
ぜひご自身で試してみてはいかがでしょうか?
ある理論を100年もの間、異論なく放置しておくことは、盲目的な崇拝であるだけでなく、
データを真剣に検証していないことの証でもあります。
このような状態では、地震の予測やそのメカニズムの解明は到底不可能です。
さあ、これからはご自身のデータを調べてみてください。
そこから科学が始まります。
REFERENCES
Barnes, G. L., 2003, Origins of the Japanese Islands: The New "Big Picture": Japan Review, no. 15, 3-50. http://www.jstor.org/stable/25791268.
Gutenberg, B., and C. F. Richter, 1944, Frequency of Earthquakes in California: Bulletin of the Seismological Society of America, 34, no. 4, 185-188.
JMA, 2025a, Summary of seismic activity for each month, https://www.data.jma.go.jp/eqev/data/gaikyo/.
JMA, 2025b, Nankai Trough Earthquake, https://www.jma.go.jp/jma/kishou/know/jishin/nteq/index.html.
Jolliffe, I. T., 2002, Principal Component Analysis, Springer Series in Statistics (SSS): Springer.
Konishi, T., 2015, Principal component analysis for designed experiments: BMC Bioinformatics, 16, no. 18, S7. http://dx.doi.org/10.1186/1471-2105-16-S18-S7.
Konishi, T., 2025a, Seismic pattern changes before the 2011 Tohoku earthquake revealed by exploratory data analysis: Interpretation, T725-T735. http://dx.doi.org/10.1190/INT-2024-0162.1.
Konishi, T., 2025b, Visualising Earthquakes: Plate Interfaces and Seismic Decay: Preprints, 189197. http://dx.doi.org/DOI:10.20944/preprints202512.1104.v1
Konishi, T., 2025c, Earthquake Swarm Activity in the Tokara Islands (2025): Statistical Analysis Indicates Low Probability of Major Seismic Event: GeoHazards, 6, no. 3, 52.https://www.mdpi.com/2624-795X/6/3/52.
Konishi, T., 2025d, Exploratory Statistical Analysis of Precursors to Moderate Earthquakes in Japan: GeoHazards, geohazards-4009190. http://dx.doi.org/10.20944/preprints202511.0772.v1.
Konishi, T., 2025e, Identifying Seismic Anomalies through Latitude-Longitude Mesh Analysis. Preprints. https://doi.org/10.20944/preprints202511.1845.v1
NIST/SEMATECH.、 2012, e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook.
Murdoch, D., D. Adler, O. Nenadic, S. Urbanek, M. Chen, A. Gebhardt, B. Bolker, G. Csardi, A. Strzelecki, A. Senger, T. R. C. Tea, D. Eddelbuettel, T. a. o. Shiny, T. a. o. knitr, J. Ooms, Y. Demont, J. Ulrich, X. F. i. Marin, G. Helffrich, I. Krylov, M. Sumner, M. Stein, J. Love, and M. team, 2025, rgl: 3D Visualization Using OpenGL, https://cran.r-project.org/web/packages/rgl/index.html.
Omori, F., 1895, On the After-shocks of Earthquakes, The journal of the College of Science, Imperial University, Japan, https://repository.dl.itc.u-tokyo.ac.jp/records/37571, accessed 15 December 20225.
R Core Team., 2025, R: A language and environment for statistical computing: R Foundation for Statistical Computing.
Thornton, S., ed. 2023, Karl Popper. Edited by E. N. Zalta, and U. Nodelman, The Stanford Encyclopedia of Philosophy: Metaphysics Research Lab, Stanford University.
Tukey, J. W., 1977, Exploratory data analysis, Behavioral Sciences: Quantitative Methods: Addison-Wesley Pub. Co.
Utsu, T., 1957, Magnitude of earthquakes and occurance of their aftershocks: Journal of the Seismological Society of Japan. 2nd ser., 10, no. 1, 35-45. http://dx.doi.org/10.4294/zisin1948.10.1_35.