第8回：実験物理学の研究経験がなぜ民間企業のデータ分析に役立つのか？

AI技術チームによる技術発信

2022年06月14日技術解説 AI

AI技術チームの石川です。今回は、大学や研究機関等での研究経験を民間企業で活かすことができる可能性について、特に実験物理学とデータ分析をテーマとしてお話ししたいと思います。
真理を探求する自然科学の研究は、ビジネス価値を追い求める企業の取り組みとは本来は目的が全く異なるものですが、データを扱う場合においては特に、「エビデンスを用いてものごとを客観的に判断する」というステップは共通していると言えるでしょう。
本記事が、進路について考えている学生の方やキャリアチェンジを考えている方、実際にデータ分析プロジェクトを行おうとしている方の参考になれば幸いです。

企業でのデータ分析に役立つ実験物理学のスキル

私は常々思っているのですが、実験物理学の研究と民間企業におけるデータ分析は多くの類似点があるように感じます。私は実験物理学の研究職出身なのですが、私が豆蔵の業務として経験した範囲でも、研究を通して得られた経験がデータ分析の現場で役に立つ場面が少なからずありました。これは必ずしも実験物理学に限らず、より広い研究分野で起こりうることだと思いますし、実験物理学のスキルが最もデータ分析に役立つということを主張するわけではありません。現代的なデータ分析技術に直接関係のある情報科学や統計学、もしくは応用科学の方がより民間でのデータ分析に直結するのは確かでしょう。しかし数ある学問分野の中でも、実験物理学はいくつかの点で特に民間でのデータ分析との親和性が非常に高いと思われる要素があります。実験物理学の経験者は、データ分析に関する知見や経験があるというばかりでなく、データサイエンティスト一般があまり持っていないような観点を持っていると感じることもあります。ここではそのいくつかをご紹介いたします。

1.計測技術に習熟している

実験物理学では、データがどのように取得されるか、特にセンサーによる計測においてはどのような原理で計測が可能で、どのような誤差が生じうるかを意識しながら研究を進めていきます。民間企業でも、特に製造業、交通、医療といった分野で、実験物理学と同様、速度、加速度 (振動計測含む)、圧力、温度といったセンサーにより測定された物理量のデータが多数扱われています。これらの物理量をどのようにセンサーが取得し、どのように信号処理を経て記録するかを、実験物理学の研究を行ったことがある人はイメージしやすいと思われます。他にも、画像データを取得する際に利用するイメージング技術も宇宙物理学をはじめとする多くの分野で利用されています。研究レベルでの光学系やイメージングセンサーの知識があれば、ゴースト、ピクセルの飽和、フォトンノイズといった要素に注意を払う必要があることは認識しているでしょう*。

民間でのデータ分析における一例として、私の関わっていたプロジェクトで実際に、本来は連続的な値を持つはずのデータが離散的な値を持っているという例があり、私はそのことに実験物理の経験があったからこそ気づくことができたと考えています。これはセンサーデータのアナログ・デジタル変換 (AD 変換) によるものであるか、もしくは途中のデータ収集処理によるものであると考えられます。実験物理の経験があればこのようなことが起こりうることは知っているでしょうし、量子化誤差を考慮して分析する必要があることを認識することができるでしょう。

連続的な値を離散的な値として取得する処理 (量子化) の概念図。本来は赤で示される連続的な値を持っている量を、破線で示される離散的な値のうち最も近いものであるとみなします (青線)。値が整数値のみになっている場合はわかりやすいですが、その後の処理によって例えば4の倍数の値のみを取っている、というような場合があり得ます。By Hyacinth - Own work, CC-BY-SA-3.0, Link

データサイエンティストの中には、データがどのように取得されたかにあまり注意を払わず、手元のデータが正しいものであることを信じて疑わないような人もいるように感じます。一般的な欠損値や異常値に配慮している場合でも、それ以外のデータの不定性は考慮していないような例も見聞きします。

* これはなにも実験物理学だけでなく、他の研究分野や、カメラが趣味の人でも知っている人は多いでしょう。カメラの趣味が画像データ分析に直接役立つ場面は少なくないと思われます。似たような例として、信号処理の知見はオーディオが趣味の人々が優れた知見を持っていると言われています。

2.統計学や機械学習と関係の深い技術によるデータ分析の経験がある

実験物理学ではほとんどの場合、実験により得られた単一の測定値によりその結論が得られるわけではなく、大量のデータを処理、分析して結論を得る必要があります。近年は物理学の研究においてもデータ量は爆発的に増大しており、ある実験プロジェクトで取得されるデータは1日200テラバイト、累計で数百ペタバイトにも達するそうです[1]。これはまさにビッグデータの一例であり、大量のデータから意味のあるパターンを抽出するということを実験物理学では実践していることになります。さらに、物理学の研究では一般に、結論に対してかなりのレベルで検証されていることが求められます**。そのために、実験物理学の研究を行うには統計学を使いこなすことが必須です。データから何が言えて、何が言えないかを判断することに対し、物理学者は高度な専門的知見を有していると言うことができるでしょう。

さらに、実験物理学のデータ分析で利用される手法の中には、例えばスペクトルフィッティングや時系列解析など、機械学習でも用いられている手法が利用されています。「物理学者が普段行っているデータ解析のうち，ある程度の割合は機械学習だといっても過言ではない」という指摘もあるぐらいです[2]。その一方で、研究を行っている学生や研究者の中にはこのことに気づいていない人が少なくありません。実際、物理系出身の人で、民間企業でのデータ分析を行うことにより「今まで自分が使ってきた手法が機械学習と呼ばれることを後で知った」と話している人もいました。

上記のような統計解析や機械学習の手法を、実験物理学の研究では数多く行っており、研究者はそのために必要な計算機環境についての知識や経験についてもある程度持っていると考えられます。物理学のデータ分析は GUI のツールのみで完結するといったことはほとんどなく、研究者はデータ分析のためのプログラミングの実践経験はかなり積んでいることになります。

** 例えば、素粒子物理学において「発見」と言えるのは「確かさ99.99997%」以上が必要であるとされています[3]。「確かさ」の定義等の詳細は文献[3]をご参照ください。

3.実験のデザインができる

1、2のような技術的な要素にとどまらず、科学的方法による仮説の検証を行うことができるということも非常に重要な要素です。一般的な科学的方法では、仮説を立て、その仮説を検証するためにどういったデータが取得されていればよいかを考えて実験の計画を立てます。どのようなデータをどのように取得するかという、実験をデザインする行為を実験物理学では重視しており、どのぐらいの精度の測定で、どのぐらいの量のデータを集めれば検証ができるかの議論に多くの時間を使っています。

科学的方法の流れ。文献[4]を著者が翻訳。「実験を行い、仮説の検証を行う」ことが中核であり、実験結果の分析とともに「実験のデザイン」が重要な位置を占めます。

民間企業のデータ分析では、分析者がデータの取得を自由に行えないということが多いということもあり、データの取得方法を再考するという可能性まであまり考えていない人が少なくないように感じます。実際、カメラにより取得した画像データを使ったある画像認識プロジェクトで、様々な高度な手法を使ってもなかなか精度が上がらないことが問題になったことがあり、その原因は、カメラの向きがこの目的に対して最適ではなかったことでした。高度な手法に習熟しているよりも、データ自体がどのように取得されたかという観点が身についている物理研究者であれば、この例の場合ではカメラの向きを変えてデータ取得を行うという方向性に気づく可能性が相対的に高いのではないかと思います。そういった意味で、実験物理学は、近年注目されているデータ中心の AI (Data-Centric AI) の考え方を先取りしていた、と捉えることもできます。

このように、実験物理学の研究経験は民間企業でデータ分析を行う上で有利になる要素が数多くあります。このことは私が最初に発見したことではなく、例えば世界的学術論文誌 Nature のキャリアに関するポッドキャストでも、コーディング、大規模データ分析、数学、統計学のスキルがあることや、仮説検証を中心とする科学的マインドセットにより、物理学者はデータ分析者として「フルパッケージ」であるという見方が紹介されています[5]。日本物理学会誌の記事でも、「物理法則を理解した上で仮説構築ができる物理の人材は，モノづくりの現場において非常に貴重であり，これまで以上に社会で求められる」とあり、文末を「と私は信じている」と結んではいるものの、記事タイトルは「AIの弱点を補うのは物理の人材だ」であり、やはり期待が述べられています[6]。

あいまいになるビジネスと基礎研究の境界

一方、自然科学研究側に、深層学習を含む AI・機械学習を積極的に活用していこうという動きもあります。物理学の例のほか、化学や材料科学、構造生物学その他の分野でもこの動きは広まっており[7, 8, 9]、自然科学の研究のためにAI・機械学習のスキルが広く求められるようになる日も近いかもしれません。AI・機械学習技術はデータによる課題解決一般に広く活用可能性があるため、自然科学研究のみが伝統的な手法を使い続けなければならない理由はなく、この流れは自然なものと考えることもできます。むしろ、課題解決のために複数の分野で利用可能な手法は特定の分野だけで独占されるべきではなく、民間のビジネスと自然科学研究の区別なく、多くの分野で活用された方が人類社会の発展のために有益であると考えるべきでしょう。我々が過去に指摘した通り、ビジネスにおけるデータ分析と基礎研究は歴史的に見ても互いの手法をうまく取り入れながら発展してきたということも事実としてあります[10]。

今後、多くの自然科学者がAI・機械学習技術を用いた課題解決に習熟しているという状況になる可能性があります。そのような状況になると、ビジネスと基礎研究の垣根が次第に取り払われ、人材の交流も活発になっていくことが期待されます。データ取得による課題解決という手法を媒介として、基礎研究による人類の叡智の探究と、ビジネスにおける社会課題の解決が相互に刺激を与えながら発展していくという未来が訪れることを期待したいと思います。

研究者、学生の皆さんへ

近年、若手研究者が大学や研究所等で基礎研究を継続して行えるような職を維持することは簡単ではないと言われています。そのような環境の中で、将来民間企業への転身の可能性を考えている方も少なくないと思います。その際、ビジネスに直接的に役立つとは限らないテーマで研究を行うことで、将来に不安を感じている人も多いのではないでしょうか。今回ご紹介したのは特定の分野での一例ですが、人類の最先端の知見に挑戦する学術研究に全力で挑んだ経験は、何らかの形で役に立つ時が来ると思います。私は研究に挑み続けている人々を応援しています。

弊社では、新卒採用、中途採用ともに基礎研究を含む学術研究の経験を高く評価しており、大学院博士課程を含めた研究経験を実務経験相当とみなしています。ご興味・ご関心のある方、もしくはお近くに適切と思われる方がいらっしゃいましたら、以下に関連情報として挙げた弊社採用ページをぜひご参照いただければと思います。民間企業の勤務経験を前提としないポジションも複数ご用意しております。さらに、弊社にてフルタイムでない形で勤務し、研究活動を続ける、といった新しい働き方についても相談可能です。

皆様がそれぞれのご経験を活かしてご活躍されるようにと思っております。

参考文献

[1]	日経クロステック Active「実験データは1日200TB！高エネルギー加速器研究機構の巨大データ管理方法は」https://active.nikkeibp.co.jp/atcl/wp/b/21/03/16/01348/
[2]	瀧雅人、田中章詞「物理屋のための深層学習」日本物理学会誌、74巻 (2019) 11号 https://doi.org/10.11316/butsuri.74.11_759
[3]	NATIONAL GEOGRAPHIC「関係者に聞く「ヒッグス粒子発見」の真相」https://natgeo.nikkeibp.co.jp/nng/article/20111220/294291/
[4]	Britannica, The Editors of Encyclopadia. "scientific method". Encyclopedia Britannica, 15 Oct. 2021, https://www.britannica.com/science/scientific-method. Accessed 23 May 2022.
[5]	J. Gould "Working Scientist podcast: Career transitions from physics to data science," Nature, 2019, https://doi.org/10.1038/d41586-019-02408-8
[6]	高安秀樹「AIの弱点を補うのは物理の人材だ」日本物理学会誌、74巻 (2019) 11号 https://doi.org/10.11316/butsuri.74.1_48
[7]	Yano, J., Gaffney, K.J., Gregoire, J. et al. The case for data science in experimental chemistry: examples and recommendations. Nat Rev Chem 6, 357-370 (2022). https://doi.org/10.1038/s41570-022-00382-w
[8]	Hatakeyama-Sato, K., Oyaizu, K. Integrating multiple materials science projects in a single neural network. Commun Mater 1, 49 (2020). https://doi.org/10.1038/s43246-020-00052-8 (日本語プレスリリース: https://www.waseda.jp/top/news/69781 )
[9]	Miyaguchi, I., Sato, M., Kashima, A. et al. Machine learning to estimate the local quality of protein crystal structures. Sci Rep 11, 23599 (2021). https://doi.org/10.1038/s41598-021-02948-y (日本語プレスリリース: https://www.amed.go.jp/news/seika/kenkyu/20220117-02.html )
[10]	石川真之介、松永和成「データ分析が得意な人はどこにいる？具体的な分析のステップは？専門家が解説」ITmedia エンタープライズ、2019 https://www.itmedia.co.jp/enterprise/articles/1912/13/news015.html