技術情報コラム
Citrine Platform技術情報コラム
材料探索において、AIモデルの精度は重要なのか?
1. モデル精度の重要性
モデル精度についてはMIツールを検討するうえで気になるポイントかと思います。実際にお客様によくこの手の質問をいただきます。その理由は十分に理解できます…しかし、本当に聞くべきなのは違う質問ではないでしょうか。本コラムでは、AIを活用して材料開発における目標を達成するために、なぜ不確実性を正確に計算することが重要なのかを説明していきます。
2. Citrine Platformのモデル精度はどの程度か?
お客様との会話の中で、この質問はよくでてきます。当然のことながら、お客様はCitrine Platformのモデル精度がどれだけ「よいものか」を検証し、他の手法やAIプラットフォームと比較します。しかしながら、この質問は2つの点で答えるのが難しいです。
第一に、モデルの予測精度を評価する標準な指標である決定係数R2や平均二乗誤差RMSEは、トレーニングデータの量や分布に依存しています。トレーニングデータを確認しなければ、何も信頼できません。
第二に、R2が目的を達成するために最も重要だとは、我々は考えていません。
3. 決定係数R2は何を表すか?
R2とRMSEはいずれもトレーニングデータ内の全データポイントにおける精度の平均を計算します。これはいい精度の予測と悪い精度の予測が半々であるような場合であっても、モデル精度は問題なさそうに見えてしまうことを意味しています。また、トレーニングデータの外側の領域でのモデル精度については何も情報が得られません。さらに、関連する他のプロジェクトに適用したときにモデルがどのように振舞うかは分かりません。我々のチームもRMSEには着目しますが、モデルを改善する上で、特徴量の工夫やドメイン知識の追加が役立つかを確認する指標として使います。
4. ビジネスゴールは何か?
Citrine Platformの最終的な目標は、次に行う実験の条件を提案することです。企業は提案されたレシピを見て、一度もテストをせずにすぐに商用スケールで生産し、お客様に提供したりはしないでしょう。そして企業がCitrine Platformを使う理由は、人間の直感や従来の実験計画法よりも少ない実験数で目標にたどり着くためです。実験数の削減は目標を達成する材料レシピの早期発見とイコールになります。
5. 次の実験をよりよいものにする要因は何か?
次に行う実験は、高性能な素材を見つけるか、不確実性が高い領域のデータを取得してモデルの性能を大幅に改善するものであるべきです。このような結果をもたらす実験条件がどれかを把握するため、モデルの不確実性を平均値ではなく全ての候補について知る必要があります。したがって、「AIモデルがどれだけよいものか?」という質問は、「全ての候補材料について、予測の不確実性をどれだけ定量化できるか?」と言い換えることができます。
6. Citrine Platformでは不確実性をどのように定量化しているか?
Citrine Platformで採用している手法ではデータの一部をフィッティングすることで大量のAIモデルをトレーニングし、その結果を比較します。各モデルが似たような結果を予測するなら、不確実性が低い、ということになります。不確実性をより正確に表現するためには、より大量のモデルが必要になります。Citrine Platformのアンサンブル手法は、Citrine Informatics社のデータサイエンスチームが長年にわたって改良を続けており、より効率的なものになっています。Citrine Informatics社は日ごろからベンチマークテストを行っており、材料や化学のデータセットにおいて、最新の優れた手法と同等以上のパフォーマンスを示すことを確認しています。
Citrine Platformの強みは、材料開発における目標を達成するために重要となる不確実性の定量化にあります。Citrine Platformを活用することで、次に行う実験条件を効果的に選定することが可能となり、材料開発の高速化を実現します。過去のセミナー動画は、SCSK動画配信サイトでご覧いただけます。ぜひこの機会にご視聴下さい。
- ※掲載されている製品、会社名、サービス名、ロゴマークなどはすべて各社の商標または登録商標です。
製品・サービスに関する
お問い合わせ・資料請求
ご質問、ご相談、お見積もりなど
お気軽にお問い合わせください。
プロダクト営業部
E-mail:eng-sales@scsk.jp お問い合わせフォーム