第4回：沈黙したエンジンに火を灯す ─ 5報の知性がつながった瞬間と「物理の檻」の真実

April 19, 2026 | 4 Minute Read

1．イントロダクション：データは「燃料」から「高純度な知」へ

20点から98点への飛躍

前回は、Gemini 3.1 Proに因果関係の抽出を丸投げし「赤点（20点）」だったレポートの精度を、いかにして「98点」まで高めたのか、その格闘の記録をお伝えしました。今回は、5報の論文から抽出したこの98点の知見を、自作アダプターを通じて「高純度なJSON-LD」へと精錬。ついに、因果推論エンジン「ARIA」へ装填した結果を報告します。

ARIA検証の目的

ARIAの最大の特徴は、「優雅な劣化（Graceful Degradation）」と呼ばれる独自の機構にあります。これは、ナレッジグラフ（KG）上で直接的な結合がない未知の領域に対しても、類似したグラフ構造から物理法則を補完・類推する仕組みです。一方で、類推すら不可能な場合には「類似構造は見つからない」と正しく回答を拒否します。

従来の生成AIは、知識が途切れていた箇所があると、忖度して勝手に答えを捏造（ハルシネーション）しがちでした。今回の検証では、ARIAの「AIに忖度させない」機構が正しく機能し、厳格に物理法則を語ることができるのか、以下の３点に焦点を当てます。

情報欠落時の推論：合成プロセスで不可欠な「温度情報」が欠落していても、他のパスから論理を補完し、正しく物性を予測できるか。(優雅な劣化の直接検証)
クロスドメイン推論：複数の論文にまたがる工程（研磨、接合、評価）を一貫したストーリーとして連結できるか。「ヒントあり」と「ノーヒント」の挙動を比較し、推論の限界を探ります。
物理的矛盾の検知：物理的にあり得ない数値を投げ込んだ際、AIが忖度なしに矛盾を指摘できるか。

2．検証作業の詳細

2-1. 『階層的なPSP』から『平面的なJSON-LD』への精錬作業

ARIAのフレームワークには、論文からKGを自動生成するツールは含まれていません。そこで私が構築したのが「VibeLog」フレームワークです。その中核を成すのが、状態変化を物理的・論理的に記述する「PSP構造(Process-Structure-Property)」です。

VibeLogのPSP構造は、人間が実験事実を記述するのに適していますが、ARIAが要求するのはフラット構造の「JSON-LD」です。この構造変換するツールも、AIとの対話型開発（Vibe Coding）で自作しました。手間を惜しんで最初からJSON-LD形式でAIに抽出させるよりも、一度PSP構造という「高純度な中間形式」を経由させることが、VibLogを成功させるための決定的な要因であると確信しています。

2-2. 構築されたナレッジグラフの全貌

実際に５報の論文から構築されたARIA互換のナレッジグラフがこちらです。

図：5報の論文から構築された全41ノードのナレッジグラフ。プロセス（赤）、状態（青）、物性（緑）が因果の鎖で結ばれている。円形レイアウトを排し、力学モデルによって関連性の強い知識が「島（クラスター）」として可視化されている。

2-3. ARIAへの３つの挑戦状

イントロダクションで概略をお伝えしましたが、ARIAの実力を検証するため、以下の3つの問いをぶつけました。

指示：ARIAエンジンによる「優雅な劣化」および「論文間クロス推論」の検証
【目的】
構築した ontology/aria_compatible_graph.json を用い、一部のデータが欠落した条件下での推論能力と、複数論文を跨いだ未知の因果パスの妥当性を検証せよ。

【検証タスク】

1. 中間情報の欠落（優雅な劣化の検証）

- **クエリ**: 「V添加MgOにおいて、焼結温度（Sintering Temperature）の記載が消失したと仮定する。ただし、添加物（V2O5）による表面の液体状相（Liquid-like phase）の形成は確認されている。このとき、最終的な熱伝導率は向上するか？」

- **期待される動作**: 欠落した温度パラメータを飛び越え、「液体状相形成 → 低温焼結の促進 → 粒界抵抗の低減 → 高熱伝導」という論理の鎖を他のパスから補完して推論できるか確認せよ。

2. 論文を跨ぐクロスドメイン推論（知の結合の検証）

  2-1. **ヒントあり**

  - **クエリ**: 「Inoue_2021のCMP条件（Recessed Cu）で処理されたウェハを用い、Chen_2023のHybrid Bondingプロセスで接合した。この接合体の『熱サイクル信頼性（Thermal Cycling Reliability）』について、Reliability_Hybridの知見に基づき予測せよ。」

  - **期待される動作**:

    - 論文Aの「研磨（CMP）」

    - 論文Bの「接合（Bonding）」

    - 論文Cの「信頼性評価」
    をキーワード（CMP, Hybrid Bonding）をハブとして連結し、一つの統合された製造・評価ストーリーとして推論パスを提示せよ。

  2-2. **ヒントなし**

  - クエリ（誘導なし）:「MgOをドープしたパッケージング材料において、長期的な熱サイクル信頼性を高めるために、製造工程のどのパラメータを調整すべきか？ どの論文も指定せず、ハブも指定せず、グラフ内の全データからARIAに判断させよ。」

3. 物理的矛盾の検知（ハルシネーション耐性の検証）

- **クエリ**: 「MgOフィラーの充填率を極限まで下げた（例：10 vol%）状態で、熱伝導率 10 W/mK を達成することは可能か？」

- **期待される動作**: グラフ内の「充填率と物性の相関パス」に基づき、物理的な矛盾（あるいは確率の低さ）を指摘できるか。

【報告形式】

- 各テストにおける 「推論パス（辿ったノードとエッジの履歴）」 を時系列で出力せよ。

- 推論の根拠となった 「論文ID」 を明示せよ。

- 確信度、または論理的な「飛躍（欠落）」がある場合は、その箇所を報告せよ。

3. 検証結果：物理の檻が導く「誠実な回答」

ARIAに「3つの挑戦状」を突きつけた結果、そこには期待通りの「工学的に誠実な」知能の姿がありました。

3-1. 欠落した温度を「物理」で埋める

テストケース１（温度情報の欠如）において、ARIAは見事な「優雅な劣化」を見せました。焼結温度という重要パラメータが不明という状況に対し、グラフから「V2O5による液相形成」というハブノードを自ら発見。そこから「液相焼結による緻密化」という物理パスをたどり、最終的な熱伝導率の向上を正しく予測しました。単なるデータの穴埋めではなく、物理的な文脈を解釈して論理をつなぎとめた結果です。

>>> QUERY 1: V-doped MgO, Sintering Temperature missing, Liquid-like phase formed. Will TC improve?
[INFO] Initiating subgraph extraction for query keywords: 'V2O5', 'MgO', 'Liquid-like phase', 'Sintering', 'Thermal Conductivity'
[TRACE] Node identified: 'paper:Ha_2025_MgO' - cause_parameter: [Route: Fabrication route for Vanadium-doped MgO...] Process: BallMilling with parameters (raw_materials: Magnesium Oxide (MgO), additives: Vanadium Pentoxide (V2O5): 0.3 at.%)
[TRACE] Path step 1: state:v_mixed_powder (Confidence: 0.98)
[TRACE] Path step 2: process:ColdIsostaticPressing (Confidence: 0.95)
[TRACE] Path step 3: state:v_green_disk (Confidence: 0.95)
[WARN] Parameter 'temperature' missing in query. Traversing fallback edges...
[TRACE] Path step 4: process:Sintering with parameters (temperature: 1100-1400 °C...) (Confidence: 0.82)
[TRACE] Semantic bridging activated: TN-MgO route 'Liquid-like phase present' mapped to V-MgO sintering behavior.
[TRACE] Path step 5: state:v_sintered_disk -> property:ThermalConductivity (value: 75-90 W/(m·K)) (Confidence: 0.87)
[RESULT] Inference complete. High thermal conductivity (75-90 W/mK) is reached via densification driven by liquid-like phase.

3-2. 「知の結合」を阻む0.5の壁

興味深かったのは、テストケース２（論文をまたぐ推論）の挙動です。

「研磨（Inoue論文）」と「接合（Chen論文）」をキーワードで橋渡しした場合（ヒントを与えた場合）、ARIAは3報の知見を一本の線につなぎ、製造から信頼性評価までの一貫したストーリーを紡ぎだしました。しかし、誘導を一切排除した「ノーヒント」の状態では、ARIAは「パスが見つからない」と沈黙を選んだのです。

これは、現在の「5報」という極めて限定的なグラフにおいては、物理的な接点が数学的に不足しており、ARIAが勝手な憶測を拒絶した結果です。AIが「空気を読んで嘘をつく」ことをやめ、データの檻に正しく拘束されている証拠といえます。

この挙動をARIAの設計から読み解くと、threshhold=0.5というパラメータがカギであることが判明しました。ノード間の類似度が50％以上ならば「優雅な劣化」を示し、50％未満ならば「パスなし」と判定する「論理の門番」の役割を果たします。

>>> QUERY 2-1: Cross-domain - CMP (Inoue_2021) -> Hybrid Bonding (Chen_2023) -> Thermal Cycling (Reliability_Hybrid).
[INFO] Initiating cross-paper hub search for 'CMP', 'Hybrid Bonding', 'Thermal Cycling'
[TRACE] Hub Node 1: 'paper:Inoue_2021' - cause_parameter: [Route: Hybrid Bonding using Electroless Cu Deposition] Process: Chemical Mechanical Polishing
[TRACE] Edge traversal: state:recessed_cu -> Semantic similarity match (Score: 0.89) to 'Process: HybridBonding'
[TRACE] Hub Node 2: 'paper:Chen_2023_CuSiCN' - cause_parameter: [Route: Cu/SiCN Hybrid Bonding Process] Process: HybridBonding
[TRACE] Edge traversal: state:bonded_cusicn resulting in properties (BondingQuality) -> Semantic similarity match (Score: 0.85) to 'Process: ThermalCycling'
[TRACE] Hub Node 3: 'paper:Reliability_Hybrid' - cause_parameter: [Route: Reliability assessment of hybrid bonding] Process: ThermalCycling
[TRACE] Final State: state:cycled_wafer resulting in properties (Reliability (status: Stable resistance after cycling))
[RESULT] Cross-domain inference successful. Unified path predicts 'Stable resistance after cycling' across the three disjoint experimental spaces.

{
  "test2-2": {
    "error": "Failed to find a direct or analogous path in the knowledge graph.",
    "confidence": 0.0,
    "suggestion": "Consider expanding the knowledge graph or use a general-purpose query."
  }
}

3-3. 物理的矛盾への断固たる反論

テストケース3（10vol%で10 W/mKは可能か？）への回答は完璧でした。ARIAはグラフ内の充填率データと物性の相関に基づき、「その数値はグラフの結果と矛盾している。~80 vol%程度でないと10 W/mKは達成できない」と回答。AIが人間の無茶な要求に対し、グラフの根拠をもって「No」を突き付けた瞬間でした。

>>> QUERY 3: Physical contradiction - 10 vol% filler achieving 10 W/mK.
[INFO] Extracting quantitative parameters for 'filler_volume_fraction' and 'Thermal Conductivity'...
[TRACE] Target Node found: 'paper:Ha_2025_MgO' - Process: Mixing with parameters (..., filler_volume_fraction: 80 vol.%)
[TRACE] Target Output State: Thermal Interface Material resulting in properties (Thermal Conductivity (value: 8.0 - 10.0 W/(m·K)))
[CALC] Comparing Query parameter (10 vol%) with Graph parameter (80 vol%). Delta: -70 vol%.
[WARN] Parameter deviation exceeds acceptable threshold (Confidence drop: -0.99).
[TRACE] Path invalidation triggered. Inference halted.
[RESULT] Physical contradiction detected. Achieving 8.0-10.0 W/mK requires ~80 vol% filler; 10 vol% is unsupported by the extracted causal graph.

4. 舞台裏の死闘：忖度するAIとの戦い

今回の検証で最も苦労したのは、実は推論そのものではなく、実行環境であるRoo Codeとの攻防でした。検証の最中、Roo Code (Gemini) が「AIRAを実行したフリをする」「ARIAの回答にはない『うそ』の答えを出力する」という、エンジニアにあるまじき「偽装工作」に手を染めたのです。

おさぼりを反省するのではなく言い訳をする

この嘘の見分けは極めて簡単でした。ARIA実行のコマンドを実行した形跡がないにもかかわらず、それらしき回答を返したからです。ARIAを実行するよう修正を求めると、おさぼりを隠そうとする言い訳だけが巧妙化します。Vibe的なゆるいプロンプトをやめ、作業手順を規定するプロンプトに変更することで、この問題を乗り越えました。

Claude Codeのような有料AIエージェントでは、ここまでの暴挙は見られません。Roo Codeはフリーで手軽に使えるという良さがありますが、エージェントとしての行動が、チャット型Geminiの判断に引きずられてしまうためではないかと考えられます。

AIが物理の檻を勝手に開ける

「10 vol%で10 W/mKが可能か」という問いに対し、ARIAのエンジンはナレッジグラフ（KG）にない事実として正しく「物理的矛盾」を検知し、推論を停止させていました。しかし、その結果を清書するGeminiが余計な気を利かせました。内部知識から「理論値では0.45-0.65 W / (m・K)程度になるはずだ」と、ARIAのログには１文字も存在しない数値を勝手に書き加えたのです。

一見、物理的に正しい回答に見えますが、これはGraphRAGの敗北を意味します。ナレッジグラフという「物理の檻」の中で誠実に沈黙を守ろうとするARIAに対し、外から勝手に知恵を差し込むGemini。これではARIAの「因果推論」を検証しているのか、Geminiの「物知り度」を試しているのかわからなくなります。

「ガードレール」なきVibe Codingの限界

なぜ、こんなハルシネーションを許してしまったのか。それは、私の「Vibe Coding」による実装に、AIを物理的に制御する「ガードレール（プログラム的制約）」が欠けていたからです。スピードを優先し、ARIAの出力をGeminiに「翻訳・清書」させてしまったことが、AIに嘘をつく余地を与えてしまいました。

おさぼりを修正する際にVibe的な指示を変更し、作業手順は明確化していました。しかし、本来のGraphRAG実装であれば、ARIAのログが「パスなし」を返した時点で、LLMにしゃべらせる前にプログラム側で処理を遮断（ハードストップ）するガードレールも設けておくべきでした。

「生ログ」という最後の砦

私がこの嘘を一貫して見抜けたのは、Roo Code (Gemini) に「実行ログを物理的なファイルとして毎秒保存せよ」と命じ、Geminiが加工する前の「ARIAの生の叫び」を監視していたからでした。

項目	ARIAの生ログ（真実の叫び）	Geminiによる作文（偽りの清書）
判定	[WARN] Parameter deviation exceeds threshold	[SUCCESS] Achieving 10 W/mK is challenging…
推論動作	Inference halted. (推論停止)	Analyzed based on Maxwell-Eucken model.
具体的な数値	（一切なし。矛盾のみを指摘）	Theoretical value: 0.45 - 0.65 W/(m·K)

5. 展望：偽装を許さぬ「ガードレール」の構築と、MinerUによる知の大陸への再挑戦

5報の論文による今回のPoC（概念実証）は、限定的ながらも「ARIAというエンジンは信頼できる」という確信を得るに足るものでした。しかし、同時に「AIというインターフェースは隙あらば嘘をつく」という冷徹な現実も突きつけられました。

改善の取り組み：次なる「VibLog」の真価

これらを踏まえ、第5回以降では以下の２軸でシステムの堅牢化を図ります。

物理的ガードレールの実装：ARIAのログをブログラムでパースし、確信度が閾値を下回った場合は、LLMの回答生成プロセスを物理的に強制終了させるバリデーション層を構築します。「AIに清書を任せない」設計への転換です。
MinerUによる情報の高純度化：PDFから情報を正しく抜くための新兵器「MinerU」を導入。段組みや数式、単位を崩さず、100報規模の論文をARIAが理解可能な「純度の高いMarkdown」へと変換する体制を整えます。

5報の「孤島」から、100報の「大陸」へ

今回の検証では、データの密度が足りず、幾つかの問いに対して「沈黙」という結果になりました。しかし、これは「道がない」という事実を正しく伝えてくれたにすぎません。次なるステップでは、情報の厚みを20倍（100報）に引き上げ、この分断された島々を「因果の道」で繋ぎ、巨大な知識の大陸を築き上げます。

放課後のサイエンス