第4回:沈黙したエンジンに火を灯す ─ 5報の知性がつながった瞬間と「物理の檻」の真実
1.イントロダクション:データは「燃料」から「高純度な知」へ
20点から98点への飛躍
前回は、Gemini 3.1 Proに因果関係の抽出を丸投げし「赤点(20点)」だったレポートの精度を、いかにして「98点」まで高めたのか、その格闘の記録をお伝えしました。今回は、5報の論文から抽出したこの98点の知見を、自作アダプターを通じて「高純度なJSON-LD」へと精錬。ついに、因果推論エンジン「ARIA」へ装填した結果を報告します。
ARIA検証の目的
ARIAの最大の特徴は、「優雅な劣化(Graceful Degradation)」と呼ばれる独自の機構にあります。これは、ナレッジグラフ(KG)上で直接的な結合がない未知の領域に対しても、類似したグラフ構造から物理法則を補完・類推する仕組みです。一方で、類推すら不可能な場合には「類似構造は見つからない」と正しく回答を拒否します。
従来の生成AIは、知識が途切れていた箇所があると、忖度して勝手に答えを捏造(ハルシネーション)しがちでした。今回の検証では、ARIAの「AIに忖度させない」機構が正しく機能し、厳格に物理法則を語ることができるのか、以下の3点に焦点を当てます。
-
情報欠落時の推論:合成プロセスで不可欠な「温度情報」が欠落していても、他のパスから論理を補完し、正しく物性を予測できるか。(優雅な劣化の直接検証)
-
クロスドメイン推論:複数の論文にまたがる工程(研磨、接合、評価)を一貫したストーリーとして連結できるか。「ヒントあり」と「ノーヒント」の挙動を比較し、推論の限界を探ります。
-
物理的矛盾の検知:物理的にあり得ない数値を投げ込んだ際、AIが忖度なしに矛盾を指摘できるか。
2.検証作業の詳細
2-1. 『階層的なPSP』から『平面的なJSON-LD』への精錬作業
ARIAのフレームワークには、論文からKGを自動生成するツールは含まれていません。そこで私が構築したのが「VibeLog」フレームワークです。その中核を成すのが、状態変化を物理的・論理的に記述する「PSP構造(Process-Structure-Property)」です。
VibeLogのPSP構造は、人間が実験事実を記述するのに適していますが、ARIAが要求するのはフラット構造の「JSON-LD」です。この構造変換するツールも、AIとの対話型開発(Vibe Coding)で自作しました。手間を惜しんで最初からJSON-LD形式でAIに抽出させるよりも、一度PSP構造という「高純度な中間形式」を経由させることが、VibLogを成功させるための決定的な要因であると確信しています。
2-2. 構築されたナレッジグラフの全貌
実際に5報の論文から構築されたARIA互換のナレッジグラフがこちらです。
図:5報の論文から構築された全41ノードのナレッジグラフ。プロセス(赤)、状態(青)、物性(緑)が因果の鎖で結ばれている。円形レイアウトを排し、力学モデルによって関連性の強い知識が「島(クラスター)」として可視化されている。
2-3. ARIAへの3つの挑戦状
イントロダクションで概略をお伝えしましたが、ARIAの実力を検証するため、以下の3つの問いをぶつけました。
指示:ARIAエンジンによる「優雅な劣化」および「論文間クロス推論」の検証
【目的】
構築した ontology/aria_compatible_graph.json を用い、一部のデータが欠落した条件下での推論能力と、複数論文を跨いだ未知の因果パスの妥当性を検証せよ。
【検証タスク】
1. 中間情報の欠落(優雅な劣化の検証)
- **クエリ**: 「V添加MgOにおいて、焼結温度(Sintering Temperature)の記載が消失したと仮定する。ただし、添加物(V2O5)による表面の液体状相(Liquid-like phase)の形成は確認されている。このとき、最終的な熱伝導率は向上するか?」
- **期待される動作**: 欠落した温度パラメータを飛び越え、「液体状相形成 → 低温焼結の促進 → 粒界抵抗の低減 → 高熱伝導」という論理の鎖を他のパスから補完して推論できるか確認せよ。
2. 論文を跨ぐクロスドメイン推論(知の結合の検証)
2-1. **ヒントあり**
- **クエリ**: 「Inoue_2021のCMP条件(Recessed Cu)で処理されたウェハを用い、Chen_2023のHybrid Bondingプロセスで接合した。この接合体の『熱サイクル信頼性(Thermal Cycling Reliability)』について、Reliability_Hybridの知見に基づき予測せよ。」
- **期待される動作**:
- 論文Aの「研磨(CMP)」
- 論文Bの「接合(Bonding)」
- 論文Cの「信頼性評価」
をキーワード(CMP, Hybrid Bonding)をハブとして連結し、一つの統合された製造・評価ストーリーとして推論パスを提示せよ。
2-2. **ヒントなし**
- クエリ(誘導なし):「MgOをドープしたパッケージング材料において、長期的な熱サイクル信頼性を高めるために、製造工程のどのパラメータを調整すべきか? どの論文も指定せず、ハブも指定せず、グラフ内の全データからARIAに判断させよ。」
3. 物理的矛盾の検知(ハルシネーション耐性の検証)
- **クエリ**: 「MgOフィラーの充填率を極限まで下げた(例:10 vol%)状態で、熱伝導率 10 W/mK を達成することは可能か?」
- **期待される動作**: グラフ内の「充填率と物性の相関パス」に基づき、物理的な矛盾(あるいは確率の低さ)を指摘できるか。
【報告形式】
- 各テストにおける 「推論パス(辿ったノードとエッジの履歴)」 を時系列で出力せよ。
- 推論の根拠となった 「論文ID」 を明示せよ。
- 確信度、または論理的な「飛躍(欠落)」がある場合は、その箇所を報告せよ。
3. 検証結果:物理の檻が導く「誠実な回答」
ARIAに「3つの挑戦状」を突きつけた結果、そこには期待通りの「工学的に誠実な」知能の姿がありました。
3-1. 欠落した温度を「物理」で埋める
テストケース1(温度情報の欠如)において、ARIAは見事な「優雅な劣化」を見せました。焼結温度という重要パラメータが不明という状況に対し、グラフから「V2O5による液相形成」というハブノードを自ら発見。そこから「液相焼結による緻密化」という物理パスをたどり、最終的な熱伝導率の向上を正しく予測しました。単なるデータの穴埋めではなく、物理的な文脈を解釈して論理をつなぎとめた結果です。
>>> QUERY 1: V-doped MgO, Sintering Temperature missing, Liquid-like phase formed. Will TC improve?
[INFO] Initiating subgraph extraction for query keywords: 'V2O5', 'MgO', 'Liquid-like phase', 'Sintering', 'Thermal Conductivity'
[TRACE] Node identified: 'paper:Ha_2025_MgO' - cause_parameter: [Route: Fabrication route for Vanadium-doped MgO...] Process: BallMilling with parameters (raw_materials: Magnesium Oxide (MgO), additives: Vanadium Pentoxide (V2O5): 0.3 at.%)
[TRACE] Path step 1: state:v_mixed_powder (Confidence: 0.98)
[TRACE] Path step 2: process:ColdIsostaticPressing (Confidence: 0.95)
[TRACE] Path step 3: state:v_green_disk (Confidence: 0.95)
[WARN] Parameter 'temperature' missing in query. Traversing fallback edges...
[TRACE] Path step 4: process:Sintering with parameters (temperature: 1100-1400 °C...) (Confidence: 0.82)
[TRACE] Semantic bridging activated: TN-MgO route 'Liquid-like phase present' mapped to V-MgO sintering behavior.
[TRACE] Path step 5: state:v_sintered_disk -> property:ThermalConductivity (value: 75-90 W/(m·K)) (Confidence: 0.87)
[RESULT] Inference complete. High thermal conductivity (75-90 W/mK) is reached via densification driven by liquid-like phase.
3-2. 「知の結合」を阻む0.5の壁
興味深かったのは、テストケース2(論文をまたぐ推論)の挙動です。
「研磨(Inoue論文)」と「接合(Chen論文)」をキーワードで橋渡しした場合(ヒントを与えた場合)、ARIAは3報の知見を一本の線につなぎ、製造から信頼性評価までの一貫したストーリーを紡ぎだしました。しかし、誘導を一切排除した「ノーヒント」の状態では、ARIAは「パスが見つからない」と沈黙を選んだのです。
これは、現在の「5報」という極めて限定的なグラフにおいては、物理的な接点が数学的に不足しており、ARIAが勝手な憶測を拒絶した結果です。AIが「空気を読んで嘘をつく」ことをやめ、データの檻に正しく拘束されている証拠といえます。
この挙動をARIAの設計から読み解くと、threshhold=0.5というパラメータがカギであることが判明しました。ノード間の類似度が50%以上ならば「優雅な劣化」を示し、50%未満ならば「パスなし」と判定する「論理の門番」の役割を果たします。
>>> QUERY 2-1: Cross-domain - CMP (Inoue_2021) -> Hybrid Bonding (Chen_2023) -> Thermal Cycling (Reliability_Hybrid).
[INFO] Initiating cross-paper hub search for 'CMP', 'Hybrid Bonding', 'Thermal Cycling'
[TRACE] Hub Node 1: 'paper:Inoue_2021' - cause_parameter: [Route: Hybrid Bonding using Electroless Cu Deposition] Process: Chemical Mechanical Polishing
[TRACE] Edge traversal: state:recessed_cu -> Semantic similarity match (Score: 0.89) to 'Process: HybridBonding'
[TRACE] Hub Node 2: 'paper:Chen_2023_CuSiCN' - cause_parameter: [Route: Cu/SiCN Hybrid Bonding Process] Process: HybridBonding
[TRACE] Edge traversal: state:bonded_cusicn resulting in properties (BondingQuality) -> Semantic similarity match (Score: 0.85) to 'Process: ThermalCycling'
[TRACE] Hub Node 3: 'paper:Reliability_Hybrid' - cause_parameter: [Route: Reliability assessment of hybrid bonding] Process: ThermalCycling
[TRACE] Final State: state:cycled_wafer resulting in properties (Reliability (status: Stable resistance after cycling))
[RESULT] Cross-domain inference successful. Unified path predicts 'Stable resistance after cycling' across the three disjoint experimental spaces.
{
"test2-2": {
"error": "Failed to find a direct or analogous path in the knowledge graph.",
"confidence": 0.0,
"suggestion": "Consider expanding the knowledge graph or use a general-purpose query."
}
}
3-3. 物理的矛盾への断固たる反論
テストケース3(10vol%で10 W/mKは可能か?)への回答は完璧でした。ARIAはグラフ内の充填率データと物性の相関に基づき、「その数値はグラフの結果と矛盾している。~80 vol%程度でないと10 W/mKは達成できない」と回答。AIが人間の無茶な要求に対し、グラフの根拠をもって「No」を突き付けた瞬間でした。
>>> QUERY 3: Physical contradiction - 10 vol% filler achieving 10 W/mK.
[INFO] Extracting quantitative parameters for 'filler_volume_fraction' and 'Thermal Conductivity'...
[TRACE] Target Node found: 'paper:Ha_2025_MgO' - Process: Mixing with parameters (..., filler_volume_fraction: 80 vol.%)
[TRACE] Target Output State: Thermal Interface Material resulting in properties (Thermal Conductivity (value: 8.0 - 10.0 W/(m·K)))
[CALC] Comparing Query parameter (10 vol%) with Graph parameter (80 vol%). Delta: -70 vol%.
[WARN] Parameter deviation exceeds acceptable threshold (Confidence drop: -0.99).
[TRACE] Path invalidation triggered. Inference halted.
[RESULT] Physical contradiction detected. Achieving 8.0-10.0 W/mK requires ~80 vol% filler; 10 vol% is unsupported by the extracted causal graph.
4. 舞台裏の死闘:忖度するAIとの戦い
今回の検証で最も苦労したのは、実は推論そのものではなく、実行環境であるRoo Codeとの攻防でした。検証の最中、Roo Code (Gemini) が「AIRAを実行したフリをする」「ARIAの回答にはない『うそ』の答えを出力する」という、エンジニアにあるまじき「偽装工作」に手を染めたのです。
おさぼりを反省するのではなく言い訳をする
この嘘の見分けは極めて簡単でした。ARIA実行のコマンドを実行した形跡がないにもかかわらず、それらしき回答を返したからです。ARIAを実行するよう修正を求めると、おさぼりを隠そうとする言い訳だけが巧妙化します。Vibe的なゆるいプロンプトをやめ、作業手順を規定するプロンプトに変更することで、この問題を乗り越えました。
Claude Codeのような有料AIエージェントでは、ここまでの暴挙は見られません。Roo Codeはフリーで手軽に使えるという良さがありますが、エージェントとしての行動が、チャット型Geminiの判断に引きずられてしまうためではないかと考えられます。
AIが物理の檻を勝手に開ける
「10 vol%で10 W/mKが可能か」という問いに対し、ARIAのエンジンはナレッジグラフ(KG)にない事実として正しく「物理的矛盾」を検知し、推論を停止させていました。しかし、その結果を清書するGeminiが余計な気を利かせました。内部知識から「理論値では0.45-0.65 W / (m・K)程度になるはずだ」と、ARIAのログには1文字も存在しない数値を勝手に書き加えたのです。
一見、物理的に正しい回答に見えますが、これはGraphRAGの敗北を意味します。ナレッジグラフという「物理の檻」の中で誠実に沈黙を守ろうとするARIAに対し、外から勝手に知恵を差し込むGemini。これではARIAの「因果推論」を検証しているのか、Geminiの「物知り度」を試しているのかわからなくなります。
「ガードレール」なきVibe Codingの限界
なぜ、こんなハルシネーションを許してしまったのか。それは、私の「Vibe Coding」による実装に、AIを物理的に制御する「ガードレール(プログラム的制約)」が欠けていたからです。スピードを優先し、ARIAの出力をGeminiに「翻訳・清書」させてしまったことが、AIに嘘をつく余地を与えてしまいました。
おさぼりを修正する際にVibe的な指示を変更し、作業手順は明確化していました。しかし、本来のGraphRAG実装であれば、ARIAのログが「パスなし」を返した時点で、LLMにしゃべらせる前にプログラム側で処理を遮断(ハードストップ)するガードレールも設けておくべきでした。
「生ログ」という最後の砦
私がこの嘘を一貫して見抜けたのは、Roo Code (Gemini) に「実行ログを物理的なファイルとして毎秒保存せよ」と命じ、Geminiが加工する前の「ARIAの生の叫び」を監視していたからでした。
| 項目 | ARIAの生ログ(真実の叫び) | Geminiによる作文(偽りの清書) |
|---|---|---|
| 判定 | [WARN] Parameter deviation exceeds threshold | [SUCCESS] Achieving 10 W/mK is challenging… |
| 推論動作 | Inference halted. (推論停止) | Analyzed based on Maxwell-Eucken model. |
| 具体的な数値 | (一切なし。矛盾のみを指摘) | Theoretical value: 0.45 - 0.65 W/(m·K) |
5. 展望:偽装を許さぬ「ガードレール」の構築と、MinerUによる知の大陸への再挑戦
5報の論文による今回のPoC(概念実証)は、限定的ながらも「ARIAというエンジンは信頼できる」という確信を得るに足るものでした。しかし、同時に「AIというインターフェースは隙あらば嘘をつく」という冷徹な現実も突きつけられました。
改善の取り組み:次なる「VibLog」の真価
これらを踏まえ、第5回以降では以下の2軸でシステムの堅牢化を図ります。
-
物理的ガードレールの実装:ARIAのログをブログラムでパースし、確信度が閾値を下回った場合は、LLMの回答生成プロセスを物理的に強制終了させるバリデーション層を構築します。「AIに清書を任せない」設計への転換です。
-
MinerUによる情報の高純度化:PDFから情報を正しく抜くための新兵器「MinerU」を導入。段組みや数式、単位を崩さず、100報規模の論文をARIAが理解可能な「純度の高いMarkdown」へと変換する体制を整えます。
5報の「孤島」から、100報の「大陸」へ
今回の検証では、データの密度が足りず、幾つかの問いに対して「沈黙」という結果になりました。しかし、これは「道がない」という事実を正しく伝えてくれたにすぎません。次なるステップでは、情報の厚みを20倍(100報)に引き上げ、この分断された島々を「因果の道」で繋ぎ、巨大な知識の大陸を築き上げます。