← ブログに戻る

Thinking Machinesが「リアルタイム」を再定義——276Bパラメータがすべてを変える理由

公開日 2026/5/12 著者 needhelp

ai

thinking-machines

リアルタイム

マルチモーダル

モデル

今週、Thinking Machinesが276Bパラメータのマルチモーダル対話モデルを発表。「リアルタイムAI対話」の意味を完全に塗り替えた。

レイテンシ問題

対話タイプ	典型的遅延
テキスト	0.5-2秒
音声	2-5秒
マルチモーダル	3-8秒

問題はアーキテクチャ——LLMは同期的自己回帰デコーディングを使い、根本的な遅延下限がある。

Thinking Machinesのアーキテクチャ

非同期フロント-バック：入力処理と出力生成を分離。

フロントエンド：ユーザー入力、感情検出、コンテキスト管理——サブ秒応答
バックエンド：完全276Bモデルで深い推論、非同期的にフロントエンドを洗練

人間の脳のSystem 1/System 2思考を反映。

ネイティブマルチモーダル：音声/画像/テキストを共有表現空間で処理、文字起こしボトルネックを排除。声から直接感情を検出。

コミュニティベンチマーク：音声<500ms（競合2-5秒）、マルチモーダル~1秒（競合3-8秒）。5-10倍のレイテンシ改善。

重要性

音声：500ms vs 3秒 = 「人と話す」vs「機械と話す」の違い。レイテンシの不気味の谷を越える
マルチモーダル統合：~1秒処理は最適化ではなくアーキテクチャの違いを示唆
開発者フライホイール：速度 > ベンチマーク。サブ秒マルチモーダルAPIはあらゆるベンチマークスコアより開発者を惹きつける

未解決の疑問

1000万同時ユーザーでスケールするか？276Bは密かMoEか？バックエンドがフロントエンドの初期応答を修正する際のUXは？

結論

Thinking Machinesは対話型AIの性能フロンティアを再定義した。市場シェアを争う戦いはますますレイテンシの戦いになっている。ユーザーはMMLUを気にしない——AIが会話のように感じる速さで応答するかどうかを気にする。

このページをシェア