HCompanyが2026年6月2日に公開したブログ記事「Holo3.1: Fast & Local Computer Use Agents」を読んだ。Qwen系アーキテクチャをベースにしたコンピューターUseモデルの第2世代で、量子化チェックポイントの初リリースという点が目を引く。以下に要点と私の見解を整理する。
要点(出典の事実より)
- 4サイズ展開:Holo3.1-0.8B / 4B / 9B / 35B-A3B。用途・コストに応じて選択可能。
- モバイル自動化が大幅改善:AndroidWorldで35B-A3Bが67%→79.3%、4B・9Bも58%→72%に向上。
- 量子化チェックポイントを初搭載:FP8・NVFP4(W4A16)・Q4 GGUF を提供。DGX Spark上でNVFP4はBF16比1.74×のスループット、エンドツーエンドのステップ時間は6.8秒→3.3秒に短縮(約2×高速化)。
- クロスハーネス対応:function-callingプロトコルをネイティブサポートし、OSWorldおよび内部ベンチマークでfunctioncalling実行とネイティブ実行がほぼ同等性能を達成。Holotabプロダクトハーネスではholo3比25%以上改善。
- 完全ローカル・プライベート実行:Windows/MacのローカルマシンまたはDGX Sparkで、データが外部ネットワークに出ない構成を実現。
著者見解
今回のリリースで最も注目したのは、量子化チェックポイントの投入とモデルサイズの多様化という「デプロイ側の問題を正面から解いた」点だ。
Holo3.1以前のコンピューターUseモデルは、クラウドAPIで使う前提が暗黙の大前提だった。しかし企業の現場では「自社サーバーの外に画面情報を送りたくない」という要件がかなり多い。スクリーンショットには業務データが写り込むため、情報管理の観点からオンプレ・ローカル推論へのニーズは根強い。NVFP4でステップ時間が6.8秒→3.3秒になるという数字は、実用上の閾値(1アクションあたり数秒)に近づいてきた証拠で、単なるデモの話ではなくなりつつある。
一方、私がエージェント案件のPoC支援でいつも確認するのは、「ベンチマーク上の精度」と「業務フローに乗せたときのエラー率」のギャップだ。AndroidWorld 79.3%という数字は比較指標としては有意義だが、実際の業務アプリは画面レイアウトの揺れ・ポップアップ・例外フローが多く、ベンチマーク環境より難易度が高い。Holo3.1がクロスハーネス対応を強化した背景——「強い評価環境での性能が別環境に転移しない」という繰り返しの観察——は、まさにその問題を正直に認めた記述だと受け取った。
0.8Bという超軽量サイズの追加も興味深い。コンピューターUseの全タスクを単一モデルで賄うより、軽量モデルにルーティングやトリアージを担わせ、重いモデルは判断が難しいステップだけ使う構成の方が、実際のシステムでは費用対効果が高い。このサイズ展開はそういうマルチモデル設計を現実的にする。
中小〜中堅企業でのAIエージェント導入を支援する立場からすると、「ローカルで動く」「データが外に出ない」「従量課金でない」という三点は、導入ハードルを下げる具体的な訴求になる。Holo3.1が本当に業務で使えるかは実測あるのみだが、方向性は正しい。