【徹底分析】AIコスト爆発の本当の解決策は「クラウドの外」にあった

Photo of author

By Global Team

企業は人工知能に莫大な資金を投じている。問題は、その大部分が成果として戻ってこないことだ。

米マサチューセッツ工科大学(MIT)の研究チームが昨年発表した分析は、業界に波紋を広げた。企業が試みた生成AIのパイロット事業の95%が、損益に測定可能な効果を出せなかったというのだ。

研究チームは公開された導入事例300件を精査し、企業の役員・従業員数百人を調査した。世界の企業が投じた資金は300億~400億ドル、韓国ウォンで約41兆~55兆ウォンに達する。その巨額投資の中で、明確な成果を上げたのはわずか5%だった。

研究チームの診断は通説を外す。失敗の原因はAIモデルの性能ではないというのだ。モデルは十分に賢いが、企業の業務フローに溶け込めず、費用だけを食い尽くす構造が問題だった。賢い道具を高く買い入れても、うまく使えなかったわけだ。

その「費用」の正体を見ていくと、最近浮上した一つの解決策の輪郭が見えてくる。クラウドだけに依存していたAIを、できる限り「自分の端末」側へ引き寄せる戦略だ。

◆ AIは使うほど金が漏れるのか?

AIの利用は大きく2段階に分かれる。膨大なデータでモデルを学習させる「学習」と、学習済みのモデルに実際に質問を投げて答えを得る「推論」だ。人間にたとえるなら、勉強と試験の違いである。企業が日々支払うコストの大半は、この推論段階で発生する。

推論をクラウドに任せると、料金は「トークン」単位で課金される。トークンとは、AIが処理する文字の束を意味する。質問1回、返答1行ごとに料金が積み上がる。数人の社員が使う程度なら小銭のように見える。しかし、数万人の顧客が同時に使い、1つの作業でAIが10回、20回と呼び出される瞬間、請求書は雪だるま式に膨らむ。

価格表そのものにも落とし穴がある。OpenAI、Anthropic、Googleのような巨大AI企業は、現在の推論サービスを原価より安く販売していると分析されている。利用者を集めるための出血競争だ。今の低価格がいつまで続くかは分からないという意味でもある。

速度もまたコストだ。クラウドに質問を送り、答えを受け取るまでには長ければ1~2秒の遅延が生じる。リアルタイム翻訳や音声アシスタントのように即座の反応が必要なサービスでは致命的だ。利用者が集中する時間帯に呼び出し上限に達し、サービスが止まることも少なくない。

◆ 「クラウドの外」で見つけた解決策

代案として注目されているのが「ローカル優先推論」だ。名前は大げさだが、発想は明快だ。すべてを高いクラウドAIに任せるのではなく、端末や社内サーバーで処理できる簡単な仕事は先にそこで終わらせる。本当に難しく曖昧な仕事だけをクラウドに送るのである。

ローカル優先推論の3段階構造とコスト削減効果。簡単な作業は端末で、難しい作業だけをクラウドAIで処理して費用を抑える。(グラフィック=ソリューションニュース)

効果は実測で確認されている。ある技術メディアに公開された事例では、設計図文書4,700件を処理する際、全体の70~80%を端末内で自動的にふるい分けた。

クラウドAIの力を借りる必要のない、明確な文書だったからだ。その結果、クラウド呼び出し費用は75%、処理時間は55%削減された。判断が難しい文書だけをクラウドに送り、危険な場合は人間が最終確認する設計にして、誤りも抑えた。

この75%という数字には留意点がある。特定の文書処理業務で得られた結果であって、すべてのAI作業にそのまま当てはまる魔法の公式ではない。端末でAIを動かすにはハードウェアを購入する必要があり、システムを設計し管理する人材の時間も必要だ。取引量が少ない企業では、むしろクラウドのほうが安い場合もある。重要なのは「無条件にローカル」ではなく、「仕事の性質に応じて分けて処理する」という判断だ。

こうした流れは、開発者たちの選択からも読み取れる。5月第3週のGitHubで最も急速に人気を集めたプロジェクト10件を見ると、巨大モデルをそのまま呼び出すツールより、端末内で直接動くか、呼び出し回数を減らして費用を節約するツールが目立った。

3件はすべての処理を端末内で完結させる方式で、別の3件はトークン消費そのものを減らすことに重点を置いていた。巨大モデル中心から、その周辺を精緻に磨く方向へ重心が移っている兆しである。

私たちが毎日使うスマートフォンにも、その変化はすでに入り込んでいる。通話翻訳や写真内の文字認識のように即時処理される機能の多くは、インターネットの先のサーバーではなく、手の中の端末で動いている。

◆ 企業への問い

この流れが示すメッセージは明確だ。韓国の中小企業や個人事業者にとって、AI導入の最大の壁は常にコストだった。巨額のクラウド料金を負担できず導入を先送りしたり、パイロット事業だけで終えてしまうケースが多かった。MITが指摘した95%の失敗が他人事ではない理由である。

ローカル優先戦略は、その壁を下げる現実的な道だ。顧客対応の定型質問は端末や自社サーバーで処理し、難しい相談だけを高性能なクラウドAIに任せる形だ。データが社外に出ないため、個人情報保護にも有利である。医療・金融のように機微な情報を扱う分野では、この点はコストに劣らず重い。

コストが永遠の負担になるかどうかは別の問題だ。市場調査会社ガートナーは、1兆パラメータ規模モデルの推論コストが2030年までに90%超下がると見込んでいる。

端末向けチップとモデル効率が急速に向上しているためだ。ただし同社は、複数の段階を自ら処理する「エージェント型AI」は1つの作業ではるかに多くのトークンを使うため、単価が下がっても総コストは簡単には減らないとの但し書きも付けている。

ローカル優先戦略も万能ではない。小さな企業が自前のハードウェアと技術人材を持つことは、また別の負担になる。どの仕事を内側で処理し、どの仕事を外に送るかを切り分ける設計力がなければ、コスト削減どころかシステムだけが複雑になる。

生き残った5%が違っていたのもそこにあった。派手な機能より、「自社の業務のどの要所にAIを組み込むか」という問いに明確に答えた企業だった。

AIコストをめぐる議論の重心は、「どのモデルが最も賢いか」から「いつそのモデルを呼ぶか」へ移りつつある。最も高価な道具を買うことより、その道具をいつ使うかを知ることが成否を分ける。韓国企業がAI導入を再設計すべき地点も、まさにここにある。