上海静安

静安区の戦略的支援により、新智具身がエンジェルラウンドの資金調達を完了、ロボットは「見える」段階から「的確に操作できる」段階へ→

原稿発送の期日:2026-05-29 訪問回数:

5月27日、上海新智具身智能科技有限公司（NeoteAI、以下「新智具身」）は、約1億元のエンジェルラウンドの資金調達を完了したと発表した。今回の資金調達は上海国投傘下の上海科創集団と復旦科創がリードインベスターとして共同で主導し、上海科創集団傘下の策源基金などが共同出資した。資金調達完了後、新智具身は触覚データの収集規模をさらに拡大するとともに、触覚エンボディドAI向け大規模言語モデルの実操作タスクにおけるトレーニングと検証を加速させる。

報道によると、新智具身は復旦大学の「高信頼性エンボディドAI研究院」を基盤に成長し、復旦大学と静安区の戦略的提携における重要な成果として、設立当初から静安区科学技術・経済委員会と市北高新集団による強力な支援を受け、静安区の戦略的資金と上海市経済情報化委員会の産業高品質発展促進特別資金の支援を相次いで獲得した。また、上海市科学技術委員会も、同社の主力製品（視覚・触覚センサー）の研究開発に対して特別助成金を提供し、同社の技術開発の加速を全面的に支援した。

エンボディドAIが技術実証から産業化へと移行する重要な段階において、この新興企業は「触覚」を技術的ブレークスルーの鍵と位置づける。

ロボットに欠けているものは「目」ではなく、「触覚」かもしれない

「触覚エンボディドAI」とは何か？過去2年間、エンボディドAIに関するリソースと研究は視覚知覚に集中し、「ロボットに世界を理解させる」ことに重点が置かれてきた。具体的には、コップやネジを認識させ、さらにはUSBポートに的確に接続させることなどが目指されてきた。しかし、実際に操作させようとすると、すぐに「失敗」しがちだ。ポートに的確に合わせても、差し込む際の力の加減がうまくいかない。服をつかむことはできても、布地が滑っていないか、どこが張りすぎているかを感じ取ることができない。

人間がこうした動きをどのように行っているかを考えてみよう。指がポートの縁に触れたとき、手首は抵抗のフィードバックに応じて自然に角度を微調整する。紙コップを持ち上げるとき、指先はコップの壁の変形に合わせて力を調節する。布地を整えるとき、手は張力の変化に合わせて引っ張る方向を動的に変える。多くの判断はほとんど無意識のうちに行われている。すなわち、よく言われる「触覚」のことだ。そして、これこそが現在のロボットの知覚システムに欠けている重要な要素だ。

ロボットが物理世界と相互作用する限り、触覚情報は欠かせない核心的な知覚要素となる。新智具身の業界分析によると、エンボディドAIは単一の「視覚中心主義」から、「視覚中心＋触覚中心」による知覚システムへと進化しつつある。すなわち、視覚は全体的な位置特定と意味の理解を担い、触覚は接触後の物理的な状態のフィードバックと動的な調整を担う。

同社はより根本的な物理問題をロボットのトレーニングの主軸に戻す方針を打ち出した。すなわち、ロボットは単に世界を理解するだけでなく、世界と接触した際に、何に触れたのか、その接触が正しいのか、そして次にどう動くべきかを把握しなければならない。

しかし、触覚知覚の実用化は単にセンサーを取り付けるだけでは実現できない。触覚情報が孤立したハードウェアの計測値の段階にとどまっている限り、それをロボットの操作能力へと真に転換することはできない。「新智具身」の主要目標は、触覚知覚を学習可能な標準化されたデータへと変え、それをエンボディドAIモデルの学習・推論の全プロセスに深く組み込むことにある。

新智具身のコアチームは復旦大学の「高信頼性エンボディドAI研究院」の出身であり、産学研（企業・大学・研究機関）連携の豊富な経験とノウハウを有している。

最高経営責任者（CEO）の趙世豪氏は復旦大学で学士号と修士号を取得し、香港大学で博士号を取得した。かつてはマイクロソフト・リサーチとアリババ通義ラボにおいて主要研究員として最先端のモデル開発に深く携わり、その研究はビデオ世界モデルや生成モデルをカバーした。最高科学責任者（CSO）の呉祖煊氏は現在、復旦大学の「高信頼性エンボディドAI研究院」の副院長を務めている。かつてはMetaに勤務し、動画モデルやマルチモーダルモデルなどの主要分野に長年携わってきた。最高執行責任者（COO）の董道国氏は学術と産業の両方の経験を持つクロスオーバー人材で、産業界で20年近くの実務経験を持つ。かつてはファーウェイ・Honor Magic第1世代のチーフアーキテクトを務め、現在は復旦大学の「高信頼性エンボディドAI研究院」の研究員として、主に同社の技術の商用化を推進している。

マルチモーダルモデル分野におけるチームの豊富な実績に基づき、新智具身は視覚・触覚センサー、高精度データ収集プラットフォーム、触覚エンボディドAI向け大規模言語モデルの3つの主要分野に同時に注力し、完全な技術的クローズドループを構築している。

まずは触覚信号を収集する

新智具身の技術実用化への第一歩はロボットの末端エフェクタからの接触情報を高精度で収集することだ。復旦大学との産学研連携による最初の象徴的な成果として、同社が独自に開発した視触覚センサーは、産業用グリッパーやデクステラースなどの末端エフェクタに幅広く対応し、接触過程における力、滑り、変形、境界輪郭など、多角的な物理情報を的確に収集することができる。

この技術戦略の鍵は視覚・触覚の知覚パラダイムにある。従来のピエゾ抵抗式や静電容量式の触覚センサーの多くは、単一点の荷重状態しかフィードバックできず、接触面の幾何学的輪郭、滑走方向、表面の質感、変形の境界といった重要な情報を完全に再現できない。さらに、このようなソリューションの認識性能の上限はハードウェアの出荷時点でほぼ固定されているため、その後のアルゴリズムの改良によって性能を向上させることは困難だ。

一方、視触覚技術は新たな知覚原理を採用したもので、2つの大きな強みを備えている。

一つは、知覚情報の密度を大幅に向上させ、従来のセンサーでは実現できなかった全領域にわたる接触特性の把握を実現することだ。もう一つは、出力データ形式が視覚データと高い互換性を持つため、既存の「Transformer」アーキテクチャや視覚データと自然に統合し、既存のエンボディドAIモデルへの触覚モダリティの統合における技術的なハードルを大幅に低減することだ。

「触覚データ工場」を建設し、ロボットに「触覚の記憶」を習得させる

センサー技術の進歩は触覚エンボディドAIの第一歩に過ぎない。触覚知覚能力を真に発揮させるには、大規模かつ高品質な触覚インタラクションデータの蓄積が不可欠だ。

業界における触覚データの不足という課題を解決するため、新智具身は1,000平方メートルを超える専門的な触覚エンボディドAIデータ収集センターを設立した。

データ収集タスクは精密な操作シーンを中心に展開される。具体的には、USB接続、ネジ締め、メモリモジュールの取り付けなどの接触操作、ワイヤーハーネスの組立、薄肉容器の掴み、弾性部品の取り扱いなど、力加減の制御が求められるタスク、そして布地の整理、紙の折り畳み、テープの貼り付けなど、変形しやすい物体の操作が含まれる。

データ規模に対する認識について、「新智具身」は業界横断的な比較の視点を取り入れている。現在、エンボディドAI分野のデータ量は依然として数千万件程度にとどまっているのに対し、言語モデルは数十億件、さらには数百億件規模から始まっている。そのため、同社は現段階でデータの大量蓄積を最優先課題とし、「まずは規模を拡大し、その後コストを最適化させる」という発展戦略を採用している。現時点では、収集されてきたすべてのデータは優先的に内部モデルの学習に活用される。データ体系と収集プロセスが成熟した段階で、データサービスなどのビジネスモデルを段階的に模索していく。

触覚データでロボットを賢くする方法は？

データの究極な価値は、モデルの学習・推論プロセスに深く組み込まれ、ロボットの実際の操作能力へと変換される点にある。

「新智具身」の目標は、触覚を事前学習済みのエンボディドAIモデル（VTLAとTactile世界モデル）に統合し、触覚モダリティを取り入れた強化学習の手法と組み合わせることで、触覚を活用したエンボディドAI能力を体系的に構築し、複数の精密操作タスクにおいて大きな進展を遂げることだ。

従来のVLA（Vision-Language-Action Model：視覚・言語・動きモデル）は、視覚と言語に基づいて動きを出力するため、精密な操作を行う際には知覚の死角によって失敗しやすい。

一方、新智具身のVTLAモデル（Vision-Touch-Language-Action：視覚・触覚・言語・動きモデル）のアーキテクチャに基づき、触覚（Touch/Force）を導入することで、掴み、滑り、位置決め、変形などの実際の状態といった接触フィードバックをリアルタイムで取得し、操作の完了を正確に誘導する。まるで人が目を閉じて充電ケーブルを差し込む時のように、手応えだけを頼りに、少しずれていたら少し戻したり、角度を変えたり、力を弱めたりといった動きをする。

世界モデルは動きと環境の変化との関連性を学習する必要があるが、純粋な視覚情報だけでは、柔軟な素材や精密な組み立てといった微細な作業に対応することは困難だ。新智具身の触覚世界モデルは物理情報の不足を補い、微細な操作の成功率を大幅に向上させる。強化学習の場合、触覚は動きをリアルタイムで修正するためのシグナルとなる。抵抗の異常、掴みの不安定、滑りなどの現象はすべてモデルによって次の動きを調整するために活用される。

まずは工場で検証する

商業化への第一歩として、新智具身は工場で検証を始める。その理由は、タスクの構造が明確で、効果が定量化可能で、家庭用シーンに比べて汎用性の要件が低く、触覚がもたらす利点も検証しやすいからだ。

ワイヤーハーネスの組立、メモリモジュールの着脱、フレキシブル素材の整理、家庭用繊維製品の取り扱いなどは、いずれも代表的な精密作業シーンだ。これらの作業が長年にわたり人手に依存してきた理由は、視覚的な位置決めが不可能だからではなく、接触後の状態の変化があまりにも複雑だからだ。

上海の充実した産業エコシステムは、技術の実用化にとって他に類を見ない好環境を提供している。自動車、コンピュータ・通信・民生用電子機器（3C）、ホームテキスタイルなどの産業が高度に集積し、数多くの精密な操作シーンが存在するため、新智具身が重点的に展開しているデータ収集と技術検証の方向性と極めて合致している。現在、同社はすでに複数の産業分野において概念実証（POC）の注文を受けている。

後発企業は新たな競争戦略を策定する必要がある

新智具身の競争戦略も比較的明確だ。後発企業として、同社のチームは「視覚重視の技術戦略は、長年にわたる急速な発展を経て、資源集約型の競争段階に入り、研究開発コストは上昇の一途をたどっているが、その精密操作分野における固有の限界もますます顕著になっている」と判断した。

後発企業にとって、先行者の足跡をただ追うだけでは飛躍的な進展は期待できない。業界が未だ解決できていない主要課題を見出し、新たな技術的要素から切り込むことで初めて、代替不可能な競争優位性を確立できる。

「新智具身」の理念は、触覚をオプション機能からロボットの標準装備へと変えるものだ。タスクを理解することは、エンボディドAIの初歩的な要件に過ぎない。物理的なインタラクションの過程で、動きをリアルタイムに調整し、確実にタスクを遂行できるかどうかこそが、次の段階における業界競争の勝敗を左右する鍵となる。