はじめまして! 大阪国際工科専門職大学 情報工学科 ロボット開発コース 3年の御旅屋 友大パチャ(オタヤ ユウダイ パチャ)です 。
この度、株式会社スリーアップ・テクノロジー様で臨地実務実習をさせていただき、「Gemini Robotics ER 1.5を活用したロボットピッキングシステム開発」というプロジェクトに取り組みました 。
このプロジェクトは、「(例)バスケットボールをカゴに入れて」といった自然言語の指示に基づき、AI(Gemini Robotics)が物体の位置を特定し、デンソー製ロボットアームが掴んで移動させるシステムを開発するものです 。
私のミッション:2Dのピクセル情報を、3Dの実世界座標へ
AI(Gemini Robotics)は、カメラの「画像」という2D情報から、物体の位置をピクセル単位で特定します。しかし、ロボットアームを物理的に動かすためには、「作業場のどこに(X, Y)、どの高さ(Z)に」物体があるかという、ミリメートル単位の3D実世界座標が必要です。
私のミッションは、この「2Dのピクセル情報」を「ロボットが理解できる3Dの実座標」へ変換する処理を実装することでした。
そのために、以下の機能を開発しました。
① デュアルカメラ(2つの目)による3D座標の特定
3次元の座標(X, Y, Z)を取得するため、カメラ1台では不十分です。そこで、TopカメラとSideカメラの2台体制で3D座標を取得しました。
Topカメラ (上部): 物体のX座標とY座標(平面の位置)を特定します 。
Sideカメラ (側面): 物体のZ座標(高さ)を特定します 。
AIが映像から認識したピクセル情報(画面上の位置)を、ロボット制御に利用可能な実世界の「3D座標(mm単位)」に変換するキャリブレーション機能を実装しました 。

② AIとの連携 (JSONデータでの軌跡生成)
システムの中核となるのが、GoogleのAIモデル「Gemini Robotics ER 1.5」との連携です 。
プログラム内に、「開始物体と終了物体を特定し、中心から中心へ結ぶ軌跡」
というシステムプロンプトを用意します。
ユーザーが「サッカーボールを かごに入れて」と指示します 。
システムプロンプトとユーザーの指示、そしてカメラ映像をAIに送信します。

AIは映像を分析し、「開始物体(サッカーボール)」と「終了物体(かご)」を特定します 。
AIは、物体の中心から中心への軌跡情報をJSONデータとして返します 。
このJSONデータを基に、ロボットアームがたどるべき座標群が生成されます。


さらに、AIへの指示(プロンプト)を変更し、単なる直線的な軌跡ではなく、「障害物を避ける滑らかな軌跡」をAI自身に考えさせることにも挑戦しました 。AIが障害物を認識し、それを回り込むような軌跡(画像参照)を生成させることができました 。

③ アーム開閉幅(物体サイズ)の算出
ロボットが物体を掴むために、AIが認識したバウンディングボックス(物体を囲う枠)のX座標情報から「物体の横幅(mm)」を算出する機能を追加しました 。 これにより、アームが掴む対象物に合わせてグリッパーの開閉幅を制御するための情報を提供できるようになりました。
④ 3D可視化ツールの開発
算出されたXYZ座標が正しいかを確認するため、ロボットの移動経路(軌跡)を3D空間にプロットする可視化ツールを開発しました 。

完成!!

開発を通して感じたことは、AIの扱いの難しさです。最新技術でAIが未学習な部分を「任せきり」にしてしまい開発が遅延したり、曖昧な指示で思った動きができないことがたくさんありました。
しかしその中で、指示の仕方や、開発の進め方を学び、最終的に2台のカメラのプログラムを統合したシステムを作ることができた。
AIの可能性
現状、障害物回避のような複雑な推論をAIにさせると、応答に20~30秒かかる場合があります 。しかし、AI技術の進化は非常に速く、数年後にはこれが1秒程度まで短縮されると期待されています 。
また認識精度についても、掴む物体や障害物自体の「大きさ」や「形状」までをAIが考慮した、より高度で安全なルート生成が可能になると考えています 。
最後に
実習を通して、最先端のAI技術を実世界のロボティクスに応用する、非常に実践的な開発を経験できました。この経験を活かし、今後も技術の仕組みを深く理解することを大切にしていきたいです。ありがとうございました。

