この文書の中では対象としない範囲
- ロボットの分野で、触覚は重要な感覚になっている。
- そのため、触覚情報を用いることがタスクによっては、不可欠になっている。
- 例:イチゴの収穫
触覚自体は、visionの分野の対象外となる。しかし、ロボットなどの実空間で動作を必要とするときには、触覚の問題を避けて通れない。 適切な触覚を導入することで、vision分野のタスクを軽減できる。 また、触覚の理解の分野に、画像認識と同様な手法が導入されつつある。
ロボットでハンドをつけようと思ったら、触覚の問題は避けて通れない(グリッパーの側が変形して、適度な力で保持するやり方はあるが)。 触覚の重要性は、動物で触覚を失った動物は存在しないことが挙げられる。 (一方、視覚を失った動物は存在する。そこまでいかなくても、哺乳類の多くは2色性の色覚になって、色覚の一部を失っている。)
- 視触覚センサ Finger Vision 透明な弾性体の変形を表面にあるドッドマーク位置の変位によりとらえて、分布を計測することができる。 透明な弾性体越しに見える画像を元にした視覚的な判断も可能である。
近接覚センサ 近接覚センサーは、赤外線と独自のエッジAIの組み合わせにより、 対象物との「距離および姿勢」を非接触かつ高分解能でリアルタイムに計測できるセンサーです。 従来は困難とされていた透明物や鏡面物の計測も可能で、 これまで導入が諦められていたさまざまな現場でもロボットハンドを活用できるようになります。
最近、大規模言語モデルの進展は、ロボットの動作の分野にも及んできている。
全てのセンサの入力を同時に与えて、ロボットの動作をend-to-end で学習させようとするアプローチである。 大規模言語モデルが静止画・動画・マルチモーダルな時系列データに対して利用可能になったことにより、 開発が進んでいる分野である。
この文書の範囲では、3Dカメラの評価、個々のアルゴリズムインタフェースの標準化などを意図したものであり、 end-to-end の機械学習については取り扱わない。
3Dカメラと画像認識が、実体のあるロボットで使う場合には、ロボットアームやエンドエフェクタ(ハンドなどのこと)を扱わなくちゃならない。 視覚系のもつ情報と統合するためには、時刻情報の同期がとれていることが必須となる。
ロボットに多様な動作をさせようとすると、ロボットでの自己視点画像と、ロボットのアーム・ハンドなどの姿勢・ハンドでの触覚情報・対象物体の状態の理解などが からみあった問題となってくる。 そこでは、現実空間ではたらく様々な物理現象を理解する必要があるし、 一連の動作の意図を言語化できる必要がある。 牛乳をコップに注ぐという一連の動作を、状況に応じて動作を生成するというタスクになってくる。 自分たちが行う開発のタスクをどのように定義して、どのようなシステムを作って、どのように学習させて、どう使うのか そういう一連の設計が重要になっている。