以下の内容は、この文書の作者による私見であって、まだ世の中の標準的な考えにはなっていない。 ここでは、ロボットを想定したカメラの使い方について述べる。 車載カメラの分野やドローンの分野のカメラの使い方については、既に十分に実用的な状況になっているため、 この私見では述べない。
- 全ての画像認識技術の評価は、どのようなユースケースの中で、どのようなことが、どのような水準で実現できるかとして評価される。
- ユースケースを設定したときに要求仕様が設定できる。
- 要求仕様が明確だからこそ、テスト用のデータセットと、それに対する期待値を設定できる。
- 技術であるかぎり、特定の領域において十分な成果をあげなくちゃならない。
- なんにでも使える汎用的で、既存の技術を上回るものなんて、めったに実現できないものだ。
- ユースケースを想定しなくちゃ、開発する技術を評価するデータセットさえ用意できない。
- 何が実現できるとうれしいのかを言い切ろう
絶対空間における対象物の位置を仮定しない。 そのため、絶対空間を想定した逆運動学によるアームの位置の算出を想定しない。
3Dカメラは、深度の精度の問題がある。 そのため、実空間のスケーリングと一致することを想定しないアルゴリズムを用いる。 理由:人は、目視で対象物を視認するとき、絶対的な値を精度良く目測することができない。 深度の精度がなくても、前後関係は正しく保たれる。
ハンドを動作させる目的に限っていえば、深度は3mもあれば十分と考える。 この想定をおくことで、ToFカメラでの撮影可能範囲について割り切れるので、ToFカメラの選択肢が増える。
物体検出はグレースケール画像でも十分な性能が出ることがある。 ToFの深度画像とを組み合わせると、必要な検出・3D計測とを満たせる。
3Dカメラの価格は、近年低下している。アクセラレータの性能も向上している。 そのため、複数のカメラを設置しても、コストが従来よりも低下している。
胴体と頭部との間に、首の自由度があると、その分の座標変換が難しくなる。 首の自由度によって引き起こされる回転移動行列のパラメータの精度を確保するのが難しい。 胴体と頭部のそれぞれにIMUを設置して、回転行列を算出する方法もあるだろう。 いずれの場合にも、3DカメラデータとIMUなどのタイムスタンプが一致している必要がある。 このため、座標変換をするには、その精度的なコストを生じさせることになる。
首の自由度をなくし、頭部に複数の3Dカメラを設置するという選択肢がある。 実際そのようにしているロボットもある。
2足歩行の人型ロボットという選択をすると、産業用ロボットでのような姿勢の安定性はえられない。 仮に、深度を5mm精度で算出できたとしても、姿勢のゆらぎが10mmあったとしては、意味を持たない。 深度の精度を重視する・姿勢の安定性を重視するならば、2足歩行という選択ではなく 別の方式をも検討してはどうだろうか。
カメラの価格の低下は、ハンドやアームにカメラを取り付けることを簡単にしている。 ハンドやアームにカメラがついている例は多数ある。 ToFカメラでコンパクトなものがあるし、単眼カメラからの単眼深度計算も存在する。
ハンドカメラでみた対象物の位置を元に、ハンドと対象物間の距離を減らすアプローチをすると ハンドが対象物をつかみやすい。 深度の計算精度が不十分でも、触覚センサで判断できれば、十分に把持動作を実現しやすい。