Skip to content

Latest commit

 

History

History
70 lines (57 loc) · 4.98 KB

7_1_usage_proposal.md

File metadata and controls

70 lines (57 loc) · 4.98 KB

3Dカメラでの計測と画像認識についての提案の私見

以下の内容は、この文書の作者による私見であって、まだ世の中の標準的な考えにはなっていない。 ここでは、ロボットを想定したカメラの使い方について述べる。 車載カメラの分野やドローンの分野のカメラの使い方については、既に十分に実用的な状況になっているため、 この私見では述べない。

ユースケースを想定しよう

ユースケースを想定しなくちゃいけない理由

  • 全ての画像認識技術の評価は、どのようなユースケースの中で、どのようなことが、どのような水準で実現できるかとして評価される。
  • ユースケースを設定したときに要求仕様が設定できる。
  • 要求仕様が明確だからこそ、テスト用のデータセットと、それに対する期待値を設定できる。
  • 技術であるかぎり、特定の領域において十分な成果をあげなくちゃならない。
  • なんにでも使える汎用的で、既存の技術を上回るものなんて、めったに実現できないものだ。
  • ユースケースを想定しなくちゃ、開発する技術を評価するデータセットさえ用意できない。

妄想しよう

  • 何が実現できるとうれしいのかを言い切ろう

ロボットでの利用

対象物とハンドとの相対関係が重要

絶対空間における対象物の位置を仮定しない。 そのため、絶対空間を想定した逆運動学によるアームの位置の算出を想定しない。

カメラからの深度が、実空間のスケーリングと一致するとは想定しない。

3Dカメラは、深度の精度の問題がある。 そのため、実空間のスケーリングと一致することを想定しないアルゴリズムを用いる。 理由:人は、目視で対象物を視認するとき、絶対的な値を精度良く目測することができない。 深度の精度がなくても、前後関係は正しく保たれる。

ハンドの動作のために想定する深度は3mもあれば十分と想定する。

ハンドを動作させる目的に限っていえば、深度は3mもあれば十分と考える。 この想定をおくことで、ToFカメラでの撮影可能範囲について割り切れるので、ToFカメラの選択肢が増える。

用途によっては、ToFの深度とグレースケール画像で十分という割り切りが可能である。

物体検出はグレースケール画像でも十分な性能が出ることがある。 ToFの深度画像とを組み合わせると、必要な検出・3D計測とを満たせる。

3Dカメラのコストの低下

3Dカメラの価格は、近年低下している。アクセラレータの性能も向上している。 そのため、複数のカメラを設置しても、コストが従来よりも低下している。

座標変換コスト

胴体と頭部との間に、首の自由度があると、その分の座標変換が難しくなる。 首の自由度によって引き起こされる回転移動行列のパラメータの精度を確保するのが難しい。 胴体と頭部のそれぞれにIMUを設置して、回転行列を算出する方法もあるだろう。 いずれの場合にも、3DカメラデータとIMUなどのタイムスタンプが一致している必要がある。 このため、座標変換をするには、その精度的なコストを生じさせることになる。

3Dカメラを多数導入するという選択肢

首の自由度をなくし、頭部に複数の3Dカメラを設置するという選択肢がある。 実際そのようにしているロボットもある。

2足歩行の人型ロボットという制約

2足歩行の人型ロボットという選択をすると、産業用ロボットでのような姿勢の安定性はえられない。 仮に、深度を5mm精度で算出できたとしても、姿勢のゆらぎが10mmあったとしては、意味を持たない。 深度の精度を重視する・姿勢の安定性を重視するならば、2足歩行という選択ではなく 別の方式をも検討してはどうだろうか。

ハンド・アームへのカメラ

カメラの価格の低下は、ハンドやアームにカメラを取り付けることを簡単にしている。 ハンドやアームにカメラがついている例は多数ある。 ToFカメラでコンパクトなものがあるし、単眼カメラからの単眼深度計算も存在する。

対象物へのハンドのアクセス方法

ハンドカメラでみた対象物の位置を元に、ハンドと対象物間の距離を減らすアプローチをすると ハンドが対象物をつかみやすい。 深度の計算精度が不十分でも、触覚センサで判断できれば、十分に把持動作を実現しやすい。