DIY 'Descriptive Camera' captures images, prints out prose

「プッシュ通知つき郵便受け」やら「特定人物を自動消音するTVリモコン」といった自作物で知られる Matt Richardson 氏が、今度は言葉で形容するカメラ「Descriptive Camera」なるものを発表しました。外見はおおまかにカメラ的な箱形にレンズとシャッターボタンがついているものの、撮影結果は写真ではなく、背面のレシート用プリンタから短い文章で出力されます。入力画像と、現像(?) した文は続きの作例をどうぞ。
.


出力される文章はたとえば「古くて不格好な戸棚のように見える。名札が貼ってあり、学習ランプがついている」など。中身は即席ハックらしく、制御用のシングルボードコンピュータの BeagleBone にUSBウェブカメラや状態表示 LED、シャッターボタンなどが接続されています。電源とネット接続は(とりあえず) 有線。

肝心の画像解析・出力部分は、さすがにBeagleBone上で超絶的に高度な機械視覚と自然言語生成エンジンを走らせているわけではなく、クラウド経由でアマゾンの「機械仕掛けのトルコ人」たちに画像を投げて文章を受けとっています。別の言い方をすれば、Mechanical Turk API を使った人間カメラ。ネット越しに生の人間が目で見て手で書いた文章です。

Mechanical Turk に出すタスク (HIT, Human Intelligence Task) の報酬を1.25ドルに設定した場合、「現像」にかかる時間は通常6分以内、ときには3分程度。自作ハードウェアの出力が実はAPI経由の人力である点も含めて奇妙なアート作品としても成立していますが、作者いわく誰もが膨大な量の写真をため込むようになった今、撮影条件や日時、場所といったメタデータだけでなく、被写体そのものについて記述した検索可能メタデータが存在すれば非常に有用であり、Descriptive Camera はその可能性を探ったものと (一応) 解説されています。

アマゾンの人力人工知能ことMechanical Turk にはHITを請けおう「中の人」の成果を依頼側が評価するなど品質確保のための仕組みがあるにはあるものの、カメラとしてはイメージプロセッサ (?) の品質も速度も毎回違い、同じ結果が二度と撮れないという意味で画期的にアナログです。現像代をケチッてはずれフィルムに当たると心霊写真だって期待できるかもしれません。