INDEX

Amazon Goの「レジなしショッピング」技術、背後の仕組みが明らかに

2019/6/11

未来の体験と積み木遊び

小さなブロックを組み合わせて部屋を作っているようなこの写真は、実はアマゾンがAmazon Goを考え始めた頃に、チームが店の入り口をどうデザインするかを考えていた時に使ったものである。

ご存じのように、Amazon Goはレジなしのショッピング体験を実現した店で、アメリカでは現在、12店舗が展開されている。この写真は、アマゾンが先ごろラスベガスで開催したAI・ロボット・宇宙に関する会議『re:MARS』（米国時間：6月4〜7日）で公開されたものだ。

完全に未来的な体験を実現するために、こんな積み木遊びのようなことをしていたとはほほ笑ましいばかりだが、Amazon Goの当初からのプロジェクトメンバーだったAamzon GoおよびAmazon Books担当副社長のディリップ・クマー氏によると、Amazon Goはデジタルを感じさせることすらないショッピング体験を目指したという。

実店舗におけるデジタルショッピングと言えば、買い物客がレジでセルフチェックアウトするとか、自分のスマホで商品をスキャンするとかいった方法が想像されがちだ。

だが、アマゾンはそこにとどまりたくなかった。そして、さらにその先へ行った。ただ欲しい商品を手にして、そのまま店を出て行っていいという方法だ。

積み木のアナログの感覚が、最終的には人間にまったく無理強いをしない環境を生み出したことと何か関係があるのではないかと感じさせてしまう。

天井のカメラが捉えるもの

『re:MARS』会議では、これまでアマゾンがはっきりとは発表してこなかった技術がいろいろ明らかにされた。

ご存じのように「アマゾン流」はいろいろと意表をつくものが多いため、この会議はそういう面白いアイデアをどう実現したのかを開発者本人から聞くことができる、非常に面白い場だった。もちろん、すべてを明かしたわけではないだろうが、それでも「こういうふうに考えたのか」という思考回路をのぞき見ることができた。

Amazon Goも、その背後の仕組みが共有された一つだ。

例えば、Amazon Goの店に入った客は、天井にびっしりと取り付けられたカメラによって捉えられているわけだが、顔認識をされるわけではない。

その代わりに、頭上から見た頭や肩を捉えて、その画像とアカウント（＝買物客）を結びつけ、その画像の店内での動きを追っていく。丸く囲まれた個々の客の頭や肩が店内を動き回る様は、まるでピンボールを見ているようだ。

客は先々で商品を取り上げてバッグに入れたり、棚に戻したりするわけだが、それを正確に認識しなければならない。中身は異なるが容器のデザインがほぼ同じジャムとか、変形して名前が読みにくくなったポテトチップスの袋とか、難題が待ち受けている。

Amazon Goの店舗はそれほど広くなく、扱う商品数も限られているだろうが、それでもここのコンピュータービジョンはかなり画像の学習を重ねたらしい。

研究と応用の中間にある技術

商品と同じく、その商品を手に取ったアカウントが誰なのかの特定も間違えるわけにはいかない。店内は混み合うこともあり、また2人連れ、3人連れ、子ども連れなどの客もいて、人が重なり合う。並んだ商品に同時に手が伸びたりして、コンピュータービジョンにとってはかなりのチャレンジとなる。

これには、バーチャルな店舗環境をコンピューター内に作って、バーチャルな連れだった客が買物をする状況を作り出して、機械学習を重ねたようだ。

身体の向きや体勢から、伸びている手と身体の組み合わせを推定する。ここでは何種類もの新しい技術が組み合わされているわけだが、かなりの部分をコンピュータービジョンの技術を推し進めることで実現している。この目的に合わせたカメラも開発した。

クマー氏は、店内で買物客が目にするのは「氷山の一角」だと言う。これだけ高度に複雑な仕組みがありながら、それをまったく感じさせなくしたということである。

そして、前例がない技術だが「絶対に実現できると信じていた」と語る。同氏は別のインタビューで「不可能なことと前例のないことの違いを見分け続けた」と語っている。

アマゾンの技術は、時にシュールに見える。よく大学の研究室で行われている実験のような感じだ。しかし、それを広く一般の人々にも体験できるようにしてくれるところが特質だ。

我々としては、研究と応用の中間あたりにある技術を生で目撃できる。技術の進化を同時代的に感じさせてくれるところに、アマゾンを見る醍醐味があるのだと思う。

＊本連載は毎週火曜日に掲載予定です。

（文・写真：瀧口範子）

短い音声から特徴を推測して「声の主の顔」を再構築するア...

NewsPicks Brand Design

現実世界で役立つAIをバーチャルな世界のシミュレーショ...

NewsPicks Brand Design

注目のコメント

杉井靖典
カレンシーポート株式会社創業者・CEO
・2019年06月11日
昔僕は、物流センターを構築するコンサルをやっていたことがあるんだけど、ピッキングをどうやったら効率的にできるか、改善点を考える際に物流センターの天井にカメラをたくさん設置して、オペレーターの導線をチェックして、非効率な所を分析して、改善するようなことを考えていた。

たぶん、Amazonでは、業務の一環でそういうことを昔からやっていて、その技術の応用したんだろうな、と思った。

物流センターほど、ITリテラシーの高低差が大きくて、同じ物を扱っているにもかかわらず、業務効率に圧倒的な差がでている分野は他にないんじゃないかと思う。

これはAmazonにとっては、特に突拍子のないものではなくて、少し目線を変えるだけで自然に出てきた発想なんだろうな。
小西佑典
Cloud Ace Ltd. MD
・2019年06月12日
日本にはこの手法は絶対に浸透しないでしょう。
アメリカは、そもそも誤差を許容しようとしています。
意地悪運転があり得る、しかしまぁそれは仕方がないよね、でも利便性を追求しよう。
という設計が根幹です。

日本は、誤差が起こったらどうするんだ！という思想からスタートしています。
よって、一つ一つにお金がかかってもRFIDというタグをつけて、商品価格が上がるか上がらないかを考える前に、ご動作をしてはいけないんだ！
という思想です。

そもそもの設計思想が、国民性からして違うのです。

前提のおさらいですが、アメリカで話題になっているAmazon Go。
レジのないコンビニ、ですね。
入店時にはアプリをインストール、自分のスマホ上に表示されるQRコードと、スマホに登録するクレジットカードなどの決済情報がリンク。
欲しいものをカゴに入れ、そのまま店を出ます。
すると、勝手にお金が引き落とされる。という、レジなしコンビニです。
無人コンビニではないです。
むしろ普通のコンビニよりもスタッフ多いです。

日本で進めている同じような店舗に、LAWSONが進めるレジなしコンビニがあります。
これは、システムはカメラではなく、RFIDという、電波を発するバーコード位の大きさのアンテナを、一個一個商品に貼り付けるシステムです。

両者お金の引き落としの仕組みは、一緒です。
何が違うか。

アメリカは、カメラで、誰が何を取ったか、を終始追いかけます。
日本は、店を出るゲートでRFIDを一括で読み取り、通過者に一括で請求する、としています。

これはなんの違いを表しているか。

アメリカのカメラを利用する方式は、
①肩を組んで入店する
②抱きついたり離れたりを繰り返しながら商品を取る
③高速で何度も棚に手を伸ばしては引っ込める、を繰り返す
などなど、、、意地悪運転によって誤動作するため非常に脆いのです。

日本は、商品を守るためにレジで一括で計算する、という方法を取りました。
そのためこのRFIDという電波を発するバーコード位の大きさのタグを付けることを選びました。

何が言いたいか。

ここまで違う理由が何なのかを、きちんと整理すべきと思います。
アメリカの先進的なシステムのリリース速度は、日本の何倍も先にある。
その確固たる理由は、私はこのあたりの思想にあるんじゃないかなと感じます。
廣瀬啓介
物流会社経営企画部
・2019年06月11日
多くの倉庫現場では何十年も前のWMS（ウェアハウスマネジメントシステム）を未だに大した変更を加えずに使い続けている。

そんな現場では「人手不足！」「リードタイムもっと短く！」「事故率シックスシグマ！」って叫んでて、
その解決策として「変わらなければ！」生産性改革！」「自動化！」って叫んでる。
でも実際は変わることは難しく、ジリ貧状態。

倉庫現場の基本概念って常に変わらないこと。
変わることへの異常な抵抗能力がDNAに刻まれているかのよう。

ゆでガエル状態からの脱却は非常に困難ですね。
黒船来航くらいのインパクトがないと変わらないんですかね。