VoiceOver
Apple

アップルは国際障害者デーである12月3日に、アクセシビリティ公式サイトをリニューアルしました。そこでは、あらゆる人に合った使い方ができる様々な機能が紹介され、素敵なことをするための活用が推奨されています。

それに伴い米TechCrunchでアップルのアクセシビリティとAI/ML(機械学習)エンジニアのインタビューが公開され、アクセシビリティの改善に取り組むアプローチが詳しく説明されています。

iOSアクセシビリティ技術者のクリス・フライザック氏とAI/MLチームのジェフ・ビガム氏は、アップルがiOS 13からiOS 14にかけてのアクセシビリティ機能の進化をどう考えているか、その目標を達成するためどのような協働作業が必要だったかを語っています。

iOS 14のアクセシビリティ機能の中でも最大の進歩は、視覚を補助する「VoiceOver(画面読み上げ)」に「VoiceOver認識」という項目が追加されたことです。これは画像説明(画像説明の読み上げ)や画像認識(画面上の項目を認識して自動的にアプリをアクセスしやすくする)、テキスト認識(画像内のテキスト読み上げ)を含むものです。

これにつきアップルは「デバイス上のインテリジェンスを使用して画面上の要素を認識し、アプリやウェブ体験のVoiceOverサポートを向上させます」や「画像認識は自動的にインターフェースコントロールを検出し、アプリのナビゲーションを支援します」と説明。すなわちAI/MLを活用していると示唆していたわけです。

フライザック氏が語るのはその詳細であり、アップルのアプローチや画面認識にまつわる速度と精度について説明しています。すなわち「我々は画像説明のように、アクセシビリティにおいて改善できる分野を探しました」とのこと。「iOS 13ではアイコンを自動的にラベル付けしました。 画面認識ではもう一歩前進しており、画面上のピクセルを見て、操作できるオブジェクトの階層を特定できる。その全てが10分の1秒以内にデバイス内で処理されます」と述べています。

さらにビガム氏が指摘するのは、VoiceOver機能を画像認識の域に及ばせる上で、アップル社内の異なるチーム間でのコラボレーションがいかに重要だったか、ということです。

その開発過程は「全体的なアクセシビリティ、データ収集と注釈部門、AI/ML、もちろんデザイン部門など、チーム間のコラボレーションが基盤となっています」とのこと。それらは総合的には、機械学習がユーザー体験の改善に向けて継続的に投入していくことの確認でもあった、と振り返られています。

先進的なアップルだけに工程が自動化されていたかといえば、作業は労働集約的、つまり人手のかかる地道な作業だったと語られています。「人気のあるアプリやゲームの何千枚ものスクリーンショットを撮影し、それらにいくつかの標準的なUI(ユーザーインターフェース)要素のラベル付けを手作業で行いました。このラベル付けされたデータを機械学習システムに与えると、すぐに同じ(UI)要素を抽出できるようになった」とのことです。

TechCrunchは、これをMacのような他のプラットフォームに持ち込むのは大変なことなので、まだ期待しないようにと釘を刺しています。

しかし新型Macに搭載されたAppleシリコン「M1」チップには機械学習のNeural Engineが内蔵されており、いずれ道が開ける可能性は高いとも思われます。今後すべての人がハイテクデバイスを自分に合った使い方ができるよう、いっそうの進歩を望みたいところです。

Source:Apple,TechCrunch(US)