インテリジェント
インテリジェントなデジタル アシスタントとは、スマート スピーカーのような特殊なハードウェア デバイスと組み合わせたソフトウェア サービス、または単にパーソナル コンピューター、タブレット、スマートフォン、ウェアラブル コンピューター (デジタル腕時計など) などの汎用コンピューター デバイスで提供される機能で、従来の人間のアシスタントが持つ一連の興味深い能力、特に音声と人工知能 (AI) に支えられた自然言語処理 (NLP) による質問への応答やタスク遂行能力を提供するものをさします。
例としては、Amazon Alexa/Echo、Apple Siri、Google Assistant、Microsoft Cortana などがあります。
以前の論文では、人間のアシスタントの従来の役割について詳述しています。
この非公式な論文では、インテリジェントなデジタル アシスタントの性質と機能を簡単に探ります。
インテリジェントなデジタル アシスタントという概念は、代替的に次のような用語で呼ばれていることに留意してください。
- Digital assistant
- Intelligent personal assistant
- Intelligent virtual assistant
- Personal digital assistant
- Virtual assistant
- Virtual digital assistant
- Voice-enabled digital assistant
Technically, a digital assistant does not need to use voice or even natural language, but in the context of this paper, the term digital assistant will be used as a shorthand for intelligent digital assistant and presume that it is voice-enabled with natural language processing.
What is the purpose of a digital assistant? As Google puts it:
- Find info and get things done
Those are the twin purposes:
- Request information.
- Perform tasks.
The job of any good assistant, machine or human.
Key distinguishing features
Not that traditional digital devices and Internet services didn’t already serve those same purposes, but now, the new devices and services focus on voice-enabled natural language interaction:
- Voice input.
- Natural language processing (NLP).
- Voice output.
Two other distinguishing qualities are that execution of requests can be based on not only the raw input request or command from the user, but also:
- Personal data of the user.
- Past history of usage by the user.
That’s where machine learning can come into play.
And, as with most devices and services, personal preferences of the user will be taken into account.
Features
This generic list of features of digital assistants is not intended to be absolutely comprehensive, but should be fairly representative:
- Voice-enabled, voice control, voice interaction, voice queries.
- Natural language interaction. Commands. Results.
- Find information. Weather. Traffic. News.
- Answer questions. Digital encyclopedia.
- Make recommendations.
- Perform simple actions around the home, controlling devices. Home automation.
- Media control. Selecting content, controlling volume. Music. Audio. Video. Movies. TV shows.
- Make and take phone calls.
- Send and receive messages.
- Chat. Converse with the machine.
- Foreign language translation.
- Dictionary lookup.
- Managing to-do lists.
- Setting alarms, timers, reminders, and alerts.
- Shopping.
- Ordering take out for delivery.
- E-commerce.
- Concierge functions. Reservations. Tickets. Services.
- Access specialized Internet services. Open-ended, modules developed by third parties.
- Proactive. Perform tasks or provide information without being explicitly asked. To only a limited extent today.
- Support for multiple users on a single device. For example, Google Assistant Voice Match. Him vs. her.
- Personalization. Adaptation. 応答やアクションは、純粋な定型応答ではなく、ユーザーのデータ (個人データ、好み、使用履歴) を考慮します。
どの程度知的か
特に人工知能 (AI) のコンテキストにおける知能の性質は、かなり複雑なトピックで、私の論文 Untangling the Definitions of Artificial Intelligence, Machine Intelligence および Machine Learning でさらに深く検討されています。
この論文の目的のために、知性とインテリジェントなデジタル エージェントについて以下の点を指摘しておきます:
- 弱い AI は現在の技術水準です。
- 人間レベルの知性のいくつかの側面は採用されていますが、非常に限定的です。
- 一般的な意味での人間レベルのインテリジェンスは、すぐには利用できないでしょう。
- デジタル コンピューティングにおけるかなりの量のインテリジェンスは、概念の深い、人間の意味の深い理解ではなく、単にルール、パターン、ヒューリスティックです。
- 自然言語処理 (NLP) 、音声入力の分析、自然言語の要求解析、音声出力合成能力は、現在の音声作動デジタル アシスタントが知的と呼ばれる最大の理由です。
- NLP 以外にも、これらのデジタル アシスタントが実行する機能のほとんどは、非 AI のコンピューター インターフェイスおよび Web ベースのサービスによって実行できます。
- これらのデジタル アシスタントが実行する機能で、AI 自体を必要とするものはほとんどありません。 機械は単純なパターンを認識していますが、概念や、深い人間的な意味での意味は認識していません。
- 音声マッチ機能は興味深いですが、もう一度言いますが、人間レベルの知能ではなく、ヒューリスティックまたは弱い AI の問題だけです。
- 現在のインテリジェントなデジタル アシスタントが、犬でもできるような声のトーンを認識し、それに応答するかどうかは不明です。 それは確かに何もしないよりは良いですが、ゴールに近いというよりは、単なるスタート地点に過ぎません。
The Big Four
Although there have been digital assistants in the past and there are smaller and niche players, the Big Four of the current wave of products include:
- Amazon Alexa/Echo
- Apple Siri
- Microsoft Cortana
- Google Assistant
Samsung Bixby is a new entrant in the market.
It is beyond the scope of this paper to delve into specific product features or recommendations for such products.
The wikipedia pages for the Big Four:
- Amazon Alexa/Echo — Echo devices
- Apple Siri
- Microsoft Cortana
- Google Assistant — Google Home smart speakers
The company web pages for the Big Four products/services:
- Amazon Alexa/Echo
- Apple Siri
- Microsoft Cortana
- Google Assistant — Google Home devices
Connected intelligence, インターネット対応
この最新のデジタル アシスタントの設計の重要な側面は、それらがクラウド上のサーバーで動作するサービスであり、AI 機能のほとんどがクラウド上にあり、ユーザーが見て使用する接続デバイスは単に入力および出力デバイスとして機能するということです。
プライバシー、セキュリティ、および個人データ
これらのデジタル アシスタントはオンラインで、すべての関連するユーザー データはオンラインなので、プライバシー、セキュリティ、所有権、および倫理に関する重要な問題がいくつかあります。
- ユーザーのデータおよびユーザーによるすべてのリクエストとアクションの記録は、実際には誰のものですか
- デジタル アシスタント ベンダーは、ユーザー データに対して何ができて、何ができないのですか
- ベンダーは第三者にそのユーザー データへのアクセスを提供できますか
- そのユーザー データの安全性について、実際のところどうなのでしょうか
- ユーザー データは、個人情報保護の観点から、どのように保護されていますか?
- デジタル アシスタントとのユーザー インタラクションは、中間者攻撃やユーザー デバイスにインストールされたマルウェアに対して脆弱ですか
- ユーザー データのセキュリティとプライバシーは、どのくらいの頻度で、どのような技術的手段で監査されていますか
- ユーザー データに侵入するには、どの程度の技術スキルがあれば十分ですか
- ユーザー データに侵入するにはどの程度の技術スキルがあれば十分ですか
- 政府、外国政府、または諜報機関は、ユーザー データをハッキングする技術的スキルと手段を保有しているかもしれませんか
- ベンダー スタッフが内部犯行としてユーザー データを理論的にハッキングできないという保証はありますか
- ユーザーはどのような保証を持っているのでしょうか
- ユーザー データをハッキングできるのはどのような場合ですか?
- ユーザー データは販売できますか
- ユーザーは自分に関するすべてのデータにアクセスする方法がありますか
- ユーザーは、完全な使用履歴を含む自分のデータを別のベンダーまたは別の種類のデバイスに移動できますか
- ユーザーは、ユーザー データにアクセスする方法がありますか
- ユーザーは、自分に関するすべてのデータにアクセスする方法がありますか
- ユーザーは、ユーザー データを別のベンダーまたは別の種類のデバイスに移動できるでしょうか
- ユーザーは、自分に関するすべてのデータを入手できるでしょうか?
- ユーザーは、自分に関するデータの一部または全部を消去する方法がありますか
- ユーザー データの保持ポリシーはありますか
- 自分のデータにアクセスするための裁判所命令に関して、ユーザーはどのような権利を保持または喪失しますか
- ユーザーは、自分に関するデータにアクセスするための裁判所命令に関する権利を保持または喪失しますか
- ユーザーは、自分に関するデータの一部を消去または消去する方法を保持または喪失しませんか?
- ベンダーは裁判所命令に直面しているユーザーの権利をどの程度強力に擁護するか。
- ユーザー データはどのような法的管轄に存在するのでしょうか?
- ユーザーは司法管轄を選択する制御や能力があるのでしょうか? 特に、裁判所命令やそれらの法域における法執行機関の行動に関して。
- ユーザー データは、複数の法的管轄に保管される可能性がありますか。 Multiple copies or distributed between servers in different data centers.
- Is location data given the same protection as interaction data?
- Can a user shield their location even if their interaction data is accessed, such as through a court order?
- Can a parent or legal guardian get access to user data of children or relatives?
- Can a user allow another user to access their data?
- Can users share data?
ジタル アシスタントとのインタラクションは、マン イン ザ ミドル攻撃に対して脆弱ではありませんか?
Software and hardware
The software for the various digital assistants is capable of running on a wide range of hardware platforms:
- Desktop computers
- Laptop computers
- Tablet computers
- Smartphones
- Smart wristwatches
- Wearable computers
- Smart speakers
- Smart TVs
- Smart appliances,
前節で述べたように、本当のインテリジェンスはクラウドにあり、ユーザーのデバイスやコンピューターは、クラウド ベースのサービスとの通信にのみ使用されます。
スマート スピーカー
スマート スピーカーは、Amazon Echo、Google Home、そしてまもなく Apple HomePod など、現在流行しています。
実際のスピーカーは単なる出力デバイスで、真のスマートさはスピーカーと同じ物理ボックスに含まれるマイクロフォンによってもたらされるので、スピーカー自体がスマートだというのは少し語弊があるかもしれません。
マイクがあなたの声を拾ってクラウド上のサーバーに送り、実際の AI アルゴリズムで処理してから、実際のスピーカーに音声を送信して、結果を聞くことができます。
同等の用語
新しく進化するテクノロジーと同様に、インテリジェントなデジタル アシスタントに関する用語は流動的で、まだ確定していません。
All of the following terms are roughly equivalent to intelligent digital assistant, or at least used as if equivalent despite nuances of differences:
- AI assistant
- AI digital workforce platform
- AI voice assistant
- AI-powered virtual agent
- AI-powered voice assistant
- Artificial intelligence voice assistant
- Artificial-intelligence assistant
- Artificially intelligent assistant
- Bot
- Chatbot
- Chatterbot
- Connected assistant
- Connected intelligent assistant
- Digital agent
- Digital assistant
- Digital virtual assistant
- Digital voice assistant
- Intelligent assistant
- Intelligent digital assistant
- Intelligent personal assistant
- Intelligent virtual assistant
- Personal AI assistant
- Personal assistant
- Personal assistant voice apps
- Personal digital assistant
- Smart assistant
- Smart digital assistant
- Socialbot
- Virtual assistance
- Virtual assistant
- Virtual customer assistant
- Virtual digital assistant
- Virtual personal assistant
- Voice AI capabilities
- Voice AI–capable device
- Voice assistant
- Voice-enabled digital assistant
- Voice-powered digital assistant
Not all bots, chatbots, socialbots, or digital or virtual assistants are necessarily voice-activated or use voice response. They may use text.
Not all bots or socialbots recognize natural language. They may simply act in a way that mimics human behavior using a variety of heuristics such as recognizing keywords that are significant for the particular subject matter domain which the bot is designed for.
Also see the online customer service section.
Related terms
Some other terms that might sometimes be used to refer to digital assistants:
- Agent
- Digital agent
- Intelligent agent
- Software agent
What is the proper term?
Alas, there is no single, widely acknowledged proper term for the products and services covered by this paper. To wit, here are the common characterizations of the Big Four products:
- Apple Siri — intelligent personal assistant.
- Amazon Alexa/Echo — intelligent personal assistant.
- Google Assistant — virtual personal assistant.
- Microsoft Cortana — virtual assistant.
Those are the terms used in the respective Wikipedia articles for those products and services.
Given how fluid and unsettled the use of the terminology is, this paper arbitrarily settled on the use of the term intelligent digital assistant, or digital assistant for convenience and conciseness when the context is reasonably clear.
パーソナル デジタル アシスタント
パーソナル デジタル アシスタントまたは PDA という言葉は、これらの新しいデバイスやサービスに使用するには当然のように思えますが、この言葉はすでに使われているか、少なくとも使われたことがあり、それは 1990年代後半および 2000年代前半に非常に人気が高かったクラシックな Palm Pilot PDA デバイスで例証されており、同様の機能を備えたスマートフォンが携帯用個人情報管理市場を席巻するまではそうでした。
主な機能は、名前、電話番号、住所、メモなどの連絡先管理です。 スマートフォンではない携帯電話と組み合わせて使用する、ベスト ポケット型の名簿とノートブックです。 質問/回答やタスクの機能はありません。 実際、デバイスにダウンロードできるさまざまなアプリやゲームなどがありましたが、それらの機能のための音声または自然言語インターフェイスのようなものはありませんでした。
おそらく、この用語は時間とともにインテリジェントなデジタル アシスタントの同義語として再生されるでしょう。
しかし、Cortana のサポート ページでは、デジタル エージェントという用語が使われています
- Cortana はあなたのデジタル エージェントです。
このように、この新しい製品/サービス カテゴリーでは、用語がいかに流動的で不確かであるかを示しています。
タスクと目標
現在のデジタル アシスタントは非常に素晴らしいですが、まだかなり限定的です。
特に、デジタル アシスタントは目標指向というよりタスク指向です。
前の論文「アシスタントとは何か」で説明したように、デジタル アシスタントは目標指向ではありません。
先の論文「アシスタントとは何か」で述べたように、タスクは、多くの労力を必要とするかもしれませんが、一般に、複雑な推論、判断、慎重な決断、および計画をあまり必要としない比較的単純な操作であり、目標は、ある程度重要なレベルの複雑な推論、判断、慎重な決断、および計画を必要とするより複雑なタスクの集合です。
その論文が指摘するように、多くのアシスタントによる作業の多くは実際には単なるタスク指向ですが、さらに専門的で有能なアシスタントは目標指向の作業を行うことが可能です。
現在のデジタル アシスタントの波は、基本的な自然言語を解析し、興味深い、しかしかなり限定された一連の意味を認識するのにかろうじて十分な能力を持ち、人間のアシスタントのより高度な能力による複雑な意味にははるかに及びません。
タスクは、実行する操作を詳細に記述することによって指定されます。
目標は、達成すべき目標を述べることによって指定されます。 目的を達成する方法の詳細ではなく、目的そのもの。 実際、そして一般的に、目標を達成するために必要な具体的な作業は、事前に詳細がわからず、目標に向けた作業が進んで初めて明らかになるかもしれません。
現在のデジタル アシスタントは、一度に 1 つの操作を実行するのが一般的です。 Googleはこれをする。 アレクサはそれをする。
タスクは一般に、あまり深い思考を必要とせず、ただ作業に没頭します。
目標は、より深く、より慎重に、そしてより洞察に満ちた思考を必要とする傾向があります。
現在のデジタル アシスタントは、比較的単純なタスクは処理できますが、より複雑なタスクや複雑な推論はできません。
私の AI 論文『Untangling the Definitions of Artificial Intelligence, Machine Intelligence, and Machine Learning』で述べたように、これらのデジタル アシスタントは弱い AI は提供しますが、強い AI にはほど遠いのです。
プロアクティブ
明確な要求なしにあなたのために何かを行う、積極性に関して、現在のデジタル アシスタントにはよくてわずかな機能しかしかありません。
しかし、デジタル アシスタントの将来の世代は、よりプロアクティブになり、私たちがそれを必要とするかもしれないと意識する前に、情報やサービスを提供してくれるようにさえなるでしょう。
しかし、それは未来であって、現在ではありません。
これは、本稿で取り上げるインテリジェントなデジタル アシスタントが利用するテクノロジーに近いものですが、Web サイトは、消費者向けの質問やタスクよりも、商業的なカスタマーサービス タイプの質問やタスクに焦点を当てています。
しかし、Web サイト チャットは、汎用インテリジェント デジタル アシスタントよりもあなたのオンライン生活の狭いニッチに対して詳細な洞察を提供できるかもしれません。
Web サイトおよびサービスのプラグイン モジュール
知的デジタル アシスタント ベンダーは現在、開発者へのサポートを提供しており、Web サイトは理論上、ユーザーが利用するオンライン サービスのより多くの側面に汎用知的デジタル アシスタントがアクセスできるようなプラグイン モジュールを開発できるようになっています。
これは現在では一般的ではありませんが、多くの Web サイトがスマートフォン用のアプリを提供しているのと同様に、インテリジェントなデジタル アシスタントの採用が進むにつれて、より一般的になるでしょう。
スマート カー
ドライバーレス車の登場以前から、近年の自動車にはかなり多くのスマート機能が組み込まれており、以前は人間のドライバーによって手動で行わなければならなかった動作を自動化し、ある程度の感知や車両自体の判断も関わってきました。 これらの機能がそれ自体インテリジェンスを構成するかどうかは議論の余地がありますが、最低でもドライバーを支援するものであり、非常に現実的な意味でデジタル アシスタントと見なすことができますので、特にこれらの機能が、家庭用デジタル アシスタントでさえ現在達成できていない種類の積極的なタスクを実行する場合、インテリジェント デジタル アシスタントと見なすことは大きなストレッチではありません。
しかし、今後数年間で、AI、スマート カー機能、およびドライバーレス車両はそれぞれ進化し、未来の自動車をインテリジェントなデジタル アシスタントと考えることはそれほど大げさなことではなくなります。 結局のところ、個人の移動は個人的なサービスであり、伝統的にドライバーと呼ばれる人間のアシスタントによって行われてきました。
1つのニットは、仮想アシスタントという用語があいまいであるということです。 この用語は、新しい音声起動型デジタル アシスタントの 1 つを指すだけでなく、自宅や第三者請負業者など、リモートで働く人間のアシスタントをも指します。
デジタル アシスタントが答えられない質問
ビッグ 4 も、その他の接続アシスタントも、次の質問には答えられません。 なぜなら、どんな質問にも答えるには、ネットワーク接続が必要だからです。
歴史
デジタル アシスタントの長い歴史は興味深いものですが、本稿の範囲を超えています。
Wikipedia には、パーソナル デジタル アシスタントに関する背景がいくつか掲載されています。
さらに、人間の能力とは大きく異なるデジタル コンピューティングのユニークな能力に基づいた、幅広い拡張機能があると思われます。
それでも、デジタル アシスタントが人間のアシスタントを超えるまでには、かなりの時間がかかると思われます。
インテリジェントなデジタル アシスタントの進化を促す重要な要因は、AI 自体の進歩のペースにあります。
ループ内の人間
現在のデジタル アシスタントで開発されていない 1 つの展望は、人間をループに統合する能力です。
簡単に言うと、デジタル アシスタントは簡単なタスクの大部分を行い、難しいタスクのときだけ人間の介入に戻るということです。
クラウドソーシングは、単純な検索やリアルタイム データの参照では答えられない、より複雑で主観的、または現在の質問に答えるために、1 人ではなく多くの人をループに入れる別の方法です。
クラウドソーシングの質問
私の知る限り、クラウドソーシングを使って質問に答えるデジタル アシスタントは市場に存在しません。
今日できることは、Quora や StackExchange などの質問/回答のウェブサイトに質問を投稿して、辛抱強く回答を待つことです。
タスクのクラウドソーシング
インターネット上にはタスクに関するさまざまなクラウドソーシング サービスがありますが、私の知る限り、現時点ではトップ インテリジェント デジタル アシスタントと統合されたものはありませんが、おそらく時間の問題で出現し始めると思います。
タスクラビットを呼び出すために Amazon Alexa に追加できるスキル モジュールがありますが、統合は少し原始的なようです。
必要なのは、特定のタスク サービスに関するユーザーの知識を必要としない、クラウドソーシング タスク用の汎用機能を、各主要デジタル アシスタントが持つことです。
さらに言えば、ユーザーは単にタスクや問題の性質を述べることができ、デジタル アシスタントはどのようなタスクが必要かを推論することができるはずです。
- Alexa、私の蛇口は水漏れしています。
- Siri、私の仕事は最悪です。
- Google、頭が痛くて視界がぼやけている。
グループ クラウドソーシング
クラウドソーシングは一般的に非常にオープンエンドで無制限のもので、どこでも誰でも参加できます。
友人や親戚のグループかもしれませんし、ある分野の専門家かもしれません。 または、ある組織のメンバー。 または、選択された人口統計学的グループ。 あるいは、地元のコミュニティ、あるいは近隣のコミュニティかもしれません。
確かに、選択性は少なくとも部分的には、広く開かれたクラウドソーシングの全体的なポイント、つまり、本当の、最も価値のある専門知識がどこにあるか本当に分からないということを打ち消してしまいますが、ある種のタスクでは、それは許容できる選択かもしれません。
ビデオ
現在の音声起動型のコンシューマー デジタル アシスタントは操作にビデオを組み込んでいませんが、それは今後数年間で変化すると思われます。
スマート カーや無人運転車はすでに動画機能を備えています。
将来的に有望な手段の 1 つは、専門のデジタル アシスタント、セラピー アシスタントで、精神や行動の問題を抱える人々を助け、より有益な思考や行動に導き、また彼らをモニターして問題のある症状があれば精神衛生の専門家や保護者に警告を発します。
確かに、この分野には多くの倫理的問題があり、仮想地雷原のようなものです。
より広範で倫理的に困難なアプリケーションは、日常的なデジタル アシスタント用のプラグイン モジュールで、正常なユーザーが、精神衛生の専門家に注意を向けるべき精神または行動の症状を示している可能性がある場合に、それを検出することです。
リスクのある子供を持つ親は、自分の子供、家族、親戚など、リスクがあるかもしれないと心配している人に対して、このような監視を明示的に有効にする決定をより容易に下すことができます。 インテリジェントなデジタル アシスタントの差し迫った時代