DUICUO

オープンAI音声アシスタントMycroftでプライバシーを確​​保

[[258822]]

[51CTO.com クイック翻訳] 音声アシスト技術は非常に人気があり、すでに25億台のデバイスが使用されており、この数は2023年までに3倍の80億台に達すると予想されています。主流の音声アシスト技術にはプライバシーとセキュリティの脆弱性があるにもかかわらず、この成長は止められないようです。

そのような脆弱性の一つが「開いた窓」脆弱性です。例えば、悪意のある人物が開いた窓の前を通り過ぎ、「おい、ドアを開けて!」と叫んで侵入する可能性があります。研究者たちはまた、AlexaとGoogleアシスタントには数千もの誤報ウェイクワードがあり、悪意のあるコマンドを挿入する潜在的な手段となることを発見しました。テレビを介して亜音速のコマンドを挿入するリスクを指摘する人もいます。Amazonはすでに、コマーシャル中にAlexaが起動しないように周波数を操作しています。さらに、インターネットに接続された他のコンピュータデバイスと同様に、バックドアやその他の一般的な脆弱性が存在する可能性があります。

プライバシーとセキュリティを確保するオープンソーステクノロジー

Mycroft AIのようなオープンソースの音声アシスタントは、セキュリティとプライバシーへの道を意図的に提供しています。本質的に、オープンソースソフトウェアは脆弱性を明らかにするためのコードレビューを奨励しています。

私の会社であるMycroftは、音声アシスト技術は安全であり得るという考え方を支持しています。公開された共通脆弱性(CVE)に対処するためのプロセスを設けています。開発ツールとして、SSHなどのシステムに大きく依存しており、セットアップウィザードを含むデバイスのデフォルトパスワードの変更を常に推奨しています。また、インテント解析、スキル、音声合成(TTS)などの機能をデバイスに移行しました。これは、他の大企業がクラウドで行っていることです。技術に精通したホームユーザー向けには、ファイアウォールの内側ですべてのエクスペリエンスを実行するために必要なコンポーネントを近日中にリリースする予定です。ユーザーがソフトウェアを可能な限り自由に制御できるようにしたいと考えています。

声紋認識により、AIは声で人を識別できるようになり、ユーザーは特定の個人にロックアウト、購入、その他の機密性の高い権限を割り当てることができるため、「ウィンドウロックアウト」や誤報ウェイクワードなどの脆弱性を軽減できます。これらは、ワンタイムパスワードによる二要素認証や、より高度な音声生体認証によって補完できます。GoogleとAmazonはすでにアシスタントに何らかの形で声紋認識機能を導入しており、私たちもこの分野で有望な企業と連絡を取っています。ウェイクワード認識の精度向上により、誤報ウェイクワードのリストが絞り込まれるでしょう。適切に設計されたフィードバックループでは、誤報は機能しない可能性が高いです。MycroftのPrecise tagging toolの技術を用いてフラグ付けできるからです。

オープンソースイノベーション

かつては、オープンソースを通じて実験が奨励されていました。真のイノベーションはこうして生まれ、新しいテクノロジーはこうして構築されるのです。

私たちは、イノベーターがより少ない文字列で音声アシスタント技術を試す機会を提供します。オープンソースは、ソフトウェアをコミュニティ内での共同作業へと導きます。例えば、Mycroftでは、16人の技術メンバーからなるチームではなく、数千人の開発者がフィードバックを提供し、新機能を開発し、コアソフトウェアに貢献しています。私たちのライセンスモデルを基盤とすることで、イノベーターは優れた新しい実装から容易にビジネスを構築できます。

より深いレベルでは、オープン性とは、テクノロジーがそれを提供する企業だけでなく、ユーザーを完全に代表できることを意味します。音声アシスタントは、人々があらゆるテクノロジーと関わる方法を変革する可能性を秘めています。音声は、家庭、オフィス、モバイルデバイス、そして公共空間を、これまで想像もできなかった方法で変えるでしょう。

私たちは、人々が自問自答してくれることを願っています。「この技術は完全に自分の利益のためだけに使われるべきなのか、それとも小売業者や検索・データ企業の利益のために使われるべきなのか?」 ほとんどの人は前者を選ぶだろうと私たちは信じています。これを実現する唯一の方法は、オープン性、透明性、そしてコミュニティ主導のアプローチを確保することだと私たちは知っています。

音声アシスタント機能

Mycroftは他の音声アシスタントと同じ機能を提供しますが、その方法は異なります。ほとんどの音声アシスタントは、デバイス上でウェイクワード認識を行い、その後のやり取りをクラウドに送信して処理し、応答をスピーカーに返します。

Mycroftは、このプロセスの大部分をソフトウェアを実行するデバイスに移行しています。デバイス上のウェイクワード認識機能を使用してコマンドを聞き取ります。ウェイクワードが検出されると、コマンドが録音され、音声テキスト変換のためにクラウドに送信されます。文字起こしが完了すると、テキストファイルがデバイスに送り返され、デバイス上で自然言語処理、スキル処理、音声合成が実行されます。

スキルはMycroftを力強くサポートします。社内チームやコミュニティから集められたスキルを、新しいMycroftスキルマーケットプレイスに着実に追加しています。Mycroftは、複数の音楽ソースをコントロールしたり、多数のIoTプラットフォームに接続したり、WikipediaやWolfram|Alphaを含む12のソースから一般情報を取得したり、ゲームをプレイしたり、サイコロを振ったり、物語を語ったり、スピードテストを実行したりなど、様々なことができます。

Mycroftはモジュール化されているため、ユーザーはコンポーネントを簡単に交換できます。例えば、現在2種類のウェイクワードと3種類の音声を提供しており、将来的にはさらに多くの音声をサポートする予定です。また、Mycroftは、あらゆるプロバイダー(クラウドまたはオンプレミス)のカスタムウェイクワードとTTS音声を実行することもできます。

原題: Open AI 音声アシスタント Mycroft によるプライバシー保護; 著者: Eric Jurgeson

[この記事は51CTOによって翻訳されました。提携サイトへの転載の際は、元の翻訳者と出典を51CTO.comとして明記してください。]