|
4月7日、Twitterがイーロン・マスク氏の長年の約束を果たし、先週、レコメンデーションアルゴリズムの基盤となるコードの一部をGitHubで公開したと報じられました。しかし、研究者らは、公開された内容は網羅的ではないと指摘しています。Twitterは「アルゴリズムの実際の動作」といった重要な詳細を省略しており、Twitterプラットフォームの内部構造を理解することは依然として困難です。 以下は翻訳した内容です。マスク氏がTwitter買収を初めて発表した際、彼は最初の仕事としてTwitterのアルゴリズムを「オープンソース化」すると宣言しました。先週、彼はついにその約束を果たし、「あなたへのおすすめ」機能の基盤となるコードの一部をGitHubで公開しました。 人々はすぐにコードを深く掘り下げ、マスク氏のツイートに特別なカテゴリータグが付けられていることを発見しました。Twitterのエンジニアは、これは「追跡と統計」のためだと慌てて説明しましたが、これは他の分析によって裏付けられました。Twitterは数時間後にGitHubからコードを削除しましたが、人々は依然としてTwitterのエンジニアがマスク氏のコンテンツを優遇し、ツイートの視認性を高めるために人為的な手段を用いているのではないかと推測していました。 それ以来、Twitterはこれ以上のコードを公開しておらず、プラットフォームのアルゴリズムの内部構造についても説明していません。Twitterが公開したコードを通じてプラットフォームの内部構造を解明しようと期待する人は、失望する可能性が高いでしょう。これらのアルゴリズムを研究したエンジニアによると、これはTwitterが公開したコードが「アルゴリズム」の実際の動作といった重要な詳細を省略しているためです。 ソーシャルメディアを研究するニューヨーク大学准教授で元ツイッター社員のソル・メッシング氏によると、ツイッターが公開するコンテンツはツイッターのアルゴリズムによって「大幅に編集」されており、主な問題はツイッターの推奨機能に関係するすべてのシステムをカバーしていないことだという。 Twitterは、悪意のある人物によるコードの悪用を防ぐため、広告処理に使用されているコード、信頼システム、セキュリティシステムを非公開にしていると述べています。さらに、Twitterはアルゴリズムの学習に使用されている基盤モデルを非公開にすることを決定し、ブログ投稿で「ユーザーの安全とプライバシーの保護を確保するため」と説明しています。メッシング氏は、この決定はさらに重要だと考えています。「アルゴリズムの最も重要な部分である駆動モデルは、依然としてクローズドソースのままです」と彼は述べ、「したがって、アルゴリズムの核心は依然として謎に包まれています」と続けました。 マスク氏がTwitterのアルゴリズムをオープンソース化しようとした当初の動機は、Twitterがそのアルゴリズムを使って言論の自由を抑圧しているのではないかという懸念から生まれたようだ。昨年4月のTEDトークで、マスク氏は「Twitterはアルゴリズムをオープンソース化し、ツイートの内容に対する変更(推奨であれ拒否であれ)を透明性と明確性をもって提示すべきだ。そうすれば、Twitterが何をしたかは誰でもわかるし、舞台裏でアルゴリズムや人間による操作が行われることもなくなる」と述べた。このトークは、マスク氏がTwitterの買収を発表した直後に行われた。 Twitterが公開したコードは、プラットフォームに潜在的な偏りがあるかどうかを判断するのに十分な情報を提供しておらず、マスク氏が暴露しようとしていたような「舞台裏での操作」が存在するかどうかも説明していない。「これは単なる透明性向上の取り組みです」とメッシング氏は述べた。「しかし、アルゴリズムの仕組みや、なぜ一部の人のツイートのランキングが下がり、他の人のツイートのランキングが上がるのかを人々に理解させるのにはあまり役立ちません」 さらにメッシング氏は、Twitterが最近行ったアプリケーション・プログラミング・インターフェース(API)ポリシーの調整により、研究者の大多数がTwitterプラットフォーム上の膨大なデータにアクセスできなくなったと指摘しています。適切なAPIアクセスがなければ、研究者はTwitterのアルゴリズムの新たな詳細を独自に調査することができません。メッシング氏は分析の中で、「この慣行とTwitterによるこのコードの公開により、研究者がコードの内容を深く掘り下げることがさらに困難になっている」と述べています。 昨年、マスク氏がTwitterのアルゴリズムを「オープンソース化」する計画を初めて発表した直後、分散人工知能研究所(DAIR)の研究ディレクターであるアレックス・ハンナ氏も、研究者によるコードレビューの重要性を強調した。メッシング氏と同様に、ハンナ氏も、単にGitHubでコードを公開するだけでは、Twitterの運営に関する透明性を高めるには不十分だと考えている。 ハンナ氏は、「ツイッターのアルゴリズムに対する公的な監視といったことに本当に関心があるなら、複数のアプローチを取る必要がある」と語った。 しかし、TwitterがGitHubで公開したコードの一部は、そのアルゴリズムの側面を明らかにしている。メッシング氏は、データサイエンティストのジェフ・アレン氏が、Twitterが様々なタイプのユーザーエンゲージメントを優先順位付けするために「公式」を用いていることを示す文書を発見したことを明らかにした。メッシング氏は、「文字通りに解釈すると、Twitterの「いいね!」1件はツイートのリツイートの半分に相当する」と記している。「返信1件はリツイート27件に相当し、返信1件とツイート投稿者の返信を合わせるとリツイート75件に相当する」。 これはある程度の情報を明らかにしているものの、Twitterの仕組みの説明は不完全だ。メッシング氏は「実際のデータがなければ、この種の分析はあまり意味をなさない」と述べた。「昨今、マスク氏が研究者からデータを入手するには途方もなく費用がかかる。もし彼らが今本当にこのことを研究したいのであれば、意味のある大量のデータを得るためには、基本的に年間50万ドルを費やす必要があるだろう」 |