|
データ分析の黄金時代を迎えた今、オープンソースコミュニティも例外ではありません。誰もがプレゼンテーションスライドに印象的な数字を載せることに熱心ですが、適切な分析手法を習得すれば、そこから得られる情報はより大きな価値をもたらすことができます。 データサイエンティストとして、データ分析と自動化がコミュニティの意思決定に役立つと私が言うと思うかもしれません。しかし、実際には正反対です。データ分析は、既存のオープンソースコミュニティの知識を基盤に構築し、他の知識を吸収し、潜在的なバイアスや考え抜かれていない視点を明らかにするために活用してください。あなたはコミュニティ活動の実装の専門家かもしれませんが、同僚はコーディングの専門家かもしれません。それぞれが自分の知識の文脈の中で情報を視覚化することで、全員がその情報から恩恵を受けることができます。 正直に言って、誰もがやるべきことが山ほどあり、一日の時間は決して足りないように思えます。コミュニティからの回答を得るのに何時間もかかるなら、すべてに対応するだけのエネルギーがないのは明白です。しかし、時間をかけて包括的な視覚化プロジェクトを作成することで、自分が関心を持つコミュニティのさまざまな側面を把握し、疲労から解放されることができます。 「データドリブン」思考の台頭により、オープンソースコミュニティを取り巻く情報の宝庫は、恩恵にも呪いにもなり得ます。以下では、データの山から貴重な情報を抽出する方法をいくつかご紹介します。 あなたの期待は何ですか?指標を検討する際、まずは伝えたいメッセージを明確にすることが重要です。ここでは、その際に考慮すべき概念をいくつかご紹介します。 有益で影響力のある行動:あなたのコミュニティには、まだ理解されていない分野がありますか?最初の一歩を踏み出しましたか?具体的な方向性を定めようとしていますか?既存の取り組みの効果を測定していますか? 改善点を明らかにし、強みを強調する:ビジネスへの影響を示したり、プロジェクトを宣伝したりする場合など、コミュニティの強みを強調して宣伝したい場合があります。しかし、コミュニティ内でのコミュニケーションにおいては、改善のために、様々な指標から弱点を的確に特定する必要があることがよくあります。強みを強調すること自体は悪いことではありませんが、適切なタイミングと場所で行う必要があります。コミュニティ内で自分の強みを応援団のように利用し、自分の素晴らしさを皆に伝えるのではなく、むしろ、コミュニティ外の世界と共有することで、認知度の向上や昇進を目指しましょう。 コミュニティとビジネスへの影響:数字とデータは多くの企業にとっての言語です。しかし、だからこそ、コミュニティを擁護し、その価値を真に実証することが非常に困難になる場合があります。データは、コミュニティの言語で語りかけ、彼らが見たいものを示す手段となり、データの背後にある根底にある意味を効果的に伝えることができます。もう一つの視点は、オープンソースの全体的な影響です。あなたのコミュニティは、他のコミュニティやエコシステムにどのような影響を与えているでしょうか? これらの視点は互いに排他的なものではなく、むしろ相互に関連しています。適切な枠組みは、より思慮深い測定基準の構築に役立ちます。 データサイエンスと機械学習のワークフロー 一般的なデータサイエンスや機械学習の作業について話すとき、多くの場合、このようなワークフローが説明されます。ここでは最初のステップ、つまり問題と指標を書き留めることに焦点を当て、2番目のステップについても簡単に説明します。データサイエンスの観点から見ると、このデモはこのステップのケーススタディと見なすことができます。このステップは見落とされがちですが、分析の真の価値はここから生まれます。ある日突然、何を見るべきかを正確に理解することはできません。まずは、知りたいことと手元にあるデータを理解することから始め、徐々により深いデータ分析へと進めていきましょう。 オープンソースデータ分析の3つのユースケースここでは、オープンソース データ分析中に発生する可能性のある 3 つの異なるシナリオを示します。 シナリオ1: 既存データの分析分析を始めるにあたって、これから調査する内容が自分やコミュニティにとって有益だと既に分かっているとしましょう。では、分析の価値をどのように高めるのでしょうか?ここでの考え方は、「従来型」のオープンソースコミュニティ分析の基盤に基づいています。データから、プロジェクトのライフサイクル全体を通して120人の貢献者がいるとしましょう。これはスライドに載せられる値ですが、それだけで判断することはできません。数字だけを把握するだけでなく、洞察を得るためのステップを踏みましょう。例えば、同じデータから貢献者をアクティブな貢献者とチャーンした貢献者(しばらく貢献していない人)に分類することで、より深い洞察を得ることができます。 シナリオ2:地域活動の影響測定目標と影響 集会、会議、その他の地域貢献活動において、その影響と目標をどのように捉えていますか?実は、この2つのステップは相互に関連しています。活動の目標を定義したら、その効果をどのように測定するかを決める必要があります。この情報は、活動の目標設定に役立ちます。活動を始める際には、具体的な計画を立てるのではなく、漠然とした計画を立ててしまうという罠に陥りがちです。 シナリオ3:新たな影響分析エリアの形成新しい分析領域 これは、データ分析をゼロから行う場合に発生します。上記の例は、このワークフローのさまざまな部分を表しています。このワークフローは進化するサイクルであり、いつでも改善または拡張できます。この概念に基づいて、必要な手順を以下に示します。この記事の後半では、このアプローチの実際の適用例を3つ紹介します。 ステップ1:関心領域と視点を分解するまず、魔法のエイトボールを想像してみてください。どんな質問でも投げかけて振れば答えが返ってくるおもちゃです。あなたの分析分野を考えてみてください。どんな質問にも瞬時に答えが返ってきたら、どんな答えが返ってくるでしょうか? 次に、データについて考えてみましょう。マジック8ボールの問題において、どのようなデータソースが問題や関心領域に関連する可能性がありますか? データの文脈において、どのような質問に答えることで、提案したマジック8ボールの問題に近づくことができるでしょうか?すべてのデータをまとめようとする場合、自分が立てた仮定を考慮する必要があることに注意することが重要です。 ステップ2: 問題を指標に変換する最初のステップにおける各サブ問題の処理手順は次のとおりです。
次に、コミュニティを巻き込んでフィードバックを提供し、反復的な開発を促進します。この共同作業こそが、真の魔法と言えるでしょう。最高のアイデアは、誰かにコンセプトを提示し、自分や相手が想像もしなかった方法で刺激を与えたときに生まれることがよくあります。 ステップ3:実践の分析このステップでは、作成したメトリックまたは視覚化の影響に対処し始めます。 最初に考慮すべきことは、この指標がコミュニティに対する現在の理解と一致しているかどうかです。
分析が十分に堅牢であると判断できたら、その情報に基づいたコミュニティ活動の実施を開始できます。分析を進め、最適な次のステップを決定する際には、活動の成功を測定するための具体的な方法を特定する必要があります。 次に、指標に基づいてこれらのコミュニティイニシアチブを観察します。以前に設定した成功指標を用いて、その影響を観察できるかどうかを確認します。観察できない場合は、以下の点を検討してください。
分析領域の例: 新しい貢献者マジック8ボールの問題点は何でしょうか?
分析領域とマジック 8 ボール問題にはどのようなデータを含めることができますか?
情報とマジック8ボールの問題が揃ったので、分析をいくつかのサブパートに分割します。この考え方は、上記のステップ2と3に関連しています。 サブ質問 1: 「人々はこのプロジェクトにどのように参加するのでしょうか?」 この質問の目的は、まず新しい貢献者が何をしているのかを知ることです。 データ:時間の経過に伴う GitHub への最初の貢献に関するデータ (問題、PR、コメントなど)。 各四半期の最初の貢献チャート 視覚化:四半期ごとに分類された最初の貢献棒グラフ。 潜在的な影響:他のコミュニティメンバーと話し合った後、四半期ごとの内訳をさらに詳しく調べ、貢献者がリピーターなのか、それとも一時的な参加者なのかを確認します。参加した人が何をしているのかを把握することで、彼らが継続するかどうかを判断できます。 四半期ごとのパスバイ寄付アイコン この情報から、どのようなアクションを実行できるかを学びます。
アクションプロジェクト:
サブ質問 2: 「私たちのコードベースは本当に合格した貢献者に依存していますか?」 データ: GitHub からの貢献データ。 貢献者の種類が時間の経過とともにどのように変化するかを示すグラフ 視覚化: 「総貢献: 通行人および繰り返し貢献する人の貢献別に分類。」 この情報に基づいて実行可能なアクション。
分析:経験から学ぶ数字やデータ分析は「事実」ではなく、あらゆる視点を裏付ける可能性があります。そのため、データを扱う際は、内省的な懐疑論者は非常に積極的に行動し、真の価値を引き出すために繰り返し分析を行う必要があります。分析を単なる「イエスマン」に終わらせないためにも、少し時間を取って一歩引いて、自分が立てた仮定を検証しましょう。 指標が調査の道筋を示すだけでも、それは大きな勝利です。すべてを見たり考えたりすることは不可能ですが、うさぎの穴は良いものであり、会話のきっかけが新たな場所へと導いてくれることもあります。 測定しようとしているものが実際には存在しない場合でも、貴重な詳細が得られる可能性があります。最初の疑問に対する正確な答えにたどり着くためのパズルのピースがすべて揃っていると決めつけてはいけません。無理やり答えや解決策を導き出そうとすると、思い込みに導かれて危険な道へと進んでしまうことになります。分析の方向性や目標を変更する余地を残すことで、当初の考えよりもはるかに優れた洞察が得られる可能性があります。 データは単なるツールであり、決定的な答えではありません。データは、他の方法では得られない洞察や情報を収集することができます。最も重要なのは、知りたい情報を扱いやすいサイズに分割し、それらを分析することです。 オープンソースのデータ分析は、データサイエンス全体について注意を払う必要がある理由を示す良い例です。
データサイエンスの経験がなく、これから始めようとしているコミュニティメンバーの皆さんにとって、この情報を通して、このプロセスにおけるあなたの重要性と価値を実感していただければ幸いです。あなたはコミュニティに洞察と視点をもたらしてくれます。データサイエンティスト、あるいはメトリクスやビジュアライゼーションの実装に携わる方は、たとえアクティブなコミュニティメンバーであっても、周囲の意見に耳を傾けるべきです。データサイエンスに関する詳細は、この記事の最後に記載されています。 要約上記の例を、独自のオープンソースプロジェクトのデータ分析を構築するためのフレームワークとして活用してください。結果について問うべき質問は数多くありますが、これらの質問とその答えを理解することで、プロジェクトを刺激的で生産的な方向に導くことができます。 |