|
GitHubは説明の必要がないほどの有名ツールです。初心者の中にはGitHubの使い方に戸惑う人もいるかもしれませんが、私も同じく初心者なので、GitHubの用途はプロジェクトのバージョン管理だけにとどまらないことをよく理解しています。誰でも参加できるオープンソースプロジェクトに加え、GitHubは豊富な学習リソースも提供しています。
オンラインコースは確かに有益ですが、新しい知識を定着させるには実践が不可欠です。CodewarsやCodekataなどの人気ウェブサイトでは、ユーザーが自分のニーズに合わせて言語を選択し、問題を解くことができる毎日の練習問題を提供しています。 Pandasのスキルを向上させたい場合は、以下の4つのGitHubコードリポジトリを参考にPandasを学習できます。これらのリポジトリの1つは最もフォークされており、幅広いユーザーを抱えているため、Pandasの初心者にも上級者にも適しています。 Pandas 演習 - 複数クラスデータ (4k フォーク) Pandas Exercisesコードリポジトリのスクリーンショット このコードリポジトリは11のセクションで構成されており、データの前処理から高度なデータ可視化まで、あらゆる内容を網羅しています。各フォルダには、異なる演習を含む複数のデータセットが含まれています。 ユーザーはIPYNBファイルをダウンロードし、Jupyterノートブックを開いて自分で試してみることができます。問題の下の空白セルにコードを入力し、「Exercise_with_Solution.ipynb」ファイルで解答を確認できます。 このコードリポジトリは包括的で、27個のノートブックが用意されています。Pandasに既に慣れている方でも、「Getting and Knowing(入門と理解)」セクションをチェックしてみてください。`.describe(include=all)`や`.nunique()`といった新しい関数を学べるかもしれません。 Pandas ビデオ - マルチクラスデータ/ビデオを含む (1.2k フォーク) Pandas Videos コードリポジトリのスクリーンショット コードリポジトリには、Pandasの様々な機能を紹介するビデオシリーズから派生したコードが収録されたJupyterノートブックが含まれています。著者は実際のデータセットを用いて問題解決プロセス全体を解説し、ノートブックに記録してオンラインで公開しています。 Jupyterノートブックを開くとすぐにビデオが再生されるのが理想的です。ビデオとコードの両方を確認した後、コードリポジトリ内のノートブックを「解答用紙」として使用できます。これらのノートブックには、特定のセルの出力結果を明確にするための脚注も含まれています。 これらの動画と対応するノートブックは非常に包括的です。「PandasでSeriesとDataFrameをソートする方法」といった単純なものから、「Pandasとscikit-learnを使ってKaggleに投稿する方法」といった複雑なものまで、Pandasに関するあらゆる質問に対する答えは、このコードリポジトリで見つけることができます。 100 個のパンダ パズル (1k フォーク) 100 Pandas Puzzlesのコードリポジトリのスクリーンショット コードリポジトリには、ダウンロード可能なJupyterノートブックファイルといくつかの演習が含まれています。ユーザーは問題の下のセルにコードを入力し、「solutionsnotebook」ファイルの対応するセルと比較することができます。 このノートブックは、「Pandasのインポート」、「DataFrameの基本」、「SeriesとDatetimeIndex」など、様々なパートで構成されています。ほとんどの問題は大きなコードブロックを必要とせず、理想的には数行で解決できます。 このコードリポジトリの「マインスイーパー」セクションは非常に興味深いものです。このセクションでは、マインスイーパーゲームに必要なデータ(マスの座標、マスに地雷があるかどうか、隣接するマスにある地雷の数など)を含むDataFrameを作成します。「マインスイーパー」の難易度は中~高ですが、以前の演習を完了している人であれば十分にこなせるレベルです。従来のデータ分析とは異なり、このセクションでは特定のシナリオでDataFrameを使用する能力が試されるため、非常に興味深い内容となっています。 著者はまた、質問リストはまだ完成しておらず、質問を改善したい人は誰でも、さらに練習したり、修正や改善をしたりするために申請できると指摘しています。 PyCon 2019 チュートリアル - 中難易度 (180 フォーク) PyCon 2019チュートリアルコードリポジトリのスクリーンショット このコードリポジトリには、著者が自作したビデオシリーズ「Pandas を使ったデータサイエンスのベストプラクティス」で解説されているコードが収録された非常に長いノートブックが含まれています。このリポジトリは Pandas の基礎については扱っていないため、中級レベルの Pandas ユーザーに適しています。 8つの主要パートで構成されており、「チュートリアル」モデルに厳密に従うものではありません。データの検証やクリーニングから、例えば「平均してどのようなタイプの専門家が最も興味深いTEDトークを行うのか?」といった具体的な質問に答えるための予備的な視覚化の作成まで、より実践的なデータ分析プロジェクトに近い内容となっています。 Python と Pandas を使用したデータ分析プロジェクトを初めて行う初心者の場合、ビデオ全体を視聴することで、他のユーザーがデータのクリーニング、探索、分析などのさまざまな手順を実行する方法を理解し、基本を学んで自分のプロジェクトに適用できるようになります。 学習方法はたくさんあるので、自分の Pandas レベルに合った学習リソースを選択して、GitHub で試してみるのも良いでしょう。 |