|
みなさんこんにちは、エチャです。 最近、ファンの方からプライベートメッセージを数多くいただいていますが、その中で最も多く寄せられる質問は、「優れたオープンソースプロジェクト、AI関連のオープンソースプロジェクト、あるいはChatGPTのオープンソースプロジェクトについて、何かお勧めはありますか?」というものです。正直なところ、優れたオープンソースプロジェクトを見つけるのは容易ではありません。数十個、いや100個に1つ見つかるかどうかといったところです。たとえ見つけたとしても、そのプロジェクトを理解し、時間をかけて適切にセットアップ・デプロイし、コンパイルしてファンと共有できるようにする必要があります。 私たちはファンの要望に応えて、忙しいスケジュールの合間を縫って、GitHub から 9 つの優れたオープンソース プロジェクトを選択し、皆さんの学習に役立つことを願っております。 全文概要
Transformers は数千の事前トレーニング済みモデルを提供します。公式サイト:https://huggingface.co Github: https://github.com/huggingface/transformers ハギングフェイス公式サイト AIオープンソースコミュニティでよく知られている「有名人」スタートアップであるHugging Faceは、わずか数年でGitHub上で多くの実用的なオープンソースプロジェクトをリリースし、多くの開発者から賞賛されています。 最も影響力があり、しばしば元祖 GPT と呼ばれるのは Transformers で、これまでに GitHub で 10 万近くのスターを獲得しています。 近年、Hugging Faceプラットフォーム上では、実用的なAI事前学習済みモデルやデータセットが数多く作成されています。これらのリソースの数と質の高さから、Hugging FaceはAI界のGitHubとも言えるでしょう。 今朝早く、Hugging Face が Transformers Agents をリリースし、AI テクノロジー コミュニティに再び大きな波紋を巻き起こしました。 誰でも簡単にこの機能を使用して、OpenAssistant、StarCoder、OpenAI などの大規模な言語モデルを使用した AI インテリジェント エージェントを迅速に作成できます。 Transformersは、100以上の言語でテキスト分類、情報抽出、質問応答、要約、翻訳、テキスト生成をサポートする数千の事前学習済みモデルを提供しています。その目標は、最先端のNLPテクノロジーを誰もが利用できるようにすることです。 Transformersは、簡単にダウンロードしてすぐに使用できるAPIを提供しており、事前学習済みのモデルを特定のテキストに適用し、データセット上で微調整した後、Model Hubを通じてコミュニティと共有することができます。また、定義された各Pythonモジュールは完全に独立しているため、変更や迅速な実験研究を容易に行うことができます。 Transformersは、最も人気のある3つのディープラーニングライブラリ(Jax、PyTorch、TensorFlow)をサポートし、シームレスに統合します。いずれかのフレームワークを使用してモデルを直接トレーニングし、別のフレームワークを使用してロードして推論することができます。 なぜトランスフォーマーを使用するのですか?
どのような状況で変圧器を使用すべきではないですか?
Transformers Agents は、ドキュメントの質問回答、テキスト読み上げ、テキスト画像生成、Web サイト コンテンツの要約、画像のセグメンテーションなど、AI テクノロジーで広く使用されているツールを含む、さまざまな便利なツールを提供します。 開発者は、ツールチェーンのアセンブリを完了するだけで、多くの強力な機能を実現できます。 たとえば、これを使用すると、次の機能を簡単に実現できます。 スクリプトを使えば、リンクから記事のコンテンツを自動的に抽出し、要約を生成し、任意の言語に翻訳し、AIにテキストを読み上げさせることができます。必要に応じて、エージェントに付随画像を生成させることもできます。 あらゆる最新情報を迅速に伝えることができる、AI 機能をベースにしたポッドキャスト システムが登場します。 下の画像に示すように: Transformers実装フローチャート チャットビデオエディタを開くGithub: https://github.com/SCUTlihaoyu/open-chat-video-editor Open Chat Video Editorは、AIを活用したショートビデオ作成ツールで、生産性を飛躍的に向上させます。ChatGPTやAlpacaといった大規模モデルを基盤とし、短いテキストやウェブリンクをワンクリックでショートビデオに変換できます。 下の図は、この技術フレームワークを示しています。全体的なプロセスは、短いテキストをモデルに入力してコピーを生成するというものです。画像検索とAI生成画像を用いて適切な画像を見つけ、動画検索と動画生成技術を用いて適切な動画クリップを見つけます。最後に、音声合成、BGMマッチング、字幕合成を用いて短編動画を作成します。 Open Chat Video Editorは、オープンソースのショートビデオ生成・編集ツールです。その全体的な技術的フレームワークは次のとおりです。 オープンチャットビデオエディターの技術フレームワーク 特性
現在、次の特徴があります。
テキスト生成では以下をサポートします:
視覚情報生成の点では画像と動画の両方のモダリティをサポートし、生成手法の点では検索モデルと生成モデルの両方をサポートしており、現在合計 6 つのモードを提供しています。
効果は以下のとおりです。 短い文章から短い動画まで Yuzu は C++ ベースの Switch エミュレーターです。公式サイト:https://yuzu-emu.org/ Github: https://github.com/yuzu-emu/yuzu Yuzu は、Citra の開発者によって作成された、世界で最も人気のあるオープンソースの Nintendo Switch エミュレーターです。 移植性を考慮して C++ で記述されており、Windows および Linux 用のビルドを積極的にメンテナンスしています。 おそらく、「Kingdom of Zelda」のようなゲームのリリースにより、Switch エミュレーター関連のオープンソース プロジェクトが GitHub のトレンド リストに載るようになったためでしょう。 Yuzu は、Windows と Linux で Switch ゲームを実行できる C++ ベースの Switch エミュレーターであり、現在 26,000 個のスターを獲得しています。 Ryujinx は C# ベースの Nintendo Switch エミュレーターです。公式サイト:https://ryujinx.org/ Github: https://github.com/Ryujinx/Ryujinx おそらく、「Kingdom of Zelda」のようなゲームのリリースにより、Switch エミュレーター関連のオープンソース プロジェクトが GitHub のトレンド リストに載るようになったためでしょう。 RyujinxはC#ベースのNintendo Switchエミュレーターで、WindowsでSwitchゲームをプレイできます。現在、21.7Kのスターを獲得しています。 Chat2DB は AIGC を統合したデータベース クライアント ツールです。公式サイト: http://www.sqlgpt.cn/ Github: https://github.com/alibaba/Chat2DB Chat2DBは、WindowsとMacへのローカルインストール、サーバーサイドでの展開、Webアクセスをサポートする、無料のオープンソースマルチデータベースクライアントツールです。NavicatやDBeaverといった従来のデータベースクライアントソフトウェアと比較して、Chat2DBはAIGC機能を統合しており、自然言語からSQLへの変換、あるいはその逆変換が可能です。開発者にSQL最適化の提案を提供することで、作業効率を大幅に向上させます。AI時代のデータベース開発者にとって強力なツールであり、SQL操作に不慣れな人でも、ビジネスデータを迅速にクエリし、レポートを生成することができます。 ✨特徴
privateGPT プライベートGPTGithub: https://github.com/imartinez/privateGPT privateGPTはオープンソース化されてからわずか2週間で10,000個のスターを獲得しました。プライベート文書をオフラインで処理でき、ネットワーク接続を必要とせず、ローカルで実行できます。 privateGPT にドキュメントを処理させ、その後 GPT にドキュメントを分析しさせ、会話を通じて回答を提供させることができます。 WebCPM は、インタラクティブな Web 検索用に事前トレーニング済みの中国語モデルを使用するプロジェクトです。Github: https://github.com/thunlp/WebCPM 2021年12月、OpenAIはWebGPTを正式にリリースし、Web検索に基づく質問回答の新しいパラダイムの誕生を示しました。 これに続いて、New Bingがまずウェブ検索機能を統合してリリースし、続いてOpenAIもオンライン接続をサポートするChatGPTプラグインをリリースしました。 ネットワーク接続のサポートにより、大規模モデルでは、質問応答機能のリアルタイム パフォーマンスと精度の両方が大幅に向上しました。 最近、Facewall Intelligenceは、清華大学、中国人民大学、テンセントの研究者と共同で、インタラクティブなウェブ検索をベースとした中国語初のオープンソース質問応答モデルフレームワーク「WebCPM」をリリースしました。この関連研究は、自然言語処理のトップカンファレンスであるACL 2023に採択されました。 WebCPMは、MianWan Intelligenceが開発した大規模モデルツール学習エンジンであるBMToolsの初の実装です。その特徴は、インタラクティブなWebページ検索に基づく情報検索です。人間と同じように検索エンジンと対話することで、質問に答え、回答を生成するために必要な事実知識を収集できます。 WebCPM の基盤モデルである CPM は、Wallfacer Intelligence と OpenBMB オープンソース コミュニティによって開発された数十億のパラメータを持つ中国語モデルであり、複数の中国語モデル リーダーボードで上位にランクされています。 WebCPM研究の背景 今日の情報化時代において、人々は日常生活や仕事の中でさまざまな知識や情報を絶えず得る必要があり、これらの情報はインターネット上の膨大なデータの中に散在していることがよくあります。 こうした情報を迅速かつ正確に取得し、統合して複雑で自由回答形式の質問に答えることは、非常に困難な作業です。長文質問応答(LFQA)モデルは、このような複雑な質問に対応するために設計されています。 現在のLFQAソリューションは、一般的に検索・統合パラダイムを採用しており、情報検索と情報統合という2つのコアコンポーネントで構成されています。情報検索コンポーネントは、外部の知識源(検索エンジンなど)から多様かつ関連性の高い裏付けとなる事実を検索し、情報統合コンポーネントは収集された事実を統合して一貫性のある回答を作成します。 しかし、従来の LFQA パラダイムには欠点があります。通常、非対話型の検索方法に依存しており、つまり、情報を取得するためのクエリ ステートメントとして元の質問のみを使用します。 逆に、人間は検索エンジンとリアルタイムでインタラクションし、ウェブを検索することで、質の高い情報を選別することができます。複雑な問題の場合、人間は多くの場合、それを複数のサブ問題に分解し、順番に問いかけていきます。関連する情報を特定し、閲覧することで、人間は元の問題への理解を徐々に深め、新たな疑問を継続的に投げかけ、より多様な情報を探し求めていきます。 この反復的な検索プロセスは、検索範囲を広げ、検索結果の質を向上させるのに役立ちます。全体として、インタラクティブなウェブ検索は、多様な情報源へのアクセスを提供するだけでなく、人間の問題解決における認知プロセスを反映し、解釈可能性を向上させます。 2021年12月、OpenAIはLFQAを使ったインタラクティブなウェブ検索を可能にする先駆的な取り組みであるWebGPTをリリースしました。 著者らは、まず Microsoft Bing を利用した Web 検索インターフェースを構築し、次にそのインターフェースを使用して質問に答えるための情報を収集する注釈者を募集しました。 その後、研究チームはGPT-3モデルを微調整し、人間の検索行動を模倣し、収集した情報を回答へと整理しました。実験の結果、WebGPTはLFQAタスクにおいて優れた能力を発揮し、人間の専門家を凌駕することが示されました。 一方、WebGPT は、Microsoft が最近リリースした新しい Bing を支える次世代検索テクノロジーでもあります。 WebGPTと新Bingは、目覚ましい成果を上げているにもかかわらず、学術界と産業界の両方にとって依然として謎に包まれています。これは、WebGPTの詳細が完全に公開されておらず、その中核となる設計要素の動作原理が不透明であるためです。 インタラクティブな Web 検索の大きな価値を考えると、将来の研究をサポートするための標準データセットと関連するオープンソース モデルが緊急に必要です。 WebCPM 検索インターフェースとデータセット WebCPM 検索インターフェースとデータセット 関連分野の発展を促進するために、この ACL 論文の研究チームはまず、自由形式の質問に関連する情報を収集する際の人間の Web 検索行動を記録するオープンソースのインタラクティブ Web 検索インターフェースを構築しました。 インターフェイスは Bing 検索 API を使用して Web 検索機能をサポートし、10 種類の主要な Web 検索操作 (ページのクリック、戻るなど) を網羅しています。 このインターフェースでは、ユーザーは事前に定義されたアクションを実行することで、複数回の検索と閲覧を行うことができます。ウェブページで関連情報を見つけた場合、それを裏付け事実として記録することができます。 十分な情報が収集されると、ユーザーは収集された事実に基づいてウェブ検索を実行し、質問に答えることができます。同時に、インターフェースはユーザーのウェブ閲覧行動を自動的に記録し、WebCPMデータセットを構築します。 WebCPMデータセットと関連する質問応答データセットの比較 このインターフェースに基づいて、著者らはインタラクティブな Web 検索に基づく中国語分野における最初の LFQA データセットを構築しました。 5,500件の高品質な質問と回答のペアと、10万件を超える実際のユーザーによるウェブ検索記録が含まれています。既存の中国語の質問応答データセットと比較すると、WebCPMの質問、裏付けとなる事実、そして回答はより長く、質問の複雑さと回答内容の豊富さを反映しています。 WebCPMモデルフレームワーク 著者が提案するWebCPMフレームワークには、(1)検索モデルと(2)包括的な回答モデルが含まれています。 WebCPMモデルフレームワーク 検索モデル このモデルは人間のウェブ検索行動を模倣し、検索エンジンとやり取りして情報を取得します。著者らはウェブ検索タスクを3つのサブタスクに分割しています。
回答総合モデルモデルは、元の質問と収集された事実に基づいて、一貫性のある回答を生成します。ただし、人間とは異なり、訓練された検索モデルは時折、無関係なノイズを収集することがあり、生成される回答の品質に影響を与えます。 この問題に対処するために、著者らは回答合成モデルのトレーニング データにノイズを導入し、ある程度のノイズ除去を可能にして、無関係な事実を無視し、重要な事実のみに焦点を当てて回答を生成しました。 WebCPM実験評価著者らはまず各サブモジュールを個別に評価し、次にすべてのモジュールを組み合わせて完全なパイプラインを形成し、そのパフォーマンスをテストしました。最後に、各モジュールのパフォーマンスを詳細に分析しました。 著者らは、CPM モデルを含むいくつかの代表的な大規模中国語モデルをテストすることにより、個々のサブタスクのパフォーマンスを評価しました。
著者らはいくつかの代表的な中国の大規模モデルをテストし、以下の結論を導き出しました (結果は上の図に示されています)。異なるモデルには、4 つのサブタスクの実行においてそれぞれ長所と短所があります。 たとえば、mT0 は、検索行動の予測、クエリ生成、および事実の要約のサポートでは mT5 よりも優れていますが、包括的な情報の点ではパフォーマンスが劣ります。 さらに、CPMシリーズモデルのパフォーマンスは、モデルパラメータ数の増加に伴って継続的に向上します。スケーリング則により、モデルが大きくなるほど理解力と生成能力が強化され、下流のタスクにおいてより優れたパフォーマンスを発揮します。
各テスト質問について、著者らはモデル (CPM 10B モデル) のパフォーマンスと、検索エンジンを使用して質問に答え、同じタスクを実行する人間のユーザーのパフォーマンスを比較し、人間による評価を実施しました。 具体的には、質問と、モデルと人間によって提供された回答に基づいて、注釈者は、全体的な使いやすさ、一貫性、質問との関連性など、複数の要素に基づいて、どの回答が優れているかを判断します。 下の図 (a) の結果から、モデルによって生成された回答は、30% 以上のケースで人間が作成した回答と同等かそれよりも優れているという結論が導き出されます。 この結果は、質問応答システム全体のパフォーマンスには、将来的に(より強力なベースモデルをトレーニングするなどして)大幅に改善する余地があることを示しています。手動で収集された事実を情報合成モデルに適用すると、パフォーマンスが 45% 向上します。これは、収集された事実の品質が向上したためです。 全体的なパイプラインのパフォーマンス評価のために、著者らは WebCPM および DuReader データセットをテストしました。 さらに、著者らはパイプライン全体をDuReader Chinese QAデータセット(ZhidaoとSearchの2つのサブデータセットを含む)に適用し、モデルによって生成された回答と人間がアノテーションした回答を比較しました。上図(b)に示すように、モデルによって生成された回答は、DuReaderによってアノテーションされた回答よりも約50%のケースで優れていました。これは、モデルの強力な汎化能力を反映しており、WebCPMデータアノテーションの高品質を実証しています。 WebCPMのケーススタディ クエリモジュールによって学習された人間の行動を調査するため、著者らは様々なテスト問題から生成されたクエリをサンプリングし、ケース分析を行いました。下の図は、クエリモジュールのパフォーマンスを調査した結果の一部を示しています。 このモジュールは、元の質問を複製し、それをサブ質問に分解し、関連する用語を使用して書き直すといった、人間の検索戦略を学習していることがわかります。これらの戦略は、クエリ文を多様化し、より多くの情報源からより豊富な情報を収集するのに役立ちます。 BMToolsを使用したWebCPMの実践の成功 近年、大規模モデルは多くの分野で顕著な応用価値を示し、様々な下流タスクの性能限界を継続的に押し広げてきました。多くの分野で大きな成果を上げているにもかかわらず、大規模モデルは特定のドメインタスクにおいては依然として一定の限界を抱えています。 これらのタスクを効果的に解決するには、多くの場合、専門的なツールやドメイン知識が必要です。そのため、大規模なモデルでは、様々な専門ツールを活用し、現実世界のタスクをより包括的にサポートできる必要があります。 gpt4free は本質的に GPT-4 の「オープンソース」バージョンです。公式サイト: Github: https://github.com/xtekky/gpt4free インターネットからの画像。 ご存知のとおり、ChatGPTは無料ですが、最新かつ最も強力なGPT-4を試してみたい場合は、基本的に「プレイするためにお金を払う」しかありません。 ChatGPT Plus に加入するか、API の使用料を支払うことができます。 Microsoft の Bing や You.com など、一部の Web サイトでは GPT が統合されていますが、いずれの Web サイトにも独自の機能がいくつか含まれているのは避けられません。 では、よりネイティブな GPT-4 を体験したいが、お金をかけたくない場合はどうすればよいでしょうか? 最近、「GPT 4 Free」というプロジェクトが登場しました。GitHubで18,500個のスターを獲得しただけでなく、トレンドウィークリーチャートにもランクインしました。 しかし、このプロジェクトを作成したコンピューターサイエンスの学生であるXtekky氏は、OpenAIが現在、5日以内にプロジェクト全体を閉鎖するよう、さもなければ訴訟を起こすよう要求していると語った。 矛盾は、GPT 4 Free が使用するウェブサイトがすべて、GPT モデルを使用するために OpenAI に多額の金銭を支払っているという事実にあります。 したがって、スクリプト経由でクエリが送られた場合、Web サイトはクエリに対して料金を支払う必要があるだけでなく、その代わりにトラフィックも得られません。 この Web サイトが API 使用コストを相殺するために広告収入に依存している場合、この操作全体が損失につながる可能性があります。 偽装された「オープンソース」のGPT-4 現在、GPT-4 を使用するには、メンバーシップに登録する以外に、API の列に並んで待ってからお金を払い続けるしかありません... GPT 4 Free を使用すると、You.com、Quora、CoCalc などの Web サイトを通じて GPT-4 および GPT-3.5 モデルを無料で使用できます。 同時に、GPT 4 Free は設定が非常に簡単です。 まず、コンピューターのWSL 2(Windows Subsystem for Linux)にGPT 4 Freeをインストールします。GitHubリポジトリのクローン作成、pipを使った必要なライブラリのインストール、Pythonスクリプトの実行など、数分で完了します。 スクリプトを起動したら、ブラウザを使用して http://localhost:8501 にアクセスし、チャットボットを取得できます。 開発者向けChatGPTプロンプトエンジニアリング(中国語)Github: https://github.com/GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-English ChatGPT はオンラインになってからほぼ 5 か月が経ちますが、まだその使い方を習得していない人が多数います。 実際、ChatGPTの難しさはプロンプトの作成にあります。今年2月、OpenAIの創設者はTwitterで次のように述べています。「チャットボットと対話するための優れたプロンプトを作成できることは、非常に効果的なスキルです。」 ChatGPTのリリース以来、効果的なプロンプトの作成は画期的な出来事となりました。プロンプト作成のスキルがあれば、ChatGPTに要件を素早く理解させ、タスクを効果的に実行させることができます。 オンラインで目にするすべての AI アシスタント、インテリジェント翻訳者、ロール プレイング ゲームは、基本的にプロンプトを記述することによって実装されます。 プロンプトが適切に作成されていれば、ChatGPT は、Web クローラー スクリプトの作成、財務データ分析、コピーライティングの磨きと翻訳など、多くのタスクを迅速に完了するのに役立ち、平均的な人よりも優れたパフォーマンスでこれらのタスクを実行できます。 ChatGPTはまあまあだ、と学生からよく言われます。私が何か言うと、ネットで言われているほどパワフルじゃない、と一言で返答してくるんです。でも、本当にPromptの使い方をマスターできているのでしょうか? たとえば、ChatGPT にコードや翻訳されたテキストを提供するときに、より正確な結果を出力するために引用符を区切り文字として使用する必要があることを知らない人がまだたくさんいます。 誰もが Prompt プロジェクトをよりよく習得できるように、DeepLearning.ai の創設者 Andrew Ng 氏と OpenAI の開発者 Iza Fulford 氏が協力して、開発者向けの技術チュートリアル「ChatGPT Prompt プロジェクト」を立ち上げました。 アンドリュー・ンという名前は、多くの人に馴染みのあるものです。人工知能分野の重鎮として、AI技術コミュニティで活躍している姿をよく見かけます。 もう 1 人の講師である Iza Fulford については、あまりよく知られていないかもしれませんので、ここでは彼について紹介することに焦点を当てます。 彼女はスタンフォード大学で学士号と修士号を取得しています。ChatGPTがGitHubでオープンソース化したドキュメント検索プラグイン「Retrieval」は、彼女が開発したものです。 さらに、彼女はOpenAI Cookbook(公式マニュアル)の著者でもあります。最近GPT関連の技術に関心をお持ちの方なら、このマニュアルはお馴染みのはずです。 このマニュアルでは、GPT モデルの開発とアプリケーションをすぐに開始して習得できるように、GPT 関連のユース ケースを多数提供しています。 業界の巨人2人が作成したチュートリアルは、間違いなく素晴らしいものになるでしょう。さらに嬉しいのは、このチュートリアルは完全に公開されており、誰でも無料で学習できるということです! では、このチュートリアルの主な内容は何でしょうか? このチュートリアルは9つの章に分かれており、所要時間は1時間強です。主な内容は、プロンプトワードのベストプラクティス、コメントの感情分類、テキスト要約、メール作成、テキスト翻訳、チャットボットの迅速な構築などです。 したがって、このチュートリアルでは現在人気のある ChatGPT の例をすべて見つけることができます。非常に包括的です。 このチュートリアルでは、Promptの使い方を学ぶだけでなく、GPT API呼び出しの開発についても学びます。必要に応じて、このチュートリアルを拡張・発展させ、素晴らしいアプリケーションを構築することもできます。 チュートリアルは現在 DeepLearning.ai で公式に公開されており、ウェブサイトではコードを書いて練習しながら学習できるインタラクティブなノートブックも提供されています。 ただし、このチュートリアルは現在英語のみで提供されています。英語が理解できない学生がこの技術をできるだけ早く習得できるようにするためです。 |