|
みなさんこんにちは、エチャです。 メーデーの休暇中、家族と過ごしながら、皆さんのことを思い出し、もっと素晴らしいリソース、実用的なツール、そして素晴らしいオープンソースプロジェクトを見つけたいと思いました。私が毎日投稿する質の高い記事が、皆さんの知識を深め、新しいスキルを習得し、さらにはフリーランスの仕事を見つけて副収入を得るきっかけになれば幸いです。技術的な知識が深く掘り下げられるものでも、幅広いものでも、皆さんにとって大きなメリットとなるでしょう。 本日は、GitHub からさらに 8 つの素晴らしいオープンソース プロジェクトをご紹介します。皆様のお役に立ち、有益な情報となることを願っています。詳細は以下をご覧ください。 全文概要
フェイGithub: https://github.com/TheRamU/Fay Fay は、Fay コントローラーとデジタル ヒューマン モデルを含む完全なオープン ソース プロジェクトです。これらを柔軟に組み合わせて、仮想アンカー、ライブ販売促進、製品ガイド、音声アシスタント、リモート音声アシスタント、デジタル ヒューマン インタラクション、デジタル ヒューマン インタビュアーと心理評価、Jarvis、Her など、さまざまなアプリケーション シナリオを作成できます。 開発者はこのプロジェクトを利用することで、様々なタイプのデジタルヒューマンやデジタルアシスタントを簡単に構築できます。プロジェクト内のモジュールは、音源、音声認識、感情分析、自然言語処理、感情音声合成、音声出力、表情・ジェスチャー出力など、非常に疎結合になっており、各モジュールは簡単に置き換え可能です。 フェイコントローラーアプリケーション フェイコントローラコアロジック フェイコントローラコアロジック 使用方法
音声コマンド
グラフィカルインターフェース 吠えるGithub: https://github.com/suno-ai/bark Barkは、Sunoが開発したトランスデューサーベースのテキスト音声変換モデルです。Barkは、非常にリアルな多言語音声に加え、音楽、バックグラウンドノイズ、シンプルな効果音などの音声も生成できます。また、笑い声、ため息、泣き声といった非言語コミュニケーションも生成可能です。研究コミュニティを支援するため、推論用の事前学習済みモデルチェックポイントへのアクセスを提供しています。 チャットGLM-6BGithub: https://github.com/THUDM/ChatGLM-6B ChatGLM-6Bは、一般言語モデル(GLM)アーキテクチャに基づくオープンソースのバイリンガル(英語と中国語)会話型言語モデルで、62億個のパラメータを備えています。モデル量子化技術と組み合わせることで、コンシューマーグレードのグラフィックカード(INT4量子化レベルで6GBのVRAMしか必要としない)にローカルに導入できます。 ChatGLM-6BはChatGPTと同様の技術を採用し、中国語の質問応答と対話に最適化されています。中国語と英語で約1TBの識別子を用いた学習に加え、教師ありファインチューニング、フィードバックによるセルフヘルプ、人間によるフィードバックによる強化学習といった技術のサポートにより、62億個のパラメータを持つChatGLM-6Bは人間の好みに非常に近い回答を生成できます。 下流の開発者が独自のアプリケーション シナリオに合わせてモデルをカスタマイズできるようにするために、P-Tuning v2 (ユーザー ガイド) に基づく効率的なパラメータの微調整方法も実装しました。この方法では、INT4 量子化レベルで微調整を開始するために必要なビデオ メモリは 7 GB のみです。 しかしながら、ChatGLM-6Bは比較的小規模なため、事実/数学的論理エラー、有害/偏向コンテンツの生成の可能性、文脈理解の弱さ、自己認識の混乱、英語の指示を与えた際に中国語の指示と完全に矛盾するコンテンツが生成されるなど、いくつかの制限があることが知られています。誤解を避けるため、ご使用前にこれらの問題にご注意ください。1300億パラメータのGLM-130BをベースにしたChatGLMの大規模バージョンは現在、社内でテストと開発中です。 ChatGLM-6B Githubホームページ 法律-cn-ai公式サイト:https://law-cn-ai.vercel.app/ Github: https://github.com/lvwzhen/law-cn-ai AI 法律アシスタントと呼ばれるこのオープンソース プロジェクトは、膨大な量の法律文書を分析し、ユーザーの質問に答えます。 ただし、このオープンソースプロジェクトは、大規模なモデルに基づいて結果を出力するわけではありません。代わりに、法律知識ベースを前処理し、ベクトル類似度検索を使用してデータベース内の類似度の高い回答をマッチングし、その内容をGPTに入力して補完し、最終的に結果をクライアントに出力します。 下の画像に示すように: gpt4-pdf-チャットボット-langchainGithub: https://github.com/mayooear/gpt4-pdf-chatbot-langchain GPTボットはPDFファイル用に構築されています。LangChain、Pinecone、Typescript、Openai、Next.jsを含むテクノロジースタックを使用してPDFファイルをアップロードしてください。 OpenAI と LangChain に基づいて、PDF ドキュメント内のテキストとコンテンツを分析し、埋め込み API を通じてベクトルを生成し、データベースに保存できます。 最後に、ユーザーがすばやくクエリを実行して回答を出力できる ChatGPT に似たボットを作成しました。 苔公式サイト: https://txsun1997.github.io/blogs/moss.html Github: https://github.com/OpenLMLab/MOSS 中国初の大規模会話型言語モデルがオープンソース化されました!復旦大学のMOSSモデルが正式にオープンソース化され、関連するコード、データ、モデルパラメータが研究者向けのGitHubプラットフォームからダウンロードできるようになりました。 MOSSは、中国語と英語の両方に対応し、様々なプラグインも利用可能なオープンソースの対話言語モデルです。MOSS-Moonシリーズのモデルは160億のパラメータを持ち、FP16精度ではA100/A800 1枚または3090グラフィックスカード2枚、INT4/8精度では3090グラフィックスカード1枚で実行可能です。MOSSベース言語モデルは、約7000億語の中国語、英語、コードワードで事前学習済みです。その後、対話コマンド、プラグイン強化学習、そして人間の嗜好学習による微調整を行うことで、マルチターン対話の実行や様々なプラグインの利用が可能になります。 制限事項:モデルパラメータの数が少なく、自己回帰生成パラダイムを採用しているため、MOSSは事実誤認を含む誤解を招くような回答や、偏見・差別を含む有害なコンテンツを生成する可能性があります。MOSSによって生成されたコンテンツは慎重に評価・使用し、インターネット上に拡散させないでください。拡散によって生じるいかなる悪影響についても、拡散者は単独で責任を負います。 SQLチャット公式サイト:https://sqlchat.ai/ Github: https://github.com/sqlchat/sqlchat SQL Chat はチャットベースの SQL クライアントで、チャット ルームと同様に、データベースに関する質問をしたり、チャットボットにデータを取得させたりすることができます。 ディープフロイドIFGithub: https://github.com/deep-floyd/IF このオープンソースプロジェクトの何がそんなに特別なのでしょうか?AI描画製品やオープンソースプロジェクトは既にたくさんあるのではないでしょうか?実は、そうではありません。私たちが使っているMidjourneyのような描画ソフトウェアは、正確なテキストを生成できないのです。 しかし、ポスターにはテキストが欠かせない要素であるため、Stability AI傘下の独立研究開発チームであるDeepFloyd AI Researchがこのプロジェクトをオープンソース化しました。このプロジェクトはテキストを正確に描画できますが、現時点では中国語には対応していません。 公式ドキュメントでは、高い写真リアリズムと言語理解機能を備えた、斬新で最先端のオープンソースのテキスト画像変換モデルである DeepFloyd IF を紹介しています。 DeepFloyd IF は、フリーズされたテキスト エンコーダーと 3 つのカスケード ピクセル拡散モジュールで構成されるモジュールです。テキスト プロンプトに基づいて 64x64 ピクセルの画像を生成する基本モデルと、256x256 ピクセルと 1024x1024 ピクセルという段階的に高い解像度の画像を生成するように設計された 2 つの超解像度モデルです。 モデルの全段階では、T5トランスフォーマーに基づくフローズンテキストエンコーダーを用いてテキスト埋め込みを抽出し、クロスアテンションとアテンションプーリングを強化したUNetアーキテクチャに入力しています。その結果、最先端のモデルを凌駕する効率的なモデルが実現し、COCOデータセットにおいてゼロショットFIDスコア6.66を達成しました。本研究は、カスケード型拡散モデルの第一段階における大規模UNetアーキテクチャの可能性を浮き彫りにし、テキスト画像合成の将来性を示唆しています。 やっとコンピューター、キーボードであなたの知恵を解き放ち、人生を最大限に生きましょう。数行の数字、数文字で人生の美しさを丁寧に作り上げましょう。 インスピレーション、つまりコードの一部が、技術の進歩を促し、社会の発展を促進することができます。 |