|
みなさんこんにちは、エチャです。 最近、組織の都合で山や地方をまたぐ出張になり、2日間執筆をお休みしてしまいました。たくさんの素晴らしいことを見逃してしまったような気がします。正直言って、長期出張は本当に疲れます。皆さんに会いたくて、今日頭条を開いてまず目にしたのは、皆さんからのたくさんのプライベートメッセージでした。「大丈夫?」と心配してくれる人、「なぜ更新していないのか?」と尋ねる人、「普段は毎日更新しているのに新しいコンテンツがないのはおかしい」と言う人、「なぜ返信しないのか?」と尋ねる人など、皆さんのご心配とご支援に心から感謝しています。 今日は、GitHubの人気オープンソースプロジェクト7つをご紹介します。トレンドリストにランクインしたプロジェクトです。皆さんの学習に役立つことを願っています。ぜひ時間を取って、これらのプロジェクトを探索し、技術知識を広げてください。 全文概要
ミニGPT-4 ミニGPT4Github: https://github.com/Vision-CAIR/MiniGPT-4 MiniGPT-4は、Vicuna-13B LLMとBLIP-2視覚言語モデルをベースにした、画像理解機能を備えたオープンソースのチャットボットです。研究チームはまず、4基のNvidia A100 GPUを用いて、約500万組の画像とテキストのデータを10時間かけてMiniGPT-4に学習させました。チャットボットのエコシステム構築はより困難で経済的にも持続不可能ですが、ユーザーを強力に囲い込む効果があります。 ChatGPTと比較して、GPT-4は手書きテキストからウェブサイトを生成したり、画像内のユーモラスな要素を認識したりするなど、優れたマルチモーダル機能を発揮します。これらの優れた機能は、以前の視覚言語モデルでは実現が困難でした。**GPT-4の驚異的なマルチモーダル生成能力の主な理由は、より高度な大規模言語モデル(LLM)を使用していることです。**では、現在高度な大規模LLMを微調整することで、GPT-4に匹敵するパフォーマンスを達成することは可能でしょうか?この記事では、ChatGPTのテキスト処理能力の90%を実現し、視覚認識においてGPT-4と同じマルチモーダル機能を備えたモデル、MiniGPT-4を提案することで、この疑問を探ります。 プロジェクトの著者らは、GPT-4が実現するマルチモーダル機能は、これまでの視覚言語モデルではほとんど見られないものと考えています。そのため、GPT-4の高度なマルチモーダル生成機能の主な理由は、より高度な大規模言語モデルを活用していることにあると考えています。 このアイデアを検証するために、研究チームは凍結した視覚エンコーダーを凍結したビクーニャと連携させ、MiniGPT-4 を作成しました。 MiniGPT-4の学習フェーズにおいて、著者らは2段階の学習手法を提案している。第1段階では、多数の画像とテキストの対応付けされたペアを用いてモデルを事前学習し、視覚言語知識を獲得する。第2段階では、事前学習済みのモデルを、より小規模ながらも高品質な画像とテキストのデータセットを用いて微調整し、モデルの生成信頼性とユーザビリティを向上させる。 実験結果から、MiniGPT-4はGPT-4と多くの類似点があることが示されました。例えば、MiniGPT-4は複雑な画像記述を生成したり、手書きのテキスト指示に基づいてウェブサイトを作成したり、異常な視覚現象を解釈したりすることができます。 下の画像に示すように: TwitterアルゴリズムGithub: https://github.com/twitter/the-algorithm 2023年4月1日、イーロン・マスク氏はTwitterのオープンソース推奨アルゴリズムのGitHubでの公開をリツイートしました。マスク氏は、これらのアルゴリズムを公開することで、プラットフォームの透明性を高め、ユーザー、顧客、そしてメディア間の信頼を高めることを目指していると述べました。 マスク氏は約束を守り、Twitterのおすすめアルゴリズムをオープンソース化しました。このオープンソースプロジェクトは、ユーザーの「おすすめ」タイムラインに表示されるツイートを制御する仕組みを含む、Twitterのソースコードの大部分を網羅しています。 要約すると、Twitterのレコメンデーションアルゴリズムは、主にTwitterユーザーの「おすすめ」フィード上で機能するパーソナライズされたレコメンデーションシステムです。毎日約5億件のツイートを1,500件に絞り込み、さらにフィルタリングして、様々なユーザーの「おすすめ」ニュースフィードにおすすめします。 このシステムは、どのユーザーが最も交流する可能性が高く、Twitter 上の人気のある「コミュニティ」やツイートを識別しているかを予測します。 このシステムはどのようにして上記の問題を判断するのでしょうか?主に以下の2つのデータを使用します。
5億から1500への「合理化」のプロセスは単純ではなく、次の3つの段階から構成されます。
タイムラインを構築するための主なコンポーネント 主に 3 つのモジュールに分かれています。
最終的に、タイムライン、フォローする人、広告の 3 つのタスク (ツイートをユーザーにプッシュ、ユーザーをプッシュ、広告をプッシュ) が達成されます。 詳細については、以下の画像を参照してください。 データ 特徴 OpenAssistant は、ChatGPT に代わる世界最大のオープンソースの代替品です。公式サイト: https://open-assistant.io Github: https://github.com/LAION-AI/Open-Assistant 2023年4月12日、GitHubのトレンドトピックに、LAION-AIが開発したオープンソースのチャットベースアシスタント「Open Assistant(OA)」が登場しました。このプロジェクトのビジョンは、単一のハイエンドコンシューマー向けGPUで実行できる大規模な言語モデルを作成することです。いくつかの変更を加えることで、Open Assistantは他のサードパーティ製アプリケーションと容易に連携し、データベースやインターネットから情報を取得できるようになるはずです。 Open Assistantは、チャットベースの大規模な言語モデルを誰でも利用できるようにすることを目的としたプロジェクトです。これにより、タスクを理解し、サードパーティシステムと連携することが可能になります。また、これらのタスクを達成するために情報を動的に取得できます。このアシスタントは、容易に拡張およびパーソナライズできるように設計されており、35の言語をサポートする無料のオープンソースソフトウェアQとして開発されています。 特性
そうすることで、言語の革新に革命を起こすことができると信じています。安定した普及が世界が新しい方法で芸術や画像を創造するのを助けたように、Open Assistantも言語そのものを改善することで世界をより良くすることに貢献できることを願っています。 Open Assistant機械学習モデルは、ドイツの非営利団体LAIONによって運営されています。同団体は最近、Open Assistantモデル、トレーニングデータ、そしてコードが公開されたことを公式に発表し、このモデルをChatGPTの世界最大のオープンソースコピーと表現しました。 OpenAssistant 会話データセットは、13,000 人を超えるボランティアのクラウドソーシングの取り組みを通じてまとめられました。 このデータは、データ収集プロセスを 5 つの個別のステップに分割する Web アプリケーション インターフェースを通じて収集されました。
OpenAssistant Conversations データセットの有効性を評価するために、研究者は Pythia モデルと LLaMA モデルに基づいて OpenAssistant モデルを微調整しました。 これらには、命令調整されたPythia-12B、LLaMA-13B、LLaMA-30Bが含まれます。その後の評価では、研究者らは主にPythia-12Bモデルのパフォーマンスを評価しました。 ChatGPTとの戦いPythia-12B のパフォーマンスを評価するために、研究者はユーザー嗜好調査を実施し、その出力を gpt-3.5-turbo モデルの出力と比較しました。 調査では、OpenAssistant と gpt-3.5-turbo (ChatGPT) の相対的な選好率はそれぞれ 48.3% と 51.7% であることが示されました。 それが機能するかどうかは、テストしてみなければわかりません。 iPERCore ヒューマンモーションシミュレーションアルゴリズムGithub: https://github.com/iPERDance/iPERCore iPERCoreは、人間の動作模倣、外見の転送、そして新しい視点の合成のためのアルゴリズムです。写真や動画を入力するだけで、トランプ氏を有名人と一緒に「歌って、踊って、ラップ」させることができます! 人物 A の 1 つ以上の画像と人物 B のビデオが与えられた場合、アクション転送アルゴリズムを使用して、人物 A がアクション B を実行しているビデオを自動的に合成できます。 Achuan 先生が Akun 先生や他の人たちのダンスの動きを真似している様子をご覧ください。 ChatGPT_JCM - OpenAI 管理インターフェースGithub: https://github.com/202252197/ChatGPT_JCM OpenAI 管理インターフェースは、ユーザーインターフェース操作 (すべてのモデル、画像、音声、微調整、ファイルなど) のすべての OpenAI インターフェースを統合し、Markdown 形式 (数式、グラフ、表など) をサポートします。 OpenAIはBSD-3条項ライセンスに基づき、無料でオープンソース学習を目的としています。アカウント、有料サービス、キーの販売は一切ありません。詐欺にご注意ください。このプロジェクトはVue2を使用して開発されており、OpenAI用のユーザーフレンドリーなWeb管理インターフェースを提供しています。ご意見やバグ報告をお待ちしております。このプロジェクトは今後もオープンソースであり、OpenAIの学習と利用を促進するために最適化されていきます。今後のアップデートでは、バックエンドの統合により、より豊富な機能をご利用いただけるようになります。 下の画像に示すように: チャットGPT-ミライQQボット公式サイト:https://chatgpt-qq.lss233.com/ Github: https://github.com/lss233/chatgpt-mirai-qq-bot ワンクリックで導入!真のAIチャットボット!ChatGPT、Wenxin Yiyan、Bing、Bard、ChatGLM、PoE、マルチアカウント、キャラクターカスタマイズ、バーチャルメイド、画像レンダリング、音声メッセージングに対応|QQ、Telegram、Discordなどのプラットフォームに対応。 特性
詳細については、以下の画像を参照してください。 アニメーション描画Github: https://github.com/facebookresearch/AnimatedDrawings 2021年、Metaチーム(旧Facebook)は、「Animated Drawings」という非常に興味深いAIツールをリリースしました。その優れた点は、人工知能技術を用いて子供たちの絵に命を吹き込むことができる点にあります。 Animated Drawingsは、お子様の落書きを簡単に楽しいアニメーションに変換できるオンラインデモプロジェクトです。お子様の絵には、驚くべき創造性、エネルギー、そして多様性が溢れています。私たちは、その多様性が生み出す効果に注目し、自動アニメーションで生き生きとした作品に仕上げるアルゴリズムを開発しました。保護者の方は、お子様の絵を33種類のアニメーションに変換し、キャラクターを動かしたり、走らせたり、ジャンプさせたりすることができます。驚くほど楽しいアニメーションです! つい最近、Metaチームは論文のアルゴリズム実装をGitHubで公式にオープンソース化しました。わずか数日で、プロジェクトのスター数は3,100を超え、急速な成長を見せています。 やっとコンピューター、キーボードであなたの知恵を解き放ち、人生を最大限に生きましょう。数行の数字、数文字で人生の美しさを丁寧に作り上げましょう。 インスピレーション、つまりコードの一部が、技術の進歩を促し、社会の発展を促進することができます。 |