14のAIツールを統合して完璧なアプリケーションを構築する

AIGC の詳細については、以下をご覧ください。

51CTO AI.x コミュニティ

https://www..com/aigc/

パート1：11のAIツールを統合して完璧なアプリケーションを構築する

ご覧のとおり、人工知能（AI）アプリケーションは近年目覚ましい進歩を遂げています。音声アシスタントからソフトウェア開発まで、AIは今や私たちの生活に遍在し、幅広く利用されています。以下では、独自のAIアプリケーションを作成し、次のレベルへと導くのに役立つ14のオープンソースプロジェクトをご紹介します。

12. 安定拡散 - テキストから画像への潜在的な拡散モデル

生成モデルでよく使用される手法である Stable Diffusion (https://github.com/CompVis/stable-diffusion) は、テキストから画像への合成において、テキストの説明から画像に情報をスムーズに転送できます。

テキストから画像への拡散モデルにおいて、安定拡散は、テキストから得られる記述情報がモデルの潜在空間全体に継続的に拡散または伝播することを保証します。この拡散プロセスは、与えられたテキスト入力と一致する高品質でリアルな画像を生成するのに役立ちます。したがって、安定拡散メカニズムは、生成プロセス中にモデルが突然のジャンプや不安定性を経験しないことを保証します。

次のコードスニペットは、ディフューザーライブラリ (https://github.com/huggingface/diffusers/tree/main#new--stable-diffusion-is-now-fully-compatible-with-diffusers) を使用して Stable Diffusion をダウンロードしてサンプリングする簡単な方法を示しています。

 # make sure you're logged in with `huggingface-cli login` from torch import autocast from diffusers import StableDiffusionPipeline pipe = StableDiffusionPipeline.from_pretrained( "CompVis/stable-diffusion-v1-4", use_auth_token=True ).to("cuda") prompt = "a photo of an astronaut riding a horse on mars" with autocast("cuda"): image = pipe(prompt)["sample"][0] image.save("astronaut_rides_horse.png")

Stable Diffusion を用いた画像修正方法の詳細については、https://github.com/CompVis/stable-diffusion?tab=readme-ov-file#image-modification-with-stable-diffusion をご覧ください。例えば、以下の画像の入力データを基にすると、以下のようになります。

以下の強化効果を出力できます。

Stable Diffusion v1は、特定のモデル構成です。拡散モデルの構築には、860M UNetとCLIP ViT-L/14テキストエンコーダ、そしてダウンサンプリング係数8のオートエンコーダを使用しています。このモデルは256x256の画像で事前学習され、その後512x512の画像で微調整されています。

現在、Stable Diffusion の GitHub リポジトリには 64,000 を超えるスターが付いています。

13. MocapDrones - 屋内トラッキング用の低コストのモーションキャプチャシステム

Mocap Drones (https://github.com/jyjblrd/Mocap-Drones) プロジェクトでは SFM (Structure from Motion) OpenCV モジュールを使用する必要があるため、OpenCV をソースコードからコンパイルする必要があります。

次のコマンドを computer_code ディレクトリで実行することで、各ノードの依存関係をインストールできます。

 yarn install yarn run dev // to start the web server.

完了すると、フロントエンドインターフェイスの URL ビューが表示されます。

次に、別のターミナルウィンドウを開き、コマンド `python3 api/index.py` を実行してバックエンドサーバーを起動します。このサーバーは、カメラからのデータストリームを受信し、モーションキャプチャの計算を行う役割を担います。その論理構造は次の図に示されています。

Mocapドローンの仕組みを理解するには、こちらのリンクから動画をご覧ください：https://www.youtube.com/watch?v=0ql20JKrscQ。または、公式ドキュメント（https://github.com/jyjblrd/Mocap-Drones?tab=readme-ov-file#running-the-code）もご覧いただけます。

現在、同社の最新のオープンソースプロジェクトは、GitHub リポジトリで 900 を超えるスターを獲得しています。

14. Whisper Speech は、Whisper を逆転させることでテキスト読み上げシステムを確立します。

Whisper Speech（https://github.com/collabora/WhisperSpeech）モデルはStable Diffusionに似ていますが、音声変換によく使用され、強力で高度なカスタマイズが可能です。適切にライセンスされた音声録音のみが使用され、すべてのコードがオープンソースであるため、商用アプリケーションでも安全に使用できます。ただし、これらのモデルは現時点では英語のLibreLightデータセットのみで学習されています。

アーキテクチャ情報については、こちらのリンクをご覧ください：https://github.com/collabora/WhisperSpeech?tab=readme-ov-file#architecture。また、こちらのリンクからサンプル音声をお聴きいただけます：https://github.com/collabora/WhisperSpeech/assets/107984/aa5a1e7e-dc94-481f-8863-b022c7fd7434。

Whisper Speech はまだリリースされて間もないため、GitHub でのスター数は現時点では 3,000 程度しかありません。

15. eSpeak NG - 100 以上の言語とアクセントをサポートする音声合成装置。

オープンソースの小型音声合成エンジンであるeSpeak NG（https://github.com/espeak-ng/espeak-ng）は、Linux、Windows、AndroidなどのOSで利用可能です。Jonathan Duddington氏が開発したeSpeakエンジンをベースに構築されており、100以上の言語とアクセントをサポートしています。テキストを音素コードに変換できるため、音声合成エンジンのフロントエンドとして利用できる可能性を秘めています。

様々なシステム向けのインストールガイド（https://github.com/espeak-ng/espeak-ng/blob/master/docs/guide.md）をお読みください。Debian（Ubuntu、Mintなど）などのディストリビューションの場合は、以下のコマンドを使用できます。

 sudo apt-get install espeak-ng

サポートされている言語のリストを表示し、公式ドキュメント (https://github.com/espeak-ng/espeak-ng/blob/master/docs/languages.md) を読んだり、リンク (https://github.com/espeak-ng/espeak-ng/tree/master?tab=readme-ov-file#features) から機能 (https://github.com/espeak-ng/espeak-ng/tree/master?tab=readme-ov-file#documentation) を確認したりできます。

現在、eSpeak NG は GitHub で 2,700 を超えるスターを獲得しています。

16. ChatbotUI - 様々なモデルに適用可能なAIチャットシナリオ

Chatbot UI (https://github.com/mckaywrigley/chatbot-ui) は、その名の通り、様々なAIチャットボットのユーザーインターフェースの設定に役立ちます。インストールガイド (https://github.com/mckaywrigley/chatbot-ui?tab=readme-ov-file#1-install-docker) を読めば、DockerやSupabase CLIなどのインストールが完了します。

ドキュメント (https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh) を読んで、デモ (https://twitter.com/mckaywrigley/status/1738273242283151777?s=20) を見ると、実際には Supabase (Postgres) が使用されていることがわかります。

現在、Chatbot UIはGitHubで25,000以上のスターを獲得しています。これは、チャットボットのユーザーインターフェースを構築する開発者にとって、Chatbot UIが依然として最適な選択肢であることを示しています。

17. GPT-4 & LangChain - 大規模PDFドキュメント向けのGPT4 & LangChainチャットボット

GPT-4 & LangChain ( https://github.com/mayooear/gpt4-pdf-chatbot-langchain ) は、LangChain、Pinecone、Typescript、OpenAI、Next.js を使用して構築されています。LangChainは、大規模なAIモデルとチャットボットを開発するための、簡素化されたスケーラブルなフレームワークです。Pineconeは、様々な埋め込みPDFファイルやテキストベースのPDFファイルを保存し、後で類似のドキュメントを検索するためのベクターリポジトリです。

このアーキテクチャは、新しいGPT-4 APIと組み合わせて使用することで、複数の大きなPDFファイルに対応するChatGPTチャットボットを構築できます。クローンの作成、依存関係のインストール、環境APIキーの設定方法については、開発ガイド（https://github.com/mayooear/gpt4-pdf-chatbot-langchain?tab=readme-ov-file#development）をご覧ください。

現在、GPT-4 と LangChain は GitHub で 14,000 を超えるスターと 34 件のコミットを獲得しています。

18. Amica - ブラウザで 3D キャラクターと簡単にチャットできます。

Amica (https://github.com/semperai/amica) は、音声合成および認識機能を備えた 3D アニメーションキャラクターとユーザーが対話できるようにするオープンソースインターフェイスです。

three.js、OpenAI、Whisper、Bakllavaなどの視覚技術を活用することで、様々なVRMファイルをインポートし、選択したキャラクターに合わせて音声を調整したり、感情表現を含む応答テキストを生成したりすることができます。Amicaは、後述のTauriを使用してデスクトップアプリケーションを構築しています。「Amicaの仕組み」（https://docs.heyamica.com/overview/how-amica-works）を読むことで、Amicaのコアコンセプトを学ぶこともできます。

リポジトリ (repo) をクローンし、次のコマンドを使用して開始できます。

 npm i npm run dev

もちろん、デモビデオ (https://amica.arbius.ai/) や関連ドキュメント (https://docs.heyamica.com/) を参照することもできます。

現在、Amica は GitHub で 400 を超えるスターを獲得しています。

19. ハギングフェイストランスフォーマー - PyTorch、TensorFlow、JAXによる最先端の機械学習

Hugging Face Transformers (https://github.com/huggingface/transformers) は、テキスト分類、言語生成、質問応答といったタスク向けに、最先端の事前学習済みモデルとアルゴリズムを提供します。PyTorchとTensorFlowを基盤とするこのライブラリにより、ユーザーは最小限の労力で高度なNLP機能をアプリケーションにシームレスに統合できます。

多数の事前学習済みモデルとサポートコミュニティのおかげで、Hugging Face TransformersはNLPベースのソリューション開発を簡素化します。これらのモデルは、テキスト分類、情報抽出、質問応答、要約、翻訳、100以上の言語でのテキスト生成といったテキスト関連タスクの実行に使用できます。また、画像分類、物体検出とセグメンテーション、音声認識、オーディオ分類といった様々な画像関連タスクにも対応しています。さらに、Hugging Face Transformersは、表形式の質問応答、光学式文字認識（OCR）、スキャン文書からの情報抽出、ビデオ分類、ビジュアル質問応答など、様々なモデルでマルチタスク処理を実行できます。

利用可能なモデルの詳細については、https://huggingface.co/models のリンクをご覧ください。また、ドキュメントリンク (https://huggingface.co/docs/transformers/task_summary) では、様々なタスクに適した完全なターゲットと例をご覧いただけます。以下のコードスニペットは、画像セグメンテーションにパイプライン方式を使用する方法を示しています。

 from transformers import pipeline segmenter = pipeline(task="image-segmentation") preds = segmenter( "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg" ) preds = [{"score": round(pred["score"], 4), "label": pred["label"]} for pred in preds] print(*preds, sep="\n")

ご存知のとおり、Transformerは最も広く使用されている3つのディープラーニングライブラリ（Jax、PyTorch、TensorFlow）を搭載しており、これらはシームレスに統合されています。この統合により、あるライブラリでモデルを簡単にトレーニングし、それを別のライブラリにロードして推論することが可能になります。

現在、Hugging Face Transformers は GitHub で 120,000 を超えるスターを獲得しており、142,000 人を超える開発者に広く使用されています。

20. LLaMA - LLaMAモデルの推論コード

Facebook Research Center によって開発された Llama 2 ( https://github.com/facebookresearch/llama ) を使用すると、個人、クリエイター、研究者、あらゆる規模の企業が大規模なモデルを試し、革新を起こし、責任を持ってアイデアを拡大することができます。

Llama 2の最新バージョンには、様々なモデルの重みとスターターコードが含まれています。これらはすべて、7Bから70Bのパラメータ範囲で事前学習および微調整されたLlama言語モデルです。インストールガイド（https://github.com/facebookresearch/llama?tab=readme-ov-file#quick-start）に従って、以下の手順でインストールを完了できます。

ソフトウェアソースを複製してダウンロードします。
必要な依存関係をインストールします。
Meta Web サイトからモデルを登録してダウンロードします。
提供されたスクリプトを実行してモデルをダウンロードします。
提供されているコマンドを使用して、必要なモデルをローカルで実行します。

モデルリストの詳細については、Hugging Face（https://huggingface.co/meta-llama）および公式Meta Webサイト（https://llama.meta.com/）でもご覧いただけます。

現在、Llama は GitHub で 50,000 を超えるスターを獲得しています。

21. Fonoster - Twilioのオープンソース代替

革新的なプログラム可能な通信スタックである Fonoster ( https://github.com/fonoster/fonoster ) は、電話サービスをインターネットに接続するための完全なクラウドベースのユーティリティを企業に提供します。

目的に応じて、さまざまな方法で有効化できます。例えば、次のnpmコマンドを使用できます。

 npm install @fonoster/websdk // CDN is also available

さらに、Fonoster を Google Speech API と組み合わせて使用することもできます (もちろん、サービスアカウントキーが必要になります)。

 npm install @fonoster/googleasr @fonoster/googletts

次のコードスニペットは、プラグインを使用して Voice Server を構成する方法を示しています。

 const { VoiceServer } = require("@fonoster/voice"); const GoogleTTS = require("@fonoster/googletts"); const GoogleASR = require("@fonoster/googleasr"); const voiceServer = new VoiceServer(); const speechConfig = { keyFilename: "./google.json" }; // Set the server to use the speech APIS voiceServer.use(new GoogleTTS(speechConfig)); voiceServer.use(new GoogleASR(speechConfig)); voiceServer.listen(async(req, res) => { console.log(req); await res.answer(); // To use this verb you MUST have a TTS plugin const speech = await res.gather(); await res.say("You said " + speech); await res.hangup(); });

ドキュメントを読むことができます (https://fonoster.com/docs/overview/)。

初心者には十分な無料プランを提供しています。

現在、Fonoster は GitHub で 6,000 を超えるスターを獲得しており、250 を超えるバージョンがリリースされています。

22. DIPY - Python の Paragon 3D/4D+ イメージングライブラリ

Python 3D/4D+イメージングライブラリのリーダーであるDIPY (https://github.com/dipy/dipy) は、空間正規化、信号処理、機械学習、統計解析、医用画像可視化のための多様な手法を備えています。また、拡散、灌流、構造イメージングといった計算解剖学に特化した手法も含まれています。

次のコマンドで DIPY の学習を開始できます。

 pip install dipy // run this in python console import dipy print(dipy.get_info())

DIPY が提供する公式ドキュメント ( https://docs.dipy.org/stable/ ) には、次の図 (https://docs.dipy.org/stable/examples_built/index.html) に示すように、さまざまな詳細な例が掲載されています。

現在、DIPY は GitHub リポジトリで 428,000 回以上ダウンロードされ、600 以上のスターを獲得しています。

23. Elastic Search - 無料、オープン、分散型RESTful検索エンジン

Elastic Search (https://github.com/elastic/elasticsearch) は、幅広いユースケースに対応できる分散型RESTful検索・分析エンジンです。Elastic Stackの中核として、データを一元的に保存することで、超高速検索、関連性の微調整、強力な分析、そして容易なスケーラビリティを実現します。次の図は、Elastic Searchを活用できる様々なユースケースを示しています。

Elastic Searchは標準化されたRESTful APIとJSONを使用しているため、クライアントの構築と保守にはJava、Python、.NET、SQL、PHPなど複数の言語を使用しています。基本的な構造は以下の通りです。

 const { Client } = require('@elastic/elasticsearch') const client = new Client({ node: 'http://localhost:9200' }) client .search({ index: 'social-*', body: { query: { match: { message: 'myProduct' } }, aggs: { top_10_states: { terms: { field: 'state', size: 10 } } } } }) .then(({ body }) => { const { hits } = body.hits console.log(hits) }) .catch(console.error)

機能リスト（https://www.elastic.co/elasticsearch/features）は、ドキュメント（https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh）でご覧いただけます。Elastic Searchは強力ですが、最大の欠点は無料ではないことです。もちろん、無料トライアル版を使って、このオープンソースプロジェクトのアーキテクチャを探索することも可能です。

Elastic Searchは現在バージョン8をリリースしており、継続的に開発と改善が行われています。GitHubでは67,000以上のスターと約1,900人のコントリビューターを獲得しています。

24. Tauri - Web フロントエンドを使用して、より小型で高速、かつ安全なデスクトップアプリケーションを構築します。

Tauri (https://github.com/tauri-apps/tauri) は、開発者がほぼあらゆるフロントエンドフレームワークを使用してデスクトッププラットフォーム向けアプリケーションを作成できるように設計されたツールキットです。コア部分はRustで構築されており、CLIはNode.jsを使用しているため、アプリケーションの開発と保守において真に多言語的なアプローチを提供します。

Tauriアプリのユーザーインターフェースは現在、macOS、Windows、Linux、Android、iOSのウィンドウ処理ライブラリとしてTaoを使用しています。アプリ本体では、システムWebViewの統合インターフェースライブラリであるWRYライブラリも使用しています。つまり、macOSとiOSではWKWebView、WindowsではWebView2、LinuxではWebKitGTK、AndroidではAndroid System WebViewを使用しています。

次の npm コマンドを使用して Tauri の使用を開始できます。

 npm create tauri-app@latest

ドキュメント (https://tauri.app/v1/guides/getting-started/prerequisites) を読むか、機能リスト (https://tauri.app/v1/guides/features/) を表示して独自の CLI を作成することができます。

現在、Tauri は GitHub で 75,000 を超えるスターを獲得しており、800 を超えるバージョンがリリースされています。

25. AutoGPT - ChatGPTよりもエキサイティング

AutoGPT（https://github.com/Significant-Gravitas/AutoGPT）は、大規模モデル（LLM）を基盤とする半自律型エージェントプロジェクトです。このプロジェクトは4つの主要部分で構成されています（https://docs.agpt.co/#agent）。

エージェント - 「AutoGPT」とも呼ばれる
ベンチマーク - agbenchmarkとも呼ばれる
ビルダー（鍛冶場）
フロントデスク

OpenAIのキーを使用してAutoGPTを設定する方法については、こちらのリンクをご覧ください：https://docs.agpt.co/autogpt/setup/。また、公式ドキュメント（https://docs.agpt.co/）をご覧いただくか、プロジェクトボード（https://github.com/orgs/Significant-Gravitas/projects/1）をチェックして、現在開発中のものを確認することもできます。

優れたユースケースと自動化機能のおかげで、AutoGPT は現在 GitHub リポジトリで 159,000 を超えるスターを獲得しています。

翻訳者紹介

51CTOのコミュニティエディターであるJulian Chenは、ITプロジェクトの実装において10年以上の経験を有しています。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティに関する知識と経験の普及に注力しています。

原題：完璧なAIアプリを構築するために必要なすべてのツール。著者：Anmol Baranwal

リンク: https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh.

AIGC の詳細については、以下をご覧ください。

51CTO AI.x コミュニティ

https://www..com/aigc/

DUICUO

14のAIツールを統合して完璧なアプリケーションを構築する

12. 安定拡散 - テキストから画像への潜在的な拡散モデル

13. MocapDrones - 屋内トラッキング用の低コストのモーションキャプチャシステム

14. Whisper Speech は、Whisper を逆転させることでテキスト読み上げシステムを確立します。

15. eSpeak NG - 100 以上の言語とアクセントをサポートする音声合成装置。

16. ChatbotUI - 様々なモデルに適用可能なAIチャットシナリオ

17. GPT-4 & LangChain - 大規模PDFドキュメント向けのGPT4 & LangChainチャットボット

18. Amica - ブラウザで 3D キャラクターと簡単にチャットできます。

19. ハギングフェイストランスフォーマー - PyTorch、TensorFlow、JAXによる最先端の機械学習

20. LLaMA - LLaMAモデルの推論コード

21. Fonoster - Twilioのオープンソース代替

22. DIPY - Python の Paragon 3D/4D+ イメージングライブラリ

23. Elastic Search - 無料、オープン、分散型RESTful検索エンジン

24. Tauri - Web フロントエンドを使用して、より小型で高速、かつ安全なデスクトップアプリケーションを構築します。

25. AutoGPT - ChatGPTよりもエキサイティング

翻訳者紹介

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

12. 安定拡散 - テキストから画像への潜在的な拡散モデル

13. MocapDrones - 屋内トラッキ​​ング用の低コストのモーションキャプチャシステム

14. Whisper Speech は、Whisper を逆転させることでテキスト読み上げシステムを確立します。

15. eSpeak NG - 100 以上の言語とアクセントをサポートする音声合成装置。

16. ChatbotUI - 様々なモデルに適用可能なAIチャットシナリオ

17. GPT-4 & LangChain - 大規模PDFドキュメント向けのGPT4 & LangChainチャットボット

18. Amica - ブラウザで 3D キャラクターと簡単にチャットできます。

19. ハギングフェイストランスフォーマー - PyTorch、TensorFlow、JAXによる最先端の機械学習

20. LLaMA - LLaMAモデルの推論コード

21. Fonoster - Twilioのオープンソース代替

22. DIPY - Python の Paragon 3D/4D+ イメージングライブラリ

23. Elastic Search - 無料、オープン、分散型RESTful検索エンジン

24. Tauri - Web フロントエンドを使用して、より小型で高速、かつ安全なデスクトップ アプリケーションを構築します。

25. AutoGPT - ChatGPTよりもエキサイティング

翻訳者紹介

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

13. MocapDrones - 屋内トラッキング用の低コストのモーションキャプチャシステム

24. Tauri - Web フロントエンドを使用して、より小型で高速、かつ安全なデスクトップアプリケーションを構築します。