DUICUO

清華大学が開発したオープンソースの大規模画像テキスト対話モデル!絵文字の解釈に優れ、異例のベンチマークも強化されました。

何ですって?! ミームに最適なオープンソースの中国モデルが登場?!

最近、清華大学のVisualGLM-6Bと呼ばれる大型モデルが、絵文字を解釈できることをネットユーザーが発見し、ネット上で話題になっています。

このダックスフント版のモナ・リザのように、ダックスフントとモナ・リザの「組み合わせ」として正確に解釈するだけでなく、それが単なる架空の作品であることを指摘しています。

これはタクシーの後部座席でアイロンをかけている男性も同様で、すぐに何かが「おかしい」ことに気づいた。

GPT-4 が最初にリリースされたとき、ネットユーザーもそれを常識理解能力のテストに使用していたことは注目に値します。

「バカフォーラム」が大規模モデルの言語理解能力のベンチマークであるのと同様に、ミームは実質的に大規模モデルの画像理解能力のベンチマークです。

ネットユーザーの奇妙で素晴らしい絵文字を本当に理解できるのであれば、AIが把握できない情報は事実上存在しないことになります。

実際にどれくらい効果があるのか​​すぐにテストしてみました。

GIFは理解できますが、解釈が真面目すぎます。

現在、VisualGLM-6BのWebベースの試用版がリリースされています。

Hugging Face のトライアル インターフェースに写真をアップロードして「話しかける」だけで、写真の解釈が生成されます。

まずは初心者レベルの絵文字を試してみてください。

公式ドキュメントには、「このシーンを説明してください」「これは何ですか」「この絵は何を表していますか」など、いくつかの質問例が示されています。まずはこれらの質問を試してみましょう。

音楽を聴いている猫を入力すると、VisualGLM-6B がそのシーンを絵文字で表現します。

悪くないですね。VisualGLM-6B は、子猫が音楽を楽しんだり電子機器を使用したりしている体験を正確に捉えています。

別のイカルドのミームを入力して、「これは何ですか?」と尋ねます。

大丈夫。両親が使っても大丈夫みたいだし(冗談だよ)。

食べている犬の画像を使用して、VisualGLM-6B にこの画像が何を表しているか解釈させてみましょう。

基本的な絵文字パックは問題ないようです。今こそ努力を強化するときです。

GIFをアップロードするのはどうでしょうか?一見、問題なさそうですが、


しかし、別の GIF を試してみれば、最初のフレームだけを理解しているようで、「主人公がつかもうとしている、または捕獲しようとしている」と推測しているが、実際にはお金だけを投げていることがわかります。

VisualGLM-6B は、これまでの画像理解 AI とは異なり、解釈中にミーム内のキャラクターの表情 (「不快そう、または緊張しているようだ」など) を記述することに重点を置いています。

しかし!難易度をもう少し上げて絵文字にテキストを追加すると、絵文字の意味が理解できなくなります。

特に、キャプションが絵文字の本質を伝える場合、VisualGLM-6B はそれを「誤解」する才能を発揮し始めます。

あまりに多くの画像をつなぎ合わせると、猫背の犬の頭をした人物をホホジロザメと間違えるなど、奇妙なバグが発生する可能性もあります。

また、絵文字を説明する際は、一般的にかなり真面目であり、画像を超えた「意味」を解釈しません。

たとえば、一部のネットユーザーは古典的な「パンダマン グラフィック カード」ミームをテストしました。

そして、チャウ・シンチーの古典的な「全部欲しい」ミーム:

VisualGLM-6B は画像のコンテキストを明確に理解できますが、絵文字のキャプションを理解することはできません。

要約すると、古典作品のキャラクターを描いた絵文字や、テキスト処理前の「生の」絵文字の場合、VisualGLM-6B はキャラクターの名前を識別したり、描かれたシーンを説明したりすることができます。

感情を表現できる一方で、AI が認識した感情は、最終的に絵文字で表現される感情とは異なる可能性があります。

しかし、絵文字にテキストが追加されたり、新しいシーンにフォトショップで合成されたりすると、VisualGLM-6B は画像内のテキストの意味を解釈できなくなり、「ミームを理解できなくなる」ようになります。

△犬を豚と間違えるなど、誤解が生じることもあります。

では、絵文字を解釈する機能を持つ VisualGLM-6B とは一体何なのでしょうか?

マルチモーダル対話システム VisualGLM-6B に必要なビデオ メモリはわずか 8.7 GB です。

実際、VisualGLM-6B は「絵文字のデコード」専用に開発されたわけではありません。

これはZhipu AIと清華大学KEGラボが開発したオープンソースのマルチモーダル対話モデルで、主に中国語の画像理解に使用されています。絵文字の解釈は、このモデルのために開発された「副業」と言えるでしょう。

一般的な正しい使い方は次のようになります。

このチームについて言及する場合、人々はおそらく ChatGLM-6B 大型モデルをよく知っているでしょう。

後者については以前に紹介しました。

2022年8月にリリースされた「清華大学傘下のChatGPT」のメンバーであり、総パラメータ数は62億で、中国語と英語のバイリンガル対話をサポートしています。

公開後わずか4日間で6,000人のスターを獲得し、現在は約25,000人のスターを獲得しています。

報告によると、VisualGLM-6B は ChatGLM-6B をベースにしています。

ChatGLM-6B は言語モデルを担当し、画像部分は BLIP2-Qformer をトレーニングして視覚モデルと言語モデルの間に「ブリッジ」を作成することによって構築されます。

したがって、VisualGLM-6B モデルには合計 78 億個のパラメーターがあります。

具体的には、VisualGLM-6B は、中国語と英語に等しい重みを持つ 3,000 万の高品質な中国語の画像とテキストのペアと 3 億のフィルタリングされた英語の画像とテキストのペア (CogView データセットより) で事前トレーニングされました。

このトレーニング方法により、視覚情報を ChatGLM のセマンティック空間に合わせることができます。

微調整段階では、VisualGLM-6B は長い視覚的な質問応答データでトレーニングされ、人間の好みに適合する回答が生成されました。

一方、VisualGLM-6B は、Transformer の柔軟な変更とトレーニングをサポートするツール ライブラリである SwissArmyTransformer (「sat」の略) ライブラリを使用してトレーニングされ、LoRa や P-tuning などのパラメータの効率的な微調整方法をサポートします。

最終的に、このプロジェクトは、HuggingFace インターフェースと SAT ベースのインターフェースの両方を提供します。

VisualGLM-6Bの最大の特徴は、モデル量子化技術を統合し、コンシューマーグレードのグラフィックカードにローカルで実装できることです。INT4量子化レベルでは、必要なビデオメモリは最低8.7GBです。

具体的には、次の 3 つのデプロイメント ツールが含まれます。

まずはコマンドラインデモです。次のコマンドを実行してください。

Python cli_demo.py

その後、プログラムは SAT モデルを自動的にダウンロードし、ユーザーがコマンド ラインで対話型の会話を行えるようになります。

コマンドを入力して Enter キーを押すと返信が生成されます。チャット履歴を消去するには「clear」と入力し、プログラムを終了させるには「stop」と入力します。

2 番目は、Grado をベースにした Web ベースのデモです。

まず Grado をインストールする必要があります: pip install gradio、次にこのリポジトリで web_demo.py をダウンロードして実行し、最後にシステムによって出力されたアドレスをブラウザーで開いて使用します。

3つ目はAPIのデプロイメントです。追加の依存関係をインストールする必要があります。「pip install fastapi uvicorn」を実行し、リポジトリから「api.py」を実行します。

推論と定量化に関する詳細と方法についてはここでは詳しく説明しません。参考文献[1]をクリックすると、公式の紹介文をご覧いただけます。

なお、公式発表の通り、VisualGLM-6Bは現在バージョンV1であり、視覚モデルと言語モデルの両方においてパラメータと計算コストが比較的小さい点に留意する必要があります。そのため、画像記述における事実性/モデル錯覚の問題、画像詳細情報の不十分な捕捉、言語モデルに起因するいくつかの制限など、多くの既知の制限があります。

以下のテストで示されているように、VisualGLM-6Bの説明は非常に正確で、アルゼンチンとワールドカップに関するものであることが明確に示されています。しかし、騙されないでください。この画像にはスター選手のアグエロとディ・マリアは写っていません。

そのため、公式声明では、今後も上記の問題に一つずつ対処していくことも示されました。

ただし、VisualGLM-6B は画像解釈機能を備えた唯一の大型モデルではありません。

現在、GPT-4は最も優れた「ミームキラー」であるようです。ユーザーテストによると、GPT-4はすでにミーム内のテキストに基づいてミームを解釈できるそうです。


オープンソースの大規模モデルに関しては、Vicuna-13Bをベースに開発されたMiniGPT-4も画像を解釈することができ、必要なのはRTX 3090グラフィックカード1枚だけです。

しかし、これらの大規模モデルの中で、VisualGLM-6Bは「中国語オープンソース」という特徴を強調しています。つまり、中国語の説明は他の大規模モデルよりも正確である可能性があります。

絵文字を解釈するAIを試したことがありますか?人間の思考の本質を捉える能力に優れているのはどれだと思いますか?(冗談です)

VisualGLM-6B デモリンク:
https://huggingface.co/spaces/lykeven/visualglm-6b

参考リンク:
[1]https://mp.weixin.qq.com/s/SzS6Gx8ZjtBXXQ7cs8-zLQ
[2]https://twitter.com/thukeg/status/1659079789599248386