DUICUO

私はこのオープンソースのテキスト認識システムのファンです!

テキスト認識は私たちにとって馴染み深い技術です。この技術は長年にわたり、私たちの生活のあらゆる側面に深く根付いています。今日は、テキストの意味を認識できるツール、pyWhatをご紹介します。

特定の文字列が何を表しているのかわからない場合でも、メールアドレス、YouTube動画ID、電話番号、その他の情報形式を素早く判別できます。.pcapファイルやテキストファイルを渡せば、そのファイルやテキストが何を表しているのかを教えてくれます。

現在、pyWhat は GitHub で 3.8K のスターと合計 127 のブランチを獲得しています。

(GitHubアドレス:https://github.com/bee-san/pyWhat)

検索とは異なり、pyWhat はテキストを自動的に分割します。例えば、文字列「5f4dcc3b5aa765d61d8327deb882cf99」に完全一致がない場合、pyWhat はテキストを長さの異なる複数の文字列に分割し、完全一致を探します。

たとえば、WantToCry と呼ばれる新しいマルウェアに遭遇した場合、WannaCry を思い出し、研究者がコード内にキル スイッチを発見したために阻止されたことを思い出すかもしれません。

WannaCryにハードコードされたドメインが登録されると、ウイルスは停止します。このツールを使えば、マルウェア内のすべてのドメインを特定し、ドメインレジストリAPIを使用してそれらをすべて登録できます。WannaCryが再発した場合、数週間ではなく数分で阻止できます。

Pcapファイルをより速く分析

ネットワーク攻撃による.pcapファイルがあるとします。以下の情報を識別し、迅速に見つけ出すにはどうすればよいでしょうか?

  • すべてのハッシュ
  • クレジットカード番号
  • 暗号通貨アドレス
  • 連絡先等

つまり、pywhat は、1 つのファイル内のすべての有用な構造化データを検索したいときに役立ちます。