方法論、ツール、チーム: Web3 データ アナリストになるには?

方法論、ツール、チーム: Web3 データ アナリストになるには?

この記事は、Web3 を初めて使用するデータ アナリスト、Web3 分析チームの構築を開始したばかりのデータ アナリスト、または Web3 データに興味を持ち始めたばかりのデータ アナリストを想定しています。どちらのアプローチを採用する場合でも、Web2 での API、データベース、変換、モデルの動作について、すでに一般的な知識を持っている必要があります。

この新しいガイドでは、次の 3 つの主なポイントをできるだけ簡潔に説明したいと思います。

1. オープン データ チャネルによってデータの使用方法が変わる理由について考えます。

2. ツール: Web3 データスタックのツールの概要とその使用方法

3. チーム: Web3データチームの基本的な考慮事項とスキル

データ思考

まず、web2 でデータを構築、クエリ、アクセスする方法 (つまり、Twitter の API にアクセスする方法) をまとめてみましょう。データ パイプラインを簡素化するには、次の 4 つの手順を実行します。

1. APIイベントをトリガーする(いくつかのツイートが送信されました)

2. データベースの更新(既存のユーザーモデルへの接続/状態の変更)

3. 特定の製品/分析ユースケース向けのデータ変換

4. モデルのトレーニングと展開(Twitter フィードの管理用)

データがオープンソースの場合、必要な手順は変換が完了した後のみです。 Kaggle (1,000 のデータ サイエンス/機能エンジニアリング コンペティション) や Hugs Face (26,000 のトップ NLP モデル) などのコミュニティでは、公開されているデータのサブセットを使用して、企業がより優れたモデルを構築できるようにしています。 Open Street Maps など、前の 3 つの手順でデータを公開するドメイン固有のケースもありますが、書き込み権限の制限が残っています。

ここで私が話しているのはデータについてのみであり、web2 が完全にオープンソースではないと言っているわけではないことを明確にしておきます。他のほとんどのエンジニアリング ロールと同様に、web2 データにはパイプラインを構築するためのオープン ソース ツールが多数あります (dbt、apache、TensorFlow)。私たちは今でもこれらのツールをすべて Web3 で使用しています。つまり、ツールはオープンですが、データはクローズされています。

Web3 はデータをオープンソース化します。つまり、オープン環境で作業するのはデータ サイエンティストだけではなく、分析エンジニアやデータ エンジニアも含まれることになります。ほぼブラックボックス化されたデータのループではなく、より継続的なワークフローに全員が参加します。

作業の形態は、Web2 データのダムから Web3 データの川、デルタ、海へと進化しました。また、エコシステム内のすべての製品がこのサイクルによって同時に影響を受けることにも留意することが重要です。

Web3 アナリストがどのように連携できるかの例を見てみましょう。さまざまな取引メカニズムと手数料を使用してトークン A をトークン B と交換できる取引所は数十あります。これらが NASDAQ のような一般的な取引所であれば、各取引所は 10k または何らかの API で独自のデータを報告し、その後、capIQ などの他のサービスがすべての取引所データをまとめて、API へのアクセスに対して料金を請求します。将来的には追加のデータ/チャート機能に対して料金を請求できるように、いつかイノベーション コンテストが行​​われるかもしれません。

Web3 交換では、次のようなデータ フローが存在します。

1. dex.trades は Dune 上のテーブルです (多くのコミュニティ分析エンジニアによって時間をかけて収集されたもの)。すべての DEX 取引所のデータが集約されているため、すべての取引所にわたる単一のトークンの取引量を簡単に検索できます。

2. データアナリストがコミュニティのオープンソースクエリを通じてダッシュボードを作成したので、DEX 業界全体の概要が公開されました。すべてのクエリは 1 人の人物によって書かれたように見えますが、正確にまとめるには Discord 上で多くの議論が必要だったことが推測できます。

3. DAO の科学者はダッシュボードを表示し、ステーブルコインなどの特定のペアを調べながら、独自のクエリでデータを細かく分析し始めます。ユーザーの行動やビジネスモデルを観察し、仮説の構築を開始します。科学者はどの DEX が取引量の大きなシェアを占めているかを確認できるため、新しいモデルを考案し、投票してチェーン上で実行するガバナンス パラメータの変更を提案します。

4. その後は、公開クエリ/ダッシュボードをいつでも確認して、提案によってどのように競争力の高い製品が生まれるかを確認できます。

5. 将来、別の DEX が登場した場合 (または新しいバージョンにアップグレードした場合)、このプロセスが繰り返されます。誰かが挿入クエリを作成してこのテーブルを更新します。これは、すべてのダッシュボードとモデルに反映されます (誰かが戻って手動で修正/変更する必要はありません)。他のアナリスト/科学者は、他の人が行った作業を基に作業を進めることができます。

共有エコシステムのおかげで、ディスカッション、コラボレーション、学習はより緊密なフィードバック ループ内で行われます。確かに、これは時には手に負えない作業になる可能性があり、私が知っているアナリストは基本的にデータを使い果たしてローテーションを組んでいるところです。ただし、私たちの 1 人がデータを前進させ続ける限り (たとえば、誰かが挿入 DEX クエリを作成する)、他の全員が恩恵を受けます。

必ずしも複雑な抽象ビューである必要はなく、ENS リバース リゾルバーを簡単に検索できるようにするなどのユーティリティ機能や、1 つの CLI コマンドでほとんどの graphQL マッピングを自動的に生成するなどのツールの改善が必要な場合もあります。これらはすべて誰でも再利用でき、API は一部の商品のフロントエンドや独自のトランザクション モデルで使用できます。

ここで開かれた可能性は驚くべきものですが、まだ車輪がスムーズに動いていないことは認めます。データ アナリスト/サイエンス分野のエコシステムは、データ エンジニアリングと比較するとまだ非常に未熟です。いくつかの理由があると思います:

データ エンジニアリングは、クライアント RPC API の改善から基本的な SQL/graphQL 集計まで、長年にわたって web3 の中心的な焦点となってきました。 theGraph や Dune などの製品は、この点に関する取り組みの一例です。

アナリストにとって、Web3 のユニークなクロスプロトコル関係構造を理解することは非常に困難です。たとえば、アナリストは Uniswap だけを分析する方法は理解できますが、アグリゲーター、他の DEX、さまざまなトークン タイプを分析に追加するのは困難です。それに加えて、これを実現するためのツールは昨年まで実際には登場していませんでした。データ サイエンティストは通常​​、生のデータを収集し、すべての作業を自分で行う (独自のパイプラインを構築する) ことに慣れています。彼らは開発の初期段階でアナリストやエンジニアとこれほど緊密かつオープンに協力することに慣れていないと思います。私個人としては、少し時間がかかりました。

協力する方法を学ぶことに加えて、Web3 データ コミュニティは、この新しいデータ スタック全体で作業する方法も学んでいます。インフラストラクチャを制御したり、Excel からデータ レイクやデータ ウェアハウスまでゆっくりと構築したりする必要はもうありません。製品がオンラインになれば、データはどこにでもオンラインになります。チームは本質的に、データ インフラストラクチャの深い部分に放り込まれることになります。

データツール

 

いくつかのデータ ツールの概要は次のとおりです。

それぞれのタイプとその使い方を見てみましょう。

1. インタラクション + データ ソース: これは主にフロントエンド、ウォレット、および下位レベルのデータ取り込みに使用されます。 1

.1.クライアント: Ethereum の基盤となる実装は同じですが、各クライアントには異なる追加機能があります。たとえば、Erigon はデータの保存/同期に対して多くの最適化を行っており、Quorum はプライバシー チェーンをサポートしています。

1.2. Node as a Service: 実行するクライアントを選択する必要はありませんが、これらのサービスを使用することで、ノードと API を適切に実行し続けるための手間が省けます。ノードの複雑さは、キャプチャするデータの量によって異なります (ライト ノード → フル ノード → アーカイブ ノード)。

2. クエリ + データ マッピング: このレイヤーのデータは、コントラクト内で URI として参照されるか、コントラクト ABI を使用してトランザクション データをバイトからテーブル スキーマにマッピングすることで取得されます。コントラクト ABI は、コントラクトに含まれる関数とイベントを示します。それ以外の場合は、デプロイされたバイトコードのみが表示されます (この ABI がないと、コントラクト トランザクションをリバース エンジニアリング/デコードすることはできません)。

2.1.トランザクション データ: 最も一般的に使用され、主にダッシュボードやレポートに使用されます。 theGraph および Flipside API もフロントエンドで使用されます。一部のテーブルはコントラクトに 1:1 でマッピングされ、一部のテーブルではスキーマ内で追加の変換が許可されます。

2.2.メタデータ「プロトコル」: これらは実際のデータ製品ではありませんが、DID またはファイル ストレージを保存するために使用されます。ほとんどの NFT はこれらのデータ ソースの 1 つ以上を使用しますが、今年はクエリを強化するためにこれらをますます使用し始めると思います。

2.3.プロフェッショナルプロバイダー: その中には、メモリプールデータ用の Blocknative、オンチェーントランザクションデータ用の Parsec など、非常に堅牢なデータストリーミング製品もあります。その他には、DAO ガバナンスや財務データなどのオンチェーンおよびオフチェーンのデータを集約するものもあります。

2.4.高次元データ プロバイダー: データのクエリや変換はできませんが、面倒な作業はすべてプロバイダーが行ってくれます。

これらのツールをサポートする強力で素晴らしいコミュニティがなければ、web3 は存在しなかったでしょう。それぞれのタイプで著名なコミュニティを見ることができます:

1. Flashbots: MEV に重点を置き、トランザクションを保護するカスタム RPC からプロフェッショナルなホワイト ハット サービスまで、あらゆるものを提供します。 MEV は主に、誰かがあなたよりも多くのガスを(ただしマイナーに直接)支払い、自分のトランザクションを最初に実行できるようにするランザガン問題を指します。

2. Dune Data Elite: Dune のデータ エコシステムへの貢献に重点を置くデータ分析エリート。

3. Flipside Data Elite: Web3 データの進歩に貢献することに重点を置くデータ分析エリート。

4. MetricsDAO: エコシステム全体で機能し、複数のチェーン上のさまざまなデータ報酬を処理します。

5. DiamondDAO: 主にガバナンス、財務、トークン管理における Stellar のデータ サイエンス作業に重点を置いています。

6. IndexCoop: トークンなどの特定の領域の分析に焦点を当て、暗号通貨業界における最高のインデックスを開発します。

7. OurNetwork: さまざまなプロトコルと Web3 の週次データ カバレッジ。

注: 上記DAOへの参加に関する連絡先については原文をご覧ください。

各コミュニティは、Web3 エコシステムを改善するために多くの作業を行ってきました。コミュニティのある製品は 100 倍速く成長することは間違いありません。これはまだ非常に過小評価されている競争上の優位性であり、人々がこれらのコミュニティで何かを構築しない限り、それを得ることはできないと思います。

データチーム

言うまでもなく、これらのコミュニティでチームに参加する人材を探すことも重要です。実際に何を探しているのかがわかるように、重要な Web3 データ スキルと経験をさらに分析してみましょう。採用されたい場合は、これがあなたが求めるスキルと経験であると考えてください。

少なくとも、アナリストは Dune ダッシュボードの読み方を知っている Etherscan の探偵である必要があります。ゆっくり勉強できるようになるまでには 1 か月かかるかもしれませんし、本当に熱心に勉強したい場合は 2 週間かかるかもしれません。

特に時間の配分やスキルの移転など、考慮すべき点はたくさんあります。

1. 時間: Web3 では、データ アナリストの時間の約 30 ~ 40% が、エコシステム内の他のアナリストやプロトコルに追いつくことに費やされます。彼らを圧倒しないように注意してください。そうしないと、長期的には全員に不利益をもたらすことになります。より大きなデータ コミュニティとともに学び、貢献し、構築することが必要です。

2. 移転可能性: この分野では、スキルと分野の両方が非常に移転可能です。異なるプロトコルを使用する場合、オンチェーン データのテーブル スキーマは同じであるため、開始までの時間が短縮される可能性があります。

覚えておいてください、これらのツールの使い方を知ることは重要ではありません。すべてのアナリストは、いつかは SQL を記述したり、データ ダッシュボードを作成したりできるようになる必要があります。重要なのはコミュニティに貢献し、コミュニティと協力することです。インタビューする人が Web3 データ コミュニティのいずれにも属していない場合 (そして、それにまったく興味がなさそうである場合)、これが危険信号であるかどうかを自問してみるとよいでしょう。


<<:  41億ドルの資金を調達し、デビュー時に最高値に達したEOSは、親会社Block.oneと訴訟を起こす可能性がある。

>>:  EuroEasy Research Institute: 世界中のタカ派中央銀行が金利を引き上げようとしている中、ビットコインは苦境に陥るのか、それともトレンドに逆らって上昇するのか?

推薦する

グラスノード:マイナー残高の純増加は月間5,000ビットコインに達した

8月19日、グラスノードの最新分析によると、マイナーの純残高ポジションは過去2か月間増加し続けた。マ...

英国財務省は、XRPは証券ではなく取引トークンであると改めて主張

英国財務省は、新たに発表された文書の中で、XRPは証券ではなく取引トークンであるという立場を改めて表...

BRC20の裏側: BSVコミュニティからの復讐

現在、BRC 20 は非常に人気があり、BSV という言葉が再び注目を集めています。今年2月中旬に、...

Conflux CFX マイニングチュートリアル

カードはまだサポートされていません (6G 以上のビデオ メモリを搭載した N カードを推奨) Wi...

ハッカー対策環境でビットコインを扱うための究極のガイド

著者: Velvet Gold Mine画像ソース: Dazhiビットコインがもはや無視できない現象...

BCHウォレットの入手方法

多くのユーザーから、BCH ウォレット アドレスを取得する方法がわからないという報告があります。ウォ...

コインゾーントレンド: 今週のビッグデータに基づくビットコインの価格動向 (2017-02-16)

外貨価格は回復しており、国内投資家の多くは様子見姿勢1. 市場動向<br/>今日は201...

私はとても裕福です。自殺するために銃を買うだろうか?

「もし私が金持ちだったら、銃を買って自殺するだろうか?」これは、昨年 12 月に開催された Sca...

韓国ではNFTはどれくらい人気がありますか?有名アーティストのNFT作品が30分で2億ウォンで売れる

この記事では、韓国におけるNFTの人気、NFT業界で起きている著作権問題、そして韓国におけるNFTの...

コインゾーントレンド: 今週のビッグデータに基づくビットコインの価格動向 (2016-08-30)

市場は強気で、エントリーファンドは上昇を待っている1. 市場動向<br/>ビットコインの...

ファクトムが国土安全保障省から助成金を受ける

最近のニュースによると、米国国土安全保障省の科学技術局は、ブロックチェーンベースのIoTセキュリティ...

ビットコイン採掘調査が論争を巻き起こす:規制当局と業界との対立

EIA のビットコインマイナー調査は、無害な情報収集活動ではない。そして、それは暗号通貨エコシステム...

ビットコインは3日間で42,000ドルから31,000ドルまで急落し、弱気相場に突入しました。デジタル通貨の市場価値は急速に1兆ドルを下回った

出典:ウォールストリートジャーナル著者: 曹則熙、杜宇高いところから落ちやすいし、高いところは寒いで...

業界ニュース!インキュベーター プラットフォーム Ethereum Classic Labs がニューヨークのコンセンサス カンファレンスで正式に発表されました。

ニューヨークで開催されたコンセンサス2018ブロックチェーンテクノロジーサミットにおいて、世界的に有...