方法論、ツール、チーム: Web3 データ アナリストになるには?

方法論、ツール、チーム: Web3 データ アナリストになるには?

この記事は、Web3 を初めて使用するデータ アナリスト、Web3 分析チームの構築を開始したばかりのデータ アナリスト、または Web3 データに興味を持ち始めたばかりのデータ アナリストを想定しています。どちらのアプローチを採用する場合でも、Web2 での API、データベース、変換、モデルの動作について、すでに一般的な知識を持っている必要があります。

この新しいガイドでは、次の 3 つの主なポイントをできるだけ簡潔に説明したいと思います。

1. オープン データ チャネルによってデータの使用方法が変わる理由について考えます。

2. ツール: Web3 データスタックのツールの概要とその使用方法

3. チーム: Web3データチームの基本的な考慮事項とスキル

データ思考

まず、web2 でデータを構築、クエリ、アクセスする方法 (つまり、Twitter の API にアクセスする方法) をまとめてみましょう。データ パイプラインを簡素化するには、次の 4 つの手順を実行します。

1. APIイベントをトリガーする(いくつかのツイートが送信されました)

2. データベースの更新(既存のユーザーモデルへの接続/状態の変更)

3. 特定の製品/分析ユースケース向けのデータ変換

4. モデルのトレーニングと展開(Twitter フィードの管理用)

データがオープンソースの場合、必要な手順は変換が完了した後のみです。 Kaggle (1,000 のデータ サイエンス/機能エンジニアリング コンペティション) や Hugs Face (26,000 のトップ NLP モデル) などのコミュニティでは、公開されているデータのサブセットを使用して、企業がより優れたモデルを構築できるようにしています。 Open Street Maps など、前の 3 つの手順でデータを公開するドメイン固有のケースもありますが、書き込み権限の制限が残っています。

ここで私が話しているのはデータについてのみであり、web2 が完全にオープンソースではないと言っているわけではないことを明確にしておきます。他のほとんどのエンジニアリング ロールと同様に、web2 データにはパイプラインを構築するためのオープン ソース ツールが多数あります (dbt、apache、TensorFlow)。私たちは今でもこれらのツールをすべて Web3 で使用しています。つまり、ツールはオープンですが、データはクローズされています。

Web3 はデータをオープンソース化します。つまり、オープン環境で作業するのはデータ サイエンティストだけではなく、分析エンジニアやデータ エンジニアも含まれることになります。ほぼブラックボックス化されたデータのループではなく、より継続的なワークフローに全員が参加します。

作業の形態は、Web2 データのダムから Web3 データの川、デルタ、海へと進化しました。また、エコシステム内のすべての製品がこのサイクルによって同時に影響を受けることにも留意することが重要です。

Web3 アナリストがどのように連携できるかの例を見てみましょう。さまざまな取引メカニズムと手数料を使用してトークン A をトークン B と交換できる取引所は数十あります。これらが NASDAQ のような一般的な取引所であれば、各取引所は 10k または何らかの API で独自のデータを報告し、その後、capIQ などの他のサービスがすべての取引所データをまとめて、API へのアクセスに対して料金を請求します。将来的には追加のデータ/チャート機能に対して料金を請求できるように、いつかイノベーション コンテストが行​​われるかもしれません。

Web3 交換では、次のようなデータ フローが存在します。

1. dex.trades は Dune 上のテーブルです (多くのコミュニティ分析エンジニアによって時間をかけて収集されたもの)。すべての DEX 取引所のデータが集約されているため、すべての取引所にわたる単一のトークンの取引量を簡単に検索できます。

2. データアナリストがコミュニティのオープンソースクエリを通じてダッシュボードを作成したので、DEX 業界全体の概要が公開されました。すべてのクエリは 1 人の人物によって書かれたように見えますが、正確にまとめるには Discord 上で多くの議論が必要だったことが推測できます。

3. DAO の科学者はダッシュボードを表示し、ステーブルコインなどの特定のペアを調べながら、独自のクエリでデータを細かく分析し始めます。ユーザーの行動やビジネスモデルを観察し、仮説の構築を開始します。科学者はどの DEX が取引量の大きなシェアを占めているかを確認できるため、新しいモデルを考案し、投票してチェーン上で実行するガバナンス パラメータの変更を提案します。

4. その後は、公開クエリ/ダッシュボードをいつでも確認して、提案によってどのように競争力の高い製品が生まれるかを確認できます。

5. 将来、別の DEX が登場した場合 (または新しいバージョンにアップグレードした場合)、このプロセスが繰り返されます。誰かが挿入クエリを作成してこのテーブルを更新します。これは、すべてのダッシュボードとモデルに反映されます (誰かが戻って手動で修正/変更する必要はありません)。他のアナリスト/科学者は、他の人が行った作業を基に作業を進めることができます。

共有エコシステムのおかげで、ディスカッション、コラボレーション、学習はより緊密なフィードバック ループ内で行われます。確かに、これは時には手に負えない作業になる可能性があり、私が知っているアナリストは基本的にデータを使い果たしてローテーションを組んでいるところです。ただし、私たちの 1 人がデータを前進させ続ける限り (たとえば、誰かが挿入 DEX クエリを作成する)、他の全員が恩恵を受けます。

必ずしも複雑な抽象ビューである必要はなく、ENS リバース リゾルバーを簡単に検索できるようにするなどのユーティリティ機能や、1 つの CLI コマンドでほとんどの graphQL マッピングを自動的に生成するなどのツールの改善が必要な場合もあります。これらはすべて誰でも再利用でき、API は一部の商品のフロントエンドや独自のトランザクション モデルで使用できます。

ここで開かれた可能性は驚くべきものですが、まだ車輪がスムーズに動いていないことは認めます。データ アナリスト/サイエンス分野のエコシステムは、データ エンジニアリングと比較するとまだ非常に未熟です。いくつかの理由があると思います:

データ エンジニアリングは、クライアント RPC API の改善から基本的な SQL/graphQL 集計まで、長年にわたって web3 の中心的な焦点となってきました。 theGraph や Dune などの製品は、この点に関する取り組みの一例です。

アナリストにとって、Web3 のユニークなクロスプロトコル関係構造を理解することは非常に困難です。たとえば、アナリストは Uniswap だけを分析する方法は理解できますが、アグリゲーター、他の DEX、さまざまなトークン タイプを分析に追加するのは困難です。それに加えて、これを実現するためのツールは昨年まで実際には登場していませんでした。データ サイエンティストは通常​​、生のデータを収集し、すべての作業を自分で行う (独自のパイプラインを構築する) ことに慣れています。彼らは開発の初期段階でアナリストやエンジニアとこれほど緊密かつオープンに協力することに慣れていないと思います。私個人としては、少し時間がかかりました。

協力する方法を学ぶことに加えて、Web3 データ コミュニティは、この新しいデータ スタック全体で作業する方法も学んでいます。インフラストラクチャを制御したり、Excel からデータ レイクやデータ ウェアハウスまでゆっくりと構築したりする必要はもうありません。製品がオンラインになれば、データはどこにでもオンラインになります。チームは本質的に、データ インフラストラクチャの深い部分に放り込まれることになります。

データツール

 

いくつかのデータ ツールの概要は次のとおりです。

それぞれのタイプとその使い方を見てみましょう。

1. インタラクション + データ ソース: これは主にフロントエンド、ウォレット、および下位レベルのデータ取り込みに使用されます。 1

.1.クライアント: Ethereum の基盤となる実装は同じですが、各クライアントには異なる追加機能があります。たとえば、Erigon はデータの保存/同期に対して多くの最適化を行っており、Quorum はプライバシー チェーンをサポートしています。

1.2. Node as a Service: 実行するクライアントを選択する必要はありませんが、これらのサービスを使用することで、ノードと API を適切に実行し続けるための手間が省けます。ノードの複雑さは、キャプチャするデータの量によって異なります (ライト ノード → フル ノード → アーカイブ ノード)。

2. クエリ + データ マッピング: このレイヤーのデータは、コントラクト内で URI として参照されるか、コントラクト ABI を使用してトランザクション データをバイトからテーブル スキーマにマッピングすることで取得されます。コントラクト ABI は、コントラクトに含まれる関数とイベントを示します。それ以外の場合は、デプロイされたバイトコードのみが表示されます (この ABI がないと、コントラクト トランザクションをリバース エンジニアリング/デコードすることはできません)。

2.1.トランザクション データ: 最も一般的に使用され、主にダッシュボードやレポートに使用されます。 theGraph および Flipside API もフロントエンドで使用されます。一部のテーブルはコントラクトに 1:1 でマッピングされ、一部のテーブルではスキーマ内で追加の変換が許可されます。

2.2.メタデータ「プロトコル」: これらは実際のデータ製品ではありませんが、DID またはファイル ストレージを保存するために使用されます。ほとんどの NFT はこれらのデータ ソースの 1 つ以上を使用しますが、今年はクエリを強化するためにこれらをますます使用し始めると思います。

2.3.プロフェッショナルプロバイダー: その中には、メモリプールデータ用の Blocknative、オンチェーントランザクションデータ用の Parsec など、非常に堅牢なデータストリーミング製品もあります。その他には、DAO ガバナンスや財務データなどのオンチェーンおよびオフチェーンのデータを集約するものもあります。

2.4.高次元データ プロバイダー: データのクエリや変換はできませんが、面倒な作業はすべてプロバイダーが行ってくれます。

これらのツールをサポートする強力で素晴らしいコミュニティがなければ、web3 は存在しなかったでしょう。それぞれのタイプで著名なコミュニティを見ることができます:

1. Flashbots: MEV に重点を置き、トランザクションを保護するカスタム RPC からプロフェッショナルなホワイト ハット サービスまで、あらゆるものを提供します。 MEV は主に、誰かがあなたよりも多くのガスを(ただしマイナーに直接)支払い、自分のトランザクションを最初に実行できるようにするランザガン問題を指します。

2. Dune Data Elite: Dune のデータ エコシステムへの貢献に重点を置くデータ分析エリート。

3. Flipside Data Elite: Web3 データの進歩に貢献することに重点を置くデータ分析エリート。

4. MetricsDAO: エコシステム全体で機能し、複数のチェーン上のさまざまなデータ報酬を処理します。

5. DiamondDAO: 主にガバナンス、財務、トークン管理における Stellar のデータ サイエンス作業に重点を置いています。

6. IndexCoop: トークンなどの特定の領域の分析に焦点を当て、暗号通貨業界における最高のインデックスを開発します。

7. OurNetwork: さまざまなプロトコルと Web3 の週次データ カバレッジ。

注: 上記DAOへの参加に関する連絡先については原文をご覧ください。

各コミュニティは、Web3 エコシステムを改善するために多くの作業を行ってきました。コミュニティのある製品は 100 倍速く成長することは間違いありません。これはまだ非常に過小評価されている競争上の優位性であり、人々がこれらのコミュニティで何かを構築しない限り、それを得ることはできないと思います。

データチーム

言うまでもなく、これらのコミュニティでチームに参加する人材を探すことも重要です。実際に何を探しているのかがわかるように、重要な Web3 データ スキルと経験をさらに分析してみましょう。採用されたい場合は、これがあなたが求めるスキルと経験であると考えてください。

少なくとも、アナリストは Dune ダッシュボードの読み方を知っている Etherscan の探偵である必要があります。ゆっくり勉強できるようになるまでには 1 か月かかるかもしれませんし、本当に熱心に勉強したい場合は 2 週間かかるかもしれません。

特に時間の配分やスキルの移転など、考慮すべき点はたくさんあります。

1. 時間: Web3 では、データ アナリストの時間の約 30 ~ 40% が、エコシステム内の他のアナリストやプロトコルに追いつくことに費やされます。彼らを圧倒しないように注意してください。そうしないと、長期的には全員に不利益をもたらすことになります。より大きなデータ コミュニティとともに学び、貢献し、構築することが必要です。

2. 移転可能性: この分野では、スキルと分野の両方が非常に移転可能です。異なるプロトコルを使用する場合、オンチェーン データのテーブル スキーマは同じであるため、開始までの時間が短縮される可能性があります。

覚えておいてください、これらのツールの使い方を知ることは重要ではありません。すべてのアナリストは、いつかは SQL を記述したり、データ ダッシュボードを作成したりできるようになる必要があります。重要なのはコミュニティに貢献し、コミュニティと協力することです。インタビューする人が Web3 データ コミュニティのいずれにも属していない場合 (そして、それにまったく興味がなさそうである場合)、これが危険信号であるかどうかを自問してみるとよいでしょう。


<<:  41億ドルの資金を調達し、デビュー時に最高値に達したEOSは、親会社Block.oneと訴訟を起こす可能性がある。

>>:  EuroEasy Research Institute: 世界中のタカ派中央銀行が金利を引き上げようとしている中、ビットコインは苦境に陥るのか、それともトレンドに逆らって上昇するのか?

推薦する

マヒンドラCFO:ビットコイン開発は障害に直面しており、規制当局はそれを制御する必要がある

本日、2014年夏季ダボスフォーラムが開催されました。この年次総会のテーマは「イノベーションの推進に...

ビットコインが複数の重要な抵抗レベルに到達。売りを誘発するだろうか?

ビットコインはここ数日、暗号通貨市場の上昇を牽引しており、最近は統合段階を抜け出し、市場全体の出発点...

時代が変わってもビットコインはビットコインのまま

「アメリカよ、この偉大な国を率いるリーダーとして私を選んでくださったことを光栄に思います。」 11月...

暗号通貨の「ブラック」3月、取引所だけが勝者になる可能性

出典: Scallion Blockchain 2020年3月はビットコイン保有者にとって非常に不安...

イーサリアムの次の目的地:上海アップグレード

今週の木曜日、イーサリアムのコンセンサスメカニズムは PoW プルーフ・オブ・ワークから PoS プ...

デジタル資産分野の Kickstarter として、Wings はどのようにして The DAO の過ちを繰り返さないようにできるのでしょうか?

Wings は、企業や革新的なプロジェクトが資金を獲得し、投資家がプロジェクトを選択できるように支...

電気料金の下落により、仮想通貨マイナーは日本の遠隔地へ移動

CCNによると、日本のあまり知られていない辺鄙な地域が最近、仮想通貨マイナーの間で人気の採掘地となっ...

Bitmain、Antminer S7の第2バッチ先行販売を発表

11月3日のBitmain公式ストアからの報道によると、Antminerの国内販売チームは11月3日...

青海省、すべての仮想通貨マイニング事業の閉鎖を命令

中国青海省は仮想通貨マイニング事業の禁止を発表したと水曜日の政府文書が明らかにした。青海省は石炭火力...

エルサルバドルはビットコインを法定通貨として使用する最初の国になるのか?単なるマーケティングの策略か寄付金の募集

呉碩 著者 |タン・シュウこの号の編集者 |コリン・ウー本日、エルサルバドルのナジブ・ブケレ大統領は...

4日間で2億ドルを調達!元ゴールドマン・サックスの高頻度取引業者がブロックチェーンICOの資金調達記録を樹立

暗号化されたデジタル通貨はどれくらい人気がありますか?ウォール街出身のカップルが最近、ブロックチェー...

オーストラリアの1,200の新聞スタンドがビットコインとイーサリアムの販売を開始

オーストラリアの1,200のニューススタンドが現在ビットコインとイーサリアムの売買をサポートしており...

TONが次に大きなパブリックチェーンである理由

1.要約TON は、TON 財団を通じて Telegram Inc によって間接的にサポートされてい...

ビットコインプライバシーツールCoinShuffleが最初の取引を成功させる

プライバシー擁護派が長らく望んでいた匿名のビットコイン取引が、ついにテストに成功した。今月初め、Co...

中央銀行の検査後:ビットコイン業界はどこへ向かうのか?

6月以降、国内のいくつかの大手ビットコイン取引プラットフォームは引き出しサービスを再開した。これは...