Es gibt mehrere Herausforderungen, mit denen ein modernes Blockchain-Indizierungs-Startup konfrontiert sein kann, darunter:
In diesem Artikel betrachten wir die schrittweise Entwicklung der Technologiearchitektur von Footprint Analytics als Fallstudie, um zu untersuchen, wie der Iceberg-Trino-Technologie-Stack die Herausforderungen von On-Chain-Daten bewältigt.
Footprint Analytics hat etwa 22 öffentliche Blockchain-Daten und 17 NFT-Marktplätze, 1900 GameFi-Projekte und über 100.000 NFT-Sammlungen in einer semantischen Abstraktionsdatenschicht indiziert. Es handelt sich um die umfassendste Blockchain-Data-Warehouse-Lösung der Welt.
Unabhängig von Blockchain-Daten, die über 20 Milliarden Zeilen mit Aufzeichnungen von Finanztransaktionen umfassen und häufig von Datenanalysten abgefragt werden. Es unterscheidet sich von Eingangsprotokollen in herkömmlichen Data Warehouses.
Wir haben in den letzten Monaten drei große Upgrades durchgeführt, um den wachsenden Geschäftsanforderungen gerecht zu werden:
Zu Beginn von Footprint Analytics verwendeten wir Google Bigquery als unsere Speicher- und Abfrage-Engine; Bigquery ist ein großartiges Produkt. Es ist unglaublich schnell, einfach zu bedienen und bietet dynamische Rechenleistung und eine flexible UDF-Syntax, die uns hilft, unsere Arbeit schnell zu erledigen.
Allerdings weist Bigquery auch eine Reihe von Problemen auf.
Wir waren sehr an einigen der OLAP-Produkte interessiert, die sich großer Beliebtheit erfreuten. Der attraktivste Vorteil von OLAP ist seine Abfrage-Antwortzeit, die in der Regel weniger als Sekunden dauert, um Abfrageergebnisse für riesige Datenmengen zurückzugeben, und es kann auch Tausende gleichzeitiger Abfragen unterstützen.
Wir haben eine der besten OLAP-Datenbanken, Doris, ausgewählt, um es auszuprobieren. Dieser Motor leistet gut. Irgendwann stießen wir jedoch bald auf andere Probleme:
Leider konnten wir Bigquery nicht durch Doris ersetzen, daher mussten wir regelmäßig Daten von Bigquery mit Doris synchronisieren und es nur als Abfrage-Engine verwenden. Bei diesem Synchronisierungsprozess gab es eine Reihe von Problemen. Eines davon bestand darin, dass sich die Update-Schreibvorgänge schnell häuften, wenn die OLAP-Engine damit beschäftigt war, Abfragen an die Front-End-Clients zu verarbeiten. Dadurch wurde die Geschwindigkeit des Schreibvorgangs beeinträchtigt, die Synchronisierung dauerte viel länger und konnte manchmal sogar nicht mehr abgeschlossen werden.
Uns wurde klar, dass OLAP mehrere Probleme, mit denen wir konfrontiert sind, lösen kann und nicht die schlüsselfertige Lösung von Footprint Analytics, insbesondere für die Datenverarbeitungspipeline, werden kann. Unser Problem ist größer und komplexer, und wir könnten sagen, dass OLAP als Abfragemaschine allein für uns nicht ausgereicht hat.
Willkommen bei der Footprint Analytics-Architektur 3.0, einer kompletten Überarbeitung der zugrunde liegenden Architektur. Wir haben die gesamte Architektur von Grund auf neu gestaltet, um die Speicherung, Berechnung und Abfrage von Daten in drei verschiedene Teile zu unterteilen. Lehren aus den beiden früheren Architekturen von Footprint Analytics ziehen und aus den Erfahrungen anderer erfolgreicher Big-Data-Projekte wie Uber, Netflix und Databricks lernen.
Wir haben uns zunächst dem Data Lake zugewandt, einer neuen Art der Datenspeicherung sowohl für strukturierte als auch für unstrukturierte Daten. Data Lake eignet sich perfekt für die On-Chain-Datenspeicherung, da die Formate der On-Chain-Daten von unstrukturierten Rohdaten bis hin zu strukturierten Abstraktionsdaten reichen, für die Footprint Analytics bekannt ist. Wir gingen davon aus, dass Data Lake das Problem der Datenspeicherung lösen würde, und im Idealfall würde es auch gängige Compute-Engines wie Spark und Flink unterstützen, sodass die Integration in verschiedene Arten von Verarbeitungs-Engines im Zuge der Weiterentwicklung von Footprint Analytics problemlos möglich wäre .
Iceberg lässt sich sehr gut in Spark, Flink, Trino und andere Rechen-Engines integrieren, und wir können für jede unserer Metriken die am besten geeignete Berechnung auswählen. Zum Beispiel:
Nachdem Iceberg die Speicher- und Rechenprobleme gelöst hatte, mussten wir darüber nachdenken, wie wir eine Abfrage-Engine auswählen sollten. Es stehen nicht viele Optionen zur Verfügung, die von uns in Betracht gezogenen Alternativen waren
Nachdem wir uns für unsere Richtung entschieden hatten, führten wir einen Leistungstest mit der Trino + Iceberg-Kombination durch, um zu sehen, ob sie unseren Anforderungen gerecht werden konnte, und zu unserer Überraschung gingen die Anfragen unglaublich schnell.
Da wir wussten, dass Presto + Hive im OLAP-Hype seit Jahren der schlechteste Vergleichsanbieter war, hat uns die Kombination aus Trino + Iceberg völlig umgehauen.
Hier sind die Ergebnisse unserer Tests.
Fall 1: Großen Datensatz beitreten
Eine 800-GB-Tabelle1 verbindet eine weitere 50-GB-Tabelle2 und führt komplexe Geschäftsberechnungen durch
Fall 2: Verwenden Sie eine große einzelne Tabelle, um eine eindeutige Abfrage durchzuführen
Testen Sie SQL: Wählen Sie eine eindeutige Adresse (Adresse) aus der Tabellengruppe nach Tag aus
Die Trino+Iceberg-Kombination ist etwa dreimal schneller als Doris in derselben Konfiguration.
Darüber hinaus gibt es noch eine weitere Überraschung, denn Iceberg kann Datenformate wie Parquet, ORC usw. verwenden, die die Daten komprimieren und speichern. Der Tabellenspeicher von Iceberg benötigt nur etwa 1/5 des Speicherplatzes anderer Data Warehouses. Die Speichergröße derselben Tabelle in den drei Datenbanken ist wie folgt:
Hinweis: Bei den oben genannten Tests handelt es sich um einzelne Beispiele, die wir in der tatsächlichen Produktion kennengelernt haben, und dienen nur als Referenz.
・Upgrade-Effekt
Die Leistungstestberichte lieferten uns genügend Leistung, sodass unser Team etwa zwei Monate brauchte, um die Migration abzuschließen. Dies ist ein Diagramm unserer Architektur nach dem Upgrade.
Seit seiner Einführung im August 2021 hat das Team von Footprint Analytics in weniger als anderthalb Jahren drei Architektur-Upgrades abgeschlossen, dank seines großen Wunsches und seiner Entschlossenheit, seinen Krypto-Benutzern die Vorteile der besten Datenbanktechnologie zu bieten, und einer soliden Umsetzung bei der Implementierung und die Aktualisierung der zugrunde liegenden Infrastruktur und Architektur.
Das Footprint Analytics-Architektur-Upgrade 3.0 hat seinen Benutzern ein neues Erlebnis beschert, das es Benutzern mit unterschiedlichem Hintergrund ermöglicht, Einblicke in vielfältigere Nutzungen und Anwendungen zu erhalten:
Es gibt mehrere Herausforderungen, mit denen ein modernes Blockchain-Indizierungs-Startup konfrontiert sein kann, darunter:
In diesem Artikel betrachten wir die schrittweise Entwicklung der Technologiearchitektur von Footprint Analytics als Fallstudie, um zu untersuchen, wie der Iceberg-Trino-Technologie-Stack die Herausforderungen von On-Chain-Daten bewältigt.
Footprint Analytics hat etwa 22 öffentliche Blockchain-Daten und 17 NFT-Marktplätze, 1900 GameFi-Projekte und über 100.000 NFT-Sammlungen in einer semantischen Abstraktionsdatenschicht indiziert. Es handelt sich um die umfassendste Blockchain-Data-Warehouse-Lösung der Welt.
Unabhängig von Blockchain-Daten, die über 20 Milliarden Zeilen mit Aufzeichnungen von Finanztransaktionen umfassen und häufig von Datenanalysten abgefragt werden. Es unterscheidet sich von Eingangsprotokollen in herkömmlichen Data Warehouses.
Wir haben in den letzten Monaten drei große Upgrades durchgeführt, um den wachsenden Geschäftsanforderungen gerecht zu werden:
Zu Beginn von Footprint Analytics verwendeten wir Google Bigquery als unsere Speicher- und Abfrage-Engine; Bigquery ist ein großartiges Produkt. Es ist unglaublich schnell, einfach zu bedienen und bietet dynamische Rechenleistung und eine flexible UDF-Syntax, die uns hilft, unsere Arbeit schnell zu erledigen.
Allerdings weist Bigquery auch eine Reihe von Problemen auf.
Wir waren sehr an einigen der OLAP-Produkte interessiert, die sich großer Beliebtheit erfreuten. Der attraktivste Vorteil von OLAP ist seine Abfrage-Antwortzeit, die in der Regel weniger als Sekunden dauert, um Abfrageergebnisse für riesige Datenmengen zurückzugeben, und es kann auch Tausende gleichzeitiger Abfragen unterstützen.
Wir haben eine der besten OLAP-Datenbanken, Doris, ausgewählt, um es auszuprobieren. Dieser Motor leistet gut. Irgendwann stießen wir jedoch bald auf andere Probleme:
Leider konnten wir Bigquery nicht durch Doris ersetzen, daher mussten wir regelmäßig Daten von Bigquery mit Doris synchronisieren und es nur als Abfrage-Engine verwenden. Bei diesem Synchronisierungsprozess gab es eine Reihe von Problemen. Eines davon bestand darin, dass sich die Update-Schreibvorgänge schnell häuften, wenn die OLAP-Engine damit beschäftigt war, Abfragen an die Front-End-Clients zu verarbeiten. Dadurch wurde die Geschwindigkeit des Schreibvorgangs beeinträchtigt, die Synchronisierung dauerte viel länger und konnte manchmal sogar nicht mehr abgeschlossen werden.
Uns wurde klar, dass OLAP mehrere Probleme, mit denen wir konfrontiert sind, lösen kann und nicht die schlüsselfertige Lösung von Footprint Analytics, insbesondere für die Datenverarbeitungspipeline, werden kann. Unser Problem ist größer und komplexer, und wir könnten sagen, dass OLAP als Abfragemaschine allein für uns nicht ausgereicht hat.
Willkommen bei der Footprint Analytics-Architektur 3.0, einer kompletten Überarbeitung der zugrunde liegenden Architektur. Wir haben die gesamte Architektur von Grund auf neu gestaltet, um die Speicherung, Berechnung und Abfrage von Daten in drei verschiedene Teile zu unterteilen. Lehren aus den beiden früheren Architekturen von Footprint Analytics ziehen und aus den Erfahrungen anderer erfolgreicher Big-Data-Projekte wie Uber, Netflix und Databricks lernen.
Wir haben uns zunächst dem Data Lake zugewandt, einer neuen Art der Datenspeicherung sowohl für strukturierte als auch für unstrukturierte Daten. Data Lake eignet sich perfekt für die On-Chain-Datenspeicherung, da die Formate der On-Chain-Daten von unstrukturierten Rohdaten bis hin zu strukturierten Abstraktionsdaten reichen, für die Footprint Analytics bekannt ist. Wir gingen davon aus, dass Data Lake das Problem der Datenspeicherung lösen würde, und im Idealfall würde es auch gängige Compute-Engines wie Spark und Flink unterstützen, sodass die Integration in verschiedene Arten von Verarbeitungs-Engines im Zuge der Weiterentwicklung von Footprint Analytics problemlos möglich wäre .
Iceberg lässt sich sehr gut in Spark, Flink, Trino und andere Rechen-Engines integrieren, und wir können für jede unserer Metriken die am besten geeignete Berechnung auswählen. Zum Beispiel:
Nachdem Iceberg die Speicher- und Rechenprobleme gelöst hatte, mussten wir darüber nachdenken, wie wir eine Abfrage-Engine auswählen sollten. Es stehen nicht viele Optionen zur Verfügung, die von uns in Betracht gezogenen Alternativen waren
Nachdem wir uns für unsere Richtung entschieden hatten, führten wir einen Leistungstest mit der Trino + Iceberg-Kombination durch, um zu sehen, ob sie unseren Anforderungen gerecht werden konnte, und zu unserer Überraschung gingen die Anfragen unglaublich schnell.
Da wir wussten, dass Presto + Hive im OLAP-Hype seit Jahren der schlechteste Vergleichsanbieter war, hat uns die Kombination aus Trino + Iceberg völlig umgehauen.
Hier sind die Ergebnisse unserer Tests.
Fall 1: Großen Datensatz beitreten
Eine 800-GB-Tabelle1 verbindet eine weitere 50-GB-Tabelle2 und führt komplexe Geschäftsberechnungen durch
Fall 2: Verwenden Sie eine große einzelne Tabelle, um eine eindeutige Abfrage durchzuführen
Testen Sie SQL: Wählen Sie eine eindeutige Adresse (Adresse) aus der Tabellengruppe nach Tag aus
Die Trino+Iceberg-Kombination ist etwa dreimal schneller als Doris in derselben Konfiguration.
Darüber hinaus gibt es noch eine weitere Überraschung, denn Iceberg kann Datenformate wie Parquet, ORC usw. verwenden, die die Daten komprimieren und speichern. Der Tabellenspeicher von Iceberg benötigt nur etwa 1/5 des Speicherplatzes anderer Data Warehouses. Die Speichergröße derselben Tabelle in den drei Datenbanken ist wie folgt:
Hinweis: Bei den oben genannten Tests handelt es sich um einzelne Beispiele, die wir in der tatsächlichen Produktion kennengelernt haben, und dienen nur als Referenz.
・Upgrade-Effekt
Die Leistungstestberichte lieferten uns genügend Leistung, sodass unser Team etwa zwei Monate brauchte, um die Migration abzuschließen. Dies ist ein Diagramm unserer Architektur nach dem Upgrade.
Seit seiner Einführung im August 2021 hat das Team von Footprint Analytics in weniger als anderthalb Jahren drei Architektur-Upgrades abgeschlossen, dank seines großen Wunsches und seiner Entschlossenheit, seinen Krypto-Benutzern die Vorteile der besten Datenbanktechnologie zu bieten, und einer soliden Umsetzung bei der Implementierung und die Aktualisierung der zugrunde liegenden Infrastruktur und Architektur.
Das Footprint Analytics-Architektur-Upgrade 3.0 hat seinen Benutzern ein neues Erlebnis beschert, das es Benutzern mit unterschiedlichem Hintergrund ermöglicht, Einblicke in vielfältigere Nutzungen und Anwendungen zu erhalten: