Die Einführung von ChatGPT im November 2022 hat die Augen verschiedener Branchenakteure auf das Krypto-Großsprachmodell geöffnet. Diese fiebrige Dynamik durchdrang den Kryptoraum, und dieser Artikel soll die Entwicklung von KI, ihren aktuellen Status und die Branche, die aus der Kombination von KI+Krypto entstanden ist, vorstellen.
Maschinelles Lernen (ML) ist eine Technologie mit empirischen Lernfähigkeiten, die lernt, Tiere, Sprachübersetzung und andere spezifische Aufgaben durch das Lernen aus großen Datensätzen zu diskriminieren. Maschinelles Lernen gehört zu den praktischsten Möglichkeiten, künstliche Intelligenz gegenwärtig zu realisieren, je nachdem, ob die gelernten Daten gekennzeichnet sind und Merkmale aufweisen, kann es in überwachtes Lernen und unüberwachtes Lernen unterteilt werden.
Es gibt viele Arten von Modellen, die überwachtes Lernen ermöglichen können, einschließlich baumbasierten Modellen, Graphmodellen und den kürzlich aufgekommenen neuronalen Netzen. Mit der schnellen Entwicklung von Rechenleistung und Daten wurde Deep Learning weiterentwickelt, basierend auf der Architektur neuronaler Netze. Aktuelle Deep-Learning-Architekturen umfassen in der Regel, sind jedoch nicht darauf beschränkt, CNNs, RNNs und Aufmerksamkeitsmechanismen.

Klassifizierung des maschinellen Lernens, Quelle: HashKey Capital
Unterschiedliche Deep-Learning-Netzwerke haben die grundlegende Architektur einer Eingabeschicht, einer versteckten Schicht und einer Ausgabeschicht. Die Eingabeschicht besteht in der Regel aus Text, Video, Audio und anderen Daten, die nach der Verarbeitung "Tokenisierung/Embedding" verwendet werden. Die versteckte Schicht hat je nach Datensatz und Zweck der Aufgabe ein unterschiedliches Design (Modellform), wie in der Tabelle gezeigt.

Arten von neuronalen Netzwerken, Quelle: Organisiert von HashKey Capital

30 Jahre Entwicklung neuronaler Netzwerke, Quelle: organisiert von HashKey Capital
Das Training von neuronalen Netzwerken entstand erstmals in den mittleren 1980er Jahren, als Jordan in seinem Papier von 1986 ein neuronales Netzwerk trainierte, um sequenzielle Muster zu lernen.Serienauftrag: Ein paralleler verteiltes VerarbeitungsansatzDas winzige Netzwerk hatte nur wenige Neuronen.
In den 1990er Jahren erweiterte Jeffrey Ehrman das neuronale Netzwerk zu einem 50-Neuronen-Netzwerk mit der Entdeckung, dass das Netzwerk Wörter räumlich nach Bedeutung gruppiert. Zum Beispiel trennte es leblose und lebendige Substantive, und innerhalb dieser beiden Kategorien wurden lebendige Objekte in menschliche und nichtmenschliche Kategorien unterteilt, und Lebloses wurde als zerbrechlich und essbar kategorisiert. Dies deutet darauf hin, dass das Netzwerk die Fähigkeit hat, hierarchische Erklärungen zu erlernen.
Er stellte weiter fest, dass Wörter als Punkte in einem hochdimensionalen Raum dargestellt werden können und dass eine Sequenz von Wörtern oder Sätzen als Pfad betrachtet werden kann. Dieser bedeutende Durchbruch ermöglicht es, Textdatensätze zu digitalisieren, zu vektorisieren und von Computern zu verarbeiten.

Quelle: http://3b1b.co/neuronale-netzwerke
Im Jahr 2011 trainierten Confluence-Forscher größere Netzwerke mit Tausenden von Neuronen und Millionen von Verbindungen, und in der Studie wurde ein Engpass in der Fähigkeit des Netzwerks festgestellt, einen kohärenten Kontext über lange Sequenzen aufrechtzuerhalten.
Im Jahr 2017 baute OpenAI auf Kathys Arbeit auf, indem es an 82 Millionen Amazon-Bewertungen trainierte, in denen emotionale Neuronen entdeckt wurden. Solche Neuronen kategorisierten die Emotionen des Textes perfekt.

Quelle: Das Generieren von Bewertungen lernen und das Entdecken von Stimmungen
In Bezug auf die Beschränkungen der Kontextgröße stellt dieses Papier 2017 Attention Is All You Need eine Lösung vor. Das Papier erstellt ein dynamisches Ebenennetzwerk, das die Verbindungsgewichte basierend auf dem Kontext des Netzwerks anpasst. Es funktioniert, indem es Wörter im Eingang betrachten, andere Wörter vergleichen und die relevantesten finden lässt. Je näher diese Wörter im Konzept sind, desto näher sind sie im Raum und können höhere Verbindungsgewichte haben. Das Papier hat sich jedoch nur auf das Übersetzungsproblem konzentriert.
Daher haben OpenAI-Forscher eine leistungsstärkere Transformer-Architektur ausprobiert und 2020 GPT-3 gestartet, was weltweit breite Aufmerksamkeit von Industrien auf sich zog, diesmal mit dem Netzwerk, das 175 Milliarden Parameter, 96 Schichten und ein 1.000-Wort-Kontextfenster erreichte.
Nehmen Sie das folgende 28x28 Pixel digitale Bild als Beispiel, die Neuronen entsprechen jedem Pixel des 28x28 Eingangsbildes, insgesamt 784 Neuronen, die Zahlen in den Neuronen sind die Aktivierungswerte, die von 0 bis 1 reichen.

28x28 Pixel digitales Bild, Quelle: http://3b1b.co/neural-networks
Diese 784 Neuronen bilden die Eingabeschicht des Netzwerks. Die letzte Schicht ist die Ausgabeschicht, die zehn Neuronen enthält, die die Zahlen 0–9 repräsentieren, wiederum mit Aktivierungswerten von 0–1. Die mittlere Schicht ist die versteckte Schicht, in der der Aktivierungswert der vorherigen Schicht den Aktivierungswert der nächsten Schicht bestimmt, während das neuronale Netzwerk arbeitet.
Die Tiefe des Deep Learning liegt darin, dass das Modell viele „Schichten“ von Transformationen lernt, jede mit einer anderen Darstellung. Wie unten in der Abbildung gezeigt, können beispielsweise in Schicht 9 verschiedene Schichten unterschiedliche Merkmale erkennen. Je näher die Eingabeschicht am unteren Detailniveau der Daten liegt, desto näher liegt die Ausgabeschicht an den spezifischeren Konzepten, die zur Differenzierung verwendet werden können.

Quelle: http://3b1b.co/neural-networks
Wenn das Modell größer wird, sind die versteckten Schichten in der Mitte mit Hunderten von Milliarden Gewichten pro Schicht verbunden, und es sind diese Gewichte und Bias-Werte, die tatsächlich bestimmen, was das Netzwerk tatsächlich tut. Der Prozess des maschinellen Lernens besteht darin, die richtigen Parameter zu finden, die Gewichte und Bias-Werte sind.
Die Transformer-Architektur, die in GPT, einem großes Sprachmodell, verwendet wird, hat eine Zwischenschicht aus 96 Schichten von Decoder-Modulen, von denen GPT1, GPT2 und GPT3 jeweils 12, 48 bzw. 96 Schichten haben. Der Decoder enthält wiederum Aufmerksamkeits- und vorwärtsgerichtete Rückkopplungs-Neuronennetz-Komponenten.
Der Rechen- oder Lernprozess beinhaltet die Definition einer Kostenfunktion (oder Verlustfunktion), die die Quadrate der Unterschiede zwischen den berechneten Ausgabeprognosen des Netzwerks und den tatsächlichen Werten summiert und wenn die Summe klein ist, arbeitet das Modell innerhalb akzeptabler Grenzen.
Das Training beginnt damit, dass das Netzwerk zufällig parametrisiert wird und die Modellparameter des Netzwerks gefunden werden, indem der Parameter ermittelt wird, der die Kostenfunktion minimiert. Der Weg, um die Kostenfunktion zu konvergieren, erfolgt durch Gradientenabstieg, durch den der Grad der Auswirkung jeder Parametersänderung auf die Kosten/Verlust überprüft wird, und dann werden die Parameter entsprechend diesem Grad angepasst.
Der Prozess der Berechnung des Parametergradienten führt zu Rückwärtsausbreitung oder Rückpropagation, die das Netzwerk gemäß der Kettenregel in umgekehrter Reihenfolge von der Ausgangsschicht zur Eingangsschicht durchläuft. Der Algorithmus erfordert auch die Speicherung aller zwischengeschalteten Variablen (partielle Ableitungen), die zur Berechnung des Gradienten benötigt werden.
Es gibt drei Hauptfaktoren, die die Leistung von KI-großen Sprachmodellen während ihres Trainings beeinflussen, nämlich die Anzahl der Modellparameter, die Datensatzgröße und die Menge an Rechenleistung.

Quelle: OpenAI-Bericht, Skalengesetze für neuronale Sprachmodelle
Dies entspricht der Entwicklung von Datensätzen und Computern (Rechenleistung) in der Realität, aber es ist auch in der Tabelle unten zu sehen, dass die Rechenleistung schneller wächst als verfügbare Daten, während der Speicher am langsamsten entwickelt wird.

Die Entwicklung von Datensätzen, Speicher und Rechenleistung, Quelle: https://github.com/d2l-ai
Bei einem großen Modell neigt Überanpassung dazu, aufzutreten, wenn die Trainingsdaten zu klein sind, und im Allgemeinen verbessert sich die Genauigkeit des komplexeren Modells, wenn die Datenmenge zunimmt. In Bezug auf den Datenbedarf für ein großes Modell kann anhand der Regel von 10 entschieden werden, die besagt, dass die Datenmenge 10 Mal so groß sein sollte wie der Parameter, aber einige Deep-Learning-Algorithmen wenden ein Verhältnis von 1:1 an.
Überwachtes Lernen erfordert die Verwendung von gekennzeichneten + ausgewählten Datensätzen, um zu gültigen Ergebnissen zu gelangen.

Quelle: Fashion-MNIST Kleidungskategorisierungsdatensatz
Trotz des rapiden Anstiegs von Daten in den letzten ein oder zwei Jahrzehnten und der derzeit verfügbaren Open-Source-Datensätze wie Kaggle, Azure, AWS, Google-Datenbank usw., werden begrenzte, knappe und teure Datenmengen aufgrund von Datenschutzproblemen, steigenden Modellparametern und Datenreproduzierbarkeit allmählich zum Engpass für die Krypto-Entwicklung. Verschiedene Datenlösungen werden vorgeschlagen, um dieses Problem zu lindern.
Datenerweiterungstechniken können eine effektive Lösung sein, indem sie dem Modell unzureichende Daten zur Verfügung stellen, ohne neue Beispiele zu erwerben, wie Skalierung, Rotation, Spiegelung, Beschneidung, Übersetzung, Hinzufügen von Gaußschem Rauschen, Mixup, usw.
Synthetische Daten sind eine weitere Option. Synthetische Daten sind Daten, die künstlich durch Computersimulation oder Algorithmen mit oder ohne vorherigen Referenzdatensatz generiert werden können. In Bezug auf die Entwicklung von Tools zur Generierung synthetischer Daten hat Ian J. Goodfellow das Generative Adversarial Network (GAN) erfunden, das eine Deep-Learning-Architektur ist.
Es trainiert zwei neuronale Netzwerke, die miteinander konkurrieren können und neue, realistischere Daten aus einem gegebenen Schulungsdatensatz generieren können. Die Architektur unterstützt die Generierung von Bildern, das Ausfüllen fehlender Informationen, die Generierung von Schulungsdaten für andere Modelle, die Generierung von 3D-Modellen basierend auf 2D-Daten und mehr.
Es ist noch früh in der Entwicklung des Feldes, mit den meisten der bestehenden Unternehmen, die synthetische Daten erstellen, die im Jahr 2021 oder 2022 gegründet wurden, und ein paar im Jahr 2023.

Der Stand der Finanzierung von Unternehmen für synthetische Daten. Quelle: https://frontline.vc/blog/synthetische-daten/
Der KI-Schulungsprozess umfasst eine große Anzahl von Matrixoperationen, von der Worteinbettung über die Transformer-QKV-Matrix bis hin zu Softmax-Operationen usw. Durch die Matrixoperationen werden auch die gesamten Modellparameter in der Matrix getragen.

Beispiel einer Vektordatenbank, Quelle : https://x.com/ProfTomYeh/status/1795076707386360227
Große Modelle bringen einen massiven Bedarf an Computertechnik mit sich, der hauptsächlich in Training und Inferenz unterteilt ist.
Vor-Training und Feinabstimmung können weiter unter Training unterteilt werden. Wie bereits erwähnt, erfordert der Aufbau eines Netzwerkmodells zunächst eine zufällige Initialisierung der Parameter, dann das Training des Netzwerks und die kontinuierliche Anpassung der Parameter, bis der Verlust des Netzwerks einen akzeptablen Bereich erreicht. Der Unterschied zwischen Vor-Training und Feinabstimmung besteht darin,
Das Pre-Training beginnt mit der zufälligen Initialisierung jeder Parameterschicht, während einige Feinabstimmungsschichten direkt die Parameter des zuvor trainierten Modells als Initialisierungsparameter für diese Aufgabe verwenden können (Einfrieren der Parameter der vorherigen Schichten) und auf einem spezifischen Datensatz wirken.

Quelle: https://d2l.ai/chapter_computer-vision/fine-tuning.html
Vorabtraining und Feinabstimmung beinhalten beide Änderungen an den Modellparametern, die letztendlich zu einer Modell- oder Parameteroptimierung führen, während die Inferenz die Berechnung der Inferenz durch das Laden eines Modells nach Benutzereingaben und letztendlich das Erhalten von Rückmeldungen und Ergebnissen umfasst.
Pre-Training, Feinabstimmung und Inferenz werden hinsichtlich ihrer Computeranforderungen von groß nach klein eingestuft. Die folgende Tabelle vergleicht die Hardwareanforderungen für das Training und die Inferenz. Die Computerhardwareanforderungen der beiden unterscheiden sich signifikant hinsichtlich Rechenleistung, Speicher und Kommunikation/Bandbreite aufgrund der Unterschiede im Berechnungsprozess und den Genauigkeitsanforderungen, und gleichzeitig gibt es ein Unmögliches Trilemma in Rechenleistung, Speicher und Kommunikation/Bandbreite.

Die statistischen Messungen in dieser Tabelle basieren auf einem einzigen Modell, das eine einzelne Tokenverarbeitung, einen einzelnen Parameter durchführt. \ FLOPs: Gleitkommaoperationen pro Sekunde, die Anzahl der Matrixberechnungen. \
*DP, TP, PP: Datenparallel, Tensorparallel, Pipelineparallel.
Computer-Hardware-Vergleich zwischen Training und Inferenz, Quelle: Organisiert von HashKey Capital
Der Prozess des Trainings eines neuronalen Netzwerks erfordert ein Wechseln zwischen Vorwärts- und Rückwärtspropagation, wobei der Gradient der Rückwärtspropagation verwendet wird, um die Modellparameter zu aktualisieren. Inferenz erfordert hingegen nur Vorwärtspropagation. Dieser Unterschied wird zu einem Einflussfaktor, der die Anforderungen an die Computerhardwareressourcen für Training und Inferenz hauptsächlich differenziert.
In Bezug auf die Rechenleistung besteht, wie aus der Tabelle ersichtlich, ein einfaches multiplikatives Verhältnis zwischen der Anzahl der Modellparameter und dem Energieverbrauch, wobei das Training 6-8 Gleitkommaoperationen erfordert und die Inferenz 2. Dies liegt an der Rückpropagation beim Training, die die doppelte Rechenleistung wie die Vorwärtspropagation erfordert, und somit ist der Energieverbrauch des Trainings deutlich höher als der der Inferenz.
In Bezug auf den Speicher verwendet das für das Training verwendete Backpropagation die im Vorwärtsschritt gespeicherten Zwischenwerte erneut, um wiederholte Berechnungen zu vermeiden. Daher müssen die Zwischenwerte während des Backpropagation-Prozesses aufbewahrt werden. Der resultierende Speicherverbrauch während des Trainings enthält hauptsächlich Modellparameter, Zwischenaktivierungswerte, die während der Vorwärtsberechnung generiert wurden, Gradienten, die durch die Berechnung der Rückwärtspropagation generiert wurden, und Optimiererzustände. Die Inferenzphase benötigt kein Backpropagation, keinen Optimiererzustand und keinen Gradienten usw., und ihr Speicherverbrauch ist viel geringer als der des Trainings.
In Bezug auf Kommunikation/Bandbreite werden zur Verbesserung der Krypto-Training-Leistung von KI-Modellen in der Regel drei parallele Strategien verwendet: Datenparallelität, Tensorparallelität und Pipeline-Parallelität.

Quelle: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Für diese drei Strategien wird prognostiziert, dass die TP-Kommunikationsfrequenz am größten ist, das Kommunikationsvolumen am höchsten ist und mit der Anzahl der Token, der Modellbreite und der Anzahl der Schichten zusammenhängt. Das Kommunikationsvolumen und die Frequenz von PP sind kleiner als die von TP und hängen mit der Anzahl der Token und der Breite des Modells zusammen. Das Kommunikationsvolumen und die Frequenz von DP sind am kleinsten und unabhängig von den Eingabetokens.
Der Engpass bei Computerhardware-Ressourcen in großen Modellen wird hauptsächlich durch Rechenleistung, Bandbreite/Kommunikation und Speicher begrenzt, und es gibt eine Abwägung zwischen den drei, was zum Problem des Unmöglichen Dreiecks führt. Aufgrund von Kommunikationsengpässen kann die Clusterleistung beispielsweise nicht einfach durch Optimierung der Leistung eines einzelnen Computers verbessert werden.
Deshalb opfern die meisten parallelen Architekturen tatsächlich Kommunikation oder Speicher für Rechenleistung, obwohl parallele Architekturen zur Beschleunigung der Cluster-Performance eingesetzt werden.
Die Opferung von Kommunikation und Speicherplatz zugunsten von Rechenleistung:
In PP, wenn jeder Schicht der Transformer eine GPU zugewiesen wird, steigen trotz der Zunahme der Rechenleistung in Zeit-Einheiten auch die Kommunikationsanforderungen zwischen den Schichten, was zu einer erhöhten Datenmenge und Latenz führt. Auch die Zwischenzustand-Speicheranforderung für die Vorwärtsausbreitung steigt extrem schnell an.
Kommunikation opfern für Rechenleistung:
In TP wird jeder Transformator für die parallele Berechnung zerlegt. Da der Transformator aus zwei Komponenten besteht (Aufmerksamkeitskopf und Feedforward-Netzwerk), kann die Aufgabe innerhalb der Schicht entweder für den Aufmerksamkeitskopf oder das Feedforward-Neuronennetz aufgeteilt werden. Dieser TP-Ansatz kann das Problem einer zu großen PP-Hierarchie aufgrund der Unfähigkeit von GPUs, das Modell anzupassen, lindern. Allerdings hat dieser Ansatz immer noch ernsthafte Kommunikationsüberlastung.
In diesem Papier glauben wir, dass es derzeit folgende Hauptkategorien von KI im Kryptobereich gibt:

Quelle: Organisiert von HashKey Capital
Wie bereits erwähnt, sind die drei wichtigsten Komponenten in der Krypto-KI Daten, Modelle und Rechenleistung, die als Infrastruktur dienen, um die Krypto-KI zu stärken.
Ihre Kombination bildet tatsächlich ein Rechennetzwerk, bei dem eine große Anzahl von Middleware im Berechnungsprozess erscheint, um effizienter zu sein und mehr im Einklang mit dem Krypto-Geist zu stehen. Unterhalb befinden sich Agenten, die auf diesen überprüfbaren Ergebnissen basieren und die verschiedene Rollen für verschiedene Benutzergruppen übernehmen können.
Ein weiteres Flussdiagramm kann verwendet werden, um die grundlegende Ökologie von Krypto-KI wie folgt auszudrücken:

Ökologisches Flussdiagramm, Quelle: organisiert von HashKey Capital
Natürlich werden tokenomische Mechanismen im Kryptobereich benötigt, um die Koordination der Beteiligung verschiedener Akteure anzureizen.
Für Datensätze kann man zwischen öffentlichen Datenquellen oder eigenen spezifischen privaten Datenquellen wählen.
Datenquelle:
Synthetische Datenplattform:
Andere:
Datenbeschriftungsdienstplattform, indem sie den Beschriftungsauftrag an verschiedene Arbeiter zuweisen, können diese Arbeiter nach Abschluss der Aufgabe den entsprechenden Token-Anreiz erhalten, wie z. B. Krypto, Public AI und so weiter. Das aktuelle Problem besteht jedoch darin, dass mehr Menschen die Datenbeschriftung durchführen als Daten vorhanden sind, während KI-Unternehmen für ihre beschrifteten Datenbedürfnisse stabile Datenbeschriftungslieferanten haben, deren klebrige Existenz ihre Bereitschaft schwächt, dezentralisierte Plattformen zu wechseln. Diese Plattformen können möglicherweise nur die Zuweisung des verbleibenden Teils des Auftrags von den Datenbeschriftungslieferanten erhalten.
Generalisierte Rechennetzwerke, die auf Netzwerke verweisen, die Ressourcen wie GPUs und CPUs aggregieren, um allgemeine Rechendienste bereitzustellen, was bedeutet, dass es keinen Unterschied zwischen Training und Inferenz gibt.
Im Kryptobereich schlägt Gensyn, investiert von a16z, ein dezentrales Schulungsrechnungsnetzwerk vor.
Der Prozess besteht darin, dass die Plattform nachdem ein Benutzer eine Schulungsanforderungsaufgabe eingereicht hat, diese analysiert, die erforderliche Rechenleistung bewertet und sie in eine minimale Anzahl von ML-Arbeiten aufteilt, zu dem Zeitpunkt, an dem der Validator periodisch die analysierte Aufgabe ergreift, um Schwellenwerte für den Vergleich von nachgelagerten Lernnachweisen zu generieren.
Sobald die Aufgabe in die Trainingsphase eintritt, wird sie vom Solver ausgeführt, der periodisch die Modellgewichte und Antwortindizes aus dem Trainingsdatensatz speichert, sowie die Lernnachweise generiert. Der Verifizierer führt ebenfalls die Rechenarbeit durch, indem er einige der Nachweise erneut ausführt, um Distanzberechnungen durchzuführen und zu überprüfen, ob sie mit den Nachweisen übereinstimmen. Whistleblower führen eine Schiedsgerichtsentscheidung auf der Grundlage eines auf Graphen basierenden Pinpoint-Herausforderungsprogramms durch, um zu überprüfen, ob die Validierungsarbeit korrekt durchgeführt wurde.
Das Feinabstimmen ist einfacher und kostengünstiger umzusetzen als das direkte Vortrainieren eines großen Modells, einfach durch Feinabstimmung des vortrainierten Modells mit einem spezifischen Datensatz und Anpassung des Modells an eine spezifische Aufgabe unter Beibehaltung des ursprünglichen Modells.
Hugging Face kann als Anbieter von vorab trainierten Sprachmodellen auf die verteilte Plattform zugegriffen werden. Der Benutzer wählt das Modell aus, das gemäß den Aufgabenanforderungen feinabgestimmt werden soll, und nutzt dann die GPUs und andere Ressourcen, die vom Rechennetzwerk für die Feinabstimmung der Aufgabe bereitgestellt werden müssen, die auf der Komplexität der Aufgabe basieren, um die Größe des Datensatzes, die Komplexität des Modells zu bestimmen und weiterhin zu bestimmen, ob ein höheres Maß an Ressourcen wie der A100 benötigt wird.
Zusätzlich zu Gensyn, einer Plattform, die das Pre-Training unterstützen kann, können die meisten Rechenplattformen auch das Feintuning unterstützen.
Im Vergleich zum Training (Vor-Training und Feinabstimmung), bei dem die Modellparameter abgestimmt werden müssen, umfasst der Rechenvorgang der Inferenz nur Vorwärtspropagation und erfordert weniger Rechenleistung. Die meisten dezentralen Rechennetzwerke konzentrieren sich derzeit auf Inferenzdienste.
Wenn die Inferenz durchgeführt wird, ist dies bereits die Phase der Modellnutzung, dann kann Middleware zur richtigen Zeit eingeführt werden:
On-Chain-Smart-Vertrag zur Abfrage der Ergebnisse von Off-Chain-KI-Berechnungen:
Eine weitere Datenschutzschicht kann dem Rechnernetzwerk hinzugefügt werden, die hauptsächlich den Datenschutz und den Modellschutz umfasst, wobei der Datenschutz weitaus wichtiger ist als der Modellschutz.
Die meisten Rechnernetzwerke bauen verschiedene Validierungssysteme auf, um sicherzustellen, dass das System genau funktioniert, während das Link eine Komponente ist, die im traditionellen KI-Bereich noch nicht eingeführt wurde.
Die Hauptrolle des ZK-Beweises sind die folgenden 2 Punkte:
Modulus Labs hat gezeigt, dass es möglich ist, Beweise für 18 Millionen Parametermodelle in 60-70 Sekunden mit dem Plonky-Beweissystem von Polygon zu erstellen. Für kleine Modelle ist es in diesem Stadium möglich, ZKML zu verwenden, aber die Kosten sind immer noch signifikant:

Quelle: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
Angesichts der oben beschriebenen Einschränkungen von ZKML ist OPML eine Alternative. Obwohl in Bezug auf Sicherheit schwächer als ZKML, sind der Speicherverbrauch und die Beweisberechnungszeit signifikant besser als bei ZKML. Laut dem ORA-Bericht zeigt sich, dass für das gleiche 7B-LLaMA-Modell (mit einer Modellgröße von etwa 26 GB) OPML mit 32 GB Speicher verarbeitet werden kann, während der Speicherverbrauch der Schaltkreise in ZKML im Bereich von Terabyte oder sogar Petabyte liegen kann.
Trusted Execution Environment bietet Sicherheit auf Hardwareebene und kann eine Alternative zu ZKML und OPML sein. TEE-proof wird als Ergebnis interner Berechnungen innerhalb von TEE generiert und sein Rechenaufwand ist viel geringer als der von zk-proof. Außerdem ist die Proofgröße von TEE in der Regel eine feste Konstante (Signaturlänge) und hat somit den Vorteil eines geringeren Platzbedarfs und geringerer Kosten für die On-Chain-Validierung.
Neben der Verifizierung hat TEE den Vorteil, sensible Daten isoliert zu halten und sicherzustellen, dass externe Prozesse oder Berechnungen nicht auf die Daten zugreifen oder sie verändern können.
Projekte, die TEE verwenden, umfassen:

Quelle: https://arxiv.org/pdf/2401.17555,Marlin-Protokoll
Zusätzlich hat das ORA-Protokoll opp/ai (Optimistic Privacy-Preserving AI on Blockchain) entwickelt, zusätzlich zu seiner eigenen ZKML- und OPML-Validierung, und ist nicht in der obigen Vergleichstabelle enthalten.
Agent hat die Fähigkeit, die eingehenden Informationen zu analysieren, die aktuellen Umweltbedingungen zu bewerten und Entscheidungen zu treffen. Die Zusammensetzung des Agenten ist in der folgenden Abbildung dargestellt, wobei das LLM die Kernkomponente ist. Darüber hinaus ist es notwendig, den geeigneten Hinweis an das LLM zu geben und durch den Speicher Kurzzeitdaten und langfristige historische Daten (externe Daten) zu speichern.
Da komplexe Aufgaben nicht auf einmal erledigt werden können, müssen sie von Plan in kleinere Aufgaben aufgeteilt werden. Darüber hinaus kann Agent auch externe APIs aufrufen, um zusätzliche Informationen zu erhalten, einschließlich aktueller Informationen, Codeausführungsfähigkeiten, Zugang zu proprietären Informationsquellen usw.

Quelle: Eine Umfrage zu autonomen Agenten auf der Basis großer Sprachmodelle
Die Entscheidungsfähigkeit der Agenten hatte keinen bestimmten Durchbruch, bis in den letzten Jahren das Large Language Model LLM aufkam. Ein Bericht hat die Anzahl der von 2021 bis 2023 veröffentlichten Papiere zu Agenten zusammengefasst, wie in der Abbildung unten dargestellt. In der Realität gibt es nur etwa ein Dutzend Forschungspapiere aus dem Jahr 2021, aber im Jahr 2023 wurden Hunderte von Papieren über sie veröffentlicht. Das Papier kategorisiert Agenten in 7 Kategorien.

Quelle: Eine Umfrage zu autonomen Agenten auf Basis großer Sprachmodelle
Im Web3 sind die Szenarien, in denen Agenten existieren, im Vergleich zur Web2-Welt noch begrenzt und umfassen derzeit automatisierte Abwicklung, den Aufbau von Codekomponenten (das Schreiben von Smart Contracts, das Schreiben von zk-Schaltkreisen), Echtzeit-Risikokontrolle und die Ausführung von Strategien wie Arbitrage und Yield Farming.
Basierend auf verschiedenen Agenten kann eine spezifische Anwendung kombiniert/abstrahiert/erstellt werden. Gleichzeitig stehen den Benutzern einige Koordinationsplattformen zur Verfügung, um zu wählen, welche Art von Agenten sie verwenden möchten, um eine bestimmte Art von Anwendung zu erstellen. Die meisten von ihnen sind jedoch auf die Entwicklung von Agenten beschränkt.
Einige Entwickler werden KI einsetzen, um ihre Plattformen intelligenter zu machen, z. B. in Sicherheitsprojekten wird maschinelles Lernen verwendet, um Angriffsschwachstellen zu unterscheiden. DeFi-Protokolle nutzen KI, um Echtzeit-Überwachungstools zu erstellen. und Datenanalyseplattformen nutzen KI auch, um bei der Datenbereinigung und -analyse zu helfen.
In diesem Artikel möchten wir die folgenden 3 Punkte hervorheben:
In der Krypto-Welt entstehen zwangsläufig eine Reihe von Rechennetzwerken, die Benutzer das Gefühl vermitteln, dass GPU KI ist, aber wie bereits im vorherigen Abschnitt analysiert wurde, gibt es ein unmögliches Trilemma von Rechennetzwerken, d.h. Rechenleistung, Bandbreite/Kommunikation und Speicher, sowie drei Arten von parallelen Strategien, die bei der Modelltrainingsverwendung verwendet werden, wie Datenparallelität, Tensorparallelität und Pipeline-Parallelität, weisen alle auf die Kontrollmechanismen hin, die beim Aufbau des Rahmens des Rechennetzwerks auferlegt werden.
Der Grund dafür, dass das gleiche Modell und die gleichen Daten nicht unbedingt zum gleichen Ergebnis führen, ist die Verwendung von Gleitkommaberechnungen. Dieser Unterschied in der Berechnung wirkt sich auch auf den Aufbau des Rechennetzwerks aus.
Künstliche Intelligenz-Agenten haben erst in den letzten Jahren begonnen, mehr Nutzen zu zeigen, und wir erwarten, dass mehr Agenten auf dem Markt erscheinen. Aber wie Agenten in der Krypto-Welt arbeiten oder wie man die richtigen Token-Anreize findet, bleibt eine Herausforderung.
Dieser Artikel wurde von [转载自[ ]mittel],der Originaltitel lautet „AI into Krypto“, das Urheberrecht liegt beim Originalautor[HashKey-Kapital ],如对转载有异议,请联系Gate Learn Team,团队会根据相关流程尽速处理。
Haftungsausschluss: Die in diesem Artikel geäußerten Ansichten und Meinungen stellen lediglich die persönlichen Ansichten des Autors dar und stellen keine Anlageberatung dar.
Der Artikel wird von dem Gate Learn Team in andere Sprachen übersetzt, wenn nicht anders angegeben.Gate.comIn keinem Fall darf der übersetzte Artikel kopiert, verbreitet oder plagiiert werden.





