22 декабря 2025 года — отдел исследований искусственного интеллекта Tether Data, QVAC, сегодня объявил о выпуске QVAC Genesis II, значительного расширения крупнейшего в мире публичного синтетического образовательного набора данных для предварительной тренировки искусственного интеллекта. С добавлением 107 миллиардов новых токенов совокупный набор данных QVAC Genesis теперь составляет 148 миллиардов токенов в 19 образовательных областях, значительно расширяя масштаб, глубину и качество рассуждений в данных для обучения открытого ИИ. QVAC Genesis II напрямую основывается на базе, заложенной QVAC Genesis I, которая представила строго валидированный синтетический набор данных, ориентированный на образование, охватывающий основные дисциплины STEM. Этот второй выпуск расширяет охват до 10 новых областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрику и электротехнику, а также регенерирует университетскую физику с использованием улучшенной методологии. Вместе Genesis I и II образуют самый полный синтетический образовательный набор данных, когда-либо выпущенный для общественности. В основе этого релиза лежит новый подход к генерации данных, называемый Reasoning на уровне вариантов, предназначенный для извлечения структурированного рассуждения не только из ошибок модели, но и из правильных ответов. Вместо того чтобы рассматривать правильные ответы как завершённые результаты, этот метод систематически анализирует каждый вариант ответа в вопросе с несколькими вариантами, укрепляя правильное рассуждение и явно устраняя распространённые заблуждения. В результате получается обучающий набор данных, подчеркивающий ясность, причинность и принятие решений, а не только поверхностную правильность. Этот новый подход дополняет оригинальный метод анализа ошибок, представленный в Genesis I, формируя двухметодную цепочку, которая обеспечивает, что каждый сгенерированный вопрос вносит образовательную ценность. Независимые оценки показывают, что модели, обученные на данных Genesis II, демонстрируют значительно более высокую точность рассуждений и дают ясные, однозначные ответы гораздо более последовательно, чем модели, обученные на предыдущих синтетических наборах данных. Более чем увеличение масштаба, этот релиз отражает осознанный сдвиг в подходе к созданию образовательных данных для ИИ. В то время как большая часть индустрии сосредоточена на сборе и агрегировании всё больших объёмов текста, подход QVAC предназначен для обучения моделей тому, как думать, рассуждать и объяснять, основываясь на понимании, а не на имитации. «Большинство современных методов обучения ИИ оптимизируют беглость речи, а не понимание», — сказал Паоло Ардойно, генеральный директор Tether. «С этим релизом мы переходим от объема к структуре, рассуждению и ясности. Интеллект должен строиться на понимании того, почему что-то истинно, а не только на предсказании того, что звучит правильно. Делая этот набор данных открытым, мы даем исследователям и разработчикам инструменты для создания более надежного, более объяснимого и, в конечном итоге, более полезного обществу ИИ». Как и в случае Genesis I, расширенный набор данных выпускается открыто для поддержки исследователей, академических учреждений и независимых разработчиков, работающих вне закрытых, проприетарных систем. Он доступен по лицензии Creative Commons Attribution–NonCommercial (CC-BY-NC 4.0), что подтверждает приверженность QVAC открытому, сообществу ориентированному развитию исследований в области ИИ. Выпуск продолжает более широкую миссию QVAC по развитию локального, децентрализованного интеллекта, при котором модели ИИ могут обучаться, совершенствоваться и внедряться без зависимости от централизованных облачных платформ. Укрепляя открытые основы данных для обучения ИИ, Tether Data стремится снизить структурные барьеры для инноваций и обеспечить доступность высококачественного интеллекта для глобального исследовательского сообщества. Полный технический разбор набора данных под названием «QVAC Genesis II: Расширение крупнейшего и самого высокого качества мультидоменного синтетического образовательного набора данных для предварительной тренировки» уже доступен на блоге исследований QVAC, а также через доступ к набору данных и моделям на Hugging Face. Дополнительная информация, включая подробный раздел FAQ, доступна на сайте QVAC.
Эта статья изначально была опубликована под названием Tether Releases QVAC Genesis II на Crypto Breaking News — вашем надежном источнике новостей о криптовалютах, биткоинах и блокчейне.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Tether выпускает QVAC Genesis II
22 декабря 2025 года — отдел исследований искусственного интеллекта Tether Data, QVAC, сегодня объявил о выпуске QVAC Genesis II, значительного расширения крупнейшего в мире публичного синтетического образовательного набора данных для предварительной тренировки искусственного интеллекта. С добавлением 107 миллиардов новых токенов совокупный набор данных QVAC Genesis теперь составляет 148 миллиардов токенов в 19 образовательных областях, значительно расширяя масштаб, глубину и качество рассуждений в данных для обучения открытого ИИ. QVAC Genesis II напрямую основывается на базе, заложенной QVAC Genesis I, которая представила строго валидированный синтетический набор данных, ориентированный на образование, охватывающий основные дисциплины STEM. Этот второй выпуск расширяет охват до 10 новых областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрику и электротехнику, а также регенерирует университетскую физику с использованием улучшенной методологии. Вместе Genesis I и II образуют самый полный синтетический образовательный набор данных, когда-либо выпущенный для общественности. В основе этого релиза лежит новый подход к генерации данных, называемый Reasoning на уровне вариантов, предназначенный для извлечения структурированного рассуждения не только из ошибок модели, но и из правильных ответов. Вместо того чтобы рассматривать правильные ответы как завершённые результаты, этот метод систематически анализирует каждый вариант ответа в вопросе с несколькими вариантами, укрепляя правильное рассуждение и явно устраняя распространённые заблуждения. В результате получается обучающий набор данных, подчеркивающий ясность, причинность и принятие решений, а не только поверхностную правильность. Этот новый подход дополняет оригинальный метод анализа ошибок, представленный в Genesis I, формируя двухметодную цепочку, которая обеспечивает, что каждый сгенерированный вопрос вносит образовательную ценность. Независимые оценки показывают, что модели, обученные на данных Genesis II, демонстрируют значительно более высокую точность рассуждений и дают ясные, однозначные ответы гораздо более последовательно, чем модели, обученные на предыдущих синтетических наборах данных. Более чем увеличение масштаба, этот релиз отражает осознанный сдвиг в подходе к созданию образовательных данных для ИИ. В то время как большая часть индустрии сосредоточена на сборе и агрегировании всё больших объёмов текста, подход QVAC предназначен для обучения моделей тому, как думать, рассуждать и объяснять, основываясь на понимании, а не на имитации. «Большинство современных методов обучения ИИ оптимизируют беглость речи, а не понимание», — сказал Паоло Ардойно, генеральный директор Tether. «С этим релизом мы переходим от объема к структуре, рассуждению и ясности. Интеллект должен строиться на понимании того, почему что-то истинно, а не только на предсказании того, что звучит правильно. Делая этот набор данных открытым, мы даем исследователям и разработчикам инструменты для создания более надежного, более объяснимого и, в конечном итоге, более полезного обществу ИИ». Как и в случае Genesis I, расширенный набор данных выпускается открыто для поддержки исследователей, академических учреждений и независимых разработчиков, работающих вне закрытых, проприетарных систем. Он доступен по лицензии Creative Commons Attribution–NonCommercial (CC-BY-NC 4.0), что подтверждает приверженность QVAC открытому, сообществу ориентированному развитию исследований в области ИИ. Выпуск продолжает более широкую миссию QVAC по развитию локального, децентрализованного интеллекта, при котором модели ИИ могут обучаться, совершенствоваться и внедряться без зависимости от централизованных облачных платформ. Укрепляя открытые основы данных для обучения ИИ, Tether Data стремится снизить структурные барьеры для инноваций и обеспечить доступность высококачественного интеллекта для глобального исследовательского сообщества. Полный технический разбор набора данных под названием «QVAC Genesis II: Расширение крупнейшего и самого высокого качества мультидоменного синтетического образовательного набора данных для предварительной тренировки» уже доступен на блоге исследований QVAC, а также через доступ к набору данных и моделям на Hugging Face. Дополнительная информация, включая подробный раздел FAQ, доступна на сайте QVAC.
Эта статья изначально была опубликована под названием Tether Releases QVAC Genesis II на Crypto Breaking News — вашем надежном источнике новостей о криптовалютах, биткоинах и блокчейне.