NVIDIA представляет открытую платформу GPU-ускорения RAPIDS для анализа Big Data и машинного обучения
Открытое ПО RAPIDS™ обеспечивает аналитикам большой прирост производительности в бизнес-задачах высокой сложности, таких, как предсказание мошенничества в операциях с кредитными картами, прогноз запаса товаров на складе, прогнозирование покупательского поведения потребителей. RAPIDS уже получила широкую поддержку – от новичков в области разработки открытого ПО, таких, как Databricks и Anaconda, до технологических лидеров индустрии, таких, как Hewlett Packard Enterprise, IBM и Oracle.
Аналитики оценивают ежегодный объем серверного рынок анализа данных и машинного обучения в 20 млрд долларов. Вместе с рынком решений для научных исследований и глубокого обучения совокупный объем рынка высокопроизводительных вычислений оценивается примерно в 36 млрд долларов.
«Анализ данных и машинное обучение – это крупнейшие сегменты рынка высокопроизводительных вычислений, которые до сегодняшнего дня не получали ускорение, - говорит Дженсен Хуанг (Jensen Huang), учредитель и генеральный директор NVIDIA, который представил RAPIDS во время выступления на конференции GTC EU. -Крупнейшие мировые компании запускают алгоритмы, созданные с помощью машинного обучения, на многочисленных серверах, чтобы выявить сложные паттерны в сегментах, где они работают, и делать быстрые и точные прогнозы, оказывающие прямой эффект на результаты их деятельности.
Взяв за основу CUDA с ее глобальной экосистемой, мы создали платформу GPU-ускорения RAPIDS в тесном сотрудничестве с разработчиками открытого ПО. Она легко интегрируется в самые распространенные библиотеки обработки данных и существующие процессы для ускорения машинного обучения. Мы разгоняем машинное обучение так же, как мы разгоняли глубокое обучение».
RAPIDS включает набор открытых библиотек для анализа, машинного обучения и, совсем скоро, визуализации данных с GPU-ускорением. Эта платформа разрабатывалась инженерами NVIDIA более двух лет в тесном сотрудничестве с ключевыми разработчиками открытого ПО.
Специалисты впервые получают необходимые инструменты, чтобы целиком запустить конвейер обработки данных на GPU. Первые тесты RAPIDS с алгоритмом машинного обучения XGBoost для обучения на системе NVIDIA DGX-2™ показали 50-кратный прирост производительности по сравнению с системами на базе CPU. Это позволяет сократить время обучения с нескольких дней до нескольких часов и с нескольких часов до нескольких минут в зависимости от объема набора данных.
Тесное сотрудничество с разработчиками открытого ПО
Платформа RAPIDS базируется на популярных открытых проектах, включая Apache Arrow, pandas и scikit-learn, наделяя GPU-ускорением самые популярные инструменты для обработки данных на Python. Чтобы добавить в RAPIDS новые библиотеки и возможности машинного обучения, NVIDIA сотрудничает с такими ключевыми игроками рынка открытого ПО, как Anaconda, BlazingDB, Databricks, Quansight и scikit-learn, а также с Уэсом МакКинни (Wes McKinney), главой Ursa Labs и создателем Apache Arrow и pandas, самой быстро растущей библиотеки для обработки данных на Python.
«RAPIDS, платформа обработки данных с GPU-ускорением, - это вычислительная экосистема нового поколения на базе Apache Arrow, - говорит Уэс МакКинни. – Сотрудничество NVIDIA с Ursa Labs ускорит процесс инноваций в ключевых библиотеках Arrow и поможет повысить производительность в задачах анализа и конструирования признаков».
Чтобы ускорить распространение платформы, NVIDIA интегрирует RAPIDS в Apache Spark – ведущий открытый фреймворк для анализа и обработки данных.
«Мы в Databricks в восторге от того, как RAPIDS ускоряет работу Apache Spark, - говорит Матей Захария (Matei Zaharia), соучредитель и главный технолог Databricks, а также учредитель Apache Spark. - Мы работаем над несколькими проектами по интеграции Spark с нативными ускорителями, включая поддержку Apache Arrow и планирование ресурсов GPU с Project Hydrogen. Мы считаем, что RAPIDS – это отличный способ масштабирования задач обработки данных и ИИ для наших клиентов».
Доступность на рынке
Открытые библиотеки RAPIDS доступны на сайте http://www.rapids.ai код доступен по лицензии Apache. Контейнеризованные версии RAPIDS будут доступны на этой неделе в репозитарии контейнеров NVIDIA GPU Cloud.