Google Dataset Search вышел из бета-версии

Новый инструмент поиска датасетов Google Dataset Search вышел из бета-версии. За полтора года удалось проиндексировать 25 миллионов наборов данных — большая часть из которых поступает из государственных учреждений разных стран и Kaggle, крупнейшего сообщества исследователей данных и ИИ.

Набор данных или датасет (dataset) — это структурированная коллекция данных (необработанные или обработанные, в виде текста, чисел или мультимедиа).

Поиск представлен в виде каталога с ссылками на платные и бесплатные датасеты с графической или тестовой информацией по разным темам — домашние питомцы, медицинские данные, и тд. Демократизация доступа к наборам данных предоставит возможность исследователям проверять гипотезы и использовать для алгоритмов машинного обучения.

Мы решили потестить, что полезного можно найти в Google Dataset Search и пригодны ли датасеты для использования в Polymatica. Сразу напомним — это всего лишь каталог, и качество датасетов гарантирует их источник.

Поисковое окно каталога выглядит аскетично и даже предлагает вам ссылку на инструкцию, как загрузить свой личный датасет в поисковик.

Google Dataset Search вышел из бета-версии

Что мы стали искать? Конечно, котиков! Мы решили узнать в каком районе Нью-Йорка живет самое большое количество зарегистрированных домашних пушистиков. Google предложил нам 26 датасетов.

Google Dataset Search вышел из бета-версии

Для теста мы выбрали первый бесплатный датасет, который можно было экспортировать в формате Exce l— это оказался свежий набор данных Департамента охраны окружающей среды (DEP) на сайте открытых данных государственных органов Нью-Йорка.

Google Dataset Search вышел из бета-версии

Мы загрузили датасет в платформу обработки big data — Polymatica и сегментировали данные по районам. В Манхеттене оказалось самое большое количество зарегистрированных котов! Такое сегментирование будет полезно для таргетирования рекламы производителей корма премиум класса, ветеринарных услуг и кетситтеров.

Google Dataset Search вышел из бета-версии

Всем хороших датасетов!

Упомянутый сервис

Polymatica Аналитическая платформа Polymatica для работы с большими данными
Аналитическая платформа Polymatica для работы с большими данными

Больше интересного

Актуальное

Клиентская аналитика: с чего начать
Полгода в подарок новым клиентам!
Виртуальная АТС — какую выбрать?
Ещё…