Google Dataset Search вышел из бета-версии
Новый инструмент поиска датасетов Google Dataset Search вышел из бета-версии. За полтора года удалось проиндексировать 25 миллионов наборов данных — большая часть из которых поступает из государственных учреждений разных стран и Kaggle, крупнейшего сообщества исследователей данных и ИИ.
Набор данных или датасет (dataset) — это структурированная коллекция данных (необработанные или обработанные, в виде текста, чисел или мультимедиа).
Поиск представлен в виде каталога с ссылками на платные и бесплатные датасеты с графической или тестовой информацией по разным темам — домашние питомцы, медицинские данные, и тд. Демократизация доступа к наборам данных предоставит возможность исследователям проверять гипотезы и использовать для алгоритмов машинного обучения.
Мы решили потестить, что полезного можно найти в Google Dataset Search и пригодны ли датасеты для использования в Polymatica. Сразу напомним — это всего лишь каталог, и качество датасетов гарантирует их источник.
Поисковое окно каталога выглядит аскетично и даже предлагает вам ссылку на инструкцию, как загрузить свой личный датасет в поисковик.
Что мы стали искать? Конечно, котиков! Мы решили узнать в каком районе Нью-Йорка живет самое большое количество зарегистрированных домашних пушистиков. Google предложил нам 26 датасетов.
Для теста мы выбрали первый бесплатный датасет, который можно было экспортировать в формате Exce l— это оказался свежий набор данных Департамента охраны окружающей среды (DEP) на сайте открытых данных государственных органов Нью-Йорка.
Мы загрузили датасет в платформу обработки big data — Polymatica и сегментировали данные по районам. В Манхеттене оказалось самое большое количество зарегистрированных котов! Такое сегментирование будет полезно для таргетирования рекламы производителей корма премиум класса, ветеринарных услуг и кетситтеров.
Всем хороших датасетов!
Комментариев пока не было