52 датасета для тренировочных проектов / forpes.ru

Главная
52 датасета для тренировочных проектов

52 датасета для тренировочных проектов +28

16.12.2019 13:18

rishat_edison 8 6800 Источник

Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project )
Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.
SOCR data – Heights and Weights Dataset — хороший вариант для старта. Содержит 25 000 записей о росте и весе 18-ти летних людей.

Статья переведена при поддержке компании EDISON Software, которая выполняет «на отлично» заказы из Южного Китая, а также разрабатывает веб-приложения и сайты.
Parkinson Dataset — 195 записей о пациентах с болезнью Паркинсона, с 25 параметрами анализов. Можно использовать для предварительной оценки отличия больных людей от здоровых. (Вариант применения с исходником на Python: Machine Learning Project on Detecting Parkinson’s Disease)
Titanic Dataset — содержит информацию про пассажиров (возраст, пол, родственники на борту и пр) 891 в тренировочном сете и 418 — в тестовом.
Uber Pickups Dataset — информация о 4.5 миллионах поездок на Uber 2014 года и 14 млн. 2015 года. (Вариант применения с исходником на R: Uber Data Analysis Project in R)
Chars74k Dataset — содержит изображения Британских и Канадских символов 64 классов: 0-9, A-Z, a-z. 7700 7.7k естественных изображений, 3400kнаписанных от руки, 62000 синтезированных компьютером шрифтов.
Credit Card Fraud Detection Dataset — содержит информацию о транзакциях скомпрометированных кредитных картах. (Вариант применения с исходником: Credit Card Fraud Detection Machine Learning Project)
Chatbot Intents Dataset — JSON-файл, который содержит различные тэги: greetings, goodbye, hospital_search, pharmacy_search, и тд. Содержит набор шаблонов «вопрос-ответ». (Вариант применения с исходником на Python: Chatbot Project in Python)
Enron Email Dataset — содержит пол миллиона писем от 150 менеджеров Enron.
The Yelp Dataset — содержит 1,2 млн. рекомендаций от 1,6 млн. пользователей про 1,2 млн организаций.
Jeopardy Dataset — более 200 000 записей «вопрос-ответ» из популярной телевизионной игры.
Recommender Systems Dataset — портал с коллекцией датасетов от университета UCSD. Содержит записи об отзывах на популярных сайтах (Goodreads, Amazon). Отлично подходит для создания рекомендательных систем. (Вариант применения с исходником на R: Movie Recommendation System Project in R )
UCI Spambase Dataset — датасет для тренировки для обнаружения спама. Содержит 4601 писем с 57 параметрами метаданных.
Flickr 30k Dataset — более 30 000 изображений и подписей к ним. (Flickr 8k Dataset — 8000 изображений. Проект с исходником на Python: Image Caption Generator Python Project)
IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)
MS COCO dataset — 1,5 млн размеченных изображений.
CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)
ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)
Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
MPII human pose dataset — датасет содержит 25 000 изображений человеческих поз с аннотацией по суставам.
20BN-something-something dataset v2 — набор высококачественных видео, которые показывают, как человек выполняет какие-то действия.
Object 365 Dataset — датасет высококачественных изображений с ограничивающими рамками объектов.
Photo sketching dataset — содержит более 1000 изображений с их контурными чертежами.
CQ500 Dataset — датасет содержит 491 КТ-сканирование головы с 193 317 срезами.
IMDB-Wiki dataset — датасет с более чем 5 млн. изображений лиц с пометкой пола и возраста. (Вариант применения с исходником на Gender & Age Detection Python Project)
Youtube 8M Dataset — маркированный набор данных видео, который содержит 6,1 миллиона идентификаторов видео Youtube
Urban Sound 8K dataset — набор городских звуковых данных (содержит 8732 городских звука из 10 классов).
LSUN Dataset — набор данных из миллионов цветных изображений сцен и объектов (около 59 миллионов изображений, 10 различных категорий сцен и 20 различных категорий объектов).
RAVDESS Dataset — аудиовизуальная база данных эмоциональной речи. (Вариант применения с исходником на Speech Emotion Recognition Python Project)
Librispeech Dataset — датасет содержит 1000 часов английской речи с разными акцентами.
Baidu Apolloscape Dataset — датасет для развития технологий самостоятельного вождения.
Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).
The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.
IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.
American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.
Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.
Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.
Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).
Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.
Food environment Atlas Data Portal — содержит данные исследований о питании в США.
Health Data Portal — это портал Министерства здравоохранения и социальных служб США.
Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.
London Datastore Portal — данные о жизни людей в Лондоне.
Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)

Читать ещё

Комментарии (8)

Stas911
16.12.2019 19:14
#21018236
+1
Вот еще у Амазона есть наборчик: registry.opendata.aws
Удобно, что оно уже на S3 и не нужно ничего никуда копировать.

CrazyElf
16.12.2019 19:29
#21018286
+1
А также некоторые из этих наборов данных давно уже интегрированы в различные библиотеки для маш. обучения, их не надо отдельно искать и качать.

BreathDeeper
17.12.2019 19:48
#21018350
+1
Мадрид предоставляет достаточно интересные, что важно свежие данные.

Например, статистика ДТП с участием велосипедистов 2017-2019

GennPen
17.12.2019 20:17
#21018492
+1
У Гугла есть поиск по различным базам датасетов: toolbox.google.com/datasetsearch

zoldaten
17.12.2019 21:39
#21018752
Librispeech Dataset...102 дня скачивания… в последнее время вообще висит…
Пора делать зеркала датасетов.

redcyb
16.12.2019 23:44
#21019246
CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100

CIFAR-10 содержит изображения объектов реального мира, разбитых на 10 классов. Цифры — это MNIST и похожие.
CIFAR-100 — похожее содержание, только обогащенное до 100 классов.

dim2r
18.12.2019 10:11
#21020360
Кто-нибудь видел датасет на тему сегментации органов и сосудов по томограмме?

darkAlert
18.12.2019 12:16
#21020950
Вот бы Human3.6m выложили в опенсорс…