Spring: Ускоряем запись в базу данных с помощью XML / forpes.ru

Главная
Spring: Ускоряем запись в базу данных с помощью XML

Spring: Ускоряем запись в базу данных с помощью XML -2

10.11.2020 17:46

cerrenesi 16 2100 Источник

Всем привет!

В этой статье пойдет речь о том как ускорить запись большого объема информации в реляционную базу данных для приложений, написанных с использованием Spring Boot. При записи большого количества строк за раз Hibernate вставляет их по одному, что приводит к существенному ожиданию, если строк много. Рассмотрим кейс как это обойти.

Используем Spring Boot приложение. В качестве СУБД -> MS SQL Server, в качестве языка программирования- Kotlin. Разумеется для Java разницы не будет.

Entity для данных, которые нам необходимо записывать:

@Entity
@Table(schema = BaseEntity.schemaName, name = GoodsPrice.tableName)
data class GoodsPrice(

        @Id
        @Column(name = "GoodsPriceId")
        @GeneratedValue(strategy =  GenerationType.IDENTITY)
        override val id: Long,

        @Column(name = "GoodsId")
        val goodsId: Long,

        @Column(name = "Price")
        val price: BigDecimal,

        @Column(name = "PriceDate")
        val priceDate: LocalDate
): BaseEntity(id) {
        companion object {
                const val tableName: String = "GoodsPrice"
        }
}

SQL:

CREATE TABLE [dbo].[GoodsPrice](
	[GoodsPriceId] [int] IDENTITY(1,1) NOT NULL,
	[GoodsId] [int] NOT NULL,
	[Price] [numeric](18, 2) NOT NULL,
	[PriceDate] nvarchar(10) NOT NULL,
 CONSTRAINT [PK_GoodsPrice] PRIMARY KEY(GoodsPriceId))

В качестве демонстрационного примера будем предполагать, что нам необходимо записывать по 20 000 и по 50 000 записей.

Создадим контроллер, который будет генерировать данные и передавать их на запись и логгировать время:

@RestController
@RequestMapping("/api")
class SaveDataController(private val goodsPriceService: GoodsPriceService) {

    @PostMapping("/saveViaJPA")
    fun saveDataViaJPA(@RequestParam count: Int) {
        val timeStart = System.currentTimeMillis()
        goodsPriceService.saveAll(prepareData(count))
        val secSpent = (System.currentTimeMillis() - timeStart) / 60
        logger.info("Seconds spent : $secSpent")
    }

    private fun prepareData(count: Int) : List<GoodsPrice> {
        val prices = mutableListOf<GoodsPrice>()
        for (i in 1..count) {
            prices.add(GoodsPrice(
                    id = 0L,
                    priceDate = LocalDate.now().minusDays(i.toLong()),
                    goodsId = 1L,
                    price = BigDecimal.TEN
            ))
        }
        return prices
    }
    companion object {
        private val logger = LoggerFactory.getLogger(SaveDataController::class.java)
    }
}

Так же создадим сервис для записи данных и репозиторий GoodsPriceRepository

@Service
class GoodsPriceService(
        private val goodsPriceRepository: GoodsPriceRepository
) {

    private val xmlMapper: XmlMapper = XmlMapper()

    fun saveAll(prices: List<GoodsPrice>) {
        goodsPriceRepository.saveAll(prices)
    }
}

После этого последовательно вызовем наш метод saveDataViaJPA для 20 000 записей и 50 000 записей.

Консоль:

Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
Hibernate: insert into dbo.GoodsPrice (GoodsId, Price, PriceDate) values (?, ?, ?)
2020-11-10 19:11:58.886  INFO 10364 --- [  restartedMain] xmlsave.controller.SaveDataController    : Seconds spent : 63

Проблема заключается в том что Hibernate пытался встававить каждую строку отдельным запросом, то есть 20 000 раз. И на моей машине это заняло 63 сек.

Для 50 000 записей 166 сек.

Решение

Что можно сделать? Главная идея заключается в том, что будем записывать через буфферную таблицу:

@Entity
@Table(schema = BaseEntity.schemaName, name = SaveBuffer.tableName)
data class SaveBuffer(

        @Id
        @Column(name = "BufferId")
        @GeneratedValue(strategy =  GenerationType.IDENTITY)
        override val id: Long,

        @Column(name = "UUID")
        val uuid: String,

        @Column(name = "xmlData")
        val xmlData: String
): BaseEntity(id) {
        companion object {
                const val tableName: String = "SaveBuffer"
        }
}

SQL script для таблицы в базе данных

CREATE TABLE [dbo].[SaveBuffer](
	[BufferId] [int] IDENTITY NOT NULL,
	[UUID] [varchar](64) NOT NULL,
	[xmlData] [xml] NULL,
 CONSTRAINT [PK_SaveBuffer] PRIMARY KEY (BufferId))

В SaveDataController добавим метод:

@PostMapping("/saveViaBuffer")
    fun saveViaBuffer(@RequestParam count: Int) {
        val timeStart = System.currentTimeMillis()
        goodsPriceService.saveViaBuffer(prepareData(count))
        val secSpent = (System.currentTimeMillis() - timeStart) / 60
        logger.info("Seconds spent : $secSpent")
    }

Так же добавим в GoodsPriceService метод:

@Transactional
    fun saveViaBuffer(prices: List<GoodsPrice>) {
        val uuid = UUID.randomUUID().toString()
        val values = prices.map {
            BufferDTO(
                    goodsId = it.goodsId,
                    priceDate = it.priceDate.format(DateTimeFormatter.ISO_DATE),
                    price = it.price.stripTrailingZeros().toPlainString()
            )
        }
        bufferRepository.save(
                    SaveBuffer(
                            id = 0L,
                            uuid = uuid,
                            xmlData = xmlMapper.writeValueAsString(values)
                    )
            )
        goodsPriceRepository.saveViaBuffer(uuid)
        bufferRepository.deleteAllByUuid(uuid)
    }

Для записи для начала генерим уникальный uuid, чтобы отличить текущие данные, которые записываем. Далее записываем наши данные в созданный буффер текстом в виде xml. То есть будет не 20 000 инсертов, а всего 1.

И после этого перебрасываем одним запросом типа Insert into… select данные из буффера в таблицу GoodsPrice.

GoodsPriceRepository с методом saveViaBuffer:

@Repository
interface GoodsPriceRepository: JpaRepository<GoodsPrice, Long> {
    @Modifying
    @Query("""
    insert into dbo.GoodsPrice(
	GoodsId,
	Price,
	PriceDate
	)
	select res.*
	from dbo.SaveBuffer buffer
		cross apply(select temp.n.value('goodsId[1]', 'int') as GoodsId
			, temp.n.value('price[1]', 'numeric(18, 2)') as Price
			, temp.n.value('priceDate[1]', 'nvarchar(10)') as PriceDate
			from buffer.xmlData.nodes('/ArrayList/item') temp(n)) res
			where buffer.UUID = :uuid
    """, nativeQuery = true)
    fun saveViaBuffer(uuid: String)
}

И в конце для того, чтобы не хранить в базе дублированную информацию удаляем по uuid данные из буффера.

Вызовем наш метод saveViaBuffer для 20 000 строк и 50 000 строк:

Hibernate: insert into dbo.SaveBuffer (UUID, xmlData) values (?, ?)
Hibernate: insert into dbo.SaveBuffer (UUID, xmlData) values (?, ?)
Hibernate: insert into dbo.SaveBuffer (UUID, xmlData) values (?, ?)
Hibernate: insert into dbo.SaveBuffer (UUID, xmlData) values (?, ?)
Hibernate: 
    insert into dbo.GoodsPrice(
	GoodsId,
	Price,
	PriceDate
	)
	select res.*
	from dbo.SaveBuffer buffer
		cross apply(select temp.n.value('goodsId[1]', 'int') as GoodsId
			, temp.n.value('price[1]', 'numeric(18, 2)') as Price
			, temp.n.value('priceDate[1]', 'nvarchar(10)') as PriceDate
			from buffer.xmlData.nodes('/ArrayList/item') temp(n)) res
			where buffer.UUID = ?
    
Hibernate: select savebuffer0_.BufferId as bufferid1_1_, savebuffer0_.UUID as uuid2_1_, savebuffer0_.xmlData as xmldata3_1_ from dbo.SaveBuffer savebuffer0_ where savebuffer0_.UUID=?
Hibernate: delete from dbo.SaveBuffer where BufferId=?
Hibernate: delete from dbo.SaveBuffer where BufferId=?
Hibernate: delete from dbo.SaveBuffer where BufferId=?
Hibernate: delete from dbo.SaveBuffer where BufferId=?
2020-11-10 20:01:58.788  INFO 7224 --- [  restartedMain] xmlsave.controller.SaveDataController    : Seconds spent : 13

Как видим по результатам получили существенное ускорение записи данных.
Для 20 000 записей 13 секунд было 63.
Для 50 000 записей 27 секунд было 166.

Ссылка на тестовый проект

Комментарии (16)

Peter1010
11.11.2020 21:03
#22287634
+4
Что-то странная статья. На сколько я помню в Hibernate есть Batch Insert. Судя по статье это именно то что вам нужно.
1. ArsenAbakarov
  11.11.2020 21:40
  #22287788
  Пишу код на python, и прочитав статью подумал — неужели там нет bulk insertа какого-нибудь, видимо все же есть
1. Graf54r
  11.11.2020 21:45
  #22287808
  Абсолютно верно! Есть batch, его размер задается через проперти. У спринга чуть по другому называется.
  Есть проблема над решением которой дествительно можно было бы написать статью:
  При вставке новых больших данных с id!=null, хибер сначала лезет в БД и узнает есть ли уже такая запись, если нет, делает insert иначе update. Получается на 20К вставок идет 20К select.
  Тут варианты:
  — либо писать ручками — и довольно много ручного труда
  — либо сущность наследовать от Interface Persistable переоперделять метод isNew [не самый безопасный вариант, ломается логика save, delete и возможно еще каких-либо]
  Я предпочел ручной вариант хоть и с postgreSql при этом приходится повозится, т.к. если нужно чтобы запись при вставке уже существующего id обновлялась, приходится все колонки дублировать.
  1. sshikov
    11.11.2020 21:50
    #22287844
    >Тут варианты:
    >— либо писать ручками — и довольно много ручного труда
    Ну вообще у MS SQL есть merge, и труда там не так уж и много. Нестандартно, необычно — может быть, но не более.
    
    Graf54r
    11.11.2020 22:13
    #22287944
    все равно запрос писать вручную. И про MS SQL речи не было.
    
    sshikov
    11.11.2020 22:22
    #22287970
    Ну да, вручную. Я про это и говорю — что этого ручного труда не так и много, как может показаться.
    
    >И про MS SQL речи не было.
    У автора как раз все про него. У других есть аналоги, merge не самый удобный.
  1. mamento
    11.11.2020 10:58
    #22289668
    Можете попробовать, если у вас uuid. Ну или с другими генераторами поэкспериментировать.
    
    @GeneratedValue(generator = "UUID") @GenericGenerator( name = "UUID", strategy = "org.hibernate.id.UUIDGenerator")

gleb_l
11.11.2020 21:11
#22287668
-2
Почему бы не написать сторед-процедуру, которой в качестве параметра передать сериализованный в строку XML? Разве это не лучше, чем лапшекод на новом гиперуровне, когда сначала мы объявляем свободу от конкретики RDBMS, а затем делаем трудночитаемые и непроверяемые inline-вставки на ~~ассемблере~~ T-SQL?

Уж лучше такое иметь в контролируемом в design-time (пусть даже в database-design-time ;) ) модуле, чем в виде непроверяемой многострочной лапши с опасностью SQL-инъекции через недоэкранированные литералы

402d
11.11.2020 21:14
#22287684
+1
не впечатляет. 500к записей в секунду и выше — вот это будет близко к пределу средненького сервера
1. vagon333
  11.11.2020 23:09
  #22288188
  500к/sec — это не показатель. Совсем.
  500к может быть в записи на 2 int поля с 1 primary key,
  а может 800+ полей, 50+ ссылок на др. таблицы и дочерними записями (т.е. каждый insert нужно заворачивать в explicit transaction).

ultrinfaern
11.11.2020 21:16
#22287698
А зачем отдельная таблица? Если вы создаете xml то его можно напрямую использовать в native query.
И еслу уж вобще придираться, возможен вариант с native query и массивом как параметр, тогда вообще xml не нужен.

maxzh83
11.11.2020 22:12
#22287936
+1
Вместо включения batch в хибере или переходом на что-то более легковесное (jooq, например), добавим еще xml, чтобы точно на все деньги было.

vagon333
11.11.2020 23:03
#22288152
Вы подняли ворох проблем, который утопил нашего Enterprise Architect из-за неверного вектора решения. :)
Итак, проблемы:
1. Действительно, Hibernate генерит массу отдельных insert запросов. Можно оптимизировать on-prem, но в облаке небольшой network latency на 500,000 добавлений вываливается в панику клиентов.
Однако, есть еще и серверная сторона:
2. Чем больше индексов в OLTP базе, тем дольше идет перестройка после каждого insert
3. Чем больше RI, тем дольше верификация
4. При наличии дочерних таблиц (что в статье не было учтено), транзакция утяжеляется.

Наше решение:
— валидация данных перед bulk insert
— bulk insert
— перестройка индексов по окончании добавления данных

Проблема решения: при невалидных данных или ошибке, откатывается весь импорт.
Плюс: максимально-возможная скорость т.к. иморт данных идет с закрытыми глазами, без проверок на каждой записи.
1. asmm
  11.11.2020 16:25
  #22291828
  А что если между «валидация данных перед bulk insert» и «bulk insert» другая сессия изменит данные и они станут не валидными при нашем «bulk insert»? Блокировать всю таблицу предлагаете?
  П.С. а если есть внешние ключи, то и все связанные таблицы тоже
  1. orthanner
    12.11.2020 07:43
    #22294340
    Об этом и написано в конце комментария: в случае невалидных данных/ошибки весь импорт будет откачен, т. к. выполняется одной транзакцией. Но обычно, когда такие вещи делаются, позволять кому-то ещё менять таблицу и/или связанные таблицы не очень хорошая идея и имеет смысл выставить блокировку. Хотя есть и исключения. Логи те же самые. Как вы понимаете, в этом случае крайне маловероятно, что какая-либо сессия так изменит данные, что пакетная вставка окажется невалидной. А вот каждую запись в транзакцию оборачивать в высоконагруженной системе — сервер БД может и не потянуть.
    
    asmm
    12.11.2020 09:48
    #22294614
    тогда абсолютно с вами согласен, максимальной производительности, консистентности данных и простоты можно добиться использую проверки на уровне БД (UNIQUE, CHECK, FK, ASSERTION), обернув bulk insert в одну транзакцию