Django on_commit + Celery, 레플리카 환경에서의 문제 해결

DRF 서버에서 Django 앱 서버로 웹훅 POST 요청을 보내고,
Django에서는 이를 받아 Post 모델 인스턴스를 생성하는 과정에서 다음과 같은 문제가 발생했다.

웹훅 응답 시간 초과
Post 객체 생성 이후, ManyToMany 필드인 categories, tags 처리를 위해 시간이 소요됨
이로 인해 webhook 응답이 지연되고 DRF는 이를 실패로 인식함
데이터 정합성 미확보
후속 처리에서 Celery 태스크를 바로 호출하는 경우, tags.add(...), categories.add(...) 작업이 완료되지 않은 시점에 호출됨
이로 인해 Celery에서는 불완전한 데이터를 처리하게 되는 문제가 발생함
on_commit() 이후에도 Celery에서 빈 데이터 수신
on_commit()을 사용해 데이터의 정합성을 확보한 뒤, Celery 태스크를 예약했지만, 태스크 내부에서 tags.all() 등의 조회 결과가 여전히 빈 리스트로 나타남
이는 Celery가 읽기 작업을 레플리카 DB로 보내고 있었고, master → replica 동기화에는 지연이 존재했기 때문

post = Post.objects.using('default').get(id=post_id)
tags = post.tags.using('default').all()
categories = post.categories.using('default').all()

또는 DB Router를 활용해 Celery 요청은 항상 master DB를 조회하도록 분기 가능

모든 구성요소가 개별적으로는 정상이지만,
분산된 아키텍처 환경에서 발생하는 레이턴시와 데이터 정합성 문제를 해결하기 위해
코드 구조뿐 아니라 데이터 흐름과 타이밍, DB 레플리카 지연까지 고려한 시스템 설계가 필요했다.

유사한 게시물