본문 바로가기

전체글139

분산 시스템의 골칫거리, 못다한 이야기 '분산 시스템의 골칫거리' 주제로 강의 할 때 gc, tcp, timeout 등 키워드 중심으로만 설명했다. 그러다보니 전체적인 숲에 대한 이야기는 하지 못했다. 왜 그렇게 진행 했을까를 생각해보면 나는 fact 전달에만 집중했던거 같다. gc 나 tcp 같이 기술적인 deep 한 접근은 내가 주는 정보에 이견이 생기기 어렵다(오랜 세월 공고히 발전해온 기술들이니까). 하지만 청자들은 분산 애플리케이션을 경험하면서 겪은 어려움이 구체적으로 뭐였는지 더 궁금했을거 같다. 그 이야기를 하면서, 내가 잘못된 정보를 제공하더라도 일단 설명하고 지적 받으면 정정하면서 나도 같이 성장하는게 맞는 방향이라 생각한다.분산 시스템이 왜 필요할까?먼저 왜 필요한지 근본적인 질문에서부터 이야기를 시작해보겠다. 사실 답은 간.. 2024. 1. 14.
신뢰성 없는 네트워크, asynchronous / 시계 문제 synchronous / asynchronous / blocking / non-blocking 을 어떻게 해석해야 될까? 학계에서도 명확한 정의가 없다. 나는 아래 3가지 관점으로 나눠지는 것을 경험했다. 어떤것도 명확히 정답이라고 볼 순 없지만 개인적으로 1번을 선호한다. 1. synchronous/asynchronous 와 blocking/non-blocking 는 별개 카테고리로 봐야한다. synchronous/asynchronous blocking/non-blocking 2. synchronous 는 blocking 이고 asynchronous 는 non-blocking 이다. synchronous -> blocking asynchronous -> non-blocking 3. asynchronou.. 2024. 1. 8.
신뢰성 없는 네트워크, GC 이야기 데이터 중심 애플리케이션 설계 8장 '분산 시스템의 골칫거리' 에서 GC 이야기가 나온다. 원격 노드가 일시적으로 응답하기를 멈췄지만(가비지 컬렉션 휴지가 길어졌을 수 있다), 나중에는 다시 응답하기 시작할 수 있다(p278). 심지어는 I/O 중단과 GC 중단이 공모해서 지연을 결합하기도 한다(p297). 원문: I/O pauses and GC pauses may even conspire to combine their delays cf) conspire 는 실제로 공모(직역)했다기 보다 두 가지 독립적인 요소가 서로 의도적으로 협력하는 것처럼(비유적 표현) 보이는 상황을 설명하는 데 사용됐다고 보는게 맞을거 같다. 두 가지 지연 요소가 어떻게 시스템의 전반적인 성능에 더 큰 부정적 영향을 미치는지 강조.. 2024. 1. 7.
네이버페이 주문서 시스템 전환 완료 길고 길었던(월 거래액 5조가 넘는 주문/결제 시스템 전환은 정말 오래걸렸다) 신주문서 프로젝트가 드디어 끝났다. 아직 남은 작업들이 존재 하지만 중요한 작업들은 모두 마쳤다. 6월에 8부능선 넘었다고 글을 썼는데 최종 전환까지의 과정은 순탄치 않았다. 다양한 문제가 발생해서 하루에도 몇번씩 운영 배포 하고 모니터링을 계속했다. 눈앞에 결승점이 보이는데 자꾸 넘어져서 앞으로 못간다는 느낌을 많이 받았다. 그래도 그 힘든 과정을 다 이겨내고 끝을 맺을수 있어서 행복하다.  개인적으로 신주문서TF 로 온건 정말 잘한 선택이었다. 더 큰 세상을 경험할 수 있었고 그만큼 나도 더 강해졌다. 그전까지는 4년 정도 플랫폼 조직에서 개발했다(어느덧 벌써 8년차). 플랫폼을 개발 한다는건 아래 그림과 같은 느낌이다. .. 2023. 11. 25.
Kafka consumer 와 partition 개수 증가시키기 사용자 트래픽이 높아짐에 따라, 특정 시간대에 Lag 이 쌓이면서 처리 지연이 발생했다. 그래서 consumer 와 partition 개수를 증가시키기로 했고 운영중인 상황에서 증가시키는 순서를 정리했다. 먼저 우리 시스템은 1:1:1 구조로 되어 있다. ex) consumer 서버 5대, producer 서버 5대, topic 의 partion 개수 5개 이제 Kafka consumer 와 partition 개수를 각각 2배씩 증가 시키려고 한다. 먼저 consumer concurrency 를 2로 올린다. 각 서버당 2니까 consumer 는 총 10이 된다. [아파치 카프카 애플리케이션 프로그래밍 p217] partition 을 여러 개로 운영하는 경우 데이터를 병렬처리하기 위해서 partition.. 2023. 11. 11.
WebClient "Only one connection receive subscriber allowed" 에러 아직 정확한 원인은 파악되지 않았고, 기록차원으로 작성했다. WebClient 에서 간헐적으로 "Only one connection receive subscriber allowed" 에러가 계속 발생하는것을 경험했다. 엄밀히 말하면 reactor-netty 에서 에러가 발생한다. Exception:java.lang.IllegalStateException: Only one connection receive subscriber allowed. at reactor.netty.channel.FluxReceive.startReceiver(FluxReceive.java:182) 샘플 프로젝트를 만들고 에러를 재현해서 reactor-netty 에 문의 해봤는데 Spring Framework issue 라는 답변만 줬.. 2023. 8. 15.