CPU-intensive vs I/O-intensive - 컴퓨터공학 채널

컴퓨터공학 채널

알림 알림 중 알림 취소

구독자 3401명 알림수신 19명 @SeworL

컴퓨터를 좋아하는 사람들의 모임

읽을거리 CPU-intensive vs I/O-intensive

모댕숲

추천 7 비추천 0 댓글 18 조회수 955 작성일 2022-11-06 14:57:49

https://arca.live/b/programmers/62350982

원글: https://arca.live/b/programmer/62348855

C++을 I/O 최적화 하는데 쓰겠다!

Python으로 아주 빠른 서비스를 만들겠다!

그.. 그래 너 말이 맞아..

오늘 쓴 글의 참고자료

피드백 언제나 환영

https://nodejs.org/ko/docs/guides/dont-block-the-event-loop/

이번에 소개할 글은 간략하게, CPU-Intensive, I/O-Intensive 두개의 차이에 대해 이야기하려 함

이번엔 비전공자는 뒤로가기 눌러주길 바람 궁금하면 더 봐도 되고.

그리고, 찾아보니 CPU-bound, I/O-bound 라는 표현이 더 많더라고

근데 Node에서 intensive라는 표현을 썼으니 나도 그 표현 쓸거임 ㅋㅋ

아마 Node로 프로젝트를 진행중인 친구들이나, 혹은 웹 관련 수업을 들으면서 Node를 쓰는 친구들이라면

한번쯤은 Node는 event loop는 single thread 지만, 내부 v8 engine은 multi thread고 thread pool을 가지고 있다..

뭐 그런 이야기들을 들었을거야. 전공자 친구들은 알다시피, 운영체제가 thread를 생성하는데엔 한계가 있어.

만약 20만명이 동시에 요청을 날렸는데 그 요청만큼 thread를 만들면 서버가 뻗어버릴걸

그래서 thread pool 개념이 있고, event loop 개념이 있고 뭐 그런거임 근데 오늘 할 이야기는 저 이야기를 할려던게 아님

바로 I/O-intensive 작업과 CPU-intensive 작업을 구분해서 어떤걸 최적화하는지 결정하는 이야기임

일단, 저걸 구분하는 쉬운 방법은 너 코드에서 시간복잡도가 산출되느냐임.

이를테면,

DB에 쿼리를 날리는 작업이 있다고 치자. 웬만하면, 한줄로 끝나고 DB에서 이뤄지는 작업은 니 코드에 영향을 못줌.

왜? DB에서 동작하니까. 너의 코드가 아니라. 그리고 DB에 통신을 요청하는 작업, 즉 Network를 쓰는 I/O 작업임.

근데 for문을 써서 너가 DB에서 가져온 데이터를 검사한다? for문의 복잡도에 따라 O(N)도 될 수 있고 O(N^2)도 되겠지

물론, 아마 그렇게 짰으면 교수님이나 조교가 니 대가리를 깰것이다. 아니면 너의 팀원이. 안깼다고? 그럼 뭔가 단단히 잘못 돌아가는거임

그리고 string 비교도 O(N)이다 여기서 N은 string 길이고 보통은 작은길이의 string만 쓰다보니 눈에 안띌 뿐임

그뿐만 아니라 모두의 친한 친구 regular expression도 최악의 경우는 O(2^m) 이다. 여기서 m은 regular expression의 길이임

왜 이런 시간복잡도가 나오냐고? 형식언어와 오토마타를 듣고 오면 알 수 있다. 여기서 설명하면 너무 길어져!

좀더 친근한 예시를 들면 BOJ의 모든 문제는 CPU-Intensive임, BOJ에서 C/C++이 유리한것도 그러한 이유임.

Rust도 유리한데 너가 공부하기엔 자료가 너무 적을거임..

알고리즘의 구현이라는것 자체가 I/O가 stdin 하나로 주어지는 상황 자체가 다른 언어가 같은 알고리즘이라는 가정하에 C/C++을 못이기는 거임.

그래서 BOJ 에서는 python에게는 +10s 제한을 java에게는 +2s 제한을 주는거임. 애시당초 언어의 성능을 보는게 아니라

알고리즘을 얼마나 잘짜는지 보는거니까.

각설하고, 너가 웹서버를 구현하는 상황이라면 과연 C++이 항상 유리할까?

물론, 너가 v8 engine 같은걸 혼자서 구현할 수 있는 괴물이라면 비추를 누르고 조용히 뒤로가기를 누르면 된다.

근데, 들어봐 웹 서버라는 것이 이 I/O-intensive를 설명하기 굉장히 좋은 예시임

일단 Network. 이게 I/O임 요청이 들어오면 일단 읽기 위해 CPU를 재워놓고 읽는다고.

근데 이런 요청이 한두개면 모르겠는데 100개 1000개 아니 10만개씩 들어옴.

이거 관리를 C++로 하려고 하면 니 대가리가 깨질것이다.

아닌데요? 쉬운데요? 뒤로가기 누르라고!!

아무튼, 여기서 포인트는 CPU를 재운다는 점임, CPU가 자는 동안은 오직 읽기/쓰기 속도의 문제지

CPU가 일하는게 하나도 없음. 즉, 이 부분은 진짜 언어의 성능이랑 상관없다는 뜻임

근데 이제 다시 CPU-Intensive 작업으로 돌아와서.

만약 DB에서 충분히 할 수 있는 작업을 굳이 N개 데이터로 읽어들여서 뭔가 이상한짓을 한다 해보자.

굳이 Node 에서 for 를 O(N)번 돌린다던지, 뭐 머리 썼다 쳐서 O(log N)으로 줄인다던지 하더라도 엄청 멍청한 짓을 한다?

과연 올바를까? DB에서 O(log N) 혹은 O(N)에 맡기고 너의 코드에서는 O(1)에 작업을 끝내는 게 당연히 이득일것이다.

그것을 넘어서 DB에서도 처리 못하고 v8 engine이 지원하는 C++ addons 에서도 너가 원하는 기능을 지원하지 않는다면

너는 그걸 순수 js 로 구현하는것이 맞을까? C++로 너만의 addons를 만드는것이 맞을까?

이런것을 판단하는 것이, CPU-intensive 와 I/O-intensive 의 구분임.

그냥 간단하게 Network든 Pipeline이든, File-I/O 든 뭔가 I/O가 발생해서 CPU가 대기하는 거면 무조건 I/O-intensive다.

반대로 시간복잡도가 계산이 되는 작업, 이를테면 for문이나 while문이 들어간다던지 문자열을 비교한다던지.. regular expression으로 문자열 패턴 매칭을 한다던지.. 이러한 일련의 작업이 CPU를 사용하는 CPU-intensive 한 작업임.

당연한 이야기겠지만, CPU-intensive 한 작업은 언어가 기계어에 가까우면 가까울수록, 알고리즘이 빠르면 빠를수록 빠르다.

반면, I/O-intensive는 그냥 진짜 하드웨어 바인드임, 이걸 소프트웨어로 빠르게 한다는건 있을 수 없고(아 물론 DB를 더 성능 좋은 DB로 바꾼다.. 이런건 있을 수 있는데 그것도 결국 너가 다루는 데이터의 특성과 DB의 특성을 잘 이해하고 있어야 할 수 있는 행동이고. 이 부분은 결국 CPU-intensive한 작업을 들여다 봐야함)

보통은 캐시서버를 둔다거나, 네트워크 성능 자체를 올린다거나, 서버를 늘리고 분산으로 입력을 받는다거나 이런식으로 부하를 줄이는 방향으로 최적화를 하게 됨.

파일 I/O가 필요한 작업이면, 아예 데이터를 전부 램에다 올려놓고 관리하거나, 디스크를 겁나 비싼걸 쓰거나.

일반적인 서버는 CPU-intensive 한 작업이 거의 없으니 하드웨어를 업그레이드하는게 굉장히 도움이 되지만

대용량으로 다양한 서비스를 하기 시작하면 본격적으로 CPU-intensive한 작업이 많아지면서, 저런것들을 너가 신경쓰게 된다.

물론, 이때 RPC 라는 개념이 있기 때문에, CPU-intensive 한 작업은 다른 사람이 처리해줄 수 있어.

근데 저 RPC조차 아까워서(저것도 일단은 I/O는 I/O라) wrapper를 써서 그냥 한 프로세스 내에서 다른 언어끼리(Go - C++, Python - C++) 통신하는 케이스도 있어

이건 통신이라고 보기엔 애매하고 그냥 메모리 읽는 방법을 공유한다고 생각하면 됨(Tensorflow 를 예시로 들면, 내가 정의한 텐서는 float 배열이고, dimension은 몇차원이고 shape는 어떻게되고 포인터 시작위치는 어디고.. 이런걸 공유하는걸 말함).

뭐 어차피 이런 부분은 나중가서 배우게 될테니.. 지금은 몰라도 되겠다.

물론 GO같은 언어는 저런 CPU-intensive 한 작업을 어느정도 커버할 수 있다.

그럼에도 불구하고 구글은 0.1% 라도 성능을 올리면 그게 다 돈이다보니 오늘도 욕을 박으면서 C++을 쓴다..

근데, Rust만으로 서비스를 구성한 애들도 있다!

궁금해서 검색해봤는데 디스코드가 Rust기반으로 서비스 하나를 뚝딱 구성했다더라

심심하면 읽어봐.

https://discord.com/blog/why-discord-is-switching-from-go-to-rust

긴글 읽어줘서 고마워.

댓글 글쓰기

aigo

2022-11-06 15:54:13 답글

*수정됨

c++ 같은 언어에서도 async 라이브러리 같은 거 쓰면 되지 않나요?

펼쳐보기▼

모댕숲

2022-11-06 15:59:53 답글

*수정됨

좋은 질문임, 사실 C++로 I/O를 최적화 하겠다! 라는 것은 메모리에 올라온 후, parsing, serialization, deserialization 등의 작업을 최적화 하겠다는 의미로, 이를 과연 내가 하는게 맞을까 framework에 의존하는게 맞을까에 문제로 해석하면 됨. C++로 서버를 구축하겠다면, 말리지는 않으나, 그에 따른 개발 코스트를 감당하는것 보단, I/O 부분은 다른 언어로 해결하고 CPU 작업은 C++로 하는게 합리적이라는 뜻임.

펼쳐보기▼

모댕숲

2022-11-06 16:04:20 답글

node.js만으로 충분히 해결되는 작업이라면, 구태여 C++ 까지 내려가서 async 까지 써가며 서버를 구축할 필요가 있냐는 뜻임. 물론 그 정도로 성능이 간절하면 당연히 C++을 하는게 맞고..

펼쳐보기▼

오도나무해병

2022-11-07 00:12:02 답글

근데  I/O-intensive한 작업과 C/Cpp과는 조금 엇나간 이야기 아님?
너 말마따나 IO 최적화가 선행되어야 성능이 올라가는 부류인데 Cpp를 안쓸것도 없지 않나
나도 실제로 그 ㅈㄹ해서 지금도 여기저기서 아직 잘 쓰고 있는거 같고

펼쳐보기▼

모댕숲

2022-11-07 00:41:29 답글

*수정됨

위에 질문에서도 답변했지만, 너가 말하는 I/O 최적화라는게 하드웨어 바인딩 된 부분이 아닌 결국엔 CPU-intensive 한 부분을 보게 됨. 아이러니하게도.(parsing, serialization, deserialization) 이런 부분의 최적화는 보통 개발자가 직접 해서 코스트 낭비하기 보단, 프레임워크에 의존하는게 나은거임.

학부생 단계에서 제일 이해하기 쉬운것이 BOJ Fast IO 를 예시로 들 수 있을거임. 근데 이런거 들고 다니는것 보단 cin cout 쓰는게 훨씬 낫잖아? 알고리즘쪽에 집중할 수 있고.

마찬가지임 framework가 그러한 버퍼를 읽어들이고 해석해서 너한테 json이라는 형태로 던져주는 I/O 최적화를, 애써 C++에서 전부 해서 코스트 낭비할 필요가 없다는 거임. C++에서 전부 해결해야할정도로 간절한 순간이 아니라면 말이야. 그래서 I/O-intensive한 작업은(위에서 말한 입/출력하는데에 필요한 CPU-intensive한 작업 포함)framework에 맡기고, framework가 커버 불가능한 CPU-intensive한 부분을 직접 구현하는게 코스트는 낮은데 성능 리턴은 좋다는 거임.

물론 최근엔 gRPC나 C++에서도 서버를 구성하기 좋은 라이브러리가 다수 있다고 하지만 여전히 생산성면에서는 다른 언어에 뒤쳐지고있음. 막말로 대학생한테 과제로 C++만으로 옥션 사이트 백엔드 구현하는거랑 Node.js만으로 옥션 사이트 백엔드 구현하는거를 서로 다른애한테 줬다고 하면 누가 더 확실히 결과를 내올까? 듀는 3일이고, 실력이 동일하다는 가정하에.

펼쳐보기▼

오도나무해병

2022-11-07 01:07:59 답글

음 C에서 epoll + thread 조합으로 서버 여럿 만들어본 입장에서는 잘 모르겠음. I/O에서의 병목에 대해 이해를 했다는 가정 하에 구현이 그렇게 빡센 부분도 아니고 ㅇㅇ
그리고 애초에 node개발자라 뒷쪽 구현이 어떻게 되어있는지는 모르겠고 대충 잘 굴러가니까 된거 아님? 이럴 수 있는것도 아니고 I/O든 CPU 작업이든 최적화/고도화가 필요할 레벨이면 더욱이 프레임워크로 대충 때운다는 발상은 잘못된거 같음

펼쳐보기▼

모댕숲

2022-11-07 01:09:42 답글

아니아니 내 말 의도는 그게 아니고. 너 말대로 고도화가 필요한 작업일땐 결국 밑으로 내려가서 떼우는게 맞는데. 그 정도로 간절한 상황이 아니면 C++이랑 다른 언어를 섞어쓰는 패턴이 나온다는 의미였음 그게 코스트가 좋고

펼쳐보기▼

오도나무해병

2022-11-07 01:12:00 답글

그 부분에 대해서는 반박의 여지가 없지만 니 글을 보면 node가 있는데 Cpp 왜씀? ㅋㅋ 로 들림 ㅇㅇ

펼쳐보기▼

모댕숲

2022-11-07 01:12:43 답글

그 부분은 확실히 내 글 흐름이 잘못되긴했네 시간 나면 고쳐보도록 함.

펼쳐보기▼

오도나무해병

2022-11-07 01:09:09 답글

물론 프레임워크가 주는 생산성에 대한 부정은 아님. 단지 Cpp로 이전을 생각할 수준이라면 Cpp로 대부분 Cpp로 개발하는게 더 이득이 될거라는거지

펼쳐보기▼

모댕숲

2022-11-07 01:11:13 답글

cpp의 완전한 이전이 아닌 부분이전이 나을수도 있다는 의미임. 프레임워크로 전부 떼운다는 의미보다는. 

즉, 좀더 크리티컬한 부분에 집중하는게 좋다는 뜻으로 받아줬음 좋겠어..

펼쳐보기▼

모댕숲

2022-11-07 00:48:05 답글

아 여기서 js쪽도 C++쪽도 각자가 원하는 라이브러리나 프레임워크엔 제한이 없다는 가정하에

펼쳐보기▼

pi2

2022-11-12 09:33:57 답글

*수정됨

적당히 재밌는 글인 듯 하네.

본문에 설명이 제대로 없어서 I/O intensive한 작업의 경우 소프트웨어 수준의 최적화는 OS, 커널 레벨의 지원을 적극적으로 받는 게 압도적으로 유리한 부분이 있어서 (non-block socket, epoll, iocp, kqueue) 이 부분 처리가 수월한 게 C 니까 C 의존도가 높은 코드가 나올 수 밖에 없음. 
글에서 적혀있지 않지만 node는 c++로 구현된 networking layer를 사용하여서 성능 최대치를 끌어올리려고 했음.

다만, 앱 서버 개발을 위해 C,C++을 배운다는 행위 자체가 시대에 맞지 않는 행위라고 생각될 수 있으므로 ,
서비스의 내용물이 중요한 경우 비지니스 로직만 손대길 원하고, 그에 맞춰 상대적으로 배우기 쉬운 스크립트를 사용해서 비지니스 로직을 빠르게 올리는 건 나쁜 것은 아니지. 이건 i/o intensive, cpu intensive와 무관한 영역이라 생각함.

펼쳐보기▼

모댕숲

2022-11-12 10:30:32 답글

글의 주제가 C/C++을 써서 I/O를 최적화 하는건 멍청하다라는 건 절대 아니고.. C/C++이 성능이 밀린다 라는 말도안되는 소리는 더더욱 아님.

일반적으로 소프트웨어 부분에서 봤을 때 치명적인 병목 지점은 CPU-intensive 한 부분이 많다는 의미였슴.. 

I/O 레벨 최적화를 커널단계까지 진행해도, 압축을 엄청 잘해서 I/O에 필요한 전송량을 최대한 줄여도, 결국 네트워크 자체의 카파시티가 문제가 되는 경우가 많아(하드웨어 바인드한 부분)결국 서버를 증설해야하는 단계가 되니까.
 그리고, 당장에 I/O를 아무리 최적화 잘해도, 서버가 아무리 많아도, 응답에 필요한 데이터를 정제하는 과정이(CPU) 느리면 말짱도루묵이니까 말야.

이때, I/O 최적화는 본문에 언급한 Node의 v8-engine이나 gRPC 그외에 무수히 많은 프레임워크나 라이브러리에 의존하고(이런 것들은 답글단 너의 말대로 C/C++로 구현되어있음) CPU부분에 좀 더 집중하는게 좋다는 의미였슴. CPU 동작은 내가 원하는 기능을 콕 집어서 최적화 해주는게 드물테니까..(물론 지원한다면 그걸 쓰는게 생산성 측면에서 이득이 되겠지)


물론! CPU부분 말고도 I/O부분도 현재 본인이 구현하는 서비스에 맞춰 C/C++로 고도화시켜서 추가적인 성능을 증가시켜 서버 증설을 줄일 수 있다면 전부 이윤으로 돌아오니까, 그런 최적화가 나쁘다는 이야기가 절대 아님. 약간 글 내용이 오해의 소지가 있게 작성되긴 했나보네ㅠ

펼쳐보기▼

pi2

2022-11-12 11:53:58 답글

이게 결국 머신내부에서 cpu던 io던 빡세게 성능 잡으려면 c++로 가야되니.... 그 부분이 오해가 발생하는 지점같넹

펼쳐보기▼

모댕숲

2022-11-12 14:11:03 답글

ㅇㅇ (118.235)

2023-03-05 00:41:35 삭제 수정 답글

gc 없이 비동기 처리하는게 머리 아파서 c/c++로 비동기 안하려고 드는거지 성능 간절하면 io intensive고 나발이고 다 c/c++로 시스템콜 땡겨와서 쓰지

글고 그놈의 '일반적인 소프트웨어' 운운하는건 아무런 의미가 없음 분야에 따라 요구사항이 천차만별이기 때문에 뇌피셜로 일반적인 소프트웨어는 이럴 것이다 해버리면 그건 지나치게 오만한거임

펼쳐보기▼

shooting_Star

2024-02-09 08:27:54 답글

좋은 글 잘 봤습니다 재밌는 내용이네요 :)

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 공지사항 질문/조언 읽을거리

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28259815

공지 컴퓨터공학 채널 규칙 (2023-10-05 개정)

SeworL 2023.10.05 896

공지 빠르게 원하는 답변을 받기 위해 피해야 할 질문 방식

유자차 2022.07.02 2226

공지 신문고

SeworL 2023.10.07 279

숨겨진 공지 펼치기(1개)

128 아니 이짤 진짜였냐고ㅋㅋㅋ [11]

nano 2022.11.25 1500 12

127 26살 코딩 입갤했다 [7]

ㅇㅇ (125.188) 2022.11.13 1250 5

126 2200원으로 코드 사는법 알려준다 [2]

나제이 2022.11.14 1029 9

125 읽을거리 #[derive(블챈)] Undefined Behavior [14]

스프 2022.11.13 704 8

124 c++ㄹㅇ 미친언어임 [4]

로제마인 2022.11.13 1276 14

123 읽을거리 CPU-intensive vs I/O-intensive [18]

모댕숲 2022.11.06 956 7

122 조건은 넣었지만 출력을 안한경우.jpg [4]

asdadsaa 2022.10.31 775 6

121 dockerization [14]

오도나무해병 2022.10.27 510 6

120 이제 회사 다닌지 6개월된 뉴비 하소연.. [9]

ㅇㅇ (120.142) 2022.10.23 834 8

119 읽을거리 더 월드!!!! [31]

모댕숲 2022.10.25 894 13

118 비전공자 재롱잔치나 보고 가라 [25]

게으른농부 2022.10.24 3308 37

117 메모리 누수가 26GBㅋㅋㅋㅋㅋ [10]

진격의엄ㅋ 2022.10.20 1163 7

116 개신기한거 찾음 [8]

구리구리너구릿 2022.10.21 821 11

115 읽을거리 n년차 개발자 충고입니다 새겨들으세요 [12]

논리회로 2022.10.18 1337 11

114 컴공과 학생인데 학교 재밌음 [23]

link 2022.10.17 1188 13

113 카카오 장애가 개발자에게 치명적인 이유 [13]

gogogo33355 2022.10.15 812 8

112 읽을거리 석사 나부랭이가 써보는 현 코딩 광풍에 관하여 [56]

MG새마을금고 2022.10.15 4628 91

111 좀 더 완전한 포팅을 이제 막 끝냄

진격의엄ㅋ 2022.10.12 396 5

110 IT 기업들 떡락한 건 개발자 탓이 아니다. [8]

갈 2022.10.12 977 8

109 애드가드(Adguard)를 쓰니까 쾌적하다. [4]

Rila_Estancia 2022.10.07 493 5

108 안녕하세요 우연히 컴공챈을 발견해서 인사드립니다. [5]

심해소녀 2022.10.10 598 10

107 끔찍끔찍 외주 견적 요청서 [4]

오도나무해병 2022.10.07 619 6

106 친구가 숫자세다가 계속 하나가 모자라다길레 [4]

나제이 2022.10.05 649 13

105 읽을거리 윈 11 이번 업뎃 주요 변경점 [16]

잔주 2022.10.05 3237 88

104 이미지 POST성공했음!!!!!!!!!!!!!!!!!!! [14]

카미사토_아야카 2022.10.01 656 11

103 코드 이쁘게 붙여넣는 방법 [13]

nano 2022.09.23 1264 14

102 자랑)존나뿌듯함 [4]

CE 2022.09.09 777 9

101 싱글벙글 카카오뱅크 [7]

진격의엄ㅋ 2022.08.11 975 8

100 컴공챈에서 인암대전 비스무리한걸 봐야되냐 [10]

로제마인기여어 2022.08.03 878 7

99 읽을거리 Carbon 언어 공개됨 [10]

잔주 2022.07.25 1067 6

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.