일상기록/독서

[리뷰] SRE를 위한 시스템 설계와 구축, 장현희 옮김, 한빛미디어, 2022

_하늘여우_ 2022. 8. 27. 23:02

출처 : 인터넷 교보문고

 

SRE와 DevOps

SRE(Site Reliability Engineering, 사이트 신뢰성 엔지니어링)은 IT 운영에 대한 소프트웨어 엔지니어링 방식 중 하나이다.

SRE를 한 마디로 정의하자면 "자동화" 이다. '툴'을 사용해서 관리 및 모니터링을 통해 기존에 많은 부분 수작업으로 진행되던 시스템 운영 방식을 '자동화' 하겠다는 것이다.

이를 통해 운영 태스트를 개선하고 현 시스템의 신뢰성을 향상하고 그 신뢰성을 지속하여 높아지도록 지원한다.

 

지금 재직 중인 회사에서도 기존 시스템 모니터링을 자동화하기 위해 로그 추적 및 배포 자동화 등 상당 부분 자동화하기 위해 고민하고 있다.

 

그러면 DevOps 와 무엇이 다를까?

 

DevOps 개념은 10여년 전부터 유행했었던 것 같다. 그러다 최근 들어 DevOps 엔지니어에 대한 수요가 많이 늘어난 것 같다. 채용정보를 봐도 DevOps 엔지니어 포지션이 심심치 않게 나오는 것을 알 수 있다.

 

조대협님은 SRE와 DevOps의 관계를 아래와 같이 정의했다.

 

class SRE implements DevOps

 

DevOps 는 개발과 운영 조직 간 사일로 현상을 해결하기 위한 일종의 '조직 문화'에 대한 방향성이며, SRE는 DevOps 를 적용하기 위한 실제 구현으로 말이다.

 

서론이 길었는데, SRE는 구글이 개발-운영 조직 간 문제 해결을 위해 시도한 방법이다.

그리고 이 도서는 구글 내부 엔지니어들이 실제 SRE 를 직접 수행하면서 겪은 사례를 제시하고 있어 SRE 에 대해 보다 상세히 와 닿는다.

 

012

 

사실 빠르게 변화하는 시장 상황하에서 빠른 개발 릴리즈는 회사 입장에서는 매력적일 것이다. 그러나 서비스 런칭 후 시스템을 유지보수 하는 입장에서 안정성을 고민하는 것 또한 중요하다.

이 책은 구글의 뛰어난 엔지니어들이 앞서서 고민하고 부딪혔던 문제들에 대한 고백서(?) 이다.

읽어 보면 '헉! 구글에서 진짜 이랬어?' 하는 부분도 있는데, 그러한 문제로부터 지금의 구글을 만들어오지 않았나 싶다.

 

오늘도 안전한 시스템을 고민하며 이 책을 덮어본다.

나름 의미 있는 도서였다.

 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

 

참고)

https://bcho.tistory.com/1325

https://www.redhat.com/ko/topics/devops/what-is-sre#%EC%9A%94%EC%95%BD