Skills/mY Technutz 2017. 12. 20. 11:29

귀차니즘에 안하고 있던 커널 덤프 분석 13번째 케이스 공유.

- Symptom : 특정 시간대를 기점으로 HA 로 구성된 서로 다른 세개의 시스템 세트(총 6대)가 비슷한 형태의 메시지를 보이며 리부팅.

일부 HA 및 RAC 시스템의 경우 5분간격으로 리부팅 되는 등, 심각한 서비스의 영향도를 초래하는 상황.

실재로 고객은 해당 서버에서 LTO 테잎 라이브러리를 이용해 백업을 받는 작업이 있었고,
이때마다 리부팅이 발생한 것으로 판단된다.

처음에는 Tape Driver 의 문제를 의심했으나,

Null point 에러와 여러대의 다른 Cluster set 에서 동일하게 발생하고 있었기 때문에

버그를 찾아보게 되었고, 픽스를 확인할 수 있었다.

물론 이 버그에 대한 패치는 완벽하게 릴리즈 되지 않았고, QA 중이며, UEK4QU6 에 출시되는 4.1.12-119 버젼에 포함될 것이다.

** 완전 새로운 버그였으면 그냥 새 버그로 오픈하거나 커널메일링에 문의를 할 수 있던 상황인데 아쉽..(?)


posted by mirr

댓글을 달아 주세요

Skills/Linuxworld 2017. 4. 26. 04:02

나에게 흥미로운 내용이 또 한가지 있다면, 파일시스템 관련 즉, I/O 관련 이슈이다.

이것은 천상 System Engineer 인 나로써는, 성능에 가장 영향을 미치는 부분중,

튜닝이 가능한 부분을 살펴보게 되기 때문일 것이다.

기사 본문(아직 유료) : https://lwn.net/Articles/720675/

일주일뒤 확인하면 무료일듯...

--------

밑의 댓글들 중에는 Kyber 에 대한 벤치마크 결과가 있냐고 묻기도 하고,

그 결과로 8ms 에서 1ms 으로 줄였다는 메일링 내용도 있기도 하며,
( http://marc.info/?l=linux-block&m=148978871820916&w=2 )

이런 스케쥴러가 BTRFS 같이 별도의 내부적 IO scheduler 나 Thread procedure 를 갖는
환경에서 정상동작 할지 우려하기도 하며,

확실한건 아닌데, 성능이 더 좋게 잘 동작하는것 같다고 하는 답변도 달려있다.

언제나, 리눅스는 물론, 시스템에 대한 엔지니어링을 하면서 항상 땔 수 없고,

내려놓을 수 없는 부분이 바로 성능이라고 생각된다.

디스크 성능에 대한 이야기를 쓰면서,

한때, 가상화에 한참 심취했을때, Disk I/O 에 대한 스케쥴러를 Deadline 과 NOOP 으로 바꿔

상당한 이득을 경험했을 때의 기억이 새삼 떠올랐다.

그때 엄청 감동이였는데... ㅎㅎㅎ

아무튼 리눅스의 성능에 중요한 요소인, Memory Management 와

Disk I/O scheduler 에 대한 것은 언제나 놓지 않아야 한다고 본다.

일단 술한잔 마시고, 예정화랑 구지성 같은 몸매종결 연애인들 나오는 프로 하악대며 보다보니,

어느덧 네시다 ㅠㅠ 제길... 오늘 회사 못나갈듯...

놀러나가야 하는데 징징징....

*PS : 멀티큐 블록 레이어에 대한 참고기사 (공개)
*PS2 : BFQ 소개 , Kyber 소개


posted by mirr

댓글을 달아 주세요

Skills/Linuxworld 2017. 4. 5. 00:24

이번달은 거의 LSFMM summit 내용이 무지막지하게 쏟아져 나오고,

내가 관심있어하는 내용들이기 때문에 잘 따라갔어야 했으나,

너무 쏟아저나오는 나머지... MM 쪽은 도저히 따라갈 수 가 없어,

그중 가장 논의를 할 만한 흥미있는 기사 하나만 잡고 끊을 놓치않기 위해 안간힘을 써 본다.

논의할 사람이 너무 없다.. IT 진짜 사람 너무 없다.. 다들 좀 지원안하나?

밥짓기 3년 빨래 3년 청소 3년만 하면 나랑 말이 통할거 같은데...
( 농담같지만 진담이다. )

기사 제목은 Container-aware Filesystems 이며, 구독자 전용이라..

공개여부는 잘 모르겠다. 일주일 뒤 한번 보시라...
( https://lwn.net/Articles/718639/ )

-----

----

여기서 내가 궁금하고 흥미로운 건 말이지... 이게 정말이냐? 라는 것이다.

DevOpser 들에게 묻는거다.. 도커나 컨테이너 많이 쓰는 ... 많이들 쓴다며?

난 쓰는애들 제대로 본적이 없어서 묻는건데, 이런 권한문제들을 다들 어떻게 처리하고있는지 ...

이런것도 모르면서 우리나라에서 데브옵스를 해야한다 어쩐다 할 수 있을까? 라는 걱정이 들었다.

다들 어떤 방식으로 Unprivilege 의 파일시스템을 사용하고,

왜 필요한지 논의해 보면 좋겠다.

일단 여기까지 쓰고 나니 한 30분정도 걸린거같다... 술이 취해서 더이상 글을 보기가 싫다 -_-


posted by mirr

댓글을 달아 주세요

Skills/System 2017. 4. 3. 17:44

흥미있는 버그를 발견했다.. 물론 알려진 버그인데,

분석하는 과정을 개인적으로 업데이트하고 공유한다.

이슈는 엑사데이타에서 사용하는 UEK2 (2.6.39-400.264.1) 커널의 crash 이다.

이는 사실상 Async/Direct IO 상태로 사용시 ext4 의 io end 처리 구조체 및 펑션에서

더블프리가 될 수 있는 버그로 알려져있으며 패치가 나와있다.

Fixed -> UEK2 2.6.39-400.277.1


posted by mirr

댓글을 달아 주세요

Skills/Linuxworld 2017. 2. 26. 00:33

최근 한 2주정도를 계속 게임과 미드에 몰입하던 터라 흥미로운 기사가 몇개 있었음에도 불구하고

그냥 '에이 제껴 어차피 일주일단위로 공개되는데 구지 내가....' 라는 마인드로 넘겨버리고 있었는데...

오늘은 좀 무료한 감이 있더라..(금방 질리는 게임불감증 ㅠㅠ)

그래서 그냥 여러가지 외국 기사들 보며 맥주나 마시던 중 Cgroup 내용이 있어서 살짝 소개하려고 한다.

-----

우리나라의 기라성같은 은둔고수들중에 가장 유명해진(?)
Full time kernel hacker 인 허태준님께서 메인테이너로 개발하고 있는 CGroup 에 대한 내용이라서
내가 실전에서 사용한지 너무 오래되서 가물가물한 지식임에도 불구하고, 다루어 보았다.

현재 커널개발에 대해서 상당히 여러부분에 걸쳐
다양한 변화 및 움직임이 일어나고 있음을 알려주기 위해서이며,
우리나라에선 혁신이란 말을 유행처럼 쓰지만,
외래문화를 바탕으로 두고 있는 사람들- 그냥 외국인 - 의 경우,
정말 필요할 때 자신을 깨부숴 갈 의향을 알리며 사용한다는 말임을
이해해야 한다는 것을 말하고 싶다.

맥주가 다 떨어져서 자야겠.......

원문은 : https://lwn.net/Articles/715051/
- 일주일 뒤 무료공개.

** 엮인글들을 읽어가는 재미가 쏠쏠하다는 점...
*** 태준님 짱이라는...


posted by mirr

댓글을 달아 주세요