Description
어떤 정보가 숨어있는지 알 수 없는 큰 데이터를 분석할 때는 미리 생각할 수 없는 시나리오로 진행되는 경우가 많다. 이렇게 데이터 처리의 윤곽이 잡혀있지 않을 때엔 빨리 만들어 빨리 쓰고 버리는 일회용 스크립팅과, 어떤 경우에도 쉽게 적응할 수 있는 일반화된 프레임워크가 필요하다. 또한, 결과가 빨리 나오지 않으면 다음 분석 작업이 늦어지기 때문에, 적은 노력으로 속도를 끌어올릴 수 있는 병렬화 환경이 있어야 한다.
이 발표에서는 분자생물학에서 많이 사용되는 데이터 분석 도구들을 예로 들어, 빠른 반복주기가 필요한 대규모 탐색적 데이터 분석 방법을 소개한다. 워크플로우 자동화 도구 snakemake 의 기본적인 설계 개념을 알아본 뒤, snakemake를 이용한 병렬화, 여러 텍스트 파일 병렬처리, 인덱싱 도구들의 기본적인 개념과 장단점, Julia로 계산이 많이 필요한 부분 가속하기 등을 예시를 통해 둘러보기로 한다.