인텔, 신약 후보 물질 탐색 단계의 이미지 분석을 위해 심층 신경망 가속화를 활용하다

2018 5 25 – 인텔이 신약 개발 초기 후보 물질 탐색(Discovery) 단계의 핵심 요소인 하이 콘텐츠 스크리닝(high content screening)의 가속화를 위한 심층 신경망(Deep Neural Networks, DNN)의 활용에 노바티스(Novartis)*와 협력한다. 이 인텔-노바티스 협력 팀은 화상 분석 모델을 11시간에서 31분으로 단축하여, 20배 이상의 향상1을 이루었다.

 

인텔-노바티스 협력 팀은 10K 이미지의 데이터 세트(dataset) 처리(process) 시간 향상을 이루기 위해 8개의 CPU 기반으로 하는 서버, 고속 패브릭 인터커넥트(high-speed fabric interconnect), 그리고 최적화된 텐서플로(TensorFlow) 이용하였다.

 

세포의 표현형(cellular phenotype)에 대한 하이 콘텐츠 스크리닝은 초기 신약 후보 물질 탐색의 핵심 기능이다. “하이 콘텐츠”라는 용어는 고전적인 화상 처리 기법(image-processing techniques)을 이용하여 이미지에서 추출한 수 천 개의 사전 정의된(pre-defined) 특징들(크기, 모양, 질감 등)을 일컫는다. 하이 콘텐츠 스크리닝은 현미경 이미지의 분석을 가능하게 해주는데, 이는 여러 가지 세포 배양에서 수천 가지 유전적 혹은 화학적 치료의 효과를 연구하기 위해 사용된다.

 

딥 러닝(deep learning)은 서로 다른 치료를 구별할 수 있는 관련 이미지의 특징들이 데이터에서 “자동적으로” 학습되도록 만든다. 인텔과 노바티스의 생물학자들과 데이터 과학자들은 심층 신경망 가속화를 적용함으로써 하이 콘텐츠 이미징 스크린(high content imaging screen) 분석을 가속화하길 기대하고 있다. 이러한 공동 작업에서, 인텔-노바티스 협력 팀은 이미지 안에 있는 각 세포를 먼저 식별하는 별도의 과정을 거치는 것이 아닌 전체 현미경 이미지(whole microscopy image)에 집중한다. 전체 현미경 이미지는 일반적인 딥 러닝 데이터 세트에서 발견되는 이미지보다 훨씬 방대할 수 있다. 가령, 이러한 평가 과정에서 사용되는 이미지들은 (잘 알려진) 이미지넷(ImageNet)*의 동물, 사물 그리고 전경 데이터 세트에서 일반적으로 사용되는 이미지보다 26배 이상 방대하다.

 

현미경 이미지를 분석하기 위해 사용되는 나선형 심층 신경망(deep convolutional neural networks) 모델은 일반적으로 이미지 당 수 백만 픽셀, 모델의 수백만 개의 파라미터(parameter), 그리고 수천 가지에 이르는 훈련(training) 이미지, 이 모든 것을 한번에 작업한다. 그리고 이것은 높은 연산 부하를 초래한다. 기존 컴퓨팅 인프라에 기반한 고급 연산 역량이 투입된다고 하더라도 시간을 고려한다면, DNN 모형을 통한 더 심층적인 탐구는 생각하기 힘들다.

 

이러한 도전 과제를 해결하기 위해, 인텔-노바티스 협력 팀은 심층 신경망 가속화 기술을 적용하여 눈에 띄게 적은 시간에 여러 이미지를 처리하면서, 모형이 궁극적으로 학습하는 이미지로부터 더 많은 인사이트를 도출해 내기 위해 노력하고 있다.

 

노바티스와 인텔이 함께 구성한 인텔-노바티스 협력팀은 훈련(training)을 위한 10K의 이미지 데이터 세트 처리 시간에 있어 20배 이상의 향상1을 이루었다. 브로드 바이오이미지 벤치마크 컬렉션(Broad Bioimage Benchmark Collection)* 021 (BBBC-021) 데이터 세트를 이용하여 인텔-노바티스 협력 팀은 99% 이상의 정확도, 총 처리 시간(processing time) 31분을 달성했다.

 

이 성과를 이루기 위해, 인텔-노바티스 협력팀은 8개의 CPU 기반 서버, 고속 패브릭 인터커넥트, 그리고 최적화된 텐서플로1를 사용하였다. 딥 러닝 훈련에서 데이터 병렬 처리(data parallelism)의 기본 원칙을 활용하고 서버 플랫폼에서 대용량 메모리 지원의 이점을 최대한 활용함으로써, 인텔-노바티스 협력 팀은 32개의 텐서플로 워커(32 TensorFlow worker)를 통해 초당 120개 이상의 프레임 3.9-메가 픽셀 이미지로 확장할 수 있었다.

 

수퍼바이즈드 딥 러닝(supervised deep learning) 방식이 이미지 분류 가속화와 인사이트로의 시간을 줄이는데 필수적인 반면, 딥 러닝 방식은 모델을 훈련하기 위해서는 거대한 전문가 분류(expert-labled) 데이터 세트에 의존한다. 이러한 데이터 세트를 만드는 데 필요한 시간과 작업은 종종 엄두를 낼 수 없는 정도이다. 분류되지 않은 현미경 이미지에 적용될 수도 있는 언수퍼바이즈드 딥 러닝(unsupervised deep learning) 방식이 세포 생물학, 궁극적으로는 신약 후보 물질 탐색에 대한 새로운 인사이트를 보여줄 것임을 기대할 수 있다. 앞으로도 계속될 작업의 초점은 바로 여기에 맞춰질 것이다.

 

더 알아보기: 인텔 인공지능 | 데이터 기반 헬스케어 솔루션 개선 | 2018 인텔 DevCon (프레스킷)

세부 항목:

1단일 노드 시스템에서 8 소켓 클러스터로 확장하여 21.7 배속을 기준으로 20 배의 클레임을 달성한다.

 

8-소켓 클러스터 노드 구성:

CPU: 인텔® 제온® 6148 프로세서 @ 2.4GHz

코어 수: 40

소켓: 2

하이퍼 스레딩(Hyper-threading): 가능

메모리/노드: 192GB

NIC: 인텔® OP HFI(Intel® Omni-Path Host Fabric Interface)

텐서 플로우: v1.7.0

호로보드(Horovod): 3.0.0

클러스터: ToR 스위치: 인텔® Omni-Path Switch

 

단일 노드 구성:

인텔® 제온® Phi 프로세서 7290F

192GB DDR4 RAM

1x 1.6TB 인텔® SSD DC S3610 시리즈 SC2BX016T4

1x 480GB 인텔® SSD DC S3520 시리즈 SC2BB480G7

인텔® MKL 2017/DAAL/인텔 Caffe

 

*참조

BBBC-021: Ljosa V, Sokolnicki KL, Carpenter AE, 유효성 검사를 위해 주석 처리 된 고 처리량 현미경 이미지 세트(Annotated high-throughput microscopy image sets for validation), 자연 방법(Nature Methods), 2012

이미지넷(ImageNet): Russakovsky O et al, ImageNet 대규모 시각적 인식 과제(ImageNet Large Scale Visual Recognition Challenge), IJCV, 2015

텐서플로(TensorFlow): Abadi M et al, 이기종 시스템에서 학습하는 대규모 기계(Large-Scale Machine Learning on Heterogeneous Systems), 소프트웨어는 tensorflow.org에서 구할 수 있다.

 

특정 시스템에서 특정 테스트의 구성 요소 성능을 테스트한다. 하드웨어, 소프트웨어 또는 구성의 차이가 실제 성능에 영향을 미친다. 구매를 고려할 때 성능을 평가하려면 다른 정보 소스를 참조하길 권한다. 성능 및 벤치 마크 결과에 대한 자세한 내용은 www.intel.com/benchmarks에서 확인할 수 있다.

 

인텔 기술의 특징과 이점은 시스템 구성에 따라 다르며 하드웨어, 소프트웨어 또는 서비스 활성화가 필요할 수 있다. 성능은 시스템 구성에 따라 다르다. 어떤 컴퓨터 시스템도 절대적으로 안전할 수는 없다. 시스템 제조업체나 판매점에 문의하거나 www.intel.com에서 확인 가능하다.

 

인텔 및 인텔 로고, 제온(Xeon)은 미국 및 다른 국가에서 인텔 혹은 인텔 자회사의 상표로 등록돼 있다.

 

태그: 심층 신경망, 헬스케어, 노바티스(Novartis)

 

인텔에 대하여

인텔(NASDAQ: INTC)은 가장 놀라운 경험들을 구현하기 위해 기술의 한계를 넓혀나가고 있다. 인텔에 대한 보다 자세한 정보는 newsroom.intel.com 혹은 intel.com에서 확인 가능하다.

About Intel
Intel (NASDAQ: INTC) expands the boundaries of technology to make the most amazing experiences possible. Information about Intel can be found at newsroom.intel.com and intel.com.

Intel and the Intel logo are trademarks of Intel Corporation in the United States and other countries.

*Other names and brands may be claimed as the property of others.