인텔, 신약 후보 물질 탐색 단계의 이미지 분석을 위해 심층 신경망 가속화를 활용하다

2018 5 25 – 인텔이 신약 개발 초기 후보 물질 탐색(Discovery) 단계의 핵심 요소인 하이 콘텐츠 스크리닝(high content screening)의 가속화를 위한 심층 신경망(Deep Neural Networks, DNN)의 활용에 노바티스(Novartis)*와 협력한다. 이 인텔-노바티스 협력 팀은 화상 분석 모델을 11시간에서 31분으로 단축하여, 20배 이상의 향상1을 이루었다.

 

인텔-노바티스 협력 팀은 10K 이미지의 데이터 세트(dataset) 처리(process) 시간 향상을 이루기 위해 8개의 CPU 기반으로 하는 서버, 고속 패브릭 인터커넥트(high-speed fabric interconnect), 그리고 최적화된 텐서플로(TensorFlow) 이용하였다.

 

세포의 표현형(cellular phenotype)에 대한 하이 콘텐츠 스크리닝은 초기 신약 후보 물질 탐색의 핵심 기능이다. “하이 콘텐츠”라는 용어는 고전적인 화상 처리 기법(image-processing techniques)을 이용하여 이미지에서 추출한 수 천 개의 사전 정의된(pre-defined) 특징들(크기, 모양, 질감 등)을 일컫는다. 하이 콘텐츠 스크리닝은 현미경 이미지의 분석을 가능하게 해주는데, 이는 여러 가지 세포 배양에서 수천 가지 유전적 혹은 화학적 치료의 효과를 연구하기 위해 사용된다.

 

딥 러닝(deep learning)은 서로 다른 치료를 구별할 수 있는 관련 이미지의 특징들이 데이터에서 “자동적으로” 학습되도록 만든다. 인텔과 노바티스의 생물학자들과 데이터 과학자들은 심층 신경망 가속화를 적용함으로써 하이 콘텐츠 이미징 스크린(high content imaging screen) 분석을 가속화하길 기대하고 있다. 이러한 공동 작업에서, 인텔-노바티스 협력 팀은 이미지 안에 있는 각 세포를 먼저 식별하는 별도의 과정을 거치는 것이 아닌 전체 현미경 이미지(whole microscopy image)에 집중한다. 전체 현미경 이미지는 일반적인 딥 러닝 데이터 세트에서 발견되는 이미지보다 훨씬 방대할 수 있다. 가령, 이러한 평가 과정에서 사용되는 이미지들은 (잘 알려진) 이미지넷(ImageNet)*의 동물, 사물 그리고 전경 데이터 세트에서 일반적으로 사용되는 이미지보다 26배 이상 방대하다.

 

현미경 이미지를 분석하기 위해 사용되는 나선형 심층 신경망(deep convolutional neural networks) 모델은 일반적으로 이미지 당 수 백만 픽셀, 모델의 수백만 개의 파라미터(parameter), 그리고 수천 가지에 이르는 훈련(training) 이미지, 이 모든 것을 한번에 작업한다. 그리고 이것은 높은 연산 부하를 초래한다. 기존 컴퓨팅 인프라에 기반한 고급 연산 역량이 투입된다고 하더라도 시간을 고려한다면, DNN 모형을 통한 더 심층적인 탐구는 생각하기 힘들다.

 

이러한 도전 과제를 해결하기 위해, 인텔-노바티스 협력 팀은 심층 신경망 가속화 기술을 적용하여 눈에 띄게 적은 시간에 여러 이미지를 처리하면서, 모형이 궁극적으로 학습하는 이미지로부터 더 많은 인사이트를 도출해 내기 위해 노력하고 있다.

 

노바티스와 인텔이 함께 구성한 인텔-노바티스 협력팀은 훈련(training)을 위한 10K의 이미지 데이터 세트 처리 시간에 있어 20배 이상의 향상1을 이루었다. 브로드 바이오이미지 벤치마크 컬렉션(Broad Bioimage Benchmark Collection)* 021 (BBBC-021) 데이터 세트를 이용하여 인텔-노바티스 협력 팀은 99% 이상의 정확도, 총 처리 시간(processing time) 31분을 달성했다.

 

이 성과를 이루기 위해, 인텔-노바티스 협력팀은 8개의 CPU 기반 서버, 고속 패브릭 인터커넥트, 그리고 최적화된 텐서플로1를 사용하였다. 딥 러닝 훈련에서 데이터 병렬 처리(data parallelism)의 기본 원칙을 활용하고 서버 플랫폼에서 대용량 메모리 지원의 이점을 최대한 활용함으로써, 인텔-노바티스 협력 팀은 32개의 텐서플로 워커(32 TensorFlow worker)를 통해 초당 120개 이상의 프레임 3.9-메가 픽셀 이미지로 확장할 수 있었다.

 

수퍼바이즈드 딥 러닝(supervised deep learning) 방식이 이미지 분류 가속화와 인사이트로의 시간을 줄이는데 필수적인 반면, 딥 러닝 방식은 모델을 훈련하기 위해서는 거대한 전문가 분류(expert-labled) 데이터 세트에 의존한다. 이러한 데이터 세트를 만드는 데 필요한 시간과 작업은 종종 엄두를 낼 수 없는 정도이다. 분류되지 않은 현미경 이미지에 적용될 수도 있는 언수퍼바이즈드 딥 러닝(unsupervised deep learning) 방식이 세포 생물학, 궁극적으로는 신약 후보 물질 탐색에 대한 새로운 인사이트를 보여줄 것임을 기대할 수 있다. 앞으로도 계속될 작업의 초점은 바로 여기에 맞춰질 것이다.

 

더 알아보기: 인텔 인공지능 | 데이터 기반 헬스케어 솔루션 개선 | 2018 인텔 DevCon (프레스킷)

세부 항목:

1단일 노드 시스템에서 8 소켓 클러스터로 확장하여 21.7 배속을 기준으로 20 배의 클레임을 달성한다.

 

8-소켓 클러스터 노드 구성:

CPU: 인텔® 제온® 6148 프로세서 @ 2.4GHz

코어 수: 40

소켓: 2

하이퍼 스레딩(Hyper-threading): 가능

메모리/노드: 192GB

NIC: 인텔® OP HFI(Intel® Omni-Path Host Fabric Interface)

텐서 플로우: v1.7.0

호로보드(Horovod): 3.0.0

클러스터: ToR 스위치: 인텔® Omni-Path Switch

 

단일 노드 구성:

인텔® 제온® Phi 프로세서 7290F

192GB DDR4 RAM

1x 1.6TB 인텔® SSD DC S3610 시리즈 SC2BX016T4

1x 480GB 인텔® SSD DC S3520 시리즈 SC2BB480G7

인텔® MKL 2017/DAAL/인텔 Caffe

 

*참조

BBBC-021: Ljosa V, Sokolnicki KL, Carpenter AE, 유효성 검사를 위해 주석 처리 된 고 처리량 현미경 이미지 세트(Annotated high-throughput microscopy image sets for validation), 자연 방법(Nature Methods), 2012

이미지넷(ImageNet): Russakovsky O et al, ImageNet 대규모 시각적 인식 과제(ImageNet Large Scale Visual Recognition Challenge), IJCV, 2015

텐서플로(TensorFlow): Abadi M et al, 이기종 시스템에서 학습하는 대규모 기계(Large-Scale Machine Learning on Heterogeneous Systems), 소프트웨어는 tensorflow.org에서 구할 수 있다.

 

특정 시스템에서 특정 테스트의 구성 요소 성능을 테스트한다. 하드웨어, 소프트웨어 또는 구성의 차이가 실제 성능에 영향을 미친다. 구매를 고려할 때 성능을 평가하려면 다른 정보 소스를 참조하길 권한다. 성능 및 벤치 마크 결과에 대한 자세한 내용은 www.intel.com/benchmarks에서 확인할 수 있다.

 

인텔 기술의 특징과 이점은 시스템 구성에 따라 다르며 하드웨어, 소프트웨어 또는 서비스 활성화가 필요할 수 있다. 성능은 시스템 구성에 따라 다르다. 어떤 컴퓨터 시스템도 절대적으로 안전할 수는 없다. 시스템 제조업체나 판매점에 문의하거나 www.intel.com에서 확인 가능하다.

 

인텔 및 인텔 로고, 제온(Xeon)은 미국 및 다른 국가에서 인텔 혹은 인텔 자회사의 상표로 등록돼 있다.

 

태그: 심층 신경망, 헬스케어, 노바티스(Novartis)

 

인텔에 대하여

인텔(NASDAQ: INTC)은 가장 놀라운 경험들을 구현하기 위해 기술의 한계를 넓혀나가고 있다. 인텔에 대한 보다 자세한 정보는 newsroom.intel.com 혹은 intel.com에서 확인 가능하다.

인텔에 대하여

반도체 업계의 선두주자인 인텔(NASDAQ: INTC)은 전 세계 혁신의 바탕이 되는 컴퓨팅 및 통신기술로 데이터 중심의 미래를 만들어가고 있다. 엔지니어링 분야에 있어 인텔의 전문성은 전 세계가 직면한 가장 큰 문제들을 해결하는데 기여할 뿐 아니라 클라우드와 네트워크, 엣지까지 스마트 커넥티드 월드를 구성하는 모든 인프라와 수십억개의 디바이스를 작동시키고 연결하는데 앞장서고 있다. 인텔에 대한 보다 자세한 정보는 newsroom.intel.com and intel.com 에서 확인 가능하다.

인텔 및 인텔 로고는 미국 및 다른 국가에서 인텔의 상표로 등록돼 있다.

*기타 이름과 상표는 해당 기업의 자산입니다.