베이스캠프 리서치, 트릴리언 진 아틀라스 출범으로 AI 설계 치료제 확대 나서

[ 경기뉴스매거진 ] • 아틀라스(Atlas)가 전 세계 현장 수천 곳에서 1억이 넘는 새 종의 신규 유전체 데이터를 수집해 알려진 진화 유전 다양성을 100배 늘리기에 나섰다.
• 베이스캠프 리서치(Basecamp Research)는 앤트로픽(Anthropic), 얼티마 지노믹스(Ultima Genomics), 팩바이오(PacBio)와 협력하고 엔비디아(NVIDIA) AI 인프라를 활용하여 20년이 넘는 생물학 데이터의 수집과 분석을 2년이 채 안 되는 기간으로 압축하는 것을 목표로 하고 있다.
• EDEN 모델 학습 과정에서 새로운 스케일링 법칙이 드러났다. 즉 생물학 데이터세트가 더 크고 풍부해 질수록 AI 역량이 비약적으로 향상되며, 이를 통해 질환과 치료 유형 전반에 걸쳐 새로운 의약품을 설계할 수 있는 시스템으로 가는 길이 열린다는 것이다.

 

텍사스 오스틴, 캘리포니아 새너제이, 2026년 3월 19일 -- 생물학적 설계 전문 프런티어 AI 연구소 베이스캠프 리서치가 1조 유전자 규모로 생물학 데이터를 생성하고 모델링할 수 있는 획기적 과학 이니셔티브 트릴리언 진 아틀라스(Trillion Gene Atlas)를 출범한다고 3월 18일 발표했다. 앤트로픽, 얼티마 지노믹스, 팩바이오가 함께 하고 엔비디아 AI 인프라를 활용하는 트릴리언 진 아틀라스는 전 세계 현장 수천 곳에서 1억이 넘는 새 종의 유전체 데이터를 수집해 알려진 진화 유전 다양성을 100배 확대하는 것을 목표로 하고 있다.

 

이것이 가능한 이유는 베이스캠프 리서치의 확대되고 있는 글로벌 생물다양성 파트너 네트워크 덕분이다. 궁극적인 목표는 AI 시스템이 진화로부터 학습해 요청 시 신종 의약품 설계에 필요한 학습 데이터를 방대하고 다양하게 제공하는 데 있다.

 

오스틴에서 열린 SXSW에서 글렌 가워스(Glen Gowers) 베이스캠프 리서치 공동창립자 겸 CEO는 "요즘 생물학 AI 모델은 지구 생명체 중에서도 극히 일부만 학습하고 있다"며 "트릴리언 진 아틀라스는 알려진 유전적 세계를 공개 데이터베이스를 훨씬 넘어서는 규모까지 확장한다. 이 규모에서 모델을 학습시키는 것은 프로그래머블 치료제 설계를 위한 새로운 패러다임을 확립하는 일"이라고 말했다.

 

이번 이니셔티브는 인간게놈프로젝트(Human Genome Project)에 필적하는 규모로 오스틴에서 열린 SXSW 헬스 트랙과 새너제이에서 열린 엔비디아 GTC 콘퍼런스에서 공개됐다.

 

생물학 데이터 병목 현상 해결

 

모델 규모와 컴퓨팅 파워가 급격히 증가함에 따라 AI 기반 신약 개발과 실제 환경 벤치마크에서 진전을 이루는 핵심 요소로 다양한 데이터가 급부상했다. 현재 서열 기반 파운데이션 모델은 모두 동일한 공공 데이터 저장소의 변형에 의존하고 있으며, 이들 중 80%는 포함된 서열이 2억 5000만 개 미만인 공공 데이터베이스 하나를 기반으로 학습됐다.

 

베이스캠프 리서치가 올해 1월 공개한 EDEN 파운데이션 모델은 전적으로 자사의 독점 유전체 데이터베이스인 BaseData™로 학습해 업계의 진화적 '데이터 장벽'을 돌파했다. 현재 BaseData™는 공공 자원을 전체를 합한 것보다 10배가 넘는 큰 규모를 자랑한다. EDEN은 새롭게 발견된 100만 종에서 확보된, 과학적으로 전례 없는 신규 유전자 100억 개를 학습해 생물학 AI 분야에서 중요한 스케일링 법칙을 새로 밝혀냈다.

 

이처럼 데이터셋 다양성이 대폭 확장되면서 EDEN은 단순 예측을 넘어, 질병 프롬프트만으로 다양한 치료제를 직접 설계할 수 있는 최초의 모델로 발전했다. EDEN은 습식 실험 검증에서 인간 또는 임상 데이터 없이도 1차 인간 T세포에서 제로샷 활성을 입증했다. 이 모델은 또 다양한 첨단 모달리티에서 유효 후보(hit)를 생성하는 데 성공했으며, 특히 건강한 유전자를 삽입하는 AI 프로그래머블 유전자 삽입(aiPGI)을 개척하고, 우선순위 병원체에 대해 97%의 적중률을 보이는 표적 항균 펩타이드를 설계하는 성과를 거뒀다.

 

트릴리언 진 아틀라스는 이 방식을 기반으로 AI 학습에 적합한 '생물학 인터넷' 내 유전체 데이터의 범위와 맥락적 깊이를 대폭 확장하는 것을 목표로 하고 있다.

 

필 로렌츠(Phil Lorenz) 베이스캠프 리서치 CTO는 "더 큰 모델만으로는 충분하지 않다"며 "EDEN은 더 높은 품질과 완전히 맥락화된 데이터를 활용할 때 생물학 AI 성능이 훨씬 가파른 스케일링 경로를 따른다는 사실을 보여줬다. 트릴리언 진 아틀라스는 이 원칙을 100배 확장하는 것"이라고 말했다.

 

글로벌 생물다양성 파트너십

 

베이스캠프 리서치는 지난 6년간 31개국을 망라한 과학 협력 네트워크를 구축하며, AI 학습을 위해 특별히 설계된 확장 가능한 진화 유전체 파이프라인을 마련했다. 새로운 규제 및 경제 프레임워크와 완전 오프그리드(off-grid) DNA 시퀀싱 기술의 결합을 선도해 기존 실험실에서는 접근할 수 없던 생태계에서 고품질 유전체 데이터를 수집하고 있다.

 

이 파트너십은 근간은 지식 교류, 현지 역량 강화, 디지털 염기서열 정보와 관련된 신설 규제에 부합하는 공정한 접근 및 이익 공유(Access and Benefit-Sharing) 협정이다. 이 체제에서는 책임 있는 고품질 유전체 데이터 수집이 대규모로 가능하고 동시에 파트너 지역 내 과학 인프라와 교육에 대한 투자도 촉진된다.

 

베이스캠프는 아틀라스 출범의 일환으로 칠레와 아르헨티나에서 신규 파트너십을 체결하고, 남극에서의 협력을 확대한다고 발표했다. 이를 통해 글로벌 생물다양성 네트워크를 더욱 확장할 계획이다.

 

얼티마 지노믹스, 팩바이오, 엔비디아와 함께 데이터 생성과 컴퓨팅 확장

 

트릴리언 진 아틀라스는 초고처리량 숏리드(short-read) 및 롱리드(long-read) 시퀀싱 기술과 가속 컴퓨팅의 발전 덕분에 가능했. 베이스캠프는 얼티마 지노믹스, 팩바이오와 협력해 데이터가 풍부하고 정확도가 높은 롱리드를 포함한 산업 규모의 시퀀싱을 구현하고 있다.

 

얼티마 지노믹스는 초고처리량 차세대 염기서열 분석(NGS) 시스템 개발 기업이다. 이 회사의 최신 시퀀싱 시스템인 UG200 Series는 독자적인 웨이퍼 기반 시퀀싱 아키텍처를 발전시켜, 산업 규모에서 전체 유전체 및 멀티오믹스 시퀀싱을 고처리량, 저비용으로 수행할 수 있도록 지원하며, 트릴리언 진 아틀라스와 같은 이니셔티브를 뒷받침하고 있다.

 

길라드 알모기(Gilad Almogy) 얼티마 지노믹스 창립자 겸 CEO는 "연구자들이 대규모로 데이터를 생성할 수 있는 도구를 갖추지 못했기 때문에 생물학은 언어나 컴퓨터 비전과 같은 다른 분야에 비해 근본적으로 데이터가 부족한 상태였다"며 "AI가 생물학과 인간 건강에 대한 이해에 막대한 영향을 미칠 것이라고 확신하며, UG200 Series는 처음부터 BioAI가 이러한 가능성을 실현하는 데 필요한 대규모 데이터셋을 지원하도록 설계됐다. 당사의 기술이 베이스캠프의 비전을 실현하고 트릴리언 진 아틀라스와 같은 혁신적인 이니셔티브를 발전시키는 데 기여하게 돼 뿌듯하다"고 말했다.

 

크리스천 헨리(Christian Henry) 팩바이오 사장 겸 CEO는 "팩바이오 HiFi 시퀀싱은 정확한 롱리드로 전체 유전체 맥락을 보존해 주며 복잡한 샘플에서도 해상도가 아종 및 균주 수준으로 높다"며 "HiFi 데이터는 신뢰할 수 있고 풍부해 생물학 AI 모델이 자연으로부터 대규모로 학습하는 데 유용하며 트릴리언 진 아틀라스와 같은 이니셔티브를 뒷받침한다"고 말했다.

 

트릴리언 진 아틀라스는 페타베이스(petabase) 규모로 방대한 유전 데이터를 처리하기 위해 엔비디아의 가속 컴퓨팅 인프라를 이용한다. 베이스캠프는 이 프로젝트의 일환으로 엔비디아 Parabricks를 활용해 메타게놈 조립(metagenomic assembly) 속도를 획기적으로 높일 계획이다. 이번 협력은 고도화된 엔지니어링뿐 아니라 복잡한 환경 샘플을 재구성하는 방식을 최적화하기 위한 새로운 알고리즘 개발에도 초점을 맞추고 있다. 이 같은 가속화 덕분에 과거 20년 이상이 소요됐을 DNA 염기쌍 수천 조 개를 처리하는 작업이 2년 이내에 완료될 것으로 기대를 모으고 있다.

 

파트너들은 병렬 데이터 처리, 자동 주석, 대규모 모델 학습을 통해, 파트너들은 기존에 20년 이상 걸렸을 작업을 2년 미만으로 단축할 수 있을 것으로 보고 있다. 시퀀싱, 조립, 주석, 모델 학습 전 과정을 압축함으로써 치료제 개발 전반에서 생물학 파운데이션 모델의 성능과 적용 범위를 확대하는 것이 목표다.

 

에이전틱 엔드투엔드 치료제 설계 워크플로 구축

 

앤트로픽(Anthropic)이 생명과학 분야에서 대대적인 역량 강화를 목적으로 이번 사업에 참여하는 가운데, 클로드(Claude)를 다양한 과학 플랫폼과 연결하는 작업을 추진하고 있다. 클로드 포 라이프 사이언스(Claude for Life Sciences) 팀과의 협력을 통해 트릴리언 진 아틀라스와 EDEN을 활용, 클로드가 과학자와 임상의에게 더욱 생산적인 연구 파트너가 되도록 하고, 새로 나온 과학적 성과를 대중에게 전달하는 조직들을 지원하는 것이 목표다.

 

이번 이니셔티브는 클로드의 고급 추론 능력, EDEN의 치료제 설계 역량, 그리고 비정형 데이터를 처리하는 엔비디아의 CUDA-X 라이브러리를 결합해 복잡한 임상 데이터를 해석하고 이를 치료제 설계로 직접 연결하는 통합 워크플로를 구축하는 것을 지향하고 있다.

 

트릴리언 진 아틀라스는 대규모 DNA 시퀀싱, 글로벌 데이터 공급 파트너십, 첨단 컴퓨팅이라는 세 가지 축을 기반으로 구축된다. 여기에 복잡한 데이터를 추론할 수 있는 AI 시스템이 결합되면, 방대한 데이터셋을 치료제 발견으로 전환하는 데 기여할 수 있다. 베이스캠프 리서치는 AI가 활용할 수 있는 진화 데이터를 100배 더 확대해 신약 설계를 더 신속하고 체계적으로 수행할 수 있게 하고 유전자 치료 및 항생제 내성균 대응과 같은 분야에서 EDEN이 이룬 기존 성과를 더욱 확장한다는 계획이다.