[제 1중 과제] 1-3 가설자동생성을 위한 텍스트 마이닝 파이프라인 시스템 기술 개발
  • 작성자송 민
  • 등록일2020.09.01
  • 조회수463

1-3 가설자동생성을 위한 텍스트마이닝 파이프라인 시스템 기술 개발


연구과제명 : 가상인체 및 세포모델링 기술개발 (1중과제 1세부)

연구책임자/주관기관 : 이도헌 ((재)유전자동의보감사업단)


기술개요

  • 대량의 바이오 문헌데이터로부터 가상인체와 소재/효능 관련 생물 정보를 발굴하는 텍스트 마이닝 파이프라인 시스템 개발
    -가상인체 및 소재/효능 관련 개체명 인식 및 개체관계 추출 모델 성능 향상
    - 그래프모델 기반 가설생성 연구 및 웹 온톨로지 서비스 프레임 구축

 

1. 가상인체 및 소재/효능 관련 개체 명 인식 및 개체관계 추출 모델 성능 향상


    • Named Entity Recognition
- 분석대상 문헌과 사전등재 단어 간 비대응 문제 해결
- 사전 업데이트 및 재구성
- GENE 개체 세부분류 모델 구축
- 소재/효능 개체관계 분석을 위하여 피토케미컬과 표현형의 개체명을 인식하는 딥러닝 모델 구축
    • Predicate Classification
- 규칙 기반 기법에 더해 딥 러닝 기법을 적용하여 개체관계 추출 모델의 성능을 개선하고자 함
- SemMed에 있는 predicate type과 sentence(약 40만 건)를 training data로 하고 LSTM 알고리즘을 통해 학습
- GENE 개체 세부분류 모델 구축
- 소재/효능 개체관계 분석을 위하여 피토케미컬과 표현형의 개체명을 인식하는 딥러닝 모델 구축
    • Semantic Relation Classification
- 2차년도에 구축한 Doc2Vec+CNN 모델 대신BioBERT, SciBERT, SpERT 등 biomedical 도메인의 자료들로 pretrain된 embedding을 fine-tuning하여 활용함으로써, 관계타입의 분류 정확도를 향상하고자 함
- 모델 구축과 성능 향상을 위한 학습 및 시험 데이터로 본 연구팀에서 장기간 구축한 코퍼스를 활용
- 2차년도에서 구축된 소재/효능 개체관계 추출 모델의 분석 범위를 질병/증상에서 표현형으로 확대하며, 모델의 신뢰도 및 추출된 데이터의 정확도를 향상
- 소재/효능 개체관계 분석을 위하여 피토케미컬과 표현형의 개체명을 인식하는 딥러닝 모델 구축

2. 그래프모델 기반 가설 생성 연구 및 웹 온톨로지 서비스 프레임 구축


    • TextAE 기반 Visualization Tool 제공

- PubMed 초록 문헌들을 대상으로 NER과 RE를 수행한 결과를 웹상에 시각화
- Gene(DNA/RNA/Protein), Compound, Phenotype, Biological Process, Molecular Function 등 5가지 기본 개체 타입 뿐만 아니라, Anatomy Context와 Association Context까지 모두 반영
검색어로 PMID와 Keyword 사용 가능
- Lucene을 활용할 경우 abstract 또는 title 상의
- match되는 부분에 highlight를 줄 수 있음

기술의 우수성/혁신성

  • 방대한 양의 비정형화 데이터에서 멀티 타입 바이오 개체 관계를 추출할 수 있는 시스템
  • 사전, 기계학습, 온톨로지(UMLS)를 혼합함으로써 개체 추출의 정확도 및 시스템의 유연성이 개선된 개체명 인식 기법
  • 추출 개체 간 의미론적 연관성을 추적하기 위해 다양한 Semantic relatedness 알고리즘을 적용
  • 풍부한 생물학적 관계 추론을 위해 본 연구팀에서 자체 개발한 문장 구조 기반의 관계 추출 시스템

기술활용분야 (사업화/기술이전을 통한 제품화)

  • 지속 가능한 사용성 확보를 위해 개발된 텍스트 마이닝 시스템을 사업단 CODA를 위한 버전(CODA)과 일반 대중을 위한 버전(MELKE)으로 분리하여 개발 및 COCONUT 데이터베이스를 위한 텍스트 마이닝 모델 공개 (Docker를 활용한 범용성 증대와 프로그램 수행 속도 개선)
  • 생물 정보 추출 대상을 학술문헌에서 임상 데이터로까지 확대하여, 신약 개발을 위한 정교한 가설을 제시
  • Clinicaltrials.gov에서 제공하는 임상시험 관련 문헌들을 대상으로도 위와 같은 생물 정보 추출 및 시각화가 가능하게 하여, 본 tool이 이용될 수 있는 폭을 넓히고자 함
  • 일방향적인 visualization을 넘어 틀린 곳이 발견되면 누구나 이를 수정할 수 있도록 하고, 그 수정된 정보가 바로 DB에 반영될 수 있도록 설계

주요연구 성과 (관련 논문, 특허 등)

 

  • [특허 출원] 딥러닝을 이용한 화합물의 장내 흡수도 예측 장치 및 예측 방법 (1020160073979)
  • [특허 등록] 천연물 효능 분석을 위한 네트워크 분석방법 (1017418000000)
  • [특허 출원] 기계 학습 기반 랭킹 모델을 활용한 개체간 관계 예측 방법 (1020190174728)