헬스케어 데이터의 종류
헬스케어 데이터의 정의와 분류 기준은 다양합니다. 이번 장에서는 본 백서에서 사용될 헬스케어 데이터의 분류 방법과 그 개념을 소개하겠습니다.
개인의 식별가능성에 따른 분류
미국을 비롯한 대부분 주요 국가는 개인의 식별가능성을 데이터 분류의 중요한 기준으로 포함하고 있습니다. 특히 의료 데이터의 식별가능성은 개인 정보 침해의 위험이 있기에 이를 방지하는 것도 중요하지만, 가치 있는 다양한 데이터를 결합해 환자와 개인의 건강을 개선하는 새로운 혁신을 이끌어 내는 데 활용되기도 합니다. 따라서 개인정보 보호와 활용 사이에서 적정선을 유지할 수 있는 섬세한 접근이 필요합니다. 이러한 접근 방식을 따르고 있는 가장 대표적인 법은 미국의 HIPPA/HITECH법입니다. 이 두 법은 의료정보(Health Information)의 보호와 활용에 관한 기초적인 원칙을 제시하며 의료정보를 아래 3가지로 분류하고 있습니다. 이 분류에 포함되지 않는 의료정보도 기본적으로는 개인정보 보호 관련 일반법을 따릅니다.
보호의료정보(PHI)
O
O
IRB 심사 후 가능
비식별의료정보(DHI)
X
X
자유롭게 가능
한정데이터세트(LDS)
X (다소 완화된 조건 적용)
X (연구 등 목적으로는 면제)
재식별 금지 합의서 제출 및 IRB 심사 후 가능
보호의료정보(Protected health information, PHI)
보호의료정보는 HIPPA가 적용되는 의료 기관, 지불 기관, 의료 관련 기관에서 생성, 수집, 전송, 보관되는 개인의 (1) 과거, 현재, 미래의 물리적, 정신적 건강 상태, (2) 건강보험 정보, (3) 의료비 지출 상황 등에 대한 정보로서 개인이 식별되는 의료정보(individually identifiable health information)라고 정의됩니다.
보호의료정보는 공익 등 일부 예외적인 경우를 제외하면 치료 외 목적으로는 환자의 동의를 받아야만 활용, 정정, 반출할 수 있도록 규정되어 있습니다. 연구 기관 등은 연구 목적으로 기관생명윤리위원회(Institutional review board, IRB)를 거쳐 보호의료정보를 활용할 수 있습니다.
비식별의료정보(De-identified health information, DHI)
비식별의료정보는 1) 세이프하버(Safe harbor) 방식과 2) 전문가 판단 방식 두 가지에 의해 인정됩니다. 세이프하버 방식은 아래 18가지 유형의 식별자를 제거하는 방식을 말합니다. 전문가 판단 방식의 주체는 식별가능성 또는 식별방법에 관하여 통계, 과학 분야의 적절한 지식과 전문성을 갖춘 사람입니다. 해당 정보가 다른 정보와 결합하더라도 개인을 식별할 수 있는 리스크가 매우 적다고 판단하고, 그 이유와 결과를 문서로 기록해야만 인정됩니다.
HIPAA에서 규정한 기관들은 비식별의료정보를 자유롭게 사용하거나 공개할 수 있도록 규정되어 있습니다. 만약 이러한 조치에도 불구하고 식별가능한 것으로 판단될 경우, 보호의료정보(PHI)로 간주됩니다.
식별자 유형 이름, 주소, 개인에 대한 날짜(생년월일, 보험 가입일, 보험 해지일, 사망일 등), 전화번호, 자동차 등록 번호, 팩스 번호, 기기 시리얼 번호 및 식별 정보, 이메일 주소, 온라인 접속 주소(URLs), 사회 보장 번호(SSN), 인터넷 접속(IP) 주소, 의료 기록 숫자, 생물학적 지문 또는 성문), 건강보험 정보, 개인 식별 가능성이 있는 사진, 계좌 정보, 재식별가능 정보로 제안된 정보, 인증/자격 정보, 그 밖에 인지 가능성이 있는 정보
한정데이터세트(Limited data sets, LDS)
한정데이터세트는 세이프하버 방식을 따른 비식별의료정보(DHI)처럼 의료정보에서 식별자를 제거한 정보라는 점에서는 유사하나, 좀 더 완화된 기준이 적용되어 일부 날짜 정보(생년월일, 입원일, 퇴원일 등) 및 우편번호, 거주지(주, 시)정도의 정보를 포함할 수 있습니다.
대신 연구자 등 정보 이용자에게 데이터 남용을 방지하고자 하는 내용을 담은 데이터 재식별 금지 합의서를 제출하게 하고, 특정 목적(연구, 공중 보건, 의료 서비스 제공)으로 정보를 활용하는 경우 환자의 동의가 없어도 IRB를 거친 뒤에 활용할 수 있다고 규정하고 있습니다. 즉, 정보 이용자에게 재식별 책임을 부과하고 그 대신 정보의 가치 있는 활용을 좀 더 용이하게 한 유형입니다.
데이터 내용에 따른 분류
개인의 식별가능성 외에도 데이터를 분류하는 기준은 구조화 가능 여부, 생성 주체 및 방식, 활용 목적, 대상물의 종류 등 다양합니다. 하지만 본 백서에서는 엄밀하게 구분되는 분류 기준을 적용하거나 모든 유형을 상세히 설명하는 것보다는 활용 가치 측면에서 중요한 의미를 가지는 대표적인 유형들을 선별하여 소개하고, 각각의 데이터가 활용되는 방식에 대한 이해를 돕는 것 무게 중심을 두고자 합니다.
임상 데이터 (Clinical data)
가장 대표적인 헬스케어 데이터로, 병원 등 의료 기관이 진단, 투약, 검사, 수술 등을 진행하면서 생성되는 환자 정보를 포함하는 유형입니다. 따라서 구조화된 검사 수치 데이터부터 자연어로 작성된 의무 기록, 의료 영상 및 이미지(X-ray, CT, MRI, 초음파, 내시경 등)까지 매우 다양한 세부 항목이 존재합니다.
이러한 정보를 전자적으로 저장하면 EMR(Electronic Medical Record)이라 하고, 나아가 여러 곳에 저장되어 있는 한 개인의 의료 정보 총체를 EHR(Electronic Health Record)이라 합니다. 임상 데이터는 대부분 생성 시점에는 보호의료정보(PHI)에 해당하며 법에 의해 의료 기관이 안전하게 보관할 의무와 책임을 가지고 환자 외에 다른 기관이 이 데이터에 접근하고 활용하는 것은 엄격히 금지되고 있습니다.
임상 데이터에서 파생되는 데이터로는 의료 기관에서 보험 기관에 비용 청구를 할 때 제출하는 정보를 기반으로 한 청구 데이터가 있습니다. 여기에는 환자의 개인 정보, 진단명, 투약 정보, 검사 정보 등이 포함됩니다. 한국의 경우 단일 보험 체제를 채택하고 있어, 건강보험심사평가원과 국민건강보험공단은 전국민의 데이터를 기반으로 공공 데이터를 구축하여 공개하고 있습니다(보건의료빅데이터 개방시스템, 국민건강보험자료 공유 서비스 등). 한국의 제약사 HK이노엔은 이를 활용하여 위·식도 역류 질환 신약 케이캡을 개발하기도 했습니다(참고).
오믹스 데이터 (Omics data)
유전체(genome), 전사체(transcriptome), 단백질체(proteome), 대사체(metabolome), 마이크로바이옴(microbiome) 등 생체 물질을 포괄하는 총체적인 개념의 데이터 세트를 말합니다. 이 생체 물질은 개인마다 고유의 특성을 가지고 있어, 이에 대한 데이터를 대규모로 축적하고 분석할 경우 개인 맞춤형 의료가 가능해질 것으로 기대되고 있습니다.
유전체 데이터는 가장 대표적인 오믹스 데이터로, 마치 암호문처럼 알파벳 A,T,G,C를 조합하여 개인의 특성을 결정짓는 DNA에 기록된 유전 정보를 염기서열로 표현한 데이터를 말합니다. 실제로 유전체 데이터를 분석하는 것은 마치 암호문을 해독하는 것과도 같은데, 특정 자리의 단일 혹은 복수의 염기가 무엇인지에 따라 개인간에 어떠한 차이를 만드는지 등을 분석해 내는 것이 주된 과제입니다. 특히 희귀질환의 원인은 약 80% 이상이 유전자 변이이기 때문에 발병의 원인이 되는 유전자를 알아내기 위한 암호 해독이 중요합니다.
최근에는 머신러닝과 빅데이터 분석 기술의 발전으로, 유전체 및 다양한 생체물질 데이터를 임상 데이터와 함께 활용하여 복합적으로 분석할 수 있게 되었습니다. 이를 통해 질환을 조기에 진단하고, 치료 반응 예측과 측정에 사용되는 표지자(바이오마커)를 발견하는 데 활용되고 있습니다.
사람 유래 건강 데이터 (Person-generated health data, PGHD)
외부 기관에 의존하지 않고 환자 또는 개인이 소지한 웨어러블 디바이스, 휴대폰 등의 다양한 센서로부터 생성되는 데이터 또는 소셜 서비스 등에 스스로 올린 포스팅이나 설문 등을 포함하는 데이터를 말합니다. 이러한 데이터들은 병원에 방문하지 않고도 일상생활에서 상시로 수집될 수 있다는 특징이 있습니다.
사람 유래 건강 데이터는 질환과 다소 무관해 보일 수 있지만 임상 데이터 및 다른 데이터와 결합하면 질환과 관련된 새로운 발견이 이루어질 가능성이 있습니다. 실제로 최근 신약 임상시험에서도 실제임상자료(Real-world data, RWD)로써 PGHD를 적극 활용하는 시도(참고)들이 계속되는 추세입니다.
건강의 사회적 결정 요인(Social Determinants of Health, SDOH)
건강의 사회적 결정 요인은 인구 통계 정보, 사회·정치적 요건, 기후·환경 등 태생적으로 결정되는 사회·경제적인 외부 요인 중 건강에 영향을 미치는 데이터를 말합니다.
SDOH 데이터를 실제로 활용하는 사례로는 Gravity Project가 있습니다. 이 프로젝트에서는 사회·경제적 요인(교육, 직업, 가정, 소득, 사회 안전), 물리적 환경, 건강(흡연, 식습관, 알코올, 성생활), 보건의료(의료 기관 접근성)를 주요 요인으로 규정하고 건강에 미치는 영향을 분석하는 것을 목표로 하고 있습니다.
연구 데이터 (Research data)
의약학 및 생명과학 관련 실험실이나 제약사 및 병원에서 신약 등의 새로운 치료법을 개발할 때 생성되는 데이터에 해당합니다. 대표적으로 임상시험 및 연구 결과로 나오는 데이터가 있습니다. 이미 생성되어 있는 임상 데이터나 오믹스 데이터 등도 연구 목적으로 재활용하거나 수집되는 경우 연구 데이터라고 할 수 있습니다.
연구 데이터는 연구 진행에 필요한 참가자를 충분히 확보하기 위해 다양한 기관과 협력하는 것이 필수적입니다. 서로 다른 언어를 사용하는 사람들 사이의 의사소통이 쉽지 않듯, 서로 다른 기관이 동일한 데이터에 대해서 명칭이나 단위 등을 다르게 사용한다면 연구 과정에서 소통과 협력이 어려울 것입니다. 따라서 연구 데이터는 대체로 잘 구조화되어 있고 공동으로 연구를 수행하는 기관 간에는 통일된 규칙하에 수집됩니다. 서로 다른 병원 내의 데이터들을 대상으로 한 통합적 분석이나 다양한 연구를 통해 축적된 환자 데이터의 통합적 분석을 위해 공통 데이터 모델(Common data model, CDM)과 같은 표준화 노력도 지속되고 있습니다.
연구 데이터는 대체로 과학적으로 엄밀하고 체계적으로 수집될 수 있도록 설계되고 학계와 심사 기관에 의해 검증됩니다. 또한 연구를 실시하기 전에 데이터 수집 대상과 수집 방법의 적법성, 적합성을 IRB 등 심의위원회에 의해 심사받기에 데이터의 품질이 높다는 점이 특징입니다.
기타 데이터
그 밖에도 개인의 결제 정보와 같이 그 자체로는 건강과 큰 관련은 없지만, 다른 헬스케어 데이터와 결합되어 분석되었을 때 유의미하게 활용될 수 있는 데이터가 있습니다. 예를 들어 개인의 정기적인 피트니스 센터 결제 내역이 있다고 할 때, 결제 정보는 그 자체로만 보면 건강과 관련이 없어 보일 수 있습니다. 하지만 어떤 건강 관련 수치가 개선되거나 악화될 경우, 이를 결제 정보와 연관시켜 분석함으로써 개인의 건강 지표의 변화를 예측해 볼 수 있습니다.
이와 같이 데이터는 다른 종류의 데이터와 결합되었을 때 더 가치가 높아질 수 있습니다. 따라서 어떤 데이터를 일반적으로 알려진 헬스케어 데이터와 결합되었을 때 가치 있게 활용할 수 있을지 알아내는 것이 앞으로의 중요한 과제일 것입니다.
Last updated