해결 과제

이처럼 데이터는 건강 수준을 향상시키고 질환 치료의 새로운 돌파구를 만들어 내는 데 활용되고 있습니다. 하지만 지금까지 천문학적으로 투자된 금액과 빅데이터 활용 기술이 약속한 이상에 비해 실제 성과는 그에 못 미치는 것도 사실입니다. 이에 대한 주요 이유는 1. 신뢰할 수 있고 2. 장기적으로 수집되고 3. 상호 연결된 데이터가 충분하지 않다는 것입니다.(참고)

즉, AI나 빅데이터 기술보다도 그 밑바탕이 되는 데이터의 질과 양적인 문제를 해결하는 것이 의료 혁신의 핵심입니다. 이번 장에서는 충분한 크기의, 질 높은 의료 데이터 확보를 위해 해결해야 하는 과제에는 무엇이 있는지 알아보겠습니다.

1. 데이터 보호와 활용의 적절한 균형

유형 1. 익명화로 인한 데이터 결합과 분석의 어려움

개인의 의료정보는 민감한 개인정보 중 하나로, 전 세계적으로 법에 의해 매우 엄격하게 보호될 수 있도록 규정되는 추세입니다. 가장 흔한 보호 조치는 가명화 및 익명화이고, 이렇게 비식별화 조치가 취해진 데이터는 개인을 식별하는 것이 현실적으로 매우 어렵거나 불가능하여 개인정보 유출이나 남용에 의한 피해를 줄일 수 있게 됩니다. 안전하게 익명화 또는 가명화되었다고 판단된 비식별화된 데이터는 신약 및 새로운 치료법 개발 등을 위한 연구 등 일부 목적에 한해서 자유롭게 활용될 수 있습니다. 이와 같이 주요 국가들은 개인 식별의 위험을 최소화한 상태에서 데이터가 더 가치있게 활용될 수 있는 법률을 제정하고 있습니다.

하지만 이러한 개인정보 보호 조치가 정보의 활용을 통한 가치 창출 측면에서 한계로 작용하는 것은 불가피합니다. 데이터는 서로 결합되었을 때 더 풍부하게 분석될 수 있고 새로운 가치 창출이 용이해집니다. 하지만 가명화된 데이터는 데이터값이 추상화 또는 범주화됩니다. 예를 들면 33세는 30대로, 87kg은 80-90kg나 90kg로 표현되는 식입니다. 이는 실제 수치와 차이가 있기 때문에, 데이터의 활용 목적에 따라 부적합할 수 있습니다. 또한 데이터를 결합하면 개별 데이터세트만으로는 할 수 없었던 일이 가능해지는 경우가 많은데, 데이터 익명화는 데이터 결합을 매우 어렵게 만듭니다.

유형 2. 데이터 생성 장소에 기반한 차등적 보호에 따른 데이터 전송과 활용의 어려움

또한 개인 식별 가능성이 없더라도 병원에서 생성된 데이터이거나 유전 정보라는 이유만으로도 일괄적으로 엄격한 보호 대상이 되어 현실적으로 활용이 매우 어려워지기도 합니다. 단적으로, 2022년 11월 현재 한국에서는 환자의 개인 기기로 집에서 혈당을 측정하면 건강 정보로 분류되어 원하는 대상에 자유롭게 전송하고 활용할 수 있습니다. 하지만 같은 혈당 정보라고 하더라도 병원에서 혈당을 측정하고 EMR에 저장되면 의료법이 적용되는 정보로 분류됩니다. 이 경우, 환자가 요청하더라도 병원이 직접 혈당 측정치 분석 서비스를 제공하는 다른 기관으로 데이터를 전송 하는 것은 불가능합니다. 현재 데이터 전송이 가능한 유일한 방법은 환자가 직접 병원에 방문하여 해당 정보를 반출받고 직접 다른 기관으로 전달하는 것입니다.

이는 개인정보와 의료정보의 ‘자기결정권’ 보장 범위가 다르기 때문입니다. 자기결정권이란 정보 주체의 권리로, 자신의 정보가 누구에게 어느 범위까지 알려지고 어떻게 이용되도록 할 것인지 스스로 결정할 수 있는 권리입니다. 일반적인 개인정보의 경우 이러한 자기결정권이 개인정보보호법과 같은 법률에 의해 보장됩니다. 반면 의료정보는 의료법을 따르고, 의료법에서는 정보 주체의 자기결정권 중 개인정보 이동권(열람권, 구조화된 데이터 포맷 사용, 제3자 전송 요구권)의 일부인 열람권만 보장하고 있습니다.

이러한 불편함은 환자의 데이터를 병원 등의 기관이 관리하고 책임지도록 하는 방식에서 비롯됩니다. 본래의 의도는 개인의 민감한 의료정보를 보호하기 위한 선한 목적이었겠지만, 환자가 주체적인 판단하에 자신의 데이터를 다른 기관으로 전송하거나 취합할 수 없어 양질의 의료 및 건강 서비스를 활용하기 어려워지는 부작용도 낳았습니다. 그 결과, 개별 의료 기관마다 환자의 의료 데이터가 파편화되어 보관만 되는 상황이 지속되고 있습니다. 이러한 상황에서는 환자 개인에게 맞춤화된 정밀 의료 등의 서비스를 제공하는 것이 거의 불가능합니다. 다행히 현재 금융 분야에서 마이데이터 관련 법이 먼저 시행되었고, 이와 같이 개인의 의료정보도 이동권과 온전한 자기결정권을 실현하기 위한 법제화 논의가 활발히 진행되고 있습니다.

2. 적절한 동의 확보 방법과 사후 통제권 제공

앞에서 설명한 바와 같이 현재 환자로부터 별도의 동의를 받지 않고도 활용할 수 있는 데이터는 그 활용 목적이 연구, 통계 작성 등 일부 목적으로만 한정되어 있고, 활용되는 데이터 또한 그 품질이 훼손되는 문제가 있습니다. 이러한 문제 없이 데이터를 최대한 있는 그대로 확보하려면 환자 등 정보 주체로부터 수집하려는 데이터 항목과 활용 목적, 활용 조건에 대해 알리고 동의를 받아야만 합니다.

유형 1. 동의 확보 과정의 문제

이렇게 동의를 얻는 것은 데이터를 활용하려는 기관 입장에서 적법성을 갖추기 위한 최소한의 요건입니다. 그 때문에 기관 입장에서는 최대한 제약 없이 데이터를 활용할 수 있는 조건으로 환자의 동의를 받고자 할 것입니다. 이는 반대로 말하면 정보 주체를 충분히 보호하지 못하는 방식으로 동의를 받게 될 수도 있다는 것입니다. 실제로 EU(판례: 독일소비자단체연합 대 플래닛49 사건)와 한국의 사법 기관(판례: 경품 응모권 1mm 글씨 고지 사건)에서는 미리 선택된 체크박스를 통한 동의와 같은 수동적 동의나 정보 주체가 인식하기 어려운 방식으로 수집하는 동의는 유효한 동의가 아니라고 판단하고 있습니다.

그렇지만 그러한 '불충분한 동의'의 이유가 꼭 기관의 불순한 의도 때문만은 아닐 수 있습니다. 서비스 이용 약관 및 개인정보 보호 정책에 대한 고지 내용이 방대하고 어려운 용어들로 작성되어 대부분의 사람들이 그 내용을 이해하기 어렵다는 점 때문일 수도 있습니다. 또한 개인정보를 철저히 보호하고자 내용을 세분화하여 동의를 받는 형식 자체가 역설적으로 개인에게는 번거롭게 느껴질 수도 있고, 이 때문에 약관 등의 내용이 환자 본인에게 최선인지 확인하는 노력을 들이기보다 무신경하게 동의나 거절을 해버릴 수도 있습니다. 이와 같이 기관이 개인정보를 더 철저히 보호(적어도 법률을 성실히 따르는 차원에서)하려는 의도였다 하더라도 결과적으로는 불충분한 동의가 될 수 있습니다.

한편, 환자 입장에서 데이터가 활용되었을 때 본인에게 어떤 이익이 있는지, 이 과정에서의 잠재적인 위험은 무엇이 있는지에 대한 이해의 정도도 동의 확보에 영향을 주는 요인이 될 수 있습니다. 즉, 데이터 활용으로 인한 개인적 이익이 크다고 기대될수록, 데이터의 리스크에 대한 이해 수준이 높을수록 충분한 동의를 받을 가능성이 커질 것입니다.

유형 2. 동의 후 데이터 통제 권한 제공 필요

미국 보건복지부(HHS)는 2020년 1월 20일 커먼룰(Common Rule)을 개정하면서 충분한 고지를 전제로 한 포괄적 동의를 받으면, 식별 가능하고 연구 목적이 아닌 경우에도 추가 동의 없이 데이터를 이차적으로 활용하는 것을 허용하였습니다. 이는 특별한 위험 요소가 없다면 매번 환자로부터 동의를 받아야 하는 비용과 시간을 절약함으로써 연구의 효율과 데이터의 활용 가치를 높이는 순기능을 이끌어 내기 위함입니다. 또한 데이터를 수집한 이후에야 합리적인 사용 목적을 고민할 수 있는 경우가 많기 때문에 다소 포괄적인 목적으로 동의를 받아 데이터를 수집하는 것이 효율적일 수 있습니다.

하지만 이런 경우 환자에게 모든 데이터 활용 및 공개 이력에 대한 접근성과, 데이터 활용 동의를 철회할 수 있는 권리도 함께 제공하는 것이 중요합니다. 혹은 일단 데이터부터 수집하되, 실제 활용이 이루어지는 시점에 환자가 더 세부적인 내용을 확인하고 활용에 대한 동의를 하거나(Opt-in), 동의를 한 이후에도 언제든지 철회(Opt-out) 할 수 있는 동적 동의(Dynamic-consent) 시스템을 제공하는 방법도 있습니다.

이와 같이 사전에 충분한 동의를 받고 사후에도 데이터를 통제할 수 있는 권한을 보장하는 것은 개인정보를 보호하면서도 데이터 활용으로 가치를 창출할 수 있도록 하는 매우 중요한 요소입니다. 이를 실현할 경우 정보의 투명성과 시스템의 신뢰 측면에서 긍정적인 경험을 제공할 수 있을 것이고, 이는 점차 당연한 기대치로 작용하여 법적 측면을 떠나 기관 입장에서도 환자와 사용자 확보를 위해 필수적으로 고려해야 할 요인으로 작용할 것입니다. 따라서 환자, 데이터를 활용하려는 기관, 환자 대신 데이터를 관리해 주는 기관 모두의 입장에서 충분한 동의 기반의 데이터 관리와 활용을 가능케 하는 솔루션이 필요한 상황입니다.

3. 데이터 공유에 대한 인센티브 부족

주요 국가들은 환자의 데이터 자기결정권 실현을 통해 개인정보 보호와 데이터 활용의 균형을 이루기 위하여 관련 법을 제정하고 있습니다. 그 대표적인 사례가 미국의 21세기 치료법(21st Century Cures Act)입니다. 이 법에서는 의료 기관에 저장된 환자의 의료정보가 상호 호환되도록 하고 환자가 원하는 애플리케이션에서 의료정보에 접근, 교류, 활용할 수 있도록 하고 있습니다. 이를 준수하지 않을 경우 건당 백만 달러 이하의 벌금이 부과됩니다.

하지만 여전히 많은 의료 기관은 전자적으로 읽고 활용하기 어려운 형태로 데이터를 공유하고 있습니다. 그 외 기업이나 연구자에게는 환자에게 동의를 받더라도 데이터를 공유할 수 없도록 법적으로 제한되어 있거나 그러한 법이 적용되지 않는 국가라 할지라도 데이터 보호를 이유로 데이터 제공을 꺼리는 것은 전 세계 공통적인 현상입니다.(참고1, 참고2)

한국의 경우도 보건복지부에서 의료 분야의 마이데이터 법제화와 시범 서비스인 마이헬스웨이를 추진 중인데, 최근 보도된 바(참고)에 따르면 환자의 정보 전송 요구에 대해 의료 기관의 참여를 강제하지 않고 개인과 환자에 대한 서비스 질 향상을 목표로 자발적 참여를 유도하겠다고 말했습니다. 또한 의료 기관 외에 민간 기업은 2024년 이후에 참여가 가능하도록 하여 엄밀한 의미의 데이터 자기결정권 실현과는 아직 거리가 먼 상황입니다.

이처럼 법적인 의무나 처벌에 의해 데이터 자기결정권을 실현하는 것은 한계가 있습니다. 더 이상적인 것은 생태계 내 이해관계자들의 자발적인 동기에 의해서 데이터 자기결정권이 실현되는 것입니다. 하지만 미국 국립 의학 아카데미의 조사 결과에 따르면 의료 기관 경영진들은 데이터 공유에 대한 경제적인 동인은 부족한 반면 데이터를 외부에 공유함으로써 경쟁력을 잃게 되는 것에 대해 우려하고 있다고 응답했습니다. 실제로 데이터 구조화 및 표준화, 품질 관리, 데이터 보관 등 데이터 공유를 위한 조치들은 주로 데이터를 생성하는 의료 기관의 비용과 전문성이 수반되는 일들인 반면 그 이득은 오히려 데이터를 활용하는 기관이 보게 될 가능성이 높습니다. 이와 같은 인센티브 불균형으로 인해 데이터 생성 기관의 자발적인 동참이 쉽지 않은 상황입니다.

데이터 공유를 위해 필요한 조치들
  1. 데이터 구조화 및 표준화

    • 임상 데이터의 경우 비정형 텍스트 형식에 사용하는 용어도 일관되지 않은 경우가 많은데 이를 컴퓨터가 읽고 이해할 수 있도록 구조화하는 작업

    • 데이터 공유를 통해 여러 사람이 협력하기 용이하도록 데이터 종류, 용어, 형식의 표준화를 위한 추가 작업

    • 중복 데이터의 존재 여부 확인 및 결합 가능한 데이터의 발견을 위한 검색 메타 데이터 추가 작업

  2. 품질 관리

    • 여러 질환을 동시에 가진 환자가 보험 청구에 필요한 진단명만 넣은 것, 수기 작성 과정에서 의도치 않게 정보가 누락되거나 잘못된 정보가 입력된 사항들 검수 및 정정

    • 측정 장비의 정확도 문제, 장비 사용의 숙련도에 따라 결과가 일관되지 않은 문제 해결 노력

  3. 데이터 보관

    • 1인당 최대 200GB 정도에 이르는 유전체 데이터 보관 및 관리 (참고)

    • 재분석이 용이하면서도 적은 용량으로 데이터를 보관, 관리, 전송하는 기술

4. 데이터 권리에 대한 이해와 신뢰할 수 있는 기록의 부재

인센티브와 함께 고려해야 하는 점은 데이터에 대한 권리의 공감대 형성입니다. 데이터의 자기결정권이 정보 주체인 환자에게 있어야 한다는 사실에는 큰 이견이 없을 것입니다. 하지만 인센티브와 밀접하게 연관된 개념인 소유권은 그리 단순하지 않습니다. 소유권이라는 개념은 일반적으로 부동산이나 물건 같은 유형물의 재화에만 적용되는 개념입니다. 무형물에 배타적 권리를 부여하는 개념으로는 저작권, 특허와 같은 지적 재산권이 있으나 이 권리는 창작의 노력이 들어가야 인정됩니다. 따라서, 정보나 데이터 그 자체가 아닌 편집의 노력이 들어간 데이터베이스의 경우에만 배타적 권리인 저작권이 인정되고 있습니다.

환자의 의료 데이터가 생성되기까지는 수많은 노력이 필요합니다. 일차적으로 의료 전문가와 의료 기관의 장비를 통해 측정되는 단순 데이터 그 자체뿐만 아니라, 진단명이나 양성·음성 여부와 같이 전문성에 기초한 판단이나 해석에 의해 생성되는 데이터도 많습니다. 또한 데이터가 공유되어 의미 있게 활용되려면 앞에서 언급한 조치들을 취해야 합니다. 경우에 따라서는 서로 다른 데이터를 결합하는 노력도 추가로 필요합니다. 이 모든 과정을 통해 만들어진 데이터세트는 적지 않은 비용과 의료 전문가의 상당한 전문성을 통해 편집된 결과라고 할 수 있습니다.

또한 의료 데이터는 의료보험 제도나 공공 재원이 투입되어 만들어진 의료 시스템에 의해 뒷받침되어 공공성을 지니고 있다는 점도 간과할 수 없습니다. 따라서 특정 주체에게 배타적인 수익권과 사용권을 보장하는 것보다는, 비경합성, 즉 한 주체가 소비한다고 해서 다른 주체가 소비할 기회가 줄어들지 않는 특성을 보장하는 것이 정보 주체 당사자뿐만 아니라 공공에 더 이익이 되고 데이터를 더 활발하게 활용할 수 있을 것입니다.

이러한 소유권, 데이터 공유와 활용에 대한 이력들이 신뢰할 수 있는 방식으로 기록되고, 이 기록에 모든 이해관계자가 자유롭게 접근하고 활용할 수 있는 방법이 아직은 부재한 상황입니다.

Last updated