본문 바로가기
IT

의사의 AI 보조가 처방약을 바꿨다: 의료 AI 감사가 드러낸 불편한 진실

by 안드뽀개기 2026. 5. 16.
반응형

캐나다 온타리오주 감사원이 최근 공개한 보고서 하나가 의료 AI 업계에 찬물을 끼얹었다. 의사들이 실제 진료 현장에서 사용 중인 AI 의료 기록 시스템 20개를 평가한 결과, 절반 이상이 처방약을 잘못 기재하고, 아예 존재하지 않는 증상을 진료 기록에 삽입했다. 이건 단순한 소프트웨어 버그가 아니다. 환자 안전과 직결된 오류다.

A cinematic close-up of a hospital digital tablet displaying corrupted medical records with glowing red error symbols, sterile white medical environment with dramatic shadows, realistic photography, 8k resolution, depicting the fragility of AI-generated clinical notes


숫자로 본 참사: 20개 중 몇 개나 제대로 작동했나

온타리오주 감사원(Office of the Auditor General of Ontario)은 의료 전문가를 위한 AI 스크라이브(AI Scribe) 프로그램에 승인된 20개 벤더 시스템을 평가했다. 방법은 단순하지만 엄정했다. 실제 의사-환자 대화를 시뮬레이션한 녹음을 AI에 입력하고, 의료 전문가가 원본 녹음과 AI 생성 기록을 나란히 검토했다.

결과는 충격적이었다. 20개 시스템 중 9개가 녹음에서 전혀 언급되지 않은 내용을 진료 기록에 삽입하거나, 치료 계획에 대한 허위 제안을 추가했다. 12개 시스템은 처방약 정보를 잘못 기재했다. 이는 60%에 해당하는 수치다. 17개 시스템은 녹음에서 명확히 논의된 환자의 정신건강 관련 세부 정보를 누락했으며, 6개는 정신건강 문제 자체를 완전히 또는 부분적으로 빠뜨렸다.

환자 기록에 "종양 없음" 또는 "환자가 불안감을 호소함"이라는 문구가 기재됐는데, 실제 대화에서는 그런 내용이 전혀 없었다고 보고서는 명시했다. 의사가 AI 기록을 그대로 신뢰했다면 어떤 일이 벌어졌을지, 굳이 상상하지 않아도 된다.

A split-screen digital artwork showing a doctor's voice being recorded on the left, transforming into distorted, glitched text on a medical record screen on the right, cyberpunk style with clinical blue and error-red color palette, symbolizing the gap between spoken truth and AI-generated output


더 큰 문제: 정확도가 평가 점수의 4%에 불과했다

AI 시스템이 실수를 한다는 사실 자체는 새롭지 않다. 소비자용 AI가 잘못된 의료 정보를 제공한다는 연구 결과는 이미 다수 존재한다. 한 연구에서는 대형 언어 모델이 감별 진단에서 약 80%의 실패율을 보이기도 했다. 하지만 이번 사례는 일반인이 아닌 의료 전문가를 위해 설계되고 공식 승인된 시스템들이다. 그렇다면 왜 이렇게 엉망인가.

답은 평가 체계 자체에 있다. 보고서에 따르면 AI 스크라이브 시스템의 총 평가 점수 중 온타리오주 내 국내 거점 보유 여부가 30%를 차지했다. 반면 의료 기록의 정확도는 단 4%에 불과했다. 편향 통제는 2%, 보안·프라이버시 위험 평가도 2%, SOC 2 Type 2 컴플라이언스는 4%였다.

바꿔 말하면, 시스템이 환자 기록을 얼마나 정확하게 작성하는가보다 회사가 캐나다에 사무소를 두고 있는지가 6배 이상 중요하게 평가됐다는 뜻이다. 조달 프로세스의 우선순위가 완전히 뒤집혀 있었던 것이다.

A minimalist 3D render of a massive weighing scale, one side holding a tiny medical cross symbol labeled "accuracy", the other side stacked with oversized office building icons labeled "domestic presence", stark white background with deep shadow, symbolizing misaligned evaluation priorities


의료 AI 규제의 구조적 취약점

이번 사건은 온타리오주만의 문제가 아니다. AI를 의료 현장에 도입하는 모든 국가와 지역이 직면한 구조적 딜레마를 드러낸다. 조달 기관은 기술을 평가할 전문성이 부족하고, 벤더는 정확도보다 규정 준수 항목을 충족하는 쪽이 계약에 유리하다는 사실을 잘 알고 있다.

OntarioMD는 의사들에게 AI가 생성한 기록을 직접 검토할 것을 권고하고 있지만, 실제로 어떤 AI 스크라이브 승인 시스템에도 검토 완료를 강제하는 의무 확인(attestation) 기능은 없다. 즉 의사가 바쁜 진료 환경에서 AI 기록을 그대로 저장하는 것을 막을 장치가 사실상 없다는 뜻이다.

한국의 상황을 보면, 식품의약품안전처(식약처)가 AI 의료기기 허가 체계를 갖추고 있으나, AI 스크라이브처럼 진단 보조가 아닌 기록 생성 영역은 규제 사각지대에 놓이는 경향이 있다. 국내 EMR(전자의무기록) 시스템과 연동되는 AI 기록 솔루션이 이미 시장에 등장하고 있는 만큼, 온타리오 사례는 남의 이야기가 아니다.

A realistic photography of a doctor sitting alone in a dim consultation room, staring skeptically at a glowing tablet screen showing AI-generated text with subtle red warning indicators in the corners, moody cinematic lighting, conveying doubt and responsibility


지금 당장 주목해야 할 신호

온타리오 감사원 보고서는 권고안을 함께 제시했다. 핵심은 평가 기준의 재설계, 의무 검토 기능 도입, 그리고 승인된 벤더에 대한 지속적 모니터링이다. 이 권고안이 실제 정책으로 전환되는지 여부가 첫 번째 추적 지점이다.

두 번째는 의료 AI에 대한 규제 강화 움직임이 국제적으로 가속화되는지 여부다. 미국 FDA의 AI 의료기기 규제 프레임워크 업데이트, 유럽 AI Act의 고위험 AI 분류 기준 적용 시점이 주요 변수다. 특히 AI Act는 의료 기록 시스템을 고위험 범주로 분류하고 있으며, 2026년 하반기부터 관련 의무 조항이 순차 발효된다.

세 번째는 환자 안전 사고 데이터다. AI가 생성한 오류 기록으로 인한 의료 사고 보고가 늘어날수록 규제 당국의 압박은 거세질 것이다. 반대로 사고 데이터가 공개되지 않는다면, 규제 공백 속에서 부정확한 시스템이 계속 사용될 가능성이 크다. 임상 오류 보고 데이터베이스와 각국 의료기기 이상 사례 보고 시스템을 주시할 필요가 있다.

A dramatic wide-angle shot of a futuristic medical data center, glowing server racks casting blue light on the floor, a large holographic warning sign reading "ERROR" hovering in the center, cyberpunk style, representing the systemic risk of unvalidated AI in critical healthcare infrastructure


AI는 의료 현장의 행정 부담을 줄일 잠재력이 있다. 하지만 이번 감사 결과는 그 잠재력이 실현되기 위한 전제 조건이 충족되지 않았음을 보여준다. 정확도가 평가의 4%인 시스템이 환자 기록을 작성하는 현실은, 기술의 문제이기 이전에 시스템 설계와 조달 철학의 문제다.

태그: 의료AI, AI스크라이브, 온타리오감사원, AI할루시네이션, 의료기록정확도

※ 본 글은 정보 제공 목적이며 특정 제품·서비스의 추천이 아닙니다.

반응형