Tìm hiểu các loại dữ liệu sức khoẻ của “Big data” tại Hàn Quốc

Hàn Quốc tự hào là nước có ngân hàng dữ liệu quốc gia về sức khoẻ của toàn bộ người dân. Hiện nay, Hàn Quốc đã bắt đầu nghiên cứu ứng dụng “Y học chính xác” hay “Y học cá thể” từ kho dữ liệu lớn về sức khoẻ của quốc gia. Tại quốc gia này, dữ liệu sức khoẻ của người dân được chia làm 6 nhóm dữ liệu.

Tìm hiểu các loại dữ liệu sức khoẻ của “Big data” tại Hàn Quốc

Dữ liệu gen và SDOH là đầu vào của tình trạng sức khỏe, dữ liệu lâm sàng và PGHD là đầu ra của tình trạng sức khỏe

Về mặt kỹ thuật, khi nói đến trí tuệ nhân tạo (AI) là phải đề cập đến máy học (ML: Machine Learning) hoặc học sâu (DL: Deep Learning). “Học sâu” được lấy cảm hứng từ các tế bào thần kinh sinh học, là một thể loại chi tiết của các thuật toán máy học. Máy học (bao gồm cả học sâu) đòi hỏi phải có một lượng lớn dữ liệu và các dữ liệu này phải được đào tạo để cải thiện hiệu quả mong muốn. Do đó, để thực hiện một hệ thống trí tuệ nhân tạo trong lĩnh vực chăm sóc sức khỏe, cần phải có một lượng lớn dữ liệu về chăm sóc sức khỏe.

Dữ liệu chăm sóc sức khỏe của một cá nhân có thể được thu thập từ nhiều nguồn khác nhau. Mặc dù có thể phân loại khác nhau, tại Hàn Quốc, dữ liệu chăm sóc sức khỏe thành 6 loại bao gồm dữ liệu lâm sàng, dữ liệu yêu cầu, dữ liệu nghiên cứu, dữ liệu gen, dữ liệu sức khỏe do người bệnh tạo ra và dữ liệu về các yếu tố xã hội ảnh hưởng đến sức khỏe. Dưới đây là tóm lược về các loại dữ liệu từ “Big data” của hệ thống y tế Hàn quốc qua chuyên đề “Status and Direction of Healthcare Data in Korea for Artificial Intelligence” (1/2017)

1) Dữ liệu lâm sàng (Clinical data): dữ liệu được lấy tại điểm chăm sóc của một cơ sở y tế, bệnh viện, phòng khám hoặc nơi thực hành (trong một môi trường lâm sàng). Dữ liệu lâm sàng bao gồm thông tin nhân khẩu học, chẩn đoán, điều trị, thuốc theo toa, kết quả xét nghiệm trong phòng xét nghiệm, dữ liệu theo dõi sinh lý, nhập viện,…Dữ liệu này được coi là loại dữ liệu quan trọng nhất trong chăm sóc sức khỏe, dữ liệu lâm sàng có thể được lưu trữ trong định dạng điện tử hoặc được viết bằng văn bản thuần túy. Các hệ thống thông tin đại diện cho dữ liệu lâm sàng là bệnh án điện tử (EMR), hệ thống ra y lệnh của bác sĩ vi tính hoá (Computerized Physician Order Entry – CPOE), hệ thống lưu trữ và truyền thông hình ảnh (PACS) và hệ thống quản lý thông tin phòng xét nghiệm (LIMS).

2) Dữ liệu thanh toán (Claim data): dữ liệu mô tả thông tin thanh toán theo yêu cầu của bảo hiểm. Dữ liệu thanh toán có thể được truy cập bởi một cơ quan nhà nước (như cơ quan bảo hiểm y tế tại Hàn Quốc) hoặc các công ty bảo hiểm tư nhân. Ưu điểm của dữ liệu thanh toán là nó có thể cung cấp dữ liệu về một số lượng lớn bệnh nhân từ nhiều bệnh viện hoặc phòng khám cũng như dữ liệu theo chiều dọc của một người bằng cách kết hợp các dữ liệu thanh toán.

3) Dữ liệu nghiên cứu (Research data): là dữ liệu liên quan đến sức khỏe từ kết quả thí nghiệm trong các phòng thí nghiệm sinh học, dữ liệu từ các công  nghiên cứu được công bố và dữ liệu thử nghiệm lâm sàng. Dữ liệu nghiên cứu có thể cung cấp thông tin chăm sóc sức khỏe gần đây nhất. Mặc dù các công ty dược phẩm thường là chủ sở hữu dữ liệu chính, vẫn còn có nhiều cơ sở dữ liệu y sinh học công cộng.

4) Dữ liệu gen (Genomic data): loại dữ liệu này có thể được lấy từ nghiên cứu về bộ gen trong các học viện hoặc từ các phòng xét nghiệm di truyền trong các cơ sở y tế và các bệnh viện. Gần đây, Chính phủ Hàn Quốc đã cung cấp bảo hiểm có điều kiện cho bảng gen ung thư dựa trên công nghệ giải trình tự thế hệ tiếp theo (next-generation sequencing - NGS). Do đó, dữ liệu di truyền có thể lấy trong các dữ liệu nghiên cứu sinh học hoặc dữ liệu lâm sàng bao gồm bảng điều trị ung thư và dữ liệu xét nghiệm di truyền. Dựa trên những tiến bộ nhanh chóng trong công nghệ NGS, dữ liệu genomic được xác định là nguồn dữ liệu quan trọng cho y học cá thể (còn gọi là y học chính xác).

5) Dữ liệu sức khỏe do người bệnh tạo (Patient-generated health data - PGHD): là dữ liệu liên quan đến sức khỏe được tạo, ghi lại hoặc thu thập bởi người bệnh. Nói cách khác, PGHD là dữ liệu sức khỏe được thu thập bên ngoài môi trường lâm sàng. Thông thường, PGHD được thu thập bằng thiết bị đeo chăm sóc sức khỏe, thiết bị theo dõi sức khỏe tại nhà hoặc các phương pháp tự báo cáo.

6) Dữ liệu về các yếu tố xã hội ảnh hưởng đến sức khỏe (Social determinant of health - SDOH): bao gồm dữ liệu về các điều kiện mà con người được sinh ra, phát triển, làm việc và sinh sống. Nói cách khác, SDOH là tập hợp các yếu tố rộng hơn định hình các điều kiện của cuộc sống hàng ngày, như: giới tính, tình hình chính trị xã hội, thời tiết hoặc các yếu tố môi trường. Trọng tâm của PGHD là dữ liệu vòng đời do con người tạo ra, trong khi trọng tâm của SDOH là dữ liệu môi trường mà các cá nhân không thể kiểm soát được.

Tóm lại, dữ liệu gen có thể xem là một bản thiết kế của tình trạng sức khỏe. SDOH là các yếu tố quan trọng ảnh hưởng đến tình trạng sức khỏe vì chúng thậm chí có thể thay đổi kế hoạch chi tiết, tức là biểu sinh học. Dữ liệu lâm sàng và PGHD là kết quả theo dõi liên tục của một tình trạng sức khỏe tương ứng. Trong đó, dữ liệu gen và SDOH là đầu vào của tình trạng sức khỏe, dữ liệu lâm sàng và PGHD là đầu ra của tình trạng sức khỏe. Dữ liệu nghiên cứu có thể là cả đầu vào và đầu ra.

Nguồn: SỞ Y TẾ TP.HCM/medinet.gov.vn