ChatGPT là một mô hình trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên tiên tiến của OpenAI. Sử dụng các kỹ thuật Deep Learning, nó tạo ra văn bản (và thậm chí cả hình ảnh/video) giống con người dựa trên một prompt được cung cấp. Mô hình này cung cấp giao diện giống như trò chuyện để đặt câu hỏi và hỗ trợ trong bất kỳ nhiệm vụ viết nào, giải quyết vấn đề, v.v... ChatGPT đã trở nên khá phổ biến nhờ khả năng hiểu ngữ cảnh và phản hồi phù hợp liên quan đến nhiều chủ đề khác nhau.
Rủi ro bảo mật ChatGPT, như tên gọi của nó, đề cập đến tập hợp các biện pháp nhằm giảm thiểu rủi ro liên quan đến ChatGPT cho cả AI và người dùng. Nó không chỉ bao gồm việc bảo vệ dữ liệu huấn luyện của mô hình, mà còn ngăn chặn việc truy cập vào mô hình và đảm bảo tất cả mọi đầu ra đều hợp lệ và có đạo đức. Bảo mật ChatGPT bao gồm quyền riêng tư, bảo vệ dữ liệu và ngăn chặn việc sử dụng công nghệ một cách độc hại hoặc gây hại.
Thông qua bài viết này, các tổ chức sẽ có thể hiểu được bảo mật ChatGPT là gì và tại sao họ cần nó. Sau đó, chúng ta sẽ thảo luận về các loại rủi ro và mối đe dọa bảo mật liên quan đến ChatGPT, đưa ra cái nhìn tổng quan về các vectơ tấn công có thể xảy ra. Chúng ta cũng sẽ thảo luận về cách giảm thiểu những rủi ro này bằng cách cung cấp những giải pháp thực tế cho người dùng và các tổ chức.
Rủi ro và mối đe dọa bảo mật của ChatGPT
ChatGPT, được hàng triệu người dùng sử dụng cho nhiều mục đích khác nhau, có thể dẫn đến nhiều rủi ro và mối đe dọa bảo mật. Các lỗ hổng trong AI, dù thông qua những thao tác tinh vi hay các cuộc tấn công trực tiếp, đều có thể làm suy yếu tính toàn vẹn và độ tin cậy của những hệ thống AI.

1. Tấn công chèn mã độc vào prompt (Prompt Injection)
Các dữ liệu đầu vào của người dùng vào ChatGPT có thể bị thao túng và đánh lừa bằng cách sử dụng những cuộc tấn công Prompt Injection. Kẻ tấn công tạo ra các prompt để ép buộc mô hình cung cấp những phản hồi độc hại hoặc bị cấm. Điều này cũng có thể dẫn đến rò rỉ dữ liệu bí mật, tạo code tự động nguy hiểm cũng như bỏ qua các bộ lọc nội dung.
Sử dụng tính linh hoạt của mô hình để thể hiện và trả lời các prompt phức tạp, việc truy tìm những cuộc tấn công Prompt Injection có thể buộc mô hình bỏ qua một số quy tắc hoặc hướng dẫn đạo đức. Đây là một trong những lý do tại sao việc phát hiện và ngăn chặn các cuộc tấn công này rất khó khăn vì các đầu vào có thể là vô hạn và mô hình cần được định nghĩa một cách linh hoạt.
2. Nhiễm độc dữ liệu
Một mối đe dọa phổ biến khác là nhiễm độc dữ liệu, xảy ra khi kẻ tấn công chèn dữ liệu xấu hoặc không cân bằng vào tập dữ liệu huấn luyện của ChatGPT. Điều này có thể xảy ra trong quá trình huấn luyện ban đầu hoặc thông qua các quy trình tinh chỉnh. Điều này tạo ra một mô hình hoạt động theo những cách không mong đợi và tạo ra các kết quả đầu ra thiên vị, không chính xác, hoặc thậm chí gây hại thông qua dữ liệu bị hỏng.
Những thay đổi có thể rất nhỏ đến mức chúng sẽ không ảnh hưởng đến hiệu suất của hệ thống mà chỉ gây ra sự cố trong một số kịch bản dự kiến nhất định, khiến việc phát hiện đầu độc dữ liệu trở nên vô cùng khó khăn. Đầu độc dữ liệu ảnh hưởng bất kể mô hình được cập nhật bao nhiêu lần, điều này cho thấy tác hại lâu dài đến hiệu suất và độ tin cậy của mô hình.
3. Tấn công đảo ngược mô hình (Model Inversion Attack)
Tấn công đảo ngược mô hình là khi kẻ thù đánh cắp thông tin nhạy cảm từ dữ liệu huấn luyện ChatGPT bằng cách kiểm tra phản hồi của nó. Điều này liên quan đến việc thăm dò mô hình bằng các truy vấn được tạo ra để xác định một số đặc điểm nhất định của dữ liệu huấn luyện. Điều này có thể dẫn đến vi phạm quyền riêng tư bằng cách rò rỉ dữ liệu nhạy cảm xuất hiện trong tập dữ liệu huấn luyện.
Điều này đặc biệt có vấn đề khi ChatGPT được huấn luyện trên dữ liệu độc quyền hoặc riêng tư, vì chúng có thể sử dụng các cuộc tấn công đảo ngược mô hình. Các cuộc tấn công này lợi dụng thực tế là nhiều mô hình ghi nhớ dữ liệu huấn luyện của chúng và có thể được yêu cầu tái tạo lại nó.
4. Các cuộc tấn công đối kháng
Các đầu vào đối kháng được sử dụng để khiến ChatGPT tạo ra những đầu ra sai hoặc không mong muốn. Trong các cuộc tấn công này, những điểm yếu trong mô hình bị lợi dụng và các phản hồi khác xa so với dự kiến được tạo ra. Các đầu vào đối kháng không phải lúc nào cũng rõ ràng (và hầu như không thể nhận biết được bằng mắt thường) nhưng có thể dẫn đến sự khác biệt đáng kể trong hành vi của mô hình.
Những cuộc tấn công như vậy có thể ảnh hưởng đến độ tin cậy của ChatGPT, gây ra thông tin sai lệch hoặc lỗi hệ thống. Các cuộc tấn công đối kháng là mối đe dọa an ninh lớn đối với những bộ phân loại văn bản nơ-ron nhân tạo vì việc phòng thủ và phát hiện chúng trở nên khó khăn trong không gian đầu vào cực kỳ lớn, nơi mô hình có thể đưa ra quyết định dựa trên các lý lẽ đa chiều và không trực quan.
5. Vi phạm quyền riêng tư
ChatGPT có thể vi phạm quyền riêng tư trong những trường hợp hiếm hoi khi mô hình vô tình làm rò rỉ một số thông tin của một cá nhân hoặc một tổ chức nào đó. Kịch bản rò rỉ mô hình là khi một thuật toán được huấn luyện bằng dữ liệu riêng tư hoặc mô hình ghi nhớ một số chi tiết cụ thể trong quá trình tương tác với người dùng.
Vi phạm quyền riêng tư có thể dẫn đến việc tiết lộ dữ liệu cá nhân, bí mật thương mại hoặc dữ liệu độc quyền. Rủi ro này càng lớn hơn khi ChatGPT được tích hợp vào hệ thống của các tổ chức có dữ liệu nhạy cảm. Một trong những thách thức bảo mật khó khăn nhất đối với ChatGPT là cân bằng giữa quyền riêng tư của người dùng và các phản hồi được cá nhân hóa.
6. Truy cập trái phép
Việc truy cập trái phép vào hệ thống ChatGPT có thể tạo ra nhiều mối đe dọa và vấn đề bảo mật. Kẻ tấn công có thể kiểm soát mô hình, thay đổi phản hồi và trích xuất dữ liệu nhạy cảm. Chúng cũng có thể sử dụng hệ thống bị tấn công làm nền tảng để phát động thêm các cuộc tấn công và/hoặc tuyên truyền.
Việc truy cập có thể đạt được thông qua các phương pháp xác thực yếu, lỗ hổng cơ sở hạ tầng hoặc những chiến thuật social engineering. Ngăn chặn truy cập trái phép bao gồm kiểm soát truy cập phù hợp, kiểm tra bảo mật thường xuyên và đào tạo nhân viên về các thực hành bảo mật tốt.
7. Thao túng đầu ra
Với thao túng đầu ra, kẻ tấn công thực sự đánh lừa ChatGPT để tạo ra một câu trả lời cụ thể nào đó, thường là câu trả lời độc hại. Các biện pháp như vậy có thể được thực hiện bằng cách thao túng cách thức huấn luyện mô hình hoặc tạo ra những đầu vào đặc biệt.
Các đầu ra mà chúng tạo ra có thể bị thao túng nhằm mục đích lan truyền thông tin sai lệch, thúc đẩy những mục tiêu trả thù hoặc né tránh các bộ lọc nội dung. Thao túng đầu ra của ChatGPT có thể làm giảm nghiêm trọng lòng tin vào ChatGPT và thậm chí gây thiệt hại cho người dùng phụ thuộc vào nó.
8. Tấn công từ chối dịch vụ (DoS)
Các cuộc tấn công từ chối dịch vụ nhắm vào ChatGPT bằng cách làm quá tải hệ thống và đảm bảo rằng nó không thể phục vụ người dùng hợp lệ. Ví dụ, kẻ tấn công có thể gửi một lượng lớn yêu cầu hoặc các prompt tốn nhiều tài nguyên để phá hoại API. Những cuộc tấn công này có thể làm sập dịch vụ, gây sụp đổ hệ thống hoặc làm giảm hiệu suất nghiêm trọng.
Tấn công từ chối dịch vụ có thể gây thiệt hại về tài chính, danh tiếng và sự khó chịu cho người dùng. Để giảm thiểu những rủi ro này, các tổ chức nên triển khai những kỹ thuật giới hạn tốc độ và giám sát lưu lượng truy cập.
9. Trộm cắp mô hình (Model Theft)
Trộm cắp mô hình là việc sao chép trái phép hoặc đảo ngược kỹ thuật ChatGPT bằng cách sử dụng kiến trúc và các tham số của nó. Để giành lợi thế cạnh tranh, tạo ra bản sao độc hại của mô hình hoặc để né tránh các hạn chế về giấy phép.
Đổi lại, trộm cắp mô hình có thể gây ra rò rỉ thông tin độc quyền và thiết lập những hệ thống AI giống người bất hợp pháp. Giảm thiểu trộm cắp mô hình cần một phương pháp triển khai và giám sát phù hợp, sử dụng một số mô hình truy cập thích hợp cùng với kiểm tra kiểm soát đối với các hoạt động bất thường, tiếp theo là phát hiện những nỗ lực đánh cắp dữ liệu.
10. Rò rỉ dữ liệu
Rò rỉ dữ liệu ChatGPT xảy ra khi mô hình vô tình làm rò rỉ thông tin huấn luyện hoặc thông tin trò chuyện trước đó. Điều này có thể dẫn đến việc rò rỉ thông tin nhạy cảm của tổ chức, vi phạm thỏa thuận bảo mật và tiết lộ bí mật thương mại.
Rò rỉ dữ liệu có thể xảy ra từ các câu trả lời rõ ràng hoặc suy luận ngầm dựa trên hành vi của một mô hình nhất định. Để giảm thiểu rò rỉ dữ liệu, điều quan trọng là phải làm sạch dữ liệu. Các tổ chức nên sử dụng những kỹ thuật bảo vệ quyền riêng tư và liên tục giám sát đầu ra của mô hình.
11. Khuếch đại thiên kiến
Khuếch đại thiên kiến có thể củng cố hoặc phóng đại thêm các thiên kiến hiện có trong dữ liệu huấn luyện. Trong các lĩnh vực nhạy cảm như chủng tộc, giới tính hoặc chính trị, điều này có thể dẫn đến kết quả thiên vị hoặc phân biệt đối xử. Khuếch đại thiên kiến có thể giúp duy trì các khuôn mẫu, lan truyền thông tin sai lệch hoặc làm sai lệch quá trình ra quyết định. Điều này rất khó khăn do tính phức tạp của ngôn ngữ tự nhiên và cả những thiên kiến xã hội.
Giải quyết vấn đề khuếch đại thiên kiến đòi hỏi một cách tiếp cận đa diện kết hợp các giải pháp kỹ thuật và xã hội. Điều này bao gồm việc lựa chọn cẩn thận dữ liệu huấn luyện, triển khai các kỹ thuật loại bỏ thiên kiến trong quá trình phát triển mô hình, tiến hành kiểm tra tính công bằng nghiêm ngặt và duy trì sự giám sát của con người. Tuy nhiên, việc loại bỏ hoàn toàn thiên kiến vẫn là một thách thức vì những mô hình vốn dĩ học các mẫu từ dữ liệu lịch sử thường chứa đựng những định kiến của xã hội.
12. Tinh chỉnh độc hại
Tinh chỉnh độc hại có nghĩa là ChatGPT đang được huấn luyện lại, điều này khiến hành vi của nó thay đổi. Kẻ thù có thể huấn luyện mô hình trên dữ liệu được chọn lọc để chèn backdoor. Điều này có thể thay đổi hành vi của mô hình theo những cách tinh tế và khó phát hiện. Điều này có thể dẫn đến việc ChatGPT bị tinh chỉnh độc hại, đây là một kịch bản ác mộng có thể dẫn đến mất an ninh và/hoặc phát tán nội dung độc hại hoặc nhạy cảm. Để chống lại mối đe dọa này, cần phải có các quy trình an toàn để cập nhật mô hình khi triển khai những mô hình được tinh chỉnh.
Khi ChatGPT được tích hợp vào hoạt động kinh doanh, các rủi ro bảo mật mới sẽ phát sinh. Singularity XDR cung cấp một nền tảng phát hiện và phản hồi mở rộng tích hợp khả năng phát hiện mối đe dọa dựa trên AI để xác định và phản hồi các rủi ro bảo mật liên quan đến AI và chatbot như ChatGPT.
Hướng dẫn AI
Học IT










Hàm Excel