Đây là khái niệm nghe có vẻ xa lạ và không phổ biến đối với những người không làm việc trong lĩnh vực thư viện, quản lý dữ liệu. Đây là nguồn dữ liệu quan trọng đối với bất kỳ tổ chức nghiên cứu và đào tạo nào. Đặc biệt hơn, đối với việc kiểm tra trùng lặp, chống đạo văn, dữ liệu nội sinh sẽ giúp đơn vị nâng cao chất lượng, rà soát và phát hiện đạo văn hiệu quả hơn trong khi vẫn đảm bảo bảo mật về dữ liệu. Bài viết này sẽ phân tích về dữ liệu nội sinh và vai trò của nó:
Dữ liệu nội sinh là gì?
Dữ liệu nội sinh, hay còn gọi là dữ liệu nội bộ (trong tiếng Anh là “internal data”) của một tổ chức hay công ty là các dữ liệu được tạo ra, thu thập và lưu trữ bên trong tổ chức đó. Chúng thường bao gồm thông tin về khách hàng, sản phẩm, doanh thu, chi phí và quy trình nội bộ của công ty. Dữ liệu nội sinh thường được sử dụng để giúp tổ chức ra quyết định, tối ưu hóa hoạt động, cải thiện chất lượng sản phẩm hoặc dịch vụ, và nâng cao hiệu suất kinh doanh chung của tổ chức.
Tuy nhiên, trong ngữ cảnh của kiểm tra trùng lặp, đạo văn thì dữ liệu nội sinh là dữ liệu được tạo ra và lưu trữ bên trong trường đại học hoặc các cơ sở giáo dục đào tạo khác. Nó có thể là tài liệu, giáo trình, sách chuyên khảo, dữ liệu thống kê để phục vụ quá trình học tập và giảng dạy trong trường. Nó cũng có thể là luận văn, luận án, bài báo, công trình nghiên cứu khoa học của sinh viên, học viên, nghiên cứu sinh trong trường. Bên cạnh đó, nó cũng bao gồm một số dữ liệu hợp tác giữa các đơn vị đào tạo với nhau để đảm bảo sự phong phú và đa dạng về nguồn tài liệu học thuật, nâng cao nguồn cơ sở dữ liệu tri thức của đơn vị.
Việc tăng cường số lượng và chất lượng của dữ liệu nội sinh là điều mà bất kỳ đơn vị đào tạo nào đều mong muốn. Thậm chí một số đơn vị sẵn sàng trích ra một phần không nhỏ trong ngân sách để mua lại nguồn dữ liệu nội sinh cho mình. Hiện nay, nhiều tổ chức, hội nhóm liên kết đã được hình thành để chia sẻ dữ liệu nội sinh của mình với nhau. Bên cạnh đó, nhiều chính sách của nhiều tổ chức trên thế giới đã khuyến khích truy cập mở (Open Access) góp phần làm nguồn dữ liệu này phong phú hơn nữa.
Dữ liệu nội sinh có vai trò như thế nào trong kiểm tra trùng lặp, đạo văn?
Vì phải mất nhiều công sức, và thậm chí là ngân sách đầu tư, do đó dữ liệu nội sinh có thể coi là một tài sản quý báu của các trường đại học, cơ sở nghiên cứu. Đây là một trong những lợi thế cạnh tranh để thu hút sinh viên, nghiên cứu sinh, giảng viên đến học tập và làm việc tại trường. Vì thế, đây là nguồn dữ liệu thường không được truy cập mở (hoặc có thể chỉ truy cập một phần dữ liệu) mà chỉ có những sinh viên, cán bộ trong trường mới có thể truy cập.
Do được giữ riêng tư (private) trong cơ sở đào tạo, các hệ thống kiểm tra đạo văn hiện nay không thể tìm thấy nguồn dữ liệu đó trên internet để đưa vào cơ sở dữ liệu tìm kiếm của mình. Điều này dẫn đến việc phần mềm sẽ khó có thể rà soát được những lỗi đạo văn mà phát sinh từ việc sao chép trong nội bộ của đơn vị. Do vậy việc quét đạo văn sẽ chỉ giúp phát hiện việc đạo văn nếu sinh viên sao chép từ nguồn bên ngoài internet hoặc từ nguồn dữ liệu nội sinh đã bị lộ (leak) ra bên ngoài. Việc tài liệu nội sinh bị lộ ra bên ngoài để đưa lên các trang chia sẻ tài liệu như 123doc, tailieu.vn là rất phổ biến, thường là do lỗi từ sự bất cẩn của cá nhân. Tuy nhiên, không phải 100% tài liệu của đơn vị đều bị lộ mà vẫn có một phần dữ liệu được đảm bảo bảo mật. Do đó, việc tồn tại những lỗi đạo văn từ việc sao chép dữ liệu nội sinh của trường mà phần mềm kiểm tra trùng lặp chưa thể phát hiện ra, đơn giản là do tài liệu đó không được xuất hiện trên internet.
Một số phần mềm kiểm tra đạo văn của nước ngoài có xu hướng bổ sung làm giàu nguồn dữ liệu này bằng cách tự động đẩy tài liệu mà người dùng đã kiểm tra vào nguồn dữ liệu nội sinh. Tuy nhiên, khi kiểm tra đạo văn lần thứ 2 với cùng tài liệu đó, kết quả kiểm tra báo trùng 100% do tài liệu tải lên lần 1 đã bị đưa vào kho dữ liệu chung. Việc này vừa khiến học viên không an tâm khi sử dụng phần mềm, vừa mất thời gian khi phải hậu xử lý và rà soát lại kết quả trùng lặp và vừa vi phạm bảo mật dữ liệu cho người dùng.
Dữ liệu nội sinh trong Kiểm Tra Tài Liệu
Vậy để giải quyết vấn đề trên, Kiểm Tra Tài Liệu đã cung cấp lựa chọn bổ sung dữ liệu nội sinh để kiểm tra trùng lặp tài liệu, với 2 nguyên tắc quan trọng: bảo mật dữ liệu tìm kiếm và không giữ dữ liệu gốc. Cụ thể hơn, phần mềm được thiết kế để đảm bảo chỉ những người dùng được phép mới có thể kiểm tra trùng lặp với dữ liệu nội sinh của họ, không cho phép các tài khoản hoặc hệ thống khác truy cập. Thứ hai là phần mềm chỉ giữ lại nội dung text của tài liệu, mã hóa và có sự xáo trộn một phần nội dung, không giữ dữ liệu gốc, do đó kể cả trường hợp hi hữu và dường như không bao giờ xảy ra là hệ thống bị rò rỉ dữ liệu thì file tài liệu gốc vẫn được bảo đảm an toàn, vì vốn dĩ nó không được lưu trữ trên phần mềm.
Hiện nay, các đơn vị đào tạo có 2 lựa chọn tùy theo mục đích và kinh phí để sử dụng tính năng bổ sung dữ liệu nội sinh của mình.
- Thứ nhất là gói tài khoản cá nhân LUXURY chỉ với 15.000.000 đồng/năm với 2.500 lượt kiểm tra. Đáp ứng trường hợp đơn vị có nhu cầu sử dụng thấp và có một bộ phận chuyên trách để kiểm tra luận văn, luận án của sinh viên, học viên.
- Thứ hai là triển khai hệ thống riêng với số lượng tài khoản từ 100 tài khoản trở nên, áp dụng cho nhu cầu kiểm tra lớn. Với gói này, các đơn vị thường cấp tài khoản cho giảng viên, sinh viên để họ có thể tự kiểm tra.
Để biết thêm thông tin chi tiết về những gói trên, thầy cô và các bạn có thể tham khảo bảng giá tại đây hoặc liên hệ với bộ phận hỗ trợ để được giải đáp.
Lời kết
Hi vọng bài viết này đã giúp thầy cô và các bạn hiểu hơn về dữ liệu nội sinh và vai trò của nó trong kiểm tra trùng lặp, chống đạo văn. Đây là nguồn dữ liệu cực kỳ quan trọng đối với các trường đại học và các đơn vị đào tạo. Do đó, khi sử dụng phần mềm chống đạo văn, nhất là những phần mềm được cung cấp từ tổ chức nước ngoài, thầy cô và nhà trường nên xem xét các chính sách của phần mềm để đảm bảo mình có quyền kiểm soát và làm chủ dữ liệu, cũng như dữ liệu nội sinh được sử dụng đúng cách. Riêng với phần mềm Kiểm Tra Tài Liệu (KTTL), dữ liệu nội sinh cũng như bất kỳ tài liệu, dữ liệu mà người dùng đẩy lên trên hệ thống đều được đảm bảo bảo mật và tôn trọng dữ liệu của khách hàng. KTTL tuyệt đối KHÔNG sử dụng tài liệu của bạn để chia sẻ cho bên thứ ba và KHÔNG đưa dữ liệu của bạn vào cơ sở dữ liệu mà chưa được sự đồng ý chính thức của người dùng. Thầy cô và các bạn có thể tham khảo chính sách bảo mật dữ liệu của KTTL tại đây.
Cảm ơn thầy cô và các bạn đã đọc bài viết!