Chương trình Chia sẻ nhận quà, mua 1 được 2

Chương trình Chia sẻ nhận quà, mua 1 được 2

Trong thời gian từ 28/12/2021 đến ngày 28/01/2022, Kiểm tra Tài liệu triển khai chương trình khuyến mại “Chia sẻ nhận quà, mua 1 được 2” cho toàn bộ người dùng trên hệ thống, cụ thể:

+ Bạn có thể tạo link giới thiệu và chia sẻ nó với bạn bè của mình. Mỗi tài khoản đăng ký thành công sử dụng link giới thiệu sẽ được liên kết với tài khoản của bạn.

+ Với mỗi tài khoản liên kết thành công, cả hai bạn đều cùng nhận được thêm 1 lượt kiểm tra.

+ Mỗi khi tài khoản của bạn bè thực hiện thanh toán, bạn cũng sẽ nhận được thêm số lượt kiểm tra và gia hạn thời gian sử dụng tương đương.

+ Một tài khoản có thể tạo liên kết và giới thiệu nhiều tài khoản mới không giới hạn. Với mỗi liên kết, tài khoản giới thiệu có thể nhận tối đa 20 lượt kiểm tra.

+ Chỉ áp dụng với các giao dịch thanh toán với các gói thanh toán FLEX mua theo lượt: FLEX_5, FLEX_12, FLEX_30, FLEX_100.

+ Một tài khoản chỉ được liên kết với một người giới thiệu.

+ Chương trình áp dụng đến hết 28/01/2022.

Hãy chia sẻ với bạn bè thật nhiều để nhận được nhiều ưu đãi nhé!!!

Hướng dẫn tạo liên kết chia sẻ:

Bước 1: Sau khi đăng nhập, bạn hãy chọn mục Tài khoản ở góc trên bên phải:

Bước 2: Tại thanh menu bên trái, hãy click vào mục Giới thiệu

Bước 3: Click Sao chép hoặc Chia sẻ bằng Facebook, Zalo để gửi cho bạn bè.

Nếu bạn có thêm bất cứ câu hỏi nào về chương trình, đừng ngần ngại hãy liên hệ [email protected] để được giải đáp nhé!

Làm thế nào khi điểm trùng lặp cao do tài liệu cần phải trích dẫn nhiều?

1. Trích dẫn tài liệu là gì?

Trích dẫn (tài liệu tham khảo) là chỉ rõ những thông tin về tác giả, tác phẩm, nhà xuất bản, năm xuất bản, số trang… mà người viết đề cập tới trong nội dung bài viết [1]. Các nội dung, hình ảnh, số liệu, thậm chí là ý tưởng lấy từ các nguồn đã xuất bản hoặc chưa xuất bản đều cần phải được trích dẫn. Nếu người viết sao chép toàn bộ hay một phần câu chữ, số liệu, ý tưởng… thậm chí sử dụng cấu trúc, cách lý giải của tác giả khác mà không trích dẫn nguồn tài liệu tham khảo đó thì sẽ bị coi là đạo văn.

Tài liệu tham khảo thường được trích dẫn theo hình thức trực tiếp và gián tiếp. Cụ thể, trích dẫn trực tiếp là trích nguyên văn một hoặc nhiều câu, đoạn văn, hình ảnh, bảng biểu… vào bài viết. Với hình thức này, nội dung trích dẫn trong bài viết phải đảm bảo chính xác tuyệt đối từng câu chữ, nội dung, số liệu, hình ảnh… được sử dụng trong bản gốc. Hai là trích dẫn gián tiếp được khuyến khích sử dụng trong nghiên cứu khoa học. Người viết sử dụng ý tưởng, kết quả, để triển khai nghiên cứu và diễn giải lại theo cách của mình nhưng phải đảm bảo trung thành nội dung của bản gốc, tránh làm sai lệch ý tưởng của bản gốc.

2. Tại sao hệ thống đánh dấu trùng lặp các nội dung đã được trích dẫn?

Bất kỳ phần mềm chống đạo văn nào cũng không thể đưa ra quyết định tác giả có đạo văn trong bài viết hay không mà chỉ hỗ trợ kiểm tra, đánh giá mức độ trùng lặp của nội dung bài viết đó dựa trên cơ sở dữ liệu tìm kiếm của phần mềm. Nếu nội dung bài viết tương đồng hoặc trùng lặp với một trong các nguồn của cơ sở dữ liệu tìm kiếm thì phần mềm sẽ đánh dấu nội dung đó để người dùng xem xét.

Cơ sở dữ liệu tìm kiếm bao gồm dữ liệu trên Internet của các trang tin, tạp chí, các kho chia sẻ tài liệu… và dữ liệu nội sinh của các trường đại học, học viện, đơn vị nghiên cứu. Với số lượng nguồn dữ liệu lớn, một số nội dung trong bài viết trùng lặp với nội dung nào đó trong cơ sở dữ liệu tìm kiếm là điều hết sức tự nhiên. Do đó, khi quét toàn bộ nội dung bài viết, phần mềm sẽ đưa ra tất cả điểm trùng lặp nghi vấn để người dùng có thể xác định xem kết quả trùng lặp có chấp nhận được hay không. Bên cạnh đó, máy tính hiện nay chưa đủ thông minh để phân biệt chính xác đâu là trích dẫn hay đâu là đạo văn, nên kể cả tác giả đã sử dụng dấu ngoặc kép và tham chiếu đầy đủ và chính xác trong nội dung bài viết thì vẫn sẽ có trường hợp phần mềm thông báo đó là kết quả trùng lặp.

Do đó, các hệ thống, phần mềm chống đạo văn sẽ chỉ đưa ra tất cả các nội dung trùng lặp mà hệ thống nghi vấn dựa trên phân tích dữ liệu và so sánh tương đồng dựa trên thuật toán. Phần mềm sẽ hỗ trợ công việc tốn công sức và thời gian nhất là đối chiếu từng câu, từng đoạn trong văn bản được kiểm tra với hàng triệu dữ liệu trên internet và đưa ra kết quả trùng lặp. Còn việc quyết định đạo văn hay không thì sẽ thuộc về con người. Khi đó, người dùng sẽ là người xem xét các nội dung mà hệ thống nghi ngờ đánh dấu khi vào kiểm tra và đưa ra quyết định về nội dung nghi vấn trùng lặp đó có phải đạo văn hay không. Vì vậy, kết quả đưa ra của các hệ thống là điểm trùng lặp chứ không phải điểm đạo văn.

3. Các cách xử lý

Nội dung trùng lặp là những nội dung giống hoặc gần giống với những nội dung đã có trên cơ sở dữ liệu tìm kiếm. Do đó, các nội dung trích dẫn và các nguồn trong danh mục tài liệu tham khảo thường là nội dung có nhiều kết quả trùng lặp nhất. Khi này, với các tài liệu có tỉ lệ trùng lặp cao hơn mức cho phép của đơn vị, thì đôi khi sẽ xảy ra những tranh luận về việc phần này đã trích dẫn, phần kia không phải đạo văn,.. gây mất nhiều thời gian và công sức cho các thầy cô, cán bộ phụ trách. Để xử lý các trường hợp này, phía đơn vị đào tạo có thể xử lý theo những hướng sau đây:

+ Cách 1 (phổ biến): Đơn vị đào tạo có thể đưa ra những quy định cụ thể hơn về tỉ lệ trùng lặp được cho phép. Tỉ lệ cho phép này không phải là tỉ lệ sinh viên được phép đạo văn trong tài liệu mà là tỉ lệ đã bao gồm các nội dung trích dẫn từ nguồn khác (kể cả trích dẫn đúng quy định), các trường hợp trùng tiêu đề, footnote,… Như vậy, người viết không được có bất kỳ nội dung đạo văn nào trong tài liệu và phải đảm bảo sao cho việc trích dẫn của mình vẫn đưa ra tỉ lệ trùng lặp dưới mức cho phép. Tỉ lệ này tùy thuộc vào đặc thù trích dẫn của từng chuyên ngành. Ví dụ như chuyên ngành luật sẽ để tỉ lệ này cao vì thường xuyên cần trích dẫn các điều luật, văn bản pháp luật để làm căn cứ; các ngành Công nghệ Thông tin thì có thể thấp hơn vì ít khi cần trích dẫn.

Cách này được hầu hết các trường đại học áp dụng vì nó đưa ra tiêu chí rõ ràng cho sinh viên và giảm thiểu gánh nặng cho bộ phận phụ trách kiểm tra đạo văn. Các thầy cô, cán bộ phụ trách kiểm tra khi đó sẽ chỉ cần kiểm tra điểm số mà không phải đọc lại từng câu xem đâu là trích dẫn, đâu là đạo văn. Khi đó trách nhiệm thuộc về sinh viên, học viên nhiều hơn. Họ phải tự xác định rằng mình không được phép đạo văn và phải kiểm soát việc trích dẫn của mình sao cho đảm bảo tỉ lệ trùng lặp của tài liệu ở mức cho phép mà đơn vị đào tạo đã đưa ra.

Một số ví dụ thực tế về quy định của các trường đại học về tỉ lệ này:

  • Trường Đại học Trà Vinh quy định về hành vi đạo văn là trích dẫn 1 hoặc nhiều tác phẩm của người khác để hình thành tác phẩm mới có nội dung chiếm từ 30% nội dung tác phẩm được trích dẫn trở lên, mặc dù có thực hiện đúng quy định về trích dẫn nguồn [2].
  • Trường Đại học Luật thành phố Hồ Chí Minh quy định về đao văn nếu trích dẫn 1 hoặc nhiều tác phẩm của người khác để hình thành tác phẩm của mình (có dung lượng chiếm từ 50% nội dung tác phẩm trở lên), dù có thực hiện đúng quy định về trích dẫn nguồn [1].
  • Trường Đại học Khoa học Xã hội và Nhân văn quy định về hành vi đạo văn là trích dẫn 1 phẩm của người khác để hình thành tác phẩm của mình có dung lượng chiếm từ 20% nội dung tác phẩm trở lên, dù có thực hiện đúng quy định về trích dẫn nguồn [3].

+ Cách 2: Người phụ trách kiểm tra trùng lặp thực hiện loại trừ thủ công trên hệ thống, rà soát kết quả trùng lặp mà hệ thống đưa ra và xem xét loại trừ kết quả nếu nội dung là hợp lệ và không phải đạo văn. Với các đơn vị sử dụng hệ thống “Kiểm tra tài liệu”, người dùng có thể thực hiện theo các bước sau:

Bước 1: Người dùng vào xem báo cáo chi tiết cho từ bài báo

Bước 2: Người dùng chọn mục Trùng lặp để kiểm tra mức độ trùng lặp theo mức độ từ trắng (không trùng lặp) => vàng (mức độ trùng lặp thấp) => cam (mức độ trùng lặp trung bình) => đỏ (mức độ trùng lặp cao).

Bước 3: Khi kiểm tra các câu trùng lặp, nếu phát hiện nội dung câu đã trích dẫn tài liệu tham khảo hoặc hệ thống phát hiện sai… dẫn đến cần phải loại bỏ kết quả trùng lặp thì người dùng chọn Loại trừ kết quả (hoặc hình thùng rác như hình).

Bước 4: Người dùng lựa chọn lý do loại trừ kết quả. Trong trường hợp chọn lý do khác, cần mô tả lý do loại trừ kết quả trùng lặp này là gì.

– Sau khi loại trừ trùng lặp, người dùng có thể chỉnh sửa/thay đổi thông tin loại trừ trùng lặp hoặc đánh dấu đây là nội dung trùng lặp.

Trên đây là các cách xử lý thường được sử dụng khi điểm trùng lặp của tài liệu cao hơn mức cho phép do trong nội dung có sử dụng trích dẫn nhiều. Tùy vào nguồn nhân lực và quy định của từng đơn vị đào tạo thì đơn vị lựa chọn hướng xử lý phù hợp với đơn vị của mình.

Tài liệu tham khảo:

[1]      Trường Đại học Luật TP. Hồ Chí Minh, 03 03 2015. [Trực tuyến]. Available: http://library.hcmulaw.edu.vn/images/2017/11/250_QD_ban_hanh_quy_dinh_ve_trich_dan_va_chong_dao_van.pdf.

[2]      Trường đại học Trà Vinh, 25 09 2020. [Trực tuyến]. Available: https://sdh.tvu.edu.vn/images/VB_Phap_Qui/QD-5602-Ban-hanh-quy-dinh-ve-trich-dan-va-chong-dao-van-ca-TVU.pdf.

[3]      Trường Đại học Khoa học Xã hội và Nhân văn, 19 01 2018. [Trực tuyến]. Available: http://www.vns.edu.vn/images/4_DaoTao/ThacSi/Thong_Bao/Quy-dinh-trich-dan-va-chong-dao-van.pdf.

Tại sao bạn nên lựa chọn KiemTraTaiLieu để kiểm tra đạo văn, trùng lặp?

Tại sao bạn nên lựa chọn KiemTraTaiLieu để kiểm tra đạo văn, trùng lặp?

Hiện nay, nhu cầu kiểm tra đạo văn luận văn, luận án, sáng kiến kinh nghiệm ngày càng nhiều, và hiện tại có nhiều phần mềm nước người và một số phần mềm trong nước hỗ trợ việc đó. Tuy nhiên, khi sử dụng các phần mềm đó, đội phát triển KiemTraTaiLieu nhận thấy một số hạn chế của các phần mềm mà không đáp ứng được nhu cầu sử dụng, đó là lý do tại sao chúng mình tạo nên KiemTraTaiLieu. Chúng ta hãy cùng nhau xem KiemTraTaiLieu có những ưu điểm nổi trội gì hơn so với các phần mềm kiểm tra đạo văn, trùng lặp khác nhé:

Dữ liệu phong phú, đa dạng

Dữ liệu của KiemTraTaiLieu phong phú, đa dạng ở nhiều lĩnh vực và luôn được cập nhật từng ngày. Khi so sánh với một số hệ thống khác như DoIT, Coopy, trừ những dữ liệu nội sinh riêng tư của hệ thống, cơ sở dữ liệu internet của KiemTraTaiLieu lớn hơn rất nhiều. Hãy thử cũng kiểm tra cùng một tài liệu trên mỗi hệ thống, KiemTraTaiLieu phát hiện được nhiều nguồn trùng lặp hơn DoIT và Coopy. Do đó, nếu trường hoặc thầy cô của bạn yêu cầu phải kiểm tra đạo văn trên DoIT, Coopy hoặc Turnitin mà bạn lại bị giới hạn số lượt kiểm tra, bạn nên sử dụng KiemTraTaiLieu để rà soát trước để không bị mất thời gian chờ đợi do giới hạn mà vẫn đảm bảo chất lượng kết quả kiểm tra trùng lặp tương đương (hoặc thậm chí là tốt hơn).

Tốc độ kiểm tra nhanh

Mặc dù phải xử lý trên lượng dữ liệu lớn hơn, tốc độ kiểm tra lại là một đặc điểm nổi trội của KiemTraTaiLieu khi so với các hệ thống khác. Sau khi tải lên tài liệu để kiểm tra, hệ thống sẽ trả lại kết quả trong thời gian trung bình chưa đến một phút. Đây là kết quả của một quá trình tìm hiểu, nghiên cứu công nghệ tìm kiếm của nhóm phát triển và việc đầu tư, tối ưu cho cơ sở hạ tầng. Khác với những chiến lược hàng đợi hay giới hạn số lượt kiểm tra của các hệ thống khác, KiemTraTaiLieu lựa chọn giải pháp nghiên cứu, tối ưu từng dòng code và sẵn lòng đầu tư cơ sở hạ tầng để đáp ứng nhu cầu của người dùng.

Tối ưu cho kiểm tra trùng lặp tiếng Việt

Các phần mềm đạo văn của nước ngoài được xây dựng chủ yếu cho tiếng Anh, với những đặc điểm về ngôn ngữ khác với tiếng Việt. Khi kiểm tra đạo văn trên những phần mềm này, số điểm trùng lặp được đưa ra là khá cao, và tỉ lệ false positive (những đoạn không phải đạo văn mà lại đánh dấu là đạo văn) cao hơn so với các phần mềm đạo văn trong nước. Nguyên nhân là ở ngôn ngữ nước ngoài, khi trùng một vài từ cũng có thể bị đánh dấu là trùng lặp. Trong khi đó, với ngôn ngữ tiếng Việt, phải một đoạn văn hoặc một chuỗi ký tự dài mới nên quy đó là trùng lặp. Các tiếp cận của KiemTraTaiLieu giống với hệ thống DoIT: kiểm tra theo câu, và tổng hợp lại theo đoạn văn. Nhờ đó mà tỉ lệ false positive của KiemTraTaiLieu thấp hơn nhiều so với các phần mềm đạo văn của nước ngoài.

Hỗ trợ nhu cầu kiểm tra số lượng lớn

Các hệ thống khác mà có chất lượng kiểm tra với dữ liệu tiếng Việt tốt hiện nay như Turnitin, DoIT đều tập trung vào việc bán hàng B2B (Business to Business), không hỗ trợ cho nhu cầu sử dụng cá nhân hoặc chỉ cho dùng thử với số lượt giới hạn. Do đó, những cá nhân hoặc bộ môn, phòng ban khi muốn kiểm tra số lượng lớn mà kinh phí thì không đủ mua cả hệ thống thì không tìm được phần mềm đáp ứng nhu cầu. Đáp ứng nhu cầu đó, KiemTraTaiLieu triển khai theo 2 hình thức: mua theo số lượt kiểm tra và mua theo tháng/năm với giá ưu đãi. Hình thức mua theo lượt đáp ứng nhu cầu kiểm tra cá nhân với số lượng thấp hoặc thời gian sử dụng ngắn. Hình thức mua theo tháng/năm đáp ứng cho các tổ chức, nhóm như bộ môn, phòng ban, tạp chí hoặc cá nhân mua chung nhau sử dụng lâu dài với giá ưu đãi hơn.

Bảo mật dữ liệu

Chúng mình đã từng sử dụng Turnitin, một điểm mà khiến người sử dụng có chút bối rối là tài liệu của người dùng tải lên sẽ mặc định bị đưa ngay vào cơ sở dữ liệu. KiemTraTaiLieu đảm bảo không sử dụng dữ liệu của người dùng vào bất kỳ mục đích nào khác, dữ liệu của người dùng hoàn toàn được bảo mật, không bị chia sẻ cho một đối tượng nào khác và không bị đưa vào cơ sở dữ liệu của KiemTraTaiLieu.

Kết

Trên đây là những ưu điểm nổi trội của KiemTraTaiLieu khi so sánh với các phần mềm kiểm tra đạo văn, trùng lặp khác. Ngoài ra, còn nhiều ưu điểm khác như hỗ trợ kiểm tra chính tả, báo cáo trực quan, chi tiết; giao diện đơn giản, dễ sử dụng,… Không ngừng phát triển, hệ thống KiemTraTaiLieu vẫn đang tiếp tục cải thiện, nâng cấp hệ thống để đáp ứng được mọi nhu cầu sử dụng của người dùng.

Các hệ thống kiểm tra đạo văn, trùng lặp hoạt động như thế nào?

Các hệ thống kiểm tra đạo văn, trùng lặp hoạt động như thế nào?

Bài viết này sẽ mô tả giúp bạn chi tiết hơn về cách hoạt động của các phần mềm kiểm tra đạo văn như KiemTraTaiLieu, DoIT, Turnitin,…

Khái quát bài toán

Đầu tiên, để hiểu được các hệ thống hoạt động, hãy tổng quát lại bài toán mà chúng ta cần giải quyết như sau: Người dùng gửi lên hệ thống một văn bản (dưới dạng file, hay nội dung chữ), hệ thống tiếp nhận, xử lý tìm kiếm các đoạn văn trùng với nguồn dữ liệu internet hoặc nguồn dữ liệu riêng của hệ thống và trả lại kết quả cho người dùng.

Sau khi đọc bài toán, ta cũng có thể suy ra được những bước mà hệ thống cần phải giải quyết:
Bước 1: Tiền xử lý dữ liệu: tiếp nhận văn bản, tài liệu người dùng gửi lên và trích xuất nội dung từ đó
Bước 2: Kiểm tra, đối chiếu trùng lặp: Đối chiếu, so sánh từng đoạn nội dung với nguồn dữ liệu
Bước 3: Tổng hợp kết quả: Tổng hợp lại kết quả để hiển thị cho người dùng.

Tuy chỉ đơn giản là 3 bước, nhưng để xử lý từng bước một, là hàng loạt các bài toán nhỏ nhưng mà có võ để để xử lý, cụ thể

Bước 1: Tiền xử lý dữ liệu

Để kiểm tra trùng lặp của một nội dung, một tài liệu thì bắt buộc chúng ta phải có nội dung cần kiểm tra, tuy nhiên dữ liệu đầu vào của từng người dùng là khác nhau. Hiện nay hầu hết các hệ thống đều hỗ trợ cho phép người dùng tải lên toàn bộ tài liệu dưới dạng doc, docx, pdf. Do đó hệ thống đầu tiên phải trích xuất được nội dung từ tài liệu thành nội dung text (chỉ có chữ). Các thư viện hỗ trợ việc này khá là nhiều, do đó việc này nghe có vẻ tương đối dễ giải quyết. Tuy nhiên, vấn đề khó ở bước này là phải chuẩn bị dữ liệu để các bước sau có thể sử dụng được, cụ thể:

Để kiểm tra được trùng lặp, hệ thống phải đối chiếu từng đoạn nội dung với nguồn dữ liệu, đoạn nội dung ở đây sẽ tùy theo chiến lược xử lý của từng hệ thống, ví dụ Turnitin là chuỗi các từ liên tiếp nhau không quan tâm có cùng một câu hay không, còn DoIT với KiemTraTaiLieu sử dụng là câu văn. Do đó ở bước tiền xử lý này, từ một nội dung toàn bộ văn bản, ta phải tách làm sao cho chính xác nhất. Ví dụ, để tách câu, không thể dùng dấu chấm để tách được vì có trường hợp từ viết tắt có dấu chấm (ví dụ Dr., Mr., U.S,…) hoặc các tiêu đề hay liệt kê thì lại không. Sẽ có rất nhiều trường hợp nghách cần xử lý.

Để hiển thị được kết quả trực quan nhất, làm sao để người dùng có được trải nghiệm giống như đang xem văn bản gốc, biết được chính xác đoạn trùng lặp này ở đoạn nào, trang nào, có thể tương tác để xem chi tiết từng đoạn nội dung hoặc lọc kết quả. Để đáp ứng được việc này thì cần phải lưu trữ thật kéo các thông tin metadata trong quá trình trích xuất để bước tổng hợp kết quả có thể sử dụng.

Bước 2: Kiểm tra, đối chiếu trùng lặp

Sau khi đã có nội dung được trích xuất từ bước 1, ta phải so sánh từng đoạn văn với cơ sở dữ liệu tìm kiếm của hệ thống. Bài toán khó ở đây là dữ liệu internet khá là lớn, được tính bằng TB dữ liệu (Terabytes, 1 TB = 1024 GB) và một tài liệu luận văn thường trung bình khoảng 1500 câu văn. Vậy để hoàn thành việc kiểm tra trong 1 phút, với mỗi giây ta phải tìm kiếm được 25 câu văn trên hàng TB dữ liệu (hoặc chia ra thì trung bình là mỗi câu văn phải xử lý trong vòng 40 ms, một con số rất nhỏ). Để so sánh, hãy thử dùng File Explorer hay một trình quản lý file của bạn, rồi tìm kiếm một vài từ để tìm file chứa những từ đó, một ổ đĩa có 100GB lúc đó cũng phải mất vài giây (nếu là ổ cứng thể rắn SSD, còn nếu ổ cứng HDD thì cũng mất gấp 2-3 lần).

Công nghệ tìm kiếm tương đối full-text search là giải pháp phù hợp để xử lý vấn đề này. Đây là công nghệ tối ưu cho việc tìm kiếm giống như tìm kiếm trên Google và Facebook, các kết quả trả về không cần chính xác tuyệt đối mà chỉ cần một vài từ trùng hay có nghĩa tương đồng là được. Các cái tên lớn của công nghệ này bao gồm Elastic Search, Solr,… Tuy nhiên, khi KiemTraTaiLieu chạy thực nghiệm, thì công nghệ này chưa đủ đáp ứng nhu cầu, hiệu năng không đáp ứng được nhu cầu kiểm tra những câu văn dài và tần suất liên tục, cũng như chi phí quá lớn. Do đó, KiemTraTaiLieu phải tự thiết kế lại dựa trên những kỹ thuật của công nghệ có sẵn, và khả năng cao các hệ thống KiemTraTaiLieu cũng sẽ phải đối đầu bài toán tương tự.

Một hướng xử lý khác là sử dụng công cụ tìm kiếm Google, tức là đem từng câu lên Google kiểm tra và lấy kết quả từ đó. Cách này sẽ không phải tốn hạ tầng để lưu trữ lượng dữ liệu lớn, cũng như không mất nhiều công lập trình. Tuy nhiên, thực tế là Google không cung cấp API để có thể truy cập (miễn phí lẫn trả phí), và Google sẽ sử dụng captcha để phát hiện truy cập không phải là từ con người, hệ thống sẽ bị chặn bằng captcha chỉ sau vài chục câu tìm kiếm. Do đó, hướng xử lý này không thể áp dụng vào thực tế được.

Do phải xử lý lượng lớn dữ liệu như thế, các hệ thống thường có những giới hạn với người dùng (ví dụ Turnitin chỉ bán cho các đơn vị, không bán cá nhân và có giới hạn cho tài khoản sinh viên; DoIT thì hạn chế số lượt).

Bước 3: Tổng hợp kết quả

Kết quả hiển thị cần được thể hiện trực quan nhất, người dùng có thể tương tác được với giao diện kiểm tra hoặc xuất báo cáo kết quả. Kỹ thuật này mỗi hệ thống xử lý theo những hướng khác nhau và thiên về UI/UX nhiều hơn, do đó chúng ta sẽ không đi sâu vào vấn đề này.

Kết: Bài viết này khái quát một cách cơ bản nhất cách thức hoạt động của một hệ thống kiểm tra đạo văn nói chung. Nhìn chung, xây dựng lên hệ thống cần phải xử lý nhiều vấn đề lớn nhỏ khác nhau, nhưng vấn đề lớn trong hệ thống này là xử lý một lượng dữ liệu lớn trong một thời gian ngắn. Bên cạnh đó, vấn đề thu thập dữ liệu cũng là một bài toán khá phức tạp không kém.

Những tính năng nổi bật của phần mềm kiểm tra đạo văn kiemtratailieu.vn

Những tính năng nổi bật của phần mềm kiểm tra đạo văn kiemtratailieu.vn

Những tài liệu học thuật như luận án, luận văn, khóa luận tốt nghiệp luôn cần yêu cầu cao về chất lượng nội dung và khắt khe trong việc đạo văn. Hệ thống Kiểm tra tài liệu được phát triển với mục tiêu kiểm tra mức độ sao chép trùng lặp được tải lên. Dưới đây là những đặc điểm nổi bật của phần mềm kiemtratailieu.vn so với các phần mềm kiểm tra đạo văn DoIT, phần mềm Turnitin.

Phần mềm kiểm tra sao chép luận án, luận văn, khóa luận tiếng Việt

Phần mềm kiểm tra sao chép tài liệu (kiemtratailieu.vn) đã được phát triển và liên tục cải tiến trong hơn 5 năm qua. Để kiểm tra trùng lặp nội dung văn bản chúng ta chỉ cần thao tác 3 bước đơn giản:

Bước 1:  Đăng ký tài khoản miễn phí dùng thử tại đây

Bước 2: Tải tài liệu luận án, luận văn, văn bản khoa học cần kiểm tra 

Lựa chọn tài liệu cần kiểm tra sao chép. Hệ thống hỗ trợ tải lên các định dạng phổ biến như file PDF, DOC, DOCX. Thông thường thời gian hoàn thành kiểm tra sao chép của văn bản 50-70 trang sẽ cần khoảng 2-4 phút.

Bước 3: Truy cập xem kết quả phân tích và tải báo cáo

Kết quả sau khi phần mềm kiemtratailieu.vn kiểm tra có 3 phần chính. Phía bên trái là ảnh thu nhỏ các trang tài liệu. Vùng màu (vàng, cam, đỏ) sẽ biểu thị phần nội dung trùng lặp với nguồn dữ liệu khác. Phần giữa là nội dung văn bản hiển thị chi tiết: đoạn văn sao chép, nguồn sao chép và mức độ trùng lặp. Vùng bên phải là tổng hợp các đoạn sao chép theo thứ tự trang văn bản và điểm % mức độ tương đồng mà hệ thống đã tính toán.

Ngoài ra chúng ta có thể tải file báo cáo tổng quan về mức độ trùng lặp tài liệu.

Nguồn dữ liệu kiểm tra đồ sộ và cập nhật liên tục

Phần mềm kiểm tra sao chép có hiệu quả hay không, phụ thuộc vào 2 yếu tố chính. Một là nguồn dữ liệu phong phú, đầy đủ và được cập nhật. Thứ hai là thuật toán tìm kiếm, kiểm tra trùng lặp nội dung. Nguồn dữ liệu kiểm tra của hệ thống chống đạo văn kiemtratailieu.vn gồm 2 phần: 

  • Dữ liệu học thuật trên Internet

Hệ thống thu thập dữ liệu học thuật của kiemtratailieu.vn hoạt động tương tự cơ chế của máy tìm kiếm Googlebot và CocCocbot. Hệ thống này sẽ liên tục tìm kiếm các nội dung học thuật, tài liệu sách, tài liệu sáng kiến kinh nghiệm, giáo trình đại học, các tạp chí nghiên cứu từ nhiều website. Một số nguồn dữ liệu có thể kể đến của hệ thống như: các tạp chí springer, google scholar, tạp chí khoa học trên VCGate, các website thư viện của các trường đại học, các trang chia sẻ tài liệu 123doc, tailieu.vn, v.v

  • Dữ liệu học thuật từ các đơn vị liên kết

Có nhiều nội dung học thuật không được xuất bản rộng rãi trên Internet, hệ thống kiemtratailieu có bổ sung nguồn tài liệu (luận án, luận văn, báo cao nghiên cứu khoa học) từ các trường đại học, tạp chí nghiên cứu, học viện ở Việt Nam. Đây cũng chính là đặc điểm nổi trội của phần mềm kiểm tra đạo văn so với phần mềm Turnitin và DoIT.

Thuật toán kiểm tra đạo văn thông minh đặc biệt tốt cho nội dung tiếng Việt

Bên cạnh nguồn dữ liệu kiểm tra đạo văn phong phú, thuật toán chính là linh hồn của hệ thống kiemtratailieu. Nội dung tiếng Việt có những đặc điểm rất khác so với ngôn ngữ tiếng Anh khiến cho thuật toán xử lý kiểm tra sao chép sẽ khác nhau. Ví dụ tiếng Việt mỗi từ sẽ được cấu tạo từ nhiều tiếng VD: “đạo hàm”. Nếu áp dụng phương pháp kiểm tra trùng lặp  tiếng Anh chỉ tính sao chép từng “tiếng” thì sẽ làm sai điểm đánh giá. Điều này làm cho nhiều luận án hoàn toàn không sao chép nhưng khi quét trên hệ thống nước ngoài (VD Turnitin, iThenticate) có thể bị báo trùng lặp. Ngoài ra tiếng Việt cũng có đặc trưng về từ đồng nghĩa, câu đảo ngữ, v.v. Hệ thống kiemtratailieu.vn có thuật toán đánh giá “công bằng” với từng trường hợp trùng lặp để đánh giá mức độ sao chép. 

Ví dụ trường hợp:

Câu gốc: “Phân tích và phát hiện mã độc là một việc quan trọng để phòng chống sự bùng nổ phần mềm độc hại, qua đó góp phần đảm bảo an toàn của Internet.”

Câu hệ thống kiemtratailieu đánh dấu là trùng lặp mức độ cao: 

“Để đảm bảo an toàn của Internet thì việc phân tích và phát hiện mã độc là một việc quan trọng để phòng chống sự bùng nổ phần mềm độc hại.”

Câu hệ thống đánh giá là trùng lặp ít (không đạo văn):

“Phân tích và phát hiện mã độc kịp thời và nhanh chóng là cách để môi trường hoạt động trên Internet được an toàn.”

So sánh phần mềm kiểm tra đạo văn kiemtratailieu.vn với phần mềm Turnitin, DoIT

Trên thị trường có nhiều phần mềm kiểm tra sao chép luận án, luận văn, sáng kiến kinh nghiệm có thể kể đến là phần mềm Turnitin, phần kiểm hỗ trợ nâng cao chất lượng văn bản DoIT. Dưới đây là bảng so sánh giữa phần mềm KiemTraTaiLieu.VN với phần mềm Turnitin và phần mềm DoIT

Tiêu chíTurnitinDoITKiemTraTaiLieu.vn
Tốc độ kiểm traChưa xác địnhThấp 8-20 phútCao 1-5 phút
Nguồn dữ liệuPhong phú, đa ngôn ngữ nhưng hạn chế tiếng ViệtChỉ hỗ trợ tiếng Việt, hạn chế về số lượng và độ đa dạngDữ liệu tiếng Việt phong phú, đa dạng + Dữ liệu học thuật tiếng Anh
Tính chính xác khi đánh giá sao chép tiếng ViệtThấp, một vài từ trùng nhau vẫn quy là trùng lặp CaoCao
Chi phíKhông bán lẻ Không bán lẻRẻ nhất, gói tối thiểu chỉ từ 100.000đ
Kiểm tra trùng lặp trong nhóm tài liệuKhôngKhôngCó hỗ trợ
Bảo mật dữ liệuTài liệu tải lên bị đưa ngay vào kho dữ liệu tìm kiếm của TurnitinCam kết bảo mật dữ liệu người dùngCam kết bảo mật dữ liệu người dùng

Trên đây là những đặc điểm nổi bật của kiemtratailieu.vn và đánh giá so sánh chi tiết của hệ thống so với các phần mềm kiểm tra đạo văn khác trên thị trường.  Hiện nay hệ thống kiemtratailieu.vn đang miễn phí dùng thử (có giới hạn số lượng) tại đây. Các bạn có nhu cầu nâng cấp tài khoản để sử dụng đầy đủ tính năng có thể xem bảng giá và liên hệ trên fanpage của hệ thống: https://www.facebook.com/kiemtratailieu