Nội dung trùng lặp là gì? Duplicate Content - Nội dung trùng lặp là nội dung xuất hiện ở một hoặc nhiều nơi khác nhau nữa trên Internet, kể cả trong và ngoài website của bạn. Nội dung trùng lặp có thể ảnh hưởng đến thứ hạng của kết quả trong các công cụ tìm kiếm. Nếu như có nhiều phiên bản content giống nhau thì các công cụ tìm kiếm khó có thể xác định được phiên bản nào để index và cho ra trang kết quả.

Ví dụ, trang web về “keyword-x” cùng xuất hiện ở 2 URL:

https://jamstackvietnam.com/keyword-x/ và https://jamstackvietnam.com/blog/keyword-x/

Lỗi này thường xảy ra trong nhiều hệ thống quản trị nội dung của trang web (CMS - Content Management Systems). Nếu những người viết blog chọn và link tới URL thứ nhất, trong khi một số blog writer khác chọn URL thứ hai thì lúc này các công cụ tìm kiếm sẽ cho rằng đây là lỗi từ chính trang web khi có nhiều phiên bản giống nhau. Nếu như mọi người đều tập trung link về 1 URL thì việc xếp hạng cho “keyword-x” sẽ dễ dàng hơn.

1. URL không hữu ích lại được xuất hiện trong SERP

Hãy tưởng tượng rằng cùng một trang nhưng lại là 3 URL khác nhau:

domain.com/page/

domain.com/page/?utm_content=buffer&utm_medium=social

domain.com/category/page/

URL đầu tiên sẽ hiển thị trong kết quả tìm kiếm, nhưng Google bot có thể crawl nhầm và đưa một trong những URL còn lại thay thế vào.

Người dùng có xu hướng tránh nhấp vào một unfriendly URL (URL không thân thiện), dẫn đến organic traffic của trang web giảm.

Nếu cùng một nội dung có sẵn tại nhiều URL, thì mỗi URL đó đều có thể nhận backlink. Điều đó dẫn đến sự phân chia "link equity" giữa các URL.

Ví dụ, hãy xem hai trang này trên buffer.com:

https://buffer.com/library/social-media-manager-checklist

https://buffer.com/resources/social-media-manager-checklist

2 trang này là trường hợp bị duplicate content, có content như nhau. Tuy nhiên, URL thứ nhất có 137 referring domains, URL thứ hai có 117 referring domains (liên kết từ các trang web unique).

 

Tuy nhiên, Google đôi lúc tự có cách giải quyết việc duplicate content. Khi phát hiện nội dung trùng lặp, Google sẽ nhóm các URL thành một cụm. Sau đó, bot chọn ra URL mà bot nghĩ là URL‘ tốt nhất ’để đại diện cho cụm đó trong kết quả tìm kiếm và hợp nhất các chỉ số của các URL còn lại với URL chính. Trong trường hợp trên, Google chỉ nên hiển thị một URL chính trong trang kết quả organic search và gán tất cả các referring domain (137 + 117) của các URL chòn lại cho URL đó. Nhưng không may, trong trường hợp này, Google lại không hợp nhất “link equity” tại một URL.

3. Tiêu phí ngân sách

Google nhận diện nội dung mới trên trang web của bạn thông qua việc crawl, Google bot đi theo các link từ các trang hiện có đến các trang mới. Bot cũng thu thập lại dữ liệu các trang mà nó đã crawl qua để xem có điều gì thay đổi không. Dupplicate content làm cho Google bot phải crawl nhiều hơn trên cùng 1 loại content. Điều đó có thể ảnh hưởng đến tốc độ và tần suất bot thu thập dữ liệu từ các trang mới đăng tải, dẫn đến việc index các trang mới bị chậm trễ.