Labels

[Blogger] Lấy toàn bộ dữ liệu bài viết blog và cách ngăn chặn


Tính năng nguồn cấp dữ liệu bài đăng (RSS-ATOM) của blogger bao gồm những bài viết, những trang tĩnh. Nhưng nhiều lúc nó lại trở thành con dao 2 lưỡi, trở thành công cụ để những "copier" ăn cắp công sức viết bài của bạn. Trong bài viết này chúng ta sẽ tìm hiểu về nó

I. Lấy dữ liệu từ 1 blog bất kì (áp dụng cho các blog chưa dùng dấu ngắt nháy)


Bước 1: Xác định được tổng số bài viết blog đó đang có


Truy cập https://hung1001-demo.blogspot.com và dán code bên dưới vào

<script type='text/javascript'>
function showpostcount(json) {
    document.write('<b>Tổng số bài viết: ' + parseInt(json.feed.openSearch$totalResults.$t, 10) + '</b>');
}
</script>

<script src='https://hunghoangvan1001nd.blogspot.com/feeds/posts/default?alt=json-in-script&callback=showpostcount' type='text/javascript'></script>

Thay địa chỉ blog thành địa chỉ blog bạn muốn lấy dữ liệu

Bước 2: Lấy dữ liệu


Mở 1 tab mới và dán theo mẫu sau

https://hunghoangvan1001nd.blogspot.com/atom.xml?redirect=false&start-index=X&max-results=Y

Trong đó: 
  • Thay https://hunghoangvan1001nd.blogspot.com thành địa chỉ blog bạn muốn lấy
  • X: Bài bắt đầu, nếu lấy từ bài đầu tiên thì X=1
  • Y: Tổng số bài tính từ X (mỗi lần lấy không được quá 500 bài vì blog chỉ cho tải tối đa feed 500 bài)
Ví dụ blog có khoảng 1000 bài và bạn muốn lấy hết thì bạn phải làm 2 lần
Sau khi dán vào trình duyệt bạn sẽ thu được 1 file cấu trúc dạng xml, bạn nhấn tổ hợp phím CTRL + S và lưu với đuôi .xml

Bước 3: Nhập nội dung 


Bạn tiến hành nhập nội dung trong phần cài đặt


Vượt capcha và trỏ tới file .xml bạn vừa lưu


Đợi 1 lúc blogger sẽ import dữ liệu từ file .xml cho bạn, thời gian nhanh hay chậm phụ thuộc vào số bài viết bạn đã lấy.

Lưu ý: Không nên import liên tục nhiều file xml sẽ rất dễ bị google đánh dấu spam, bạn cần đăng 1 vài bài lấy lệ để vượt capcha rồi mới tiếp tục import. Tuy nhiên hành động này không được khuyến khích vì nó chẳng khác nào đi ăn cắp dữ liệu của người khác

II. Cách ngăn chặn


Cách ngăn chặn khá đơn giản nhưng đòi hỏi bạn cần tạo cho mình thói quen khi viết bài. Trước tiên bạn cần giới hạn nguồn cấp atom trong phần cài đặt bằng tùy chọn sau


Theo đó khi bị người khác lấy dữ liệu atom, bài viết sẽ chỉ hiển thị tới dấu ngắt nháy nếu trong bài viết bạn có sử dụng

Vì vậy mỗi khi viết bài bạn cần chèn dấu ngắt nháy như sau


Ngoài công dụng chặn lấy nguồn cấp dữ liệu, dấu ngắt này còn có chức năng giúp bài viết hiển thị đúng số bài ngoài trang index nên bạn hãy tập cho mình thói quen sử dụng nó mỗi khi viết bài 

Với blogger mới vào nghề chắc chắn chưa biết được điều này, nhưng với blogger lão làng thì họ rất nắm vững vì vậy bạn phải rất đề phòng bị ăn cắp dữ liệu bài viết blog bằng thủ thuật đã đề cập ở trên để bảo vệ dữ liệu của mình

Chúc bạn thành công !

Tham khảo: dxoan blog