5 điều bạn cần biết trước khi thu thập dữ liệu từ Facebook

Source: 5 điều bạn cần biết trước khi thu thập dữ liệu từ Facebook
Facebook là một trong những mạng xã hội được mọi người công khai thông tin cá nhân một cách rộng rãi hiện nay. Nếu bạn đã tạo tài khoản và đăng thông tin, hình ảnh cá nhân lên Internet thì không có cách nào để bảo mật hoàn toàn thông tin cá nhân. Các nhà phân tích dữ liệu sẽ cần hàng nghìn thông tin thực trên Internet, vì vậy Facebook cũng là một trong những nơi cung cấp thông tin cho họ.
1. Trên thực tế, Facebook không cho phép bất kỳ máy quét nào, theo tệp robots.txt của nó.
Khi lên kế hoạch chỉnh sửa một trang web, trước tiên bạn nên kiểm tra tệp robots.txt của trang web đó. Robots.txt là một tệp được các trang web sử dụng để cho “bot” biết liệu một trang web có nên được thu thập thông tin và lập chỉ mục hay không. Bạn có thể truy cập tệp bằng cách thêm “/robots.txt” vào cuối liên kết đến trang web mục tiêu của bạn.

Nhập https://ift.tt/2zWj9vB vào trình duyệt của bạn và kiểm tra tệp robot Facebook. Hai dòng này có thể được tìm thấy ở cuối tệp:
Các dòng nói rằng Facebook cấm tất cả các công cụ thu thập tự động. Có nghĩa là, không có phần nào của trang web nên được truy cập bởi trình thu thập thông tin tự động.
Tại sao chúng ta cần tôn trọng robots.txt?
Các trang web sử dụng tệp rô bốt để chỉ định một bộ quy tắc về cách bạn hoặc bot sẽ tương tác với chúng. Khi một trang web chặn tất cả quyền truy cập vào trình thu thập thông tin, điều tốt nhất nên làm là để trang web đó yên. Theo dõi tệp rô bốt là để tránh thu thập dữ liệu phi đạo đức cũng như bất kỳ phân nhánh hợp pháp nào.
2. Về mặt kỹ thuật, cách hợp pháp duy nhất để thu thập dữ liệu từ Facebook bằng trình thu thập thông tin là xin phép trước bằng văn bản
Facebook đã cảnh báo ngay từ đầu tệp robot của họ: “Việc thu thập thông tin Facebook bị cấm trừ khi bạn có sự cho phép rõ ràng bằng văn bản.”

Kiểm tra liên kết trên dòng thứ hai, bạn có thể tìm thấy Điều khoản thu thập dữ liệu tự động của Facebook, được sửa đổi lần cuối vào ngày 15 tháng 4 năm 2010.
Giống như bất kỳ điều khoản và điều kiện nào khác trên thế giới, Điều khoản thu thập dữ liệu tự động của Facebook dài (với kích thước phông chữ nhỏ bất thường) và đầy đủ các điều khoản pháp lý mà ít người có thể hiểu được. đầy.
Những thuật ngữ này trông rất quen thuộc, như chúng ta sẽ thấy mỗi khi cài đặt một ứng dụng mới trên điện thoại di động hoặc đăng ký một trang web.
- “Bằng cách xin phép… bạn đồng ý tuân theo…”
- “Bạn đồng ý rằng bạn sẽ không…”
- “Bạn đồng ý rằng bất kỳ hành vi vi phạm các điều khoản này đều có thể dẫn đến…”
Tuy nhiên, họ có thể không ngây thơ như nhau.
Là một gã khổng lồ về truyền thông xã hội, Facebook có tiền, thời gian và một đội ngũ pháp lý tận tâm. Nếu bạn tiếp tục xa lánh Facebook bằng cách bỏ qua Điều khoản thu thập dữ liệu tự động của họ, điều đó tốt, nhưng chỉ cần được cảnh báo rằng ít nhất họ đã được nhắc phải có “sự cho phép bằng văn bản”. “. Họ đôi khi có thể khá hung hăng đối với việc thu thập dữ liệu bất hợp pháp.
3. Nhưng bạn chắc chắn vẫn có thể lấy dữ liệu từ Facebook khi cần
Nếu bạn đã thực hiện việc thu thập thông tin mà không tôn trọng robots.txt, điều đó không có nghĩa là bạn sẽ gặp rắc rối pháp lý vì bạn đã vi phạm các quy tắc.
Dữ liệu được thu thập từ phương tiện truyền thông xã hội chắc chắn là tập dữ liệu lớn nhất và năng động nhất về hành vi của con người và các sự kiện trong thế giới thực. Trong hơn một thập kỷ, các nhà nghiên cứu và chuyên gia kinh doanh trên khắp thế giới đã thu thập thông tin từ Facebook bằng công cụ thu thập, tạo ra các mẫu đại diện để hiểu các cá nhân, nhóm và xã hội. cơ hội, cũng như khám phá các cơ hội hoàn toàn mới ẩn trong dữ liệu.
Đối với người dùng, họ sẽ đồng ý rằng sử dụng dữ liệu xã hội không phải lúc nào cũng là điều xấu. Ví dụ: việc sử dụng dữ liệu xã hội để cá nhân hóa hoạt động tiếp thị đã giúp giữ cho Internet không bị gián đoạn và làm cho các quảng cáo và nội dung chúng ta thấy có liên quan hơn.
Các công cụ bạn có thể sử dụng để lấy dữ liệu Facebook
Để đối phó với sự phản đối kịch liệt của công chúng sau vụ bê bối Cambridge Analytica, Facebook đã thực hiện các hạn chế truy cập đáng kể đối với các API của mình vào tháng 4 năm ngoái.
Giao diện lập trình ứng dụng (API) là giao diện phần mềm được thiết kế để sử dụng bởi các chương trình máy tính cho phép mọi người truy cập dữ liệu quy mô lớn bằng các quy trình tự động. Ngày nay, nhiều công ty cung cấp API công khai như một phương tiện để người dùng, nhà nghiên cứu và nhà phát triển ứng dụng bên thứ ba truy cập vào cơ sở hạ tầng của họ.
Việc Facebook ngăn chặn triệt để các API và hạn chế truy cập dữ liệu như một nỗ lực để bảo vệ thông tin người dùng của mình đang gây khá nhiều tranh cãi. Nhưng kết quả là bây giờ tất cả mọi người chỉ còn lại một sự lựa chọn.
Nếu không có API, giờ đây chúng ta chỉ có thể lấy dữ liệu Facebook thông qua giao diện người dùng, tức là các trang web. Đây chính xác là nơi mà các công cụ tìm kiếm web phát huy tác dụng. Chúng tôi đã viết một blog về một số trình thu thập thông tin mạng xã hội tốt nhất.
4. Tuy nhiên, sau khi GDPR có hiệu lực, có nhiều khả năng bị kiện hơn nếu bạn đang cố gắng thu thập dữ liệu cá nhân
Quy định chung về bảo vệ dữ liệu của Liên minh Châu Âu, hay còn gọi là GDPR, có hiệu lực vào ngày 25 tháng 5 năm 2018. Đây được cho là thay đổi quan trọng nhất trong quy định về quyền riêng tư của dữ liệu. trong 20 năm, buộc phải thay đổi sâu rộng mọi thứ, từ công nghệ đến quảng cáo, ma túy đến ngân hàng.
Các công ty hoặc tổ chức nắm giữ và xử lý lượng lớn dữ liệu người tiêu dùng, chẳng hạn như các công ty công nghệ như Facebook, bị ảnh hưởng nhiều nhất bởi GDPR. Trước đó, tất cả các công ty này đều phải thực thi các quy tắc để bảo vệ dữ liệu người dùng. Bây giờ theo GDPR, họ cần đảm bảo rằng họ hoàn toàn tuân thủ luật pháp.
Tin tốt là…
GDPR chỉ áp dụng cho dữ liệu cá nhân.
Ở đây “dữ liệu cá nhân” đề cập đến dữ liệu có thể được sử dụng để xác định trực tiếp hoặc gián tiếp một cá nhân cụ thể. Loại thông tin này được gọi là Thông tin nhận dạng cá nhân (PII), bao gồm tên của một người, địa chỉ thực, địa chỉ email, số điện thoại, địa chỉ IP, ngày sinh, thông tin việc làm và thậm chí cả video / ghi âm.
Nếu bạn không thu thập dữ liệu cá nhân, GDPR sẽ không áp dụng.
Tóm lại, trừ khi bạn có sự đồng ý rõ ràng của người đó, việc chỉnh sửa dữ liệu cá nhân của cư dân Liên minh Châu Âu theo GDPR hiện là bất hợp pháp.
5. Và bạn có thể thử các nguồn Facebook thay thế cho dự án sưu tập của mình
Như đã đề cập ở trên, mặc dù Facebook cấm tất cả các trình thu thập thông tin tự động nhưng về mặt kỹ thuật vẫn có thể thu thập dữ liệu từ trang web. Vấn đề là –
Đó là một rủi ro.
Ngoài các phân nhánh pháp lý, bạn có thể thấy rằng việc truy xuất dữ liệu mong muốn một cách thường xuyên có thể khó khăn hơn vì Facebook chặn các IP đáng ngờ và thậm chí có thể triển khai các cơ chế chặn khó hơn trong tương lai. Trong tương lai, điều này có thể dẫn đến việc dữ liệu bị xóa hoàn toàn khỏi trang web Impossible.
Do đó, bạn nên tìm kiếm các nguồn đáng tin cậy hơn cho dữ liệu truyền thông xã hội để có được thông tin kinh doanh và hiểu biết sâu sắc về thị trường mục tiêu của bạn.
4 nguồn dữ liệu thay thế cho Facebook
Với khoảng 500 triệu tweet được tạo ra mỗi ngày, Twitter là một biển thông tin có thể được sử dụng như một nguồn tuyệt vời để theo dõi thương hiệu và đo lường tình cảm của khách hàng. Không giống như Facebook, Twitter cho phép mọi người truy cập dữ liệu trên quy mô lớn thông qua các API của Twitter.
Có nhiều người dùng như Twitter, Reddit là một trong những nguồn UGC (Nội dung do người dùng tạo) lớn nhất trên thế giới. Reddit cũng cung cấp các API công khai có thể được sử dụng cho nhiều mục đích khác nhau như thu thập thông tin, bot nhận xét tự động hoặc thậm chí để hỗ trợ kiểm duyệt subreddit.
VKontakte (VK)
VK là một nền tảng truyền thông xã hội của Nga nhằm vào người Nga và những người dùng Đông Âu khác. Đến nay, nó tự hào có hơn 90 triệu khách truy cập mỗi tháng và 9 tỷ lượt xem trang mỗi ngày. Là một công ty của Nga, VK tuân thủ luật pháp của Nga và nếu bạn kiểm tra tệp robot của nó, bạn sẽ thấy nó khá thân thiện với trình thu thập thông tin.
Thuộc sở hữu của Facebook, Instagram tập trung hơn vào việc chia sẻ nội dung trực quan, đặc biệt là video và hình ảnh. Nền tảng này được nhiều thương hiệu sử dụng để nhân hóa nội dung của họ nhằm kết nối tốt hơn với khách hàng và tăng nhận thức về thương hiệu. Tuy nhiên, cùng với việc Facebook khóa dữ liệu vào năm ngoái, Instagram cũng đã thực hiện các hạn chế triệt để đối với quyền truy cập dữ liệu, điều này khiến trang web trở nên kém tin cậy hơn nhiều so với trước đây.
Via: ihedieuhanh.com
from ihedieuhanh.com https://ift.tt/fosyA15
via Ihedieuhanh.com
Nhận xét
Đăng nhận xét