Các công cụ tìm kiếm Web hoạt động như thế nào?
12:22' 01/06/2005 (GMT+7)
Các công cụ tìm kiếm Web được dùng để tìm kiếm
thông tin trên World Wide Web (WWW). Nó có thể tìm được bất kỳ thông tin gì trên
Web trong khi không cần một địa chỉ Web cụ thể nào, đặc biệt là khi Internet
phát triển rất nhanh hàng ngày theo hàm mũ. Nhưng bạn có biết các công cụ tìm
kiếm đó hoạt động như thế nào không? Và bạn có biết cái gì làm cho một số công
cụ lại mạnh và hiệu quả hơn các công cụ khác không?
Về cơ bản có 3 loại công cụ tìm kiếm: một số
được vận hành bởi các crawler, hoặc các
spider; một số được vận hành bởi
human submissions, và một số là sự kết hợp của
hai loại trên.
·
Các công cụ dựa
trên Crawler gửi các crawler, hoặc là spider ra ngoài. Các crawler này sẽ đến
một trang web, đọc các thông tin thực sự của trang web đó, đọc các
meta tag của trang web và nó cũng đến tận các
link mà trang web đó link đến. Các crawler này sẽ gửi tất cả các thông tin về
trung tâm lưu trữ để liệt kê các dư liệu ra. Crawler sẽ quay trở lại trang web
đó một cách định kỳ để cập nhập sự thay đổi trên trang web đó, và chu kỳ cập
nhật này là do ngưòi quản trị của công cụ tìm kiếm đó đặt cấu hình.
·
Các công cụ tìm
kiếm Human-powered thì lại tin vào các thông tin được liệt kê ra bởi người quản
trị trang web, rồi sau đó các thông tin này sẽ được liệt kê và đưa vào bảng liệt
kê. Chỉ những thông tin được đưa ra bởi nhà quản trị web mới được đưa vào bảng
liệt kê.
Trong cả
hai trường hợp, khi bạn yêu cầu tìm kiếm một thông tin gì thì thực tế bạn đều
phải tìm trong bảng liệt kê công cụ tìm kiếm mà nó đã tạo ra. Thực tế bạn sẽ
không tìm trên các web! Các bảng liệt kê này là những cơ sở dữ liệu khổng lồ
được tạo ra, lưu trữ và sau đó được tìm kíêm. Điều này giải thích tại sao thỉnh
thoảng khi tìm kiếm trên các công cụ tìm kiếm thương mại, ví dụ như Yahoo! Hay
Google, sẽ trả về kết quả chỉ là các link. Bởi vì là các kết quả dựa trên bảng
liệt kê, nên khi các công cụ tìm kiếm chưa kịp cập nhật thì nếu có một web nào
đó không hoạt động nữa, kết quả vẫn ra link tới nó. Điều này chỉ được sửa lại
khi công cụ tìm kiếm cập nhật lại thông tin từ web đó.
Vậy, tại
sao cùng tìm kiếm một thông tin trên các công cụ khác nhau thì lại cho kết quả
không giống nhau? Một phần là vì không phải các bảng liệt kê của các công cụ là
hoàn toàn giống nhau. Nó phụ thuộc vào các spider được tìm thấy hay thông tin
được nhà quản trị web trình ra. Nhưng một điều quan trọng là không phải các công
cụ đều dùng chung một thuật toán để tìm trên các bảng liệt kê. Thuật toán là
cách mà các công cụ tìm ra các thông tin liên quan, phù hợp với thông tin mà
người dùng cần tìm.
Một trong
các yếu tố của thuật toán tìm kiếm của các công cụ tìm kiếm là: tần số xuất hiện
và vị trí của các từ khoá (Keyword). Tần số suất hiện càng cao thì càng thích
hợp.
Một yếu
tố khác cũng rất phổ biến của công cụ tìm kiếm là nó dựa vào cách trang web đó
link đến các trang khác như thế nào trong trang web. Bằng cách phân tích các
trang link tới nhau như thế nào, các công cụ tìm kiếm có thể xác định được nội
dung trang đấy là về cái gì, biết được trang nào là phù hợp hơn. Các công cụ
ngày càng trở nên tinh vi hơn và tìm kiếm cũng hiệu quả, chính xác hơn!
|