VB100: RAP (reactive/proactive) testing - April 2010
Như đã giới thiệu trong bài viết cuối năm ngoái của tôi, từ tháng 2/2009, VB100 sẽ thực hiện các bài thử nghiệm RAP (reactive/proactive) theo định kỳ 2 tháng, mà chúng ta sẽ tạm gọi là bài kiểm tra đo khả năng phản ứng nhanh/bảo vệ tiên phong. Thử nghiệm RAP của VB100 sẽ đo khả năng phản ứng và bảo vệ đón đầu chống lại các mã độc xuất hiện trên toàn thế giới. Các thử nghiệm này được tiến hành thông qua 4 bộ mẫu riêng biệt. 3 bộ mẫu đầu chứa các mã độc được thu thập trong mỗi tuần trước thời hạn giao nộp sản phẩm tham gia thử nghiệm. Những thử nghiệm này sẽ đo khả năng phản ứng nhanh của các nhà phát triển sản phẩm với dòng mã độc ổn định xuất hiện trên toàn thế giới. Kết quả của các thử nghiệm này đã được VB100 công bố hồi đầu tháng 4/2010. Bộ mã độc thứ 4 bao gồm các mã độc lần đầu xuất hiện, được thu thập vào tuần ngay sau hạn chót nộp sản phẩm tham gia thử nghiệm, giúp đánh giá khả năng phát hiện đón đầu các mã độc mới, chưa được nhận dạng, dựa vào phép nghiệm suy và phân tích chủng loại.Như vậy, trong 2 loại thử nghiệm mà VB100 thực hiện, thì tôi cho rằng thử nghiệm RAP có ý nghĩa thực tế hơn, vì tuy nó sử dụng bộ mẫu nhỏ hơn so với thử nghiệm VB100, nhưng những mẫu mã độc dùng trong thử nghiệm mới hơn và là những mẫu mã độc hiện đang tồn tại và lây nhiễm trên toàn thế giới. Để các bạn hiểu rõ hơn về thử nghiệm RAP, tôi sẽ giới thiệu chi tiết về thử nghiệm này của VB100. Sự khác nhau giữa các phòng thử nghiệm phần mềm diệt virus có thể đọc kỹ hơn tại đây.
Về thử nghiệm RAP của VB100
Thử nghiệm đo khả năng phản ứng (Reactive)
Sau khi xác định thời hạn nộp sản phẩm cho bài đánh giá so sánh, Virus Bulletin sẽ biên soạn một bộ sưu tập các mẫu phần mềm độc hại được gặp lần đầu tiên trong mỗi trong ba tuần trước ngày hạn chót. Chúng được gọi là "tuần -3", "tuần -2" và "tuần -1". Những mẫu thử nghiệm này sẽ được sử dụng cho bài kiểm tra đánh giá so sánh khả năng "phản ứng" của các phần mềm; nó cho biết các nhà phát triển sản phẩm và các phòng thí nghiệm có thể làm tốt tới đâu trong việc bắt kịp sự phát triển ổn định và vững chắc của các phần mềm độc hại mới đang xuất hiện từng ngày trên khắp thế giới. Hầu hết các mẫu đều nằm trong các tập hợp được thu thập hàng ngày, được chia sẻ giữa các phòng thí nghiệm và các tổ chức đáng tin cậy. Chúng thường được coi như mức ưu tiên cao, và do đó các phòng thí nghiệm phần mềm độc hại có uy tín nhất cần phải có quyền truy cập vào các mẫu ngay khi chúng ta thấy chúng, nếu không muốn nói là trước cả khi chúng ta thấy chúng. Việc xác định xem liệu các sản phẩm diệt virus có thể đương đầu với các mã độc hay không, và nếu cần, xem xét thêm cả khả năng phát hiện mã độc, là mục tiêu chính của thử nghiệm.
Mức ưu tiên cũng là một vấn đề chính ở đây, và một số phòng thí nghiệm có lẽ hoàn toàn đúng khi coi khả năng phát hiện được toàn bộ những thứ nguy hiểm và đặc biệt phổ biến là quan trọng hơn so với việc nhắm vào mục tiêu mơ hồ là các trojan, thứ mà hầu như không có khả năng xuất hiện trở lại. Để khắc phục điều này, Virus Bulletin đã thực hiện một số ưu tiên của riêng họ, quá trình lựa chọn mẫu từ các dữ liệu phổ biến được họ thu thập từ nhiều nguồn, mục đích là để thu thập được những thứ quan trọng nhất. Điều này không phải là một nhiệm vụ đơn giản; các dữ liệu phổ biến tồn tại ở nhiều dạng, và chúng ngày càng khó khăn trong việc phân loại, do các họ gia đình và tên nhóm biến thể ngày càng trở nên mơ hồ và chung chung.
Bài kiểm tra thử nghiệm thứ hai của Virus Bulletin bao gồm một số so sánh giữa những tỷ lệ phát hiện đạt được khi quét toàn bộ mẫu thử và khi chỉ quét những mẫu được xác định là đặc biệt phổ biến. Thử nghiệm này đã thu được một số kết quả rất thú vị. Tuy nhiên, một phần lý do của việc lọc các mẫu thử đầu vào theo mức độ phổ biến là nhằm giảm thiểu lượng mẫu thử đầu vào đến một mức độ có thể quản lý được, giúp cho chúng có thể được kiểm tra và xác nhận trong một khoảng thời gian ngắn, do đó các kết quả này sẽ không thích hợp khi so sánh một cách toàn diện.
Thử nghiệm đo khả năng bảo vệ tiên phong (Proactive)
Nhánh thứ hai trong bài kiểm tra mới này là góc độ chủ động. Ngoài các bộ mẫu được thu thập trước hạn nộp sản phẩm một tuần và được sử dụng trong ba bài kiểm tra trước, một bộ mẫu thứ tư sẽ được thu thập vào tuần ngay sau hạn nộp sản phẩm ("tuần +1"). Bộ này bao gồm chủ yếu các mẫu chưa gặp trong các phòng thí nghiệm tại thời điểm nộp sản phẩm, và do đó sẽ không được sử dụng trong thử nghiệm phát hiện mục tiêu. Mục đích của thử nghiệm này là để đánh giá khả năng phát hiện các mẫu mã độc mới và chưa biết của sản phẩm một cách chủ động, bằng cách sử dụng các kỹ thuật nghiệm suy và phân tích loại. So sánh kết quả của "tuần +1" với kết quả của ba tuần trước đó sẽ cung cấp một cái nhìn sâu sắc vào mức độ chủ động tương phản với sự phản ứng nhanh của các nhà cung cấp.
Đây là một bước tiến đáng kể trong thử nghiệm so sánh của VB, trong đó bộ mẫu kiểm tra (cả các mẫu độc hại và các mẫu sách) được đặt trước thời hạn một cách nghiêm ngặt (một vài ngày trước thời hạn nộp sản phẩm), cung cấp cho các nhà phát triển sản phẩm thời gian để đảm bảo rằng sản phẩm của họ có thể hoàn toàn kiểm soát được các mẫu trong thử nghiệm của VB. Điều này cũng có nghĩa là bài kiểm tra toàn diện không thể bắt đầu cho đến một tuần sau thời hạn nộp sản phẩm. Trong quá khứ, các sản phẩm tham gia thử nghiệm đã được tiến hành kiểm tra trong khoảng một tháng trước khi kết quả được công bố, các thử nghiệm và việc xử lý kết quả được tiến hành trong suốt một tháng. Do đây đã là một lịch trình khá chặt chẽ - đặc biệt là với số lượng ngày càng tăng của các sản phẩm tham gia trong những năm gần đây - nên có lẽ cần thiết lập thời hạn sớm hơn một chút, nhưng những điều chỉnh lịch trình này cần ở mức tối thiểu, để đảm bảo kết quả công bố là cập nhật nhất có thể.
Việc điều chỉnh trong thời gian thử nghiệm cũng sẽ gây áp lực đáng kể vào quá trình xác nhận phần mềm độc hại của VB. Hiện VB đang tập trung vào việc cố gắng để tự động hóa quá trình xác nhận càng nhiều càng tốt, để có được số lượng mẫu xử lý sử dụng trong thử nghiệm nhiều nhất có thể.
Kết quả thử nghiệm
Những độc giả thông minh có thể dự đoán được ngay kết quả đầu ra của những thử nghiệm này. Dự đoán ban đầu là hầu hết các sản phẩm sẽ cho thấy sự suy giảm nhỏ về hiệu suất trong ba tuần với thử nghiệm phản ứng, với sự thay đổi rõ rệt nhất là đối với bộ sưu tập mẫu thu thập cách đây lâu nhất ("tuần -3"), và sự suy giảm còn rõ rệt hơn trong thử nghiệm phát hiện tiên phong các mã độc ("tuần +1"). Mô hình này dự kiến sẽ được thấy rất rõ ràng đối với cho những sản phẩm mà các phòng thí nghiệm tập trung vào thời gian phản ứng nhanh qua phép nghiệm suy. Trong các thử nghiệm, mô hình này được tiếp nối khá tốt ở mức độ chung, nhưng ở cấp độ sản phẩm cá nhân có nhiều bất ngờ và dị thường, một xu hướng đặc biệt thú vị là sự thể hiện đáng thất vọng của nhiều sản phẩm đối với các mẫu ở "tuần -3" so với các mẫu ở "tuần -1".
Các kết quả thử nghiệm sẽ được thể hiện bằng biểu đồ, như hình minh họa ở trên. Ba thanh màu xanh nhạt đại diện (từ trái qua) cho tuần -3, -2 và -1, trong khi thanh màu xanh đậm tượng trưng cho tuần +1. Điểm RAP tổng thể cũng được trình bày trên đồ thị, đại diện cho khả năng phát hiện trung bình trong vòng bốn tuần. Các trường hợp sản phẩm gây ra cảnh báo nhầm trong thử nghiệm sẽ được tô màu đỏ ở nền đồ thị và có một dấu gạch chéo (dấu nhân "X") lớn, màu đen, cùng với ký hiệu "FP =" cho biết số lượng cảnh báo nhầm gây ra.
Kết quả thử nghiệm RAP tháng 4/2010
Danh sách các sản phẩm tham gia thử nghiệm:
Agnitum Outpost Security Suite Pro
AhnLab V3 Internet Security
Alwil avast! free antivirus
Arcabit ArcaVir 2010
Authentium Command Anti-Malware
Avanquest Double Anti-Spy Professional
AVG Internet Security Network Edition
Avira AntiVir Personal
Avira AntiVir Professional
BitDefender Antivirus 2010
Bkav Gateway Scan
Bkav Home Edition
Bullguard Antivirus
CA Threat Manager
Central Command Vexira Antivirus Professional
Check Point Zone Alarm Suite
Defenx Security Suite 2010
Digital Defender Antivirus
eEye Digital Security Blink Professional
Emsisoft a-squared Anti-Malware
eScan Internet Security for Windows
ESET NOD32 Antivirus
Filseclab Twister Anti-TrojanVirus
Fortinet FortiClient
Frisk F-PROT
F-Secure Client Security
F-Secure PSB Workstation Security
G DATA Antivirus 2010
Ikarus virus.utilities
iolo System Mechanic Professional
K7 Total Security
Kaspersky Anti-Virus 2010
Kaspersky Anti-Virus 6 for Windows Workstations
Kingsoft Internet Security 2010 Advanced Edition
Kingsoft Internet Security 2010 Standard Edition
Kingsoft Internet Security 2010 Swinstar Edition
Lavasoft Ad-Aware Professional Internet Security
McAfee Total Protection
McAfee VirusScan Enterprise
Microsoft Security Essentials
Nifty Corp. Security 24
Norman Security Suite
Norman Security Suite
PC Tools Internet Security 2010
PC Tools Spyware Doctor
Preventon AntiVirus
Proland Protector Plus Professional
Qihoo 360 Security
Quick Heal AntiVirus 2010
Rising Internet Security 2010
SGA Corp. SGA-VC
Sophos Endpoint Security and Control
SPAMfighter VIRUSfighter Plus
SPAMfighter VIRUSfighter Pro
Sunbelt VIPRE AntiVirus Premium
Symantec Endpoint Protection
Symantec Norton Antivirus
Trustport Antivirus 2010
VirusBuster Professional
Webroot AntiVirus with SpySweeper
Các kết quả thử nghiệm "tuần -1", "tuần -2" và "tuần -3" đã được công bố hồi đầu tháng 4/2010. Dưới đây là kết quả thử nghiệm "tuần +1" của VB100.
Đồ thị trên biểu diễn tỷ lệ phản ứng (trục tung) so với phát hiện tiên phong (trục hoành).
Các bạn có thể nhận ra ngay rằng hầu hết các điểm biểu diễn tỷ lệ phản ứng/phát hiện tiên phong của các sản phẩm đều nằm phía trên đường thẳng nối góc trái-dưới với góc phải-trên, có nghĩa là chúng để có khả năng phản ứng với các mã độc đang tồn tại tốt hơn so với khả năng nhận diện các mã độc mới, điều này rất dễ hiểu. Xu hướng thứ 2 là hầu hết các sản phẩm đều nằm trên một đường thẳng song song với đường thẳng y=x (nằm ở nửa mặt phẳng phía trên), có nghĩa là tỷ lệ phản ứng/phát hiện tiên phong của các sản phẩm diệt virus biến thiên tuyến tính; nói cách khác, một sản phẩm có khả năng phản ứng với mã độc hiện tại càng nhạy, thì khả năng phần mềm đó phát hiện đón đầu các mã độc mới sẽ càng cao. Điều này có thể được giải thích là do một sản phẩm nhận diện được nhiều mã độc hiện hành, thì cơ sở dữ liệu nhận dạng (hay "signature" - chữ ký) càng lớn và càng hiệu quả, nên khả năng "tóm" được các mã độc cùng chủng loại, cùng họ (hay "family" - gia đình) sẽ càng cao. Tất nhiên là điều này chỉ là tương đối, vì nó còn phụ thuộc vào sự "thông minh" của phép nghiệm suy và sản phẩm đó được trang bị, và cũng phục thuộc vào mẫu thử được sử dụng trong thử nghiệm.
Xem trên đồ thị, các bạn có thể nhận ra ngay rằng các sản phẩm diệt virus tốt nên nằm trên (thuộc) đường thẳng y=x, tức là nó nhận diện được bao nhiêu mã độc hiện tại, thì cũng có khả năng nghiệm suy được bấy nhiêu mã độc chưa biết trước, đây là tỷ lệ tuyệt đối và không thể đạt được trong thực tế. Đồ thị nằm dưới đường thẳng y=x là điều không thể. Sản phẩm có đồ thị biểu diễn nằm phía trên, càng gần đường y=x thì càng tốt, và nằm càng cao càng tốt.
Như vậy, các sản phẩm nằm ở nhóm trên gồm Emsisoft, Trustport, Kaspersky 2010, Kaspersky 6, Check Point, ESET, Webroot, Sophos, G DATA, McAfee TP, Sunbelt, Ikarus,... Các sản phẩm khá nổi tiếng, nhưng chỉ đạt mức trung bình gồm: Symantec Norton, AVG, BitDefender,... Còn các sản phẩm ở mức thấp như: Bkav Home, Bkav Gateway, Kingsoft Advanced/Standard/Swinstar,...
Đáng chú ý là Kaspersky đạt điểm rất cao trong thử nghiệm này, Zone Alarm sử dụng engine của Kaspersky nên cũng dành được kết quả cao, tiếc là nó không vượt qua thử nghiệm VB100 trên Windows XP SP3 trong khi Kaspersky lại vượt qua (có lẽ là do cơ sở dữ liệu nhận dạng mã độc, hoặc phép nghiệm suy sử dụng cho phiên bản dành cho doanh nghiệp khác với phiên bản dành cho người dùng đơn lẻ đã dẫn đến sai khác này). Năm ngoái Kaspersky 6 đã có kết quả ở mức trung bình, nhưng phiên bản mới ra mắt của Kaspersky Anti-Virus 6 MP4 (phát hành sau Kaspersky 2010) đã làm rất tốt, khi tiến thẳng lên top đầu.
Trustport sử dụng 2 engine của BitDefender và AVG, còn G DATA sử dụng 2 engine của Avast và BitDefender, nên tỷ lệ phát hiện mã độc và nghiệm suy của hai phần mềm này rất cao, nhưng tốc độ quét chậm và hay gây ra các cảnh báo nhầm. Tuy nhiên, trong thử nghiệm của AV-Comparatives năm ngoái, G DATA đã cho thấy tốc độ quét cao, và số lượng cảnh báo nhầm rất thấp, điều này thực sự ấn tượng. Trustport có khả năng phát hiện đón đầu các mã độc chưa được nhận diện cao nhất (~80%), còn sản phẩm a-squared Anti-Malware của Emsisoft có khả năng phản ứng lại mã độc hiện tại cao nhất (98,72%).
McAfee tuy không có những thuận lợi từ công nghệ điện toán đám mây của mình (do những hạn chế trong quy tắc thực hiện thử nghiệm của VB100), nhưng vẫn đạt kết quả rất cao. Trong khi đó, sản phẩm Norton của đại gia Symantec lại có kết quả đáng thất vọng, mặc dù nó đạt được kết quả cao nhất trong thử nghiệm động của AV-Comparatives năm ngoái. Nếu được sử dụng những ưu điểm của công nghệ Insight Protection thì liệu nó có khá hơn? Điều này thì tôi không dám chắc. Còn Panda thì đã từ chối tham gia thử nghiệm ngay từ đầu, do không được phép phát huy tính năng điện toán đám mây.
Microsoft Security Essentials là sản phẩm được mong đợi và đã gây ra rất nhiều bất ngờ thú vị trong các thử nghiệm năm 2009, nhưng các kết quả thử nghiệm năm nay có vẻ không thuận lợi cho Microsoft, khi MSE chỉ đạt thứ hạng trung bình trong các thử nghiệm của cả AV-Comparatives và VB100.
Kingsoft của Trung Quốc và Bkav của Việt Nam là hai sản phẩm châu Á tham gia thử nghiệm, và cả hai đều đạt kết quả rất thấp. Tuy nhiên, theo quan điểm cá nhân, tôi nghĩ rằng đây là bước tiến quan trọng, vì ít nhất thì bước đầu họ cũng đã chứng tỏ rằng phần mềm diệt virus không phải chỉ để diệt virus nội địa, và đây cũng là bước đầu để làm quen chứng tỏ mình trên thị trường quốc tế. Hy vọng họ sẽ làm tốt hơn trong các thử nghiệm sắp tới.
Dưới đây là kết quả thử nghiệm RAP trung bình tính từ tháng 10/2009 tới tháng 4/2010:
0 comments: