ข้อมูลขนาดใหญ่

ข้อมูลขนาดใหญ่โดยหลักแล้วหมายถึงชุดข้อมูล ที่มีขนาดใหญ่หรือซับซ้อนเกินกว่าที่ ซอฟต์แวร์ประมวลผลข้อมูล แบบดั้งเดิมจะจัดการได้ข้อมูลที่มีรายการ (แถว) จำนวนมากจะให้พลังทางสถิติ ที่มากขึ้น ในขณะที่ข้อมูลที่มีความซับซ้อนสูงกว่า (มีคุณลักษณะหรือคอลัมน์มากขึ้น) อาจนำไปสู่อัตราการค้นพบที่ผิดพลาด ที่สูง ขึ้น^[¹^]

ความท้าทายในการวิเคราะห์ข้อมูลขนาดใหญ่ ได้แก่การรวบรวมข้อมูลการจัดเก็บข้อมูลการวิเคราะห์ข้อมูลการค้นหาการแบ่งปันการถ่ายโอนการแสดงภาพ การสอบถาม การอัปเดตความเป็นส่วนตัวของข้อมูลและแหล่งข้อมูล เดิมทีข้อมูลขนาดใหญ่เกี่ยวข้องกับแนวคิดหลักสามประการ ได้แก่ปริมาณความหลากหลายและความเร็ว^{[ 2 ]}การวิเคราะห์ข้อมูลขนาดใหญ่ที่มีเพียงปริมาณ ความเร็ว และความหลากหลาย อาจก่อให้เกิดความท้าทายในการสุ่มตัวอย่าง ดังนั้นจึงมีการเพิ่ม แนวคิดที่สี่ คือความถูกต้องซึ่งหมายถึงระดับความน่าเชื่อถือของข้อมูล^{[ 3 ]}หากไม่มีการลงทุนอย่างเพียงพอในความเชี่ยวชาญเพื่อให้มั่นใจในความถูกต้องของข้อมูลขนาดใหญ่ ปริมาณและความหลากหลายของข้อมูลอาจก่อให้เกิดต้นทุนและความเสี่ยงที่เกินขีดความสามารถขององค์กรในการสร้างและรวบรวมมูลค่าจากข้อมูลขนาดใหญ่^{[ 4 ]}

การใช้คำว่าบิ๊กดาต้า ในปัจจุบัน มักหมายถึงการใช้การวิเคราะห์เชิงทำนายการวิเคราะห์พฤติกรรมผู้ใช้หรือวิธีการวิเคราะห์ข้อมูลขั้นสูงอื่นๆ ที่ดึงคุณค่าจากบิ๊กดาต้า และไม่ค่อยหมายถึงขนาดของชุดข้อมูลโดยเฉพาะ “ไม่ต้องสงสัยเลยว่าปริมาณข้อมูลที่มีอยู่ในปัจจุบันนั้นมีขนาดใหญ่จริง แต่ไม่ใช่ลักษณะที่สำคัญที่สุดของระบบนิเวศข้อมูลใหม่นี้” ^{[ 5 ]} การวิเคราะห์ชุดข้อมูลสามารถค้นหาความสัมพันธ์ใหม่ๆ เพื่อ “ระบุแนวโน้มทางธุรกิจ ป้องกันโรค ต่อสู้กับอาชญากรรม และอื่นๆ” ^{[ 6 ]}นักวิทยาศาสตร์ ผู้บริหารธุรกิจ แพทย์ นักโฆษณา และรัฐบาลต่างประสบปัญหาเกี่ยวกับชุดข้อมูลขนาดใหญ่เป็นประจำในด้านต่างๆ เช่นการค้นหาทางอินเทอร์เน็ตฟินเทค การวิเคราะห์ด้านการดูแลสุขภาพ ระบบสารสนเทศทางภูมิศาสตร์ สารสนเทศเมืองและสารสนเทศธุรกิจนักวิทยาศาสตร์พบข้อจำกัดใน การทำงาน ด้านวิทยาศาสตร์อิเล็กทรอนิกส์เช่นอุตุนิยมวิทยาจีโนมิกส์ [ ⁷^]คอนเน็กโทมิกส์การจำลองทางฟิสิกส์ที่ซับซ้อน ชีววิทยา และการวิจัยด้าน^{สิ่งแวดล้อม}^[⁸^]

ขนาดและจำนวนของชุดข้อมูลที่มีอยู่เพิ่มขึ้นอย่างรวดเร็ว เนื่องจากมีการรวบรวมข้อมูลโดยอุปกรณ์ต่างๆ เช่น อุปกรณ์ เคลื่อนที่ อุปกรณ์Internet of Things (IoT) ที่ตรวจจับข้อมูลราคาถูกและมีจำนวนมากอุปกรณ์ทางอากาศ ( การสำรวจระยะไกล ) บันทึก ซอฟต์แวร์ กล้องไมโครโฟนเครื่องอ่าน RFID และเครือข่ายเซ็นเซอร์ไร้สาย^[⁹^]^[¹⁰^] ความสามารถทางเทคโนโลยี ต่อหัวของโลกในการจัดเก็บข้อมูลเพิ่มขึ้นเป็นสองเท่าโดยประมาณทุกๆ 40 เดือนนับตั้งแต่ทศวรรษ 1980 ^[¹¹^]ณ ปี 2012 มีการสร้างข้อมูล 2.5 เอ็กซาไบต์ (2.17 × ^{2⁶⁰ ไบต์) ทุกวัน}^[¹²^]จากการคาดการณ์ใน รายงานของ IDCปริมาณข้อมูลทั่วโลกคาดว่าจะเติบโตแบบทวีคูณจาก 4.4 เซตตาไบต์เป็น 44 เซตตาไบต์ระหว่างปี 2013 ถึง 2020 และภายในปี 2025 IDC คาดการณ์ว่าจะมีข้อมูล 163 เซตตาไบต์^[¹³^]จากข้อมูลของ IDC คาดว่าการใช้จ่ายทั่วโลกสำหรับโซลูชันบิ๊กดาต้าและการวิเคราะห์ธุรกิจ (BDA) จะสูงถึง 215.7 พันล้านดอลลาร์ในปี 2021 ^[¹⁴^]^[¹⁵^] Statistaรายงานว่าตลาดบิ๊กดาต้าทั่วโลกคาดว่าจะเติบโตถึง 103 พันล้านดอลลาร์ภายในปี 2027 ^[¹⁶^]ในปี 2011 McKinsey & Companyรายงานว่า หากภาคการดูแลสุขภาพของสหรัฐฯ ใช้บิ๊กดาต้าอย่างสร้างสรรค์และมีประสิทธิภาพเพื่อขับเคลื่อนประสิทธิภาพและคุณภาพ ภาคส่วนนี้สามารถสร้างมูลค่าได้มากกว่า 300 พันล้านดอลลาร์ทุกปี^[¹⁷^]ในประเทศเศรษฐกิจที่พัฒนาแล้วของยุโรป ผู้บริหารภาครัฐสามารถประหยัดเงินได้มากกว่า 100 พันล้านยูโร (149 พันล้านดอลลาร์) จากการปรับปรุงประสิทธิภาพการดำเนินงานเพียงอย่างเดียวโดยใช้บิ๊กดาต้า^[¹⁷^]และผู้ใช้บริการที่เปิดใช้งานโดยข้อมูลตำแหน่งส่วนบุคคลสามารถสร้างส่วนเกินของผู้บริโภคได้ถึง 600 พันล้านดอลลาร์^[¹⁷^]คำถามหนึ่งสำหรับองค์กรขนาดใหญ่คือการกำหนดว่าใครควรเป็นเจ้าของโครงการบิ๊กดาต้าที่ส่งผลกระทบต่อทั้งองค์กร^[¹⁸^]

ระบบจัดการฐานข้อมูลเชิงสัมพันธ์และซอฟต์แวร์สถิติบนเดสก์ท็อปที่ใช้ในการแสดงภาพข้อมูลมักมีปัญหาในการประมวลผลและวิเคราะห์ข้อมูลขนาดใหญ่ การประมวลผลและการวิเคราะห์ข้อมูลขนาดใหญ่อาจต้องใช้ "ซอฟต์แวร์แบบขนานขนาดใหญ่ที่ทำงานบนเซิร์ฟเวอร์หลายสิบ หลายร้อย หรือแม้แต่หลายพันเครื่อง" ^{[ 19 ]}สิ่งที่ถือว่าเป็น "ข้อมูลขนาดใหญ่" นั้นแตกต่างกันไปขึ้นอยู่กับความสามารถของผู้ที่วิเคราะห์และเครื่องมือของพวกเขา ยิ่งไปกว่านั้น ความสามารถที่ขยายตัวทำให้ข้อมูลขนาดใหญ่เป็นเป้าหมายที่เปลี่ยนแปลงได้ "สำหรับบางองค์กร การเผชิญกับข้อมูลหลายร้อยกิกะไบต์เป็นครั้งแรกอาจกระตุ้นให้ต้องพิจารณาตัวเลือกการจัดการข้อมูลใหม่ สำหรับองค์กรอื่นๆ อาจต้องใช้ข้อมูลหลายสิบหรือหลายร้อยเทราไบต์ก่อนที่ขนาดข้อมูลจะกลายเป็นสิ่งที่ต้องพิจารณาอย่างมีนัยสำคัญ" ^{[ 20 ]}

คำนิยาม

คำว่าบิ๊กดาต้าถูกใช้มาตั้งแต่ทศวรรษ 1990 โดยบางคนให้เครดิตแก่John Masheyในการทำให้คำนี้เป็นที่นิยม^{[ 21 ]}^{[ 22 ]} โดยทั่วไปแล้วบิ๊กดาต้าจะรวมถึงชุดข้อมูลที่มีขนาดใหญ่เกินกว่าความสามารถของเครื่องมือซอฟต์แวร์ที่ใช้กันทั่วไปในการรวบรวม จัดการประมวลผลและประมวลผลข้อมูลภายในระยะเวลาที่ยอมรับได้^{[ 23 ]} ปรัชญาของบิ๊กดาต้าครอบคลุมข้อมูลที่ไม่มีโครงสร้าง ข้อมูลกึ่งโครงสร้าง และข้อมูลที่มีโครงสร้าง อย่างไรก็ตาม จุดเน้นหลักอยู่ที่ข้อมูลที่ไม่มีโครงสร้าง [ ^{24 ] "}ขนาด" ของบิ๊กดาต้าเป็นเป้าหมายที่เปลี่ยนแปลงอยู่ตลอดเวลา ณ ปี 2012 มีขนาดตั้งแต่ไม่กี่สิบเทราไบต์ไปจนถึงหลายเซตตาไบต์^{[ 25 ]} บิ๊กดาต้าต้องการชุดเทคนิคและเทคโนโลยีที่มีรูปแบบการบูรณาการ ใหม่ เพื่อเปิดเผยข้อมูลเชิงลึกจากชุดข้อมูลที่หลากหลาย ซับซ้อน และมีขนาดใหญ่มาก^{[ 26 ]}ความแปรปรวนมักถูกรวมไว้เป็นคุณลักษณะเพิ่มเติมของบิ๊กดาต้า

คำจำกัดความในปี 2018 ระบุว่า "บิ๊กดาต้าคือที่ที่ จำเป็นต้องใช้เครื่องมือ ประมวลผลแบบขนานเพื่อจัดการข้อมูล" และตั้งข้อสังเกตว่า "สิ่งนี้แสดงถึงการเปลี่ยนแปลงที่แตกต่างและชัดเจนในวิทยาศาสตร์คอมพิวเตอร์ที่ใช้ ผ่านทฤษฎีการเขียนโปรแกรมแบบขนาน และการสูญเสียการรับประกันและความสามารถบางประการที่สร้างขึ้นโดยแบบจำลองเชิงสัมพันธ์ของ Codd " ^{[ 27 ]}

ในการศึกษาเปรียบเทียบชุดข้อมูลขนาดใหญ่Kitchinและ McArdle พบว่าไม่มีลักษณะใดที่ถือว่าเป็นข้อมูลขนาดใหญ่ที่ปรากฏขึ้นอย่างสม่ำเสมอในทุกกรณีที่วิเคราะห์^{[ 28 ]}ด้วยเหตุนี้ การศึกษาอื่นๆ จึงระบุถึงการกำหนดนิยามใหม่ของพลวัตอำนาจในการค้นพบความรู้ว่าเป็นลักษณะเฉพาะ^{[ 29 ]}แทนที่จะมุ่งเน้นไปที่ลักษณะเฉพาะของข้อมูลขนาดใหญ่ มุมมองทางเลือกนี้ผลักดันความเข้าใจเชิงสัมพันธ์ของวัตถุ โดยอ้างว่าสิ่งที่สำคัญคือวิธีการรวบรวม จัดเก็บ ทำให้พร้อมใช้งาน และวิเคราะห์ข้อมูล

ข้อมูลขนาดใหญ่เทียบกับระบบวิเคราะห์ข้อมูลทางธุรกิจ

แนวคิดที่เติบโตเต็มที่มากขึ้นทำให้เห็นความแตกต่างระหว่าง "บิ๊กดาต้า" และ " ธุรกิจอัจฉริยะ " ได้ชัดเจนยิ่งขึ้น: ^{[ 30 ]}

ระบบธุรกิจอัจฉริยะใช้เครื่องมือทางคณิตศาสตร์ประยุกต์และสถิติเชิงพรรณนากับข้อมูลที่มีความหนาแน่นของข้อมูลสูง เพื่อวัดสิ่งต่างๆ ตรวจจับแนวโน้ม ฯลฯ
ข้อมูลขนาดใหญ่ใช้การวิเคราะห์ทางคณิตศาสตร์ การเพิ่มประสิทธิภาพสถิติเชิงอุปนัยและแนวคิดจากการระบุระบบที่ไม่เป็นเชิงเส้น^{[ 31 ]}เพื่ออนุมานกฎ (การถดถอย ความสัมพันธ์ที่ไม่เป็นเชิงเส้น และผลกระทบเชิงสาเหตุ) จากชุดข้อมูลขนาดใหญ่ที่มีความหนาแน่นของข้อมูลต่ำ^{[ 32 ]}เพื่อเปิดเผยความสัมพันธ์และการพึ่งพา หรือเพื่อทำการทำนายผลลัพธ์และพฤติกรรม^{[ 31 ]}^{[ 33 ]}

ลักษณะเฉพาะ

ข้อมูลขนาดใหญ่สามารถอธิบายได้ด้วยลักษณะดังต่อไปนี้:

ปริมาณ: ปริมาณข้อมูลที่สร้างและจัดเก็บ ขนาดของข้อมูลเป็นตัวกำหนดคุณค่าและข้อมูลเชิงลึกที่เป็นไปได้ และพิจารณาว่าข้อมูลนั้นถือเป็นบิ๊กดาต้าหรือไม่ ขนาดของบิ๊กดาต้าโดยทั่วไปจะมีขนาดใหญ่กว่าเทราไบต์และเพตาไบต์^{[ 34 ]}

ความหลากหลาย: ประเภทและลักษณะของข้อมูล เทคโนโลยีรุ่นก่อนๆ เช่น RDBMS สามารถจัดการกับข้อมูลที่มีโครงสร้างได้อย่างมีประสิทธิภาพและประสิทธิผล อย่างไรก็ตาม การเปลี่ยนแปลงประเภทและลักษณะจากข้อมูลที่มีโครงสร้างไปเป็นข้อมูลกึ่งโครงสร้างหรือไม่มีโครงสร้างนั้น เป็นความท้าทายสำหรับเครื่องมือและเทคโนโลยีที่มีอยู่ เทคโนโลยีบิ๊กดาต้าจึงพัฒนาขึ้นโดยมีจุดประสงค์หลักในการรวบรวม จัดเก็บ และประมวลผลข้อมูลกึ่งโครงสร้างและไม่มีโครงสร้าง (หลากหลายประเภท) ที่สร้างขึ้นด้วยความเร็วสูง (ความเร็ว) และมีขนาดใหญ่ (ปริมาณ) ต่อมา เครื่องมือและเทคโนโลยีเหล่านี้ได้รับการสำรวจและนำมาใช้ในการจัดการกับข้อมูลที่มีโครงสร้างด้วย แต่ส่วนใหญ่จะใช้สำหรับการจัดเก็บ ในที่สุด การประมวลผลข้อมูลที่มีโครงสร้างยังคงเป็นทางเลือกเสริม ไม่ว่าจะใช้บิ๊กดาต้าหรือ RDBMS แบบดั้งเดิมก็ตาม สิ่งนี้ช่วยในการวิเคราะห์ข้อมูลเพื่อการใช้งานอย่างมีประสิทธิภาพของข้อมูลเชิงลึกที่ซ่อนอยู่ซึ่งเปิดเผยจากข้อมูลที่รวบรวมผ่านโซเชียลมีเดีย ไฟล์บันทึก เซ็นเซอร์ ฯลฯ บิ๊กดาต้าดึงข้อมูลจากข้อความ รูปภาพ เสียง วิดีโอ และยังเติมเต็มส่วนที่ขาดหายไปผ่านการหลอมรวมข้อมูล อีก ด้วย

ความเร็ว: ความเร็วในการสร้างและประมวลผลข้อมูลเพื่อตอบสนองความต้องการและความท้าทายที่อยู่ในเส้นทางการเติบโตและการพัฒนา ข้อมูลขนาดใหญ่มักพร้อมใช้งานแบบเรียลไทม์ เมื่อเปรียบเทียบกับข้อมูลขนาดเล็กข้อมูลขนาดใหญ่จะถูกสร้างขึ้นอย่างต่อเนื่องมากกว่า ความเร็วสองประเภทที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ ได้แก่ ความถี่ในการสร้างและความถี่ในการจัดการ บันทึก และเผยแพร่^{[ 35 ]}

ความจริง: ความถูกต้องหรือความน่าเชื่อถือของข้อมูล ซึ่งหมายถึงคุณภาพของข้อมูลและคุณค่าของข้อมูล^{[ 36 ]}ข้อมูลขนาดใหญ่ไม่เพียงแต่ต้องมีขนาดใหญ่เท่านั้น แต่ยังต้องมีความน่าเชื่อถือเพื่อให้ได้คุณค่าในการวิเคราะห์คุณภาพของข้อมูลที่รวบรวมได้อาจแตกต่างกันอย่างมาก ซึ่งส่งผลต่อการวิเคราะห์ที่แม่นยำ^{[ 37 ]}

ค่า: คุณค่าของข้อมูลที่สามารถบรรลุได้จากการประมวลผลและการวิเคราะห์ชุดข้อมูลขนาดใหญ่ คุณค่ายังสามารถวัดได้จากการประเมินคุณภาพอื่นๆ ของข้อมูลขนาดใหญ่^{[ 38 ]}คุณค่ายังอาจแสดงถึงผลกำไรของข้อมูลที่ได้รับจากการวิเคราะห์ข้อมูลขนาดใหญ่

ความแปรปรวน: ต่างจากความหลากหลาย ความแปรปรวนแสดงถึงแนวคิดที่ว่ารูปแบบ โครงสร้าง หรือแหล่งที่มาของข้อมูลขนาดใหญ่เปลี่ยนแปลงไปตามกาลเวลาและสถานการณ์ที่แตกต่างกัน การตีความข้อมูลขึ้นอยู่กับบริบทที่เปลี่ยนแปลงไป และด้วยบริบทที่แตกต่างกัน ความหมายเดิมอาจใช้ไม่ได้อีกต่อไป^{[ 39 ]}

ลักษณะอื่นๆ ที่เป็นไปได้ของข้อมูลขนาดใหญ่ ได้แก่: ^{[ 40 ]}

หมดจด: ไม่ว่าระบบทั้งหมด (เช่นทั้งหมด) จะถูกบันทึกหรือเก็บรวบรวมไว้หรือไม่ก็ตาม ข้อมูลขนาดใหญ่อาจรวมหรือไม่รวมข้อมูลทั้งหมดที่มีอยู่จากแหล่งข้อมูลต่างๆ ก็ได้ ${\textstyle n}$

ละเอียดและมีคำศัพท์เฉพาะตัว: โดยพิจารณาจากสัดส่วนของข้อมูลเฉพาะของแต่ละองค์ประกอบต่อองค์ประกอบที่รวบรวมได้ และว่าองค์ประกอบและลักษณะเฉพาะขององค์ประกอบนั้นได้รับการจัดทำดัชนีหรือระบุอย่างถูกต้องหรือไม่

ความสัมพันธ์: หากข้อมูลที่รวบรวมมีฟิลด์ที่เหมือนกัน ซึ่งจะช่วยให้สามารถรวมหรือวิเคราะห์ข้อมูลชุดต่างๆ เข้าด้วยกันได้

การขยายตัว: หากสามารถเพิ่มหรือเปลี่ยนแปลงฟิลด์ใหม่ในแต่ละองค์ประกอบของข้อมูลที่รวบรวมได้นั้นทำได้ง่าย

ความสามารถในการปรับขนาด: หากขนาดของระบบจัดเก็บข้อมูลขนาดใหญ่สามารถขยายตัวได้อย่างรวดเร็ว

สถาปัตยกรรม

คลังข้อมูลขนาดใหญ่มีอยู่หลายรูปแบบ มักสร้างขึ้นโดยบริษัทที่มีความต้องการเฉพาะ ผู้ขายเชิงพาณิชย์ได้นำเสนอระบบจัดการฐานข้อมูลแบบขนานสำหรับข้อมูลขนาดใหญ่มาตั้งแต่ช่วงทศวรรษ 1990 เป็นเวลาหลายปีที่ WinterCorp ได้เผยแพร่รายงานฐานข้อมูลที่ใหญ่ที่สุด^{[ 41 ]}

บริษัท Teradata Corporation ได้วางจำหน่ายระบบประมวลผลแบบขนาน DBC 1012ในปี 1984 ระบบของ Teradata เป็นระบบแรกที่สามารถจัดเก็บและวิเคราะห์ข้อมูลขนาด 1 เทราไบต์ได้ในปี 1992 ขณะนั้นฮาร์ดดิสก์ไดรฟ์มีความจุ 2.5 GB ในปี 1991 ดังนั้นนิยามของบิ๊กดาต้าจึงมีการเปลี่ยนแปลงอย่างต่อเนื่อง Teradata ได้ติดตั้งระบบฐานข้อมูลเชิงสัมพันธ์ (RDBMS) ระดับเพตาไบต์เป็นครั้งแรกในปี 2007 ณ ปี 2017 มีฐานข้อมูลเชิงสัมพันธ์ของ Teradata ระดับเพตาไบต์ติดตั้งอยู่หลายสิบแห่ง โดยฐานข้อมูลที่ใหญ่ที่สุดมีขนาดเกิน 50 PB ระบบต่างๆ จนถึงปี 2008 เป็นข้อมูลเชิงสัมพันธ์แบบมีโครงสร้าง 100% หลังจากนั้น Teradata ได้เพิ่มประเภทข้อมูลกึ่งโครงสร้าง เช่นXML , JSONและAvro เข้า มา

ในปี 2000 Seisint Inc. (ปัจจุบันคือLexisNexis Risk Solutions ) ได้พัฒนา แพลตฟอร์มแบบกระจายที่ใช้ C++สำหรับการประมวลผลและการสอบถามข้อมูล ซึ่งรู้จักกันในชื่อ แพลตฟอร์ม HPCC Systemsระบบนี้จะแบ่งพาร์ติชัน กระจาย จัดเก็บ และส่งมอบข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้างโดยอัตโนมัติไปยังเซิร์ฟเวอร์ทั่วไปหลายเครื่อง ผู้ใช้สามารถเขียนไปป์ไลน์การประมวลผลข้อมูลและการสอบถามในภาษาการเขียนโปรแกรมการไหลของข้อมูลแบบประกาศที่เรียกว่า ECL นักวิเคราะห์ข้อมูลที่ทำงานใน ECL ไม่จำเป็นต้องกำหนดสคีมาข้อมูลล่วงหน้า แต่สามารถมุ่งเน้นไปที่ปัญหาเฉพาะหน้า ปรับเปลี่ยนข้อมูลในลักษณะที่ดีที่สุดเท่าที่จะเป็นไปได้ในขณะที่พวกเขากำลังพัฒนาโซลูชัน ในปี 2004 LexisNexis ได้เข้าซื้อกิจการ Seisint Inc. ^{[ 42 ]}และแพลตฟอร์มการประมวลผลแบบขนานความเร็วสูงของพวกเขา และประสบความสำเร็จในการใช้แพลตฟอร์มนี้เพื่อรวมระบบข้อมูลของ Choicepoint Inc. เมื่อพวกเขาเข้าซื้อกิจการบริษัทนั้นในปี 2008 ^{[ 43 ]}ในปี 2011 แพลตฟอร์ม HPCC Systems ได้เปิดเป็นโอเพนซอร์สภายใต้ Apache v2.0 License

CERNและการทดลองทางฟิสิกส์อื่นๆ ได้รวบรวมชุดข้อมูลขนาดใหญ่มาเป็นเวลาหลายทศวรรษ โดยมักวิเคราะห์ผ่านการประมวลผลที่มีประสิทธิภาพสูงมากกว่าสถาปัตยกรรมแบบ map-reduce ที่มักหมายถึงในกระแส "บิ๊กดาต้า" ในปัจจุบัน

ในปี 2547 Googleได้เผยแพร่เอกสารเกี่ยวกับกระบวนการที่เรียกว่าMapReduceซึ่งใช้สถาปัตยกรรมที่คล้ายกัน แนวคิด MapReduce ให้โมเดลการประมวลผลแบบขนาน และมีการเผยแพร่การใช้งานที่เกี่ยวข้องเพื่อประมวลผลข้อมูลจำนวนมหาศาล ด้วย MapReduce คำถามจะถูกแบ่งและกระจายไปยังโหนดแบบขนานและประมวลผลแบบขนาน (ขั้นตอน "map") จากนั้นผลลัพธ์จะถูกรวบรวมและส่งมอบ (ขั้นตอน "reduce") เฟรมเวิร์กนี้ประสบความสำเร็จอย่างมาก^{[ 44 ]}ดังนั้นผู้อื่นจึงต้องการจำลองอัลกอริทึมนี้ ด้วยเหตุนี้การใช้งานเฟรมเวิร์ก MapReduce จึงได้รับการนำไปใช้โดยโครงการโอเพนซอร์สของ Apache ที่ชื่อว่า " Hadoop " ^{[ 45 ]} Apache Sparkได้รับการพัฒนาในปี 2555 เพื่อตอบสนองต่อข้อจำกัดในกระบวนทัศน์ MapReduce เนื่องจากเพิ่มการประมวลผลในหน่วยความจำและความสามารถในการตั้งค่าการดำเนินการหลายอย่าง (ไม่ใช่แค่ map ตามด้วย reducing)

MIKE2.0เป็นแนวทางแบบเปิดในการจัดการข้อมูลที่ยอมรับความจำเป็นในการแก้ไขเนื่องจากผลกระทบของข้อมูลขนาดใหญ่ที่ระบุไว้ในบทความชื่อ "ข้อเสนอโซลูชันข้อมูลขนาดใหญ่" ^{[ 46 ]}วิธีการนี้กล่าวถึงการจัดการข้อมูลขนาดใหญ่ในแง่ของการเรียงลำดับแหล่งข้อมูล ที่มีประโยชน์ ความซับซ้อนในความสัมพันธ์ระหว่างกัน และความยากลำบากในการลบ (หรือแก้ไข) บันทึกแต่ละรายการ^{[ 47 ]}

การศึกษาในปี 2012 แสดงให้เห็นว่าสถาปัตยกรรมแบบหลายชั้นเป็นหนึ่งในตัวเลือกในการแก้ไขปัญหาที่เกิดจากข้อมูลขนาดใหญ่ สถาปัตยกรรม แบบขนานแบบกระจายจะกระจายข้อมูลไปยังเซิร์ฟเวอร์หลายเครื่อง สภาพแวดล้อมการประมวลผลแบบขนานเหล่านี้สามารถปรับปรุงความเร็วในการประมวลผลข้อมูลได้อย่างมาก สถาปัตยกรรมประเภทนี้จะแทรกข้อมูลลงใน DBMS แบบขนาน ซึ่งใช้เฟรมเวิร์ก MapReduce และ Hadoop เฟรมเวิร์กประเภทนี้มุ่งทำให้พลังการประมวลผลโปร่งใสต่อผู้ใช้ปลายทางโดยใช้เซิร์ฟเวอร์แอปพลิเคชันส่วนหน้า^{[ 48 ]}

ดาต้าเลคช่วยให้องค์กรสามารถเปลี่ยนจุดสนใจจากการควบคุมส่วนกลางไปสู่รูปแบบการแบ่งปันเพื่อตอบสนองต่อพลวัตที่เปลี่ยนแปลงไปของการจัดการข้อมูล ซึ่งช่วยให้สามารถแยกข้อมูลเข้าสู่ดาต้าเลคได้อย่างรวดเร็ว จึงช่วยลดเวลาในการทำงาน^{[ 49 ]}^{[ 50 ]}

เทคโนโลยี

รายงานของ McKinsey Global Instituteในปี 2011 ระบุลักษณะส่วนประกอบหลักและระบบนิเวศของข้อมูลขนาดใหญ่ไว้ดังนี้: ^{[ 51 ]}

เทคนิคการวิเคราะห์ข้อมูล เช่นการทดสอบ A/B , การเรียนรู้ของเครื่องและการประมวลผลภาษาธรรมชาติ
เทคโนโลยีบิ๊กดาต้า เช่นระบบวิเคราะห์ข้อมูลทางธุรกิจ (Business Intelligence) , การประมวลผลแบบคลาวด์ (Cloud Computing ) และฐานข้อมูล
การแสดงผลข้อมูลด้วยภาพ เช่น แผนภูมิ กราฟ และการแสดงข้อมูลในรูปแบบอื่นๆ

ข้อมูลขนาดใหญ่หลายมิติยังสามารถแสดงเป็น คิวบ์ข้อมูล OLAPหรือในทางคณิตศาสตร์เป็นเทนเซอร์ได้อีกด้วย ระบบฐานข้อมูลแบบอาร์เรย์ได้ตั้งเป้าที่จะให้การจัดเก็บและการสนับสนุนการสืบค้นระดับสูงสำหรับข้อมูลประเภทนี้ เทคโนโลยีเพิ่มเติมที่นำมาใช้กับข้อมูลขนาดใหญ่ ได้แก่ การคำนวณแบบเทนเซอร์ที่มีประสิทธิภาพ^{[ 52 ]}เช่นการเรียนรู้ซับสเปซแบบหลายเชิงเส้น [ ^{53 ]}^{ฐานข้อมูลการประมวลผลแบบขนานขนาด ใหญ่} ( MPP ) แอ ป พลิเค ชันที่ใช้การค้นหาการขุดข้อมูล^{[ 54 ]}ระบบไฟล์แบบกระจายแคชแบบกระจาย (เช่นburst bufferและMemcached ) ฐานข้อมูลแบบกระจาย โครงสร้างพื้นฐานบน คลาวด์และHPC (แอปพลิเคชัน พื้นที่จัดเก็บ และทรัพยากรการคำนวณ) ^{[ 55 ]} และอินเทอร์เน็ต แม้ว่าจะมีการพัฒนาแนวทางและเทคโนโลยีมากมาย แต่ก็ยังคง เป็นเรื่องยากที่จะดำเนินการเรียนรู้ของเครื่องกับข้อมูลขนาดใหญ่^{[ 56 ]}

ฐานข้อมูลเชิงสัมพันธ์ MPPบางระบบมีความสามารถในการจัดเก็บและจัดการข้อมูลขนาดเพตาไบต์ ความสามารถในการโหลด ตรวจสอบ สำรองข้อมูล และเพิ่มประสิทธิภาพการใช้งานตารางข้อมูลขนาดใหญ่ในRDBMSเป็น สิ่งที่แฝงอยู่ ^{[ 57 ]}

โครงการ วิเคราะห์ข้อมูลเชิงโทโพโลยีของDARPAมุ่งค้นหาโครงสร้างพื้นฐานของชุดข้อมูลขนาดใหญ่ และในปี 2551 เทคโนโลยีนี้ได้เปิดตัวสู่สาธารณะพร้อมกับการเปิดตัวบริษัทชื่อ "Ayasdi" ^{[ 58 ]}

โดยทั่วไปแล้ว ผู้ปฏิบัติงานด้านกระบวนการวิเคราะห์ข้อมูลขนาดใหญ่มักไม่ชอบพื้นที่จัดเก็บข้อมูลร่วมที่ช้ากว่า^{[ 59 ]}โดยนิยมใช้พื้นที่จัดเก็บข้อมูลแบบเชื่อมต่อโดยตรง ( DAS ) ในรูปแบบต่างๆ ตั้งแต่ไดรฟ์โซลิดสเตท ( SSD ) ไปจนถึงดิสก์ SATAความจุสูงที่ฝังอยู่ภายในโหนดการประมวลผลแบบขนาน การรับรู้เกี่ยวกับสถาปัตยกรรมพื้นที่จัดเก็บข้อมูลร่วม— เครือข่ายพื้นที่จัดเก็บข้อมูล (SAN) และพื้นที่จัดเก็บข้อมูลแบบเชื่อมต่อเครือข่าย (NAS)—คือค่อนข้างช้า ซับซ้อน และมีราคาแพง คุณสมบัติเหล่านี้ไม่สอดคล้องกับระบบวิเคราะห์ข้อมูลขนาดใหญ่ที่เน้นประสิทธิภาพของระบบ โครงสร้างพื้นฐานที่เป็นสินค้าโภคภัณฑ์ และต้นทุนต่ำ

การส่งข้อมูลแบบเรียลไทม์หรือใกล้เคียงเรียลไทม์เป็นหนึ่งในคุณลักษณะสำคัญของการวิเคราะห์ข้อมูลขนาดใหญ่ ดังนั้นจึงควรหลีกเลี่ยงความล่าช้าทุกครั้งและทุกที่ที่เป็นไปได้ ข้อมูลในหน่วยความจำหรือดิสก์ที่เชื่อมต่อโดยตรงนั้นดี แต่ข้อมูลในหน่วยความจำหรือดิสก์ที่ปลายอีกด้านของ การเชื่อมต่อ FC SANนั้นไม่ดี ต้นทุนของSANในระดับที่จำเป็นสำหรับแอปพลิเคชันการวิเคราะห์นั้นสูงกว่าเทคนิคการจัดเก็บข้อมูลอื่นๆ มาก

แอปพลิเคชัน

ข้อมูลขนาดใหญ่ได้เพิ่มความต้องการผู้เชี่ยวชาญด้านการจัดการข้อมูลอย่างมาก จนกระทั่งบริษัทSoftware AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HPและDellได้ใช้เงินมากกว่า 15 พันล้านดอลลาร์ไปกับบริษัทซอฟต์แวร์ที่เชี่ยวชาญด้านการจัดการและวิเคราะห์ข้อมูล ในปี 2553 อุตสาหกรรมนี้มีมูลค่ามากกว่า 100 พันล้านดอลลาร์และเติบโตเกือบ 10 เปอร์เซ็นต์ต่อปี ซึ่งเร็วกว่าธุรกิจซอฟต์แวร์โดยรวมถึงสองเท่า^{[ 6 ]}

ประเทศเศรษฐกิจที่พัฒนาแล้วใช้เทคโนโลยีที่เน้นข้อมูลมากขึ้นเรื่อยๆ ทั่วโลกมีผู้สมัครใช้บริการโทรศัพท์มือถือ 4.6 พันล้านราย และมีผู้คนเข้าถึงอินเทอร์เน็ตระหว่าง 1 พันล้านถึง 2 พันล้านคน^{[ 6 ]}ระหว่างปี 1990 ถึง 2005 มีผู้คนมากกว่า 1 พันล้านคนทั่วโลกเข้าสู่ชนชั้นกลาง ซึ่งหมายความว่ามีผู้คนอ่านออกเขียนได้มากขึ้น ซึ่งนำไปสู่การเติบโตของข้อมูล ความสามารถในการแลกเปลี่ยนข้อมูลผ่านเครือข่ายโทรคมนาคมทั่วโลกมี 281 เพตาไบต์ในปี 1986, 471 เพตาไบต์ในปี 1993, 2.2 เอ็กซาไบต์ในปี 2000, 65 เอ็กซาไบต์ในปี 2007 ^{[ 11 ]}และมีการคาดการณ์ว่าปริมาณการรับส่งข้อมูลทางอินเทอร์เน็ตจะอยู่ที่ 667 เอ็กซาไบต์ต่อปีภายในปี 2014 ^{[ 6 ]}จากการประมาณการหนึ่งพบว่า หนึ่งในสามของข้อมูลที่จัดเก็บทั่วโลกอยู่ในรูปแบบของข้อความตัวอักษรและตัวเลขและข้อมูลภาพนิ่ง^{[ 61 ]}ซึ่งเป็นรูปแบบที่มีประโยชน์มากที่สุดสำหรับแอปพลิเคชันบิ๊กดาต้าส่วนใหญ่ นอกจากนี้ยังแสดงให้เห็นถึงศักยภาพของข้อมูลที่ยังไม่ได้ใช้ (เช่น ในรูปแบบของเนื้อหาวิดีโอและเสียง)

แม้ว่าผู้ขายหลายรายจะนำเสนอผลิตภัณฑ์สำเร็จรูปสำหรับข้อมูลขนาดใหญ่ แต่ผู้เชี่ยวชาญสนับสนุนการพัฒนาระบบที่ปรับแต่งเองภายในองค์กรหากบริษัทมีขีดความสามารถทางเทคนิคที่เพียงพอ^{[ 62 ]}

รัฐบาล

การใช้และการนำข้อมูลขนาดใหญ่มาใช้ในกระบวนการของรัฐบาลช่วยให้เกิดประสิทธิภาพในแง่ของต้นทุน ผลผลิต และนวัตกรรม^{[ 63 ]}แต่ก็มีข้อบกพร่อง การวิเคราะห์ข้อมูลมักต้องอาศัยความร่วมมือจากหลายภาคส่วนของรัฐบาล (ส่วนกลางและส่วนท้องถิ่น) ในการสร้างกระบวนการใหม่และนวัตกรรมเพื่อให้ได้ผลลัพธ์ที่ต้องการ องค์กรภาครัฐทั่วไปที่ใช้ข้อมูลขนาดใหญ่คือสำนักงานความมั่นคงแห่งชาติ (NSA) ซึ่งตรวจสอบกิจกรรมบนอินเทอร์เน็ตอย่างต่อเนื่องเพื่อค้นหารูปแบบกิจกรรมที่น่าสงสัยหรือผิดกฎหมายที่ระบบของพวกเขาอาจตรวจจับได้

ระบบทะเบียนราษฎรและสถิติชีพ (CRVS) รวบรวมข้อมูลสถานะเอกสารต่างๆ ตั้งแต่เกิดจนตาย CRVS เป็นแหล่งข้อมูลขนาดใหญ่สำหรับรัฐบาล

การพัฒนาระหว่างประเทศ

งานวิจัยเกี่ยวกับการใช้งานเทคโนโลยีสารสนเทศและการสื่อสารเพื่อการพัฒนาอย่างมีประสิทธิภาพ (หรือที่รู้จักกันในชื่อ "ICT4D") ชี้ให้เห็นว่าเทคโนโลยีบิ๊กดาต้าสามารถสร้างคุณูปการที่สำคัญได้ แต่ก็ยังนำเสนอความท้าทายที่ไม่เหมือนใครต่อการพัฒนาระหว่างประเทศ^{[ 64 ]}^{[ 65 ]}ความก้าวหน้าในการวิเคราะห์บิ๊กดาต้าเสนอโอกาสที่คุ้มค่าในการปรับปรุงการตัดสินใจในด้านการพัฒนาที่สำคัญ เช่น การดูแลสุขภาพ การจ้างงานผลผลิตทางเศรษฐกิจอาชญากรรม ความปลอดภัย และ การจัดการ ภัยพิบัติทางธรรมชาติและทรัพยากร^{[ 66 ]}^{[ 67 ]}^{[ 68 ]}นอกจากนี้ ข้อมูลที่ผู้ใช้สร้างขึ้นยังมอบโอกาสใหม่ๆ ในการให้เสียงแก่ผู้ที่ไม่มีเสียง^{[ 69 ]}อย่างไรก็ตาม ความท้าทายที่มีมายาวนานสำหรับภูมิภาคที่กำลังพัฒนา เช่น โครงสร้างพื้นฐานทางเทคโนโลยีที่ไม่เพียงพอ และความขาดแคลนทรัพยากรทางเศรษฐกิจและมนุษย์ ทำให้ความกังวลที่มีอยู่เกี่ยวกับบิ๊กดาต้า เช่น ความเป็นส่วนตัว วิธีการที่ไม่สมบูรณ์ และปัญหาการทำงานร่วมกันนั้นรุนแรงขึ้น^{[ 66 ]} ความท้าทายของ "บิ๊กดาต้าเพื่อการพัฒนา" ^{[ 66 ]}กำลังพัฒนาไปสู่การประยุกต์ใช้ข้อมูลนี้ผ่านการเรียนรู้ของเครื่อง ซึ่งเรียกว่า "ปัญญาประดิษฐ์เพื่อการพัฒนา (AI4D)" ^{[ 70 ]}

ประโยชน์

การประยุกต์ใช้ข้อมูลขนาดใหญ่เพื่อการพัฒนาที่สำคัญอย่างหนึ่งคือ "การต่อสู้กับความยากจนด้วยข้อมูล" ^{[ 71 ]}ในปี 2558 Blumenstock และเพื่อนร่วมงานได้ประมาณการความยากจนและความมั่งคั่งที่คาดการณ์ไว้จากข้อมูลเมตาของโทรศัพท์มือถือ^{[ 72 ]}และในปี 2559 Jean และเพื่อนร่วมงานได้รวมภาพถ่ายดาวเทียมและการเรียนรู้ของเครื่องจักรเพื่อคาดการณ์ความยากจน^{[ 73 ]}การใช้ข้อมูลร่องรอยดิจิทัลเพื่อศึกษาตลาดแรงงานและเศรษฐกิจดิจิทัลในละตินอเมริกาHilbertและเพื่อนร่วมงาน^{[ 74 ]}^{[ 75 ]}โต้แย้งว่าข้อมูลร่องรอยดิจิทัลมีประโยชน์หลายประการ เช่น:

การครอบคลุมตามหัวข้อ: รวมถึงพื้นที่ที่ก่อนหน้านี้ยากหรือไม่สามารถวัดได้
ขอบเขตทางภูมิศาสตร์: นำเสนอข้อมูลขนาดใหญ่และเปรียบเทียบได้สำหรับเกือบทุกประเทศ รวมถึงประเทศขนาดเล็กจำนวนมากที่มักไม่รวมอยู่ในฐานข้อมูลระหว่างประเทศ
ระดับรายละเอียด: การให้ข้อมูลที่ละเอียดถี่ถ้วนพร้อมตัวแปรที่เกี่ยวโยงกันหลายตัว และแง่มุมใหม่ๆ เช่น การเชื่อมต่อเครือข่าย
ความทันเวลาและอนุกรมเวลา: สามารถสร้างกราฟได้ภายในไม่กี่วันหลังจากเก็บรวบรวมข้อมูล

ความท้าทาย

ในขณะเดียวกัน การทำงานกับข้อมูลร่องรอยดิจิทัลแทนข้อมูลจากการสำรวจแบบดั้งเดิมไม่ได้ขจัดความท้าทายแบบดั้งเดิมที่เกี่ยวข้องกับสาขาการวิเคราะห์เชิงปริมาณระหว่างประเทศ ลำดับความสำคัญอาจเปลี่ยนแปลงไป แต่การอภิปรายพื้นฐานยังคงเหมือนเดิม ความท้าทายหลักๆ ได้แก่:

ความเป็นตัวแทน ในขณะที่สถิติการพัฒนาแบบดั้งเดิมส่วนใหญ่เกี่ยวข้องกับความเป็นตัวแทนของตัวอย่างสำรวจแบบสุ่ม ข้อมูลการติดตามดิจิทัลไม่เคยเป็นตัวอย่างแบบสุ่ม^{[ 76 ]}
ความสามารถในการสรุปผลในวงกว้าง แม้ว่าข้อมูลจากการสังเกตการณ์จะแสดงถึงแหล่งข้อมูลนี้ได้เป็นอย่างดีเสมอ แต่ก็เป็นเพียงการแสดงถึงสิ่งที่มันแสดงเท่านั้น และไม่มีอะไรมากไปกว่านั้น แม้ว่าการสรุปผลจากข้อสังเกตเฉพาะเจาะจงของแพลตฟอร์มหนึ่งไปยังบริบทที่กว้างขึ้นจะเป็นสิ่งที่น่าดึงดูดใจ แต่บ่อยครั้งที่การทำเช่นนั้นมักทำให้เข้าใจผิดได้
การประสานงาน ข้อมูลร่องรอยดิจิทัลยังคงต้องการการประสานงานตัวชี้วัดในระดับสากล ซึ่งเพิ่มความท้าทายในสิ่งที่เรียกว่า "การหลอมรวมข้อมูล" หรือการประสานงานจากแหล่งข้อมูลที่แตกต่างกัน
ข้อมูลล้นเกิน นักวิเคราะห์และสถาบันต่างๆ ไม่คุ้นเคยกับการจัดการตัวแปรจำนวนมากอย่างมีประสิทธิภาพ ซึ่งสามารถทำได้อย่างมีประสิทธิภาพด้วยแดชบอร์ดแบบโต้ตอบ ผู้ปฏิบัติงานยังขาดเวิร์กโฟลว์มาตรฐานที่จะช่วยให้นักวิจัย ผู้ใช้ และผู้กำหนดนโยบายสามารถจัดการกับข้อมูลได้อย่างมีประสิทธิภาพและประสิทธิผล^{[ 74 ]}

การเงิน

ข้อมูลขนาดใหญ่กำลังถูกนำมาใช้อย่างรวดเร็วในด้านการเงินเพื่อ 1) เร่งความเร็วในการประมวลผล และ 2) ส่งมอบข้อสรุปที่ดีขึ้นและมีข้อมูลมากขึ้น ทั้งภายในและแก่ลูกค้าของสถาบันการเงิน^{[ 77 ]}การประยุกต์ใช้ข้อมูลขนาดใหญ่ในด้านการเงินมีตั้งแต่การตัดสินใจลงทุนและการซื้อขาย (การประมวลผลข้อมูลราคาที่มีอยู่จำนวนมาก สมุดคำสั่งซื้อขายแบบจำกัด ข้อมูลเศรษฐกิจ และอื่นๆ ในเวลาเดียวกัน) การจัดการพอร์ตโฟลิโอ (การเพิ่มประสิทธิภาพเหนือเครื่องมือทางการเงินที่หลากหลายมากขึ้น ซึ่งอาจเลือกจากประเภทสินทรัพย์ที่แตกต่างกัน) การจัดการความเสี่ยง (การจัดอันดับเครดิตตามข้อมูลเพิ่มเติม) และด้านอื่นๆ ที่มีการป้อนข้อมูลจำนวนมาก^{[ 78 ]}ข้อมูลขนาดใหญ่ยังเป็นแนวคิดทั่วไปในด้านบริการทางการเงินทางเลือก อีกด้วย บางพื้นที่หลักๆ ได้แก่ แพลตฟอร์มระดมทุนแบบกลุ่มและตลาดแลกเปลี่ยนสกุลเงินดิจิทัล^{[ 79 ]}

การดูแลสุขภาพ

การวิเคราะห์ข้อมูลขนาดใหญ่ถูกนำมาใช้ในด้านการดูแลสุขภาพเพื่อให้บริการทางการแพทย์เฉพาะบุคคลและการวิเคราะห์เชิงกำหนด การแทรกแซงความเสี่ยงทางคลินิกและการวิเคราะห์เชิงพยากรณ์ การลดของเสียและความแปรปรวนของการดูแล การรายงานข้อมูลผู้ป่วยอัตโนมัติทั้งภายในและภายนอก คำศัพท์ทางการแพทย์ที่เป็นมาตรฐาน และทะเบียนผู้ป่วย^{[ 80 ]}^{[ 81 ]}^{[ 82 ]}^{[ 83 ]}บางพื้นที่ของการปรับปรุงนั้นเป็นเพียงความปรารถนามากกว่าการนำไปปฏิบัติจริง ระดับของข้อมูลที่สร้างขึ้นภายในระบบการดูแลสุขภาพนั้นไม่ใช่เรื่องเล็กน้อย ด้วยการนำเทคโนโลยี mHealth, eHealth และเทคโนโลยีสวมใส่มาใช้เพิ่มเติม ปริมาณข้อมูลจะยังคงเพิ่มขึ้นอย่างต่อเนื่อง ซึ่งรวมถึง ข้อมูล บันทึกสุขภาพอิเล็กทรอนิกส์ข้อมูลภาพ ข้อมูลที่สร้างโดยผู้ป่วย ข้อมูลจากเซ็นเซอร์ และข้อมูลรูปแบบอื่นๆ ที่ประมวลผลได้ยาก ปัจจุบันมีความต้องการมากขึ้นสำหรับสภาพแวดล้อมดังกล่าวที่จะต้องให้ความสำคัญกับคุณภาพของข้อมูลและสารสนเทศมากขึ้น^{[ 84 ]} "ข้อมูลขนาดใหญ่มักหมายถึง ' ข้อมูลสกปรก ' และสัดส่วนของความไม่ถูกต้องของข้อมูลจะเพิ่มขึ้นตามการเติบโตของปริมาณข้อมูล" การตรวจสอบโดยมนุษย์ในระดับข้อมูลขนาดใหญ่เป็นไปไม่ได้ และมีความจำเป็นอย่างยิ่งในบริการด้านสุขภาพสำหรับเครื่องมืออัจฉริยะเพื่อควบคุมความถูกต้องและความน่าเชื่อถือ รวมถึงการจัดการข้อมูลที่ขาดหายไป^{[ 85 ]}แม้ว่าข้อมูลจำนวนมากในด้านการดูแลสุขภาพจะเป็นแบบอิเล็กทรอนิกส์แล้ว แต่ก็ยังจัดอยู่ในขอบเขตของข้อมูลขนาดใหญ่ เนื่องจากส่วนใหญ่เป็นข้อมูลที่ไม่มีโครงสร้างและยากต่อการใช้งาน^{[ 86 ]}การใช้ข้อมูลขนาดใหญ่ในด้านการดูแลสุขภาพได้ก่อให้เกิดความท้าทายทางจริยธรรมอย่างมาก ตั้งแต่ความเสี่ยงต่อสิทธิส่วนบุคคล ความเป็นส่วนตัว และ ความ เป็นอิสระ ไปจนถึงความโปร่งใสและความไว้วางใจ^{[ 87 ]}

ข้อมูลขนาดใหญ่ในการวิจัยด้านสุขภาพมีแนวโน้มที่ดีเป็นพิเศษในแง่ของการวิจัยทางชีวการแพทย์เชิงสำรวจ เนื่องจากการวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูลสามารถดำเนินการได้เร็วกว่าการวิจัยที่ขับเคลื่อนด้วยสมมติฐาน^{[ 88 ]}จากนั้น แนวโน้มที่เห็นในการวิเคราะห์ข้อมูลสามารถทดสอบได้ในการวิจัยทางชีววิทยาแบบดั้งเดิมที่ขับเคลื่อนด้วยสมมติฐาน และในที่สุดก็การวิจัยทางคลินิก

พื้นที่ย่อยของการประยุกต์ใช้งานที่เกี่ยวข้องซึ่งพึ่งพาข้อมูลขนาดใหญ่เป็นอย่างมากในสาขาการดูแลสุขภาพคือ การวินิจฉัยโรค ด้วยคอมพิวเตอร์^{[ 89 ]} ตัวอย่างเช่น สำหรับ การตรวจสอบ โรคลมชักมักจะสร้างข้อมูล 5 ถึง 10 GB ต่อวัน^{[ 90 ]} ในทำนองเดียวกัน ภาพ โทโมซินเทซิสเต้านมที่ไม่ได้บีบอัดเพียงภาพเดียวมีข้อมูลเฉลี่ย 450 MB ^{[ 91 ]} นี่เป็นเพียงตัวอย่างเล็กน้อยจากตัวอย่างมากมายที่การวินิจฉัยโรคด้วยคอมพิวเตอร์ใช้ข้อมูลขนาดใหญ่ ด้วยเหตุนี้ ข้อมูลขนาดใหญ่จึงได้รับการยอมรับว่าเป็นหนึ่งในเจ็ดความท้าทายหลักที่ระบบการวินิจฉัยโรคด้วยคอมพิวเตอร์จำเป็นต้องเอาชนะเพื่อให้บรรลุประสิทธิภาพในระดับต่อไป^{[ 92 ]}

การศึกษา

การศึกษา ของMcKinsey Global Instituteพบว่าขาดแคลนผู้เชี่ยวชาญและผู้จัดการข้อมูลที่มีทักษะสูงถึง 1.5 ล้านคน^{[ 51 ]}และมหาวิทยาลัยหลายแห่ง^{[ 93 ]}รวมถึงมหาวิทยาลัยเทนเนสซีและUC Berkeleyได้สร้างหลักสูตรปริญญาโทเพื่อตอบสนองความต้องการนี้ ค่ายฝึกอบรมเอกชนก็ได้พัฒนาโปรแกรมเพื่อตอบสนองความต้องการดังกล่าวเช่นกัน รวมถึงโปรแกรมแบบเสียค่าใช้จ่าย เช่นThe Data IncubatorหรือGeneral Assembly ^{[ 94} ] ในสาขาการตลาดโดยเฉพาะ ปัญหาหนึ่งที่ Wedel และ Kannan ^{[ 95}^{] เน้นย้ำ}^คือการตลาดมีโดเมนย่อยหลายโดเมน (เช่น การโฆษณา การส่งเสริมการขาย การพัฒนาผลิตภัณฑ์ การสร้างแบรนด์) ซึ่งล้วนใช้ข้อมูลประเภทต่างๆ กัน

สื่อ

เพื่อให้เข้าใจว่าสื่อใช้ข้อมูลขนาดใหญ่อย่างไร จำเป็นต้องให้บริบทเกี่ยวกับกลไกที่ใช้ในกระบวนการสื่อก่อน นิค คูดรีและโจเซฟ ทูโรว์ได้เสนอแนะว่าผู้ปฏิบัติงานในสื่อและการโฆษณาเข้าถึงข้อมูลขนาดใหญ่ในฐานะจุดข้อมูลที่สามารถนำไปปฏิบัติได้มากมายเกี่ยวกับบุคคลหลายล้านคน อุตสาหกรรมดูเหมือนจะกำลังเคลื่อนตัวออกจากแนวทางดั้งเดิมของการใช้สภาพแวดล้อมสื่อเฉพาะ เช่น หนังสือพิมพ์ นิตยสาร หรือรายการโทรทัศน์ และหันมาใช้เทคโนโลยีที่เข้าถึงกลุ่มเป้าหมายในเวลาและสถานที่ที่เหมาะสมที่สุดแทน จุดมุ่งหมายสูงสุดคือการให้บริการหรือสื่อสารข้อความหรือเนื้อหาที่ (ในเชิงสถิติ) สอดคล้องกับความคิดของผู้บริโภค ตัวอย่างเช่น สภาพแวดล้อมการเผยแพร่กำลังปรับแต่งข้อความ (โฆษณา) และเนื้อหา (บทความ) มากขึ้นเรื่อยๆ เพื่อดึงดูดผู้บริโภคที่รวบรวมมาโดยเฉพาะผ่านกิจกรรมการขุดข้อมูล ต่างๆ ^{[ 96 ]}

การกำหนดเป้าหมายผู้บริโภค (สำหรับการโฆษณาโดยนักการตลาด) ^{[ 97 ]}
การบันทึกข้อมูล
วารสารศาสตร์ข้อมูล : สำนักพิมพ์และนักข่าวใช้เครื่องมือข้อมูลขนาดใหญ่เพื่อนำเสนอข้อมูลเชิงลึกและอินโฟกราฟิกที่ไม่เหมือนใครและสร้างสรรค์

ช่อง 4 ซึ่งเป็นสถานีโทรทัศน์ สาธารณะของอังกฤษเป็นผู้นำในด้านข้อมูลขนาดใหญ่และการวิเคราะห์ข้อมูล^{[ 98 ]}

ประกันภัย

ผู้ให้บริการประกันสุขภาพกำลังรวบรวมข้อมูลเกี่ยวกับ"ปัจจัยกำหนดสุขภาพ" ทางสังคมเช่นการบริโภคอาหารและโทรทัศน์สถานภาพสมรส ขนาดเสื้อผ้า และพฤติกรรมการซื้อ ซึ่งพวกเขาใช้ในการคาดการณ์ค่าใช้จ่ายด้านสุขภาพ เพื่อตรวจหาปัญหาสุขภาพในกลุ่มลูกค้าของตน เป็นที่ถกเถียงกันว่าการคาดการณ์เหล่านี้ถูกนำมาใช้ในการกำหนดราคาหรือไม่^{[ 99 ]}

อินเทอร์เน็ตของสิ่งต่างๆ (IoT)

ข้อมูลขนาดใหญ่และ IoT ทำงานร่วมกัน ข้อมูลที่ดึงมาจากอุปกรณ์ IoT ให้แผนที่การเชื่อมต่อระหว่างอุปกรณ์ แผนที่ดังกล่าวถูกนำไปใช้โดยอุตสาหกรรมสื่อ บริษัท และรัฐบาล เพื่อกำหนดเป้าหมายผู้ชมได้อย่างแม่นยำยิ่งขึ้นและเพิ่มประสิทธิภาพของสื่อ IoT ยังถูกนำมาใช้มากขึ้นเรื่อยๆ ในฐานะวิธีการรวบรวมข้อมูลทางประสาทสัมผัส และข้อมูลทางประสาทสัมผัสนี้ถูกนำไปใช้ในบริบท ทางการแพทย์ ^{[ 100 ]}การผลิต^{[ 101 ]}และการขนส่ง^{[ 102 ]}

เควิน แอชตันผู้เชี่ยวชาญด้านนวัตกรรมดิจิทัลซึ่งได้รับการยกย่องว่าเป็นผู้บัญญัติศัพท์คำนี้^{[ 103 ]}ได้นิยามอินเทอร์เน็ตของสิ่งต่างๆ ไว้ในคำพูดนี้ว่า: "ถ้าเรามีคอมพิวเตอร์ที่รู้ทุกสิ่งทุกอย่างเกี่ยวกับสิ่งต่างๆ โดยใช้ข้อมูลที่รวบรวมได้โดยไม่ต้องอาศัยความช่วยเหลือจากเรา เราจะสามารถติดตามและนับทุกสิ่ง และลดของเสีย การสูญเสีย และต้นทุนได้อย่างมาก เราจะรู้ว่าเมื่อใดที่สิ่งต่างๆ จำเป็นต้องเปลี่ยน ซ่อมแซม หรือเรียกคืน และไม่ว่าสิ่งเหล่านั้นจะยังใหม่หรือหมดอายุแล้ว"

เทคโนโลยีสารสนเทศ

โดยเฉพาะอย่างยิ่งตั้งแต่ปี 2015 เป็นต้นมา บิ๊กดาต้าได้กลายเป็นสิ่งสำคัญในการดำเนินงานทางธุรกิจในฐานะเครื่องมือที่จะช่วยให้พนักงานทำงานได้อย่างมีประสิทธิภาพมากขึ้น และปรับปรุงการรวบรวมและการกระจายเทคโนโลยีสารสนเทศ (IT) ให้คล่องตัวยิ่งขึ้น การใช้บิ๊กดาต้าเพื่อแก้ไขปัญหาด้าน IT และการรวบรวมข้อมูลภายในองค์กรเรียกว่าการวิเคราะห์การดำเนินงานด้าน IT (ITOA) ^{[ 104 ]}ด้วยการประยุกต์ใช้หลักการของบิ๊กดาต้าเข้ากับแนวคิดของปัญญาประดิษฐ์และการประมวลผลเชิงลึก แผนก IT สามารถคาดการณ์ปัญหาที่อาจเกิดขึ้นและป้องกันได้^{[ 104 ]}ธุรกิจ ITOA นำเสนอแพลตฟอร์มสำหรับการจัดการระบบที่นำข้อมูลที่กระจัดกระจายมารวมกันและสร้างข้อมูลเชิงลึกจากทั้งระบบ แทนที่จะมาจากข้อมูลที่แยกส่วน

วิทยาศาสตร์การสำรวจ

เมื่อเปรียบเทียบกับ การเก็บรวบรวมข้อมูลโดยใช้ แบบสำรวจข้อมูลขนาดใหญ่มีต้นทุนต่อจุดข้อมูลต่ำกว่า ใช้เทคนิคการวิเคราะห์ผ่านการเรียนรู้ของเครื่องและการขุดค้นข้อมูลและรวมแหล่งข้อมูลที่หลากหลายและใหม่ เช่น ทะเบียน สื่อสังคมออนไลน์ แอปพลิเคชัน และข้อมูลดิจิทัลรูปแบบอื่น ๆ ตั้งแต่ปี 2018 นักวิทยาศาสตร์ด้านการสำรวจได้เริ่มตรวจสอบว่าข้อมูลขนาดใหญ่และวิทยาศาสตร์การสำรวจสามารถเสริมซึ่งกันและกันได้อย่างไร เพื่อช่วยให้นักวิจัยและผู้ปฏิบัติงานปรับปรุงการผลิตสถิติและคุณภาพของสถิติให้ดียิ่งขึ้น มีการจัดประชุม Big Data Meets Survey Science (BigSurv) สามครั้งในปี 2018, 2020 (แบบเสมือนจริง), 2023 และในปี 2023 จะมีการจัดประชุมอีกครั้งในปี 2025 ^{[ 105 ]}^{นอกจาก}^นี้ยังมีฉบับพิเศษในSocial Science Computer Review [ ¹⁰⁶^]ฉบับพิเศษในJournal of the Royal Statistical Society [ ¹⁰⁷^]และฉบับพิเศษในEP J Data Science [ ¹⁰⁸^]^รวมถึงหนังสือชื่อBig Data Meets Social Sciences ^[¹⁰⁹^]ซึ่งแก้ไขโดยCraig Hillและสมาชิกอีกห้าคนของ American Statistical Associationในปี 2021 สมาชิกผู้ก่อตั้ง BigSurv ได้รับรางวัล Warren J. Mitofsky Innovators Award จากAmerican Association for Public Opinion Research ^[¹¹⁰^]

การตลาด

ข้อมูลขนาดใหญ่มีความสำคัญในด้านการตลาดเนื่องจากการ "แปลงข้อมูล" ^{[ 111 ]} อย่างต่อเนื่อง ของผู้บริโภคอินเทอร์เน็ตในชีวิตประจำวัน ซึ่งมีการติดตามข้อมูลทุกรูปแบบ การแปลงข้อมูลของผู้บริโภคสามารถนิยามได้ว่าเป็นการวัดปริมาณพฤติกรรมของมนุษย์หลายอย่างหรือทั้งหมดเพื่อวัตถุประสงค์ทางการตลาด^{[ 111 ]}โลกดิจิทัลที่เติบโตอย่างรวดเร็วทำให้แนวคิดนี้มีความเกี่ยวข้องกับการตลาด เนื่องจากปริมาณข้อมูลเพิ่มขึ้นอย่างต่อเนื่องแบบทวีคูณ มีการคาดการณ์ว่าจะเพิ่มขึ้นจาก 44 เป็น 163 เซตตาไบต์ภายในระยะเวลาห้าปี^{[ 112 ]}ขนาดของข้อมูลขนาดใหญ่อาจทำให้ผู้ทำการตลาดจัดการได้ยาก^{[ 113 ]}ส่งผลให้ผู้ที่นำข้อมูลขนาดใหญ่มาใช้อาจพบว่าตนเองเสียเปรียบ การค้นหาผลลัพธ์ด้วยอัลกอริทึมอาจทำได้ยากกับชุดข้อมูลขนาดใหญ่เช่นนี้^{[ 114 ]}ข้อมูลขนาดใหญ่ในด้านการตลาดเป็นเครื่องมือที่มีกำไรสูงซึ่งสามารถนำไปใช้กับองค์กรขนาดใหญ่ได้ โดยมีมูลค่าเนื่องจากความเป็นไปได้ในการคาดการณ์แนวโน้ม ความสนใจ หรือผลลัพธ์ทางสถิติที่สำคัญในลักษณะที่อิงตามผู้บริโภค^{[ 115 ]}

มีปัจจัยสำคัญสามประการในการใช้ข้อมูลขนาดใหญ่ในด้านการตลาด:

ข้อมูลขนาดใหญ่ช่วยให้นักการตลาดสามารถระบุรูปแบบพฤติกรรมของลูกค้าได้ เนื่องจากการกระทำของมนุษย์ทั้งหมดจะถูกวัดปริมาณเป็นตัวเลขที่อ่านได้เพื่อให้นักการตลาดสามารถวิเคราะห์และใช้ในการวิจัยได้^{[ 116 ]}นอกจากนี้ ข้อมูลขนาดใหญ่ยังสามารถมองได้ว่าเป็นเครื่องมือแนะนำผลิตภัณฑ์ที่ปรับแต่งได้ โดยเฉพาะอย่างยิ่ง เนื่องจากข้อมูลขนาดใหญ่มีประสิทธิภาพในการวิเคราะห์พฤติกรรมการซื้อและรูปแบบการเรียกดูของลูกค้า เทคโนโลยีนี้จึงสามารถช่วยบริษัทต่างๆ ในการส่งเสริมผลิตภัณฑ์เฉพาะบุคคลให้กับลูกค้าเฉพาะกลุ่มได้^{[ 117 ]}
การตอบสนองต่อตลาดแบบเรียลไทม์มีความสำคัญต่อนักการตลาด เนื่องจากความสามารถในการปรับเปลี่ยนความพยายามทางการตลาดและปรับให้เข้ากับแนวโน้มปัจจุบัน ซึ่งเป็นประโยชน์ในการรักษาความเกี่ยวข้องกับผู้บริโภค สิ่งนี้สามารถให้ข้อมูลที่จำเป็นแก่บริษัทต่างๆ เพื่อคาดการณ์ความต้องการของผู้บริโภคล่วงหน้าได้^{[ 116 ]}
ความคล่องตัวของตลาดที่ขับเคลื่อนด้วยข้อมูลกำลังได้รับแรงหนุนอย่างมากจากข้อมูลขนาดใหญ่^{[ 116 ]}มีการพัฒนารูปแบบและอัลกอริทึมใหม่ ๆ เพื่อทำนายสถานการณ์ทางเศรษฐกิจและสังคมบางอย่างได้อย่างมีนัยสำคัญ^{[ 118 ]}

กรณีศึกษา

รัฐบาล

จีน

แพลตฟอร์มปฏิบัติการร่วมแบบบูรณาการ (IJOP, 一体化联合作战平台) ถูกใช้โดยรัฐบาลเพื่อตรวจสอบประชากร โดยเฉพาะชาวอุยกูร์ [ ^{119 ] ข้อมูล}ชีวมาตรรวมถึงตัวอย่างดีเอ็นเอ จะถูกรวบรวมผ่านโครงการตรวจร่างกายฟรี^{[ 120 ]}
ภายในปี 2020 จีนวางแผนที่จะให้คะแนน "เครดิตทางสังคม" ส่วนบุคคลแก่พลเมืองทุกคนโดยพิจารณาจากพฤติกรรมของพวกเขา^{[ 121 ]}ระบบเครดิตทางสังคมซึ่งขณะนี้กำลังทดลองใช้ในหลายเมืองของจีน ถือเป็นรูปแบบหนึ่งของการเฝ้าระวังมวลชนที่ใช้เทคโนโลยีการวิเคราะห์ข้อมูลขนาดใหญ่^{[ 122 ]}^{[ 123 ]}

อินเดีย

การวิเคราะห์ข้อมูลขนาดใหญ่ถูกนำมาทดลองใช้โดยพรรค BJPเพื่อชนะการเลือกตั้งทั่วไปของอินเดียในปี 2014 ^{[ 124 ]}
รัฐบาลอินเดียใช้วิธีการหลายอย่างเพื่อตรวจสอบว่าผู้มีสิทธิเลือกตั้งชาวอินเดียตอบสนองต่อการกระทำของรัฐบาลอย่างไร รวมถึงแนวคิดในการปรับปรุงนโยบายให้ดียิ่งขึ้น

อิสราเอล

สามารถสร้างการรักษาโรคเบาหวานเฉพาะบุคคลได้ผ่านโซลูชันข้อมูลขนาดใหญ่ของ GlucoMe ^{[ 125 ]}

สหราชอาณาจักร

ตัวอย่างการนำข้อมูลขนาดใหญ่ไปใช้ในบริการสาธารณะ:

ข้อมูลเกี่ยวกับยาตามใบสั่งแพทย์: ด้วยการเชื่อมโยงแหล่งที่มา สถานที่ และเวลาของใบสั่งยาแต่ละใบ หน่วยวิจัยสามารถยกตัวอย่างและตรวจสอบความล่าช้าอย่างมากระหว่างการวางจำหน่ายยาใดๆ กับการปรับใช้แนวทางของสถาบันแห่งชาติเพื่อสุขภาพและการดูแลความเป็นเลิศ ทั่วสหราชอาณาจักร ซึ่งแสดงให้เห็นว่ายาใหม่หรือยาที่ทันสมัยที่สุดต้องใช้เวลาสักระยะกว่าจะเข้าถึงผู้ป่วยทั่วไปได้^{[ 126 ]}
การเชื่อมโยงข้อมูล: หน่วยงานท้องถิ่นได้ผสมผสานข้อมูลเกี่ยวกับบริการต่างๆ เช่น ตารางการโรยเกลือบนถนน กับบริการสำหรับผู้ที่มีความเสี่ยง เช่นบริการส่งอาหารถึงบ้านการเชื่อมโยงข้อมูลทำให้หน่วยงานท้องถิ่นสามารถหลีกเลี่ยงความล่าช้าที่เกิดจากสภาพอากาศได้^{[ 127 ]}

สหรัฐอเมริกา

ในปี 2555 รัฐบาลโอบามาได้ประกาศโครงการวิจัยและพัฒนาข้อมูลขนาดใหญ่ เพื่อสำรวจว่าข้อมูลขนาดใหญ่สามารถนำมาใช้แก้ไขปัญหาสำคัญที่รัฐบาลเผชิญได้อย่างไร^{[ 128 ]}โครงการนี้ประกอบด้วยโปรแกรมข้อมูลขนาดใหญ่ที่แตกต่างกัน 84 โปรแกรม ซึ่งกระจายอยู่ใน 6 แผนก^{[ 129 ]}
การวิเคราะห์ข้อมูลขนาดใหญ่มีบทบาทสำคัญในการรณรงค์หาเสียงเลือกตั้งใหม่ของบารัค โอบามาใน ปี 2012 ที่ประสบความสำเร็จ ^[¹³⁰^]
รัฐบาลกลางของสหรัฐอเมริกาเป็น เจ้าของ ซูเปอร์คอมพิวเตอร์ที่ทรงพลังที่สุด 4 ใน 10 เครื่องของโลก^{[ 131 ]}^{[ 132 ]}
ศูนย์ข้อมูลยูทาห์ ถูกสร้างขึ้นโดย สำนักงานความมั่นคงแห่งชาติของสหรัฐอเมริกาเมื่อสร้างเสร็จแล้ว ศูนย์แห่งนี้จะสามารถจัดการข้อมูลจำนวนมากที่ NSA รวบรวมผ่านทางอินเทอร์เน็ตได้ ปริมาณพื้นที่จัดเก็บที่แน่นอนยังไม่เป็นที่ทราบแน่ชัด แต่แหล่งข้อมูลล่าสุดอ้างว่าจะมีขนาดประมาณไม่กี่เอ็กซาไบต์ [ ^{133 ] [}^{134 ] [}^{135 ] ซึ่ง}ก่อให้เกิดความกังวลด้านความปลอดภัยเกี่ยวกับความเป็นนิรนามของข้อมูลที่รวบรวมไว้^{[ 136 ]}

ขายปลีก

วอลมาร์ทดำเนินการธุรกรรมของลูกค้ามากกว่า 1 ล้านรายการทุกชั่วโมง ซึ่งถูกนำเข้าสู่ฐานข้อมูลที่คาดว่าจะมีข้อมูลมากกว่า 2.5 เพตาไบต์ (2560 เทราไบต์) ซึ่งเทียบเท่ากับข้อมูลมากกว่า 167 เท่าของหนังสือทั้งหมดในหอสมุดรัฐสภา สหรัฐอเมริกา ^{[ 6 ]}
Windermere Real Estateใช้ข้อมูลตำแหน่งที่ตั้งจากผู้ขับขี่เกือบ 100 ล้านคนเพื่อช่วยให้ผู้ซื้อบ้านใหม่สามารถกำหนดเวลาขับรถไปและกลับจากที่ทำงานโดยเฉลี่ยในช่วงเวลาต่างๆ ของวันได้^{[ 137 ]}
ระบบตรวจจับบัตร FICO ปกป้องบัญชีทั่วโลก^{[ 138 ]}
การค้าปลีกแบบ Omnichannel ^{[ 139 ]}ใช้ประโยชน์จากข้อมูลขนาดใหญ่ทางออนไลน์เพื่อปรับปรุงประสบการณ์ออฟไลน์

ศาสตร์

การ ทดลอง Large Hadron Colliderแสดงถึงเซ็นเซอร์ประมาณ 150 ล้านตัวที่ส่งข้อมูล 40 ล้านครั้งต่อวินาที มีการชนกันเกือบ 600 ล้านครั้งต่อวินาที หลังจากกรองและงดเว้นการบันทึกสตรีมมากกว่า 99.99995% ^{[ 140 ]}แล้ว จะเหลือการชนกันที่น่าสนใจ 1,000 ครั้งต่อวินาที^{[ 141 ]}^{[ 142 ]}^{[ 143 ]}
- ด้วยเหตุนี้ แม้จะใช้ข้อมูลจากเซ็นเซอร์เพียงไม่ถึง 0.001% ข้อมูลที่ไหลมาจากทั้งสี่การทดลองของ LHC ก็มีปริมาณถึง 25 เพตาไบต์ต่อปี ก่อนการจำลองแบบ (ข้อมูล ณ ปี 2012) และจะเพิ่มขึ้นเป็นเกือบ 200 เพตาไบต์หลังจากจำลองแบบแล้ว
- หากข้อมูลเซ็นเซอร์ทั้งหมดถูกบันทึกไว้ใน LHC ปริมาณข้อมูลมหาศาลจะจัดการได้ยากมาก ปริมาณข้อมูลจะเกิน 150 ล้านเพตาไบต์ต่อปี หรือเกือบ 500 เอ็กซาไบต์ต่อวัน ก่อนที่จะมีการจำลองข้อมูล เพื่อให้เห็นภาพชัดเจนขึ้น นี่เทียบเท่ากับ 500 ควินทิลเลียน (5× ^10²⁰ ) ไบต์ต่อวัน ซึ่งมากกว่าแหล่งข้อมูลอื่นๆ ทั้งหมดในโลกรวมกันเกือบ 200 เท่า
อาร์เรย์สแควร์กิโลเมตรเป็นกล้องโทรทัศน์วิทยุที่สร้างขึ้นจากเสาอากาศหลายพันต้น คาดว่าจะใช้งานได้ภายในปี 2024 โดยรวมแล้ว เสาอากาศเหล่านี้คาดว่าจะรวบรวมข้อมูลได้ 14 เอ็กซาไบต์และจัดเก็บข้อมูลได้ 1 เพตาไบต์ต่อวัน^{[ 144 ]}^{[ 145 ]}ถือเป็นหนึ่งในโครงการทางวิทยาศาสตร์ที่ทะเยอทะยานที่สุดเท่าที่เคยมีมา^{[ 146 ]}
เมื่อโครงการสำรวจท้องฟ้าดิจิทัลสโลน (SDSS) เริ่มเก็บรวบรวมข้อมูลทางดาราศาสตร์ในปี 2000 ก็ได้รวบรวมข้อมูลมากกว่าข้อมูลทั้งหมดที่เคยเก็บรวบรวมในประวัติศาสตร์ดาราศาสตร์ในช่วงไม่กี่สัปดาห์แรก โดยดำเนินการเก็บรวบรวมข้อมูลในอัตราประมาณ 200 GB ต่อคืน SDSS จึงได้รวบรวมข้อมูลมากกว่า 140 เทราไบต์^{[ 6 ]}เมื่อกล้องโทรทรรศน์สำรวจขนาดใหญ่ (Large Synoptic Survey Telescope ) ซึ่งเป็นรุ่นต่อจาก SDSS เริ่มใช้งานในปี 2020 ผู้ออกแบบคาดว่าจะสามารถเก็บรวบรวมข้อมูลได้ในปริมาณดังกล่าวทุกๆ ห้าวัน^{[ 6 ]}
การถอดรหัสจีโนมมนุษย์เดิมใช้เวลา 10 ปีในการประมวลผล แต่ปัจจุบันสามารถทำได้ภายในเวลาไม่ถึงหนึ่งวัน เครื่องถอดรหัสลำดับดีเอ็นเอได้ลดต้นทุนการถอดรหัสลง 10,000 เท่าในช่วงสิบปีที่ผ่านมา ซึ่งถูกกว่าการลดต้นทุนที่คาดการณ์ไว้ตามกฎของมัวร์ถึง 100 เท่า ^{[ 147 ]}
ศูนย์ จำลองสภาพภูมิอากาศ ของ NASA (NCCS) จัดเก็บข้อมูลการสังเกตและการจำลองสภาพภูมิอากาศขนาด 32 เพตาไบต์บนคลัสเตอร์ซูเปอร์คอมพิวเตอร์ Discover ^{[ 148 ]}^{[ 149 ]}
DNAStack ของ Google รวบรวมและจัดระเบียบตัวอย่าง DNA ของข้อมูลทางพันธุกรรมจากทั่วโลกเพื่อระบุโรคและความผิดปกติทางการแพทย์อื่นๆ การคำนวณที่รวดเร็วและแม่นยำนี้ช่วยขจัด "จุดเสียดทาน" หรือข้อผิดพลาดของมนุษย์ที่อาจเกิดขึ้นจากผู้เชี่ยวชาญด้านวิทยาศาสตร์และชีววิทยาจำนวนมากที่ทำงานกับ DNA DNAStack ซึ่งเป็นส่วนหนึ่งของ Google Genomics ช่วยให้นักวิทยาศาสตร์สามารถใช้ทรัพยากรตัวอย่างจำนวนมหาศาลจากเซิร์ฟเวอร์ค้นหาของ Google เพื่อขยายขนาดการทดลองทางสังคมที่ปกติแล้วต้องใช้เวลาหลายปี ได้ทันที^{[ 150 ]}^{[ 151 ]}
ฐานข้อมูล DNAของ23andmeมีข้อมูลทางพันธุกรรมของผู้คนมากกว่า 1,000,000 คนทั่วโลก^{[ 152 ]}บริษัทกำลังสำรวจความเป็นไปได้ในการขาย "ข้อมูลทางพันธุกรรมแบบรวมที่ไม่ระบุตัวตน" ให้กับนักวิจัยและบริษัทยาอื่นๆ เพื่อวัตถุประสงค์ในการวิจัย หากผู้ป่วยให้ความยินยอม^{[ 153 ]}^{[ 154 ]}^{[ 155 ]}^{[ 156 ]}^{[ 157 ]}อาหมัด ฮาริรี ศาสตราจารย์ด้านจิตวิทยาและประสาทวิทยาศาสตร์แห่งมหาวิทยาลัยดุ๊กซึ่งใช้ 23andMe ในการวิจัยของเขามาตั้งแต่ปี 2009 ระบุว่าแง่มุมที่สำคัญที่สุดของบริการใหม่ของบริษัทคือการทำให้การวิจัยทางพันธุกรรมเข้าถึงได้ง่ายและมีราคาค่อนข้างถูกสำหรับนักวิทยาศาสตร์^{[ 153 ]}การศึกษาที่ระบุตำแหน่งจีโนม 15 ตำแหน่งที่เชื่อมโยงกับภาวะซึมเศร้าในฐานข้อมูลของ 23andMe นำไปสู่ความต้องการเข้าถึงคลังข้อมูลที่เพิ่มขึ้น โดย 23andMe ได้รับคำขอเข้าถึงข้อมูลภาวะซึมเศร้าเกือบ 20 คำขอในสองสัปดาห์หลังจากตีพิมพ์บทความ^{[ 158 ]}
พลศาสตร์ของไหลเชิงคำนวณ ( CFD ) และ งานวิจัยเกี่ยว กับความปั่นป่วน ของอุทกพลศาสตร์ ก่อให้เกิดชุดข้อมูลขนาดใหญ่ ฐานข้อมูลความปั่นป่วนของจอห์นส์ ฮอปกินส์ ( JHTDB ) ประกอบด้วยข้อมูลภาคสนามเชิงพื้นที่และเวลามากกว่า 350 เทราไบต์ จากการจำลองเชิงตัวเลขโดยตรงของการไหลแบบปั่นป่วนต่างๆ ข้อมูลดังกล่าวเป็นเรื่องยากที่จะแบ่งปันโดยใช้วิธีการแบบดั้งเดิม เช่น การดาวน์โหลดไฟล์เอาต์พุตการจำลองแบบเรียบๆ แต่ข้อมูลใน JHTDB สามารถเข้าถึงได้โดยใช้ "เซ็นเซอร์เสมือน" ด้วยโหมดการเข้าถึงที่หลากหลาย ตั้งแต่การสอบถามโดยตรงผ่านเว็บเบราว์เซอร์ การเข้าถึงผ่านโปรแกรม Matlab, Python, Fortran และ C ที่ทำงานบนแพลตฟอร์มของลูกค้า ไปจนถึงบริการดาวน์โหลดข้อมูลดิบ ข้อมูลเหล่านี้ถูกนำไปใช้ในสิ่งพิมพ์ทางวิทยาศาสตร์มากกว่า 150 ฉบับ

กีฬา

ข้อมูลขนาดใหญ่สามารถนำมาใช้เพื่อปรับปรุงการฝึกฝนและทำความเข้าใจคู่แข่งโดยใช้เซ็นเซอร์กีฬา นอกจากนี้ยังสามารถทำนายผู้ชนะในการแข่งขันโดยใช้การวิเคราะห์ข้อมูลขนาดใหญ่ได้อีกด้วย^{[ 159 ]} ยังสามารถทำนายผลการแข่งขันในอนาคตของผู้เล่นได้อีกด้วย^{[ 160 ]}ดังนั้น มูลค่าและเงินเดือนของผู้เล่นจึงถูกกำหนดโดยข้อมูลที่รวบรวมตลอดฤดูกาล^{[ 161 ]}

ใน การแข่งขัน ฟอร์มูล่าวันรถแข่งที่มีเซ็นเซอร์หลายร้อยตัวสร้างข้อมูลหลายเทราไบต์ เซ็นเซอร์เหล่านี้รวบรวมข้อมูลตั้งแต่แรงดันลมยางไปจนถึงประสิทธิภาพการเผาไหม้เชื้อเพลิง^{[ 162 ]} จากข้อมูลเหล่านี้ วิศวกรและนักวิเคราะห์ข้อมูลจะตัดสินใจว่าควรปรับเปลี่ยนอะไรบ้างเพื่อที่จะชนะการแข่งขัน นอกจากนี้ การใช้ข้อมูลขนาดใหญ่ ทีมแข่งพยายามคาดการณ์เวลาที่จะเข้าเส้นชัยล่วงหน้า โดยอาศัยการจำลองโดยใช้ข้อมูลที่รวบรวมตลอดฤดูกาล^{[ 163 ]}

เทคโนโลยี

ณ ปี 2013 eBay.comใช้คลังข้อมูล สองแห่ง ที่มีขนาด 7.5 เพตาไบต์และ 40 เพตาไบต์ รวมทั้ง คลัสเตอร์ Hadoop ขนาด 40 เพตาไบต์ สำหรับการค้นหา คำแนะนำสำหรับผู้บริโภค และการขายสินค้า^{[ 164 ]}
Amazon.comดำเนินการระบบเบื้องหลังหลายล้านรายการทุกวัน รวมทั้งคำถามจากผู้ขายบุคคลที่สามมากกว่าครึ่งล้านราย เทคโนโลยีหลักที่ทำให้ Amazon ดำเนินงานได้คือระบบ Linux และในปี 2548 พวกเขามีฐานข้อมูล Linux ที่ใหญ่ที่สุดสามแห่งของโลก โดยมีความจุ 7.8 TB, 18.5 TB และ 24.7 TB ตามลำดับ^{[ 165 ]}
เฟซบุ๊กจัดการรูปภาพ 50 พันล้านรูปจากฐานผู้ใช้^{[ 166 ]}ณ เดือนมิถุนายน 2560 เฟซบุ๊กมีผู้ใช้งานรายเดือนถึง 2 พันล้านคน^{[ 167 ]}
ณ เดือนสิงหาคม พ.ศ. 2555 Google ดำเนินการค้นหาประมาณ 100 พันล้านครั้งต่อเดือน ^{[ 168 ]}
ตัวอย่างที่โด่งดังมากของการนำข้อมูลขนาดใหญ่มาใช้คือ Amazon Amazon ใช้การวิเคราะห์ข้อมูลเพื่อขับเคลื่อนระบบแนะนำสินค้า Amazon ประสบความสำเร็จอย่างมากจากยอดขายส่วนหนึ่งที่มาจากหมวด "สินค้าแนะนำ" ซึ่งแนะนำสินค้าให้เหมาะสมกับแต่ละบุคคล

โควิด 19

ในช่วงการระบาดของ COVID-19ข้อมูลขนาดใหญ่ถูกยกขึ้นมาเป็นวิธีหนึ่งในการลดผลกระทบของโรค การประยุกต์ใช้ข้อมูลขนาดใหญ่ที่สำคัญ ได้แก่ การลดการแพร่กระจายของไวรัส การระบุผู้ป่วย และการพัฒนาการรักษาทางการแพทย์^{[ 169 ]}

รัฐบาลใช้ข้อมูลขนาดใหญ่เพื่อติดตามผู้ติดเชื้อเพื่อลดการแพร่กระจาย ประเทศที่นำมาใช้ก่อนได้แก่ จีน ไต้หวัน เกาหลีใต้ และอิสราเอล^{[ 170 ]}^{[ 171 ]}^{[ 172 ]}

กิจกรรมการวิจัย

การค้นหาแบบเข้ารหัสและการสร้างคลัสเตอร์ในข้อมูลขนาดใหญ่ได้รับการสาธิตในเดือนมีนาคม 2014 ที่ American Society of Engineering Education Gautam Siwach ซึ่งมีส่วนร่วมในการจัดการความท้าทายของข้อมูลขนาดใหญ่โดยMIT Computer Science and Artificial Intelligence Laboratoryและ Amir Esmailpour จาก UNH Research Group ได้ตรวจสอบคุณลักษณะสำคัญของข้อมูลขนาดใหญ่ เช่น การสร้างคลัสเตอร์และการเชื่อมต่อระหว่างกัน พวกเขามุ่งเน้นไปที่ความปลอดภัยของข้อมูลขนาดใหญ่และการวางแนวทางของคำดังกล่าวไปสู่การมีอยู่ของข้อมูลประเภทต่างๆ ในรูปแบบเข้ารหัสที่อินเทอร์เฟซคลาวด์ โดยให้คำจำกัดความดิบและตัวอย่างแบบเรียลไทม์ภายในเทคโนโลยี นอกจากนี้ พวกเขายังเสนอแนวทางในการระบุเทคนิคการเข้ารหัสเพื่อก้าวไปสู่การค้นหาที่รวดเร็วขึ้นบนข้อความที่เข้ารหัส ซึ่งนำไปสู่การปรับปรุงความปลอดภัยในข้อมูลขนาดใหญ่^{[ 173 ]}

ในเดือนมีนาคม พ.ศ. 2555 ทำเนียบขาวประกาศโครงการริเริ่มข้อมูลขนาดใหญ่ระดับชาติ ซึ่งประกอบด้วยหน่วยงานและกระทรวงของรัฐบาลกลาง 6 แห่ง โดยจัดสรรงบประมาณมากกว่า 200 ล้านดอลลาร์สหรัฐสำหรับโครงการวิจัยข้อมูลขนาดใหญ่^{[ 174 ]}

โครงการริเริ่มนี้รวมถึงทุนสนับสนุน "Expeditions in Computing" จากมูลนิธิวิทยาศาสตร์แห่งชาติมูลค่า 10 ล้านดอลลาร์สหรัฐ เป็นระยะเวลา 5 ปี ให้แก่ AMPLab ^{[ 175 ]}ที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์^{[ 176 ]} AMPLab ยังได้รับเงินทุนจากDARPAและผู้สนับสนุนจากภาคอุตสาหกรรมกว่าสิบราย และใช้ข้อมูลขนาดใหญ่เพื่อแก้ไขปัญหาหลากหลาย ตั้งแต่การทำนายความแออัดของการจราจร^{[ 177 ]}ไปจนถึงการต่อสู้กับโรคมะเร็ง^{[ 178 ]}

โครงการริเริ่มข้อมูลขนาดใหญ่ของทำเนียบขาวยังรวมถึงพันธสัญญาของกระทรวงพลังงานที่จะจัดสรรเงินทุน 25 ล้านดอลลาร์สหรัฐในระยะเวลา 5 ปีเพื่อจัดตั้งสถาบันการจัดการ การวิเคราะห์ และการแสดงภาพข้อมูลที่ปรับขนาดได้ (SDAV) ^{[ 179 ]} ซึ่งนำโดย ห้องปฏิบัติการแห่งชาติลอว์เรนซ์เบิร์กลีย์ของกระทรวงพลังงานสถาบัน SDAV มีเป้าหมายที่จะรวบรวมความเชี่ยวชาญของห้องปฏิบัติการแห่งชาติ 6 แห่งและมหาวิทยาลัย 7 แห่งเพื่อพัฒนาเครื่องมือใหม่ที่จะช่วยให้นักวิทยาศาสตร์จัดการและแสดงภาพข้อมูลบนซูเปอร์คอมพิวเตอร์ของกระทรวง

รัฐแมสซาชูเซตส์ ของสหรัฐอเมริกา ประกาศโครงการริเริ่มข้อมูลขนาดใหญ่ของแมสซาชูเซตส์ในเดือนพฤษภาคม 2012 ซึ่งให้เงินทุนจากรัฐบาลและบริษัทเอกชนแก่สถาบันวิจัยต่างๆ^{[ 180 ]}สถาบันเทคโนโลยีแมสซาชูเซตส์เป็นที่ตั้งของศูนย์วิทยาศาสตร์และเทคโนโลยีอินเทลสำหรับข้อมูลขนาดใหญ่ในห้องปฏิบัติการวิทยาศาสตร์คอมพิวเตอร์และปัญญาประดิษฐ์ของ MITซึ่งเป็นการรวมเงินทุนและความพยายามในการวิจัยจากภาครัฐ ภาคเอกชน และสถาบันต่างๆ^{[ 181 ]}

คณะกรรมาธิการยุโรปให้ทุนสนับสนุนโครงการ Big Data Public Private Forum ระยะเวลาสองปีผ่านโครงการกรอบงานที่เจ็ด เพื่อดึงดูดบริษัท นักวิชาการ และผู้มีส่วนได้ส่วนเสียอื่นๆ เข้ามาหารือเกี่ยวกับประเด็นข้อมูลขนาดใหญ่ โครงการนี้มีเป้าหมายเพื่อกำหนดกลยุทธ์ในแง่ของการวิจัยและนวัตกรรมเพื่อเป็นแนวทางในการดำเนินการสนับสนุนจากคณะกรรมาธิการยุโรปในการนำเศรษฐกิจข้อมูลขนาดใหญ่ไปใช้ให้ประสบความสำเร็จ ผลลัพธ์ของโครงการนี้จะถูกนำไปใช้เป็นข้อมูลป้อนเข้าสำหรับHorizon 2020 ซึ่ง เป็นโครงการกรอบงานถัดไป^{[ 182 ]}

รัฐบาลอังกฤษประกาศเมื่อเดือนมีนาคม พ.ศ. 2557 เกี่ยวกับการก่อตั้งสถาบันอลัน ทัวริงซึ่งตั้งชื่อตามผู้บุกเบิกด้านคอมพิวเตอร์และผู้ถอดรหัส โดยสถาบันนี้จะมุ่งเน้นไปที่วิธีการใหม่ในการรวบรวมและวิเคราะห์ชุดข้อมูลขนาดใหญ่^{[ 183 ]}

ในงาน Canadian Open Data Experience (CODE) Inspiration Day ที่วิทยาเขต Stratford มหาวิทยาลัย Waterlooผู้เข้าร่วมได้สาธิตวิธีการใช้การแสดงภาพข้อมูลเพื่อเพิ่มความเข้าใจและความน่าสนใจของชุดข้อมูลขนาดใหญ่ และสื่อสารเรื่องราวของพวกเขาไปทั่วโลก^{[ 184 ]}

วิทยาศาสตร์สังคมเชิงคำนวณ – ทุกคนสามารถใช้อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน (API) ที่จัดหาโดยผู้ถือข้อมูลขนาดใหญ่ เช่น Google และ Twitter เพื่อทำการวิจัยในวิทยาศาสตร์สังคมและพฤติกรรม^{[ 185 ]}บ่อยครั้งที่ API เหล่านี้ให้บริการฟรี^{[ 185 ]} Tobias Preisและคณะใช้ ข้อมูล Google Trendsเพื่อแสดงให้เห็นว่าผู้ใช้อินเทอร์เน็ตจากประเทศที่มีผลิตภัณฑ์มวลรวมภายในประเทศ (GDP) ต่อหัวสูงกว่า มีแนวโน้มที่จะค้นหาข้อมูลเกี่ยวกับอนาคตมากกว่าข้อมูลเกี่ยวกับอดีต ผลการวิจัยชี้ให้เห็นว่าอาจมีความเชื่อมโยงระหว่างพฤติกรรมออนไลน์และตัวชี้วัดทางเศรษฐกิจในโลกแห่งความเป็นจริง^{[ 186 ]}^{[ 187 ]}^{[ 188 ]}ผู้เขียนการศึกษาได้ตรวจสอบบันทึกการค้นหาของ Google โดยพิจารณาจากอัตราส่วนของปริมาณการค้นหาสำหรับปีที่จะมาถึง (2011) ต่อปริมาณการค้นหาสำหรับปีที่ผ่านมา (2009) ซึ่งพวกเขาเรียกว่า " ดัชนีการวางแนวทางอนาคต " ^{[ 189 ]}พวกเขาเปรียบเทียบดัชนีการวางแนวทางอนาคตกับ GDP ต่อหัวของแต่ละประเทศ และพบว่ามีแนวโน้มที่ชัดเจนว่าประเทศที่ผู้ใช้ Google สอบถามเกี่ยวกับอนาคตมากขึ้นจะมี GDP สูงกว่า

Tobias Preisและเพื่อนร่วมงานของเขา Helen Susannah Moat และH. Eugene Stanleyได้นำเสนอวิธีการระบุตัวบ่งชี้ล่วงหน้าทางออนไลน์สำหรับการเคลื่อนไหวของตลาดหุ้น โดยใช้กลยุทธ์การซื้อขายตามข้อมูลปริมาณการค้นหาที่จัดทำโดย Google Trends ^{[ 190 ] การวิเคราะห์ปริมาณการค้นหาของ Google สำหรับ 98 คำที่มีความเกี่ยวข้องทางการเงินที่แตกต่างกัน ซึ่งตีพิมพ์ใน Scientific Reports [}^{191 ] ชี้}ให้เห็นว่าการเพิ่ม^ขึ้น^ของปริมาณการค้นหาสำหรับคำค้นหาที่เกี่ยวข้องกับการเงินมักจะนำไปสู่การขาดทุนจำนวนมากในตลาดการเงิน^[¹⁹²^]^[¹⁹³^]^[¹⁹⁴^]^[¹⁹⁵^]^[¹⁹⁶^]^[¹⁹⁷^]^[¹⁹⁸^]

ชุดข้อมูลขนาดใหญ่มาพร้อมกับความท้าทายทางอัลกอริทึมที่ไม่เคยมีมาก่อน ดังนั้น บางคนจึงมองว่ามีความจำเป็นต้องเปลี่ยนแปลงวิธีการประมวลผลโดยพื้นฐาน^{[ 199 ]}

การสุ่มตัวอย่างข้อมูลขนาดใหญ่

คำถามวิจัยที่มักถามเกี่ยวกับชุดข้อมูลขนาดใหญ่คือ จำเป็นต้องพิจารณาข้อมูลทั้งหมดเพื่อสรุปผลเกี่ยวกับคุณสมบัติของข้อมูลหรือไม่ หรือว่าตัวอย่างข้อมูลก็เพียงพอแล้ว ชื่อ "ข้อมูลขนาดใหญ่" เองก็มีคำที่เกี่ยวข้องกับขนาด ซึ่งเป็นลักษณะสำคัญของข้อมูลขนาดใหญ่ แต่การสุ่มตัวอย่างช่วยให้สามารถเลือกจุดข้อมูลที่เหมาะสมจากชุดข้อมูลขนาดใหญ่เพื่อประเมินลักษณะของประชากรทั้งหมดได้ ในภาคการผลิต ข้อมูลทางประสาทสัมผัสประเภทต่างๆ เช่น เสียง การสั่นสะเทือน ความดัน กระแสไฟฟ้า แรงดันไฟฟ้า และข้อมูลจากตัวควบคุม จะมีให้ใช้งานในช่วงเวลาสั้นๆ การคาดการณ์เวลาหยุดทำงานอาจไม่จำเป็นต้องดูข้อมูลทั้งหมด แต่ตัวอย่างข้อมูลอาจเพียงพอ ข้อมูลขนาดใหญ่สามารถแบ่งย่อยได้ตามหมวดหมู่ข้อมูลต่างๆ เช่น ข้อมูลด้านประชากรศาสตร์ จิตวิทยา พฤติกรรม และธุรกรรม ด้วยชุดข้อมูลขนาดใหญ่ นักการตลาดสามารถสร้างและใช้กลุ่มผู้บริโภคที่กำหนดเองได้มากขึ้นเพื่อการกำหนดเป้าหมายเชิงกลยุทธ์ที่ดียิ่งขึ้น

วิจารณ์

การวิจารณ์กระบวนทัศน์ข้อมูลขนาดใหญ่มีอยู่สองประเภท ได้แก่ การวิจารณ์ที่ตั้งคำถามถึงผลกระทบของแนวทางดังกล่าว และการวิจารณ์ที่ตั้งคำถามถึงวิธีการดำเนินการในปัจจุบัน^{[ 200 ]}แนวทางหนึ่งในการวิจารณ์นี้คือสาขา การ ศึกษา ข้อมูลเชิงวิพากษ์

การวิพากษ์วิจารณ์กระบวนทัศน์ข้อมูลขนาดใหญ่

“ปัญหาสำคัญคือเราไม่รู้มากนักเกี่ยวกับกระบวนการย่อยเชิงประจักษ์พื้นฐานที่นำไปสู่การเกิดขึ้นของลักษณะเครือข่ายทั่วไปของบิ๊กดาต้า” ^{[ 23 ]} ในการวิจารณ์ Snijders, Matzat และReipsชี้ให้เห็นว่ามักมีการตั้งสมมติฐานที่แข็งแกร่งมากเกี่ยวกับคุณสมบัติทางคณิตศาสตร์ซึ่งอาจไม่ได้สะท้อนถึงสิ่งที่เกิดขึ้นจริงในระดับกระบวนการย่อยเลย Mark Graham ได้วิจารณ์อย่างกว้างขวางต่อการยืนยันของChris Anderson ที่ว่าบิ๊กดาต้าจะทำให้ทฤษฎีสิ้นสุดลง: ^{[ 201 ]}โดยเน้นเป็นพิเศษที่แนวคิดที่ว่าบิ๊กดาต้าจะต้องอยู่ในบริบททางสังคม เศรษฐกิจ และการเมืองเสมอ^{[ 202 ]}แม้ว่าบริษัทต่างๆ จะลงทุนเป็นจำนวนเงินแปดและเก้าหลักเพื่อดึงข้อมูลเชิงลึกจากข้อมูลที่ไหลเข้ามาจากซัพพลายเออร์และลูกค้า แต่มีพนักงานน้อยกว่า 40% เท่านั้นที่มีกระบวนการและทักษะที่ครบถ้วนเพียงพอที่จะทำเช่นนั้นได้ เพื่อเอาชนะการขาดความเข้าใจนี้ ข้อมูลขนาดใหญ่ไม่ว่าจะครอบคลุมหรือวิเคราะห์ได้ดีเพียงใด ^ก็ต้องเสริมด้วย "การตัดสินใจที่ยิ่งใหญ่" ตามบทความในHarvard Business Review [ ^{203 ]}

ในทำนองเดียวกัน มีการชี้ให้เห็นว่าการตัดสินใจที่อิงจากการวิเคราะห์ข้อมูลขนาดใหญ่ย่อม "ได้รับข้อมูลจากโลกในอดีต หรืออย่างดีที่สุดก็คือโลกในปัจจุบัน" ^{[ 66 ]}ด้วยข้อมูลจำนวนมากเกี่ยวกับประสบการณ์ในอดีต อัลกอริทึมสามารถทำนายการพัฒนาในอนาคตได้หากอนาคตคล้ายคลึงกับอดีต^{[ 204 ]}หากพลวัตของระบบในอนาคตเปลี่ยนแปลงไป (หากไม่ใช่กระบวนการคงที่ ) อดีตก็แทบจะไม่สามารถบอกอะไรเกี่ยวกับอนาคตได้เลย เพื่อให้สามารถทำนายผลในสภาพแวดล้อมที่เปลี่ยนแปลงได้ จำเป็นต้องมีความเข้าใจอย่างถ่องแท้เกี่ยวกับพลวัตของระบบ ซึ่งต้องอาศัยทฤษฎี^{[ 204 ]}เพื่อตอบสนองต่อคำวิจารณ์นี้ Alemany Oliver และ Vayre แนะนำให้ใช้ "การให้เหตุผลแบบอุปมานเป็นขั้นตอนแรกในกระบวนการวิจัยเพื่อนำบริบทมาสู่ร่องรอยดิจิทัลของผู้บริโภคและทำให้เกิดทฤษฎีใหม่ขึ้น" ^{[ 205 ]} นอกจากนี้ ยังมีการเสนอแนะให้รวมแนวทางข้อมูลขนาดใหญ่เข้ากับการจำลองด้วยคอมพิวเตอร์ เช่นโมเดลแบบตัวแทน^{[ 66 ]}และระบบที่ซับซ้อนโมเดลแบบตัวแทนกำลังพัฒนาให้ดีขึ้นเรื่อยๆ ในการทำนายผลลัพธ์ของความซับซ้อนทางสังคม แม้กระทั่งสถานการณ์ในอนาคตที่ไม่รู้จัก ผ่านการจำลองด้วยคอมพิวเตอร์ที่อิงตามชุดของอัลกอริธึมที่พึ่งพาซึ่งกันและกัน^{[ 206 ]}^{[ 207 ]}สุดท้าย การใช้วิธีการหลายตัวแปรที่ตรวจสอบโครงสร้างแฝงของข้อมูล เช่นการวิเคราะห์ปัจจัยและการวิเคราะห์คลัสเตอร์ได้พิสูจน์แล้วว่ามีประโยชน์ในฐานะแนวทางการวิเคราะห์ที่ก้าวไปไกลกว่าแนวทางสองตัวแปร (เช่นตารางความสัมพันธ์ ) ที่มักใช้กับชุดข้อมูลขนาดเล็ก

ในด้านสุขภาพและชีววิทยา แนวทางทางวิทยาศาสตร์แบบดั้งเดิมนั้นอาศัยการทดลอง สำหรับแนวทางเหล่านี้ ปัจจัยจำกัดคือข้อมูลที่เกี่ยวข้องที่สามารถยืนยันหรือหักล้างสมมติฐานเริ่มต้นได้^{[ 208 ]} ปัจจุบันมีการยอมรับสมมติฐานใหม่ในวิทยาศาสตร์ชีวภาพ: ข้อมูลที่ได้จากข้อมูลจำนวนมหาศาล ( omics ) โดยไม่มีสมมติฐานมาก่อนนั้นเป็นส่วนเสริมและบางครั้งก็จำเป็นสำหรับแนวทางแบบดั้งเดิมที่อาศัยการทดลอง^{[ 209 ]}^{[ 210 ]}ในแนวทางขนาดใหญ่ การกำหนดสมมติฐานที่เกี่ยวข้องเพื่ออธิบายข้อมูลนั้นเป็นปัจจัยจำกัด^{[ 211 ]} ตรรกะการค้นหาถูกกลับด้าน และ ต้องพิจารณา ข้อจำกัดของการเหนี่ยวนำ ("ความรุ่งโรจน์ของวิทยาศาสตร์และเรื่องอื้อฉาวทางปรัชญา", CD Broad , 1926)

ผู้สนับสนุน ความเป็นส่วนตัวกังวลเกี่ยวกับภัยคุกคามต่อความเป็นส่วนตัวที่เกิดจากการจัดเก็บและการบูรณาการข้อมูลส่วนบุคคล ที่เพิ่มมากขึ้น คณะผู้เชี่ยวชาญได้ออกคำแนะนำเชิงนโยบายต่างๆ เพื่อให้การปฏิบัติสอดคล้องกับความคาดหวังด้านความเป็นส่วนตัว^{[ 212 ]}การใช้ข้อมูลขนาดใหญ่ในทางที่ผิดในหลายกรณีโดยสื่อ บริษัท และแม้แต่รัฐบาล ส่งผลให้ความไว้วางใจในสถาบันพื้นฐานเกือบทุกแห่งที่ค้ำจุนสังคมถูกทำลายลง^{[ 213 ]}

Barocas และ Nissenbaum โต้แย้งว่าวิธีหนึ่งในการปกป้องผู้ใช้แต่ละรายคือการแจ้งให้ทราบเกี่ยวกับประเภทของข้อมูลที่ถูกรวบรวม ว่าข้อมูลนั้นถูกแบ่งปันกับใคร ภายใต้ข้อจำกัดใด และเพื่อวัตถุประสงค์ใด^{[ 214 ]}

ข้อวิจารณ์เกี่ยวกับโมเดล "V"

โมเดล "V" ของข้อมูลขนาดใหญ่เป็นเรื่องที่น่ากังวล เนื่องจากเน้นที่ความสามารถในการปรับขนาดการคำนวณและขาดความสามารถในการรับรู้และเข้าใจข้อมูล ซึ่งนำไปสู่กรอบการทำงานของข้อมูลขนาดใหญ่เชิงปัญญาซึ่งกำหนดลักษณะของแอปพลิเคชันข้อมูลขนาดใหญ่ตาม: ^{[ 215 ]}

ความสมบูรณ์ของข้อมูล: ความเข้าใจในสิ่งที่ไม่ชัดเจนจากข้อมูล
ความสัมพันธ์ของข้อมูล ความเป็นเหตุเป็นผล และความสามารถในการทำนาย: ความเป็นเหตุเป็นผลไม่ใช่ข้อกำหนดที่จำเป็นสำหรับการบรรลุความสามารถในการทำนาย
ความสามารถในการอธิบายและตีความ: มนุษย์ปรารถนาที่จะเข้าใจและยอมรับในสิ่งที่ตนเข้าใจ ซึ่งเป็นสิ่งที่อัลกอริทึมไม่สามารถจัดการได้
ระดับของการตัดสินใจอัตโนมัติ : อัลกอริทึมที่สนับสนุนการตัดสินใจอัตโนมัติและการเรียนรู้ด้วยตนเองของอัลกอริทึม

การวิจารณ์ความแปลกใหม่

เครื่องคอมพิวเตอร์ได้วิเคราะห์ชุดข้อมูลขนาดใหญ่มานานกว่าศตวรรษแล้ว รวมถึงการวิเคราะห์ข้อมูลสำมะโนประชากรของสหรัฐฯ ที่ดำเนินการโดยเครื่องเจาะรูของIBM ซึ่งคำนวณสถิติต่างๆ เช่น ค่าเฉลี่ยและความแปรปรวนของประชากรทั่วทั้งทวีป ในช่วงไม่กี่ทศวรรษที่ผ่านมา การทดลองทางวิทยาศาสตร์ เช่น CERNได้สร้างข้อมูลในขนาดที่คล้ายคลึงกับ "บิ๊กดาต้า" เชิงพาณิชย์ในปัจจุบัน อย่างไรก็ตาม การทดลองทางวิทยาศาสตร์มักจะวิเคราะห์ข้อมูลโดยใช้ คลัสเตอร์และกริด คอมพิวเตอร์ประสิทธิภาพสูง (ซูเปอร์คอมพิวเตอร์) ที่สร้างขึ้นเป็นพิเศษ แทนที่จะใช้คลาวด์ของคอมพิวเตอร์ราคาถูกทั่วไปอย่างในกระแสเชิงพาณิชย์ปัจจุบัน ซึ่งบ่งบอกถึงความแตกต่างทั้งในด้านวัฒนธรรมและเทคโนโลยี

การวิพากษ์วิจารณ์การนำข้อมูลขนาดใหญ่ไปใช้

Ulf-Dietrich Reipsและ Uwe Matzat เขียนไว้ในปี 2014 ว่าข้อมูลขนาดใหญ่กลายเป็น "กระแส" ในการวิจัยทางวิทยาศาสตร์^{[ 185 ]}นักวิจัยdanah boydได้แสดงความกังวลเกี่ยวกับการใช้ข้อมูลขนาดใหญ่ในวิทยาศาสตร์โดยละเลยหลักการต่างๆ เช่น การเลือกตัวอย่างที่เป็นตัวแทนโดยกังวลมากเกินไปเกี่ยวกับการจัดการข้อมูลจำนวนมหาศาล^{[ 216 ]}แนวทางนี้อาจนำไปสู่ผลลัพธ์ที่มีอคติในทางใดทางหนึ่ง^{[ 217 ]}การบูรณาการข้ามแหล่งข้อมูลที่หลากหลาย—บางส่วนอาจถือว่าเป็นข้อมูลขนาดใหญ่และบางส่วนไม่ใช่—ก่อให้เกิดความท้าทายด้านโลจิสติกส์และการวิเคราะห์อย่างมาก แต่มีนักวิจัยจำนวนมากโต้แย้งว่าการบูรณาการดังกล่าวมีแนวโน้มที่จะเป็นพรมแดนใหม่ที่น่าสนใจที่สุดในวิทยาศาสตร์^{[ 218 ]} ในบทความที่กระตุ้นความคิดเรื่อง "คำถามสำคัญสำหรับข้อมูลขนาดใหญ่" ^{[ 219 ]}ผู้เขียนได้กล่าวถึงข้อมูลขนาดใหญ่ว่าเป็นส่วนหนึ่งของตำนาน : "ชุดข้อมูลขนาดใหญ่นำเสนอรูปแบบของสติปัญญาและความรู้ที่สูงกว่า [...] พร้อมด้วยออร่าแห่งความจริง ความเป็นกลาง และความแม่นยำ" ผู้ใช้ข้อมูลขนาดใหญ่มักจะ "หลงทางไปกับปริมาณตัวเลขมหาศาล" และ "การทำงานกับข้อมูลขนาดใหญ่ยังคงเป็นเรื่องอัตวิสัย และสิ่งที่วัดปริมาณได้นั้นไม่จำเป็นต้องมีการอ้างอิงถึงความจริงที่เป็นกลางอย่างใกล้ชิด" ^{[ 219 ]}การพัฒนาล่าสุดในโดเมน BI เช่น การรายงานเชิงรุกโดยเฉพาะอย่างยิ่งมุ่งเป้าไปที่การปรับปรุงความสามารถในการใช้งานข้อมูลขนาดใหญ่ ผ่านการกรอง ข้อมูลและความสัมพันธ์ที่ไม่เป็นประโยชน์ โดย อัตโนมัติ^{[ 220 ]}โครงสร้างขนาดใหญ่เต็มไปด้วยความสัมพันธ์ที่ผิดพลาด^{[ 221 ]}ไม่ว่าจะเป็นเพราะความบังเอิญที่ไม่มีสาเหตุ ( กฎของจำนวนมากอย่างแท้จริง ) ธรรมชาติของความสุ่มขนาดใหญ่เพียงอย่างเดียว^{[ 222 ]} ( ทฤษฎีของแรมซีย์ ) หรือการมีอยู่ของปัจจัยที่ไม่ได้รวมอยู่ด้วยดังนั้นความหวังของนักทดลองในยุคแรกๆ ที่จะทำให้ฐานข้อมูลตัวเลขขนาดใหญ่ "พูดด้วยตัวเอง" และปฏิวัติวิธีการทางวิทยาศาสตร์จึงถูกตั้งคำถาม^{[ 223 ]}แคทเธอรีน ทักเกอร์ชี้ให้เห็นถึง "กระแสความนิยม" เกี่ยวกับข้อมูลขนาดใหญ่ โดยเขียนว่า "ข้อมูลขนาดใหญ่เพียงอย่างเดียวไม่น่าจะมีคุณค่า" บทความอธิบายว่า "บริบทมากมายที่ข้อมูลมีราคาถูกเมื่อเทียบกับต้นทุนในการรักษาบุคลากรที่มีความสามารถในการประมวลผล แสดงให้เห็นว่าทักษะการประมวลผลมีความสำคัญมากกว่าตัวข้อมูลเองในการสร้างมูลค่าให้กับบริษัท" ^{[ 224 ]}

การวิเคราะห์ข้อมูลขนาดใหญ่มักจะตื้นเขินเมื่อเทียบกับการวิเคราะห์ชุดข้อมูลขนาดเล็ก^{[ 225 ]}ในโครงการข้อมูลขนาดใหญ่หลายโครงการไม่มีการวิเคราะห์ข้อมูลขนาดใหญ่เกิดขึ้น แต่ความท้าทายอยู่ ที่ส่วนของ การสกัด การแปลง และการโหลดข้อมูลก่อนการประมวลผล^{[ 225 ]}

ข้อมูลขนาดใหญ่เป็นคำที่ได้รับความนิยมและเป็น "คำที่คลุมเครือ" ^{[ 226 ]}^{[ 227 ]}แต่ในขณะเดียวกันก็เป็น "สิ่งที่ผู้ประกอบการ ที่ปรึกษา นักวิทยาศาสตร์ และสื่อต่างให้ความสนใจ" ^{[ 227 ]}การนำเสนอข้อมูลขนาดใหญ่ เช่นGoogle Flu Trendsล้มเหลวในการให้การคาดการณ์ที่ดีในช่วงไม่กี่ปีที่ผ่านมา โดยคาดการณ์การระบาดของไข้หวัดใหญ่เกินจริงถึงสองเท่า ในทำนองเดียวกัน การคาดการณ์ รางวัลออสการ์และการเลือกตั้งที่อิงจาก Twitter เพียงอย่างเดียวมักจะผิดพลาดมากกว่าถูกต้อง ข้อมูลขนาดใหญ่มักก่อให้เกิดความท้าทายเช่นเดียวกับข้อมูลขนาดเล็ก การเพิ่มข้อมูลมากขึ้นไม่ได้แก้ปัญหาเรื่องอคติ แต่กลับอาจเน้นย้ำปัญหาอื่นๆ โดยเฉพาะอย่างยิ่งแหล่งข้อมูลเช่น Twitter ไม่ได้เป็นตัวแทนของประชากรโดยรวม และผลลัพธ์ที่ได้จากแหล่งข้อมูลดังกล่าวอาจนำไปสู่ข้อสรุปที่ผิดพลาดGoogle Translateซึ่งอิงจากการวิเคราะห์ทางสถิติของข้อมูลขนาดใหญ่ของข้อความ ทำงานได้ดีในการแปลหน้าเว็บ อย่างไรก็ตาม ผลลัพธ์จากโดเมนเฉพาะทางอาจคลาดเคลื่อนอย่างมาก ในทางกลับกัน ข้อมูลขนาดใหญ่อาจก่อให้เกิดปัญหาใหม่ๆ เช่นปัญหาการเปรียบเทียบหลายรายการ : การทดสอบสมมติฐานจำนวนมากพร้อมกันมีแนวโน้มที่จะสร้างผลลัพธ์ที่ผิดพลาดจำนวนมากซึ่งดูเหมือนมีนัยสำคัญอย่างผิดพลาด Ioannidis โต้แย้งว่า "ผลการวิจัยที่ตีพิมพ์ส่วนใหญ่เป็นเท็จ" ^{[ 228 ]}เนื่องจากผลกระทบที่คล้ายคลึงกัน: เมื่อทีมวิทยาศาสตร์และนักวิจัยจำนวนมากทำการทดลองจำนวนมาก (เช่น ประมวลผลข้อมูลทางวิทยาศาสตร์จำนวนมาก แม้ว่าจะไม่ได้ใช้เทคโนโลยีข้อมูลขนาดใหญ่ก็ตาม) โอกาสที่ผลลัพธ์ที่ "มีนัยสำคัญ" จะเป็นเท็จจะเพิ่มขึ้นอย่างรวดเร็ว โดยเฉพาะอย่างยิ่งเมื่อมีการตีพิมพ์เฉพาะผลลัพธ์เชิงบวกเท่านั้น นอกจากนี้ ผลลัพธ์การวิเคราะห์ข้อมูลขนาดใหญ่จะดีได้ก็ต่อเมื่อแบบจำลองที่ใช้เป็นพื้นฐานนั้นดีเท่านั้น ตัวอย่างเช่น ข้อมูลขนาดใหญ่ได้มีส่วนร่วมในการพยายามทำนายผลการเลือกตั้งประธานาธิบดีสหรัฐฯ ปี 2016 ^{[ 229 ]}ด้วยระดับความสำเร็จที่แตกต่างกัน

การวิพากษ์วิจารณ์การใช้ข้อมูลขนาดใหญ่ในการบังคับใช้กฎหมายและการเฝ้าระวัง

ข้อมูลขนาดใหญ่ถูกนำมาใช้ในการควบคุมดูแลและการเฝ้าระวังโดยสถาบันต่างๆ เช่น หน่วยงานบังคับใช้กฎหมายและบริษัทต่างๆ ( ) ^{[ 230 ]}เนื่องจากลักษณะการเฝ้าระวังโดยใช้ข้อมูลนั้นมองเห็นได้ยากกว่าเมื่อเทียบกับวิธีการควบคุมดูแลแบบดั้งเดิม การคัดค้านการใช้ข้อมูลขนาดใหญ่ในการควบคุมดูแลจึงมีโอกาสน้อย ตามที่ Sarah Brayne กล่าวไว้ในBig Data Surveillance: The Case of Policing [ ^{231 ] การ} ใช้ข้อมูลขนาดใหญ่ในการควบคุมดูแลสามารถสร้าง ความไม่เท่าเทียมกันทางสังคมที่มีอยู่ขึ้นมาใหม่ได้3 วิธี:

การเพิ่มการเฝ้าระวังประชาชนโดยอ้างเหตุผลจากอัลกอริทึมทางคณิตศาสตร์ซึ่งถือว่าไม่มีอคติ
การเพิ่มขอบเขตและจำนวนผู้ที่อยู่ภายใต้การติดตามของหน่วยงานบังคับใช้กฎหมาย และการทำให้ปัญหาการมีจำนวนคนเชื้อชาติใดเชื้อชาติ หนึ่งมากเกินไป ในระบบยุติธรรมทางอาญาทวี ความรุนแรงขึ้น
ส่งเสริมให้สมาชิกในสังคมละทิ้งปฏิสัมพันธ์กับสถาบันที่จะสร้างร่องรอยทางดิจิทัล ซึ่งจะสร้างอุปสรรคต่อการมีส่วนร่วมทางสังคม

หากปัญหาที่อาจเกิดขึ้นเหล่านี้ไม่ได้รับการแก้ไขหรือควบคุม ผลกระทบของการควบคุมข้อมูลขนาดใหญ่ก็อาจยังคงส่งผลต่อลำดับชั้นทางสังคมต่อไป เบรย์นยังตั้งข้อสังเกตอีกว่า การใช้การควบคุมข้อมูลขนาดใหญ่อย่างรอบคอบสามารถป้องกันไม่ให้ความลำเอียงในระดับบุคคลกลายเป็นความลำเอียงในระดับสถาบันได้

ดูเพิ่มเติม

จริยธรรมของข้อมูลขนาดใหญ่ – จริยธรรมของการวิเคราะห์ข้อมูลจำนวนมหาศาล
แบบจำลองความพร้อมของข้อมูลขนาดใหญ่ – แง่มุมหนึ่งของวิทยาศาสตร์คอมพิวเตอร์
หน่วยความจำขนาดใหญ่ – หน่วยความจำแบบเข้าถึงโดยสุ่มจำนวนมาก
การจัดการข้อมูล – การจัดระเบียบข้อมูลที่รวบรวมไว้
ระบบจัดเก็บข้อมูลแบบกำหนดเอง (Data defined storage ) – คำศัพท์ทางการตลาดสำหรับการจัดการข้อมูลโดยการผสานรวมระดับแอปพลิเคชัน ข้อมูล และพื้นที่จัดเก็บข้อมูล
วิศวกรรมข้อมูล – แนวทางการออกแบบและพัฒนาระบบสารสนเทศโดยใช้หลักวิศวกรรมซอฟต์แวร์
ที่มาของข้อมูล – ต้นกำเนิดและลำดับเหตุการณ์ของข้อมูล
การบริจาคข้อมูลเพื่อการกุศล – แง่มุมหนึ่งของวัฒนธรรม
วิทยาศาสตร์ข้อมูล – สาขาวิชาที่ศึกษาเพื่อสกัดความรู้จากข้อมูล
การแปลงข้อมูลเป็นดิจิทัล – แนวโน้มทางเทคโนโลยี
ฐานข้อมูลเชิงเอกสาร – ประเภทของโปรแกรมคอมพิวเตอร์
รายชื่อบริษัทบิ๊กดาต้า
ฐานข้อมูลขนาดใหญ่มาก – ฐานข้อมูลที่มีข้อมูลจำนวนมหาศาล
การวิเคราะห์ข้อมูลเชิงโทโพโลยี – การวิเคราะห์ชุดข้อมูลโดยใช้เทคนิคจากโทโพโลยี
XLDB
ดาร์วิน สหภาพยุโรป

บรรณานุกรม

Hilbert, M (2016), "ข้อมูลขนาดใหญ่เพื่อการพัฒนา: การทบทวนคำมั่นสัญญาและความท้าทาย", Development Policy Review , 34 (1): 135– 74, doi : 10.1111/dpr.12142เข้าถึงได้ฟรี , เก็บถาวรเมื่อวันที่ 21 เมษายน 2021 ที่Wayback Machine
สไนจ์เดอร์ส ซี.; มัตซัต ยู.; ไรพส์ ยู.-ดี. (2012) "'บิ๊กดาต้า': ช่องว่างความรู้ขนาดใหญ่ในสาขาอินเทอร์เน็ต"วารสารวิทยาศาสตร์อินเทอร์เน็ตนานาชาติ 7 : 1– 5.เก็บถาวรจากต้นฉบับเมื่อวันที่ 23 พฤศจิกายน 2019 สืบค้นเมื่อ 13 เมษายน 2013
Yanase, J; Triantaphyllou, E (2019). "การสำรวจอย่างเป็นระบบเกี่ยวกับการวินิจฉัยโรคด้วยคอมพิวเตอร์ช่วยในทางการแพทย์: การพัฒนาในอดีตและปัจจุบัน" Expert Systems with Applications . 138 112821. doi : 10.1016/j.eswa.2019.112821 . S2CID 199019309 .

อ่านเพิ่มเติม

แหล่งข้อมูลห้องสมุดเกี่ยวกับ ข้อมูลขนาดใหญ่

แหล่งข้อมูลในห้องสมุดของคุณ
แหล่งข้อมูลในห้องสมุดอื่นๆ

Peter Kinnaird; Inbal Talgam-Cohen, บรรณาธิการ (2012). "Big Data" . XRDS: Crossroads, นิตยสาร ACM สำหรับนักศึกษา . เล่มที่ 19, ฉบับที่ 1. สมาคมเครื่องจักรคำนวณ . ISSN 1528-4980 . OCLC 779657714 .
Leskovec, Jure ; Rajaraman, Anand ; Ullman, Jeffrey D. (2014). การขุดค้นข้อมูลจากชุดข้อมูลขนาดใหญ่ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-1-10707723-2. OCLC 888463433 .
Mayer-Schönberger, Viktor ; Cukier, Kenneth (2013). บิ๊กดาต้า: การปฏิวัติที่จะเปลี่ยนแปลงวิถีชีวิต การทำงาน และความคิดของเรา . สำนักพิมพ์ Houghton Mifflin Harcourt. ISBN 978-1-29990302-9. OCLC 828620988 .
Press, Gil (9 พฤษภาคม 2013). "ประวัติโดยย่อของบิ๊กดาต้า" . forbes.com . เจอร์ซีย์ซิตี, นิวเจอร์ซีย์. สืบค้นเมื่อ17 กันยายน 2016 .
Stephens-Davidowitz, Seth (2017). ทุกคนโกหก: ข้อมูลขนาดใหญ่ ข้อมูลใหม่ และสิ่งที่อินเทอร์เน็ตสามารถบอกเราได้เกี่ยวกับตัวตนที่แท้จริงของเรา . สำนักพิมพ์ Dey Street Books. ISBN 978-0-06239085-1.
"บิ๊กดาต้า: การปฏิวัติการจัดการ"วารสารธุรกิจฮาร์วาร์ด ตุลาคม 2555
โอ'นีล, แคธี่ (2017). อาวุธทำลายล้างทางคณิตศาสตร์: ข้อมูลขนาดใหญ่เพิ่มความเหลื่อมล้ำและคุกคามประชาธิปไตยได้อย่างไร . สำนักพิมพ์บรอดเวย์บุ๊คส์. ISBN 978-0-55341883-5.

ลิงก์ภายนอก

สื่อที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ในวิกิมีเดียคอมมอนส์
คำจำกัดความของคำว่า"บิ๊กดาต้า"ในพจนานุกรมวิกิพีเดีย

[

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

7

สิ่งแวดล้อม

[

[

[

[

[

[

[

[

[

[

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

24 ] "

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]

[ 79 ]

[ 80 ]

[ 81 ]

[ 82 ]

[ 83 ]

[ 84 ]

[ 85 ]

[ 86 ]

[ 87 ]

[ 88 ]

[ 89 ]

[ 90 ]

[ 91 ]

[ 92 ]

[ 93 ]

[ 94

[ 95

[ 96 ]

[ 97 ]

[ 98 ]

[ 99 ]

[ 100 ]

ข้อมูลขนาดใหญ่

คำนิยาม

ข้อมูลขนาดใหญ่เทียบกับระบบวิเคราะห์ข้อมูลทางธุรกิจ

ลักษณะเฉพาะ

สถาปัตยกรรม

เทคโนโลยี

แอปพลิเคชัน

รัฐบาล

การพัฒนาระหว่างประเทศ

ประโยชน์

ความท้าทาย

การเงิน

การดูแลสุขภาพ

การศึกษา

สื่อ

ประกันภัย

อินเทอร์เน็ตของสิ่งต่างๆ (IoT)

เทคโนโลยีสารสนเทศ

วิทยาศาสตร์การสำรวจ

การตลาด

กรณีศึกษา

รัฐบาล

จีน

อินเดีย

อิสราเอล

สหราชอาณาจักร

สหรัฐอเมริกา

ขายปลีก

ศาสตร์

กีฬา

เทคโนโลยี

โควิด 19

กิจกรรมการวิจัย

การสุ่มตัวอย่างข้อมูลขนาดใหญ่

วิจารณ์

การวิพากษ์วิจารณ์กระบวนทัศน์ข้อมูลขนาดใหญ่

ข้อวิจารณ์เกี่ยวกับโมเดล "V"

การวิจารณ์ความแปลกใหม่

การวิพากษ์วิจารณ์การนำข้อมูลขนาดใหญ่ไปใช้

การวิพากษ์วิจารณ์การใช้ข้อมูลขนาดใหญ่ในการบังคับใช้กฎหมายและการเฝ้าระวัง

ดูเพิ่มเติม

บรรณานุกรม

อ่านเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ