อ่าน 6 นาที
วิศวกรรมข้อมูล
วิศวกรรมข้อมูล เป็น แนวทาง วิศวกรรมซอฟต์แวร์ ในการสร้าง ระบบข้อมูล เพื่อให้สามารถรวบรวมและใช้งาน ข้อมูล ได้ โดยปกติแล้วข้อมูลนี้จะใช้เพื่อเปิดใช้งาน การวิเคราะห์ และ...
วิศวกรรมข้อมูล
| บทความนี้เป็นส่วนหนึ่งของชุดบทความเกี่ยวกับ... |
| วิศวกรรม |
|---|
วิศวกรรมข้อมูลเป็น แนวทาง วิศวกรรมซอฟต์แวร์ในการสร้างระบบข้อมูลเพื่อให้สามารถรวบรวมและใช้งานข้อมูล ได้ โดยปกติแล้วข้อมูลนี้จะใช้เพื่อเปิดใช้งานการวิเคราะห์และวิทยาศาสตร์ข้อมูล ในภายหลัง ซึ่งมักเกี่ยวข้องกับ การเรียน รู้ของเครื่อง[ 1 ] [ 2 ]การทำให้ข้อมูลใช้งานได้มักเกี่ยวข้องกับการคำนวณและการจัดเก็บ ข้อมูลจำนวนมาก รวมถึงการประมวลผลข้อมูลด้วย
ประวัติศาสตร์
ในช่วงทศวรรษ 1970/1980 คำว่าระเบียบวิธีวิศวกรรมสารสนเทศ (IEM) ถูกสร้างขึ้นเพื่ออธิบายการออกแบบฐานข้อมูลและการใช้ซอฟต์แวร์สำหรับการวิเคราะห์และประมวลผลข้อมูล[ 3 ]เทคนิคเหล่านี้มีจุดประสงค์เพื่อให้ผู้ดูแลระบบฐานข้อมูล (DBA) และนักวิเคราะห์ระบบนำไปใช้ โดยอาศัยความเข้าใจเกี่ยวกับความต้องการในการประมวลผลการดำเนินงานขององค์กรในช่วงทศวรรษ 1980 โดยเฉพาะอย่างยิ่ง เทคนิคเหล่านี้มีจุดมุ่งหมายเพื่อช่วยเชื่อมช่องว่างระหว่างการวางแผนธุรกิจเชิงกลยุทธ์และระบบสารสนเทศ ผู้มีส่วนร่วมสำคัญในช่วงแรก (มักถูกเรียกว่า "บิดา" ของระเบียบวิธีวิศวกรรมสารสนเทศ) คือClive Finkelstein ชาวออสเตรเลีย ซึ่งเขียนบทความหลายฉบับเกี่ยวกับเรื่องนี้ระหว่างปี 1976 ถึง 1980 และยังร่วมเขียน รายงานของ Savant Institute ที่มีอิทธิพล ต่อเรื่องนี้กับ James Martin อีกด้วย [ 4 ] [ 5 ] [ 6 ]ในช่วงไม่กี่ปีต่อมา Finkelstein ยังคงทำงานในทิศทางที่เน้นธุรกิจมากขึ้น ซึ่งมีจุดประสงค์เพื่อรับมือกับสภาพแวดล้อมทางธุรกิจที่เปลี่ยนแปลงอย่างรวดเร็ว ในขณะที่ Martin ยังคงทำงานในทิศทางที่เน้นการประมวลผลข้อมูลมากขึ้น ระหว่างปี 1983 ถึง 1987 ชาร์ลส์ เอ็ม. ริชเตอร์ ภายใต้การชี้นำของไคลฟ์ ฟิงเคิลสไตน์ มีบทบาทสำคัญในการปรับปรุง IEM ตลอดจนช่วยออกแบบผลิตภัณฑ์ซอฟต์แวร์ IEM (ข้อมูลผู้ใช้) ซึ่งช่วยทำให้ IEM ทำงานโดยอัตโนมัติมากขึ้น
ในช่วงต้นทศวรรษ 2000 ข้อมูลและเครื่องมือข้อมูลโดยทั่วไปอยู่ในการดูแลของ ทีม เทคโนโลยีสารสนเทศ (IT) ในบริษัทส่วนใหญ่[ 7 ]จากนั้นทีมอื่นๆ จะใช้ข้อมูลในการทำงานของตน (เช่น การรายงาน) และโดยปกติแล้วทักษะด้านข้อมูลระหว่างส่วนต่างๆ ของธุรกิจเหล่านี้มักจะทับซ้อนกันน้อยมาก
ในช่วงต้นทศวรรษ 2010 ด้วยการเติบโตของอินเทอร์เน็ตปริมาณ ความเร็ว และความหลากหลายของข้อมูลที่เพิ่มขึ้นอย่างมหาศาล ทำให้เกิดคำว่าบิ๊กดาต้าเพื่ออธิบายถึงตัวข้อมูลเอง และบริษัทเทคโนโลยีที่ขับเคลื่อนด้วยข้อมูล เช่นFacebookและAirbnbเริ่มใช้คำว่าวิศวกรข้อมูล[ 3 ] [ 7 ]เนื่องจากขนาดของข้อมูลที่เพิ่มขึ้น บริษัทขนาดใหญ่ เช่นGoogle , Facebook, Amazon , Apple , MicrosoftและNetflixเริ่มหันเหออกจาก เทคนิค ETLและการจัดเก็บข้อมูลแบบดั้งเดิม พวกเขาเริ่มสร้างวิศวกรรมข้อมูลซึ่ง เป็น วิศวกรรมซอฟต์แวร์ประเภทหนึ่งที่เน้นข้อมูล โดยเฉพาะอย่างยิ่งโครงสร้างพื้นฐานคลังข้อมูลการปกป้องข้อมูลความปลอดภัยทางไซเบอร์การขุดการสร้างแบบจำลองการประมวลผลและการจัดการเมตาเดต้า[ 3 ] [ 7 ]การเปลี่ยนแปลงแนวทางนี้มุ่งเน้นไปที่การประมวลผลแบบคลาวด์เป็น พิเศษ [ 7 ]ข้อมูลเริ่มได้รับการจัดการและใช้งานโดยหลายส่วนของธุรกิจ เช่นฝ่ายขายและการตลาดไม่ใช่แค่ฝ่ายไอทีเท่านั้น[ 7 ]
เครื่องมือ
คำนวณ
การประมวลผลประสิทธิภาพสูงมีความสำคัญอย่างยิ่งต่อการประมวลผลและการวิเคราะห์ข้อมูล แนวทางการประมวลผลที่แพร่หลายเป็นพิเศษสำหรับวิศวกรรมข้อมูลคือการเขียนโปรแกรมการไหลของข้อมูลซึ่งการคำนวณจะถูกแสดงเป็นกราฟแบบมีทิศทาง (กราฟการไหลของข้อมูล) โดยโหนดคือการดำเนินการ และขอบแสดงถึงการไหลของข้อมูล[ 8 ]การใช้งานที่เป็นที่นิยม ได้แก่Apache SparkและTensorFlowซึ่งเฉพาะเจาะจงสำหรับการเรียนรู้เชิงลึก[ 8 ] [ 9 ] [ 10 ]การใช้งานล่าสุด เช่นDifferential / Timely Dataflow ได้ใช้การประมวลผลแบบเพิ่มขึ้นเพื่อการประมวลผลข้อมูลที่มีประสิทธิภาพมากขึ้น[ 8 ] [ 11 ] [ 12 ]
พื้นที่จัดเก็บ
ข้อมูลถูกจัดเก็บในหลากหลายรูปแบบ ปัจจัยสำคัญอย่างหนึ่งคือวิธีการนำข้อมูลไปใช้ วิศวกรข้อมูลจึงทำการปรับปรุงระบบจัดเก็บและประมวลผลข้อมูลเพื่อลดต้นทุน โดยใช้เทคนิคต่างๆ เช่น การบีบอัดข้อมูล การแบ่งพาร์ติชัน และการเก็บรักษาข้อมูลระยะยาว
ฐานข้อมูล
หากข้อมูลมีโครงสร้างและจำเป็นต้องมีการประมวลผลธุรกรรมออนไลน์ บางรูปแบบ โดยทั่วไปจะใช้ฐานข้อมูล[ 13 ]เดิมทีมีการใช้ฐานข้อมูลเชิงสัมพันธ์ เป็นหลัก โดยมีการรับประกันความถูกต้องของธุรกรรม ACID ที่แข็งแกร่ง ฐานข้อมูลเชิงสัมพันธ์ส่วนใหญ่ใช้SQLสำหรับการสืบค้น อย่างไรก็ตาม ด้วยการเติบโตของข้อมูลในช่วงทศวรรษ 2010 ฐานข้อมูล NoSQLก็ได้รับความนิยมมากขึ้นเช่นกัน เนื่องจากสามารถปรับขนาดในแนวนอนได้ง่ายกว่าฐานข้อมูลเชิงสัมพันธ์ โดยการละทิ้งการรับประกันธุรกรรม ACID รวมถึงลดความไม่สอดคล้องกันระหว่างอ็อบเจ็กต์และเชิงสัมพันธ์ [ 14 ] เมื่อไม่นานมานี้ ฐานข้อมูล NewSQLซึ่งพยายามอนุญาตให้ปรับขนาดในแนวนอนในขณะที่ยังคงรักษาการรับประกัน ACID ไว้ ได้รับความนิยมมากขึ้น[ 15 ] [ 16 ] [ 17 ] [ 18 ]
คลังข้อมูล
หากข้อมูลมีโครงสร้างและจำเป็นต้องมีการประมวลผลเชิงวิเคราะห์ออนไลน์ (แต่ไม่จำเป็นต้องประมวลผลธุรกรรมออนไลน์) คลังข้อมูล จึง เป็นตัวเลือกหลัก[ 19 ] คลังข้อมูล ช่วยให้สามารถวิเคราะห์ข้อมูล ขุดค้นข้อมูล และใช้ปัญญาประดิษฐ์ในระดับที่ใหญ่กว่าฐานข้อมูลได้มาก[ 19 ]และในความเป็นจริง ข้อมูลมักจะไหลจากฐานข้อมูลไปยังคลังข้อมูล[ 20 ]นักวิเคราะห์ธุรกิจวิศวกรข้อมูล และนักวิทยาศาสตร์ข้อมูลสามารถเข้าถึงคลังข้อมูลได้โดยใช้เครื่องมือต่างๆ เช่น SQL หรือซอฟต์แวร์ธุรกิจอัจฉริยะ[ 20 ]
ดาต้าเลคส์
ดาต้าเลค (Data Lake)คือแหล่งเก็บข้อมูลส่วนกลางสำหรับจัดเก็บ ประมวลผล และรักษาความปลอดภัยของข้อมูลปริมาณมาก ดาต้าเลคสามารถบรรจุข้อมูลที่มีโครงสร้างจากฐานข้อมูลเชิงสัมพันธ์ข้อมูลกึ่งโครงสร้างข้อมูลที่ไม่มีโครงสร้างและข้อมูลไบนารีได้สามารถสร้างดาต้าเลคได้ทั้งในระบบภายในองค์กรหรือในสภาพแวดล้อมบนคลาวด์ โดยใช้บริการจากผู้ ให้บริการ คลาวด์สาธารณะเช่นAmazon , MicrosoftหรือGoogle
ไฟล์
หากข้อมูลมีโครงสร้างไม่ชัดเจน มักจะจัดเก็บในรูปแบบไฟล์มีหลายทางเลือกดังนี้:
- ระบบไฟล์แสดงข้อมูลแบบลำดับชั้นในโฟลเดอร์ที่ซ้อนกัน[ 21 ]
- พื้นที่จัดเก็บข้อมูลแบบบล็อกจะแบ่งข้อมูลออกเป็นส่วนๆ ที่มีขนาดสม่ำเสมอ[ 21 ]ซึ่งมักจะตรงกับฮาร์ดไดรฟ์ (เสมือน) หรือไดรฟ์โซลิดสเตท
- การจัดเก็บวัตถุจะจัดการข้อมูลโดยใช้ เม ตาเดตา[ 21 ] โดยแต่ละไฟล์มักจะ ได้รับการกำหนดคีย์ เช่นUUID [ 22 ]
การจัดการ
จำนวนและความหลากหลายของกระบวนการข้อมูลและตำแหน่งจัดเก็บข้อมูลที่แตกต่างกันอาจทำให้ผู้ใช้รู้สึกหนักใจ สิ่งนี้กระตุ้นให้มีการใช้ระบบจัดการเวิร์กโฟลว์ (เช่นAirflow ) เพื่อให้สามารถระบุ สร้าง และตรวจสอบงานข้อมูลได้[ 23 ]งานเหล่านี้มักถูกระบุเป็นกราฟแบบไม่มีวงจรทิศทาง (DAG ) [ 23 ]
วงจรชีวิต
การวางแผนธุรกิจ
เป้าหมายทางธุรกิจที่ผู้บริหารกำหนดไว้สำหรับอนาคตนั้นจะถูกกำหนดไว้ในแผนธุรกิจหลัก โดยมีการกำหนดรายละเอียดที่ชัดเจนยิ่งขึ้นในแผนธุรกิจเชิงกลยุทธ์ และการนำไปปฏิบัติจะอยู่ในแผนธุรกิจเชิงปฏิบัติการ ธุรกิจส่วนใหญ่ในปัจจุบันตระหนักถึงความจำเป็นพื้นฐานในการวางแผนธุรกิจที่สอดคล้องกับกลยุทธ์นี้ อย่างไรก็ตาม การนำแผนเหล่านี้ไปปฏิบัติมักเป็นเรื่องยากเนื่องจากขาดความโปร่งใสในระดับกลยุทธ์และเชิงปฏิบัติการขององค์กร การวางแผนประเภทนี้ต้องการการรับฟังความคิดเห็นเพื่อให้สามารถแก้ไขปัญหาที่เกิดจากการสื่อสารผิดพลาดและการตีความแผนธุรกิจผิดพลาดได้ตั้งแต่เนิ่นๆ
การออกแบบระบบ
การออกแบบระบบข้อมูลเกี่ยวข้องกับส่วนประกอบหลายอย่าง เช่น การวางโครงสร้างแพลตฟอร์มข้อมูล และการออกแบบแหล่งเก็บข้อมูล[ 24 ] [ 25 ]
การสร้างแบบจำลองข้อมูล
การสร้างแบบจำลองข้อมูลคือกระบวนการสร้างแบบจำลองข้อมูลซึ่งเป็นแบบจำลองเชิงนามธรรมเพื่ออธิบายข้อมูลและความสัมพันธ์ระหว่างส่วนต่างๆ ของข้อมูล[ 26 ]
บทบาท
วิศวกรข้อมูล
วิศวกรข้อมูลเป็นวิศวกรซอฟต์แวร์ประเภทหนึ่งที่สร้าง ไปป์ไลน์ ETL ข้อมูลขนาดใหญ่ เพื่อจัดการการไหลของข้อมูลผ่านองค์กร ทำให้สามารถนำข้อมูลจำนวนมหาศาลมาแปลงเป็น ข้อมูล เชิงลึกได้[ 27 ]พวกเขามุ่งเน้นไปที่ความพร้อมในการผลิตของข้อมูลและสิ่งต่างๆ เช่น รูปแบบ ความยืดหยุ่น การปรับขนาด และความปลอดภัย วิศวกรข้อมูลมักมาจากพื้นฐานวิศวกรรมซอฟต์แวร์และมีความเชี่ยวชาญในภาษาโปรแกรม เช่นJava , Python , ScalaและRust [ 28 ] [ 3 ] พวกเขาจะคุ้นเคยกับฐานข้อมูล สถาปัตยกรรม การประมวลผล แบบคลาวด์ และการพัฒนาซอฟต์แวร์แบบ Agileมากกว่า[ 3 ]
นักวิทยาศาสตร์ข้อมูล
นักวิทยาศาสตร์ข้อมูลจะมุ่งเน้นไปที่การวิเคราะห์ข้อมูลมากขึ้น พวกเขาจะคุ้นเคยกับคณิตศาสตร์อัลกอริทึมสถิติและการ เรียน รู้ของเครื่อง มากขึ้น [ 3 ] [ 29 ]
ดูเพิ่มเติม
- ข้อมูลขนาดใหญ่
- วิทยาการคอมพิวเตอร์
- เทคโนโลยีสารสนเทศ
- รายชื่อซอฟต์แวร์วิทยาศาสตร์ข้อมูล
- วิศวกรรมซอฟต์แวร์
อ่านเพิ่มเติม
- Hares, John S. (1992). วิศวกรรมสารสนเทศสำหรับผู้ปฏิบัติงานขั้นสูง . Wiley. ISBN 978-0-471-92810-2.
- ฟิงเคิลสไตน์, ไคลฟ์ (1989). บทนำสู่วิศวกรรมสารสนเทศ: จากการวางแผนเชิงกลยุทธ์สู่ระบบสารสนเทศ . แอดดิสัน-เวสลีย์. ISBN 978-0-201-41654-1.
- ฟิงเคิลสไตน์, ไคลฟ์ (1992). วิศวกรรมสารสนเทศ: การพัฒนาระบบเชิงกลยุทธ์ . แอดดิสัน-เวสลีย์. ISBN 978-0-201-50988-5.
- เอียน แมคโดนัลด์ (1986). "วิศวกรรมสารสนเทศ". ใน: ระเบียบวิธีออกแบบระบบสารสนเทศ . ที.วี. ออลเล และคณะ (บรรณาธิการ). นอร์ทฮอลแลนด์.
- เอียน แมคโดนัลด์ (1988). "การทำให้วิธีการทางวิศวกรรมสารสนเทศเป็นไปโดยอัตโนมัติด้วยศูนย์วิศวกรรมสารสนเทศ" ใน: การช่วยเหลือด้วยคอมพิวเตอร์ในระหว่างวงจรชีวิตของระบบสารสนเทศ TW Olleและคณะ (บรรณาธิการ). นอร์ทฮอลแลนด์
- เจมส์ มาร์ตินและไคลฟ์ ฟิงเคิลสไตน์ (1981). วิศวกรรมสารสนเทศ . รายงานทางเทคนิค (2 เล่ม), สถาบันซาวันต์, คาร์นฟอร์ธ, แลงคาเชอร์, สหราชอาณาจักร
- เจมส์ มาร์ติน (1989). วิศวกรรมสารสนเทศ (3 เล่ม), สำนักพิมพ์ Prentice-Hall Inc.
- ฟิงเคิลสไตน์, ไคลฟ์ (2006). สถาปัตยกรรมองค์กรเพื่อการบูรณาการ: วิธีการและเทคโนโลยีการส่งมอบอย่างรวดเร็ว . อาร์เทค เฮาส์. ISBN 978-1-58053-713-1.
- Reis, Joe; Housley, Matt (2022). พื้นฐานของวิศวกรรมข้อมูล . O'Reilly Media. ISBN 978-1-0981-0827-4.
- Kleppmann, Martin; Riccomini, Chris (2026). การออกแบบแอปพลิเคชันที่ใช้ข้อมูลจำนวนมาก (ฉบับที่ 2). O'Reilly Media. ISBN 978-1098119065.
ลิงก์ภายนอก
- วิธีการที่ซับซ้อน (Complex Method) ของ IEM ถูกเก็บถาวรเมื่อวันที่ 20 กรกฎาคม 2019 ที่Wayback Machine
- การพัฒนาแอปพลิเคชันอย่างรวดเร็ว
- วิศวกรรมองค์กรและการส่งมอบสถาปัตยกรรมองค์กรอย่างรวดเร็ว
- คลังความรู้ ด้านวิศวกรรมข้อมูล (Data Engineering Vault)คือศูนย์รวมความรู้ที่เชื่อมโยงกัน ครอบคลุมแนวคิด เครื่องมือ และรูปแบบต่างๆ ด้านวิศวกรรมข้อมูล
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ วิศวกรรมข้อมูล
วิศวกรรมข้อมูล เป็น แนวทาง วิศวกรรมซอฟต์แวร์ ในการสร้าง ระบบข้อมูล เพื่อให้สามารถรวบรวมและใช้งาน ข้อมูล ได้ โดยปกติแล้วข้อมูลนี้จะใช้เพื่อเปิดใช้งาน การวิเคราะห์ และ...
ประวัติศาสตร์
ในช่วงทศวรรษ 1970/1980 คำว่าระเบียบ วิธี วิศวกรรมสารสนเทศ (IEM) ถูกสร้างขึ้นเพื่ออธิบาย การออกแบบฐานข้อมูล และการใช้ ซอฟต์แวร์ สำหรับการวิเคราะห์และประมวลผลข้อมูล [ 3 ] เทคนิคเหล่านี้มีจุดประสงค์เพื่อให้ ผู้ดูแลระบบฐานข้อมูล (DBA) และ นักวิเคราะห์ระบบ นำไปใช้...
คำนวณ
การประมวลผลประสิทธิภาพสูงมีความสำคัญอย่างยิ่งต่อการประมวลผลและการวิเคราะห์ข้อมูล แนวทางการประมวลผลที่แพร่หลายเป็นพิเศษสำหรับวิศวกรรมข้อมูลคือ การเขียนโปรแกรมการไหลของข้อมูล ซึ่งการคำนวณจะถูกแสดงเป็น กราฟแบบมีทิศทาง (กราฟการไหลของข้อมูล) โดยโหนดคือการดำเนินการ...
พื้นที่จัดเก็บ
ข้อมูลถูกจัดเก็บในหลากหลายรูปแบบ ปัจจัยสำคัญอย่างหนึ่งคือวิธีการนำข้อมูลไปใช้ วิศวกรข้อมูลจึงทำการปรับปรุงระบบจัดเก็บและประมวลผลข้อมูลเพื่อลดต้นทุน โดยใช้เทคนิคต่างๆ เช่น การบีบอัดข้อมูล การแบ่งพาร์ติชัน และการเก็บรักษาข้อมูลระยะยาว