반응형
인공지능 학습용 데이터 구축 과정
임무 정의 ➡️ 데이터 수집 ➡️ 데이터 정제 ➡️ 데이터 라벨링 ➡️ 데이터 학습
원시데이터와 원천데이터의 차이
원시데이터 (Raw Data)
: 기계학습을 목적으로 획득 단계에서 수집 또는 생성한 음성, 이미지, 영상, 텍스트 등의 데이터
원천데이터 (Source Data, Unlabeled Data)
: 원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제 작업을 수행한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터
원시데이터 (수집한 그대로 날것) ➡️ 원천데이터 (전처리/정제 작업) ➡️ 라벨링데이터
원시데이터의 품질
- 다양성
- 신뢰성
- 충분성
- 균일성
- 사실성
- 공평성
인공지능 학습용 데이터 품질관리 모델
- 계획
- 업무 정의 ➡️ 구축 계획 수집
- 구축
- 프로젝트 개요·운영
- 데이터 분야
- 데이터 유형
- 프로젝트 일정관리
- 툴킷 적합성
- 프로세스/상태 관리
- 데이터 수집 ➡️ 정제 ➡️ 라벨링 ➡️ 학습
- 작업자 수준 관리
- 정확도, 성실도, 작업 속도
- 프로젝트 품질 관리
- 구축 공정 품질
- 구축 데이터 품질
- 인공지능 학습 모델
- 프로젝트 개요·운영
- 운영·활용
- 품질 오류 신고 관리
- 개방 데이터 품질관리
- 데이터 품질 진단 및 개선 관리
인공지능 학습용 데이터 품질 (4)
- 라벨링 데이터의 품질 (Data quality)
- 데이터 라벨링 과정의 품질 (Process quality)
- 크라우드소싱 플랫폼의 품질 (Software quality)
- 작업자의 품질 (People quality)
품질관리 지표 (10)
- 구축 공정
- 준비성 : 정책, 규정(법제도), 조직, 절차가 마련 되었는지
- 완전성 : 데이터가 정의된 형식 및 입력값 범위에 맞도록 설계 구축 되었는가 ❓
- 유용성 : 요구사항 반영도
- 데이터 적합성
- 기준 적합성 : 다양성, 신뢰성, 충분성 사실성 측정❓
- 기술 적합성 : 학습 용도 적합성 (파일포맷, 해상도, 선명도, 컬러, 크기, 길이, 음질 등)
- 통계적 다양성 : 데이터 편향성 방지 (클래스 분포도, 인스턴스 분포도, 문장길이, 어휘 개수 등)
- 데이터 정확성
- 의미 정확성 : 라벨링데이터의 정확도, 정밀도, 재현율
- 구문 정확성 : 어노테이션 데이터 속성 값과 원래 정의한 데이터 형식/입력값 범위 일치성
- 학습 모델
- 알고리즘 적정성 : Task 단위 학습모델의 Task 적정성❓
- 유효성 : 알고리즘 유효성
데이터 구축 생애주기에 따른 작업자의 작업 정의
작업 방법 설계 ➡️ 작업 단위 정의 ➡️ 작업 기준 정의(검수)
* 데이터 구축 생애주기: 구축계획 수립 ➡️ 데이터 수집 ➡️ 데이터 정제 ➡️ 데이터 라벨링 ➡️ 데이터학습
출처: 과학기술정보통신부, 한국지능정 보사회진흥원의 「인공지능 학습용 데이터 품질관리 가이드라인 v2.0 - 품질관리 안내서」
반응형
'지식 정보 Knowledge > 업무 공부 Studies' 카테고리의 다른 글
[SQL] PostgreSQL 기초 강의 추천 (Udemy 데이터 역량 강화를 위한 SQL 부트캠프) (0) | 2024.03.31 |
---|---|
[파이썬] 코알못 직장인 파이썬 기초 강의 추천 (Udemy Python 부트캠프) (1) | 2024.03.01 |
[합격 수기] 제56회 DAP 데이터아키텍처 전문가 합격 (데이터 자격 시험/자격증/한국데이터산업진흥원) (2) | 2022.07.04 |
💻자격증 합격률 총정리📈(정보처리기사, 빅데이터분석기사, 정보보안기사, DAP/DAsP, ADP/ADsP, SQLP/SQLD) (0) | 2022.06.29 |
[요약] 인공지능 학습용 데이터 품질관리 안내서_V. 품질관리 프레임워크 (0) | 2022.04.26 |