[요약] 인공지능 학습용 데이터 품질관리 안내서_I. 서론 ~ II. 개요

2022. 4. 26. 17:42· 지식 정보 Knowledge/업무 공부 Studies
반응형

인공지능 학습용 데이터 구축 과정

임무 정의 ➡️ 데이터 수집 ➡️ 데이터 정제 ➡️ 데이터 라벨링 ➡️ 데이터 학습


원시데이터와 원천데이터의 차이

원시데이터 (Raw Data)
: 기계학습을 목적으로 획득 단계에서 수집 또는 생성한 음성, 이미지, 영상, 텍스트 등의 데이터

 

원천데이터 (Source Data, Unlabeled Data)
: 원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제 작업을 수행한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터

 

원시데이터 (수집한 그대로 날것) ➡️ 원천데이터 (전처리/정제 작업) ➡️ 라벨링데이터 


원시데이터의 품질

  • 다양성
  • 신뢰성
  • 충분성
  • 균일성
  • 사실성
  • 공평성

인공지능 학습용 데이터 품질관리 모델

  • 계획
    • 업무 정의 ➡️ 구축 계획 수집
  • 구축
    • 프로젝트 개요·운영
      • 데이터 분야
      • 데이터 유형
      • 프로젝트 일정관리
      • 툴킷 적합성
    • 프로세스/상태 관리
      • 데이터 수집 ➡️ 정제 ➡️ 라벨링 ➡️ 학습
    • 작업자 수준 관리
      • 정확도, 성실도, 작업 속도
    • 프로젝트 품질 관리
      • 구축 공정 품질
      • 구축 데이터 품질
      • 인공지능 학습 모델
  • 운영·활용
    • 품질 오류 신고 관리
    • 개방 데이터 품질관리
    • 데이터 품질 진단 및 개선 관리

인공지능 학습용 데이터 품질 (4)

  • 라벨링 데이터의 품질 (Data quality)
  • 데이터 라벨링 과정의 품질 (Process quality)
  • 크라우드소싱 플랫폼의 품질 (Software quality)
  • 작업자의 품질 (People quality)

품질관리 지표 (10)

  • 구축 공정
    • 준비성 : 정책, 규정(법제도), 조직, 절차가 마련 되었는지
    • 완전성 : 데이터가 정의된 형식 및 입력값 범위에 맞도록 설계 구축 되었는가 ❓
    • 유용성 : 요구사항 반영도
  • 데이터 적합성
    • 기준 적합성 : 다양성, 신뢰성, 충분성 사실성 측정❓
    • 기술 적합성 : 학습 용도 적합성 (파일포맷, 해상도, 선명도, 컬러, 크기, 길이, 음질 등) 
    • 통계적 다양성 : 데이터 편향성 방지 (클래스 분포도, 인스턴스 분포도, 문장길이, 어휘 개수 등)
  • 데이터 정확성
    • 의미 정확성 : 라벨링데이터의 정확도, 정밀도, 재현율
    • 구문 정확성 : 어노테이션 데이터 속성 값과 원래 정의한 데이터 형식/입력값 범위 일치성
  • 학습 모델
    • 알고리즘 적정성 : Task 단위 학습모델의 Task 적정성❓
    • 유효성 : 알고리즘 유효성

데이터 구축 생애주기에 따른 작업자의 작업 정의

작업 방법 설계 ➡️ 작업 단위 정의 ➡️ 작업 기준 정의(검수)

 

* 데이터 구축 생애주기: 구축계획 수립 ➡️ 데이터 수집 ➡️ 데이터 정제 ➡️ 데이터 라벨링 ➡️ 데이터학습

 


 

 

출처:  과학기술정보통신부, 한국지능정 보사회진흥원의 「인공지능 학습용 데이터 품질관리 가이드라인 v2.0 - 품질관리 안내서」 

반응형
저작자표시 비영리 변경금지 (새창열림)

'지식 정보 Knowledge > 업무 공부 Studies' 카테고리의 다른 글

[SQL] PostgreSQL 기초 강의 추천 (Udemy 데이터 역량 강화를 위한 SQL 부트캠프)  (0) 2024.03.31
[파이썬] 코알못 직장인 파이썬 기초 강의 추천 (Udemy Python 부트캠프)  (1) 2024.03.01
[합격 수기] 제56회 DAP 데이터아키텍처 전문가 합격 (데이터 자격 시험/자격증/한국데이터산업진흥원)  (2) 2022.07.04
💻자격증 합격률 총정리📈(정보처리기사, 빅데이터분석기사, 정보보안기사, DAP/DAsP, ADP/ADsP, SQLP/SQLD)  (0) 2022.06.29
[요약] 인공지능 학습용 데이터 품질관리 안내서_V. 품질관리 프레임워크  (0) 2022.04.26
'지식 정보 Knowledge/업무 공부 Studies' 카테고리의 다른 글
  • [파이썬] 코알못 직장인 파이썬 기초 강의 추천 (Udemy Python 부트캠프)
  • [합격 수기] 제56회 DAP 데이터아키텍처 전문가 합격 (데이터 자격 시험/자격증/한국데이터산업진흥원)
  • 💻자격증 합격률 총정리📈(정보처리기사, 빅데이터분석기사, 정보보안기사, DAP/DAsP, ADP/ADsP, SQLP/SQLD)
  • [요약] 인공지능 학습용 데이터 품질관리 안내서_V. 품질관리 프레임워크
H 에이치
H 에이치
산만과 꾸준이 공존할 수 있다면 혼란해도 괜찮겠다 싶습니다.
H 에이치
H's Blog
H 에이치
  • 분류 전체보기 (102)
    • 데이터베이스 Database (17)
      • 그래프DB_Neo4j (4)
      • RDBMS_Oracle (8)
      • 프로젝트 Project (3)
    • 지식 정보 Knowledge (18)
      • 컴퓨터 Tips (7)
      • 업무 공부 Studies (6)
      • 일상 Daily Life (5)
    • 취미생활 Hobby (35)
      • 책 Book (6)
      • 운동 Workout (20)
      • 공연 전시 Exhibition (5)
      • 언어 Language (4)
    • Random Things (3)
    • 서울 Seoul (25)
      • 식당 Restaurant (16)
      • 술과 커피 Bar & Cafe (9)
    • 경기 고양 Goyang (3)
      • 식당 Restaurant (3)
      • 술과 커피 Bar & Cafe (0)
반응형
전체
오늘
어제

인기 글

hELLO · Designed By 정상우.v4.2.2
H 에이치
[요약] 인공지능 학습용 데이터 품질관리 안내서_I. 서론 ~ II. 개요
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.