ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터 공부하기] #3. 분류분석(하나) 대박
    카테고리 없음 2020. 2. 23. 23:36

    >


    분류 분석:세로 프게데ー타을 연구하고 기존 분류/정의된 집단에 배치하는 것을 의미.:반응 변수가 범주형 1때 예측 모델은 세로프게 자료에 관한 분류가 주된 목적, 반응 변수가 연속형의 경우 값을 예측할 목적.먼저 다룬 군집 분석은 개체 간의 유사성을 기반으로 그룹화, 이질성에 의하여 세분화. 거기에서 데이터 마이닝/모델링의 준비 단계에 주로 활용된다. ​ 1. 로지스틱 회귀 모델-종속 변수는 '카테고리형'독립 변수는 '연속형'/'이산형'1경우 두 변수 간 관계식을 통해서 데이터를 집단으로 분리하고 싶을 때에 사용하는 방법.-지도 학습-회귀 계수(변수가 성공/실패로 구성된다면)-->오즈(Odds)=성공률/실패율=P(1-P):성공이 1어의 날 가능성이 많다 높다면 오즈는 1보다 많이 높다.


    * 최대우도 추정법: 관측치가 대가족이 된 모집단에서 하과인의 표본으로 추출되는 현실성을 가장 크게 하는 회귀계수 추정 비법. 표본의 크기가 클수록 좋은 sound. ​ 2. 신경망 모델-이프료크츄은(Input layer)-->웅닉츄은(hidden layer)->츄루료크츄은(output layer)-은 닉츄은, 은닉 노드 수 결정할 때 고려해야 할 점:다층 신경망은 단층에 비해서 훈련이 어렵고 노드 수가 많을수록 과적 합의 현실성이 크다. 그러나 수가 적으면 의사표결의 경계를 만들 수 없다.* 과적합: test set에서 training set에 대해 정확한 모델이 과오하는 경우.-출력층의 노드수는 출력범주의 수로 표결, 입력층의 노드수는 입력차원의 수로 표결.-지도학습-역전파 알고리즘: 인공지능의 한 분야인 인공신경망(ANN, Artificial neural network)을 학습시키기 위한 가장 기본적이고 일반적인 알고리즘.-출력값이 희망값과 달리 과오하면 입력값에 가중치를 조절합니다.


    >


    [장·단점] - 변수가 많은 비선형 관계에 적용하는데 유용하며, 작업 sound에 대해 민감하지 않으며 입력변수와 결과변수가 연속형이 과도한 이산형 하나라도 때 사용 가능하다.하지만 결과에 대한 해석이 쉽지 않을 수 있고 지상해에 빠질 수 있기 때문에 데이터의 정규화를 거쳐야 합니다. 또 모형이 복잡하면 훈련 과정에 시간이 많이 걸린다. 최적의 가중치를 단번에 찾기가 어렵고, 가중치를 계속합니다. ​ 3. 의사자 교루그와잉무 모형:의사 자결 규칙을 그와잉무 구조로 나 받아 모두 자료를 몇개의 소집단에서 붕류하고 저의 예측을 수행하는 분석 방법의 뿌리 부분:시작 때 모두 자료를 포함한다.중간절:친절과 자절 양쪽에 있는 절.마지막 절: 아이의 관절이 없는 절.가지 분할:그와잉무의 가치를 발생하는 과정 가지 치기:발생한 가지를 잘라내서 모형을 단순화하는 과정(마지막 마디가 당싱무 많으면 그와죠크하프이 바루 셍후와루을 수 있기 때문에, MSE등을 고려하고 분가해야 한다.)3하나)목표 변수가 이산형인 경우_분류 그와잉무-알고리즘 분류 및 변수 선택 기준:카치에궁고프통 계량, 지니 지수, 엔트로피 지수 3-2)목표 변수가 연속형의 경우_회귀 그와잉무-알고리즘 분류 및 변수 선택 기준:ANOVA F통 계량, 분산의 감소량[장점과 단점]-구조가 단순 해석이 용이하다. 선형성, 정규성, 등분산성 등과 같은 수학적 소가족이 불필요한 비모수적 모형이었다 계산 비용이 낮아 대규모 데이터 세트에서도 비교적 빨리 연산이 가능하다. 수치형, 카테고리형 변수 모두 사용할 수 있다. (직관적이므로 실무에서 자주 사용된다.) - 분류 기준치의 경계선 부근의 자료값은 오차가 많다. 새로운 데이터에 대한 예측이 불안정해질 가능성이 있다. ( 다른 모델에 비해서 상대적으로 모델이 불안정이다.)​ 4. 앙상블의 모형-몇가지 분류의 모형에 따른 결과를 종합하고 분류의 정확도를 높이는 방법.-앙상블 모델이 단 하나 분류기보다 더 좋은 예측 능력을 가지려면 한가지)각각의 분류기가 상호 독립적이고, 2)각 분류기 오붕류률은 적어도 50%보다는 낮지 않으면 안 됩니다.대체로 앙상블형은 이상값에 민감하지 않고 과적합 문제를 피할 수 있다.4하나)배깅- 원데이터 집합에서 크기가 같은 표본을 몇번이나 단순하다 복원 추출하고 각 표본(붓 고리 표본)에 대해서 분류기를 발생한 뒤 그 결과를 앙상블.4-2)부스팅-배깅과 유사한 방법, 붓 고리 표본을 구성하는 과정에서 각 자료에 다른 가중치를 두는 방법. 분류의 잘못된 데이터에 의한 큰 가중을 두고 표본을 추출합니다.4-3)랜덤 포레스트-배깅에 랜덤의 과정을 추가한 방법. 복수의 의사 자결과 인무를 앙상블.


    >


    *분류분석이 사용되는 예:은행에서 대출을 받으러 온 사람이 있을 때 이 사람이 파산할 기회가 높은지 낮은지 기존 분류체계에 따라 예측을 해보는 것. 기존 고객을 데이터로 분류 체계(ex. 의사 결정 모델)을 학습시킴으로써**전에#2. 입찰이었다 군집 분석은 선전 행사를 진행되기 때문에 기존 고객을 'RFM분석 법'에 의해서<구매 치에궁송(Recency), 구입 빈도(Frequency), 총 구매 금액(Monetary)>을 기준으로 집단화하는 것.​**하도우프이 나의 스파크와 같은 분산 퇴근이 시스템이 보편화되고, 스토우리지 가격이 낫아탄소 대량의 데이터 확보가 가능하다는 것+GPGPU(General-Purpose computing on graphics processing units)기술-->인공 신경망(ANN)의 전성기(위에 2번 노하우)ANN의 은닉 계층의 레이어를 두개 이상 실현할 경우-->심층 신경망, 디플러 오닌!-->디플러 닌을 통해서 제한된 상황(ex. 의료, 법원 판결, 바둑 등)에서의 인공 지능에 대한 조사가 이뤄지고 있다. 게다가 인공지능이 클라우드 환경을 이용할 수 있게 되어, 필요한 가끔과 비용이 삭감되고 있다.딥러닝, 머신러닝을 통한 '인공지능' 기술 구현: 머신러닝은 사람이 데이터의 특징, 분류 기준 등을 고려해 패턴을 만들어야 한다.(그러므로, 사람의 치우친 지식등이 반영되지 않게 주의):딥러닝은 입력 데이터 자체를 학습해, 스스로 패턴을 안다.(인간의 뇌구조와 비슷한 인공 신경망을 바탕으로 하기 위해) : 인공지능이 활용되는 예로는 자율주행, 검색엔진, 음성비서, 바둑, 이미지 인식, 로봇 등이 있다.[참고 자료]-데이터 분석 준전문가 1권에서 마치겠습니다(황소 걸음 아카데미)


    이 글은 거의 매일 중앙일보 기사인데, 분류분석 공부만 안끝났다면 다시 한번 읽어보자고 처음부!



    댓글

Designed by Tistory.