PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 6월 24일

Krea 2 technical report - open image models compete on creative control, not only fidelity

Krea는 Krea 2 technical report를 공개하며 K2 Raw와 K2 Turbo 계열의 open-weights text-to-image foundation model을 설명했다. 보고서는 data curation, diffusion transformer architecture, multi-stage training, prompt expander, style-reference…

본문 읽기원문 보기

발행일

2026년 6월 24일

업데이트

2026년 6월 24일

주제

AI
모델
오픈소스
트렌드
원문 보기

배경 및 맥락

Text-to-image 모델은 고해상도, 텍스트 렌더링, photorealism, prompt following에서 빠르게 발전했지만, 많은 제품이 비슷한 default aesthetic으로 수렴하는 문제가 있다. 실무 디자이너와 크리에이티브 팀은 하나의 polished output보다 다양한 무드, 스타일, composition을 탐색하고 의도한 방향으로 조절하는 기능을 원한다.

Krea 2 technical report는 이 문제를 foundation model 설계와 product control layer의 결합으로 다룬다. Krea는 단순 image SaaS가 아니라 자체 모델, 데이터 인프라, style-reference system, prompt expansion, post-training pipeline을 갖춘 creative AI lab으로 이동하고 있음을 보여준다.


핵심 내용

Krea는 2026년 6월 23일 Krea 2 technical report를 공개했다. 모델 weights와 inference는 permissive license로 제공된다고 설명하며, release page, Hugging Face weights, GitHub code를 함께 연결했다. 보고서는 pretraining, midtraining, supervised finetuning, preference optimization, reinforcement learning, optional timestep distillation로 이어지는 multi-stage pipeline을 제시한다.

데이터 측면에서 Krea는 AI-generated images를 pretraining mix에서 제외했다고 명시했다. 합성 이미지는 빠른 shortcut이 될 수 있지만 output distribution bias와 품질 상한을 만든다고 판단했기 때문이다. 아키텍처는 diffusion transformer 기반이며 GQA, sigmoid-gated attention, SwiGLU, RMSNorm, Qwen3-VL text encoder, Qwen Image VAE/FLUX 2 VAE 등을 비교했다. 학습에는 256px, 512px, 1024px curriculum, 8-bit training, preference optimization, prompt-specific rubric reward, artifact reward model이 포함됐다.


경쟁 구도 / 비교

최근 Notion cache의 PP-OCRv6는 문서 OCR 특화 소형 모델이었고, Krea 2는 creative generation을 위한 foundation model이다. 둘 다 specialized visual AI라는 공통점은 있지만, Krea의 핵심은 OCR 정확도가 아니라 style diversity, prompt control, reference image steering, text rendering, artifact suppression이다.

Midjourney, Ideogram, Flux, Runway 같은 이미지/비디오 모델 경쟁이 품질과 속도를 앞세웠다면, Krea는 open weights와 product-level creative controls를 함께 내세운다. 이는 모델을 API 뒤에 숨기는 전략과 달리, 커뮤니티 검증과 fine-tuning 가능성을 경쟁 요소로 만든다.


의미

산업적으로 generative design 시장은 단순 생성 품질에서 creative workflow ownership으로 이동하고 있다. 누가 모델을 소유하고, 어떤 license로 배포하며, 사용자가 style space를 얼마나 세밀하게 탐색할 수 있는지가 제품 채택을 좌우한다.

실무적으로 디자인 자동화나 content production pipeline을 만드는 팀은 image model을 leaderboard 순위만으로 선택하면 안 된다. prompt expander가 원래 의도를 덮어쓰는지, style reference가 content leakage를 일으키는지, text rendering과 human anatomy artifact를 어떻게 억제하는지, 자체 브랜드 데이터로 fine-tuning할 수 있는지까지 평가해야 한다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 25일GLM-5.2 - open long-context models push agentic coding toward 1M-token workspacesZ.AI는 GLM-5.2를 공개하며 1M-token context, flexible effort levels, MIT license, long-horizon coding benchmark 성능을 전면에 내세웠다. 공개 글은 IndexShare로 1M context에서 per-token FLOPs를 2.9x 줄이고, Terminal Bench 2.1 81.0, SWE-bench Pro…2026년 5월 17일Local open models on laptops — 오픈모델 성능 향상이 하드웨어보다 아키텍처 혁신에 더 크게 의존하기 시작Hugging Face 커뮤니티 글은 2026년 5월 11일, 128GB MacBook Pro 기준 로컬에서 구동 가능한 최상위 오픈웨이트 모델의 성능이 2년 사이 Artificial Analysis Intelligence Index 10 → 47로 상승했다고 정리했다. 같은 기간 RAM 상한은 128GB로 거의 고정됐고, 향상의 핵심 동인은 sparse MoE, mixed…2026년 5월 11일EMO — MoE가 실제 배포 가능한 모듈형 모델로 진화할 수 있음을 보여준 AllenAI의 오픈 릴리즈AllenAI는 2026년 5월 8일 EMO를 공개했다. 이 모델은 1B active / 14B total parameter, 128 experts, 1T tokens 규모의 MoE를 문서 단위 shared expert pool 제약으로 학습해, 전체 expert의 12.5%만 사용해도 near full-model 성능을 유지하도록 설계됐다.2026년 5월 5일Accelerating Gemma 4: faster inference with multi-token prediction drafters — 오픈모델 경쟁의 기준이 benchmark보다 latency economics로 이동Google은 2026년 5월 5일 Gemma 4용 Multi-Token Prediction (MTP) drafters를 공개했다. 이 speculative decoding 구조는 Gemma 4 target model과 경량 drafter를 결합해 output 품질 저하 없이 최대 3배 속도 향상을 제공하며, Gemma 4는 출시 수주 만에 6천만 다운로드를 넘겼다고 밝혔다.