aboutsummaryrefslogtreecommitdiffstats
path: root/test/CodeGen/X86/vector-ctpop.ll
blob: 59d67928c6fad043620eda0be20f15f9d5bbccc5 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=avx2                | FileCheck -check-prefix=AVX2 %s
; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=avx  -mattr=-popcnt | FileCheck -check-prefix=AVX1-NOPOPCNT %s
; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=avx2 -mattr=-popcnt | FileCheck -check-prefix=AVX2-NOPOPCNT %s

; Vector version of:
; v = v - ((v >> 1) & 0x55555555)
; v = (v & 0x33333333) + ((v >> 2) & 0x33333333)
; v = (v + (v >> 4) & 0xF0F0F0F)
; v = v + (v >> 8)
; v = v + (v >> 16)
; v = v + (v >> 32) ; i64 only

define <8 x i32> @test0(<8 x i32> %x) {
; AVX2-LABEL: @test0
entry:
; AVX2:  vpsrld  $1, %ymm
; AVX2-NEXT:  vpbroadcastd
; AVX2-NEXT:  vpand
; AVX2-NEXT:  vpsubd
; AVX2-NEXT:  vpbroadcastd
; AVX2-NEXT:  vpand
; AVX2-NEXT:  vpsrld  $2
; AVX2-NEXT:  vpand
; AVX2-NEXT:  vpaddd
; AVX2-NEXT:  vpsrld  $4
; AVX2-NEXT:  vpaddd
; AVX2-NEXT:  vpbroadcastd
; AVX2-NEXT:	vpand
; AVX2-NEXT:	vpsrld	$8
; AVX2-NEXT:	vpaddd
; AVX2-NEXT:	vpsrld	$16
; AVX2-NEXT:	vpaddd
; AVX2-NEXT:	vpbroadcastd
; AVX2-NEXT:	vpand
  %y = call <8 x i32> @llvm.ctpop.v8i32(<8 x i32> %x)
  ret <8 x i32> %y
}

define <4 x i64> @test1(<4 x i64> %x) {
; AVX2-NOPOPCNT-LABEL: @test1
entry:
;	AVX2-NOPOPCNT: vpsrlq	$1, %ymm
;	AVX2-NOPOPCNT-NEXT: vpbroadcastq
;	AVX2-NOPOPCNT-NEXT: vpand
;	AVX2-NOPOPCNT-NEXT: vpsubq
;	AVX2-NOPOPCNT-NEXT: vpbroadcastq
;	AVX2-NOPOPCNT-NEXT: vpand
;	AVX2-NOPOPCNT-NEXT: vpsrlq	$2
;	AVX2-NOPOPCNT-NEXT: vpand
;	AVX2-NOPOPCNT-NEXT: vpaddq
;	AVX2-NOPOPCNT-NEXT: vpsrlq	$4
;	AVX2-NOPOPCNT-NEXT: vpaddq
;	AVX2-NOPOPCNT-NEXT: vpbroadcastq
;	AVX2-NOPOPCNT-NEXT: vpand
;	AVX2-NOPOPCNT-NEXT: vpsrlq	$8
;	AVX2-NOPOPCNT-NEXT: vpaddq
;	AVX2-NOPOPCNT-NEXT: vpsrlq	$16
;	AVX2-NOPOPCNT-NEXT: vpaddq
;	AVX2-NOPOPCNT-NEXT: vpsrlq	$32
;	AVX2-NOPOPCNT-NEXT: vpaddq
;	AVX2-NOPOPCNT-NEXT: vpbroadcastq
;	AVX2-NOPOPCNT-NEXT: vpand
  %y = call <4 x i64> @llvm.ctpop.v4i64(<4 x i64> %x)
  ret <4 x i64> %y
}

define <4 x i32> @test2(<4 x i32> %x) {
; AVX2-NOPOPCNT-LABEL: @test2
; AVX1-NOPOPCNT-LABEL: @test2
entry:
; AVX2-NOPOPCNT:	vpsrld	$1, %xmm
; AVX2-NOPOPCNT-NEXT:	vpbroadcastd
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX2-NOPOPCNT-NEXT:	vpsubd
; AVX2-NOPOPCNT-NEXT:	vpbroadcastd
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX2-NOPOPCNT-NEXT:	vpsrld	$2
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX2-NOPOPCNT-NEXT:	vpaddd
; AVX2-NOPOPCNT-NEXT:	vpsrld	$4
; AVX2-NOPOPCNT-NEXT:	vpaddd
; AVX2-NOPOPCNT-NEXT:	vpbroadcastd
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX2-NOPOPCNT-NEXT:	vpsrld	$8
; AVX2-NOPOPCNT-NEXT:	vpaddd
; AVX2-NOPOPCNT-NEXT:	vpsrld	$16
; AVX2-NOPOPCNT-NEXT:	vpaddd
; AVX2-NOPOPCNT-NEXT:	vpbroadcastd
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT:	vpsrld	$1, %xmm
; AVX1-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT-NEXT:	vpsubd
; AVX1-NOPOPCNT-NEXT:	vmovdqa
; AVX1-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT-NEXT:	vpsrld	$2
; AVX1-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT-NEXT:	vpaddd
; AVX1-NOPOPCNT-NEXT:	vpsrld	$4
; AVX1-NOPOPCNT-NEXT:	vpaddd
; AVX1-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT-NEXT:	vpsrld	$8
; AVX1-NOPOPCNT-NEXT:	vpaddd
; AVX1-NOPOPCNT-NEXT:	vpsrld	$16
; AVX1-NOPOPCNT-NEXT:	vpaddd
; AVX1-NOPOPCNT-NEXT:	vpand
  %y = call <4 x i32> @llvm.ctpop.v4i32(<4 x i32> %x)
  ret <4 x i32> %y
}

define <2 x i64> @test3(<2 x i64> %x) {
; AVX2-NOPOPCNT-LABEL: @test3
; AVX1-NOPOPCNT-LABEL: @test3
entry:
; AVX2-NOPOPCNT:	vpsrlq	$1, %xmm
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX2-NOPOPCNT-NEXT:	vpsubq
; AVX2-NOPOPCNT-NEXT:	vmovdqa
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX2-NOPOPCNT-NEXT:	vpsrlq	$2
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX2-NOPOPCNT-NEXT:	vpaddq
; AVX2-NOPOPCNT-NEXT:	vpsrlq	$4
; AVX2-NOPOPCNT-NEXT:	vpaddq
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX2-NOPOPCNT-NEXT:	vpsrlq	$8
; AVX2-NOPOPCNT-NEXT:	vpaddq
; AVX2-NOPOPCNT-NEXT:	vpsrlq	$16
; AVX2-NOPOPCNT-NEXT:	vpaddq
; AVX2-NOPOPCNT-NEXT:	vpsrlq	$32
; AVX2-NOPOPCNT-NEXT:	vpaddq
; AVX2-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT:	vpsrlq	$1, %xmm
; AVX1-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT-NEXT:	vpsubq
; AVX1-NOPOPCNT-NEXT:	vmovdqa
; AVX1-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT-NEXT:	vpsrlq	$2
; AVX1-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT-NEXT:	vpaddq
; AVX1-NOPOPCNT-NEXT:	vpsrlq	$4
; AVX1-NOPOPCNT-NEXT:	vpaddq
; AVX1-NOPOPCNT-NEXT:	vpand
; AVX1-NOPOPCNT-NEXT:	vpsrlq	$8
; AVX1-NOPOPCNT-NEXT:	vpaddq
; AVX1-NOPOPCNT-NEXT:	vpsrlq	$16
; AVX1-NOPOPCNT-NEXT:	vpaddq
; AVX1-NOPOPCNT-NEXT:	vpsrlq	$32
; AVX1-NOPOPCNT-NEXT:	vpaddq
; AVX1-NOPOPCNT-NEXT:	vpand
  %y = call <2 x i64> @llvm.ctpop.v2i64(<2 x i64> %x)
  ret <2 x i64> %y
}

declare <4 x i32> @llvm.ctpop.v4i32(<4 x i32>)
declare <2 x i64> @llvm.ctpop.v2i64(<2 x i64>)

declare <8 x i32> @llvm.ctpop.v8i32(<8 x i32>)
declare <4 x i64> @llvm.ctpop.v4i64(<4 x i64>)