3 .c 0 128 64 192 32 160 96 224 16 144 80 208 48 176 112 240 8 136 72 200 40 168 104 232 24 152 88 216 56 184 120 248 4 132 68 196 36 164 100 228 20 148 84 212 52 180 116 244 12 140 76 204 44 172 108 236 28 156 92 220 60 188 124 252 2 130 66 194 34 162 98 226 18 146 82 210 50 178 114 242 10 138 74 202 42 170 106 234 26 154 90 218 58 186 122 250 6 134 70 198 38 166 102 230 22 150 86 214 54 182 118 246 14 142 78 206 46 174 110 238 30 158 94 222 62 190 126 254 1 129 65 193 33 161 97 225 17 145 81 209 49 177 113 241 9 137 73 201 41 169 105 233 25 153 89 217 57 185 121 249 5 133 69 197 37 165 101 229 21 149 85 213 53 181 117 245 13 141 77 205 45 173 109 237 29 157 93 221 61 189 125 253 3 131 67 195 35 163 99 227 19 147 83 211 51 179 115 243 11 139 75 203 43 171 107 235 27 155 91 219 59 187 123 251 7 135 71 199 39 167 103 231 23 151 87 215 55 183 119 247 15 143 79 207 47 175 111 239 31 159 95 223 63 191 127 255
8 .c "0x%08lx = 0x%08lx\n"
10 .c "0x%016lx = 0x%016lx\n"
13 #define BIT2(OP, ARG, RES, R0, R1) \
16 beqi OP##R0##R1##ARG %R0 RES \
20 #define BIT1(OP, ARG, RES, V0, V1, V2, R0, R1, R2) \
21 BIT2(OP, ARG, RES, V0, V0) \
22 BIT2(OP, ARG, RES, V0, V1) \
23 BIT2(OP, ARG, RES, V0, V2) \
24 BIT2(OP, ARG, RES, V0, R0) \
25 BIT2(OP, ARG, RES, V0, R1) \
26 BIT2(OP, ARG, RES, V0, R2)
28 #define BIT(OP, ARG, RES, V0, V1, V2, R0, R1, R2) \
29 BIT1(OP, ARG, RES, V1, V2, R0, R1, R2, V0) \
30 BIT1(OP, ARG, RES, V2, R0, R1, R2, V0, V1) \
31 BIT1(OP, ARG, RES, R0, R1, R2, V0, V1, V2) \
32 BIT1(OP, ARG, RES, R1, R2, V0, V1, V2, R0) \
33 BIT1(OP, ARG, RES, R2, V0, V1, V2, R0, R1)
35 #define RBIT(ARG, RES) \
36 BIT(rbit, ARG, RES, v0, v1, v2, r0, r1, r2)
56 blti rbit_table_loop %v1 __WORDSIZE
68 movi %r1 0x5555555555555555
70 rshi_u %r2 %r0 1 // r2 = r0 >> 1
71 andr %r2 %r2 %r1 // r2 &= r1
72 andr %v0 %r0 %r1 // v0 = r0 & r1
73 lshi %v0 %v0 1 // v0 <<= 1
74 orr %r0 %r2 %v0 // r0 = r2 | v0
78 movi %r1 0x3333333333333333
80 rshi_u %r2 %r0 2 // r2 = r0 >> 2
81 andr %r2 %r2 %r1 // r2 &= r1
82 andr %v0 %r0 %r1 // v0 = r0 & r1
83 lshi %v0 %v0 2 // v0 <<= 2
84 orr %r0 %r2 %v0 // r0 = r2 | v0
88 movi %r1 0x0f0f0f0f0f0f0f0f
90 rshi_u %r2 %r0 4 // r2 = r0 >> 4
91 andr %r2 %r2 %r1 // r2 &= r1
92 andr %v0 %r0 %r1 // v0 = r0 & r1
93 lshi %v0 %v0 4 // v0 <<= 4
94 orr %r0 %r2 %v0 // r0 = r2 | v0
98 movi %r1 0x00ff00ff00ff00ff
100 rshi_u %r2 %r0 8 // r2 = r0 >> 8
101 andr %r2 %r2 %r1 // r2 &= r1
102 andr %v0 %r0 %r1 // v0 = r0 & r1
103 lshi %v0 %v0 8 // v0 <<= 8
104 orr %r0 %r2 %v0 // r0 = r2 | v0
106 rshi_u %r2 %r0 16 // r2 = r0 >> 16
107 lshi %v0 %r0 16 // v0 = r0 << 16
108 orr %r0 %r2 %v0 // r0 = r2 | v0
110 movi %r1 0x0000ffff0000ffff
111 rshi_u %r2 %r0 16 // r2 = r0 >> 16
112 andr %r2 %r2 %r1 // r2 &= r1
113 andr %v0 %r0 %r1 // v0 = r0 & r1
114 lshi %v0 %v0 16 // v0 <<= 16
115 orr %r0 %r2 %v0 // r0 = r2 | v0
116 rshi_u %r2 %r0 32 // r2 = r0 >> 32
117 lshi %v0 %r0 32 // v0 = r0 << 32
118 orr %r0 %r2 %v0 // r0 = r2 | v0
130 rbit_loop_loop: // while (%r1 >>= 1) > 0
131 rshi %r1 %r1 1 // %r1 >>= 1
132 blei rbit_loop_done %r1 0 // no loop if %r1 <= 0
133 lshr %v0 %r2 %r1 // %v0 = %r2 << %r1
134 xorr %r2 %r2 %v0 // %r2 ^= %v0
135 rshr %v0 %r0 %r1 // %v0 = %r0 >> %r1
136 andr %v0 %v0 %r2 // %r2 = %v0 & %r2
137 lshr %v1 %r0 %r1 // %v1 = %r0 << %r1
138 comr %r0 %r2 // %r0 = ~%r2
139 andr %v1 %r0 %v1 // %v1 &= %r0
140 orr %r0 %v0 %v1 // %r0 = %v0 | %v1
155 ldxi %r0 %v0 $(__WORDSIZE >> 3)
167 movi %v0 0x984a137ffec85219
183 finishi rbit_unrolled
219 RBIT(0x8a13c851, 0x8a13c851)
220 RBIT(0x12345678, 0x1e6a2c48)
221 RBIT(0x02468ace, 0x73516240)
223 RBIT(0x984a137ffec85219, 0x984a137ffec85219)
224 RBIT(0x123456789abcdef0, 0x0f7b3d591e6a2c48)
225 RBIT(0x02468ace013579bd, 0xbd9eac8073516240)